Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Semana 08 09 10 - ISPC DOC - BIG DATA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 4

TECNICATURA SUPERIOR EN

Nuevas Tecnologías Aplicadas al Agro

BIG DATA

Módulo Tecnología en la gestión agroindustrial II

Tema

Recolección y almacenamiento de datos


Procesamiento, análisis y visualización de
datos.
ISPC / Tecnicatura Superior en Nuevas Tecnologías Aplicadas al Agro

ÍNDICE
ÍNDICE 1
Proceso ETL en big data 2
Objetivo 2
Apache Spark 3
Hadoop 3
Manual práctico 3

1
ISPC / Tecnicatura Superior en Nuevas Tecnologías Aplicadas al Agro

Proceso ETL en big data


Hasta el momento veníamos viendo big data desde aspectos teóricos. En

otras asignaturas, se abordó python con librerías como pandas, se utilizó

dataframes, entre otros recursos, lo que dió la posibilidad de recolectar, analizar y

procesar datos para luego almacenarlos en una base de datos o visualizarlos.

Cuando se trabaja con grandes volúmenes de datos, la forma de trabajo

cambia, ya que necesitamos mayor capacidad de procesamiento y memoria, lo

que implica el despliegue de clusters para abordar esta cantidad de datos.

Por suerte existen frameworks, que permiten abstraernos de estos cluster y

trabajar de una forma muy similar a como lo hacíamos con python y pandas, pero

con grandes volúmenes de datos. Entre ellos los más conocidos son Apache

Spark y Hadoop.

Objetivo

El objetivo de este módulo es que abordemos de manera práctica estos

contenidos, pero el problema es que el manejo e implementación de estos cluster

son muy costosos. Es por ello que seleccioné algunos videos de youtube muy

interesantes para entender cada una de estas herramientas y un material

bibliográfico muy completo que muestra cómo implementar paso a paso estas

herramientas en un servidor linux.

El objetivo por cuestiones de costos no es llevar a cabo estos laboratorios,

pero si que los vean, los comprendan y puedan determinar el alcance y los usos

de cada una de estas herramientas.

2
ISPC / Tecnicatura Superior en Nuevas Tecnologías Aplicadas al Agro

Apache Spark

¿Qué es y cómo funciona?

Apache Spark | Te lo explico en 5 minutos!

Analítica de datos con Apache Spark

Data Science desde 0: Analítica de datos Big Data con Apache Spark

Hadoop

Es también un framework al igual que Spark, es más antiguo y fue

perdiendo mercado frente al producto de Apache.

Veamos que és y las diferencias entre ellos:

¿Qué es Hadoop?

QUÉ ES HADOOP

Diferencias

APACHE SPARK vs HADOOP (Español)

Manual práctico

Los invito a leer el manual práctico adjunto como material complementario

donde se explica paso a paso la implementación de estos frameworks.

08. Manual práctico para el aprendizaje de big data autor Diego Fernández …

También podría gustarte