Mod1 - Introducción Big Data y Python

Módulo 1 - Introducción, Big Data y Python
SANTANDER MEXICO
Objetivo: Conocer los objetivos del curso y un primer contacto con Big Data e Inteligencia Artificial. Se
impartirá con más detalle la sintaxis básica del lenguaje de programación Python así como las aplicaciones
que este lenguaje tiene en el ámbito de la ciencia de datos.
ÍNDICE
1. Introducción al curso y Big Data
2. Ambiente de desarrollo Jupyter y Spyder
3. Programación orientada a objetos
4. Variables
5. Condiciones
6. Ciclos
Introducción al curso y Big
Data
01
1. Big Data - Hadoop

Big Data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan los
negocios cada día. Pero no es la cantidad de datos lo que es importante. Lo que importa con el Big Data es lo que las
organizaciones hacen con los datos. Big Data se puede analizar para obtener ideas que conduzcan a mejores decisiones y
movimientos de negocios estratégicos.
Hadoop es un framework opensource para almacenar datos y ejecutar

aplicaciones en clusters de hardware básicos
El core de Hadoop se divide en 2 componentes
1. Hadoop Distributed File System (HDFS).
Edit Master text styles 2. MapReduce
2. Ecosistema Hadoop
Si lo que necesitamos es realizar procesamiento de datos a gran HUE es un proyecto open source que a través de una interfaz
escala, necesitamos dos cosas: web nos permitirá acceder a los componentes más comunes
1. Un gran lugar para almacenar grandes cantidades de datos de nuestro cluster Hadoop.
(HDFS)
2. Un sistema para el procesamiento (MapReduce) Hive es una extracción en la parte superior de MapReduce.
Un conjunto de máquinas que ejecutan HDFS y MapReduce se Permite a los usuarios poder consultar los datos del cluster
conoce como cluster Hadoop hadoop sin necesidad de saber JAVA o MapReduce utilizando
el lenguaje HiveQL
Edit Master text styles
PIG es una alternativa de abstracción para realizar programas
MpaReduce. Usa un lenguaje de scripting llamado PigLatin
Flume y sqoop ayudan a obtener datos en el cluster Hadoop
Oozie es una herramienta que ayuda a definir el flujo de

trabajo para un cluster hadoop, encargándose de la ejecución
de los trabajos en el orden correcto.
Hbase es la base de datos de Hadoop. Es una base de datos

NoSQL que realiza almacenamiento masivo de datos.
3. Spark
Apache Spark es un motor de computación El modo en que Spark paraleliza las tareas está muy
rápido y de propósito general para el ligado con la principal abstracción necesaria al programar
procesamiento de grandes cantidades de con Spark: el RDD (Resilient Distributed Dataset).
datos, con módulos integrados para streaming, Un RDD en Spark es simplemente una colección
SQL, aprendizaje automático y procesamiento distribuida inmutable de objetos. Cada RDD se divide en
de grafos. varias particiones, que pueden ser calculados en
Es altamente accesible debido a que facilita diferentes nodos del cluster. Un RDD puede contener
APIs para su acceso desde Scala, Java o cualquier tipo de Python u objetos Java o Scala,
Python. También ofrece un interfaz SQL y
incluyendo clases definidas por el usuario
distintas librerías que le añaden valor.
4. Hadoop MapReduce vs Spark
MapReduce Spark

4. Python
Python es un lenguaje multiparadigma, esto significa que combina propiedades de diferentes paradigmas de programación.
Principalmente es un lenguaje orientado a objetos, todo en Python es un objeto, pero también incorpora aspectos de la
programación imperativa, funcional, procedural y reflexiva.
Una de las características más reseñables de Python es que es un lenguaje interpretado, esto significa que no se compila a
diferencia de otros lenguajes como Java o C/C++, sino que es interpretado en tiempo de ejecución.
¿Qué lenguaje de programación recomendaría a los nuevos científicos de
datos aprender primero? (Fuente Kaggle)
Gracias.
Nuestro propósito es ayudar a personas
y empresas a prosperar.
Nuestra cultura se basa en la creencia

de que todo lo que sabemos debe ser

Mod1 - Introducción Big Data y Python

Cargado por

Copyright:

Formatos disponibles

Mod1 - Introducción Big Data y Python

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mod1 - Introducción Big Data y Python

Cargado por

Copyright:

Formatos disponibles

Módulo 1 - Introducción, Big Data y Python

2. Ambiente de desarrollo Jupyter y Spyder

3. Programación orientada a objetos

1. Big Data - Hadoop

Hadoop es un framework opensource para almacenar datos y ejecutar

Flume y sqoop ayudan a obtener datos en el cluster Hadoop

Oozie es una herramienta que ayuda a definir el flujo de

Hbase es la base de datos de Hadoop. Es una base de datos

4. Hadoop MapReduce vs Spark

Edit Master text styles

Nuestra cultura se basa en la creencia

También podría gustarte