Mod1 - Introducción Big Data y Python
Mod1 - Introducción Big Data y Python
Mod1 - Introducción Big Data y Python
SANTANDER MEXICO
Objetivo: Conocer los objetivos del curso y un primer contacto con Big Data e Inteligencia Artificial. Se
impartirá con más detalle la sintaxis básica del lenguaje de programación Python así como las aplicaciones
que este lenguaje tiene en el ámbito de la ciencia de datos.
ÍNDICE
1. Introducción al curso y Big Data
4. Variables
5. Condiciones
6. Ciclos
Introducción al curso y Big
Data
01
Módulo 1 - Introducción, Big Data y Python
2. Ecosistema Hadoop
Si lo que necesitamos es realizar procesamiento de datos a gran HUE es un proyecto open source que a través de una interfaz
escala, necesitamos dos cosas: web nos permitirá acceder a los componentes más comunes
1. Un gran lugar para almacenar grandes cantidades de datos de nuestro cluster Hadoop.
(HDFS)
2. Un sistema para el procesamiento (MapReduce) Hive es una extracción en la parte superior de MapReduce.
Un conjunto de máquinas que ejecutan HDFS y MapReduce se Permite a los usuarios poder consultar los datos del cluster
conoce como cluster Hadoop hadoop sin necesidad de saber JAVA o MapReduce utilizando
el lenguaje HiveQL
Edit Master text styles
PIG es una alternativa de abstracción para realizar programas
MpaReduce. Usa un lenguaje de scripting llamado PigLatin
3. Spark
Apache Spark es un motor de computación El modo en que Spark paraleliza las tareas está muy
rápido y de propósito general para el ligado con la principal abstracción necesaria al programar
procesamiento de grandes cantidades de con Spark: el RDD (Resilient Distributed Dataset).
datos, con módulos integrados para streaming, Un RDD en Spark es simplemente una colección
SQL, aprendizaje automático y procesamiento distribuida inmutable de objetos. Cada RDD se divide en
de grafos. varias particiones, que pueden ser calculados en
Es altamente accesible debido a que facilita diferentes nodos del cluster. Un RDD puede contener
APIs para su acceso desde Scala, Java o cualquier tipo de Python u objetos Java o Scala,
Python. También ofrece un interfaz SQL y
Edit Master text styles
incluyendo clases definidas por el usuario
distintas librerías que le añaden valor.
Módulo 1 - Introducción, Big Data y Python
MapReduce Spark
4. Python
Python es un lenguaje multiparadigma, esto significa que combina propiedades de diferentes paradigmas de programación.
Principalmente es un lenguaje orientado a objetos, todo en Python es un objeto, pero también incorpora aspectos de la
programación imperativa, funcional, procedural y reflexiva.
Una de las características más reseñables de Python es que es un lenguaje interpretado, esto significa que no se compila a
diferencia de otros lenguajes como Java o C/C++, sino que es interpretado en tiempo de ejecución.
¿Qué lenguaje de programación recomendaría a los nuevos científicos de
datos aprender primero? (Fuente Kaggle)
Edit Master text styles
Gracias.
Nuestro propósito es ayudar a personas
y empresas a prosperar.