Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Mod1 - Introducción Big Data y Python

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 9

Módulo 1 - Introducción, Big Data y Python

SANTANDER MEXICO
Objetivo: Conocer los objetivos del curso y un primer contacto con Big Data e Inteligencia Artificial. Se
impartirá con más detalle la sintaxis básica del lenguaje de programación Python así como las aplicaciones
que este lenguaje tiene en el ámbito de la ciencia de datos.
ÍNDICE
1. Introducción al curso y Big Data

2. Ambiente de desarrollo Jupyter y Spyder

3. Programación orientada a objetos

4. Variables

5. Condiciones

6. Ciclos
Introducción al curso y Big
Data

01
Módulo 1 - Introducción, Big Data y Python

1. Big Data - Hadoop


Big Data es un término que describe el gran volumen de datos, tanto estructurados como no estructurados, que inundan los
negocios cada día. Pero no es la cantidad de datos lo que es importante. Lo que importa con el Big Data es lo que las
organizaciones hacen con los datos. Big Data se puede analizar para obtener ideas que conduzcan a mejores decisiones y
movimientos de negocios estratégicos.

Hadoop es un framework opensource para almacenar datos y ejecutar


aplicaciones en clusters de hardware básicos
El core de Hadoop se divide en 2 componentes
1. Hadoop Distributed File System (HDFS).
Edit Master text styles 2. MapReduce
Módulo 1 - Introducción, Big Data y Python

2. Ecosistema Hadoop
Si lo que necesitamos es realizar procesamiento de datos a gran HUE es un proyecto open source que a través de una interfaz
escala, necesitamos dos cosas: web nos permitirá acceder a los componentes más comunes
1. Un gran lugar para almacenar grandes cantidades de datos de nuestro cluster Hadoop.
(HDFS)
2. Un sistema para el procesamiento (MapReduce) Hive es una extracción en la parte superior de MapReduce.
Un conjunto de máquinas que ejecutan HDFS y MapReduce se Permite a los usuarios poder consultar los datos del cluster
conoce como cluster Hadoop hadoop sin necesidad de saber JAVA o MapReduce utilizando
el lenguaje HiveQL
Edit Master text styles
PIG es una alternativa de abstracción para realizar programas
MpaReduce. Usa un lenguaje de scripting llamado PigLatin

Flume y sqoop ayudan a obtener datos en el cluster Hadoop

Oozie es una herramienta que ayuda a definir el flujo de


trabajo para un cluster hadoop, encargándose de la ejecución
de los trabajos en el orden correcto.

Hbase es la base de datos de Hadoop. Es una base de datos


NoSQL que realiza almacenamiento masivo de datos.
Módulo 1 - Introducción, Big Data y Python

3. Spark
Apache Spark es un motor de computación El modo en que Spark paraleliza las tareas está muy
rápido y de propósito general para el ligado con la principal abstracción necesaria al programar
procesamiento de grandes cantidades de con Spark: el RDD (Resilient Distributed Dataset).
datos, con módulos integrados para streaming, Un RDD en Spark es simplemente una colección
SQL, aprendizaje automático y procesamiento distribuida inmutable de objetos. Cada RDD se divide en
de grafos. varias particiones, que pueden ser calculados en
Es altamente accesible debido a que facilita diferentes nodos del cluster. Un RDD puede contener
APIs para su acceso desde Scala, Java o cualquier tipo de Python u objetos Java o Scala,
Python. También ofrece un interfaz SQL y
Edit Master text styles
incluyendo clases definidas por el usuario
distintas librerías que le añaden valor.
Módulo 1 - Introducción, Big Data y Python

4. Hadoop MapReduce vs Spark

MapReduce Spark

Edit Master text styles


Módulo 1 - Introducción, Big Data y Python

4. Python
Python es un lenguaje multiparadigma, esto significa que combina propiedades de diferentes paradigmas de programación.
Principalmente es un lenguaje orientado a objetos, todo en Python es un objeto, pero también incorpora aspectos de la
programación imperativa, funcional, procedural y reflexiva.

Una de las características más reseñables de Python es que es un lenguaje interpretado, esto significa que no se compila a
diferencia de otros lenguajes como Java o C/C++, sino que es interpretado en tiempo de ejecución.
¿Qué lenguaje de programación recomendaría a los nuevos científicos de
datos aprender primero? (Fuente Kaggle)
Edit Master text styles
Gracias.
Nuestro propósito es ayudar a personas
y empresas a prosperar.

Nuestra cultura se basa en la creencia


de que todo lo que sabemos debe ser

También podría gustarte