Bigdata Free
Bigdata Free
Bigdata Free
Capacitación
Big Data
Agenda
I. Big Data
II. Características
III. Elementos
IV. Dificultades
V. Perfiles
VI. Casos de uso
Big Data
INTERFACES
SERVICIOS
PROGRAMAS
DBLINKS
Big Data
RIESGO OPERATIVO
ISLAS DE INFORMACION
Big Data
DATA
ETL
WAREHOUSE
AMBIENTE ANALÍTICO
Big Data
DATA WAREHOUSE
Datos Datos
Datos Datos
Homolo- Para
ETL Crudos Limpios
gados Analizar
AMBIENTE ANALÍTICO
Big Data
Grandes ventajas
Problemas:
• Proceso periódico mas lento • Nuevas maneras de
• Datos mas y mas grandes
• Necesidad de datos en tiempo real ALMACENAR
• Nuevos tipos de datos (No
estructurados, sensores, redes
• Nuevas maneras de
•
sociales)
Capacidad de procesamiento de
PROCESAR
motores de base de datos actuales • Nuevas maneras de
limitada
INTEGRAR
Big Data
NoSQL
• Bases de Datos Columnares
• Bases de Datos Documentales
• Base de datos orientada a grafos
Big Data
Datalake
Big Data
Hadoop: Reflexiones
• Tecnología de rápido desarrollo
• HDFS es inmutable
• Almacenamiento de bajo costo
• Motores relacionales y NoSQL adoptando sus fortalezas
• Alto esfuerzo en código: Java, Python, Scala
• Baja Trazabilidad y gobierno de Datos
Big Data
Big Data
Big Data
I. Concepto
El término "big data" se refiere a los
datos que son tan grandes, rápidos o
complejos que es difícil o imposible
procesarlos con los métodos
tradicionales.
El acto de acceder y almacenar grandes
cantidades de información para la
analítica ha existido desde hace mucho
tiempo.
Pero el concepto de big data cobró
impulso a principios de la década de 2000
cuando el analista de la industria, Doug
Laney, articuló la definición actual de
grandes datos como las tres V.
.
Big Data - Características
● Volumen: Las organizaciones recopilan datos de diversas fuentes, como
transacciones comerciales, dispositivos inteligentes (IO), equipo industrial, vídeos,
medios sociales y más. En el pasado, su almacenamiento habría sido un problema -
pero el almacenamiento más barato en plataformas como los data lakes y el Hadoop
han aliviado la carga.
Big Data - Características
● Velocidad: Con el crecimiento del Internet de las Cosas, los datos llegan a las
empresas a una velocidad sin precedentes y deben ser manejados de manera
oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes están
impulsando la necesidad de manejar estos torrentes de datos en tiempo casi real.
● Variedad : Los datos se presentan en todo tipo de formatos: desde datos numéricos
estructurados en bases de datos tradicionales hasta documentos de texto no
estructurados, correos electrónicos, vídeos, audios, datos de teletipo y
transacciones financieras.
Big Data - Características
¿Hay más V’s ?
Big Data - Elementos
• Plataforma, se requiere de una que
sea capaz de manejar cualquier
tipo de dato, sin importar el
volumen y de manera oportuna.
• Costoso
• On Premise, costos en crecimiento y
administración
• On Cloud, falta de conocimiento Combinar tecnologías, primero iniciar en entornos
puede elevar el costo por uso. locales.
•Conocimientos Docker
•Conocimientos de NoSQL
Big Data - Perfiles
I N G E N I E R O
D E
D A T O S
¿ S I S O Y U N
G E S T O R Q U E
D E B E R Í A
A P R E N D E R ?
•Solicitud 1:
Se desea conocer cual es la cantidad de
comisarias en Lima. Reporte operativo
•Solicitud 2:
Se desea tener una recomendación de
la cantidad nueva de comisarias que se Analítica de datos
deberían implementar en los próximos
3 años.
•Solicitud 3:
Cuadro de mando
Se desea conocer el uso del observatorio.
Big Data – Casos de uso
Diferenciar solicitudes
•Solicitud 1:
Se desea conocer cual es la cantidad de Reporte operativo
comisarias en Lima.
Big Data SI NO
Analítica de datos NO NO
Reporte Operativo SI SI
Cuadro de mando SI NO
Gobierno de datos SI NO
Datawarehouse SI NO
Lago de datos SI NO
Big Data – Casos de uso
Diferenciar solicitudes
•Solicitud 2:
Se desea tener una recomendación de
la cantidad nueva de comisarias que se Analítica de datos
deberían implementar en los próximos
3 años.
¿Se puede utilizar? ¿Es indispensable?
Big Data SI SI
Analítica de datos SI SI
Reporte Operativo NO NO
Cuadro de mando SI SI
Gobierno de datos SI NO
Datawarehouse SI NO
Lago de datos SI SI
Big Data – Casos de uso
Diferenciar solicitudes
•Solicitud 3:
Se desea conocer el uso del observatorio. Cuadro de mando
Big Data SI SI
Analítica de datos NO NO
Reporte Operativo NO NO
Cuadro de mando SI SI
Gobierno de datos SI NO
Datawarehouse SI SI
Lago de datos SI SI
Big Data – Arquitectura lógica
Entorno Local Ingesta
Carga eventos
Bases de datos
relacionales Agenda ejecución de
carga de procesos
Extractor Cuadros de mando
datos
Archivos semi-
estructurados
Extractor
datos
Almacenamiento Enriquecer
Sin estructurar
Lago de datos Almacén de datos Auto - aprendizaje
Entorno Externo
Extractor
datos
GOBIERNO DE DATOS
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Arquitectura física
Big Data – Virtualización Polybase
Big Data – Virtualización Polybase
¿Qué es PolyBase?
PolyBase permite que la instancia de SQL Server consulte datos con T-SQL directamente
de SQL Server, Oracle, Teradata, MongoDB, clústeres de Hadoop, Cosmos DB y el
almacenamiento de objetos compatible con S3 sin necesidad de instalar de forma
independiente software de conexión de cliente. También puede usar el conector ODBC
genérico para conectarse a proveedores adicionales mediante controladores ODBC de
terceros. PolyBase permite que las consultas de T-SQL combinen los datos de orígenes
externos con tablas relacionales en una instancia de SQL Server.
Creación de un token
en Twitter para la captura
de datos
Big Data – Redes Sociales
https://developer.twitter.com/en/docs/authentication/oauth-1-0a/obtaining-user-access-tokens
Big Data – Redes Sociales
Resultado de la extracción
Big Data – Redes Sociales
Extraer archivo
Big Data – Redes Sociales
Extraer archivo
Big Data – Redes Sociales
Importar datos
Big Data – Redes Sociales
Importar datos
Big Data – Jupyter
Instalar Pyhton
¿Qué es Python?
Python es un lenguaje de programación interpretado multipropósito, el cual permite que le
demos instrucciones a nuestro computador de que él comprenda. La filosofía de Python, es
hacer hincapié en que el lenguaje sobre todo sea legible para las personas que programan. Para
empezar a utilizar Python en nuestros computadores, es necesario instalar el software necesario.
Al ejecutarse, se abrirá una pestaña en su navegador web predefinido, por medio del cual
podemos crear y ejecutar notebooks de jupyter. Esta pestaña nos mostrará una lista de
notebooks, archivos y directorios dentro de la carpeta donde iniciamos jupyter. No debe
cerrar la línea de comandos hasta que haya terminado de trabajar con jupyter.
Big Data – Jupyter
Instalación
•Abrir consola de comandos de Windows. En la barra de búsqueda de Windows,
escribir cmd y seleccionar Símbolo del sistema.
•En la línea de comandos escribir la siguiente instrucción: pip install jupyter y
presionar Enter.
•Python descargará e instalará las librerías necesarias para utilizar jupyter
Uso
1. Ejecutar Jupyter
Para ejecutar jupyter, abrir la línea de comandos de Windows y escribir la
instrucción: jupyter notebook y presionar Enter.
Al ejecutarse, se abrirá una pestaña en su navegador web predefinido, por medio del cual
podemos crear y ejecutar notebooks de jupyter. Esta pestaña nos mostrará una lista de
notebooks, archivos y directorios dentro de la carpeta donde iniciamos jupyter. No debe
cerrar la línea de comandos hasta que haya terminado de trabajar con jupyter.
Big Data – Jupyter
Big Data – Jupyter
Neo4J
Neo4j es la base de datos de gráficos líder en el mundo. La
arquitectura está diseñada para una gestión, un
almacenamiento y un recorrido óptimos de los nodos y las
relaciones. La base de datos de gráficos adopta un enfoque
de gráfico de propiedades, que es beneficioso tanto para el
rendimiento transversal como para el tiempo de ejecución
de las operaciones.
Big Data – Neo4j
CREATE (Juan:Persona:Analista{nombre:'Juan',apellidos:'Torres',dni:12345678})
CREATE (Rosa:Persona:Analista{nombre:'Rosa',apellidos:'Garcia',dni:32145678})
CREATE (Isa:Persona:Solicitante{nombre:'Isa',apellidos:'Jimenez',dni:45925678})
CREATE (Rafa:Persona:Solicitante{nombre:'Rafa',apellidos:'Morales',dni:44856991})
CREATE (Pablo:Persona:Solicitante{nombre:'Pablo',apellidos:'Ruiz',dni:70568956})
CREATE (CO:Oficina{nombre:'Oficina compras',empleados:1,distribuidas:6})
CREATE (TEC:Oficina{nombre:'Oficina tecnología',empleados:3,distribuidas:6})
CREATE (TES:Oficina{nombre:'Oficina tesoreria',empleados:2,distribuidas:6})
CREATE (RegionLima:Region{nombre:'RegionLima',lugar:'Todo Lima'})
CREATE (RegionNorte:Region{nombre:'RegionNorte',lugar:'Zona Norte'})
Big Data – Neo4j
Creación de relaciones
Big Data – Neo4j
Creación de situación
tramites
Big Data – Neo4j
Creación de pertenencia
Big Data – Neo4j
Creación de pertenencia
Big Data – ChangeData Capture
En bases de datos, las CDC (Change Data Capture) son patrones de diseño software que se emplean para capturar
cambios que se producen en los datos y propagarlos a clientes intermedios. Normalmente se emplean en entornos de
data-warehouse, para preservar el estado de los datos a lo largo del tiempo, o se emplean también en soluciones en
las que hay que mantener un conjunto de bases de datos heterogéneo, ya que las CDC producen el mismo formato de
salida independientemente de cuál sea la base de datos origen del registro.
Existen varias soluciones de CDC: Maxwell, SpinalTap, Yelp’s MySQL Streamer, Debezium, DBLog.
Big Data – ChangeData Capture
En bases de datos, las CDC (Change Data Capture) son patrones de diseño software que se emplean para capturar
cambios que se producen en los datos y propagarlos a clientes intermedios. Normalmente se emplean en entornos de
data-warehouse, para preservar el estado de los datos a lo largo del tiempo, o se emplean también en soluciones en
las que hay que mantener un conjunto de bases de datos heterogéneo, ya que las CDC producen el mismo formato de
salida independientemente de cuál sea la base de datos origen del registro.
Existen varias soluciones de CDC: Maxwell, SpinalTap, Yelp’s MySQL Streamer, Debezium, DBLog.
• Debezium es tolerante a fallos: si por algún motivo Debezium se detuviera, al reiniciarse registrará los
cambios que se produjeron mientras estaba apagado para asegurar que todos los eventos se registran y
procesan adecuadamente. Adicionalmente, agrega esta característica, pero para el lado del cliente, es decir,
si un cliente se desconecta del servicio, cuando se vuelva a conectar recibirá todos los eventos que
sucedieron mientras estaba desconectado.
Big Data – ChangeData Capture
Big Data – ChangeData Capture
• Debezium proporciona multitud de módulos para conexión con bases de datos. Algunos de ellos son genéricos,
para soportar cualquier base de datos, con la desventaja de que son algo limitados; y otros son específicos de
algunas bases de datos. En concreto, Debezium proporciona conectores con bases de datos MySQL, PostgreSQL,
MongoDB y SQL Server. Además, se está desarrollando conectores para Oracle, Cassandra y Db2.
Big Data – ChangeData Capture
Cuando los editores de base de datos las ofrecen, Stambia utiliza las funciones estándar de la API para leer los
datos desde los archivos de registro «transaccional» o «redo». Es el caso de tecnologías como Oracle, Microsoft
SQL Server o Postgre SQL.
Big Data – ChangeData Capture
Big Data – ChangeData Capture
Habilitar CDC en SQL Server
Para ejecutar el procedimiento CDC se deben realizar cambios en las tablas de SQL Server, un administrador de SQL Server con los privilegios
necesarios primero debe ejecutar una consulta para habilitar CDC en la base de datos. Luego, el administrador debe habilitar CDC para cada tabla que
desea capturar.
Después de aplicar CDC, captura todas las operaciones INSERT, UPDATE y DELETE que se confirman en las tablas para las que está habilitado CDD.
Antes de poder habilitar CDC para una tabla, debe habilitarlo para la base de datos de SQL Server. Un administrador de SQL Server
habilita CDC ejecutando un procedimiento almacenado del sistema. Los procedimientos almacenados del sistema se pueden ejecutar
con SQL Server Management Studio o con Transact-SQL.
Requisitos previos
• Facilita búsquedas y análisis: Los metadatos ayudan a buscar y ubicar datos. Una buena gestión de
metadatos también facilita el análisis del curso de los datos desde la fuente, facilitando la auto
documentación, así como funciones de transformación, análisis y cuadros de mando.
• Facilita la estandarización: Al eliminar errores e inconsistencias, la estandarización de datos mejora la calidad
de estos a lo largo de su ciclo de vida. Con la gestión de los metadata en un repositorio centralizado se logra
conseguir una visión más completa del ciclo de vida del dato, desde que se crea hasta que se consume,
además de ventajas en el control de procesos.
• Ayuda a la integración: En la integración híbrida va a integrar diversas fuentes y canales de información, los
metadatos son claves. Sirviéndonos de un repositorio centralizado de metadatos para el uso compartido
entre los usuarios de OGTIC y Gobierno de datos, con lo cual se facilita la gobernanza, así como una
aplicación de las mejores prácticas por parte de aquellos. De gran utilidad en estructuras híbridas para
mejorar la gestión de datos de forma integrada.
Big Data – Catalogo de datos
Ventajas
• Gestión del cambio: Sobre todo, en entornos complejos, pues la gestión de metadatos proporciona la
visibilidad y el control necesarios para hacerlo en un entorno de integración de datos empresariales. A través
de una automatización de los análisis de impacto detectaremos los cambios en las aplicaciones y podremos
intervenir para subsanar conflictos.
• Más seguridad: En caso de haber cambios, una adecuada gestión de metadatos protegerá los datos críticos
del negocio y, en general, facilitará el cumplimiento de la normativa.
• Mejora los informes: Gracias a esa facilidad de intervención datos serán de calidad y, los procesos no
presentarán incidencias y, lógicamente, el reporting ganará en confiabilidad. En general, una correcta gestión
de metadatos permitirá entregar datos seguros y confiables.
• Desarrollos más ágiles: Un acceso inteligente a los metadatos, por ejemplo en un entorno híbrido integrado,
aumenta la productividad de los ingenieros de datos y reduce el plazo de suministro de la conectividad. Ello se
traduce en una rebaja del coste del cambio entre las diferentes plataformas.
• Mejor gobernanza de datos: Los metadatos gestionados en un entorno estandarizado mediante un repositorio
centralizado son esenciales para implementar un exitoso programa de gobierno de datos. Entre otras
ventajas, la gestión de los metadatos aumenta la visibilidad de las distintas ejecuciones de patrones y gestión
de diferentes fuentes de datos, propiciando una gobernanza centralizada, así como las mejores prácticas.
Big Data – Catalogo de datos
Tipos de metadatos
Metadatos técnicos (también llamado metadatos estructurales) describe cómo se organizan y muestran los datos a
los usuarios describiendo la estructura de los objetos de datos, como tablas, columnas, filas, índices y conexiones. Los
metadatos técnicos les dicen a los profesionales de datos cómo necesitarán trabajar con los datos, por ejemplo, si
pueden trabajar con ellos tal como están o si necesitan transformarlos para su análisis o integración.
Los metadatos de proceso (también llamados metadatos administrativos) describen las circunstancias de la creación
del activo de datos y cuándo, cómo y quién accedió, usó, actualizó o modificó. También debe describir quién tiene
permiso para acceder y utilizar los datos.
Los metadatos del proceso proporcionan información sobre el historial del activo y el linaje, lo que puede ayudar a un
analista a decidir si el activo es lo suficientemente reciente para la tarea en cuestión, si proviene de una fuente
confiable, si ha sido actualizado por personas confiables, etc. Los metadatos del proceso también se pueden usar para
solucionar problemas de consultas. Y cada vez más, los metadatos de procesos se extraen para obtener información
sobre usuarios o clientes de software, como qué software están usando y el nivel de servicio que están
experimentando.
Big Data – Catalogo de datos
Tipos de metadatos
Los metadatos empresariales (a veces denominados metadatos externos) describen los aspectos comerciales del
activo de datos: el valor comercial que tiene para la organización, su idoneidad para un propósito particular o varios
propósitos, información sobre la conformidad normativa y más. Los metadatos empresariales son aquellos en los que
los profesionales de datos y los usuarios de línea de negocios hablan el mismo idioma sobre los activos de datos.
Como mínimo, un catálogo de datos debería facilitar la búsqueda (o recolección) y la organización de todos los
metadatos existentes asociados con cualquier activo de datos en su organización. También debe proporcionar
herramientas que permitan a los expertos en datos seleccionar y enriquecer esos metadatos con etiquetas,
asociaciones, calificaciones, anotaciones y cualquier otra información y contexto que ayude a los usuarios a encontrar
datos más rápido y usarlos con confianza.
Big Data – Catalogo de datos
Factores claves de catálogo de datos
Un catálogo de datos sirve como un único lugar de confianza para los datos. Los conectores mapean los conjuntos de
datos físicos en su base de datos; por lo tanto, es importante contar con una amplia gama de conectores para reforzar
el catálogo de datos. Dado que los metadatos se pueden recopilar de múltiples fuentes, consultas SQL, inteligencia de
negocio o herramientas de integración de datos, también es importante conservar estos datos. La validación y la
certificación son procesos importantes que mejoran la eficiencia de un catálogo de datos y hacen que el gobierno de
datos sea un proceso sostenible.
Automatización
La automatización en los catálogos de datos permite a los usuarios de datos centrarse en procesos cruciales como la
validación y corrección de problemas de datos, lo cual mejorará la velocidad y la agilidad del catálogo de datos y
enriquecerá los conjuntos de datos dentro de la organización.
Big Data – Catalogo de datos
Factores claves de catálogo de datos
Seguimiento de linaje o ciclo de vida
El linaje ofrece un vistazo al ciclo de vida de los datos visualizados. En caso de discrepancias, los usuarios de datos
podrán utilizar el catálogo de datos para rastrear fácilmente el linaje para localizar el problema y corregirlo. También
ayudará a comprender la diferencia entre varias fuentes y tipos de datos en la organización.
Glosario universal y diccionario de datos
Los datos de una organización son una gran parte de su valor, por lo que deberán ser accesibles y fáciles de entender
para todas las partes interesadas. Normalmente, un catálogo de datos se compone de un diccionario de datos y un
glosario. El diccionario de datos es una colección de todos los metadatos (normalmente almacenados en tablas) sobre
los datos de su catálogo, incluido el significado, las relaciones con otros datos, el origen, el uso y el formato. El glosario
permite a los miembros de la organización identificar los términos comerciales utilizados en el catálogo y utilizarlos de
la misma manera en toda la empresa.
Big Data – Catalogo de datos
Perfilaje (Profiling)
La elaboración de perfiles de datos es el proceso de evaluar la integridad, precisión, consistencia y puntualidad de sus
datos. Básicamente, la creación de perfiles de datos determina la utilidad de los datos para resolver problemas
comerciales, lo cual es importante para mantener su conjunto de datos al recopilar datos de múltiples fuentes de
datos.
Big Data – Catalogo de datos
Factores claves de catálogo de datos
Un catálogo de datos sirve como un único lugar de confianza para los datos. Los conectores mapean los conjuntos de
datos físicos en su base de datos; por lo tanto, es importante contar con una amplia gama de conectores para reforzar
el catálogo de datos. Dado que los metadatos se pueden recopilar de múltiples fuentes, consultas SQL, inteligencia de
negocio o herramientas de integración de datos, también es importante conservar estos datos. La validación y la
certificación son procesos importantes que mejoran la eficiencia de un catálogo de datos y hacen que el gobierno de
datos sea un proceso sostenible.
Automatización
La automatización en los catálogos de datos permite a los usuarios de datos centrarse en procesos cruciales como la
validación y corrección de problemas de datos, lo cual mejorará la velocidad y la agilidad del catálogo de datos y
enriquecerá los conjuntos de datos dentro de la organización.
Big Data – Spark
Big Data – Spark
Spark es un motor de código abierto para el procesamiento y análisis de información a gran escala
Aunque fue creado originalmente en 2009 por el AMPLab de la Universidad de California, en Berkeley, la base de
código de Spark fue donada a la Apache Software Foundation —que es la empresa de software de open source
más grande del mundo— en 2014, por esa razón se le conoce como Apache Spark.
La existencia de Spark responde a las necesidades que impone actualmente el análisis de Big Data, es por eso
que ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a través de clusters de
computadoras que permite realizar una variedad de tareas con macrodatos a una mayor velocidad debido, entre
otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinación
La velocidad a la que procesa la información es precisamente una de las características de Spark más
importantes, ya que puede hacerlo de 10 (si lo hace en disco) a 100 veces más rápido (cuando lo hace en
memoria) que otras herramientas, como MapReduce.
Big Data – Spark
Por otro lado, Apache Spark admite múltiples lenguajes de programación altamente utilizados, (como son Python,
Java, Scala, SQL y R) para programar aplicaciones paralelas rápidamente con más de 80 operadores.
Además, puede ser usado por sí solo o en plataformas como Hadoop, EC2, YARN y Mesos, así como acceder a datos
desde Cassandra, Alluxio, HDFS, Hive y cientos de otras bases de datos.
Por todos estos factores relacionados con el manejo de Big Data, Spark tiene una gran popularidad entre los científicos
de datos y las empresas que tienen un enfoque data-driven.
Actualmente esta herramienta forma parte de los procesos internos de algunas de las empresas más grandes del
mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify,
entre muchas otras.
Big Data – Spark
Spark SQL
Quizá es la interfaz más utilizada por desarrolladores de
Spark para crear aplicaciones. Se centra en el procesamiento
de datos estructurados y permite consultar datos desde
otras fuentes.
Spark Streaming
Permite procesar flujos de datos escalables y tolerantes a
fallas casi en tiempo real.
MLlib
Es una biblioteca de algoritmos para realizar operaciones
enfocadas al Machine Learning.
GraphX
Además de ofrecer una serie de operaciones para la
manipulación de grafos, provee algunos algoritmos de
grafos.
Big Data – Spark
Spark vs. Hadoop
Si bien suelen oponerse estas dos plataformas de análisis de Big Data, en realidad debemos considerar a Spark como
una mejora de Hadoop, y, de manera más específica, de su componente nativo para el procesamiento de datos,
MapReduce.
Igual que Spark, MapReduce también permite a desarrolladores crear aplicaciones para procesar Big Data más
rápidamente en porciones que trabajen en paralelo a través de clusters.
Sin embargo, la diferencia estriba en que MapReduce procesa sus datos en disco, lo cual ralentiza el proceso al añadir
tiempo de lectura y escritura de información. Por su parte, como se ha dicho, Spark opera en memoria, lo cual agiliza
significativamente los procesos.
Otra de las diferencias entre estas dos plataformas radica en las posibilidades que ofrecen para programar
aplicaciones. Es mucho más complicado programar en MapReduce que en Spark, debido a los APIs que contiene para
distintos lenguajes de programación.
Apache Spark puede ejecutar aplicaciones de procesamiento de flujos en clusters de Hadoop a través de YARN (el
recurso de Hadoop para administrar recursos y programar tareas). Además, Spark permite el uso de datos
provenientes de fuentes externas a Hadoop, tales como Kafka.
En suma, Spark no solo es compatible con Hadoop, sino que le es complementario y, por lo tanto, deberían ser vistas
como herramientas que suman y no que se oponen.
Big Data – Spark
Spark y la revolución del Big Data
En resumen, la importancia de Spark para el Big Data radica en que representa una herramienta increíblemente
útil para simplificar la laboriosa y desafiante tarea de procesamiento de altos volúmenes de macrodatos, tanto
estructurados como no estructurados, en tiempo real.
Al integrar de manera casi automática y sin un esfuerzo mayor una serie de elementos —como el Machine Learning y
los algoritmos de grafos— que facilitan el análisis de datos y la implementación de soluciones, brinda una ventaja
competitiva sobre algunas otras de las herramientas que son usadas para analizar información a gran escala.
Big Data – Spark
Spark: Código de regresión logística
https://github.com/apache/spark/tree/master/examples/
src/main/python
Big Data – Spark
Spark: Código de regresión logística
Big Data – Spark
Spark: Código de regresión logística
Visualización de datos – Mejores Prácticas
« ó á
« ó ó ñ
ó á
ó »
https://www.privatepro
xyguide.com/es/mejore
s-herramientas-de-
visualizacion-de-datos/
Visualización de datos – Mejores Prácticas
1)Visualización estáticas: su principal función suele ser la de comunicar unos datos que pueden haber
sido analizados previamente. Este tipo de visualizaciones debe ayudar a descubrir patrones y valores
atípicos (en inglés, outliers) en los datos. Además, son aquellas visualizaciones que pueden ser
utilizadas en formatos físicos como periódicos y revistas en papel. Por ejemplo se puede ver una
visualización hecha por el periódico en la que se muestra la evolución de la tasa de desempleo en forma
de gráfico de líneas, y la evolución del porcentaje de población activa en paro representado con un
gráfico de barras.
Visualización de datos – Mejores Prácticas
2)Visualizaciones interactivas: son aquellas que permiten a los usuarios interactuar con los datos. Esta
propiedad hace que los datos puedan ser explorados por el usuario, al darle libertad para centrarse en
aquello que más le interesa. Por ejemplo, acostumbrados a las clásicas representaciones de la evolución del
desempleo, como lo que se mostraba en la figura anterior, la visualización interactiva del flowingdata permite
al usuario visualizar los motivos de fallecimiento por edades y años desde 1999. De este modo, las
visualizaciones interactivas permiten el descubrimiento y la exploración de los datos, además de comunicar
el resultado de análisis previos.
https://flowingdata.com/2018/10/02/shifting-death/
Visualización de datos – Mejores Prácticas
Diseñar una visualización implica decidir qué codificaciones visuales se utilizarán para representar los
datos. Las principales codificaciones visuales que existen son: posición, forma, color y movimiento . A
continuación se detalla una serie de reglas a tener en cuenta para la elección de dichos elementos. Como
se podrá ver, muchas de estas reglas son muy sencillas de aplicar, y generalmente se podrán implementar
mediante cualquier herramienta que pueda trabajar con datos.
1. Empezar con preguntas Una visualización puede tener muchas formas distintas. Por ejemplo, un conjunto
de datos que contenga información sobre accidentes en Perú podrá tener la localización del accidente, el
número de ocupantes del vehículo, el número de víctimas o heridos, o el tipo de vehículo. Está claro, pues,
que en función de lo que se quiera saber (en función del «objetivo informacional») se podrán representar
estos datos en un mapa, en un gráfico de barras que acumule el número de accidentes por número de
ocupantes, o bien el número de heridos o víctimas. Por lo tanto, tener preguntas concretas que se quieran
hacer a los datos es de vital importancia para crear una representación visual que ayude a responderlas
correctamente.
Visualización de datos – Reglas básicas
2. Gráficos auto explicativos. Por lo general, es
deseable que el usuario sea capaz de entender
una visualización sin leer el texto que la
acompaña (como en el caso de una noticia
periodística) o sus instrucciones. Para ello se
dispone de una herramienta elemental que
mejora mucho la legibilidad de las
visualizaciones: los textos o etiquetas. El
siguiente gráfico muestra dos líneas temporales:
la verde representa el consumo de agua en la
ciudad canadiense de Edmonton un día
laborable cualquiera, mientras que la azul
muestra el consumo de agua el día de la final de
hockey sobre hielo de las olimpiadas de invierno,
en la que participaba la selección nacional de
Canadá. Viendo el gráfico, y gracias a las
etiquetas, es muy fácil poder ver cómo el
consumo de agua está íntimamente relacionado
con el devenir del partido, puesto que en cada
final de periodo (un partido de hockey consta de
tres periodos) hay un repunte en el consumo de
agua (presumiblemente debido a que los
espectadores hacen una «parada técnica» en el
baño, mientras que no la hacen durante el
partido).
Visualización de datos – Reglas básicas
3. La funcionalidad debe prevalecer
frente a la estética No hay ninguna
duda de que crear visualizaciones
bellas tiene un poder de persuasión
muy importante. El «Better Life
Index» de la OECD, mostrado en la
figura, es un ejemplo de
visualización muy atractiva que
representa gráficamente el índice
para comparar países creado por
esta institución. El uso de una
metáfora (la flor) para la
representación de cada país resulta
muy interesante desde el punto de
vista estético, aun cuando pueda
presentar problemas con respecto a
la información que se representa
gráficamente. Se trata, de hecho, de
una visualización interactiva muy
compleja que combina diferentes
indicadores (uno por pétalo) y un
indicador ponderado de los mismos
(la posición de la flor).
Visualización de datos – Reglas básicas
Sin embargo, es de vital Probablemente,
importancia entender que para contestar a
el objetivo principal de la la pregunta se
visualización de datos, en han necesitado
un entorno analítico, debe varios segundos,
ser el de generar e incluso ha
conocimiento sobre los podido ser algo
datos con los que se confuso
trabaja. Obsérvese, por interpretar el
ejemplo, la representación gráfico. Esto es
de la figura, que muestra porque la
los momentos más activos representación
en Twitter durante el año utilizada no es la
2011. ¿Cuál ha sido el más adecuada
tercer momento más para el «objetivo
activo? informacional»
que se pretende.
Visualización de datos – Reglas básicas
https://help.highbond.com/helpdocs/highbond/es/Content/
visualizations/interpretations/charts/bubble_chart.html
Visualización de datos – Tipo de gráfico
Visualización de datos – Tipo de gráfico
Visualización de datos – Tableau Public
https://public.tableau.com
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
cantidad_csv.csv region.csv
Visualización de datos – Tableau Public
https://public.tableau.com
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Arrastrar al reporte
Visualización de datos – Tableau Public
Arrastrar al reporte
Visualización de datos – Tableau Public
Suma Total
Visualización de datos – Tableau Public
Arrastrar campo
para agregar filtro
Visualización de datos – Tableau Public
Arrastrar campo
para agregar filtro
Seleccionar todos
los valores
Visualización de datos – Tableau Public
2
Crear un nuevo
gráfico Ubicación
y Cantidad
1
Crear una nueva
pestaña/hoja
Visualización de datos – Tableau Public
1
Cambiar el tipo de
gráfico por el de
barras
Visualización de datos – Tableau Public
cantidad_csv.csv region.csv
Visualización de datos – Tableau Public
1 Agregar una
nueva conexión
Visualización de datos – Tableau Public
Elegir la opción
para unir filas
Visualización de datos – Tableau Public
Arrastro la opción
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Zona y cantidad
Visualización de datos – Tableau Public
Arrastramos las
pestañas/hojas de trabajo
Visualización de datos – Tableau Public
Agregar Ubicación
Visualización de datos – Tableau Public
Tableau Prep Builder proporciona un enfoque moderno para la preparación de datos que permite
combinar, dar forma y limpiar los datos para el análisis de manera rápida y fácil en Tableau. Con
una opción visual y directa para preparar sus datos, puede obtener datos de calidad con solo unos
pocos clics.
Visualización de datos – Tableau Prep
Visualización de datos – Tableau Prep
Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep
Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep
Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep
Seleccionar archivos a
utilizar
Visualización de datos – Tableau Prep
Seleccionar archivos a
utilizar (ambos 2016 y
2017)
Visualización de datos – Tableau Prep
La integración de los
archivos va tomando
forma, aún esta pendiente
unir el archivo 2017 al
resto y almacenar el
resultado final.
Visualización de datos – Tableau Prep
Arrastramos “Limpiar 1” a
“Unir filas 1” y elegimos la
opción Añadir
Visualización de datos – Tableau Prep
Visualización de datos – Tableau Prep
Arrastramos “Country” al
grafico
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
El gráfico de dispersión
muestra claramente una
relación de GDP per Capita
con el score Hapiness
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Visualización de datos – Tableau Public
Vamos a agregar un
archivos con la descripción
“Continente”, el valor en
común entre ambas tablas
seria el campo Country
Visualización de datos – Tableau Public
Arrastramos el nuevo
campo Continent a “Color”
y vamos a obtener una
asociación por colores de
continentes y países
Visualización de datos – Tableau Public
Click derecho sobre la
línea de tendencia y
elegimos “Editar todas las
líneas de tendencia…”