Bigdata Free

Big Data
Capacitación
Big Data
Agenda
I. Big Data
II. Características
III. Elementos
IV. Dificultades
V. Perfiles
VI. Casos de uso
Big Data
Aplicación Integración Explotación
• Core • Servicios • Repositorios

Empresarial • Interfaces • Reportería
• ERP / CRM • Toma de
• Otros Decisiones
Big Data
INTERFACES
SERVICIOS
PROGRAMAS
DBLINKS
Big Data
RIESGO OPERATIVO
ISLAS DE INFORMACION
Big Data
DATA
ETL
WAREHOUSE
AMBIENTE ANALÍTICO
Big Data
DATA WAREHOUSE
Datos Datos
Datos Datos
Homolo- Para
ETL Crudos Limpios
gados Analizar
Reglas de Limpieza Historia Cruces
Lógicas de Negocio Resúmenes
AMBIENTE ANALÍTICO
Big Data
Grandes ventajas
• Una sola versión de la verdad

• Ambiente exclusivo
• Optimizado para consultas
• Trazable y gobernable
Big Data
Pero el mundo cambió

Big Data
Problemas:
• Proceso periódico mas lento • Nuevas maneras de
• Datos mas y mas grandes
• Necesidad de datos en tiempo real ALMACENAR
• Nuevos tipos de datos (No
estructurados, sensores, redes
• Nuevas maneras de
•
sociales)
Capacidad de procesamiento de
PROCESAR
motores de base de datos actuales • Nuevas maneras de
limitada
INTEGRAR
Big Data
NoSQL
• Bases de Datos Columnares
• Bases de Datos Documentales
• Base de datos orientada a grafos
Big Data
Hadoop: Versiones comerciales

CLOUDERA
Big Data
Datalake
Big Data
Hadoop: Reflexiones
• Tecnología de rápido desarrollo
• HDFS es inmutable
• Almacenamiento de bajo costo
• Motores relacionales y NoSQL adoptando sus fortalezas
• Alto esfuerzo en código: Java, Python, Scala
• Baja Trazabilidad y gobierno de Datos
Big Data
Big Data
Big Data
I. Concepto
El término "big data" se refiere a los
datos que son tan grandes, rápidos o
complejos que es difícil o imposible
procesarlos con los métodos
tradicionales.
El acto de acceder y almacenar grandes
cantidades de información para la
analítica ha existido desde hace mucho
tiempo.
Pero el concepto de big data cobró
impulso a principios de la década de 2000
cuando el analista de la industria, Doug
Laney, articuló la definición actual de
grandes datos como las tres V.
.
Big Data - Características
● Volumen: Las organizaciones recopilan datos de diversas fuentes, como
transacciones comerciales, dispositivos inteligentes (IO), equipo industrial, vídeos,
medios sociales y más. En el pasado, su almacenamiento habría sido un problema -
pero el almacenamiento más barato en plataformas como los data lakes y el Hadoop
han aliviado la carga.
● Velocidad: Con el crecimiento del Internet de las Cosas, los datos llegan a las
empresas a una velocidad sin precedentes y deben ser manejados de manera
oportuna. Las etiquetas RFID, los sensores y los medidores inteligentes están
impulsando la necesidad de manejar estos torrentes de datos en tiempo casi real.
● Variedad : Los datos se presentan en todo tipo de formatos: desde datos numéricos
estructurados en bases de datos tradicionales hasta documentos de texto no
estructurados, correos electrónicos, vídeos, audios, datos de teletipo y
transacciones financieras.
¿Hay más V’s ?
Big Data - Elementos
• Plataforma, se requiere de una que
sea capaz de manejar cualquier
tipo de dato, sin importar el
volumen y de manera oportuna.
• Capacidad, para trasformar los

datos, analizarlos y poder jugar
para generar conocimiento a partir
de ello.
• Visualización, una vez que se han

manejado y transformado es de
gran utilidad tener la capacidad de
visualizarlos para descubrir
patrones y tendencias y así tomar
decisiones.
Big Data - Dificultades
• Conocimiento insuficiente.
• Entrenamiento
Capacitaciones especializadas y graduales.
• Especialización
• Costoso
• On Premise, costos en crecimiento y
administración
• On Cloud, falta de conocimiento Combinar tecnologías, primero iniciar en entornos
puede elevar el costo por uso. locales.
• Calidad de datos Énfasis en la elección de la herramienta de

• Origenes variados y poco ordenados
integración
• Seguridad
• En ambientes locales se deben
aperturar puertos y comunicaciones Aplicar estándares de seguridad desde el inicio
entre servidores. de las implementaciones.
• Escalabilidad Validación de pares en la propuesta de

• Presupuesto ilimitado no asegura la
escalabilidad
arquitectura.
Big Data - Dificultades
Big Data - Perfiles
A R Q U I T E C T O
D E
D A T O S
•Conocimientos nivel medio/avanzado SO Linux
•Conocimientos Docker
•Conocimientos de herramientas de integración de

datos.
•Conocimientos en TSQL Scripts
•Conocimientos de NoSQL
Big Data - Perfiles
I N G E N I E R O
D E
D A T O S
•Conocimientos nivel medio/avanzado integración de

datos, soluciones en nube como on-premise.
•Definición de mallas de carga.
•Conocimiento avanzado en la construcción de querys

para base de datos (TSQL Scripts).
•Diseña y ejecuta casos de calidad de datos.

Big Data - Perfiles
¿ S I S O Y U N
G E S T O R Q U E
D E B E R Í A
A P R E N D E R ?
•Herramientas de visualización de datos.

•TSQL – Básico intermedio (Virtualización)
Big Data – Casos de uso
Diferenciar solicitudes
•Solicitud 1:
Se desea conocer cual es la cantidad de
comisarias en Lima. Reporte operativo
•Solicitud 2:
Se desea tener una recomendación de
la cantidad nueva de comisarias que se Analítica de datos
deberían implementar en los próximos
3 años.
•Solicitud 3:
Cuadro de mando
Se desea conocer el uso del observatorio.
•Solicitud 1:
Se desea conocer cual es la cantidad de Reporte operativo
comisarias en Lima.
¿Se puede utilizar? ¿Es indispensable?
Big Data SI NO
Analítica de datos NO NO
Reporte Operativo SI SI
Cuadro de mando SI NO
Gobierno de datos SI NO
Datawarehouse SI NO
Lago de datos SI NO
•Solicitud 2:
Se desea tener una recomendación de
la cantidad nueva de comisarias que se Analítica de datos
deberían implementar en los próximos
3 años.
Big Data SI SI
Analítica de datos SI SI
Reporte Operativo NO NO
Cuadro de mando SI SI
Datawarehouse SI NO
Lago de datos SI SI
•Solicitud 3:
Se desea conocer el uso del observatorio. Cuadro de mando
Big Data SI SI
Analítica de datos NO NO
Reporte Operativo NO NO
Cuadro de mando SI SI
Datawarehouse SI SI
Lago de datos SI SI
Big Data – Arquitectura lógica
Entorno Local Ingesta
Carga eventos
Internet de las Auto servicio

cosas
Procesamiento de lógicas
Extractor de negocio
Reportes operativos
datos
Bases de datos
relacionales Agenda ejecución de
carga de procesos
Extractor Cuadros de mando
datos
Archivos semi-
estructurados
Extractor
datos
Almacenamiento Enriquecer
Sin estructurar
Lago de datos Almacén de datos Auto - aprendizaje
Entorno Externo
Extractor
datos
GOBIERNO DE DATOS
Big Data – Arquitectura física
Big Data – Virtualización Polybase
¿Qué es PolyBase?
PolyBase permite que la instancia de SQL Server consulte datos con T-SQL directamente
de SQL Server, Oracle, Teradata, MongoDB, clústeres de Hadoop, Cosmos DB y el
almacenamiento de objetos compatible con S3 sin necesidad de instalar de forma
independiente software de conexión de cliente. También puede usar el conector ODBC
genérico para conectarse a proveedores adicionales mediante controladores ODBC de
terceros. PolyBase permite que las consultas de T-SQL combinen los datos de orígenes
externos con tablas relacionales en una instancia de SQL Server.
Un caso de uso clave para la virtualización de datos con la característica de PolyBase es

permitir que los datos permanezcan en su ubicación y formato originales. Puede virtualizar
los datos externos a través de la instancia de SQL Server, para que se puedan consultar in
situ como cualquier otra tabla de SQL Server. Este proceso minimiza la necesidad de
procesos ETL para el movimiento de datos. Este escenario de virtualización de datos es
posible con el uso de conectores de PolyBase.
Big Data – Redes Sociales
Google Colab
Python – Rutina para capturar datos desde Twitter
https://developer.twitter.com/en/docs/authentication/oauth-1-0a/obtaining-user-access-tokens
Creación de un token
en Twitter para la captura
de datos
Crea el objeto que va a solicitar información desde Twitter
https://developer.twitter.com/en/docs/authentication/oauth-1-0a/obtaining-user-access-tokens
Se almacena temporalmente el arreglo de campos y luego se almacenan

Se muestra un extracto de los registros y se almacena en un archivo plano

Resultado de la extracción
Extraer archivo
Extraer archivo
Importar datos
Importar datos
Big Data – Jupyter
Exploración y analítica avanzada
Los cuadernos de Jupyter, en

combinación con frameworks como
PySpark, también pueden ser una
herramienta potente para la consulta,
acondicionamiento, persistencia y diseño
de scripts de Big Data.
Requisitos para la instalación en

Windows 10
Instalar Pyhton
Instalar pip install

¿Qué es Python?
Python es un lenguaje de programación interpretado multipropósito, el cual permite que le
demos instrucciones a nuestro computador de que él comprenda. La filosofía de Python, es
hacer hincapié en que el lenguaje sobre todo sea legible para las personas que programan. Para
empezar a utilizar Python en nuestros computadores, es necesario instalar el software necesario.
¿Cómo instalar Python?

Si tienes Windows como sistema operativo. una
manera de realizarlo, es siguiendo las siguientes
instrucciones:
•Ingresa a la dirección URL del sitio de Python
es: https://www.python.org/
•Debes ir al apartado de Downloads, donde debes
seguir el link sombreado en azul Python 3.7.x:
En el link que se abre, deberás ir a la sección Files. Donde se muestran todas las versiones de
python para distintas plataformas y sistemas operativos. Se puede observar una pantalla como
lo siguiente:
•En este apartado deberemos elegir Windows x86 executable installer (32 bits), o Windows x86-64
executable installer, dependiendo de si tu computadora es de 64 bits o 32 bits.
•Una vez descargado, ejecutamos el instalador. No olvidar marcar la casilla que dice: Añadir Python 3.7 al
Path. Luego, dar click en Instalar Ahora (Install Now).
Prerequisitos para instalar Jupyter luego de instalar Python

Es necesario que su computadora tenga instalado Python, y este se encuentre agregado
al PATH de Windows. Además, para la instalación es necesario que tenga acceso a Internet.
Instalación
•Abrir consola de comandos de Windows. En la barra de búsqueda de Windows, escribir cmd y
seleccionar Símbolo del sistema.
•En la línea de comandos escribir la siguiente instrucción: pip install jupyter y presionar Enter.
•Python descargará e instalará las librerías necesarias para utilizar jupyter
Consideraciones
De no hacerlo al momento de instalar jupyterlab van a tener el siguiente mensaje de error:
Instalación
•Abrir consola de comandos de Windows. En la barra de búsqueda de Windows,
escribir cmd y seleccionar Símbolo del sistema.
•En la línea de comandos escribir la siguiente instrucción: pip install jupyter y
presionar Enter.
Uso
1. Ejecutar Jupyter
Para ejecutar jupyter, abrir la línea de comandos de Windows y escribir la
instrucción: jupyter notebook y presionar Enter.
Al ejecutarse, se abrirá una pestaña en su navegador web predefinido, por medio del cual
podemos crear y ejecutar notebooks de jupyter. Esta pestaña nos mostrará una lista de
notebooks, archivos y directorios dentro de la carpeta donde iniciamos jupyter. No debe
cerrar la línea de comandos hasta que haya terminado de trabajar con jupyter.
Instalación
•Abrir consola de comandos de Windows. En la barra de búsqueda de Windows,
escribir cmd y seleccionar Símbolo del sistema.
•En la línea de comandos escribir la siguiente instrucción: pip install jupyter y
presionar Enter.
Uso
1. Ejecutar Jupyter
Para ejecutar jupyter, abrir la línea de comandos de Windows y escribir la
instrucción: jupyter notebook y presionar Enter.
Al ejecutarse, se abrirá una pestaña en su navegador web predefinido, por medio del cual
podemos crear y ejecutar notebooks de jupyter. Esta pestaña nos mostrará una lista de
notebooks, archivos y directorios dentro de la carpeta donde iniciamos jupyter. No debe
cerrar la línea de comandos hasta que haya terminado de trabajar con jupyter.
Considerar también la instalación de la librería pandas

Actividad: Lectura de un archivo de denuncias, extraído de la siguiente dirección
Denuncias extraídas del SIDPOL (Sistema de Denuncias Policiales) sobre violencia

familiar 2019 | Plataforma Nacional de Datos Abiertos
1er Paso importar la librería pandas
Para compilar la línea de código es: shift+enter

2do Paso cargar el archivo de análisis
3er Paso cargar mostrar los primeros registros

4to Emitir estadísticas básicas del contenido

4to Identificar el nombre de las columnas

5to Identificar el tipo de columnas

5to Identificar el tipo de columnas

Big Data – Neo4j
Base de datos de Grafos
¿Qué es una base de datos de grafos?
Una base de datos de gráficos almacena nodos y relaciones
en lugar de tablas o documentos. Los datos se almacenan
como si dibujara ideas en una pizarra. Sus datos se
almacenan sin restringirlos a un modelo predefinido, lo que
permite una forma muy flexible de pensar en ellos y usarlos.
Neo4J
Neo4j es la base de datos de gráficos líder en el mundo. La
arquitectura está diseñada para una gestión, un
almacenamiento y un recorrido óptimos de los nodos y las
relaciones. La base de datos de gráficos adopta un enfoque
de gráfico de propiedades, que es beneficioso tanto para el
rendimiento transversal como para el tiempo de ejecución
de las operaciones.
Big Data – Neo4j
El lenguaje que usa Neo4J: Cypher

Cypher es el lenguaje de consulta de gráficos de Neo4j que permite a los usuarios almacenar y recuperar datos de
la base de datos de gráficos. Es un lenguaje declarativo inspirado en SQL para describir patrones visuales en
gráficos usando sintaxis ASCII-art. La sintaxis proporciona una forma visual y lógica de hacer coincidir patrones de
nodos y relaciones en el gráfico. Cypher ha sido diseñado para ser fácil de aprender, comprender y usar para
todos, pero también incorpora el poder y la funcionalidad de otros lenguajes de acceso a datos estándar.
Big Data – Neo4j
Big Data – Neo4j
El modelo gráfico de
propiedades
En Neo4j, la información se
organiza en nodos, relaciones y
propiedades.
Bloques de construcción del
modelo de gráfico de
propiedades
Big Data – Neo4j
Big Data – Neo4j
Big Data – Neo4j
CREATE (Juan:Persona:Analista{nombre:'Juan',apellidos:'Torres',dni:12345678})
CREATE (Rosa:Persona:Analista{nombre:'Rosa',apellidos:'Garcia',dni:32145678})
CREATE (Isa:Persona:Solicitante{nombre:'Isa',apellidos:'Jimenez',dni:45925678})
CREATE (Rafa:Persona:Solicitante{nombre:'Rafa',apellidos:'Morales',dni:44856991})
CREATE (Pablo:Persona:Solicitante{nombre:'Pablo',apellidos:'Ruiz',dni:70568956})
CREATE (CO:Oficina{nombre:'Oficina compras',empleados:1,distribuidas:6})
CREATE (TEC:Oficina{nombre:'Oficina tecnología',empleados:3,distribuidas:6})
CREATE (TES:Oficina{nombre:'Oficina tesoreria',empleados:2,distribuidas:6})
CREATE (RegionLima:Region{nombre:'RegionLima',lugar:'Todo Lima'})
CREATE (RegionNorte:Region{nombre:'RegionNorte',lugar:'Zona Norte'})
Big Data – Neo4j
Creación de relaciones
Big Data – Neo4j
Creación de situación
tramites
Big Data – Neo4j
Creación de pertenencia
Big Data – Neo4j
Creación de pertenencia
Big Data – ChangeData Capture
En bases de datos, las CDC (Change Data Capture) son patrones de diseño software que se emplean para capturar
cambios que se producen en los datos y propagarlos a clientes intermedios. Normalmente se emplean en entornos de
data-warehouse, para preservar el estado de los datos a lo largo del tiempo, o se emplean también en soluciones en
las que hay que mantener un conjunto de bases de datos heterogéneo, ya que las CDC producen el mismo formato de
salida independientemente de cuál sea la base de datos origen del registro.
Existen varias soluciones de CDC: Maxwell, SpinalTap, Yelp’s MySQL Streamer, Debezium, DBLog.
En bases de datos, las CDC (Change Data Capture) son patrones de diseño software que se emplean para capturar
cambios que se producen en los datos y propagarlos a clientes intermedios. Normalmente se emplean en entornos de
data-warehouse, para preservar el estado de los datos a lo largo del tiempo, o se emplean también en soluciones en
las que hay que mantener un conjunto de bases de datos heterogéneo, ya que las CDC producen el mismo formato de
salida independientemente de cuál sea la base de datos origen del registro.
Existen varias soluciones de CDC: Maxwell, SpinalTap, Yelp’s MySQL Streamer, Debezium, DBLog.
• Debezium es tolerante a fallos: si por algún motivo Debezium se detuviera, al reiniciarse registrará los
cambios que se produjeron mientras estaba apagado para asegurar que todos los eventos se registran y
procesan adecuadamente. Adicionalmente, agrega esta característica, pero para el lado del cliente, es decir,
si un cliente se desconecta del servicio, cuando se vuelva a conectar recibirá todos los eventos que
sucedieron mientras estaba desconectado.
• Debezium proporciona multitud de módulos para conexión con bases de datos. Algunos de ellos son genéricos,
para soportar cualquier base de datos, con la desventaja de que son algo limitados; y otros son específicos de
algunas bases de datos. En concreto, Debezium proporciona conectores con bases de datos MySQL, PostgreSQL,
MongoDB y SQL Server. Además, se está desarrollando conectores para Oracle, Cassandra y Db2.
Con la misma agilidad que los demás componentes de Stambia, el

componente para CDC es directamente utilizable y ofrece un alto
nivel de productividad gracias al enfoque dirigido por modelos
Stambia y al uso de los archivos nativos de registro «rehacer» o
«transaccional» de las bases de datos o al uso de
desencadenadores sencillos (triggers).
Cuando los editores de base de datos las ofrecen, Stambia utiliza las funciones estándar de la API para leer los
datos desde los archivos de registro «transaccional» o «redo». Es el caso de tecnologías como Oracle, Microsoft
SQL Server o Postgre SQL.
Habilitar CDC en SQL Server
Para ejecutar el procedimiento CDC se deben realizar cambios en las tablas de SQL Server, un administrador de SQL Server con los privilegios
necesarios primero debe ejecutar una consulta para habilitar CDC en la base de datos. Luego, el administrador debe habilitar CDC para cada tabla que
desea capturar.
Después de aplicar CDC, captura todas las operaciones INSERT, UPDATE y DELETE que se confirman en las tablas para las que está habilitado CDD.
Habilitación de CDC en la base de datos de SQL Server
Antes de poder habilitar CDC para una tabla, debe habilitarlo para la base de datos de SQL Server. Un administrador de SQL Server
habilita CDC ejecutando un procedimiento almacenado del sistema. Los procedimientos almacenados del sistema se pueden ejecutar
con SQL Server Management Studio o con Transact-SQL.
Requisitos previos
- Es miembro del rol de servidor fijo sysadmin para SQL Server.
- Usted es un db_owner de la base de datos.
- El Agente SQL Server se está ejecutando.

Primer paso: Segundo
Una vez Paso:
dentro del
Luego de
SQL Server
activar el
con el
explorador de
usuario
plantilla,
administrad
debemos
or, nos
seleccionar la
vamos al
opción
menú View y
Enable
elegimos
Database for
Template
CDC para
Explorer.
tener un
modelo para
activar
nuestro CDC
Tercer paso:
Seleccionamos la base que deseamos activar, en nuestro servidor:
Tercer paso:
Seleccionamos la base que deseamos activar, en nuestro servidor:
Big Data – Catalogo de datos
La información sobre información, engloba todos los atributos de los datos que describe cada archivo HDFS o de base
de datos y, de forma conjunta, proporciona una información de interés con muy distintas utilidades a la hora
de mejorar la gestión de los datos.
Dicha actividad en el entorno organizacional

específicamente en el de gobierno y administración de
datos, los metadatos juegan un importante papel como
marco de referencia, también tiene como concepto el de
"información que describe o proporciona el contexto para
los datos, contenidos, procesos de negocio, servicios, reglas
de negocio y políticas de apoyo a los sistemas de
información de una organización.
Ventajas
• Facilita búsquedas y análisis: Los metadatos ayudan a buscar y ubicar datos. Una buena gestión de
metadatos también facilita el análisis del curso de los datos desde la fuente, facilitando la auto
documentación, así como funciones de transformación, análisis y cuadros de mando.
• Facilita la estandarización: Al eliminar errores e inconsistencias, la estandarización de datos mejora la calidad
de estos a lo largo de su ciclo de vida. Con la gestión de los metadata en un repositorio centralizado se logra
conseguir una visión más completa del ciclo de vida del dato, desde que se crea hasta que se consume,
además de ventajas en el control de procesos.
• Ayuda a la integración: En la integración híbrida va a integrar diversas fuentes y canales de información, los
metadatos son claves. Sirviéndonos de un repositorio centralizado de metadatos para el uso compartido
entre los usuarios de OGTIC y Gobierno de datos, con lo cual se facilita la gobernanza, así como una
aplicación de las mejores prácticas por parte de aquellos. De gran utilidad en estructuras híbridas para
mejorar la gestión de datos de forma integrada.
Ventajas
• Gestión del cambio: Sobre todo, en entornos complejos, pues la gestión de metadatos proporciona la
visibilidad y el control necesarios para hacerlo en un entorno de integración de datos empresariales. A través
de una automatización de los análisis de impacto detectaremos los cambios en las aplicaciones y podremos
intervenir para subsanar conflictos.
• Más seguridad: En caso de haber cambios, una adecuada gestión de metadatos protegerá los datos críticos
del negocio y, en general, facilitará el cumplimiento de la normativa.
• Mejora los informes: Gracias a esa facilidad de intervención datos serán de calidad y, los procesos no
presentarán incidencias y, lógicamente, el reporting ganará en confiabilidad. En general, una correcta gestión
de metadatos permitirá entregar datos seguros y confiables.
• Desarrollos más ágiles: Un acceso inteligente a los metadatos, por ejemplo en un entorno híbrido integrado,
aumenta la productividad de los ingenieros de datos y reduce el plazo de suministro de la conectividad. Ello se
traduce en una rebaja del coste del cambio entre las diferentes plataformas.
• Mejor gobernanza de datos: Los metadatos gestionados en un entorno estandarizado mediante un repositorio
centralizado son esenciales para implementar un exitoso programa de gobierno de datos. Entre otras
ventajas, la gestión de los metadatos aumenta la visibilidad de las distintas ejecuciones de patrones y gestión
de diferentes fuentes de datos, propiciando una gobernanza centralizada, así como las mejores prácticas.
Tipos de metadatos
Metadatos técnicos (también llamado metadatos estructurales) describe cómo se organizan y muestran los datos a
los usuarios describiendo la estructura de los objetos de datos, como tablas, columnas, filas, índices y conexiones. Los
metadatos técnicos les dicen a los profesionales de datos cómo necesitarán trabajar con los datos, por ejemplo, si
pueden trabajar con ellos tal como están o si necesitan transformarlos para su análisis o integración.
Los metadatos de proceso (también llamados metadatos administrativos) describen las circunstancias de la creación
del activo de datos y cuándo, cómo y quién accedió, usó, actualizó o modificó. También debe describir quién tiene
permiso para acceder y utilizar los datos.
Los metadatos del proceso proporcionan información sobre el historial del activo y el linaje, lo que puede ayudar a un
analista a decidir si el activo es lo suficientemente reciente para la tarea en cuestión, si proviene de una fuente
confiable, si ha sido actualizado por personas confiables, etc. Los metadatos del proceso también se pueden usar para
solucionar problemas de consultas. Y cada vez más, los metadatos de procesos se extraen para obtener información
sobre usuarios o clientes de software, como qué software están usando y el nivel de servicio que están
experimentando.
Tipos de metadatos
Los metadatos empresariales (a veces denominados metadatos externos) describen los aspectos comerciales del
activo de datos: el valor comercial que tiene para la organización, su idoneidad para un propósito particular o varios
propósitos, información sobre la conformidad normativa y más. Los metadatos empresariales son aquellos en los que
los profesionales de datos y los usuarios de línea de negocios hablan el mismo idioma sobre los activos de datos.
Como mínimo, un catálogo de datos debería facilitar la búsqueda (o recolección) y la organización de todos los
metadatos existentes asociados con cualquier activo de datos en su organización. También debe proporcionar
herramientas que permitan a los expertos en datos seleccionar y enriquecer esos metadatos con etiquetas,
asociaciones, calificaciones, anotaciones y cualquier otra información y contexto que ayude a los usuarios a encontrar
datos más rápido y usarlos con confianza.
Factores claves de catálogo de datos
Conectores y herramientas de conservación
Un catálogo de datos sirve como un único lugar de confianza para los datos. Los conectores mapean los conjuntos de
datos físicos en su base de datos; por lo tanto, es importante contar con una amplia gama de conectores para reforzar
el catálogo de datos. Dado que los metadatos se pueden recopilar de múltiples fuentes, consultas SQL, inteligencia de
negocio o herramientas de integración de datos, también es importante conservar estos datos. La validación y la
certificación son procesos importantes que mejoran la eficiencia de un catálogo de datos y hacen que el gobierno de
datos sea un proceso sostenible.
Automatización
La automatización en los catálogos de datos permite a los usuarios de datos centrarse en procesos cruciales como la
validación y corrección de problemas de datos, lo cual mejorará la velocidad y la agilidad del catálogo de datos y
enriquecerá los conjuntos de datos dentro de la organización.
Seguimiento de linaje o ciclo de vida
El linaje ofrece un vistazo al ciclo de vida de los datos visualizados. En caso de discrepancias, los usuarios de datos
podrán utilizar el catálogo de datos para rastrear fácilmente el linaje para localizar el problema y corregirlo. También
ayudará a comprender la diferencia entre varias fuentes y tipos de datos en la organización.
Glosario universal y diccionario de datos
Los datos de una organización son una gran parte de su valor, por lo que deberán ser accesibles y fáciles de entender
para todas las partes interesadas. Normalmente, un catálogo de datos se compone de un diccionario de datos y un
glosario. El diccionario de datos es una colección de todos los metadatos (normalmente almacenados en tablas) sobre
los datos de su catálogo, incluido el significado, las relaciones con otros datos, el origen, el uso y el formato. El glosario
permite a los miembros de la organización identificar los términos comerciales utilizados en el catálogo y utilizarlos de
la misma manera en toda la empresa.
Perfilaje (Profiling)
La elaboración de perfiles de datos es el proceso de evaluar la integridad, precisión, consistencia y puntualidad de sus
datos. Básicamente, la creación de perfiles de datos determina la utilidad de los datos para resolver problemas
comerciales, lo cual es importante para mantener su conjunto de datos al recopilar datos de múltiples fuentes de
datos.
Conectores y herramientas de conservación
Un catálogo de datos sirve como un único lugar de confianza para los datos. Los conectores mapean los conjuntos de
datos físicos en su base de datos; por lo tanto, es importante contar con una amplia gama de conectores para reforzar
el catálogo de datos. Dado que los metadatos se pueden recopilar de múltiples fuentes, consultas SQL, inteligencia de
negocio o herramientas de integración de datos, también es importante conservar estos datos. La validación y la
certificación son procesos importantes que mejoran la eficiencia de un catálogo de datos y hacen que el gobierno de
datos sea un proceso sostenible.
Automatización
La automatización en los catálogos de datos permite a los usuarios de datos centrarse en procesos cruciales como la
validación y corrección de problemas de datos, lo cual mejorará la velocidad y la agilidad del catálogo de datos y
enriquecerá los conjuntos de datos dentro de la organización.
Big Data – Spark
Big Data – Spark
Spark es un motor de código abierto para el procesamiento y análisis de información a gran escala
Aunque fue creado originalmente en 2009 por el AMPLab de la Universidad de California, en Berkeley, la base de
código de Spark fue donada a la Apache Software Foundation —que es la empresa de software de open source
más grande del mundo— en 2014, por esa razón se le conoce como Apache Spark.
La existencia de Spark responde a las necesidades que impone actualmente el análisis de Big Data, es por eso
que ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a través de clusters de
computadoras que permite realizar una variedad de tareas con macrodatos a una mayor velocidad debido, entre
otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinación
La velocidad a la que procesa la información es precisamente una de las características de Spark más
importantes, ya que puede hacerlo de 10 (si lo hace en disco) a 100 veces más rápido (cuando lo hace en
memoria) que otras herramientas, como MapReduce.
Big Data – Spark
Por otro lado, Apache Spark admite múltiples lenguajes de programación altamente utilizados, (como son Python,
Java, Scala, SQL y R) para programar aplicaciones paralelas rápidamente con más de 80 operadores.
Además, puede ser usado por sí solo o en plataformas como Hadoop, EC2, YARN y Mesos, así como acceder a datos
desde Cassandra, Alluxio, HDFS, Hive y cientos de otras bases de datos.
Por todos estos factores relacionados con el manejo de Big Data, Spark tiene una gran popularidad entre los científicos
de datos y las empresas que tienen un enfoque data-driven.
Actualmente esta herramienta forma parte de los procesos internos de algunas de las empresas más grandes del
mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify,
entre muchas otras.
Big Data – Spark
Spark SQL
Quizá es la interfaz más utilizada por desarrolladores de
Spark para crear aplicaciones. Se centra en el procesamiento
de datos estructurados y permite consultar datos desde
otras fuentes.
Spark Streaming
Permite procesar flujos de datos escalables y tolerantes a
fallas casi en tiempo real.
MLlib
Es una biblioteca de algoritmos para realizar operaciones
enfocadas al Machine Learning.
GraphX
Además de ofrecer una serie de operaciones para la
manipulación de grafos, provee algunos algoritmos de
grafos.
Big Data – Spark
Spark vs. Hadoop
Si bien suelen oponerse estas dos plataformas de análisis de Big Data, en realidad debemos considerar a Spark como
una mejora de Hadoop, y, de manera más específica, de su componente nativo para el procesamiento de datos,
MapReduce.
Igual que Spark, MapReduce también permite a desarrolladores crear aplicaciones para procesar Big Data más
rápidamente en porciones que trabajen en paralelo a través de clusters.
Sin embargo, la diferencia estriba en que MapReduce procesa sus datos en disco, lo cual ralentiza el proceso al añadir
tiempo de lectura y escritura de información. Por su parte, como se ha dicho, Spark opera en memoria, lo cual agiliza
significativamente los procesos.
Otra de las diferencias entre estas dos plataformas radica en las posibilidades que ofrecen para programar
aplicaciones. Es mucho más complicado programar en MapReduce que en Spark, debido a los APIs que contiene para
distintos lenguajes de programación.
Apache Spark puede ejecutar aplicaciones de procesamiento de flujos en clusters de Hadoop a través de YARN (el
recurso de Hadoop para administrar recursos y programar tareas). Además, Spark permite el uso de datos
provenientes de fuentes externas a Hadoop, tales como Kafka.
En suma, Spark no solo es compatible con Hadoop, sino que le es complementario y, por lo tanto, deberían ser vistas
como herramientas que suman y no que se oponen.
Big Data – Spark
Spark y la revolución del Big Data
En resumen, la importancia de Spark para el Big Data radica en que representa una herramienta increíblemente
útil para simplificar la laboriosa y desafiante tarea de procesamiento de altos volúmenes de macrodatos, tanto
estructurados como no estructurados, en tiempo real.
Al integrar de manera casi automática y sin un esfuerzo mayor una serie de elementos —como el Machine Learning y
los algoritmos de grafos— que facilitan el análisis de datos y la implementación de soluciones, brinda una ventaja
competitiva sobre algunas otras de las herramientas que son usadas para analizar información a gran escala.
Big Data – Spark
Spark: Código de regresión logística
https://github.com/apache/spark/tree/master/examples/
src/main/python
Big Data – Spark
Big Data – Spark
Visualización de datos – Mejores Prácticas
« ó á
C. Ware (2012). Information Visualization, Third Edition: Perception for Design.

San Francisco: Morgan Kaufmann.
« ó ó ñ
ó á
ó »
A. Cairo (2016). The Truthful Art. New Riders.
https://www.privatepro
xyguide.com/es/mejore
s-herramientas-de-
visualizacion-de-datos/
1)Visualización estáticas: su principal función suele ser la de comunicar unos datos que pueden haber
sido analizados previamente. Este tipo de visualizaciones debe ayudar a descubrir patrones y valores
atípicos (en inglés, outliers) en los datos. Además, son aquellas visualizaciones que pueden ser
utilizadas en formatos físicos como periódicos y revistas en papel. Por ejemplo se puede ver una
visualización hecha por el periódico en la que se muestra la evolución de la tasa de desempleo en forma
de gráfico de líneas, y la evolución del porcentaje de población activa en paro representado con un
gráfico de barras.
2)Visualizaciones interactivas: son aquellas que permiten a los usuarios interactuar con los datos. Esta
propiedad hace que los datos puedan ser explorados por el usuario, al darle libertad para centrarse en
aquello que más le interesa. Por ejemplo, acostumbrados a las clásicas representaciones de la evolución del
desempleo, como lo que se mostraba en la figura anterior, la visualización interactiva del flowingdata permite
al usuario visualizar los motivos de fallecimiento por edades y años desde 1999. De este modo, las
visualizaciones interactivas permiten el descubrimiento y la exploración de los datos, además de comunicar
el resultado de análisis previos.
https://flowingdata.com/2018/10/02/shifting-death/
El diagrama parte de la idea de que se

dispone de unos datos que han sido
recolectados previamente. Estos datos son
filtrados y procesados hasta convertirlos en
información, es decir, hasta tenerlos limpios y
estructurados. A esta información se le aplica
una traducción visual o, dicho de otro modo,
se la representa gráficamente. Finalmente, es
importante ser conscientes de que esta
representación será consumida por un
usuario destinatario, el cual obviamente no
tiene por qué ser el mismo diseñador de la
visualización. Por este motivo, es muy
importante ser consciente de cuál es el perfil
del destinatario del diseño de la visualización
Nota: Tener en conocimiento la resolución de la

pantalla y dispositivos a utilizar como smartphones o
tablets
Visualización de datos – Reglas básicas
Diseñar una visualización implica decidir qué codificaciones visuales se utilizarán para representar los
datos. Las principales codificaciones visuales que existen son: posición, forma, color y movimiento . A
continuación se detalla una serie de reglas a tener en cuenta para la elección de dichos elementos. Como
se podrá ver, muchas de estas reglas son muy sencillas de aplicar, y generalmente se podrán implementar
mediante cualquier herramienta que pueda trabajar con datos.
1. Empezar con preguntas Una visualización puede tener muchas formas distintas. Por ejemplo, un conjunto
de datos que contenga información sobre accidentes en Perú podrá tener la localización del accidente, el
número de ocupantes del vehículo, el número de víctimas o heridos, o el tipo de vehículo. Está claro, pues,
que en función de lo que se quiera saber (en función del «objetivo informacional») se podrán representar
estos datos en un mapa, en un gráfico de barras que acumule el número de accidentes por número de
ocupantes, o bien el número de heridos o víctimas. Por lo tanto, tener preguntas concretas que se quieran
hacer a los datos es de vital importancia para crear una representación visual que ayude a responderlas
correctamente.
2. Gráficos auto explicativos. Por lo general, es
deseable que el usuario sea capaz de entender
una visualización sin leer el texto que la
acompaña (como en el caso de una noticia
periodística) o sus instrucciones. Para ello se
dispone de una herramienta elemental que
mejora mucho la legibilidad de las
visualizaciones: los textos o etiquetas. El
siguiente gráfico muestra dos líneas temporales:
la verde representa el consumo de agua en la
ciudad canadiense de Edmonton un día
laborable cualquiera, mientras que la azul
muestra el consumo de agua el día de la final de
hockey sobre hielo de las olimpiadas de invierno,
en la que participaba la selección nacional de
Canadá. Viendo el gráfico, y gracias a las
etiquetas, es muy fácil poder ver cómo el
consumo de agua está íntimamente relacionado
con el devenir del partido, puesto que en cada
final de periodo (un partido de hockey consta de
tres periodos) hay un repunte en el consumo de
agua (presumiblemente debido a que los
espectadores hacen una «parada técnica» en el
baño, mientras que no la hacen durante el
partido).
3. La funcionalidad debe prevalecer
frente a la estética No hay ninguna
duda de que crear visualizaciones
bellas tiene un poder de persuasión
muy importante. El «Better Life
Index» de la OECD, mostrado en la
figura, es un ejemplo de
visualización muy atractiva que
representa gráficamente el índice
para comparar países creado por
esta institución. El uso de una
metáfora (la flor) para la
representación de cada país resulta
muy interesante desde el punto de
vista estético, aun cuando pueda
presentar problemas con respecto a
la información que se representa
gráficamente. Se trata, de hecho, de
una visualización interactiva muy
compleja que combina diferentes
indicadores (uno por pétalo) y un
indicador ponderado de los mismos
(la posición de la flor).
Sin embargo, es de vital Probablemente,
importancia entender que para contestar a
el objetivo principal de la la pregunta se
visualización de datos, en han necesitado
un entorno analítico, debe varios segundos,
ser el de generar e incluso ha
conocimiento sobre los podido ser algo
datos con los que se confuso
trabaja. Obsérvese, por interpretar el
ejemplo, la representación gráfico. Esto es
de la figura, que muestra porque la
los momentos más activos representación
en Twitter durante el año utilizada no es la
2011. ¿Cuál ha sido el más adecuada
tercer momento más para el «objetivo
activo? informacional»
que se pretende.
Si se intenta hacer el mismo ejercicio con el gráfico de

la derecha, se puede observar que resulta mucho más
sencillo.
4. Uso de la interacción Anteriormente se ha
comentado la existencia de dos tipos de
visualizaciones: las estáticas y las
interactivas. Es muy importante ser
consciente de que el uso de interacción
puede aportar muchos beneficios a una
visualización. Una de las limitaciones que
sufren los gráficos estáticos es que «solo»
pueden comunicar un conjunto concreto de
datos de una única manera, mientras que en
los gráficos interactivos se puede permitir al
usuario que decida en qué fijarse. Además,
hay veces en que la decisión que se toma a
la hora de decidir la forma que tendrán los
datos implica no ser todo lo precisos que se
desearía en algún aspecto concreto de
estos.
Hasta aquí esta visualización es
muy buena, sin embargo, la
elección de la codificación de los
datos hace que sea muy difícil, por
ejemplo, comparar si hay más
gente que está trabajando a las
diez de la mañana que a las doce
del mediodía. Eso es porque las
áreas de las distintas actividades
están apiladas y no están
referenciadas en el cero. Sin
embargo, los diseñadores de esta
visualización crearon otra
interacción para solucionar este
problema: con un clic en cualquier
área, esta queda referenciada en
el cero y la comparación que se
deseaba realizar pasa a ser mucho
más sencilla de ejecutar
5. La forma sigue a la
necesidad Como ya
se ha comentado con
anterioridad, es
importante tener claro
cuál es el objetivo de
la visualización, para
poder así elegir
aquella codificación
visual que sea más
adecuada para este.
Alberto Cairo pone un
buen ejemplo en su
libro The Functional
Art, en el cual se
muestra la
visualización de la
figura 16, sobre datos
de empleo
¿Cuáles son las regiones que mejoraron?
No queda más remedio que

inspeccionar los números, intentar
memorizarlos, y después intentar inferir
el orden de los valores
Es mucho más claro y comunica mejor los datos disponibles que el
mapa, el cual queda como elemento que proporciona contexto
geográfico.
6. Preparar bien los datos Para hacer una buena
visualización de datos es de vital importancia
disponer de buenos datos. Esto significa que se
tendrá que trabajar con los datos antes de
representarlos, con el fin de poder mostrar el
mensaje que se esconde detrás de ellos. Un claro
ejemplo de preparación de datos es el proceso de
normalización. En la siguiente visualización se
representa el número de accidentes mortales por
comunidad autónoma en el año 2014. En la figura
se puede ver que Cataluña, Madrid y Andalucía
son las tres comunidades con mayor número de
accidentes mortales. Sin embargo, estas tres
comunidades autónomas son las más pobladas,
por lo que tiene sentido que también sean las que
tienen más tráfico y, por lo tanto, más accidentes.
Esta información es útil pero no permite, por
ejemplo, hacer un análisis que posibilite a la
Dirección General de Tráfico decidir en qué
comunidad autónoma es necesario aplicar nuevas
medidas para prevenir accidentes.
En el gráfico de la
figura se ha aplicado
una normalización,
calculando el número
de accidentes por
habitante. De este
modo, se puede ver
que Ceuta y Melilla3
pasan a estar en la
primera posición de la
clasificación, y que, por
ejemplo, las islas
Baleares se sitúan por
encima de Madrid.
En resumen existe una serie de reglas básicas que deben tenerse en cuenta:
• Es muy importante tener claro qué se quiere que cuente una visualización,
quién va a ser el consumidor de esta y en qué dispositivo la va a utilizar.
• Un conjunto de datos podrá ser representado de muchas formas distintas. La

misión del analista o diseñador será escoger aquella visualización que mejor
ayude a cumplir con el objetivo informacional del usuario final.
• Existen dos tipos fundamentales de visualización: las estáticas y las interactivas.

Por lo general, las primeras se centran más en comunicar datos o hechos
mediante recursos visuales, mientras que las segundas permiten un análisis de
datos más exploratorio.
• Las visualizaciones de datos en un entorno analítico tienen como prioridad

ayudar a generar conocimiento en torno a los datos, y no la mera generación de
imágenes atractivas.
Visualización de datos – Objetivos
1. Comunicar El objetivo principal de la
visualización de datos es el de comunicar una
idea o el resultado de un análisis hecho sobre
estos datos. En este sentido, es interesante ser
conscientes de que las figuras se muestran la
misma información, pero utilizan distintas
representaciones. Mientras la tabla (figura A)
ayuda a ver el detalle concreto de los valores, el
gráfico de líneas (figura B) permite ver la
evolución temporal del valor de las acciones.
Ambas son útiles, pero el gráfico de líneas aporta
mucha más información a simple vista. Es decir,
el gráfico «comunica mejor». A pesar de que es
posible escoger entre diferentes tipos de
representaciones, con la visualización de datos se
busca seleccionar la más adecuada para
transmitir la información.
Figura A Figura B
Tabla de valores de las acciones de una

empresa en el NASDAQ extraído de Yahoo!
Finance.
Cuando se observa una visualización, el sistema visual humano envía
la información de lo que se ve en bloques a la memoria de trabajo.
Sin embargo, se suele decir que la memoria de trabajo tan solo puede
almacenar, en promedio, unos siete bloques (dependiendo del tipo de
información, tipo de actividad y otros factores). Estos bloques son
seleccionados por la memoria icónica, que es la primera que
responde a los estímulos visuales (como, por ejemplo, formas,
colores, contrastes, curvaturas y tamaños). Cuando se ha asimilado la
información de la memoria de trabajo, esta pasará a formar parte de
la memoria a largo plazo. Esto es lo que explica el hecho de que
resulta mucho más fácil entender los datos mediante la figura B, que
codifica todos los números de una columna en una única línea
temporal. Sin embargo, en la figura A no hay ningún elemento que G.A.Miller (1956). «The
destaque, nada que llame nuestra atención (active nuestra memoria Magical Number Seven, Plus
icónica) y, por tanto, no es posible «cargar» toda esa información en or Minus Two: Some Limits
la memoria de trabajo, lo que dificulta su comprensión. on our Capacity for
Processing Information».
Psychological Review
2. Datos en contexto:
Proporcionar primero
una vista general de
los datos, para luego
filtrarlos y obtener
detalles de aquello que
más interesa.
Representar una vista
general de todos los
datos es lo que permite
tener un contexto
sobre ellos, de modo
que sea posible
entender, por ejemplo,
si un valor concreto es
grande o pequeño en
función de cómo es en
el conjunto de datos.
El cerebro humano no está preparado para comparar áreas. Sin embargo, sí

que lo está para longitudes o distancias
3. Encontrar patrones y outliers
Otro objetivo fundamental de la
visualización de datos es el de
facilitar el descubrimiento de
patrones u outliers (término
inglés para referirse a ‘valores
atípicos’). El gráfico es un
clásico ejemplo en el que se
puede ver la estacionalidad de
los accidentes en Estados
Unidos desde 2001 hasta 2011.
Además de poder apreciar que
los accidentes aumentan
durante los meses de verano, ya
que existe un patrón anual,
también se puede observar un
descenso de accidentes a partir
de 2008.
Gracias a las codificaciones visuales utilizadas en el
proyecto, esta representación revela un claro patrón
conocido por todos: el mapa de Estados Unidos. Y no
solo eso, sino que también revela la posición de los
aeropuertos de Estados Unidos, que son aquellos
puntos que sobresalen en todas las rutas que se
aprecian en el mapa. Es evidente que no hacen falta
estos datos para descubrir el mapa. Sin embargo, es
importante recordar que aquí no se está representando
un mapa, sino las trayectorias de un conjunto de
aviones, las cuales llevan el mapa implícito. La
genialidad de este proyecto es que cuando se
representan los datos de manera adecuada, se propicia
el descubrimiento de patrones ocultos en ellos.
Visualización de datos – Tipo de gráfico
https://help.highbond.com/helpdocs/highbond/es/Content/
visualizations/interpretations/charts/bubble_chart.html
Visualización de datos – Tableau Public
https://public.tableau.com
cantidad_csv.csv region.csv
Objetivo del cuadro de mando
https://public.tableau.com
Arrastrar al reporte
Arrastrar al reporte
Suma Total
Click para editar

el título
Arrastrar campo
para agregar filtro
Arrastrar campo
para agregar filtro
Seleccionar todos
los valores
2
Crear un nuevo
gráfico Ubicación
y Cantidad
1
Crear una nueva
pestaña/hoja
1
Cambiar el tipo de
gráfico por el de
barras
1 Colocar las ubicaciones en orden

descendente en función al valor de las
cantidades
1 Colocar las ubicaciones en orden

descendente en función al valor de las
cantidades
cantidad_csv.csv region.csv
1 Agregar una
nueva conexión
Elegir la opción
para unir filas
Arrastro la opción
Zona y cantidad
Agregar un nuevo Cuadro de Mando

Arrastramos las
pestañas/hojas de trabajo
Aplicar el filtra para todas

las hojas
Arrastro Ubicación a Color

Click sobre etiqueta y

seleccionar “Mostrar
etiquetas de marca”
1
1
Click sobre el icono para

cambiar la posición del
gráfico
Agregar Ubicación
Seleccionar icono para

agregar filas totales
generales
Visualización de datos – Tableau Prep
https://www.tableau.com/products/prep/download
Tableau Prep Builder proporciona un enfoque moderno para la preparación de datos que permite
combinar, dar forma y limpiar los datos para el análisis de manera rápida y fácil en Tableau. Con
una opción visual y directa para preparar sus datos, puede obtener datos de calidad con solo unos
pocos clics.
Seleccionar archivos a
utilizar
utilizar
utilizar
utilizar
utilizar (ambos 2016 y
2017)
Siguiente paso será unir en

un solo archivo las
columnas y asignar el valor
año como una nueva
columna
Paso 2. Sin soltar el click

debemos elegir la opción
Unir filas
Paso 1. Arrastrar el icono

y llevarlo hará el año 2015

Unir filas


Unir filas

Los archivos 2015 y 2016

no tienen un campo Año,
entonces procederemos a
crearlo
Se crea el nombre del

campo Año y el valor
calculado
Left(Table Name,4)
Los nombres de los

campos no son iguales y
va a ocasionarnos
problemas al momento de
unir filas
Vamos a corregir los

nombres tomando como
referencia el archivo del
año 2015
Vamos a eliminar los

campos Whisker.high y low
Eliminar el campo
Wisker.high y low
1. Seleccionamos ese
icono
2. Click sobre eliminar

La integración de los
archivos va tomando
forma, aún esta pendiente
unir el archivo 2017 al
resto y almacenar el
resultado final.
Arrastramos “Limpiar 1” a
“Unir filas 1” y elegimos la
opción Añadir
El campo región no existe

para el archivo año 2017
¿Cuáles serían los riesgos

de agregarlo a cuadro de
mando final?
Vamos a elegir Salida para

volcar todo el resultado en
un nuevo archivo que
consolide los tres años.
Elegir la carpeta destino

del archivo
Elegir la opción “Valores

separados por comas
(.csv)
El objetivo es crear ese
grafico de dispersión
Ranking, PIB y País
Vamos a Public Tableau
para trabajar un nuevo
cuadro con la información
consolidada
Vamos a Public Tableau
para trabajar un nuevo
cuadro con la información
consolidada
Agregar “Happiness Score”
a Filas y “Economy” a
columnas
Arrastramos “Country” al
grafico
El gráfico de dispersión
muestra claramente una
relación de GDP per Capita
con el score Hapiness
Vamos a agregar un
archivos con la descripción
“Continente”, el valor en
común entre ambas tablas
seria el campo Country
Arrastramos el nuevo
campo Continent a “Color”
y vamos a obtener una
asociación por colores de
continentes y países
Click derecho sobre la
línea de tendencia y
elegimos “Editar todas las
líneas de tendencia…”

Bigdata Free

Cargado por

Copyright:

Formatos disponibles

Bigdata Free

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Bigdata Free

Cargado por

Copyright:

Formatos disponibles

Big Data

Aplicación Integración Explotación

• Core • Servicios • Repositorios

Reglas de Limpieza Historia Cruces

Lógicas de Negocio Resúmenes

• Una sola versión de la verdad

Pero el mundo cambió

Hadoop: Versiones comerciales

• Capacidad, para trasformar los

• Visualización, una vez que se han

• Calidad de datos Énfasis en la elección de la herramienta de

• Escalabilidad Validación de pares en la propuesta de

•Conocimientos nivel medio/avanzado SO Linux

•Conocimientos de herramientas de integración de

•Conocimientos en TSQL Scripts

•Conocimientos nivel medio/avanzado integración de

•Definición de mallas de carga.

•Conocimiento avanzado en la construcción de querys

•Diseña y ejecuta casos de calidad de datos.

•Herramientas de visualización de datos.

¿Se puede utilizar? ¿Es indispensable?

¿Se puede utilizar? ¿Es indispensable?

Internet de las Auto servicio

Un caso de uso clave para la virtualización de datos con la característica de PolyBase es

Crea el objeto que va a solicitar información desde Twitter

Se almacena temporalmente el arreglo de campos y luego se almacenan

Se muestra un extracto de los registros y se almacena en un archivo plano

Exploración y analítica avanzada

Los cuadernos de Jupyter, en

Requisitos para la instalación en

Instalar pip install

¿Cómo instalar Python?

Prerequisitos para instalar Jupyter luego de instalar Python

Considerar también la instalación de la librería pandas

Actividad: Lectura de un archivo de denuncias, extraído de la siguiente dirección

Denuncias extraídas del SIDPOL (Sistema de Denuncias Policiales) sobre violencia

1er Paso importar la librería pandas

Para compilar la línea de código es: shift+enter

2do Paso cargar el archivo de análisis

3er Paso cargar mostrar los primeros registros

4to Emitir estadísticas básicas del contenido

4to Identificar el nombre de las columnas

5to Identificar el tipo de columnas

5to Identificar el tipo de columnas

El lenguaje que usa Neo4J: Cypher

Con la misma agilidad que los demás componentes de Stambia, el

Habilitación de CDC en la base de datos de SQL Server

- Es miembro del rol de servidor fijo sysadmin para SQL Server.

- Usted es un db_owner de la base de datos.

- El Agente SQL Server se está ejecutando.

Dicha actividad en el entorno organizacional

Conectores y herramientas de conservación

Conectores y herramientas de conservación

C. Ware (2012). Information Visualization, Third Edition: Perception for Design.

A. Cairo (2016). The Truthful Art. New Riders.

El diagrama parte de la idea de que se

Nota: Tener en conocimiento la resolución de la

Si se intenta hacer el mismo ejercicio con el gráfico de

No queda más remedio que

• Un conjunto de datos podrá ser representado de muchas formas distintas. La