Big Data Unido

BIG DATA
Definición de big data

Para entender qué significa realmente "big data", resulta útil conocer ciertos antecedentes
históricos. A continuación, ofrecemos la definición de Gartner, de aproximadamente 2001 (y
que continúa siendo la definición de referencia): Big data son datos que contienen una mayor
variedad y que se presentan en volúmenes crecientes y a una velocidad superior. Esto se
conoce como "las tres V".
Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más
complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos
son tan voluminosos que el software de procesamiento de datos convencional sencillamente
no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse
para abordar problemas empresariales que antes no hubiera sido posible solucionar.
Las "tres V" de big data

1Volumen
La cantidad de datos importa. Con big data, deberá procesar grandes volúmenes de datos no
estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds
de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con
sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos.
Para otras, incluso cientos de petabytes.
2Velocidad
La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna
acción. La mayor velocidad de los datos normalmente se transmite directamente a la
memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para
Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación
y actuación en tiempo real.
3Variedad
La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos
convencionales eran estructurados y podían organizarse claramente en una base de datos
relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no
estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio
o vídeo, requieren de un preprocesamiento adicional para poder obtener significado y
habilitar los metadatos.
El valor —y la realidad— de big data
En los últimos años, han surgido otras "dos V": valor y veracidad.
Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho
valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto
puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores
empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos,
que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos
productos.
Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento

y la computación de datos, haciendo que almacenar datos resulte más fácil y barato que
nunca. Actualmente, con un mayor volumen de big data más barato y accesible, puede tomar
decisiones empresariales más acertadas y precisas.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma).
Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios
empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, tomen
decisiones informadas y predigan comportamientos.
Pero ¿cómo hemos llegado hasta aquí?

Historia de big data
Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes
conjuntos de datos se remontan a las décadas de 1960 y 1970, donde se sitúan los albores de
este universo con los primeros centros de datos y el desarrollo de las bases de datos
relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban
los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se
desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y
analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir
popularidad NoSQL (a veces llamado "no sólo SQL", es una amplia clase de sistemas de gestión
de bases de datos que difieren del modelo clásico de SGBDR (Sistema de Gestión de Bases de
Datos Relacionales) en aspectos importantes, siendo el más destacado que no usan SQL como
lenguaje principal de consultas).
El desarrollo de marcos de código abierto tales como Hadoop (y, más recientemente, Spark)
sería esencial para el crecimiento del big data, pues estos hacían que el big data resultase más
fácil de usar y más barato de almacenar. En los años siguientes, el volumen de big data se ha
disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los
humanos no son los únicos que lo hacen.
Con la llegada del Internet de las cosas (IoT, Internet de las cosas es una red de objetos físicos
–vehículos, máquinas, electrodomésticos y más– que utiliza sensores y APIs para conectarse
e intercambiar datos por internet, es decir, es un sistema de dispositivos de computación
interrelacionados, máquinas mecánicas y digitales, objetos, animales o personas que tienen
identificadores únicos y la capacidad de transferir datos a través de una red, sin requerir de
interacciones humano a humano o humano a computadora), hay un mayor número de
objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los
clientes y rendimiento de los productos. El surgimiento del aprendizaje automático ha
producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud
Computing ha ampliado aún más las posibilidades del big data. La nube ofrece una
escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar
clústeres ad hoc para probar un subconjunto de datos.
Ventajas de big data y de la analítica de datos:

 El big data le permite obtener respuestas más completas, ya que dispone de mayor cantidad
de información.
 La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo
que implica un enfoque completamente distinto a la hora de abordar problemas.
Casos de uso de big data
El big data puede ayudarle a abordar una serie de actividades empresariales, desde la
experiencia de cliente hasta la analítica. A continuación, recopilamos algunas de ellas (puede
encontrar más casos de uso en Soluciones Oracle Big Data).
Desarrollo de productos
Empresas como Netflix y Procter & Gamble usan big data para prever la demanda de los
clientes. Construyen modelos predictivos para nuevos productos y servicios clasificando
atributos clave de productos anteriores y actuales, y modelando la relación entre dichos
atributos y el éxito comercial de las ofertas. Además, P&G utiliza los datos y la analítica de
grupos de interés, redes sociales, mercados de prueba y avances de salida en tiendas para
planificar, producir y lanzar nuevos productos.
Mantenimiento predictivo
Los factores capaces de predecir fallos mecánicos pueden estar profundamente ocultos entre
datos estructurados (año del equipo, marca o modelo de una máquina) o entre datos no
estructurados que cubren millones de entradas de registros, datos de sensores, mensajes de
error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales antes
de que estos se produzcan, las organizaciones pueden implantar el mantenimiento de una
forma más rentable y optimizar el tiempo de servicio de componentes y equipos.
Experiencia del cliente
La carrera para conseguir clientes ha comenzado. Disponer de una vista clara de la experiencia
del cliente es más posible que nunca. El big data le permite recopilar datos de redes sociales,
visitas a páginas web, registros de llamadas y otras fuentes de datos para mejorar la
experiencia de interacción, así como maximizar el valor ofrecido. Empiece a formular ofertas
personalizadas, reducir las tasas de abandono de los clientes y gestionar las incidencias de
manera proactiva.
Fraude y conformidad
En lo que a seguridad se refiere, no se enfrenta a simples piratas informáticos deshonestos,

sino a equipos completos de expertos. Los contextos de seguridad y requisitos de
conformidad están en constante evolución. El big data le ayuda a identificar patrones en los
datos que pueden ser indicativos de fraude, al tiempo que concentra grandes volúmenes de
información para agilizar la generación de informes normativos.
Aprendizaje automático
El aprendizaje automático es actualmente un tema de gran actualidad. Los datos —

concretamente big data— son uno de los motivos de que así sea. Ahora, en lugar de
programarse, las máquinas pueden aprender. Esto es posible gracias a la disponibilidad de big
data para crear modelos de aprendizaje automático.
Eficiencia operativa
Puede que la eficiencia operativa no sea el aspecto más destacado en los titulares, pero es el
área en que big data tiene un mayor impacto. El big data le permite analizar y evaluar la
producción, la opinión de los clientes, las devoluciones y otros factores para reducir las
situaciones de falta de stock y anticipar la demanda futura. El big data también puede
utilizarse para mejorar la toma de decisiones en función de la demanda de mercado en cada
momento.
Impulso de la innovación
El big data puede ayudarle a innovar mediante el estudio de las interdependencias entre seres
humanos, instituciones, entidades y procesos, y, posteriormente, mediante la determinación
de nuevas formas de usar dicha información. Utilice las perspectivas que le ofrecen los datos
para mejorar sus decisiones financieras y consideraciones de planificación. Estudie las
tendencias y lo que desean los clientes para ofrecer nuevos productos y servicios. Implante
políticas de precios dinámicas. Las posibilidades son infinitas.
Desafíos de big data

Si bien es cierto que el big data promete mucho, también se enfrenta a desafíos.
En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han
desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos
duplica su tamaño cada dos años aproximadamente. Las organizaciones continúan
esforzándose por mantener el ritmo de crecimiento de sus datos y por encontrar formas de
almacenarlos eficazmente.
Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder
utilizarse, y esto depende de su conservación. Disponer de datos limpios —es decir, datos
relevantes para el cliente y organizados de tal modo que permitan un análisis significativo—
requiere una gran cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80
por ciento de su tiempo a seleccionar y preparar los datos antes de que estos puedan
utilizarse.
Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache
Hadoop era la tecnología más conocida utilizada para gestionar big data. Más tarde, en 2014,
entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación
de ambos marcos. Mantenerse al día en cuanto a tecnología de big data supone un desafío
constante.
Cómo funciona big data

El big data le aporta nuevas perspectivas que abren paso a nuevas oportunidades y modelos
de negocio. Iniciarse en ello requiere de tres acciones clave:
 Integrar
 Gestionar
 Analizar
Integrar
El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos
de integración de datos convencionales, tales como ETL (extract, transform, load [extraer,
transformar, cargar]), generalmente no están a la altura en dicha tarea. Analizar conjuntos de
big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas
estrategias y tecnologías.
Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que

estén formateados y disponibles de tal forma que los analistas empresariales puedan
empezar a utilizarlos.
Gestionar
El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la
nube, on premise o ambas. Puede almacenar sus datos de cualquier forma que desee e
incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento
necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de
almacenamiento en función de dónde residan sus datos en cada momento. La nube está
aumentando progresivamente su popularidad porque es compatible con sus requisitos
tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.
Analizar
La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una
nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando
los datos para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas.
Construya modelos de datos con aprendizaje automático e inteligencia artificial. Ponga sus
datos a trabajar.
Mejores prácticas de big data

Para ayudarle en su transición a big data, hemos recopilado una serie de mejores prácticas
que debe tener en cuenta. A continuación, detallamos nuestras pautas para crear con éxito
una base de big data.
Alinear big data con objetivos empresariales específicos

La disponibilidad de conjuntos de datos más amplios le permite realizar nuevos hallazgos. A
tal efecto, es importante basar las nuevas inversiones en habilidades, organización o
infraestructura con un marcado contexto empresarial para garantizar la constancia en la
financiación e inversión en proyectos. Para determinar si se encuentra en el camino correcto,
pregúntese en qué medida el big data respalda y habilita sus principales prioridades
empresariales y de TI. Algunos ejemplos incluyen entender cómo filtrar los registros web para
comprender el comportamiento del comercio electrónico, extraer el sentimiento de las redes
sociales y de las interacciones de atención al cliente, así como entender los métodos de
correlación estadística y su relevancia para los datos de clientes, productos, fabricación e
ingeniería.
Facilite la escasez de habilidades con estándares y administración

Uno de los mayores obstáculos del big data es la escasez de habilidades. Puede mitigar el
riesgo asegurándose de incorporar a su programa de administración de TI tecnologías,
consideraciones y decisiones relativas a big data. Normalizar su enfoque le permitirá gestionar
los costes y aprovechar los recursos. Las organizaciones que implanten soluciones y
estrategias de big data deben evaluar sus necesidades de habilidades de forma temprana y
frecuente, e identificar de manera proactiva las posibles carencias de habilidades. Esto puede
lograrse mediante la impartición de formación o la formación cruzada entre recursos
existentes, la contratación de nuevos recursos y el uso de empresas de consultoría.
Optimizar la transferencia de conocimientos con un centro de excelencia
Utilice un enfoque basado en un centro de excelencia para compartir conocimientos,
supervisar el control y gestionar las comunicaciones de proyectos. Tanto si el big data es una
inversión nueva o en expansión, los costes directos e indirectos pueden distribuirse en toda
la empresa. Utilizar este enfoque puede contribuir a incrementar las capacidades de big data
y la madurez del conjunto de la arquitectura de información de una forma más sistemática y
estructurada.
La principal ventaja reside en alinear los datos estructurados y no

estructurados
Analizar el big data de forma aislada sin duda aporta valor. Sin embargo, puede obtener una
perspectiva empresarial aún más valiosa relacionando e integrando el big data de baja
densidad con los datos estructurados que ya usa actualmente.
Tanto si está recopilando big data de clientes, de productos, de equipos o ambientales, el

objetivo es añadir puntos de datos más relevantes a sus resúmenes maestros y analíticos, lo
que le permitirá obtener mejores conclusiones. Por ejemplo, existe una diferencia en
distinguir la percepción de todos los clientes de la de solo sus mejores clientes. Por eso,
muchos consideran que big data constituye una extensión integral de sus capacidades
existentes de inteligencia empresarial, de su plataforma de almacenamiento de datos y de su
arquitectura de información.
Tenga en cuenta que los modelos y procesos analíticos de big data pueden ser tanto humanos
como automáticos. Las capacidades de análisis de big data incluyen estadísticas, análisis
especiales, semántica, detección interactiva y visualización. Mediante el uso de modelos
analíticos, puede relacionar distintos tipos y fuentes de datos para realizar asociaciones y
hallazgos significativos.
Planificar el laboratorio de hallazgos en pro del rendimiento
El concepto "hallazgo" implica que los datos no siempre se obtienen directamente. En

ocasiones, ni siquiera sabemos qué estamos buscando. Eso es de esperar. La dirección y los
equipos de TI deben respaldar esta “falta de dirección” o “falta de claridad en los requisitos.”
Al mismo tiempo, es importante que analistas y científicos de datos colaboren estrechamente

con la empresa para entender las principales necesidades y carencias de conocimientos de la
empresa. Para incorporar el estudio interactivo de los datos y la experimentación de
algoritmos estadísticos, necesita contar con áreas de trabajo de alto rendimiento. Asegúrese
de que los entornos de pruebas (sandbox) tienen la potencia necesaria y están correctamente
gobernados.
Alineación con el modelo operativo en la nube
Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos de
experimentación reiterativa y ejecución de tareas de producción. Una solución de big data
incluye todos los ámbitos de los datos, incluidas transacciones, datos principales, datos de
referencia y datos resumidos. Los entornos de pruebas (sandboxes) analíticos deben crearse
on-demand. La gestión de recursos es fundamental para garantizar el control de todo el flujo
de datos, incluido el procesamiento previo y posterior, la integración, el resumen dentro de
la base de datos y la creación de modelos analíticos. Disponer de una estrategia bien definida
de aprovisionamiento y seguridad en la nube pública y privada es fundamental para respaldar
estos requisitos cambiantes.
Bases de Datos Big Data: Requisitos y Ventajas
Bases de Datos Big Data

A medida que las organizaciones buscan cada vez más grandes conjuntos de datos para
ofrecer valiosas ideas comerciales, se ha puesto de manifiesto que los sistemas
tradicionales de gestión de bases de datos relacionales (RDBMS) que han sido el
estándar durante los últimos 30 años no están a la altura de manejar estos nuevos
requisitos de datos.
Como resultado, una variedad de opciones de base de datos para grandes conjuntos de
datos han surgido. Aunque las tecnologías difieren, todas ellas diseñadas para superar
las limitaciones del RDBMS para permitir a las organizaciones extraer valor de sus datos.
Requisitos de las base de datos Big Data

Para entender por qué hay una necesidad de nuevas opciones de base de datos para
manejar grandes datos, es importante entender el impacto de las tres características
principales que distinguen los grandes datos: volumen, variedad y velocidad.
Volumen: Fiel a su nombre, los datos grandes se miden comúnmente en petabytes,

exabytes e incluso zetabytes.
Las BBDD tradicionales se escalan hacia fuera aumentando el numero de servidores y la
capacidad de almacenamiento. Debido a que estos sistemas no están diseñados para
ejecutarse de hardware en hardware y requieren técnicas de sharding altamente
complejas para distribuir datos entre varios servidores, la escala puede ser
extremadamente costosa y perjudicial.
Por ejemplo, un sistema tradicional como Oracle puede costar millones de dólares para
almacenar sólo 20 terabytes de datos, una cantidad que podría representar un día de
guardado de datos para una organización importante.
Por el contrario, las grandes bases de datos minimizan el costo y la carga de la escala
con enfoques que facilitan la adición o reducción rápida de la capacidad utilizando
hardware de bajo costo con poca o ninguna intervención manual.
Variedad: En el pasado, la mayoría de los datos se estructuraron para ajustarse al

modelo de datos rígido relacional.
Con el surgimiento de grandes datos, los datos no estructurados, desde publicaciones de
medios sociales, imágenes y video están creciendo mucho más rápidamente que los
datos estructurados.
La única forma en que una BBDD puede manejar datos heterogéneos que no encajan
con el esquema predefinido es a través de complejas y complicadas soluciones. Las
grandes bases de datos no tienen este problema.
Ellas usan modelos de almacenamiento de datos flexibles que se construyen para
garantizar que todos los tipos de datos se pueden almacenar y consultar fácilmente
utilizando una variedad de métodos.
Velocidad: La velocidad es crítica en la era de los grandes datos. Se están creando

volúmenes masivos de datos heterogéneos en tiempo real, y la expectativa es que
puedan ser captados, almacenados y procesados en tiempo casi real.
Esto es particularmente importante con información tal como datos de series temporales.
Sin la capacidad de manejar el volumen y la variedad de datos grandes, el rendimiento
puede sufrir e incluso causar tiempo de inactividad.
Las grandes bases de datos están diseñadas para mantenerse al día con las demandas
implacables de captura de todo tipo de datos sin perder rendimiento o disponibilidad.
Beneficios de una base de datos Big Data

Los sistemas que están diseñados con grandes datos en mente se llaman a menudo
bases de datos NoSQL debido al hecho de que no necesariamente se basan en el
lenguaje de consulta SQL utilizado por RDBMS.
Hay muchos sabores y marcas de bases de datos NoSQL que están diseñadas para
diferentes casos de uso. Las principales categorías de bases de datos NoSQL son;
Documento, clave / valor, grafos, tabla grande y series de tiempo, entre otros.
Debido a que la capacidad puede agregarse o reducirse de forma rápida y eficiente en

cualquier momento, NoSQL permite a las organizaciones escalar fácilmente para abarcar
grandes iniciativas de datos.
Rentabilidad: Como NoSQL utiliza hardware de bajo costo, el ahorro de costos en

comparación con RDBMS se vuelve más dramático a medida que se necesita mayor
capacidad para acomodar petabytes y exabytes de datos.
Además, las organizaciones sólo necesitan implementar la cantidad de hardware que se
requiere para cumplir con los requisitos de capacidad en lugar de realizar grandes
inversiones en hardware.
Flexibilidad: Ya sea que una organización esté desarrollando aplicaciones web, móviles
o de series de tiempo, los modelos de datos fijos de las BBDD relacionales previenen o
reducen drásticamente la capacidad de una organización para adaptarse a la evolución
de los grandes requerimientos de aplicaciones de datos.
NoSQL permite a los desarrolladores utilizar los tipos de datos y las opciones de consulta
que mejor se adapten al caso de uso específico de la aplicación, lo que permite un
desarrollo más rápido y ágil.
Rendimiento: Como se mencionó, con las BBDD relacionales, el aumento del

rendimiento implica enormes gastos y la sobrecarga manual.
Por otro lado, cuando los recursos de cálculo se agregan a una base de datos NoSQL, el
rendimiento aumenta de manera proporcional para que las organizaciones puedan seguir
ofreciendo una experiencia al usuario rápida.
Disponibilidad: Los sistemas RDBMS típicos se basan en arquitecturas primarias /

secundarias que son complejas y pueden crear puntos de fallo únicos.
Al utilizar una arquitectura que distribuye automáticamente los datos entre varios
recursos, algunos sistemas NoSQL distribuidos garantizan que la base de datos
permanezca disponible y sea capaz de mantener el ritmo de las demandas masivas de
lectura y escritura de las grandes aplicaciones de datos.
Análisis de datos Big Data
Técnicas de Análisis Big Data - Ejemplos y Aplicaciones
Técnicas de Análisis de datos de Big Data

'Big Data' es la aplicación de técnicas y tecnologías especializadas para procesar grandes
conjuntos de datos. Estos conjuntos de datos a menudo son tan grandes y complejos que
resulta difícil procesar utilizando las herramientas de administración de bases de datos
disponibles.
Los ejemplos incluyen registros web, registros de llamadas, registros médicos, vigilancia
militar, archivos de fotografía, archivos de video y comercio electrónico a gran escala.
El crecimiento radical de la tecnología de la información ha dado lugar a varias
condiciones complementarias en la industria. Uno de los resultados más persistentes y
posiblemente más presentes es la presencia de Big Data.
El término Big Data es una frase clave que se acuñó para describir la presencia de
enormes cantidades de datos. El efecto resultante de tener una gran cantidad de datos
es el análisis de datos.
La analítica de datos es el proceso de estructuración de Big Data. Dentro de Big Data,
existen diferentes patrones y correlaciones que hacen posible que el análisis de datos
haga una mejor caracterización de los datos.
Esto hace que el análisis de datos sea una de las partes más importantes de la tecnología
de la información.
Reglas de Asociación
Un conjunto de técnicas para descubrir relaciones interesantes, es decir, "reglas de
asociación", entre variables en grandes bases de datos. Estas técnicas consisten en una
variedad de algoritmos para generar y probar posibles reglas.
Una aplicación es el análisis de la cesta de mercado, en la que un minorista puede
determinar qué productos se compran con frecuencia de forma conjunta y utilizar esta
información para su comercialización.
(Un ejemplo comúnmente citado es el descubrimiento de que muchos compradores de
supermercados que compran nachos también compran cerveza).
El aprendizaje de reglas de asociación es un método para descubrir correlaciones
interesantes entre variables en bases de datos grandes.
Primero fue utilizado por las principales cadenas de supermercados para descubrir
relaciones interesantes entre los productos, utilizando datos de los sistemas de puntos
de venta (POS) de los supermercados.
El aprendizaje de reglas de asociación se está utilizando para ayudar:
 colocar los productos en una mejor proximidad entre ellos para aumentar las ventas
 extraer información sobre los visitantes a los sitios web desde los registros del servidor
web
 analizar datos biológicos para descubrir nuevas relaciones
 monitorear los registros del sistema para detectar intrusos y actividad maliciosa
 identificar si las personas que compran leche y mantequilla son más propensas a comprar
pañales
¿A qué categorías pertenece este documento?

La clasificación estadística es un método de identificación de categorías a las que
pertenece una nueva observación y parte del análisis estadístico. Requiere un conjunto
de entrenamiento de observaciones correctamente identificadas - datos históricos en
otras palabras.
La clasificación estadística se usa para:
 Asignar automáticamente documentos a categorías
 Categorizar organismos en agrupaciones
 Desarrollar perfiles de estudiantes que toman cursos en línea
Algoritmos genéticos
¿Qué programas de TV deberíamos transmitir, y en qué horario, para maximizar los
ratings?
Los algoritmos genéticos están inspirados en la forma en que funciona la evolución, es
decir, a través de mecanismos tales como la herencia, la mutación y la selección natural.
Estos mecanismos se usan para "evolucionar" soluciones útiles a problemas que
requieren optimización.
Los algoritmos genéticos se utilizan para:
 Programar a los médicos para las salas de emergencia de los hospitales
 Combinaciones de retorno de los materiales óptimos y las prácticas de ingeniería
necesarias para desarrollar vehículos de bajo consumo de combustible
 Generar contenido "artificialmente creativo" como juegos de palabras y bromas
Machine Learning
¿Qué películas de nuestro catálogo probablemente desee ver este cliente a continuación,
en función de su historial de visualización?
El aprendizaje automático incluye un software que puede aprender de los datos. Le da a
las computadoras la capacidad de aprender sin estar programado explícitamente, y se
enfoca en hacer predicciones basadas en propiedades conocidas aprendidas de
conjuntos de "datos de entrenamiento".
El aprendizaje automático se está utilizando para ayudar:
 Distinguir entre mensajes de correo electrónico no deseado y deseado
 Aprender las preferencias del usuario y hacer recomendaciones basadas en esta
información
 Determinar el mejor contenido para captar clientes potenciales
 Determinar la probabilidad de ganar un caso y establecer tasas de facturación legales
Análisis de Regresión
¿Cómo afecta su edad el tipo de automóvil que compra?
En un nivel básico, el análisis de regresión implica la manipulación de una variable
independiente (es decir, la música de fondo) para ver cómo influye en una variable
dependiente (es decir, el tiempo que se pasa en la tienda).
Describe cómo cambia el valor de una variable dependiente cuando se varía la variable
independiente. Funciona mejor con datos cuantitativos continuos como el peso, la
velocidad o la edad.
El análisis de regresión se está utilizando para determinar:
 Los niveles de satisfacción del cliente afectan la lealtad del cliente
 La cantidad de llamadas de soporte recibidas puede estar influenciada por el pronóstico
del tiempo dado el día anterior
 El vecindario y el tamaño afectan el precio de venta de las casas
 Para encontrar el amor de tu vida a través de sitios de citas en línea
Análisis de Sentimientos
¿Qué tan bien se está recibiendo nuestra nueva política de devolución?
El análisis del sentimiento ayuda a los investigadores a determinar los sentimientos de
los hablantes o escritores con respecto a un tema.
El análisis de sentimiento se está utilizando para ayudar:
 Mejorar el servicio en una cadena de hoteles mediante el análisis de los comentarios de
los huéspedes
 Personalizar incentivos y servicios para abordar lo que los clientes realmente están
pidiendo
 Determinar qué piensan realmente los consumidores basándose en las opiniones de las
redes sociales
Análisis en redes sociales

El análisis de redes sociales es una técnica que se utilizó por primera vez en la industria
de las telecomunicaciones y luego fue adoptada rápidamente por sociólogos para
estudiar las relaciones interpersonales.
Ahora se está aplicando para analizar las relaciones entre personas en muchos campos
y actividades comerciales. Los nodos representan individuos dentro de una red, mientras
que los vínculos representan las relaciones entre los individuos.
El análisis de redes sociales se está utilizando para:
 Ver cómo las personas de diferentes poblaciones forman lazos con los de afuera
 Encontrar la importancia o influencia de un individuo en particular dentro de un grupo
 Encontrar la cantidad mínima de vínculos directos necesarios para conectar a dos
personas
 Entender la estructura social de una base de clientes
Ya sea que su empresa quiera descubrir correlaciones interesantes, categorizar personas

en grupos, programar recursos de manera óptima o establecer tarifas de facturación, una
comprensión básica de las siete técnicas mencionadas anteriormente puede ayudar a Big
Data a trabajar para usted.
Análisis de clustering
Un método estadístico para clasificar objetos que divide un grupo diverso en grupos más
pequeños de objetos similares, cuyas características de similitud no se conocen de
antemano.
Un ejemplo de análisis de conglomerados es segmentar a los consumidores en grupos
similares para el marketing dirigido. Utilizado para minería de datos.
Crowdsourcing
En crowdsourcing, es dónde una tarea o un trabajo se terceriza, pero no a un profesional
u organización designada, sino para el público en general en forma de una llamada
abierta.
Crowdsourcing es una técnica que se puede implementar para recopilar datos de diversas
fuentes, como mensajes de texto, actualizaciones de redes sociales, blogs, etc.
Este es un tipo de colaboración masiva y una instancia de uso de la Web.
Prueba A / B
A / B Testing es una herramienta de evaluación para identificar qué versión de una página
web o una aplicación ayuda a una organización o individuo a cumplir un objetivo de
negocio de manera más efectiva.
Esta decisión se toma comparando qué versión de algo funciona mejor. Las pruebas A /
B se usan comúnmente en el desarrollo web para garantizar que los cambios en una
página web o componente de página se basen en datos y no en opiniones personales.
También se conoce como prueba derramada o prueba de cubeta.
Fusión de datos e integración de datos
Un proceso multinivel que trata con la asociación, la correlación, la combinación de datos

e información de fuentes únicas y múltiples para lograr una posición refinada, identifica
estimaciones y evaluaciones completas y oportunas de situaciones, amenazas y su
importancia.
Las técnicas de fusión de datos combinan los datos de múltiples sensores y la información
relacionada de las bases de datos asociadas para lograr una mayor precisión e
inferencias más específicas de las que se podrían lograr mediante el uso de un único
sensor solo.
Minería de datos
La minería de datos está clasificando datos para identificar patrones y establecer
relaciones. La extracción de datos se refiere a las técnicas de extracción de datos
colectivos que se realizan en grandes volúmenes de datos.
Los parámetros de minería de datos incluyen asociación, análisis de secuencia,
clasificación, agrupamiento y previsión.
Las aplicaciones incluyen la minería de datos de clientes para determinar los segmentos
con mayor probabilidad de responder a una oferta, la minería de datos de recursos
humanos para identificar las características de los empleados más exitosos o el análisis
de la cesta de mercado para modelar el comportamiento de compra de los clientes.
Ensemble learning
Es un arte de combinar diversos juegos de algoritmos de aprendizaje para improvisar
sobre la estabilidad y el poder predictivo del modelo. Este es un tipo de aprendizaje
supervisado.
Procesamiento natural del lenguaje

Un conjunto de técnicas de una subespecialidad de la informática (dentro de un campo
históricamente llamado "inteligencia artificial") y lingüística que utiliza algoritmos
informáticos para analizar el lenguaje humano (natural).
Muchas técnicas de PNL son tipos de aprendizaje automático. Una aplicación de NLP
está utilizando el análisis de sentimientos en las redes sociales para determinar cómo los
posibles clientes están reaccionando a una campaña de marca.
Redes neuronales
Modelos predictivos no lineales que aprenden a través del entrenamiento y se asemejan
a las redes neuronales biológicas en su estructura. Se pueden usar para reconocimiento
y optimización de patrones.
Algunas aplicaciones de redes neuronales implican aprendizaje supervisado y otras
implican aprendizaje no supervisado.
Ejemplos de aplicaciones incluyen identificar clientes de alto valor que están en riesgo de
abandonar una compañía en particular e identificar reclamos de seguro fraudulentos.
Optimización
Una cartera de técnicas numéricas utilizadas para rediseñar sistemas y procesos
complejos para mejorar su rendimiento de acuerdo con una o más medidas objetivas (por
ejemplo, costo, velocidad o confiabilidad).
Entre los ejemplos de aplicaciones se incluyen la mejora de los procesos operativos,
como la programación, el enrutamiento y el diseño de piso, y la toma de decisiones
estratégicas, como la estrategia de gama de productos, el análisis de inversiones
vinculadas y la estrategia de cartera de I + D. Los algoritmos genéticos son un ejemplo
de una técnica de optimización.
BASE DE DATOS II: CUARTA UNIDAD
BIG DATA: CONCEPTO
 En español, grandes datos o grandes volúmenes de datos.

 Es un término evolutivo que describe cualquier cantidad
voluminosa de datos estructurados, semiestructurados
y no estructurados que tienen el potencial de ser
extraídos para obtener información.
 Es uno más de los muchos conceptos que han cogido
fuerza en el mundo tecnológico en los últimos años, y dicho
de una forma sencilla es un gran volumen de datos
digitales que provienen de diferentes fuentes.
 No es una tecnología específica, sino que está vinculada a
otras tecnologías relacionadas con la información digital.
Big Data y Data Science
 En el mundo se acumulan cada vez más datos en formato digital
pero el problema es que estos datos son en general poco
estructurados y en grandes cantidades.
 La complejidad y el gran volumen de datos impiden que estos
puedan ser analizados por los medios tradicionales.
 Los términos Big Data y Data Science se asocian con los
grandes volúmenes de datos que caracterizan la nueva era
tecnológica.
 Data Science es la ciencia centrada en el estudio de los datos.
Combina la estadística, las matemáticas y la informática para
interpretar datos. El objetivo es tomar decisiones. Estos datos se
obtienen a través de diferentes canales.
Big Data, Analista de Datos y científico de
Datos
 El Analista de Datos o Big Data Analyst es un perfil profesional que
gracias a la interpretación de los datos puede establecer estrategias
dentro de una empresa. Por lo tanto, debe saber recopilar datos a la
vez que analizarlos de forma estadística.
 El Científico de Datos o Data Scientist es un perfil profesional que

traduce los grandes volúmenes de información disponibles conocidos
como Big Data y que provienen de todo tipo de fuentes de información
masivas y las convierten en respuestas.
 Los científicos de datos son expertos en datos analíticos que poseen

habilidades técnicas para resolver problemas complejos y explorar qué
problemas necesitan resolverse.
BIG DATA: LAS 5 V
BIG DATA: LAS 5 V
El Big Data se caracteriza por cumplir con las 5 «V», que no son más que 5 características
representativas de esta tecnología.
Volumen
Una de las características del Big Data es que nuevos datos se generan constantemente.
Además, como las fuentes son diversas, el volumen de datos tiende a ser inmenso.
Velocidad
No sólo se generan muchos datos y desde muchas fuentes, sino que lo normal es que la
velocidad a la que se generan estos datos sea muy alta. Esto provoca un flujo de datos
muy difícil de gestionar con software tradicional.
BIG DATA: LAS 5 V
Variedad
Debido a la naturaleza unificadora del Big Data, se debe gestionar la información que llega
de fuentes muy diferentes. Esto supone que, incluso siendo datos estructurados, tal
estructura sea diferente en cada fuente, lo que supone un nuevo reto a solventar para la
empresa.
Valor
Debido a la inmensa cantidad de datos que se debe procesar, se ha de tener especial
cuidado en la elección de los datos que realmente son importantes para la empresa y sus
futuras operaciones.
Veracidad
El Big Data debe alimentarse con datos relevantes y verdaderos. No podremos realizar
analíticas útiles si muchos de los datos entrantes provienen de fuentes falsas o con errores
en su información.
Big Data: Preguntas iniciales
A la hora de crear proyectos Big Data que detecten, consuman, gestionen,
organicen y presenten dichos datos de una manera optimizada y de forma que
aporten algo a nuestro negocio generalmente nos enfrentamos a las siguientes
preguntas:
• ¿De dónde obtengo los datos?

• ¿Qué datos aportan más información a mi negocio?
• ¿Qué datos hay disponibles fuera de mi organización que me pueden ayudar?
• ¿Qué volumen de datos tenemos que manejar?
• ¿Qué formato tienen?
• ¿Con qué frecuencia los utilizo?
• ¿Cómo integrarlos en nuestro sistema de gestión?
Big Data: ¿Qué problema se quiere resolver?
Si no se tiene claro el problema, no se

puede empezar a trabajar con datos
para encontrar una solución.
Localizado el problema a resolver, se
plantean las preguntas iniciales y luego
se extrae información.
El proceso de obtención de la misma a
partir de los datos está reflejado en la
famosa pirámide DIKW o pirámide del
conocimiento, que relaciona cuatro
componentes: Data, Information, Kno
wledge y Wisdow (Datos, Información,
Conocimiento y Sabiduría).
BIG DATA: TIPOS DE DATOS
 Datos estructurados
Son los datos que forman parte de una estructura predefinida.
Como ejemplos encontramos una hoja de Excel o una base de datos SQL. Estos datos son
fácilmente catalogables, y pueden ser utilizados para posteriores análisis y predicciones
fiables.
 Datos no estructurados
Son aquellos datos que no tienen ni forman parte de una estructura definida.
Como ejemplos encontramos el cuerpo de un email, datos escritos en un archivo word, o
incluso bases de datos NoSQL. Estos datos contienen mucha información valiosa, pero al no estar
bien estructurada y catalogada, su uso resulta complicado a la hora de crear informes y realizar
análisis.
ANONIMIZACIÓN DE DATOS
Proceso de eliminar las referencias de cualquier identificación

personal, para conservar la privacidad de los individuos.
 ELIMINACIÓN de datos.
 CIFRADO, uso de una clave, este proceso tiene un costo.
 ENMASCARAMIENTO de los datos sensibles, se mantiene

la estructura de la fuente de datos original, se conservan los
tipos pero sus valores no.
TECNOLOGIA SQL
 SQL, bases de datos relacionales
Las bases de datos relacionales (SQL) son el tipo que más tiempo lleva en el
mercado de la tecnología y son por tanto las utilizadas en mayor medida
tradicionalmente.
Su composición está hecha con bases de datos llenas de tablas con filas que
contienen campos estructurados. No es un tipo de base de datos muy flexible,
pero tiene a favor su gran soporte y el enorme desarrollo en herramientas debido a
todo su bagaje histórico.
Es una tecnología muy reconocida en comparación con las bases NoSQL que al
ser más novedosas no tienen tanto alcance todavía. En cambio, las bases de
datos SQL necesitan más recursos como norma general, ya que cuanto más
compleja sea la base más procesamiento necesitará.
TECNOLOGIA SQL
 SQL, bases de datos relacionales
El mayor inconveniente de las SQL es probablemente el referido a la

escalabilidad, que es precisamente el que permitió el desarrollo de
alternativas que desembocaron en las redes NoSQL, ya que grandes
empresas que manejan datos a gran escala con necesidad de mucha
infraestructura sufrían con este problema.
A partir de ahí se desarrollaron las primeras NoSQL cerradas creadas por

empresas para su uso interno, y finalmente los sistemas de código
abierto. Cuatro de las más utilizadas dentro de las bases de datos SQL,
son: Oracle, Microsoft SQL Server, SQlite o MySQL.
TECNOLOGIA NO SQL
 NOSQL, base de datos no relacional
La gran diferencia entre los dos tipos de bases de datos es la
estructuración, que en el caso de las NOSQL se trata de una forma de
almacenamiento no estructurado y permiten una alta escalabilidad.
Además, es abierta y por lo tanto flexible a diferentes tipos de datos y no

necesita tantos recursos para ejecutarse; de hecho, el hardware necesario
no es de un coste muy elevado.
En este sentido, también se deja notar el menor coste a la hora de la

expansión, ya que no necesitan la evolución en hardware del equipo, sino
que basta con hacer un escalado horizontal, con más máquinas en las
que distribuir la carga completa.
TECNOLOGIA NO SQL
Las desventajas de las bases NoSQL, son que los desarrolladores, al

implementar su propio código y no existir tanta estandarización, se limita
el número de aplicaciones seguras para realizar transacciones, y por
otro lado, tampoco es una virtud el hecho de que sea incompatible con
ellas llevar a cabo consultas SQL, lo que hace necesario un lenguaje de
consulta manual que ralentiza los procesos de este tipo concreto.
Las NoSQL no son un sustituto de las SQL, sino que son una alternativa
que ofrece otras posibilidades, lo que las convierte en más interesantes
para determinados casos como por ejemplo proyectos que requieren una
alta escalabilidad en el los recursos son escasos y la integridad de los
datos no es lo más importante.
TECNOLOGIA NO SQL
Ejemplos de Bases de Datos No SQL: Hypertable, Cassandra, MongoDB,
DynamoDB o Redis.
TECNOLOGIA NO SQL
 Dada la diversidad de tecnologías
NoSQL, habitualmente se clasifican en
cuatro grupos, por su forma de modelar
los datos:
1. Bases de datos Clave-Valor

2. Orientadas a Documento
3. Orientadas a Grafos
4. Orientadas a Columnas
TECNOLOGIA NO SQL
 Bases de datos Clave-Valor:
Tienen el modelo de datos más sencillo de todos, una clave indexada asociada a
un valor, que desde el punto de vista de la base de datos es información opaca
que simplemente almacena y recupera asociada a la clave. El consumidor de esta
información es responsable de conocer la estructura de la información
almacenada.
Están diseñadas para escalar masivamente manteniendo un tiempo de respuesta

muy rápido y disponibilidad total. Se suelen usar para almacenar información de
sesión, preferencias o perfiles de usuario, carritos de la compra y en general
como cachés de cualquier conjunto de información que se pueda recuperar por
una clave. Algunos ejemplos son Redis, Riak o Aerospike.
TECNOLOGIA NO SQL
TECNOLOGIA NO SQL
 Orientadas a Documento:
Utilizan el modelo de documento, para almacenar y consultar información.
Permiten gestionar información con complejas estructuras jerárquicas, y ofrecen

índices secundarios y completos lenguajes de consulta y agregación de datos.
Esto unido a la flexibilidad del esquema de datos las convierten en las más
versátiles y de propósito general. Dentro de este grupo tenemos tecnologías
como MongoDB, CouchDB o CouchBase entre otras.
TECNOLOGIA NO SQL
TECNOLOGIA NO SQL
 Orientadas a Grafos:
El modelo de datos se centra en entidades y las relaciones entre éstas. Tanto las
entidades (nodos del grado) como las relaciones (aristas) pueden además tener
atributos. Una entidad puede tener numerosas relaciones con cualquier otra
entidad. Recorrer las uniones entre entidades a través de estas relaciones es el
fuerte de las bases de datos orientadas a grafos, y permiten hacerlo con gran
velocidad, independientemente del volumen de datos, lo que posibilita explorar
conexiones entre entidades que de otra forma sería muy difícil con las bases de
datos relacionales.
El caso de uso más conocido de este tipo de bases de datos son las redes
sociales. Ejemplos de esta tecnología son Neo4j, OrientDB o Titan.
TECNOLOGIA NO SQL
TECNOLOGIA NO SQL
 Orientadas a Columnas:
Este tipo de bases de datos son similares a una tabla en las bases de
datos relacionales, de hecho derivan en su mayoría del modelo BigTable
publicado por Google, pero un registro puede contener cualquier número
de columnas (o familias de columnas).
Son ideales para realizar consultas y agregaciones sobre grandes

cantidades de datos cuando éstas se pueden determinar previamente y no
cambian con frecuencia. En este grupo encontramos ejemplos como
Cassandra o HBase.
TECNOLOGIA NO SQL
TECNOLOGIA NO SQL: CONCLUSIONES
 La selección de la tecnología de almacenamiento adecuada involucra

la consideración de numerosos aspectos. Aunque el rendimiento
suele ser el factor más importante, es necesario considerar aspectos
como la funcionalidad, la facilidad de operación, sencillez de uso,
disponibilidad de profesionales con conocimiento, seguridad, y
otros factores como la existencia de herramientas y una comunidad
que respalde el producto.
 Cada vez con más frecuencia estamos viendo cómo las tecnologías
NoSQL forman parte de la solución en proyectos empresariales,
gracias a beneficios como la mejora en la productividad de los equipos
de desarrollo, y la posibilidad de llegar antes al mercado y con una
considerable reducción del TCO (costo total de propiedad, proveniente
del término anglosajón Total Cost of Ownership o TCO)
 Es importante resaltar que, las tecnologías NoSQL ( Not Only SQL -

"no sólo SQL"), no tienen porqué ser la única pieza en el
almacenamiento de datos de una solución, sino que frecuentemente
estarán acompañadas de bases de datos SQL, que todavía tienen un
futuro asegurado, e incluso en combinación con otras bases de datos
NoSQL, situación que se ha bautizado como “Polyglot Persistence”.
Polyglot Persistence: La persistencia políglota es un término que se refiere al uso de múltiples tecnologías
de almacenamiento de datos para diferentes necesidades de almacenamiento de datos en una aplicación
o dentro de un componente más pequeño de una aplicación.
BASE DE DATOS II: CUARTA UNIDAD
BIG DATA Y HADOOP
 Hadoop es una estructura de software de código abierto para almacenar
datos y ejecutar aplicaciones en clústeres de hardware comercial.
Proporciona almacenamiento masivo para cualquier tipo de datos, enorme
poder de procesamiento y la capacidad de procesar tareas o trabajos
concurrentes virtualmente ilimitados.
 La historia de Big Data y Hadoop está necesariamente unida a la

de Google. De hecho, podría decirse que Hadoop nace en el momento en
que Google precisa urgentemente de una solución que le permita continuar
procesando datos al ritmo que necesita, en una proporción que
repentinamente ha crecido de forma exponencial.
BIG DATA Y HADOOP
 Google se ve incapaz de poder indexar la web al nivel que exige el

mercado y por ello decide buscar una solución, que se basa en
un sistema de archivos distribuidos.
 Esta solución, Hadoop, se basa en un gran número de pequeños

ordenadores, cada uno de los cuales se encarga de procesar una porción
de información. La grandiosidad del sistema es que, a pesar de que
cada uno de ellos funciona de forma independiente y autónoma,
todos actúan en conjunto, como si fueran un solo ordenador de
dimensiones increíbles.
BIG DATA Y HADOOP
 Las ventajas de Hadoop son muchas tanto para los desarrolladores como para
los usuarios, en las etapas de programación, ejecución de procesos,
manipulación y seguimiento de la información almacenada, módulos de control y
en la realización de consultas.
 Los componentes básicos de Hadoop son:

HDFS: Consiste en un sistema de archivo distribuido, que permite que el
fichero de datos no se guarde en una única máquina sino que sea capaz
de distribuir la información a distintos dispositivos.
MAPREDUCE: Se trata de un framework de trabajo, que permite que un
programa que ha sido escrito en los lenguajes de programación más comunes,
se pueda ejecutar en un cluster de Hadoop.
 La gran ventaja es que hace posible escoger y utilizar el lenguaje y las
herramientas más adecuadas para la tarea concreta que se va a realizar.
FASE DE ADQUISICIÓN DE DATOS EN BIG DATA
 El primer paso del proceso de Ciencia de Datos consiste en adquirir los datos.
 Determinar los datos que están disponibles en fuentes de datos confiables.
 Identificar los datos adecuados relacionados con el problema.
 Seleccionar los datos que sean relevantes para el análisis del problema. Omitir
solamente una pequeña cantidad de datos importante puede conducir a
conclusiones incorrectas.
FASE DE ADQUISICIÓN DE DATOS EN BIG DATA
 Los datos pueden proceder de muchos lugares, locales y remotos, y venir

en formatos heterogéneos, tanto de forma estructurada como
desestructurada, y con diferentes velocidades. Por ejemplo: Bases de
datos relacionales convencionales, archivos de texto, hojas de cálculo,
sitios web, etc.
 Encontrar y evaluar los datos útiles para el análisis de Big Data es

importante antes de comenzar con la adquisición de datos. Dependiendo
de la fuente y de la estructura de los datos, existen formas alternativas de
acceder a ellos.
HERRAMIENTAS PARA LA ADQUISICIÓN DE
DATOS EN BIG DATA
 Apache Flume
Es un sistema distribuido, confiable y disponible para recoger, agregar y mover grandes

cantidades de datos en logs desde diferentes orígenes a un almacén centralizado.
 Apache Sqoop
Nos permite extraer información de un sistema estructurado (como por ejemplo SQL Server,
MySQL o Oracle) y almacenarlo en HDFS (Hadoop Distributed File System) para sea procesada
posteriormente.
 Apache Kafka
Apache Kafka ha sido diseñado para optimizar la transmisión y el procesamiento de los flujos de
datos que se intercambian entre la fuente y el receptor por conexión directa.
FASES DE UN PROYECTO BIG DATA EXITOSO
 Almacenamiento:
Se realiza en bases de datos relacionales o

NoSQL, a fin de facilitar el acceso y la
disponibilidad de la data. Es importante que, con
ayuda de los profesionales de big data, se
examine qué datos (comerciales, operacionales,
financieros, entre otros) posee el negocio y los
que realmente precisa y proporcionan valor,
porque cuando hay demasiados datos
recolectados el proyecto se puede volver muy
costoso. En esta fase se puede comenzar a
decidir qué tipo de analítica big data usar en el
proyecto.
 Los principales sistemas de almacenamiento de datos para ecosistemas Big Data son:
• HDFS: sistema de almacenamiento por excelencia de Hadoop.
• Apache HBase: sistema de gestión de bases de datos orientado a columnas que se

ejecuta sobre el HDFS y se suele utilizar para distribuir conjuntos de datos.
• S3: sistema de almacenamiento de Amazon, homologo a HDFS.
• Kudo: gestor de almacenamiento de bases de datos orientado a columnas para

Cloudera.
• ElasticSearch: servidor de búsqueda open-source en tiempo real que proporciona

almacenamiento indexado y distribuido
• Casandra: base de datos No-Sql orientada a columnas.
• MongoDB: base de datos No-Sql orientada a documentos.
• MariaDB: base de datos No-Sql orientada a columnas.

 Procesamiento:
Es la fase que se realiza con la
ayuda de herramientas de
procesamiento big data, como
Hadoop, Python, Elasticsearch,
entre otras. Ellas permiten trabajar
con grandes volúmenes o flujos
rápidos de información de datos en
tiempo real.
 Análisis:
Es la fase que aporta información útil para
aplicar en el negocio. Hay varios tipos de
analíticas big data que crean valor, por
medio de diversos métodos y algoritmos.
Esto con la finalidad de entender lo que
pasa en la empresa, por qué sucede y lo
que puede ocurrir en el futuro.
FASES DE UN PROYECTO BIG DATA
EXITOSO
 La visualización:
La Visualización de datos es la representación gráfica de información y

datos. Al utilizar elementos visuales como cuadros, gráficos y mapas,
las herramientas de visualización de datos proporcionan una manera
accesible de ver y comprender tendencias, valores atípicos y patrones
en los datos.
En el mundo del big data, las herramientas y tecnologías de
visualización de datos son esenciales para analizar grandes cantidades
de información y tomar decisiones basadas en los datos.
EXITOSO
La visualización:
 Tipos generales comunes de visualización de datos:

• Cuadros
• Tablas
• Gráficos
• Mapas
• Infografía
• Dashboards
(Representación gráfica de los principales indicadores)
EXITOSO
La visualización:
Ejemplos más específicos de métodos para visualizar datos:
• Gráfico de área • Matriz

• Gráfico de barras • Red
• Diagramas de caja y bigotes • Área polar
• Nube de burbujas • Árbol radial
• Gráfico de bala • Diagrama de dispersión (2D o
• Cartograma 3D)
• Vista circular • Gráfico de flujo
• Mapa de distribución de puntos • Tablas de texto
• Gráfico de Gantt • Escala de tiempo
• Mapa de calor • Diagrama de árbol
• Tabla de resaltado • Gráfico circular apilado
• Histograma • Nube de palabras
CONSULTAS BIG DATA
 Las consultas sobre HDFS son complejas y engorrosas de escribir, por ellos
existe aplicaciones de más alto nivel que proporcionan una capa de
abstracción para facilitar la comunicación, estas son:
• Apache Hive: infraestructura de almacenamiento de datos distribuida que se

construye sobre Hadoop para proporcionar agrupación, consulta, y análisis de
datos. Convierte las sentencias SQL o Pig en un trabajo de MapReduce.
• Apache Impala: Motor de consultas SQL para el procesamiento masivo en

paralelo (MPP) de los datos almacenados en un clúster Hadoop.
• Apache Pig: lenguaje de alto nivel para realizar codificación MapReduce.

Convierte una descripción de alto nivel de cómo deben ser procesados los
datos en «Jobs» de MapReduce, sin necesidad de tener que escribir largas
cadenas de jobs cada vez, mejorando la productividad de los desarrolladores.

Big Data Unido

Cargado por

Copyright:

Formatos disponibles

Big Data Unido

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Big Data Unido

Cargado por

Copyright:

Formatos disponibles

BIG DATA

Definición de big data

Las "tres V" de big data

Avances tecnológicos recientes han reducido exponencialmente el coste del almacenamiento

Pero ¿cómo hemos llegado hasta aquí?

Ventajas de big data y de la analítica de datos:

Casos de uso de big data

Experiencia del cliente

En lo que a seguridad se refiere, no se enfrenta a simples piratas informáticos deshonestos,

El aprendizaje automático es actualmente un tema de gran actualidad. Los datos —

Desafíos de big data

Cómo funciona big data

Durante la integración, es necesario incorporar los datos, procesarlos y asegurarse de que

Mejores prácticas de big data

Alinear big data con objetivos empresariales específicos

Facilite la escasez de habilidades con estándares y administración

La principal ventaja reside en alinear los datos estructurados y no

Tanto si está recopilando big data de clientes, de productos, de equipos o ambientales, el

Planificar el laboratorio de hallazgos en pro del rendimiento

El concepto "hallazgo" implica que los datos no siempre se obtienen directamente. En

Al mismo tiempo, es importante que analistas y científicos de datos colaboren estrechamente

Bases de Datos Big Data

Requisitos de las base de datos Big Data

Volumen: Fiel a su nombre, los datos grandes se miden comúnmente en petabytes,

Variedad: En el pasado, la mayoría de los datos se estructuraron para ajustarse al

Velocidad: La velocidad es crítica en la era de los grandes datos. Se están creando

Beneficios de una base de datos Big Data

Debido a que la capacidad puede agregarse o reducirse de forma rápida y eficiente en

Rentabilidad: Como NoSQL utiliza hardware de bajo costo, el ahorro de costos en

Rendimiento: Como se mencionó, con las BBDD relacionales, el aumento del

Disponibilidad: Los sistemas RDBMS típicos se basan en arquitecturas primarias /

Técnicas de Análisis Big Data - Ejemplos y Aplicaciones

Técnicas de Análisis de datos de Big Data

¿A qué categorías pertenece este documento?

Análisis en redes sociales

Ya sea que su empresa quiera descubrir correlaciones interesantes, categorizar personas

Fusión de datos e integración de datos

Un proceso multinivel que trata con la asociación, la correlación, la combinación de datos

Procesamiento natural del lenguaje

 En español, grandes datos o grandes volúmenes de datos.

 El Científico de Datos o Data Scientist es un perfil profesional que

 Los científicos de datos son expertos en datos analíticos que poseen

• ¿De dónde obtengo los datos?

Si no se tiene claro el problema, no se

Son los datos que forman parte de una estructura predefinida.

Proceso de eliminar las referencias de cualquier identificación

 CIFRADO, uso de una clave, este proceso tiene un costo.

 ENMASCARAMIENTO de los datos sensibles, se mantiene

 SQL, bases de datos relacionales

El mayor inconveniente de las SQL es probablemente el referido a la

A partir de ahí se desarrollaron las primeras NoSQL cerradas creadas por

Además, es abierta y por lo tanto flexible a diferentes tipos de datos y no

En este sentido, también se deja notar el menor coste a la hora de la

Las desventajas de las bases NoSQL, son que los desarrolladores, al

1. Bases de datos Clave-Valor

Están diseñadas para escalar masivamente manteniendo un tiempo de respuesta

Utilizan el modelo de documento, para almacenar y consultar información.

Permiten gestionar información con complejas estructuras jerárquicas, y ofrecen