Big Data Unido
Big Data Unido
Big Data Unido
Dicho de otro modo, el big data está formado por conjuntos de datos de mayor tamaño y más
complejos, especialmente procedentes de nuevas fuentes de datos. Estos conjuntos de datos
son tan voluminosos que el software de procesamiento de datos convencional sencillamente
no puede gestionarlos. Sin embargo, estos volúmenes masivos de datos pueden utilizarse
para abordar problemas empresariales que antes no hubiera sido posible solucionar.
La cantidad de datos importa. Con big data, deberá procesar grandes volúmenes de datos no
estructurados de baja densidad. Puede tratarse de datos de valor desconocido, como feeds
de datos de Twitter, flujos de clics de una página web o aplicación para móviles, o equipo con
sensores. Para algunas organizaciones, esto puede suponer decenas de terabytes de datos.
Para otras, incluso cientos de petabytes.
2Velocidad
La velocidad es el ritmo al que se reciben los datos y (posiblemente) al que se aplica alguna
acción. La mayor velocidad de los datos normalmente se transmite directamente a la
memoria, en vez de escribirse en un disco. Algunos productos inteligentes habilitados para
Internet funcionan en tiempo real o prácticamente en tiempo real y requieren una evaluación
y actuación en tiempo real.
3Variedad
La variedad hace referencia a los diversos tipos de datos disponibles. Los tipos de datos
convencionales eran estructurados y podían organizarse claramente en una base de datos
relacional. Con el auge del big data, los datos se presentan en nuevos tipos de datos no
estructurados. Los tipos de datos no estructurados y semiestructurados, como el texto, audio
o vídeo, requieren de un preprocesamiento adicional para poder obtener significado y
habilitar los metadatos.
El valor —y la realidad— de big data
En los últimos años, han surgido otras "dos V": valor y veracidad.
Los datos poseen un valor intrínseco. Sin embargo, no tienen ninguna utilidad hasta que dicho
valor se descubre. Resulta igualmente importante: ¿cuál es la veracidad de sus datos y cuánto
puede confiar en ellos?
Hoy en día, el big data se ha convertido en un activo crucial. Piense en algunas de las mayores
empresas tecnológicas del mundo. Gran parte del valor que ofrecen procede de sus datos,
que analizan constantemente para generar una mayor eficiencia y desarrollar nuevos
productos.
Identificar el valor del big data no pasa solo por analizarlo (que es ya una ventaja en sí misma).
Se trata de todo un proceso de descubrimiento que requiere que los analistas, usuarios
empresariales y ejecutivos se planteen las preguntas correctas, identifiquen patrones, tomen
decisiones informadas y predigan comportamientos.
Si bien el concepto "big data" en sí mismo es relativamente nuevo, los orígenes de los grandes
conjuntos de datos se remontan a las décadas de 1960 y 1970, donde se sitúan los albores de
este universo con los primeros centros de datos y el desarrollo de las bases de datos
relacionales.
Alrededor de 2005, la gente empezó a darse cuenta de la cantidad de datos que generaban
los usuarios a través de Facebook, YouTube y otros servicios online. Ese mismo año, se
desarrollaría Hadoop, un marco de código abierto creado específicamente para almacenar y
analizar grandes conjuntos de datos. En esta época, también empezaría a adquirir
popularidad NoSQL (a veces llamado "no sólo SQL", es una amplia clase de sistemas de gestión
de bases de datos que difieren del modelo clásico de SGBDR (Sistema de Gestión de Bases de
Datos Relacionales) en aspectos importantes, siendo el más destacado que no usan SQL como
lenguaje principal de consultas).
El desarrollo de marcos de código abierto tales como Hadoop (y, más recientemente, Spark)
sería esencial para el crecimiento del big data, pues estos hacían que el big data resultase más
fácil de usar y más barato de almacenar. En los años siguientes, el volumen de big data se ha
disparado. Los usuarios continúan generando enormes cantidades de datos, pero ahora los
humanos no son los únicos que lo hacen.
Con la llegada del Internet de las cosas (IoT, Internet de las cosas es una red de objetos físicos
–vehículos, máquinas, electrodomésticos y más– que utiliza sensores y APIs para conectarse
e intercambiar datos por internet, es decir, es un sistema de dispositivos de computación
interrelacionados, máquinas mecánicas y digitales, objetos, animales o personas que tienen
identificadores únicos y la capacidad de transferir datos a través de una red, sin requerir de
interacciones humano a humano o humano a computadora), hay un mayor número de
objetos y dispositivos conectados a Internet que generan datos sobre patrones de uso de los
clientes y rendimiento de los productos. El surgimiento del aprendizaje automático ha
producido aún más datos.
Aunque el big data ha llegado lejos, su utilidad no ha hecho más que empezar. El Cloud
Computing ha ampliado aún más las posibilidades del big data. La nube ofrece una
escalabilidad realmente elástica, donde los desarrolladores pueden simplemente agilizar
clústeres ad hoc para probar un subconjunto de datos.
La disponibilidad de respuestas más completas significa una mayor fiabilidad de los datos, lo
que implica un enfoque completamente distinto a la hora de abordar problemas.
El big data puede ayudarle a abordar una serie de actividades empresariales, desde la
experiencia de cliente hasta la analítica. A continuación, recopilamos algunas de ellas (puede
encontrar más casos de uso en Soluciones Oracle Big Data).
Desarrollo de productos
Empresas como Netflix y Procter & Gamble usan big data para prever la demanda de los
clientes. Construyen modelos predictivos para nuevos productos y servicios clasificando
atributos clave de productos anteriores y actuales, y modelando la relación entre dichos
atributos y el éxito comercial de las ofertas. Además, P&G utiliza los datos y la analítica de
grupos de interés, redes sociales, mercados de prueba y avances de salida en tiendas para
planificar, producir y lanzar nuevos productos.
Mantenimiento predictivo
Los factores capaces de predecir fallos mecánicos pueden estar profundamente ocultos entre
datos estructurados (año del equipo, marca o modelo de una máquina) o entre datos no
estructurados que cubren millones de entradas de registros, datos de sensores, mensajes de
error y temperaturas de motor. Al analizar estos indicadores de problemas potenciales antes
de que estos se produzcan, las organizaciones pueden implantar el mantenimiento de una
forma más rentable y optimizar el tiempo de servicio de componentes y equipos.
La carrera para conseguir clientes ha comenzado. Disponer de una vista clara de la experiencia
del cliente es más posible que nunca. El big data le permite recopilar datos de redes sociales,
visitas a páginas web, registros de llamadas y otras fuentes de datos para mejorar la
experiencia de interacción, así como maximizar el valor ofrecido. Empiece a formular ofertas
personalizadas, reducir las tasas de abandono de los clientes y gestionar las incidencias de
manera proactiva.
Fraude y conformidad
Aprendizaje automático
Eficiencia operativa
Puede que la eficiencia operativa no sea el aspecto más destacado en los titulares, pero es el
área en que big data tiene un mayor impacto. El big data le permite analizar y evaluar la
producción, la opinión de los clientes, las devoluciones y otros factores para reducir las
situaciones de falta de stock y anticipar la demanda futura. El big data también puede
utilizarse para mejorar la toma de decisiones en función de la demanda de mercado en cada
momento.
Impulso de la innovación
El big data puede ayudarle a innovar mediante el estudio de las interdependencias entre seres
humanos, instituciones, entidades y procesos, y, posteriormente, mediante la determinación
de nuevas formas de usar dicha información. Utilice las perspectivas que le ofrecen los datos
para mejorar sus decisiones financieras y consideraciones de planificación. Estudie las
tendencias y lo que desean los clientes para ofrecer nuevos productos y servicios. Implante
políticas de precios dinámicas. Las posibilidades son infinitas.
En primer lugar, el big data se caracteriza por su gran tamaño. Aunque se han
desarrollado nuevas tecnologías para el almacenamiento de datos, el volumen de datos
duplica su tamaño cada dos años aproximadamente. Las organizaciones continúan
esforzándose por mantener el ritmo de crecimiento de sus datos y por encontrar formas de
almacenarlos eficazmente.
Pero no basta con almacenar los datos. Para ser de algún valor, los datos deben poder
utilizarse, y esto depende de su conservación. Disponer de datos limpios —es decir, datos
relevantes para el cliente y organizados de tal modo que permitan un análisis significativo—
requiere una gran cantidad de trabajo. Los científicos de datos dedican entre un 50 y un 80
por ciento de su tiempo a seleccionar y preparar los datos antes de que estos puedan
utilizarse.
Por último, la tecnología de big data cambia a un ritmo rápido. Hace unos años, Apache
Hadoop era la tecnología más conocida utilizada para gestionar big data. Más tarde, en 2014,
entraría en juego Apache Spark. Hoy en día, el enfoque óptimo parece ser una combinación
de ambos marcos. Mantenerse al día en cuanto a tecnología de big data supone un desafío
constante.
Integrar
Gestionar
Analizar
Integrar
El big data concentra datos de numerosas fuentes y aplicaciones distintas. Los mecanismos
de integración de datos convencionales, tales como ETL (extract, transform, load [extraer,
transformar, cargar]), generalmente no están a la altura en dicha tarea. Analizar conjuntos de
big data de uno o más terabytes, o incluso petabytes, de tamaño requiere de nuevas
estrategias y tecnologías.
Gestionar
El big data requiere almacenamiento. Su solución de almacenamiento puede residir en la
nube, on premise o ambas. Puede almacenar sus datos de cualquier forma que desee e
incorporar los requisitos de procesamiento de su preferencia y los motores de procesamiento
necesarios a dichos conjuntos de datos on-demand. Muchas personas eligen su solución de
almacenamiento en función de dónde residan sus datos en cada momento. La nube está
aumentando progresivamente su popularidad porque es compatible con sus requisitos
tecnológicos actuales y porque le permite incorporar recursos a medida que los necesita.
Analizar
La inversión en big data se rentabiliza en cuanto se analizan y utilizan los datos. Adquiera una
nueva claridad con un análisis visual de sus diversos conjuntos de datos. Continúe explorando
los datos para realizar nuevos descubrimientos. Comparta sus hallazgos con otras personas.
Construya modelos de datos con aprendizaje automático e inteligencia artificial. Ponga sus
datos a trabajar.
Tenga en cuenta que los modelos y procesos analíticos de big data pueden ser tanto humanos
como automáticos. Las capacidades de análisis de big data incluyen estadísticas, análisis
especiales, semántica, detección interactiva y visualización. Mediante el uso de modelos
analíticos, puede relacionar distintos tipos y fuentes de datos para realizar asociaciones y
hallazgos significativos.
Los usuarios y procesos de big data requieren acceso a una amplia variedad de recursos de
experimentación reiterativa y ejecución de tareas de producción. Una solución de big data
incluye todos los ámbitos de los datos, incluidas transacciones, datos principales, datos de
referencia y datos resumidos. Los entornos de pruebas (sandboxes) analíticos deben crearse
on-demand. La gestión de recursos es fundamental para garantizar el control de todo el flujo
de datos, incluido el procesamiento previo y posterior, la integración, el resumen dentro de
la base de datos y la creación de modelos analíticos. Disponer de una estrategia bien definida
de aprovisionamiento y seguridad en la nube pública y privada es fundamental para respaldar
estos requisitos cambiantes.
Bases de Datos Big Data: Requisitos y Ventajas
Por el contrario, las grandes bases de datos minimizan el costo y la carga de la escala
con enfoques que facilitan la adición o reducción rápida de la capacidad utilizando
hardware de bajo costo con poca o ninguna intervención manual.
Flexibilidad: Ya sea que una organización esté desarrollando aplicaciones web, móviles
o de series de tiempo, los modelos de datos fijos de las BBDD relacionales previenen o
reducen drásticamente la capacidad de una organización para adaptarse a la evolución
de los grandes requerimientos de aplicaciones de datos.
NoSQL permite a los desarrolladores utilizar los tipos de datos y las opciones de consulta
que mejor se adapten al caso de uso específico de la aplicación, lo que permite un
desarrollo más rápido y ágil.
Reglas de Asociación
Un conjunto de técnicas para descubrir relaciones interesantes, es decir, "reglas de
asociación", entre variables en grandes bases de datos. Estas técnicas consisten en una
variedad de algoritmos para generar y probar posibles reglas.
Una aplicación es el análisis de la cesta de mercado, en la que un minorista puede
determinar qué productos se compran con frecuencia de forma conjunta y utilizar esta
información para su comercialización.
(Un ejemplo comúnmente citado es el descubrimiento de que muchos compradores de
supermercados que compran nachos también compran cerveza).
El aprendizaje de reglas de asociación es un método para descubrir correlaciones
interesantes entre variables en bases de datos grandes.
Primero fue utilizado por las principales cadenas de supermercados para descubrir
relaciones interesantes entre los productos, utilizando datos de los sistemas de puntos
de venta (POS) de los supermercados.
El aprendizaje de reglas de asociación se está utilizando para ayudar:
colocar los productos en una mejor proximidad entre ellos para aumentar las ventas
extraer información sobre los visitantes a los sitios web desde los registros del servidor
web
analizar datos biológicos para descubrir nuevas relaciones
monitorear los registros del sistema para detectar intrusos y actividad maliciosa
identificar si las personas que compran leche y mantequilla son más propensas a comprar
pañales
Algoritmos genéticos
¿Qué programas de TV deberíamos transmitir, y en qué horario, para maximizar los
ratings?
Los algoritmos genéticos están inspirados en la forma en que funciona la evolución, es
decir, a través de mecanismos tales como la herencia, la mutación y la selección natural.
Estos mecanismos se usan para "evolucionar" soluciones útiles a problemas que
requieren optimización.
Los algoritmos genéticos se utilizan para:
Programar a los médicos para las salas de emergencia de los hospitales
Combinaciones de retorno de los materiales óptimos y las prácticas de ingeniería
necesarias para desarrollar vehículos de bajo consumo de combustible
Generar contenido "artificialmente creativo" como juegos de palabras y bromas
Machine Learning
¿Qué películas de nuestro catálogo probablemente desee ver este cliente a continuación,
en función de su historial de visualización?
El aprendizaje automático incluye un software que puede aprender de los datos. Le da a
las computadoras la capacidad de aprender sin estar programado explícitamente, y se
enfoca en hacer predicciones basadas en propiedades conocidas aprendidas de
conjuntos de "datos de entrenamiento".
El aprendizaje automático se está utilizando para ayudar:
Distinguir entre mensajes de correo electrónico no deseado y deseado
Aprender las preferencias del usuario y hacer recomendaciones basadas en esta
información
Determinar el mejor contenido para captar clientes potenciales
Determinar la probabilidad de ganar un caso y establecer tasas de facturación legales
Análisis de Regresión
¿Cómo afecta su edad el tipo de automóvil que compra?
En un nivel básico, el análisis de regresión implica la manipulación de una variable
independiente (es decir, la música de fondo) para ver cómo influye en una variable
dependiente (es decir, el tiempo que se pasa en la tienda).
Describe cómo cambia el valor de una variable dependiente cuando se varía la variable
independiente. Funciona mejor con datos cuantitativos continuos como el peso, la
velocidad o la edad.
El análisis de regresión se está utilizando para determinar:
Los niveles de satisfacción del cliente afectan la lealtad del cliente
La cantidad de llamadas de soporte recibidas puede estar influenciada por el pronóstico
del tiempo dado el día anterior
El vecindario y el tamaño afectan el precio de venta de las casas
Para encontrar el amor de tu vida a través de sitios de citas en línea
Análisis de Sentimientos
¿Qué tan bien se está recibiendo nuestra nueva política de devolución?
El análisis del sentimiento ayuda a los investigadores a determinar los sentimientos de
los hablantes o escritores con respecto a un tema.
El análisis de sentimiento se está utilizando para ayudar:
Mejorar el servicio en una cadena de hoteles mediante el análisis de los comentarios de
los huéspedes
Personalizar incentivos y servicios para abordar lo que los clientes realmente están
pidiendo
Determinar qué piensan realmente los consumidores basándose en las opiniones de las
redes sociales
Análisis de clustering
Un método estadístico para clasificar objetos que divide un grupo diverso en grupos más
pequeños de objetos similares, cuyas características de similitud no se conocen de
antemano.
Un ejemplo de análisis de conglomerados es segmentar a los consumidores en grupos
similares para el marketing dirigido. Utilizado para minería de datos.
Crowdsourcing
En crowdsourcing, es dónde una tarea o un trabajo se terceriza, pero no a un profesional
u organización designada, sino para el público en general en forma de una llamada
abierta.
Crowdsourcing es una técnica que se puede implementar para recopilar datos de diversas
fuentes, como mensajes de texto, actualizaciones de redes sociales, blogs, etc.
Este es un tipo de colaboración masiva y una instancia de uso de la Web.
Prueba A / B
A / B Testing es una herramienta de evaluación para identificar qué versión de una página
web o una aplicación ayuda a una organización o individuo a cumplir un objetivo de
negocio de manera más efectiva.
Esta decisión se toma comparando qué versión de algo funciona mejor. Las pruebas A /
B se usan comúnmente en el desarrollo web para garantizar que los cambios en una
página web o componente de página se basen en datos y no en opiniones personales.
También se conoce como prueba derramada o prueba de cubeta.
Minería de datos
La minería de datos está clasificando datos para identificar patrones y establecer
relaciones. La extracción de datos se refiere a las técnicas de extracción de datos
colectivos que se realizan en grandes volúmenes de datos.
Los parámetros de minería de datos incluyen asociación, análisis de secuencia,
clasificación, agrupamiento y previsión.
Las aplicaciones incluyen la minería de datos de clientes para determinar los segmentos
con mayor probabilidad de responder a una oferta, la minería de datos de recursos
humanos para identificar las características de los empleados más exitosos o el análisis
de la cesta de mercado para modelar el comportamiento de compra de los clientes.
Ensemble learning
Es un arte de combinar diversos juegos de algoritmos de aprendizaje para improvisar
sobre la estabilidad y el poder predictivo del modelo. Este es un tipo de aprendizaje
supervisado.
Redes neuronales
Modelos predictivos no lineales que aprenden a través del entrenamiento y se asemejan
a las redes neuronales biológicas en su estructura. Se pueden usar para reconocimiento
y optimización de patrones.
Algunas aplicaciones de redes neuronales implican aprendizaje supervisado y otras
implican aprendizaje no supervisado.
Ejemplos de aplicaciones incluyen identificar clientes de alto valor que están en riesgo de
abandonar una compañía en particular e identificar reclamos de seguro fraudulentos.
Optimización
Una cartera de técnicas numéricas utilizadas para rediseñar sistemas y procesos
complejos para mejorar su rendimiento de acuerdo con una o más medidas objetivas (por
ejemplo, costo, velocidad o confiabilidad).
Entre los ejemplos de aplicaciones se incluyen la mejora de los procesos operativos,
como la programación, el enrutamiento y el diseño de piso, y la toma de decisiones
estratégicas, como la estrategia de gama de productos, el análisis de inversiones
vinculadas y la estrategia de cartera de I + D. Los algoritmos genéticos son un ejemplo
de una técnica de optimización.
BASE DE DATOS II: CUARTA UNIDAD
BIG DATA: CONCEPTO
Volumen
Una de las características del Big Data es que nuevos datos se generan constantemente.
Además, como las fuentes son diversas, el volumen de datos tiende a ser inmenso.
Velocidad
No sólo se generan muchos datos y desde muchas fuentes, sino que lo normal es que la
velocidad a la que se generan estos datos sea muy alta. Esto provoca un flujo de datos
muy difícil de gestionar con software tradicional.
BIG DATA: LAS 5 V
Variedad
Debido a la naturaleza unificadora del Big Data, se debe gestionar la información que llega
de fuentes muy diferentes. Esto supone que, incluso siendo datos estructurados, tal
estructura sea diferente en cada fuente, lo que supone un nuevo reto a solventar para la
empresa.
Valor
Debido a la inmensa cantidad de datos que se debe procesar, se ha de tener especial
cuidado en la elección de los datos que realmente son importantes para la empresa y sus
futuras operaciones.
Veracidad
El Big Data debe alimentarse con datos relevantes y verdaderos. No podremos realizar
analíticas útiles si muchos de los datos entrantes provienen de fuentes falsas o con errores
en su información.
Big Data: Preguntas iniciales
A la hora de crear proyectos Big Data que detecten, consuman, gestionen,
organicen y presenten dichos datos de una manera optimizada y de forma que
aporten algo a nuestro negocio generalmente nos enfrentamos a las siguientes
preguntas:
Como ejemplos encontramos una hoja de Excel o una base de datos SQL. Estos datos son
fácilmente catalogables, y pueden ser utilizados para posteriores análisis y predicciones
fiables.
Datos no estructurados
Son aquellos datos que no tienen ni forman parte de una estructura definida.
Como ejemplos encontramos el cuerpo de un email, datos escritos en un archivo word, o
incluso bases de datos NoSQL. Estos datos contienen mucha información valiosa, pero al no estar
bien estructurada y catalogada, su uso resulta complicado a la hora de crear informes y realizar
análisis.
BIG DATA: TIPOS DE DATOS
BIG DATA: TIPOS DE DATOS
ANONIMIZACIÓN DE DATOS
ELIMINACIÓN de datos.
Las bases de datos relacionales (SQL) son el tipo que más tiempo lleva en el
mercado de la tecnología y son por tanto las utilizadas en mayor medida
tradicionalmente.
Su composición está hecha con bases de datos llenas de tablas con filas que
contienen campos estructurados. No es un tipo de base de datos muy flexible,
pero tiene a favor su gran soporte y el enorme desarrollo en herramientas debido a
todo su bagaje histórico.
Es una tecnología muy reconocida en comparación con las bases NoSQL que al
ser más novedosas no tienen tanto alcance todavía. En cambio, las bases de
datos SQL necesitan más recursos como norma general, ya que cuanto más
compleja sea la base más procesamiento necesitará.
TECNOLOGIA SQL
Las NoSQL no son un sustituto de las SQL, sino que son una alternativa
que ofrece otras posibilidades, lo que las convierte en más interesantes
para determinados casos como por ejemplo proyectos que requieren una
alta escalabilidad en el los recursos son escasos y la integridad de los
datos no es lo más importante.
TECNOLOGIA NO SQL
NOSQL, base de datos no relacional
Ejemplos de Bases de Datos No SQL: Hypertable, Cassandra, MongoDB,
DynamoDB o Redis.
TECNOLOGIA NO SQL
Dada la diversidad de tecnologías
NoSQL, habitualmente se clasifican en
cuatro grupos, por su forma de modelar
los datos:
Tienen el modelo de datos más sencillo de todos, una clave indexada asociada a
un valor, que desde el punto de vista de la base de datos es información opaca
que simplemente almacena y recupera asociada a la clave. El consumidor de esta
información es responsable de conocer la estructura de la información
almacenada.
Orientadas a Documento:
Esto unido a la flexibilidad del esquema de datos las convierten en las más
versátiles y de propósito general. Dentro de este grupo tenemos tecnologías
como MongoDB, CouchDB o CouchBase entre otras.
TECNOLOGIA NO SQL
TECNOLOGIA NO SQL
Orientadas a Grafos:
El modelo de datos se centra en entidades y las relaciones entre éstas. Tanto las
entidades (nodos del grado) como las relaciones (aristas) pueden además tener
atributos. Una entidad puede tener numerosas relaciones con cualquier otra
entidad. Recorrer las uniones entre entidades a través de estas relaciones es el
fuerte de las bases de datos orientadas a grafos, y permiten hacerlo con gran
velocidad, independientemente del volumen de datos, lo que posibilita explorar
conexiones entre entidades que de otra forma sería muy difícil con las bases de
datos relacionales.
El caso de uso más conocido de este tipo de bases de datos son las redes
sociales. Ejemplos de esta tecnología son Neo4j, OrientDB o Titan.
TECNOLOGIA NO SQL
TECNOLOGIA NO SQL
Orientadas a Columnas:
Este tipo de bases de datos son similares a una tabla en las bases de
datos relacionales, de hecho derivan en su mayoría del modelo BigTable
publicado por Google, pero un registro puede contener cualquier número
de columnas (o familias de columnas).
Cada vez con más frecuencia estamos viendo cómo las tecnologías
NoSQL forman parte de la solución en proyectos empresariales,
gracias a beneficios como la mejora en la productividad de los equipos
de desarrollo, y la posibilidad de llegar antes al mercado y con una
considerable reducción del TCO (costo total de propiedad, proveniente
del término anglosajón Total Cost of Ownership o TCO)
TECNOLOGIA NO SQL: CONCLUSIONES
Polyglot Persistence: La persistencia políglota es un término que se refiere al uso de múltiples tecnologías
de almacenamiento de datos para diferentes necesidades de almacenamiento de datos en una aplicación
o dentro de un componente más pequeño de una aplicación.
BASE DE DATOS II: CUARTA UNIDAD
BIG DATA Y HADOOP
Hadoop es una estructura de software de código abierto para almacenar
datos y ejecutar aplicaciones en clústeres de hardware comercial.
Proporciona almacenamiento masivo para cualquier tipo de datos, enorme
poder de procesamiento y la capacidad de procesar tareas o trabajos
concurrentes virtualmente ilimitados.
El primer paso del proceso de Ciencia de Datos consiste en adquirir los datos.
Determinar los datos que están disponibles en fuentes de datos confiables.
Identificar los datos adecuados relacionados con el problema.
Seleccionar los datos que sean relevantes para el análisis del problema. Omitir
solamente una pequeña cantidad de datos importante puede conducir a
conclusiones incorrectas.
FASE DE ADQUISICIÓN DE DATOS EN BIG DATA
Apache Sqoop
Nos permite extraer información de un sistema estructurado (como por ejemplo SQL Server,
MySQL o Oracle) y almacenarlo en HDFS (Hadoop Distributed File System) para sea procesada
posteriormente.
Apache Kafka
Apache Kafka ha sido diseñado para optimizar la transmisión y el procesamiento de los flujos de
datos que se intercambian entre la fuente y el receptor por conexión directa.
FASES DE UN PROYECTO BIG DATA EXITOSO
Almacenamiento:
Procesamiento:
Es la fase que se realiza con la
ayuda de herramientas de
procesamiento big data, como
Hadoop, Python, Elasticsearch,
entre otras. Ellas permiten trabajar
con grandes volúmenes o flujos
rápidos de información de datos en
tiempo real.
FASES DE UN PROYECTO BIG DATA EXITOSO
Análisis:
Es la fase que aporta información útil para
aplicar en el negocio. Hay varios tipos de
analíticas big data que crean valor, por
medio de diversos métodos y algoritmos.
Esto con la finalidad de entender lo que
pasa en la empresa, por qué sucede y lo
que puede ocurrir en el futuro.
FASES DE UN PROYECTO BIG DATA
EXITOSO
La visualización: