Caso Practico 2
Caso Practico 2
Caso Practico 2
Enunciado
● Las fuentes de datos que se van a procesar como entrada. Explicar cuáles de
estas fuentes son estructuradas, semiestructuradas y no estructuradas.
● Diferenciar todas las capas de almacenamiento que tendrá la solución.
Explicar y justificar el porqué de cada una de ellas.
Con LoT o internet de las cosas, es posible interactuar con todos los datos desde
cualquier lugar y en cualquier maquina
Para diseñar una arquitectura eficiente de Big Data nos hemos enfocado en las siguientes
funciones:
Para llegar a esa arquitectura es necesario evaluar cuales y cuantos dispositivos pueden
ofrecer estos datos o pueden convertirse en inteligentes a través de sensores capaces de
recopilar los datos el análisis requerido.
Posteriormente usamos Apache Spark, por su velocidad al procesar datos a gran escala, asi como
también posee Api fáciles de usar para procesamiento de datos a gran escala.
Tiene gran apertura con lenguajes como Java, R, Phyton y esto facilita la manipulación de datos
estructurados y semiestructurados.
Finalmente tenemos a MongoDB que lo hemos elegido por su bajo costo, su veracidad al tener una
base de datos muy amplia.
Cualquier ordenador o servidor es ideal para MongoDB y tener un buen servidor para los proyectos
- Permite a aplicaciones distribuidas publicar datos en tiempo real a los canales Kafka.
- Permite a los sistemas consumir datos en tiempo real.
- Ofrece un catálogo de conectores, que están englobados en Kafka Connect, que te permite de
manera muy cómoda ingestar datos a tópicos de Kafka o enviar datos desde tópicos de Kafka a otros
sistemas.
Incluye un componente para procesado de datos en tiempo real llamado Spark Streams, que no hemos
utilizado en la implementación que estamos mostrando, que ofrece muy baja latencia y permite aplicar
transformación de datos.
Enunciado
Ferguson, S. “John deere bets the farm on AI, IoT”; 2018. [En línea]