Resumenes de Videos Big Data
Resumenes de Videos Big Data
Resumenes de Videos Big Data
Laboratorio de Analítica
21040108
Resúmenes del curso Big Data
Video 1
Diferentes personas dieron su definición, así como su opinión sobre Big Data. De los cuales
podemos resumir la siguiente definición: Big Data es un gran conjunto de datos que no caben
en la memoria, no se pueden analizar con técnicas tradicionales por lo que existen algoritmos
y herramientas que pueden ayudar a procesar y analizar estos datos. Aquí entran los
científicos u analistas de datos, los cuales aplican esta herramienta a estos datos con el fin de
generar un nuevo conocimiento.
Video 2
Welcome!
Este video presenta los temas que se verán durante el curso. Por ejemplo, las habilidades de
un científico de datos, lo que conforma la ciencia de datos, las V’s del Big Data, las cuales son
veracidad, variedad, velocidad, volumen y la más importante, valor.
Algunas aplicaciones que también se mencionan son la explotación de Big Data, seguridad e
extensión de inteligencia, análisis de operaciones, entre otras.
Video 3
Algunos autores definen Big Data, entre ellos está Bernanrd Marr, define a Big Data como el
“rastro digital generando en esta era digital. Este rastro digital está formado por todos los datos
capturados cuando usamos tecnología digital. La idea básica que subyace a la expresión Big
Data es que todo lo que hacemos deja cada vez más un rastro digital que podemos utilizar y
analizar para ser más inteligentes. Las fuerzas motrices de este nuevo mundo son el acceso a
volúmenes de datos cada vez mayores y nuestra cada vez mayor capacidad tecnológica para
obtener información comercial”.
Otros autores como Gartner, Ernst and Young, Lisa Arthur, también son mencionadas sus
definiciones.
Existe una V muy importante la cual es Valor. Este representa la utilidad que tienen los datos
para mostrar información. Además, también representa la habilidad para convertir los datos
en valor.
Video 4
Big Data en los negocios
Existen diferentes aplicaciones y programas que usamos día a día que utilizan big data para
distintos propósitos, por ejemplo, Amazon es utilizado para crear recomendaciones,
asistentes virtuales como Siri o Google Now, saben que contestar a las preguntas que se le
hacen, el tiempo en el que se habla, ubicaciones de restaurantes, entre otros.
Plataformas como Netflix, sabe el tiempo en que las series son vistas, graba cuando los videos
son pausados.
Big data será la clave para competir, ser productivo, innovador, además, cambia
completamente la forma en que funcionan las empresas.
Hoy en día lo podemos observar en casi todo, relojes, televisión, aires acondicionados,
cafeteras, refrigerador, zapatos, entre muchos más productos, estos productos también
almacenan datos que ayudan a mejorar la experiencia de forma que, conociendo el pasado,
puede predecirse el futuro.
Resumen de lectura:
El mundo hoy en día ofrece más tecnologías desarrolladas por diversas compañías, como
Google, Yahoo, linkedin, entre otras. Estas tecnologías incluyen sistemas como Hadoop que
pueden utilizar grandes cantidades de datos. Hoy en día las compañías están forzadas a incluir
este tipo de sistemas para ser competitivos. El análisis de datos generados por empresas de
medios sociales ha obligado a las empresas a adoptar nuevos enfoques para recopilar,
almacenar y analizar los datos.
El uso del análisis de negocios será más utilizado conforme se generalicen los conocimientos
sobre cómo manejar y analizar grandes cantidades de datos disponibles.
Empresas como Google, Yahoo y Facebook tienen centros de datos de tamaños que hubieran
sido inimaginables hace varios años atrás. El desarrollo de estos centros de datos ha obligado
a industrias a desarrollar procesadores más amigables con el medio ambiente, también estos
centros de datos son construidos cerca de fuentes de energía y refrigeración para reducir sus
costos energéticos.
La eficiencia de estos nuevos centros de datos significa que estamos abriendo el camino a la
computación centralizada, en la que muchas empresas pueden encontrar menos costos al
usar la computación en la nube, igualmente tiene que ser considerada la seguridad, fiabilidad,
de la red.
Estamos en una nueva era en donde las empresas buscan adaptarse a la modernidad.
Preguntas de cierre y sus respuestas:
Modulo 2
Video 1
En los últimos años se han creado una cantidad muy grande de datos.
Existen muchas medidas de almacenamiento que antes no se pensaba que podrían ser
utilizadas, por ejemplo, hoy en día el kilobyte, megabyte, gigabyte, terabyte son unidades de
almacenamiento relacionadas a los videos, música, imágenes, películas, celulares, laptops,
y los perabytes, exabytes y zettabytes se relacionan más a plataformas como Google,
Facebook, también aeropuertos, ciudades, granjas de datos.
Computación en la nube:
La computación en la nube permite a las empresas contar con una tecnología escalable, es
decir, pueden agrandar sus recursos conforme los van necesitando o buscando.
Datos estructurados: son datos organizados, etiquetados, como por ejemplo las bases de
datos relacionales y hojas de Excel.
Datos semiestructurados: combinación de ambos, como por ejemplos archivos XML o JSON.
Datos no estructurados: datos que no están organizados, se dice que corresponde al 80% de
los datos en el mundo.
Hoy en día los “datos nunca duermen” es decir, que las empresas siempre están generando
datos, por eso es importante considerar la protección de los datos y la privacidad de estos.
Resumen de lectura:
Facebook utiliza servidores diseñados a medida por rackspace para construir sus centros de
datos.
Google fue la primera empresa de búsquedas en desarrollar una arquitectura y sistemas para
gestionar la enorme cantidad de datos que genera la indexación en la web.
Si enfoque se ha convertido en estándar en Big Data donde los datos siempre tienen que estar
disponibles. La mayoría de estos se escriben una vez y se leen en muchos lugares y no encajan
en algunas metodologías de bases de datos relacionales.
En otros, los datos se distribuyen y replican en muchos servidores alrededor del mundo.
Hoy en día, Hadoop es utilizado por muchas empresas, además, existe gran variedad de
herramientas construidas sobre Hadoop.
Uno de los retos de Big Data es el procesamiento de datos es el consumo de energía de esos
miles de servidores en cada centro de datos. Facebook ha cambiado ciertas cosas en sus
elementos que ayudan a aprovechar mejor la energía de tal forma que sus centros de datos
están diseñados para consumir poca energía.
Módulo 3
Video 1
• Automatización integrada.
• Contenido visual.
• Gobernanza ágil.
• Hadoop.
• Dozie.
• IBM
• Big Data University
• Definir el problema.
• Recolección de datos.
• Exploración de datos.
• Analizar datos.
• Visualización.
• Tomar acción.
Resumen de lectura:
Norman White tuvo una conversación con Sanjay Khanna sobre juegos, cambio climático y big
data. Sanjay estaba interesado en utilizar los juegos en línea para concienciar sobre el
consumo energético de un individuo o familia para hacerles “competir” de alguna forma para
que fueran mas “limpios” que otros en su red social. Hablaron de las implicaciones de los
“grandes datos” y de la necesidad de contar con algún tipo de infraestructura para almacenar
toda la información. Una universidad de Toronto está desarrollando una aplicación para eso.
La idea de usar las redes sociales para fomentar el buen comportamiento es algo que Sinan
Aral, que su grupo está haciendo.
Esta participando en un proyecto en Sudáfrica que utiliza las redes sociales para frenar el VIH.
La universidad de Nueva York cuenta con un nuevo centro, el CUSP (Centro para la Ciencia y
el Progreso Urbano), dirigido por Steve Koonin, antiguo jefe científico de BP, y Provost en Cal
Poly, Steve trabaja en el departamento de Stern y en la Universidad Politécnica de Nueva York.
Uno de los objetivos del CUSP es combinar algunas de las muchas fuentes de datos de la
ciudad de Nueva York con otra información de manera de la ciudad sea mas eficiente y segura.
Sanjay y Steve tuvieron una conversación sobre la previsión meteorológica del huracán Sandy
y la previsión del huracán si los modelos meteorológicos alimentaran directamente a la base
de datos, además coincidieron en que los macrodatos cambian las reglas en cuestiones del
cambio climático y que hay demanda en científicos de datos.
Se habló sobre los cursos nuevos que se han introducido como uno llamado “Practical Data
Science”, que se diseñó para introducir las herramientas que necesita un científico de datos
incluyendo el Big Data, y otros cursos como “Dealing with data”, centrado en los macrodatos.
Además, se tocó el tema de un cluster de Hadoop y big data, y sobre estudiantes y proyectos
relacionados para la enseñanza e investigación.
Módulo 4
Video 1
Lo anterior es integrado y conseguimos una vista unificada. Estos datos pueden ser minados.
Ejemplo: reducir la congestión del tráfico. Para eso tenemos que saber:
Resumen de lectura:
Big data y sensores
Los dispositivos “Zigbee” pueden ser usados como sensores, enrutadores o coordinadores de
una red personal. Las redes pueden soportar muchos dispositivos y cubrir gran superficie,
además consumen poca energía y pueden funcionar por muchos años.
Los dispositivos de nodos finales además de detectar entradas analógicas y digitales pueden
apagar y encender dispositivos electrónicos por lo que pueden controlar diversos aparatos.
Proyectos como “Xbee” han puesto la tecnología al alcance de cualquiera que sepa
programar. Productos como NEST y Zwave han llevado nuevas capacidades al ámbito
doméstico, buscando el ahorro energético.
Estos dispositivos llenan el vacio entre Bluethoot y WIFI. Hay muchos sensores disponibles
como los de temperatura, polvo, corriente, voltaje, etc. La mayoría son baratos y se conectan
fácilmente a Zigbee. Los relés baratos tienen una gran cantidad de funciones. Las aplicaciones
medicas se ven prometedores, pero presentan algunos problemas, pero en algunos lugares
pueden usarse para telemedicina. Parece ser que las ciudades inteligentes ya implementan
este tipo de tecnologías, donde todos estos datos están conectados utilizando una
infraestructura big data.
¿Cuál es el término utilizado para describir un enfoque holístico que tiene en cuenta toda la
información disponible y significativa sobre un cliente para impulsar un mayor compromiso,
ingresos y fidelidad a largo plazo? Enhanced 360-degree view
Módulo 5
Video 1
Durante la web 1.0 eran solo paginas estáticas, no había interacción, videos, ni imágenes, sin
embargo, esto fue cambiando durante la web 2.0, donde comienza a crecer el concepto de la
web semántica, el contenido relacionado, agregar información, entre otros.
Hadoop es un software de código abierto desarrollado en java por Doug Cutting para
almacenar y procesar grandes cantidades de datos. Este contiene módulos como HDFS,
gestión de recursos y programación de tareas, modelos de programación, bibliotecas de
software, entre otros. Utiliza la tecnología MapReduce de Google como base.
El clúster de Hadoop se le pueden agregar nodos (ordenadores), esto es un rack, una colección
de 30 o 40 nodos que están conectados unos con otros. Además, este es muy utilizado debido
a que es flexible para las empresas, el uso de arquitecturas hibridas, estrategias de lago de
datos (método de almacenamiento de datos que guardan grandes
Big data es como una plataforma, los cuales los almacenes de datos forman una parte de
estos, donde ofrecen análisis avanzado en la base de datos y análisis operativo.
Resumen de lectura:
En resumen, este texto habla sobre la importancia de Hadoop y como este ha influido en las
empresas que tienen que manejar muchos datos. Los grandes clusters de hadoop han
permitido tener muchos ordenadores conectados e interactuando siendo como un disco local
a cada ordenador, de modo que este puede procesar los datos de forma local.
También Hadoop y lustre son comparados, dice que Hadoop es menos sensible a la velocidad
de la red y suele funcionar bien con 1gb.
En pocas palabras, Hadoop y Lustre funcionan bien juntos y son herramientas muy
importantes en la actualidad.
Video
Este video menciona todo lo que vimos en este curso, por ejemplo, definiciones de big data,
características de big data, estrategias, casos de uso y sistemas.
Big data es el ratro digital que estamos creando en esta era digital, este rastro se conforma con
todos los datos que generamos con la tecnología, donde cada vez tendremos acceso a
volúmenes de datos mas grandes y capacidades tecnológicas mayores.
Las características son volumen, velocidad, variedad y valor. Las fuentes de datos son
aquellas donde obtenemos datos estructurados, semiestructurados, no estructurados.
Algunos casos de uso de Big data, y las habilidades requeridas, la definición de ciencia de
datos, y la importancia de los macrodatos en las empresas.
También, algunos sistemas de big data, como hadoop y los módulos que este tiene y lo útil que
ha sido para las empresas.