Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Resumenes de Videos Big Data

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

Universidad Autónoma de Occidente

Licenciatura en Analítica de Negocios

Técnicas y herramientas de Big Data

Raúl Oramas Bustillos

Evidencias del curso de Big Data

Mariana Verdugo Lizárraga

Laboratorio de Analítica

21040108
Resúmenes del curso Big Data
Video 1

Introducción a Big Data

Diferentes personas dieron su definición, así como su opinión sobre Big Data. De los cuales
podemos resumir la siguiente definición: Big Data es un gran conjunto de datos que no caben
en la memoria, no se pueden analizar con técnicas tradicionales por lo que existen algoritmos
y herramientas que pueden ayudar a procesar y analizar estos datos. Aquí entran los
científicos u analistas de datos, los cuales aplican esta herramienta a estos datos con el fin de
generar un nuevo conocimiento.

Video 2

Welcome!

Este video presenta los temas que se verán durante el curso. Por ejemplo, las habilidades de
un científico de datos, lo que conforma la ciencia de datos, las V’s del Big Data, las cuales son
veracidad, variedad, velocidad, volumen y la más importante, valor.

Algunas aplicaciones que también se mencionan son la explotación de Big Data, seguridad e
extensión de inteligencia, análisis de operaciones, entre otras.

Video 3

What is Big Data?

Algunos autores definen Big Data, entre ellos está Bernanrd Marr, define a Big Data como el
“rastro digital generando en esta era digital. Este rastro digital está formado por todos los datos
capturados cuando usamos tecnología digital. La idea básica que subyace a la expresión Big
Data es que todo lo que hacemos deja cada vez más un rastro digital que podemos utilizar y
analizar para ser más inteligentes. Las fuerzas motrices de este nuevo mundo son el acceso a
volúmenes de datos cada vez mayores y nuestra cada vez mayor capacidad tecnológica para
obtener información comercial”.

Otros autores como Gartner, Ernst and Young, Lisa Arthur, también son mencionadas sus
definiciones.

4 V’s de Big Data:

• Velocidad: la rapidez con la que se generan los datos.


• Volumen: la cantidad de datos generada.
• Variedad: las diferentes fuentes de datos que existen.
• Veracidad: la calidad que muestran los datos.

Existe una V muy importante la cual es Valor. Este representa la utilidad que tienen los datos
para mostrar información. Además, también representa la habilidad para convertir los datos
en valor.

Video 4
Big Data en los negocios

¿Cómo impacta Big Data en los negocios y en las personas?

Existen diferentes aplicaciones y programas que usamos día a día que utilizan big data para
distintos propósitos, por ejemplo, Amazon es utilizado para crear recomendaciones,
asistentes virtuales como Siri o Google Now, saben que contestar a las preguntas que se le
hacen, el tiempo en el que se habla, ubicaciones de restaurantes, entre otros.

Plataformas como Netflix, sabe el tiempo en que las series son vistas, graba cuando los videos
son pausados.

También existen otros tipos de ejemplos como el e-commerce en China.

Big data será la clave para competir, ser productivo, innovador, además, cambia
completamente la forma en que funcionan las empresas.

El internet de las cosas:

Hoy en día lo podemos observar en casi todo, relojes, televisión, aires acondicionados,
cafeteras, refrigerador, zapatos, entre muchos más productos, estos productos también
almacenan datos que ayudan a mejorar la experiencia de forma que, conociendo el pasado,
puede predecirse el futuro.

Resumen de lectura:

Big Data y Business Analytics alcanzan la mayoría de edad

El mundo hoy en día ofrece más tecnologías desarrolladas por diversas compañías, como
Google, Yahoo, linkedin, entre otras. Estas tecnologías incluyen sistemas como Hadoop que
pueden utilizar grandes cantidades de datos. Hoy en día las compañías están forzadas a incluir
este tipo de sistemas para ser competitivos. El análisis de datos generados por empresas de
medios sociales ha obligado a las empresas a adoptar nuevos enfoques para recopilar,
almacenar y analizar los datos.

El uso del análisis de negocios será más utilizado conforme se generalicen los conocimientos
sobre cómo manejar y analizar grandes cantidades de datos disponibles.

Empresas como Google, Yahoo y Facebook tienen centros de datos de tamaños que hubieran
sido inimaginables hace varios años atrás. El desarrollo de estos centros de datos ha obligado
a industrias a desarrollar procesadores más amigables con el medio ambiente, también estos
centros de datos son construidos cerca de fuentes de energía y refrigeración para reducir sus
costos energéticos.

La eficiencia de estos nuevos centros de datos significa que estamos abriendo el camino a la
computación centralizada, en la que muchas empresas pueden encontrar menos costos al
usar la computación en la nube, igualmente tiene que ser considerada la seguridad, fiabilidad,
de la red.

Estamos en una nueva era en donde las empresas buscan adaptarse a la modernidad.
Preguntas de cierre y sus respuestas:

• Nombre uno de los impulsores del volumen en la era de los macrodatos:


Infraestructura escalable.
• Valor de Big data puede ser___:
Beneficios
• En el vídeo, 2,5 Quintillones de Bytes de datos equivalen a ¿cuántos DVD de rayos:
azules?
10 millones.

Modulo 2

Video 1

Beyond the Hype

En los últimos años se han creado una cantidad muy grande de datos.

Existen muchas medidas de almacenamiento que antes no se pensaba que podrían ser
utilizadas, por ejemplo, hoy en día el kilobyte, megabyte, gigabyte, terabyte son unidades de
almacenamiento relacionadas a los videos, música, imágenes, películas, celulares, laptops,
y los perabytes, exabytes y zettabytes se relacionan más a plataformas como Google,
Facebook, también aeropuertos, ciudades, granjas de datos.

Computación en la nube:

La computación en la nube permite a las empresas contar con una tecnología escalable, es
decir, pueden agrandar sus recursos conforme los van necesitando o buscando.

¿De dónde vienen los datos?

Los datos se generan de:

• Personas: con el uso de redes sociales, audio, imágenes, videos.


• Maquinas: controladores, sensores, IoT, satélites.
• Negocios: transacciones, ventas, compras, devoluciones, acciones, etc

Fuentes de Big Data:

Datos estructurados: son datos organizados, etiquetados, como por ejemplo las bases de
datos relacionales y hojas de Excel.

Datos semiestructurados: combinación de ambos, como por ejemplos archivos XML o JSON.

Datos no estructurados: datos que no están organizados, se dice que corresponde al 80% de
los datos en el mundo.

Hoy en día los “datos nunca duermen” es decir, que las empresas siempre están generando
datos, por eso es importante considerar la protección de los datos y la privacidad de estos.
Resumen de lectura:

Facebook utiliza servidores diseñados a medida por rackspace para construir sus centros de
datos.

Google fue la primera empresa de búsquedas en desarrollar una arquitectura y sistemas para
gestionar la enorme cantidad de datos que genera la indexación en la web.

Si enfoque se ha convertido en estándar en Big Data donde los datos siempre tienen que estar
disponibles. La mayoría de estos se escriben una vez y se leen en muchos lugares y no encajan
en algunas metodologías de bases de datos relacionales.

En otros, los datos se distribuyen y replican en muchos servidores alrededor del mundo.

El sistema de archivos de Google y su enfoque de procesamiento map reduce encajan con el


entorno. Yahoo ha apoyado una versión de código abierto de Google llamado Hadoop, este se
considera un proyecto Apache de alto nivel.

Hoy en día, Hadoop es utilizado por muchas empresas, además, existe gran variedad de
herramientas construidas sobre Hadoop.

Uno de los retos de Big Data es el procesamiento de datos es el consumo de energía de esos
miles de servidores en cada centro de datos. Facebook ha cambiado ciertas cosas en sus
elementos que ayudan a aprovechar mejor la energía de tal forma que sus centros de datos
están diseñados para consumir poca energía.

Preguntas de cierre y sus respuestas:

• ¿Cuántos Petabytes hacen un Exabyte? 1024


• ¿Cuál es un ejemplo de fuentes de Big Data semi estructurado? JSON files
• ¿Cuándo se calcula que los datos que creamos y copiamos rondarán los 35 zettabytes?
2020

Módulo 3

Video 1

Big Data y Ciencia de Datos

Aspectos de Big data:

• Integración: Reunir, incorporar los datos de diversas fuentes.


• Análisis: Recopilación e interpretación de los datos.
• Visualización: Como vemos los datos, en tablas, mapas.
• Seguridad y Gobernanza: se debe pensar en cómo guardar esos datos y sean
privados.
• Optimización.

Governanza en Big Data:

• Automatización integrada.
• Contenido visual.
• Gobernanza ágil.

Algunas habilidades en Big data:

• Hadoop.
• Dozie.

¿Dónde aprender Big Data?

• IBM
• Big Data University

¿Cómo se relaciona Big Data con la Ciencia de Datos?

Para ambas, juntan cosas diferentes, como técnicas de hacking, conocimiento de


matemáticas y estadísticas y experiencia sustantiva.

Proceso en Big Data:

• Definir el problema.
• Recolección de datos.
• Exploración de datos.
• Analizar datos.
• Visualización.
• Tomar acción.

Resumen de lectura:

Cambio climático y Big Data

Norman White tuvo una conversación con Sanjay Khanna sobre juegos, cambio climático y big
data. Sanjay estaba interesado en utilizar los juegos en línea para concienciar sobre el
consumo energético de un individuo o familia para hacerles “competir” de alguna forma para
que fueran mas “limpios” que otros en su red social. Hablaron de las implicaciones de los
“grandes datos” y de la necesidad de contar con algún tipo de infraestructura para almacenar
toda la información. Una universidad de Toronto está desarrollando una aplicación para eso.

La idea de usar las redes sociales para fomentar el buen comportamiento es algo que Sinan
Aral, que su grupo está haciendo.

Esta participando en un proyecto en Sudáfrica que utiliza las redes sociales para frenar el VIH.

La universidad de Nueva York cuenta con un nuevo centro, el CUSP (Centro para la Ciencia y
el Progreso Urbano), dirigido por Steve Koonin, antiguo jefe científico de BP, y Provost en Cal
Poly, Steve trabaja en el departamento de Stern y en la Universidad Politécnica de Nueva York.

Uno de los objetivos del CUSP es combinar algunas de las muchas fuentes de datos de la
ciudad de Nueva York con otra información de manera de la ciudad sea mas eficiente y segura.
Sanjay y Steve tuvieron una conversación sobre la previsión meteorológica del huracán Sandy
y la previsión del huracán si los modelos meteorológicos alimentaran directamente a la base
de datos, además coincidieron en que los macrodatos cambian las reglas en cuestiones del
cambio climático y que hay demanda en científicos de datos.

Se habló sobre los cursos nuevos que se han introducido como uno llamado “Practical Data
Science”, que se diseñó para introducir las herramientas que necesita un científico de datos
incluyendo el Big Data, y otros cursos como “Dealing with data”, centrado en los macrodatos.
Además, se tocó el tema de un cluster de Hadoop y big data, y sobre estudiantes y proyectos
relacionados para la enseñanza e investigación.

Módulo 4

Video 1

Casos de uso de Big Data

Casos de uso de Big Data que generan valor:

• Exploración de Big data


• Extensión de seguridad/inteligencia
• Vista mejorada del consumidor a 360°
• Análisis de operaciones
1. Toda organización de distribuye en:
• Departamento del negocio: datos proyectados.
• Departamento móvil: datos móviles.
• Recursos humanos: datos personales.

Lo anterior es integrado y conseguimos una vista unificada. Estos datos pueden ser minados.

Ejemplo: reducir la congestión del tráfico. Para eso tenemos que saber:

• Donde hay trafico


• Y predecir el flujo del trafico
2. Se busca saber toda la información de los clientes para conocer sus preferencias, ubicar
productos para que estos compren. Cuando compras con tarjeta de crédito pueden saber
en que compras y mejorar las relaciones con los clientes.
3. Peligros que representan la seguridad. El machine learning puede ayudar a detectar la falta
de seguridad y analizando estos datos mejoramos la seguridad.
4. Datos se van generando mas por las herramientas que se van desarrollando, si
conectamos herramientas IoT podemos buscar:
• Analisis, patrones, correlaciones.
• Aviation: mejorar la seguridad.
• Mejorar la experiencia de los clientes, las relaciones con los clientes y visualizar estos
datos.

Walmart es un ejemplo de como agregaron valor a los clientes.

Resumen de lectura:
Big data y sensores

El mundo de los macrodatos ha ido creciendo gracias a nuevas fuentes de información.

Los dispositivos “Zigbee” pueden ser usados como sensores, enrutadores o coordinadores de
una red personal. Las redes pueden soportar muchos dispositivos y cubrir gran superficie,
además consumen poca energía y pueden funcionar por muchos años.

Los dispositivos de nodos finales además de detectar entradas analógicas y digitales pueden
apagar y encender dispositivos electrónicos por lo que pueden controlar diversos aparatos.

Proyectos como “Xbee” han puesto la tecnología al alcance de cualquiera que sepa
programar. Productos como NEST y Zwave han llevado nuevas capacidades al ámbito
doméstico, buscando el ahorro energético.

Estos dispositivos llenan el vacio entre Bluethoot y WIFI. Hay muchos sensores disponibles
como los de temperatura, polvo, corriente, voltaje, etc. La mayoría son baratos y se conectan
fácilmente a Zigbee. Los relés baratos tienen una gran cantidad de funciones. Las aplicaciones
medicas se ven prometedores, pero presentan algunos problemas, pero en algunos lugares
pueden usarse para telemedicina. Parece ser que las ciudades inteligentes ya implementan
este tipo de tecnologías, donde todos estos datos están conectados utilizando una
infraestructura big data.

Preguntas de cierre y sus respuestas:

¿Cuál es el término utilizado para describir un enfoque holístico que tiene en cuenta toda la
información disponible y significativa sobre un cliente para impulsar un mayor compromiso,
ingresos y fidelidad a largo plazo? Enhanced 360-degree view

¿Qué puede ayudar a las organizaciones a encontrar nuevas asociaciones o descubrir


patrones y hechos para mejorar significativamente la inteligencia, la seguridad y la aplicación
de la ley? Análisis de datos en movimiento y en reposo

¿En qué tipo de datos se centra el Análisis Operativo? Datos de la máquina

Módulo 5

Video 1

Procesamiento de Big Data

Durante la web 1.0 eran solo paginas estáticas, no había interacción, videos, ni imágenes, sin
embargo, esto fue cambiando durante la web 2.0, donde comienza a crecer el concepto de la
web semántica, el contenido relacionado, agregar información, entre otros.

Componentes y ecosistemas Big Data:

• Técnicas de Análisis de Datos, como A/B Testing,


• Machine Learning, y Procesamiento del Lenguaje Natural.
• Tecnologías de Big Data como Business Intelligence,
• Cloud Computing y Bases de Datos.
• Visualización, como cuadros, gráficos y otras formas de presentación de los datos.
• Tecnologías Big Data: Hadoop, apache, vendors.

Tecnologías Big Data: estas llevan grandes conjuntos de datos estructurados y no


estructurados en un formato que se pueda visualizar.

IBM y Data Scientist Workbench son proveedores de herramientas de procesamiento y


formación de Big Data.

Hadoop es un software de código abierto desarrollado en java por Doug Cutting para
almacenar y procesar grandes cantidades de datos. Este contiene módulos como HDFS,
gestión de recursos y programación de tareas, modelos de programación, bibliotecas de
software, entre otros. Utiliza la tecnología MapReduce de Google como base.

Hadoop utiliza la tecnología MapReduce de Google como base, es altamente escalable


diseñada para procesar grandes volúmenes de datos a través de cientos de nodos.

El clúster de Hadoop se le pueden agregar nodos (ordenadores), esto es un rack, una colección
de 30 o 40 nodos que están conectados unos con otros. Además, este es muy utilizado debido
a que es flexible para las empresas, el uso de arquitecturas hibridas, estrategias de lago de
datos (método de almacenamiento de datos que guardan grandes

cantidades de datos en bruto en su formato nativo)

Big data es como una plataforma, los cuales los almacenes de datos forman una parte de
estos, donde ofrecen análisis avanzado en la base de datos y análisis operativo.

Tipos de modernización de almacenes de datos:

• Preprocesamiento: utilizando Big Data como zona de aterrizaje


• Datos irrelevantes o relevantes que irán a la base de datos
• Offloading: mover datos de acceso infrecuente
• de los almacenes de datos a Hadoop de nivel empresarial
• Exploración: utilizando las capacidades de big data para explorar
• y descubrir nuevos datos de gran valor

Resumen de lectura:

Hadoop y Luste: Algunos pensamientos

En resumen, este texto habla sobre la importancia de Hadoop y como este ha influido en las
empresas que tienen que manejar muchos datos. Los grandes clusters de hadoop han
permitido tener muchos ordenadores conectados e interactuando siendo como un disco local
a cada ordenador, de modo que este puede procesar los datos de forma local.

También Hadoop y lustre son comparados, dice que Hadoop es menos sensible a la velocidad
de la red y suele funcionar bien con 1gb.

Oracle Grid Engine también ofrece servicios de Hadoop Scheduling.


Se ha visto un proyecto HOD, hadoop on demand, añadiendo soporte al sistema de
programación grid Torque.

En pocas palabras, Hadoop y Lustre funcionan bien juntos y son herramientas muy
importantes en la actualidad.

Preguntas de cierre y sus respuestas:

¿Qué es un método de almacenamiento de datos para apoyar el análisis de fuentes de datos


originalmente dispares? Lagos de datos

Los almacenes de datos proporcionan procesamiento analítico en línea: Verdadero/Falso.


Verdadero

¿Qué significa "OLAP"? Online Analytical Processing

Video

Resumen del curso

Este video menciona todo lo que vimos en este curso, por ejemplo, definiciones de big data,
características de big data, estrategias, casos de uso y sistemas.

Big data es el ratro digital que estamos creando en esta era digital, este rastro se conforma con
todos los datos que generamos con la tecnología, donde cada vez tendremos acceso a
volúmenes de datos mas grandes y capacidades tecnológicas mayores.

Las características son volumen, velocidad, variedad y valor. Las fuentes de datos son
aquellas donde obtenemos datos estructurados, semiestructurados, no estructurados.

Algunos casos de uso de Big data, y las habilidades requeridas, la definición de ciencia de
datos, y la importancia de los macrodatos en las empresas.

También, algunos sistemas de big data, como hadoop y los módulos que este tiene y lo útil que
ha sido para las empresas.

También podría gustarte