04 Tecnologíasdeinternet Contenidos PDF
04 Tecnologíasdeinternet Contenidos PDF
04 Tecnologíasdeinternet Contenidos PDF
TECNOLOGÍAS DE INTERNET
SEMANA 4
CIENCIA DE DATOS
IACC-2019
1
SEMANA 4 – TECNOLOGÍAS DE INTERNET
OBJETIVOS ESPECÍFICOS
• Caracterizar la capacidad de gestionar,
analizar y visualizar de datos basados en
la IoT.
IACC-2019
2
SEMANA 4 – TECNOLOGÍAS DE INTERNET
INTRODUCCIÓN ................................................................................................................................... 4
1.1. GESTIÓN Y ANÁLISIS DE DATOS ....................................................................................... 5
1.2. VISUALIZACIÓN DE DATOS .............................................................................................. 7
1.3. BIG DATA ......................................................................................................................... 8
1.4. TECNOLOGÍAS PARA DATOS .......................................................................................... 13
COMENTARIO FINAL.......................................................................................................................... 20
REFERENCIAS ..................................................................................................................................... 21
IACC-2019
3
SEMANA 4 – TECNOLOGÍAS DE INTERNET
INTRODUCCIÓN
En la actualidad, la gestión de datos se que se debe tomar en cuenta el actual
enmarca principalmente en varios procesos, contexto digital y su importante influencia en
partiendo por la obtención de los datos, su los sistemas de información de las
almacenamiento y la transformación de los organizaciones.
datos crudos a aquellos analizables en bases
de datos, los que pasan por una serie de Este nuevo panorama se encuentra lleno de
validaciones y cambios de formato. retos y oportunidades, y exige tipos de
análisis de datos adaptados a las nuevas
En el mismo orden de ideas, estos procesos necesidades de la sociedad actual, con el fin
deben realizarse siguiendo procedimientos de facilitar la toma de decisiones orientadas
operativos estándar, lo que significa que al dato.
todo debe quedar debidamente
documentado y archivado. Es decir, implica En suma, se trata de responder a las
cuidar el ciclo completo de vida de los datos. exigencias que plantean los distintos tipos de
datos, los distintos planteamientos y, de
Actualmente, el análisis de datos es un eje forma especial, la necesidad del real time,
clave para la toma de decisiones. Es por ello decisiva en muchos casos.
IACC-2019
4
SEMANA 4 – TECNOLOGÍAS DE INTERNET
El énfasis en este tipo de gestión de datos comenzó con la era electrónica del procesamiento de
datos. Sin embargo, los métodos de gestión de datos tienen raíces en contabilidad, estadística,
planificación logística y otras disciplinas que son anteriores al surgimiento de la computación
corporativa a mediados del siglo XX.
• OBJETIVOS
Las amenazas con respecto a la calidad de los datos surgen en todos los puntos en que se obtienen
y/o modifican datos. El valor de la investigación se verá muy afectado por el control de calidad,
pero lograr y mantener la calidad requiere de actividades que a menudo son banales y difíciles de
motivar.
• Evitar o eliminar las inconsistencias, errores y datos faltantes a través de la revisión de los
formularios de recolección de datos (en forma ideal cuando el acceso a las fuentes de los
datos aún está disponible para permitir resolver las dudas) y los conjuntos de datos.
• Evaluar la calidad de los datos a través de los apuntes de los entrevistadores, codificadores,
editores de datos, del interrogatorio de los sujetos y por medio de revisiones o repeticiones de
la recolección de datos para submuestras.
IACC-2019
5
SEMANA 4 – TECNOLOGÍAS DE INTERNET
• Importancia en la actualidad
Por una parte, una mala gestión de los datos o, simplemente, la falta de ella, resta agilidad a la
hora de utilizarlos. Pero no solo eso, cuando la gestión de datos es deficiente o inexistente es
imposible dotarlos de la utilidad práctica necesaria para ser más competitivos, tanto a nivel
operativo como en la toma de decisiones estratégicas.
En este mismo sentido, aprovechar las numerosas oportunidades empresariales basadas en datos
que hoy brinda el actual escenario global y digitalizado implica, en suma, grandes desafíos en la
gestión de la información y no menores recompensas. Este es un reto cuyo cumplimiento requiere
no solo lograr datos de calidad, confiables y de fácil acceso, acordes con lo exigido por las
iniciativas de negocio, sino que también requiere de la entrega en el plazo establecido.
La gestión de los datos siempre es clave, pero resulta esencial dentro del contexto de Big Data, en
el que aprovechar las oportunidades basadas en datos requiere poder contar con información
valiosa obtenida ágilmente, en cualquier momento y lugar, incluyendo la captura de datos y
análisis en tiempo real.
- Gestión de datos
Los conceptos de gestión se pueden aplicar tanto a la gestión de datos como a la gestión de
proyectos, transformándose ambos en componentes críticos de estos sistemas.
Además, los datos son simplemente objetos manipulados por el sistema de gestión de datos. En
definitiva: los datos no tendrán importancia si no se le presta una atención adecuada al proceso.
- Gestión de Recursos
IACC-2019
6
SEMANA 4 – TECNOLOGÍAS DE INTERNET
https://www.youtube.com/watch?v=qzhuKKLEdi8
Hoy en día, las herramientas y las tecnologías de visualización de datos son esenciales para
analizar cantidades masivas de información y tomar decisiones basadas en ellos
Existen decenas de herramientas para la visualización y el análisis de datos. Las hay de todo tipo:
de simples a complejas y de intuitivas a inmutables. No todas las herramientas son adecuadas para
todas las personas que buscan aprender las técnicas de visualización; ni tampoco son adaptables a
todos los objetivos del sector o la empresa.
IACC-2019
7
SEMANA 4 – TECNOLOGÍAS DE INTERNET
Fuente: https://sdtimes.com/data/big-data-go/
A partir del análisis de datos se pueden realizar proyecciones, obtener ideas y realizar negocios
estratégicos, con el fin de lograr más posicionamiento y mejor rentabilidad.
De acuerdo con el portal SAS (2017), en el contexto actual, el Big Data consiste en la acción de
recopilar y almacenar grandes cantidades de datos para luego ser analizados. Este concepto cobra
fuerza a partir del año 2000, cuando el analista de la industria Doug Laney articuló la definición
ahora muy popular del Big Data como las tres V:
IACC-2019
8
SEMANA 4 – TECNOLOGÍAS DE INTERNET
IACC-2019
9
SEMANA 4 – TECNOLOGÍAS DE INTERNET
• Permite determinar las causas de origen de fallos, problemas y defectos de información casi
en tiempo real.
• Permite comprender los hábitos de compra del cliente o consumidores.
• Permite recalcular portafolios de riesgo completos de una organización.
• Permite detectar conducta fraudulenta antes de que afecte a su organización.
IACC-2019
10
SEMANA 4 – TECNOLOGÍAS DE INTERNET
De acuerdo con IBM (2012), hay que comprender los diferentes tipos de datos que se estudian y
se evalúan en el Big Data:
Web and Social Media Incluye contenido web e información que es obtenida de las redes
sociales como Facebook, Twitter, LinkedIn, blogs, etc.
IACC-2019
11
SEMANA 4 – TECNOLOGÍAS DE INTERNET
El desarrollo del Big Data se integra a un conjunto de componentes que debe tener toda
plataforma que se pretenda implementar para el análisis y gestión de los datos.
Para el desarrollo del Big Data existen 3 elementos que son vitales a considerar:
1. Utilizar e implementar en las soluciones con Big Data los algoritmos que usan las tecnologías
de analítica predictiva, por medio de los patrones de información que más se adecuen a los
objetivos planteados. Es decir, comprender la dinámica de los datos que se requieren analizar
y gestionar. No utilizar generalizaciones, ya que los mercados y los negocios son diferentes.
Ejemplo: Los algoritmos que utilizan tanto Aliexpress como Amazon.com se dirigen, entre
otras cosas, a analizar, comprender y predecir el comportamiento y las preferencias de sus
consumidores con el objetivo de recomendar los productos que más se acerquen a sus gustos.
Estos no corresponden a los objetivos que persiguen por ejemplo canales de televisión como
Mega, TV13 o la cadena FOX.
2. Hay que considerar siempre que se usan los datos para crear más datos, como desveló la
prestigiosa Forbes. Un ejemplo se evidencia con Google, que utiliza la información acerca de
en qué enlace o enlaces se hace clic dentro de un conjunto de resultados de búsqueda, y en
cuáles no, con el objetivo de mejorar los próximos resultados.
3. Finalmente, se deben ajustar los datos a una segmentación adecuada, es decir, a un target
concreto para satisfacer o intentar satisfacer necesidades de un usuario. Por ejemplo, en
medicina hay empresas que están trabajando en formas de personalizar las terapias a partir de
los perfiles genéticos de los pacientes.
IACC-2019
12
SEMANA 4 – TECNOLOGÍAS DE INTERNET
Fuente: http://www.justscience.in/articles/hardware-software-borderline-cloud-computing/2018/01/22
Con esto, se puede afirmar que la computación en la nube ofrece a las personas y a las empresas
de todos los tamaños la capacidad de un pool de recursos de computación con buen
mantenimiento, seguro, de fácil acceso y bajo demanda, como servidores, almacenamiento de
datos y solución de aplicaciones para dar respuesta a al manejo de su negocio y por supuesto de
los datos.
IACC-2019
13
SEMANA 4 – TECNOLOGÍAS DE INTERNET
Como ventaja, esto genera a las empresas mayor flexibilidad en relación a sus datos e
informaciones a las que se pueden acceder en cualquier lugar y hora. Por esta razón, es esencial
para empresas con sedes alrededor del mundo o en distintos ambientes de trabajo, ya que así, con
un mínimo de gestión, todos los elementos de software de la computación en la nube pueden ser
dimensionados bajo demanda, necesitándose solo una conexión a internet.
Fuente: https://sites.google.com/site/tendenciaseducativas01/servicios-en-la-
nube-google-drive-dropbox
IACC-2019
14
SEMANA 4 – TECNOLOGÍAS DE INTERNET
• DATA CENTER
Tal como su nombre lo indica, un data center es un centro de procesamiento de datos. Esta
instalación se encuentra acondicionada para albergar en ella grandes almacenes de datos por
medio de una infraestructura tecnológica especializada, a través de servidores interconectados.
Componentes y Descripción
funcionamiento
Servidores El propósito principal de un datacenter es alojar los servidores necesarios
para soportar los servicios ofrecidos a los clientes. Personal cualificado se
encarga de que todos los servidores tengan actualizado y en perfecto
funcionamiento tanto el software (sistemas operativos, actualizaciones
críticas, aplicaciones, copias de seguridad, parches), como hardware
(memorias, discos duros, cpu, etc.).
Conectividad de red Mediante switches todos los servidores reciben y entregan información
desde y hacia la red, según la demanda y el trabajo al que estén
destinados.
Energía Se necesita una fuente de alimentación para mantener todo este conjunto
en marcha, normalmente se usan fuentes redundantes y electro-
generadores diésel para abastecer a todo el sistema en caso de fallo
eléctrico. Los sistemas eléctricos deben de mantenerse constantes y sin
IACC-2019
15
SEMANA 4 – TECNOLOGÍAS DE INTERNET
• HADOOP
Fuente: http://www.diegocalvo.es/hadoop/
Es una plataforma de código abierto inspirada en Google File System (GFS) utilizando como
paradigma de programación MapReduce, que consiste en dividir en dos diferentes tareas los datos
para manipularlos y distribuirlos a nodos de un clúster logrando un paralelismo en el
procesamiento.
Hadoop se compone de 3 elementos: Hadoop Distributed File System (HDFS), Hadoop MapReduce
y Hadoop Common.
IACC-2019
16
SEMANA 4 – TECNOLOGÍAS DE INTERNET
- Hadoop Distributed File System (HDFS): Se encarga de dividir los datos en pequeños bloques, los
que se distribuyen a través del clúster. Para ello, se utilizan las funciones map y reduce para
ejecutar pequeños subprogramas y proveer escalabilidad para el manejo de grandes volúmenes de
datos.
IACC-2019
17
SEMANA 4 – TECNOLOGÍAS DE INTERNET
La siguiente imagen muestra un ejemplo de cómo HDFS maneja los bloques de datos:
• Un primer proceso es map, el cual toma un conjunto de datos y lo convierte en otro conjunto,
donde los elementos individuales son separados en tuplas (pares de llave/valor).
• Un segundo proceso es reduce, que obtiene la salida de map -como datos de entrada- y
combina las tuplas en un conjunto más pequeño de las mismas.
• Entre ambos procesos existe una fase intermedia es la denominada Shuffle, la cual obtiene las
tuplas del proceso map y determina que nodo procesará estos datos dirigiendo la salida a una
tarea reduce en específico.
IACC-2019
18
SEMANA 4 – TECNOLOGÍAS DE INTERNET
- Hadoop Common: Hadoop Common Components son un conjunto de librerías que soportan
varios subproyectos de Hadoop. Además de estos tres componentes principales de Hadoop,
existen otros proyectos relacionados los cuales se pueden observar en el material
complementario: librerías Hadoop Common.
IACC-2019
19
SEMANA 4 – TECNOLOGÍAS DE INTERNET
COMENTARIO FINAL
Hoy en día la información es diferente y su procesamiento es especial en comparación con épocas
pasadas. Las formas de generar datos, su gestión y complejidad resultan aspectos necesarios a
considerar en casi todas las organizaciones.
El uso de Big Data ha contribuido a descubrir cosas que podrían haberse tardado años en
encontrar por sí mismos, todo gracias al uso de estas herramientas. Principalmente por el
volumen, las grandes cantidades de información y la velocidad del análisis, es posible que el
analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y re-trabajar el
procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.
Comprender el principio del Big Data contribuye a la inteligencia de negocios y a las estrategias
que las empresas y los emprendimientos hoy en día deben evaluar de manera permanente para
mantenerse en mercados globales y dinámicos.
Sin embargo, se debe conocer que hay tecnologías que acompañan al Big Data, por lo que es
necesario abordar los conceptos de computación en la nube, data center y hadoop.
IACC-2019
20
SEMANA 4 – TECNOLOGÍAS DE INTERNET
REFERENCIAS
Power Data (2017). Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad.
SAS (2017). Analítica del Big Data. Qué es y por qué es importante. Recuperado de:
https://www.sas.com/es_cl/insights/big-data/what-is-big-data.html
https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html
Salesforce (s. f.). Cloud Computing - Aplicaciones en un solo tacto. Recuperado de:
https://www.salesforce.com/mx/cloud-computing/
IACC-2019
21
SEMANA 4 – TECNOLOGÍAS DE INTERNET
IACC-2019
22