Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
77 vistas22 páginas

04 Tecnologíasdeinternet Contenidos PDF

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 22

SEMANA 4 – TECNOLOGÍAS DE INTERNET

TECNOLOGÍAS DE INTERNET
SEMANA 4

CIENCIA DE DATOS

IACC-2019
1
SEMANA 4 – TECNOLOGÍAS DE INTERNET

OBJETIVOS ESPECÍFICOS
• Caracterizar la capacidad de gestionar,
analizar y visualizar de datos basados en
la IoT.

IACC-2019
2
SEMANA 4 – TECNOLOGÍAS DE INTERNET

INTRODUCCIÓN ................................................................................................................................... 4
1.1. GESTIÓN Y ANÁLISIS DE DATOS ....................................................................................... 5
1.2. VISUALIZACIÓN DE DATOS .............................................................................................. 7
1.3. BIG DATA ......................................................................................................................... 8
1.4. TECNOLOGÍAS PARA DATOS .......................................................................................... 13
COMENTARIO FINAL.......................................................................................................................... 20
REFERENCIAS ..................................................................................................................................... 21

IACC-2019
3
SEMANA 4 – TECNOLOGÍAS DE INTERNET

INTRODUCCIÓN
En la actualidad, la gestión de datos se que se debe tomar en cuenta el actual
enmarca principalmente en varios procesos, contexto digital y su importante influencia en
partiendo por la obtención de los datos, su los sistemas de información de las
almacenamiento y la transformación de los organizaciones.
datos crudos a aquellos analizables en bases
de datos, los que pasan por una serie de Este nuevo panorama se encuentra lleno de
validaciones y cambios de formato. retos y oportunidades, y exige tipos de
análisis de datos adaptados a las nuevas
En el mismo orden de ideas, estos procesos necesidades de la sociedad actual, con el fin
deben realizarse siguiendo procedimientos de facilitar la toma de decisiones orientadas
operativos estándar, lo que significa que al dato.
todo debe quedar debidamente
documentado y archivado. Es decir, implica En suma, se trata de responder a las
cuidar el ciclo completo de vida de los datos. exigencias que plantean los distintos tipos de
datos, los distintos planteamientos y, de
Actualmente, el análisis de datos es un eje forma especial, la necesidad del real time,
clave para la toma de decisiones. Es por ello decisiva en muchos casos.

IACC-2019
4
SEMANA 4 – TECNOLOGÍAS DE INTERNET

GESTIÓN Y ANÁLISIS DE DATOS

En la actualidad, la gestión y análisis de datos es considerada la práctica de organizar y mantener


procesos de datos, con el objetivo de satisfacer las necesidades de ciclo de vida continuo de la
información.

El énfasis en este tipo de gestión de datos comenzó con la era electrónica del procesamiento de
datos. Sin embargo, los métodos de gestión de datos tienen raíces en contabilidad, estadística,
planificación logística y otras disciplinas que son anteriores al surgimiento de la computación
corporativa a mediados del siglo XX.

• OBJETIVOS

Un buen sistema de gestión de datos incluye la


supervisión del flujo de datos desde los sujetos de
investigación a los analistas de ellos. Antes de poder
analizarlos, los datos deben ser recogidos, revisados,
codificados, computarizados, verificados, confirmados y
convertidos a formularios adecuados para llevar a cabo el
análisis. Todo este proceso debe ser adecuadamente
documentado para fundamentar el análisis e
interpretación.

Las amenazas con respecto a la calidad de los datos surgen en todos los puntos en que se obtienen
y/o modifican datos. El valor de la investigación se verá muy afectado por el control de calidad,
pero lograr y mantener la calidad requiere de actividades que a menudo son banales y difíciles de
motivar.

El control de calidad incluye:

• Prevenir y detectar errores en los datos a través de procedimientos escritos, entrenamiento,


procedimientos de verificación y evitando complejidades innecesarias.

• Evitar o eliminar las inconsistencias, errores y datos faltantes a través de la revisión de los
formularios de recolección de datos (en forma ideal cuando el acceso a las fuentes de los
datos aún está disponible para permitir resolver las dudas) y los conjuntos de datos.

• Evaluar la calidad de los datos a través de los apuntes de los entrevistadores, codificadores,
editores de datos, del interrogatorio de los sujetos y por medio de revisiones o repeticiones de
la recolección de datos para submuestras.

IACC-2019
5
SEMANA 4 – TECNOLOGÍAS DE INTERNET

• “Sentir” los datos, evitar interpretaciones equivocadas y descuidos importantes.

• Importancia en la actualidad

En la actualidad, la gestión de datos es cada vez más complicada. Y de la manera tradicional,


también es un difícil reto.

Por una parte, una mala gestión de los datos o, simplemente, la falta de ella, resta agilidad a la
hora de utilizarlos. Pero no solo eso, cuando la gestión de datos es deficiente o inexistente es
imposible dotarlos de la utilidad práctica necesaria para ser más competitivos, tanto a nivel
operativo como en la toma de decisiones estratégicas.

En este mismo sentido, aprovechar las numerosas oportunidades empresariales basadas en datos
que hoy brinda el actual escenario global y digitalizado implica, en suma, grandes desafíos en la
gestión de la información y no menores recompensas. Este es un reto cuyo cumplimiento requiere
no solo lograr datos de calidad, confiables y de fácil acceso, acordes con lo exigido por las
iniciativas de negocio, sino que también requiere de la entrega en el plazo establecido.

La gestión de los datos siempre es clave, pero resulta esencial dentro del contexto de Big Data, en
el que aprovechar las oportunidades basadas en datos requiere poder contar con información
valiosa obtenida ágilmente, en cualquier momento y lugar, incluyendo la captura de datos y
análisis en tiempo real.

- Gestión de datos

Los conceptos de gestión se pueden aplicar tanto a la gestión de datos como a la gestión de
proyectos, transformándose ambos en componentes críticos de estos sistemas.

Además, los datos son simplemente objetos manipulados por el sistema de gestión de datos. En
definitiva: los datos no tendrán importancia si no se le presta una atención adecuada al proceso.

- Gestión de Recursos

La gestión de recursos de datos es el desarrollo y ejecución de arquitecturas, políticas, prácticas y


procedimientos que gestionan apropiadamente las necesidades del ciclo de vida completo de los
datos de una empresa.

IACC-2019
6
SEMANA 4 – TECNOLOGÍAS DE INTERNET

1.1. VISUALIZACIÓN DE DATOS


Se considera una representación gráfica de la información y los datos. Esto se logra mediante el
uso de elementos visuales como, por ejemplo, gráficos y mapas. Considerando su importancia, la
visualización de datos ofrece una manera accesible para detectar y comprender las tendencias, los
valores atípicos y los patrones en los datos.

La visualización de datos permite interpretar informaciones de


manera sencilla y muy visual. Su principal objetivo es comunicar la
información de forma clara a través de gráficos, diagramas entre
otros.

https://www.youtube.com/watch?v=qzhuKKLEdi8

Hoy en día, las herramientas y las tecnologías de visualización de datos son esenciales para
analizar cantidades masivas de información y tomar decisiones basadas en ellos

Herramientas de visualización de datos

Existen decenas de herramientas para la visualización y el análisis de datos. Las hay de todo tipo:
de simples a complejas y de intuitivas a inmutables. No todas las herramientas son adecuadas para
todas las personas que buscan aprender las técnicas de visualización; ni tampoco son adaptables a
todos los objetivos del sector o la empresa.

IACC-2019
7
SEMANA 4 – TECNOLOGÍAS DE INTERNET

1.2. BIG DATA


Actualmente, el término de Big Data ha cobrado mucha importancia en el mundo de los negocios,
transformándose en un elemento casi indispensable que todas las organizaciones deben
considerar para mantenerse en los mercados globales.

Fuente: https://sdtimes.com/data/big-data-go/

Específicamente, este concepto hace referencia al análisis y manejo de grandes volúmenes de


datos. Estos datos pueden estar estructurados o no, pero lo importante es que permiten mejorar
los procesos de toma de decisiones dentro de las organizaciones.

A partir del análisis de datos se pueden realizar proyecciones, obtener ideas y realizar negocios
estratégicos, con el fin de lograr más posicionamiento y mejor rentabilidad.

De acuerdo con el portal SAS (2017), en el contexto actual, el Big Data consiste en la acción de
recopilar y almacenar grandes cantidades de datos para luego ser analizados. Este concepto cobra
fuerza a partir del año 2000, cuando el analista de la industria Doug Laney articuló la definición
ahora muy popular del Big Data como las tres V:

IACC-2019
8
SEMANA 4 – TECNOLOGÍAS DE INTERNET

Volumen Las organizaciones recopilan datos de diversas fuentes, incluyendo


transacciones comerciales, medios sociales e información de sensores o
que se transmite de una máquina a otra.
Velocidad Los datos se transmiten a una velocidad sin precedentes y se deben
distribuir de manera oportuna. Etiquetas FID, sensores y la medición
inteligente crean la necesidad de distribuir torrentes de datos casi en tiempo
real.
Variedad Los datos vienen en diferentes formatos, desde datos numéricos
estructurados en bases de datos tradicionales, hasta documentos de texto
no estructurados, correo electrónico, video, audio, datos de teletipo bursátil
y transacciones financieras

Para comprender el Big Data es importante conocer su ciclo de vida:

Imagen 1: Ciclo de Vida del Big Data


Fuente:
https://www.researchgate.net/publication/304580288_Apoyando_la_formulacion_de_politicas_publicas_y_toma_de_d
ecisiones_en_educacion_utilizando_tecnicas_de_analisis_de_datos_masivos_el_caso_de_Chile/figures?lo=1

IACC-2019
9
SEMANA 4 – TECNOLOGÍAS DE INTERNET

Algunas de las ventajas que genera el Big Data son:

• Permite determinar las causas de origen de fallos, problemas y defectos de información casi
en tiempo real.
• Permite comprender los hábitos de compra del cliente o consumidores.
• Permite recalcular portafolios de riesgo completos de una organización.
• Permite detectar conducta fraudulenta antes de que afecte a su organización.

EJEMPLO DE APLICACIÓN: BIG DATA EN ACCIÓN - UPS

Como compañía con muchas partes y piezas constantemente en movimiento, UPS


almacena una gran cantidad de datos, muchos de los cuales provienen de sensores
en sus vehículos. Esos datos no solo monitorean el desempeño diario, sino que
también impulsaron un rediseño importante de las estructuras de las rutas que
siguen los conductores de UPS.

La iniciativa se denominó Orion (On-Road Integration Optimization and Navigation),


y fue probablemente el mayor proyecto de investigación de operaciones del mundo.
Este se apoya mayormente en datos de mapas en línea para reconfigurar las
recolecciones y entregas de un conductor en tiempo real.

El proyecto generó ahorros más de 8.4 millones de galones de combustible tras


recortar 85 millones de millas de las rutas diarias. UPS calcula que con disminuir tan
solo una milla diaria por conductor, la compañía ahorra $30 millones de dólares.

IACC-2019
10
SEMANA 4 – TECNOLOGÍAS DE INTERNET

De acuerdo con IBM (2012), hay que comprender los diferentes tipos de datos que se estudian y
se evalúan en el Big Data:

Imagen 2: Tipos de datos de Big Data.


Fuente: https://www.powerdata.es/big-data

• TIPOS DE DATOS DE BIG DATA

Web and Social Media Incluye contenido web e información que es obtenida de las redes
sociales como Facebook, Twitter, LinkedIn, blogs, etc.

Machine-to-Machine M2M se refiere a las tecnologías que permiten conectarse a otros


(M2M) dispositivos. M2M utiliza dispositivos como sensores o medidores que
capturan algún evento en particular (velocidad, temperatura, presión,
variables meteorológicas, etc.), los cuales transmiten a través de
redes alámbricas, inalámbricas o híbridas a otras aplicaciones que
traducen estos eventos en información significativa.

Big Transaction Data Incluye registros de facturación, en telecomunicaciones registros


detallados de las llamadas (CDR), etc. Estos datos transaccionales
están disponibles en formatos tanto semiestructurados como no
estructurados.

IACC-2019
11
SEMANA 4 – TECNOLOGÍAS DE INTERNET

Biometrics Información biométrica en la que se incluye huellas digitales, escaneo


de la retina, reconocimiento facial, genética, etc. En el área de
seguridad e inteligencia los datos biométricos han sido información
importante para las agencias de investigación.
Human Generated Es información generada por personas y para personas, ejemplo: al
llenar una encuesta, al suministrar datos tras una llamada telefónica o
incluso al llenar una ficha médica.

• Desarrollo del BigData:

El desarrollo del Big Data se integra a un conjunto de componentes que debe tener toda
plataforma que se pretenda implementar para el análisis y gestión de los datos.

Para el desarrollo del Big Data existen 3 elementos que son vitales a considerar:

1. Utilizar e implementar en las soluciones con Big Data los algoritmos que usan las tecnologías
de analítica predictiva, por medio de los patrones de información que más se adecuen a los
objetivos planteados. Es decir, comprender la dinámica de los datos que se requieren analizar
y gestionar. No utilizar generalizaciones, ya que los mercados y los negocios son diferentes.

Ejemplo: Los algoritmos que utilizan tanto Aliexpress como Amazon.com se dirigen, entre
otras cosas, a analizar, comprender y predecir el comportamiento y las preferencias de sus
consumidores con el objetivo de recomendar los productos que más se acerquen a sus gustos.
Estos no corresponden a los objetivos que persiguen por ejemplo canales de televisión como
Mega, TV13 o la cadena FOX.

2. Hay que considerar siempre que se usan los datos para crear más datos, como desveló la
prestigiosa Forbes. Un ejemplo se evidencia con Google, que utiliza la información acerca de
en qué enlace o enlaces se hace clic dentro de un conjunto de resultados de búsqueda, y en
cuáles no, con el objetivo de mejorar los próximos resultados.

3. Finalmente, se deben ajustar los datos a una segmentación adecuada, es decir, a un target
concreto para satisfacer o intentar satisfacer necesidades de un usuario. Por ejemplo, en
medicina hay empresas que están trabajando en formas de personalizar las terapias a partir de
los perfiles genéticos de los pacientes.

IACC-2019
12
SEMANA 4 – TECNOLOGÍAS DE INTERNET

1.3. TECNOLOGÍAS PARA DATOS


• CLOUD COMPUTING

Fuente: http://www.justscience.in/articles/hardware-software-borderline-cloud-computing/2018/01/22

De acuerdo con el proveedor de servicios Salesforce, la definición de cloud computing es la de


ofrecer servicios a través de la conectividad y gran escala de Internet.

La computación en la nube democratiza el acceso a recursos de software de nivel

internacional, pues es una aplicación de software que atiende a diversos clientes. La

multilocación es lo que diferencia la computación en la nube de la simple tercerización y

de modelos de proveedores de servicios de aplicaciones más antiguos. Ahora, las

pequeñas empresas tienen la capacidad de dominar el poder de la tecnología avanzada de

manera escalable (Salesforce, s. f.).

Con esto, se puede afirmar que la computación en la nube ofrece a las personas y a las empresas
de todos los tamaños la capacidad de un pool de recursos de computación con buen
mantenimiento, seguro, de fácil acceso y bajo demanda, como servidores, almacenamiento de
datos y solución de aplicaciones para dar respuesta a al manejo de su negocio y por supuesto de
los datos.

IACC-2019
13
SEMANA 4 – TECNOLOGÍAS DE INTERNET

Como ventaja, esto genera a las empresas mayor flexibilidad en relación a sus datos e
informaciones a las que se pueden acceder en cualquier lugar y hora. Por esta razón, es esencial
para empresas con sedes alrededor del mundo o en distintos ambientes de trabajo, ya que así, con
un mínimo de gestión, todos los elementos de software de la computación en la nube pueden ser
dimensionados bajo demanda, necesitándose solo una conexión a internet.

En la siguiente imagen se observa la estructura general del cloud computing:

Estructura general del Cloud Computing

Fuente: https://sites.google.com/site/tendenciaseducativas01/servicios-en-la-
nube-google-drive-dropbox

IACC-2019
14
SEMANA 4 – TECNOLOGÍAS DE INTERNET

• DATA CENTER

• En el siguiente enlace se muestran algunos ejemplos de


aplicación de computación en la nube tal como lo es Google
Drive.
https://sites.google.com/site/tendenciaseducativas01/servicios-en-la-nube-google-
drive-dropbox

Tal como su nombre lo indica, un data center es un centro de procesamiento de datos. Esta
instalación se encuentra acondicionada para albergar en ella grandes almacenes de datos por
medio de una infraestructura tecnológica especializada, a través de servidores interconectados.

Algunos de los elementos indispensables es contar con fuentes


de alimentación redundante o de respaldo de un proyecto típico
de data center, que ofrezca espacio para hardware y que se
enuentre en un ambiente controlado como, por ejemplo,
acondicionando el espacio con el aire acondicionado, extinción
de encendidos de diferentes dispositivos de seguridad para

Fuente: permitir que los equipos tengan el mejor nivel de rendimiento


https://www.networkworld.com/articl
e/3289509/data-center/
con la máxima disponibilidad del sistema.

Entre los componentes más relevantes de un data center se


mencionan:

Componentes y Descripción
funcionamiento
Servidores El propósito principal de un datacenter es alojar los servidores necesarios
para soportar los servicios ofrecidos a los clientes. Personal cualificado se
encarga de que todos los servidores tengan actualizado y en perfecto
funcionamiento tanto el software (sistemas operativos, actualizaciones
críticas, aplicaciones, copias de seguridad, parches), como hardware
(memorias, discos duros, cpu, etc.).
Conectividad de red Mediante switches todos los servidores reciben y entregan información
desde y hacia la red, según la demanda y el trabajo al que estén
destinados.
Energía Se necesita una fuente de alimentación para mantener todo este conjunto
en marcha, normalmente se usan fuentes redundantes y electro-
generadores diésel para abastecer a todo el sistema en caso de fallo
eléctrico. Los sistemas eléctricos deben de mantenerse constantes y sin

IACC-2019
15
SEMANA 4 – TECNOLOGÍAS DE INTERNET

fluctuaciones de voltaje o intensidad, los cuales pueden perjudicar a todo


el conjunto.
Climatización La carga de trabajo a la que se someten los sistemas de un datacenter
genera condiciones de calor muy elevadas. Para evitar
sobrecalentamientos existen uno o varios sistemas de ventilación que
pueden utilizar aire frío o líquidos refrigerantes para mantener una
temperatura adecuada. También se tiene en cuenta la disposición de los
servidores para que la evacuación natural del aire sea la mejor posible.
Monitorización La información y procesos que alberga un datacenter es en la mayoría de
los casos crítica, un fallo en el servidor que, por ejemplo, se dedique al
procesamiento de los datos de tarjetas de crédito puede dejar en jaque a
miles o millones de personas. Ir siempre un paso por delante de estos
fallos o atajarlos inmediatamente es la labor de personal altamente
cualificado que se dedica segundo a segundo a velar porque todo funcione
correctamente.
Sistemas de seguridad Sistemas contra incendios, vigilantes de seguridad, sistemas de accesos
restringidos, etc. Según el contenido de sus servidores, las empresas que
gestionan los datacenters velan por la seguridad e integridad de todo el
sistema.

• HADOOP

Fuente: http://www.diegocalvo.es/hadoop/

Es una plataforma de código abierto inspirada en Google File System (GFS) utilizando como
paradigma de programación MapReduce, que consiste en dividir en dos diferentes tareas los datos
para manipularlos y distribuirlos a nodos de un clúster logrando un paralelismo en el
procesamiento.

Hadoop se compone de 3 elementos: Hadoop Distributed File System (HDFS), Hadoop MapReduce
y Hadoop Common.

IACC-2019
16
SEMANA 4 – TECNOLOGÍAS DE INTERNET

- Hadoop Distributed File System (HDFS): Se encarga de dividir los datos en pequeños bloques, los
que se distribuyen a través del clúster. Para ello, se utilizan las funciones map y reduce para
ejecutar pequeños subprogramas y proveer escalabilidad para el manejo de grandes volúmenes de
datos.

IACC-2019
17
SEMANA 4 – TECNOLOGÍAS DE INTERNET

La siguiente imagen muestra un ejemplo de cómo HDFS maneja los bloques de datos:

Imagen 3. Ejemplo de HDFS

- Hadoop MapReduce: Este componente es el núcleo de Hadoop. El término MapReduce en


realidad se refiere a dos procesos separados que Hadoop ejecuta.

• Un primer proceso es map, el cual toma un conjunto de datos y lo convierte en otro conjunto,
donde los elementos individuales son separados en tuplas (pares de llave/valor).
• Un segundo proceso es reduce, que obtiene la salida de map -como datos de entrada- y
combina las tuplas en un conjunto más pequeño de las mismas.
• Entre ambos procesos existe una fase intermedia es la denominada Shuffle, la cual obtiene las
tuplas del proceso map y determina que nodo procesará estos datos dirigiendo la salida a una
tarea reduce en específico.

IACC-2019
18
SEMANA 4 – TECNOLOGÍAS DE INTERNET

La siguiente figura ejemplifica un flujo de datos en un proceso sencillo de MapReduce.

Imagen 4. Ejemplo de las etapas del MapReduce

- Hadoop Common: Hadoop Common Components son un conjunto de librerías que soportan
varios subproyectos de Hadoop. Además de estos tres componentes principales de Hadoop,
existen otros proyectos relacionados los cuales se pueden observar en el material
complementario: librerías Hadoop Common.

IACC-2019
19
SEMANA 4 – TECNOLOGÍAS DE INTERNET

COMENTARIO FINAL
Hoy en día la información es diferente y su procesamiento es especial en comparación con épocas
pasadas. Las formas de generar datos, su gestión y complejidad resultan aspectos necesarios a
considerar en casi todas las organizaciones.

El uso de Big Data ha contribuido a descubrir cosas que podrían haberse tardado años en
encontrar por sí mismos, todo gracias al uso de estas herramientas. Principalmente por el
volumen, las grandes cantidades de información y la velocidad del análisis, es posible que el
analista de datos pueda cambiar sus ideas basándose en el resultado obtenido y re-trabajar el
procedimiento una y otra vez hasta encontrar el verdadero valor al que se está tratando de llegar.

Comprender el principio del Big Data contribuye a la inteligencia de negocios y a las estrategias
que las empresas y los emprendimientos hoy en día deben evaluar de manera permanente para
mantenerse en mercados globales y dinámicos.

Sin embargo, se debe conocer que hay tecnologías que acompañan al Big Data, por lo que es
necesario abordar los conceptos de computación en la nube, data center y hadoop.

IACC-2019
20
SEMANA 4 – TECNOLOGÍAS DE INTERNET

REFERENCIAS
Power Data (2017). Big Data: ¿En qué consiste? Su importancia, desafíos y gobernabilidad.

Recuperado de: https://www.powerdata.es/big-data

SAS (2017). Analítica del Big Data. Qué es y por qué es importante. Recuperado de:

https://www.sas.com/es_cl/insights/big-data/what-is-big-data.html

IBM (2012). ¿Qué es Big Data? Recuperado de:

https://www.ibm.com/developerworks/ssa/local/im/que-es-big-data/index.html

Salesforce (s. f.). Cloud Computing - Aplicaciones en un solo tacto. Recuperado de:

https://www.salesforce.com/mx/cloud-computing/

PARA REFERENCIAR ESTE DOCUMENTO, CONSIDERE:

IACC (2019). Ciencia de Datos. Tecnologías de Internet. Semana 4.

IACC-2019
21
SEMANA 4 – TECNOLOGÍAS DE INTERNET

IACC-2019
22

También podría gustarte