Balanceo Tanteo
Balanceo Tanteo
Balanceo Tanteo
Unidad1:
I
Tema Tema
1.101.10Ciclo
Ciclo de de
datosdatos
Inicio
INICIO
• Hasta ahora se ha visto la manera de adquirir
información a través de la interacción en redes sociales y
cómo la información se utiliza para tomar decisiones en
temas de inversión en publicidad, pero:
• Para los datos estructurados hay muchas herramientas clásicas que se utilizan para tratar esa información
y se verán más adelante en este curso.
• Sin embargo, los datos no estructurados representan un mayor reto en todo el ciclo de procesamiento
que deben seguir.
• De manera general, al igual que los datos STOCK
estructurados, los datos no estructurados deben
ser capturados de alguna manera, luego se
depuran, se exploran, se modelan y finalmente
se interpretan sus resultados.
Los datos se separan en fases en función de diferentes criterios, y pasan por estas etapas
a medida que completan diferentes tareas o cumplen ciertos requisitos.
Abarca todo el periodo de tiempo que los datos existen en una organización, desde la
generación de los datos hasta su eliminación o reutilización a través de diferentes tipos
de repositorios.
Se considera que es un ciclo porque los conocimientos obtenidos de una etapa del
procesamiento suelen servir de base para la siguiente. De este modo, la última etapa del
proceso retroalimenta la primera.
Obtener datos
• Consiste en conseguir los datos de interés, pueden
ser preexistentes, recién adquiridos o un
repositorio descargable de Internet.
• La comunidad científica que trabaja con datos
puede extraerlos de las bases de datos internas o
externas, del software CRM de la empresa (gestión
o administración de relaciones con el cliente), de
los registros del servidor web, de las redes sociales
o adquirirlos de terceros de confianza.
• Por ejemplo, la información que se incluye en un
post de Facebook, los recursos multimedia, las
interacciones y los comentarios son datos que son
recolectados constantemente y pueden servir para
diversos propósitos como se verá más adelante.
Depuración de datos
•Consiste en la limpieza de datos, es el
proceso de normalizarlos según un
formato predeterminado. Incluye la
gestión de los datos que faltan, la
corrección de errores en estos y la
eliminación de datos atípicos.
•Algunos ejemplos de la depuración de
datos son: Cambiar todos los valores
de fecha a un formato estándar
común, corregir las faltas de
ortografía o los espacios adicionales o
corregir inexactitudes matemáticas o
eliminar comas de números grandes.
Explorar datos
• Es un análisis preliminar de los datos que se utiliza para
planificar otras estrategias para su modelado. La
comunidad científica obtiene una comprensión inicial de
los datos mediante estadísticas descriptivas y herramientas
de visualización de estos. A continuación, exploran los
datos para identificar patrones interesantes que se puedan
estudiar o utilizar.
• Por ejemplo, la diversidad y la composición de los datos
obtenidos por las redes sociales pueden ser utilizados para
diferentes fines, desde mejorar el servicio que ofrecen o la
venta de publicidad personalizada, en este punto se deben
explorar los datos para conocer con qué información se
cuenta y de qué tipo de dato se trata para seleccionar el
tipo de tratamiento de datos más adecuado.
Modelar datos
• Es el proceso de creación de una representación visual o esquema
que define los sistemas de recopilación y administración de
información de cualquier organización. Se utilizan diferentes
herramientas para tratar la información que se verán más
adelante en este curso. El software y los algoritmos de machine
learning se utilizan para obtener información más profunda,
predecir resultados y prescribir el mejor curso de acción.
• Por ejemplo, las redes sociales al recolectar grandes cantidades de
información de los usuarios pueden encontrar patrones de
comportamiento y correlaciones entre ellos, estas ayudan a
analizar los datos a través de estas herramientas para generar
publicidad personalizada para cada usuario incrementando la
probabilidad de compra de un producto con base en las
preferencias, las interacciones y las publicaciones de los usuarios.
Interpretar los resultados
• La comunidad científica trabaja junto a
los analistas y las empresas para
convertir la información de datos en
acción. Hacen diagramas, gráficos y
tablas para representar tendencias y
predicciones. La síntesis de datos ayuda
a las partes interesadas a comprender y
aplicar con eficacia los resultados.
• El objetivo del análisis de datos es generar informes que permitan resumir grandes cantidades de
información en datos más concretos para facilitar su manipulación, hacer inferencias sobre todo el
conjunto de los datos y difundir los hallazgos. Por ejemplo, sería más sencillo inferir la población más
adecuada para promocionar un producto en redes sociales al contabilizar el tipo y el número de
reacciones a una publicación o saber cuál temática es tendencia revisando el número de interacciones
realizadas utilizando un hashtag en específico y distinguir las características de la población.
La ciencia de datos
• La ciencia de datos es el estudio de
datos con el fin de extraer información
significativa a través de un enfoque
multidisciplinario que combina
principios y prácticas del campo de las
matemáticas, la estadística, la
inteligencia artificial y la ingeniería de
computación para analizar grandes
cantidades de datos. Este análisis
permite que la comunidad científica
que trabaja con datos plantee y
responda a preguntas como qué pasó,
por qué pasó, qué pasará y qué se
puede hacer con los resultados.
La ciencia de datos
• La ciencia de datos es importante porque combina herramientas,
métodos y tecnología para generar significado a partir de los
datos. Las organizaciones modernas están inundadas de datos;
hay una proliferación de dispositivos que pueden recopilar y
almacenar información de manera automática. Los sistemas en
línea y los portales de pago capturan más datos en los campos del
comercio electrónico, la medicina, las finanzas y cualquier otro
aspecto de la vida humana. Se dispone de grandes cantidades de
datos de texto, audio, video e imágenes.
La ciencia de datos se utiliza para estudiar los
datos de cuatro maneras principales:
• Análisis descriptivo: Examina los datos para obtener información sobre lo que ha ocurrido u ocurre en el entorno de datos. Se caracteriza por las
visualizaciones de datos, como los gráficos circulares, de barras o líneas, las tablas o las narraciones generadas.
• Por ejemplo, una página puede detectar picos y caídas en el número de visitas e interacciones en sus publicaciones en diversos meses del año y las
preferencias en la compra de productos.
• Análisis diagnóstico: Es un examen profundo o detallado de datos para entender por qué ha ocurrido algo. Se caracteriza por técnicas como el análisis
detallado, el descubrimiento y la minería de datos o las correlaciones. Se pueden llevar a cabo varias operaciones y transformaciones de datos en un
determinado conjunto con el fin de descubrir patrones únicos en cada una de estas técnicas.
•Siguiendo con el ejemplo, se podría hacer el análisis detallado de un mes con un rendimiento particularmente alto para entender mejor el pico de las
visitas y las ventas. Esto puede revelar que muchos usuarios prefieren cierto tipo de productos que puede relacionarse con un evento específico como
eventos deportivos o de entretenimiento que se repiten cada cierto tiempo.
• Análisis predictivo: Utiliza los datos históricos para hacer previsiones precisas sobre los patrones de datos que pueden producirse en el futuro. Se
caracteriza por técnicas como el machine learning, la previsión, la coincidencia de patrones y el modelado predictivo. En cada una de estas técnicas, se
entrena a las computadoras para aplicar ingeniería inversa a las conexiones de causalidad en los datos.
•Siguiendo con el ejemplo, se podría utilizar la ciencia de datos para predecir los patrones de venta del año siguiente al inicio de cada año. El programa o
algoritmo de la computadora pueden examinar datos anteriores y predecir picos de venta correspondientes a determinados periodos temporales. Al
anticiparse a las futuras necesidades de los clientes, se podría empezar desde meses antes a hacer publicidad específica para ese tipo de productos
• Análisis prescriptivo: Lleva los datos predictivos al siguiente nivel. No solo predice lo que es probable que ocurra, sino que sugiere una respuesta
óptima para ese resultado. Puede analizar las posibles implicaciones de las diferentes alternativas y recomendar el mejor curso de acción. Utiliza el
análisis de gráficos, la simulación, el procesamiento de eventos complejos, las redes neuronales y los motores de recomendación del machine learning.
•Siguiendo con el ejemplo, el análisis prescriptivo podría examinar las campañas de marketing históricas para maximizar la venta del próximo pico de
ventas. La comunidad científica que trabaja con datos podría proyectar los resultados de las ventas de diferentes niveles de gasto en varios canales de
marketing. Estas previsiones de datos dan una mayor confianza en sus decisiones de marketing
Beneficios de la ciencia de datos
• La ciencia de datos revoluciona el modo en que operan las
empresas. Muchas empresas, independientemente de su tamaño,
necesitan una sólida estrategia de ciencia de datos para impulsar
el crecimiento y mantener una ventaja competitiva.
Beneficios de la Ciencia de Datos
• Descubrir patrones desconocidos de transformación: Permite a las empresas descubrir nuevos patrones y relaciones con el potencial
de transformar la organización. Puede revelar cambios de bajo coste en la administración de recursos para obtener el máximo
impacto en los márgenes de beneficio.
•Por ejemplo, una empresa de comercio electrónico utiliza la ciencia de datos para descubrir que se generan demasiadas consultas de
clientes fuera del horario comercial. Las investigaciones revelan que es más probable que los clientes compren si reciben una respuesta
rápida en lugar de una respuesta al día siguiente. Al implementar un servicio de atención al cliente las 24 horas del día, los 7 días de la
semana, la empresa aumenta sus ingresos en un 30%.
• Innovar con nuevos productos y soluciones: La ciencia de datos puede revelar lagunas y problemas que de otro modo pasarían
desapercibidos. Mejor información sobre las decisiones de compra, los comentarios de los clientes y los procesos empresariales puede
impulsar la innovación en las operaciones internas y las soluciones externas.
•Por ejemplo, una solución de pago en línea utiliza la ciencia de datos para cotejar y analizar los comentarios que hacen los clientes
sobre la empresa en redes sociales. Los análisis revelan que los clientes no están satisfechos con los tiempos de entrega y que no están
satisfechos con el actual sistema de distribución. La empresa puede innovar para obtener una mejor solución y ver un aumento
significativo en la satisfacción del cliente.
• Optimización en tiempo real: Para las empresas, en especial las grandes, es un gran reto responder en tiempo real a las condiciones
cambiantes. Esto puede causar importantes pérdidas o interrupciones en la actividad empresarial. La ciencia de datos puede ayudar
a las empresas a predecir los cambios y reaccionar de forma óptima ante las distintas circunstancias.
•Siguiendo con el ejemplo, la compañía que utiliza camiones para distribuir sus productos puede implementar la ciencia de datos para
reducir el tiempo de inactividad si los camiones se descomponen. Identifican las rutas y los patrones de turnos que propician averías
más rápidas y ajustan los horarios de los camiones. Además, crean un inventario de piezas de repuesto comunes que se necesitan
sustituir con frecuencia para que los camiones se puedan reparar con mayor rapidez
Técnicas de la ciencia de datos