Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Balanceo Tanteo

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 32

Unidad

Unidad1:
I
Tema Tema
1.101.10Ciclo
Ciclo de de
datosdatos
Inicio
INICIO
• Hasta ahora se ha visto la manera de adquirir
información a través de la interacción en redes sociales y
cómo la información se utiliza para tomar decisiones en
temas de inversión en publicidad, pero:

• ¿Cómo se transforman los datos en información útil?


• Hay pasos intermedios que se deben seguir para pasar de
los datos a la toma de decisiones y es lo que se conoce
como ciclo de datos.
• El proceso no solo se trata de tener los datos y tomar decisiones sino que hay un camino natural que
debe seguir la información entre estos dos puntos.

• Para los datos estructurados hay muchas herramientas clásicas que se utilizan para tratar esa información
y se verán más adelante en este curso.

• Sin embargo, los datos no estructurados representan un mayor reto en todo el ciclo de procesamiento
que deben seguir.
• De manera general, al igual que los datos STOCK
estructurados, los datos no estructurados deben
ser capturados de alguna manera, luego se
depuran, se exploran, se modelan y finalmente
se interpretan sus resultados.

• No obstante, los datos no estructurados tienen un


reto adicional para ser usados.

• El procesamiento de lenguaje natural o NLP, por


sus siglas en inglés, se encarga de interpretar
datos no estructurados como los textos. Open AI
es una empresa que ha producido un modelo de
lenguaje natural el cual se entrenó de la siguiente
manera:
• Gracias a la gran capacidad de cómputo de la tecnología
actual, se puede crear un modelo de inteligencia artificial,
llamado GPT3 (Generative Pre-Trained Transformer 3).
• El modelo fue entrenado con un total 500 mil millones de
palabras.
• La idea es que después de entrenar el modelo con palabras, se
debe analizar cuál es la probabilidad de que dada una palabra
semilla o de inicio, le suceda otra.
Por ejemplo, en los cuentos de hadas hay
unos inicios y cierres clásicos. Todo lo que
la humanidad produce a nivel textual, tiene
una estructura definida y el algoritmo de
GPT3 lo que hace es calcular la
probabilidad de poner una palabra a partir
de otra dada previamente.
• Esta técnica del modelo de procesamiento de lenguaje natural
está detrás de muchas aplicaciones cotidianas.
• Se puede usar para crear chats bots con los que se interactúa en
diferentes páginas web o redes sociales.

Desafortunadamente, también esta tecnología es la que se utiliza para crear


cuentas falsas en las redes sociales como estrategia para difamar personas o
crear seguidoras o seguidores falsos de distintas estrategias.
Sugerencia
• Leer la siguiente nota para expandir el
conocimiento de datos y la importancia en
la ciencia de datos.
• Título: ¿Qué es GPT-3?: la inteligencia
artificial que se encargará de escribir por ti
• Productor: BBVA
• Link:
https://www.bbva.com/es/que-es-gpt-3-la-i
nteligencia-artificial-que-se-encargara-de-e
scribir-por-ti/
Formato ciencia de
datos en redes sociales
DESARROL
LO
Ciclo de datos
• Como se mencionó anteriormente el proceso no solo se trata de
recolectar datos y tomar decisiones sino que hay un camino natural
que debe seguir la información entre estos dos puntos.
• Es necesario que el estudiantado conozca el ciclo de datos, también
conocido como ciclo de vida de los datos o de la información. Este
consiste esencialmente de obtener datos, depurarlos, explorarlos,
modelarlos e interpretar los resultados.
• En la siguiente imagen se observa el ciclo de datos y su relación con la
ciencia de datos.
Ciclo de datos
El ciclo de datos consiste en una serie de pasos (obtener, depurar, explorar, modelar e
interpretar resultados) por las que pasan los datos a lo largo de toda su vida útil.

Los datos se separan en fases en función de diferentes criterios, y pasan por estas etapas
a medida que completan diferentes tareas o cumplen ciertos requisitos.

Abarca todo el periodo de tiempo que los datos existen en una organización, desde la
generación de los datos hasta su eliminación o reutilización a través de diferentes tipos
de repositorios.

Se considera que es un ciclo porque los conocimientos obtenidos de una etapa del
procesamiento suelen servir de base para la siguiente. De este modo, la última etapa del
proceso retroalimenta la primera.
Obtener datos
• Consiste en conseguir los datos de interés, pueden
ser preexistentes, recién adquiridos o un
repositorio descargable de Internet.
• La comunidad científica que trabaja con datos
puede extraerlos de las bases de datos internas o
externas, del software CRM de la empresa (gestión
o administración de relaciones con el cliente), de
los registros del servidor web, de las redes sociales
o adquirirlos de terceros de confianza.
• Por ejemplo, la información que se incluye en un
post de Facebook, los recursos multimedia, las
interacciones y los comentarios son datos que son
recolectados constantemente y pueden servir para
diversos propósitos como se verá más adelante.
Depuración de datos
•Consiste en la limpieza de datos, es el
proceso de normalizarlos según un
formato predeterminado. Incluye la
gestión de los datos que faltan, la
corrección de errores en estos y la
eliminación de datos atípicos.
•Algunos ejemplos de la depuración de
datos son: Cambiar todos los valores
de fecha a un formato estándar
común, corregir las faltas de
ortografía o los espacios adicionales o
corregir inexactitudes matemáticas o
eliminar comas de números grandes.
Explorar datos
• Es un análisis preliminar de los datos que se utiliza para
planificar otras estrategias para su modelado. La
comunidad científica obtiene una comprensión inicial de
los datos mediante estadísticas descriptivas y herramientas
de visualización de estos. A continuación, exploran los
datos para identificar patrones interesantes que se puedan
estudiar o utilizar.
• Por ejemplo, la diversidad y la composición de los datos
obtenidos por las redes sociales pueden ser utilizados para
diferentes fines, desde mejorar el servicio que ofrecen o la
venta de publicidad personalizada, en este punto se deben
explorar los datos para conocer con qué información se
cuenta y de qué tipo de dato se trata para seleccionar el
tipo de tratamiento de datos más adecuado.
Modelar datos
• Es el proceso de creación de una representación visual o esquema
que define los sistemas de recopilación y administración de
información de cualquier organización. Se utilizan diferentes
herramientas para tratar la información que se verán más
adelante en este curso. El software y los algoritmos de machine
learning se utilizan para obtener información más profunda,
predecir resultados y prescribir el mejor curso de acción.
• Por ejemplo, las redes sociales al recolectar grandes cantidades de
información de los usuarios pueden encontrar patrones de
comportamiento y correlaciones entre ellos, estas ayudan a
analizar los datos a través de estas herramientas para generar
publicidad personalizada para cada usuario incrementando la
probabilidad de compra de un producto con base en las
preferencias, las interacciones y las publicaciones de los usuarios.
Interpretar los resultados
• La comunidad científica trabaja junto a
los analistas y las empresas para
convertir la información de datos en
acción. Hacen diagramas, gráficos y
tablas para representar tendencias y
predicciones. La síntesis de datos ayuda
a las partes interesadas a comprender y
aplicar con eficacia los resultados.

• El objetivo del análisis de datos es generar informes que permitan resumir grandes cantidades de
información en datos más concretos para facilitar su manipulación, hacer inferencias sobre todo el
conjunto de los datos y difundir los hallazgos. Por ejemplo, sería más sencillo inferir la población más
adecuada para promocionar un producto en redes sociales al contabilizar el tipo y el número de
reacciones a una publicación o saber cuál temática es tendencia revisando el número de interacciones
realizadas utilizando un hashtag en específico y distinguir las características de la población.
La ciencia de datos
• La ciencia de datos es el estudio de
datos con el fin de extraer información
significativa a través de un enfoque
multidisciplinario que combina
principios y prácticas del campo de las
matemáticas, la estadística, la
inteligencia artificial y la ingeniería de
computación para analizar grandes
cantidades de datos. Este análisis
permite que la comunidad científica
que trabaja con datos plantee y
responda a preguntas como qué pasó,
por qué pasó, qué pasará y qué se
puede hacer con los resultados.
La ciencia de datos
• La ciencia de datos es importante porque combina herramientas,
métodos y tecnología para generar significado a partir de los
datos. Las organizaciones modernas están inundadas de datos;
hay una proliferación de dispositivos que pueden recopilar y
almacenar información de manera automática. Los sistemas en
línea y los portales de pago capturan más datos en los campos del
comercio electrónico, la medicina, las finanzas y cualquier otro
aspecto de la vida humana. Se dispone de grandes cantidades de
datos de texto, audio, video e imágenes.
La ciencia de datos se utiliza para estudiar los
datos de cuatro maneras principales:
• Análisis descriptivo: Examina los datos para obtener información sobre lo que ha ocurrido u ocurre en el entorno de datos. Se caracteriza por las
visualizaciones de datos, como los gráficos circulares, de barras o líneas, las tablas o las narraciones generadas.
• Por ejemplo, una página puede detectar picos y caídas en el número de visitas e interacciones en sus publicaciones en diversos meses del año y las
preferencias en la compra de productos.
• Análisis diagnóstico: Es un examen profundo o detallado de datos para entender por qué ha ocurrido algo. Se caracteriza por técnicas como el análisis
detallado, el descubrimiento y la minería de datos o las correlaciones. Se pueden llevar a cabo varias operaciones y transformaciones de datos en un
determinado conjunto con el fin de descubrir patrones únicos en cada una de estas técnicas.
•Siguiendo con el ejemplo, se podría hacer el análisis detallado de un mes con un rendimiento particularmente alto para entender mejor el pico de las
visitas y las ventas. Esto puede revelar que muchos usuarios prefieren cierto tipo de productos que puede relacionarse con un evento específico como
eventos deportivos o de entretenimiento que se repiten cada cierto tiempo.
• Análisis predictivo: Utiliza los datos históricos para hacer previsiones precisas sobre los patrones de datos que pueden producirse en el futuro. Se
caracteriza por técnicas como el machine learning, la previsión, la coincidencia de patrones y el modelado predictivo. En cada una de estas técnicas, se
entrena a las computadoras para aplicar ingeniería inversa a las conexiones de causalidad en los datos.
•Siguiendo con el ejemplo, se podría utilizar la ciencia de datos para predecir los patrones de venta del año siguiente al inicio de cada año. El programa o
algoritmo de la computadora pueden examinar datos anteriores y predecir picos de venta correspondientes a determinados periodos temporales. Al
anticiparse a las futuras necesidades de los clientes, se podría empezar desde meses antes a hacer publicidad específica para ese tipo de productos
• Análisis prescriptivo: Lleva los datos predictivos al siguiente nivel. No solo predice lo que es probable que ocurra, sino que sugiere una respuesta
óptima para ese resultado. Puede analizar las posibles implicaciones de las diferentes alternativas y recomendar el mejor curso de acción. Utiliza el
análisis de gráficos, la simulación, el procesamiento de eventos complejos, las redes neuronales y los motores de recomendación del machine learning.
•Siguiendo con el ejemplo, el análisis prescriptivo podría examinar las campañas de marketing históricas para maximizar la venta del próximo pico de
ventas. La comunidad científica que trabaja con datos podría proyectar los resultados de las ventas de diferentes niveles de gasto en varios canales de
marketing. Estas previsiones de datos dan una mayor confianza en sus decisiones de marketing
Beneficios de la ciencia de datos
• La ciencia de datos revoluciona el modo en que operan las
empresas. Muchas empresas, independientemente de su tamaño,
necesitan una sólida estrategia de ciencia de datos para impulsar
el crecimiento y mantener una ventaja competitiva.
Beneficios de la Ciencia de Datos
• Descubrir patrones desconocidos de transformación: Permite a las empresas descubrir nuevos patrones y relaciones con el potencial
de transformar la organización. Puede revelar cambios de bajo coste en la administración de recursos para obtener el máximo
impacto en los márgenes de beneficio.
•Por ejemplo, una empresa de comercio electrónico utiliza la ciencia de datos para descubrir que se generan demasiadas consultas de
clientes fuera del horario comercial. Las investigaciones revelan que es más probable que los clientes compren si reciben una respuesta
rápida en lugar de una respuesta al día siguiente. Al implementar un servicio de atención al cliente las 24 horas del día, los 7 días de la
semana, la empresa aumenta sus ingresos en un 30%.
• Innovar con nuevos productos y soluciones: La ciencia de datos puede revelar lagunas y problemas que de otro modo pasarían
desapercibidos. Mejor información sobre las decisiones de compra, los comentarios de los clientes y los procesos empresariales puede
impulsar la innovación en las operaciones internas y las soluciones externas.
•Por ejemplo, una solución de pago en línea utiliza la ciencia de datos para cotejar y analizar los comentarios que hacen los clientes
sobre la empresa en redes sociales. Los análisis revelan que los clientes no están satisfechos con los tiempos de entrega y que no están
satisfechos con el actual sistema de distribución. La empresa puede innovar para obtener una mejor solución y ver un aumento
significativo en la satisfacción del cliente.
• Optimización en tiempo real: Para las empresas, en especial las grandes, es un gran reto responder en tiempo real a las condiciones
cambiantes. Esto puede causar importantes pérdidas o interrupciones en la actividad empresarial. La ciencia de datos puede ayudar
a las empresas a predecir los cambios y reaccionar de forma óptima ante las distintas circunstancias.
•Siguiendo con el ejemplo, la compañía que utiliza camiones para distribuir sus productos puede implementar la ciencia de datos para
reducir el tiempo de inactividad si los camiones se descomponen. Identifican las rutas y los patrones de turnos que propician averías
más rápidas y ajustan los horarios de los camiones. Además, crean un inventario de piezas de repuesto comunes que se necesitan
sustituir con frecuencia para que los camiones se puedan reparar con mayor rapidez
Técnicas de la ciencia de datos

• Los profesionales de la ciencia de


datos utilizan sistemas de
computación para seguir el proceso de
la ciencia de datos.
Principales técnicas que utiliza la
comunidad científica que trabaja con datos
• Clasificación: Consiste en ordenar los datos en grupos o categorías específicas. Las computadoras están entrenadas para identificar y
ordenar datos. Los conjuntos de datos conocidos se utilizan para crear algoritmos de decisión en una computadora que procesa y
categoriza rápidamente los datos.
•Por ejemplo, ordenar los productos como populares o no populares, ordenar las solicitudes de seguro como de alto o bajo riesgo,
ordenar los comentarios en redes sociales como positivos, negativos o neutros.
• b. Regresión: Es el método para encontrar una relación entre dos puntos de datos que aparentemente no se relacionan. La conexión
se suele modelar en torno a una fórmula matemática y se representa en forma de gráfico o curvas. Cuando se conoce el valor de un
punto de datos, se utiliza la regresión para predecir el otro punto de datos.
•Por ejemplo, la relación entre la satisfacción del cliente y el número de empleados, el gasto en publicidad con el número de ventas y
visitas.
• c. Clústeres: Consiste en agrupar datos estrechamente relacionados para buscar patrones y anomalías. El método de clústeres se
diferencia del ordenamiento porque los datos no se pueden clasificar con precisión en categorías fijas. De ahí que los datos se agrupen
en relaciones más probables. Con los clústeres se pueden descubrir nuevos patrones y relaciones.
•Por ejemplo, agrupar clientes con un comportamiento de compra similar para mejorar el servicio, agrupar el tráfico de red para
identificar los patrones de uso diario o un ataque a la red de forma más rápida o formar un clúster al agrupar los artículos en varias
categorías de noticias diferentes y utilizar esta información para encontrar contenidos de noticias falsas.
• d. Principio básico de las técnicas de la ciencia de datos: Enseñar a una máquina a ordenar los datos a partir de un conjunto de datos
conocido.
•Por ejemplo, las palabras clave de muestra se dan al ordenador con su valor de ordenación (feliz es positivo, mientras que odio es
negativo), dar datos desconocidos a la máquina y permitir que el dispositivo ordene el conjunto de datos de forma independiente,
permitir inexactitudes en los resultados y manejar el factor de probabilidad de estos.
Tecnologías de la ciencia
de datos
• Los profesionales de la ciencia de datos trabajan con tecnologías
complejas como:

• Inteligencia artificial: Los modelos de machine learning y el software


relacionado con este se utilizan para los análisis predictivos y
prescriptivos.
• Computación en la nube: Las tecnologías en la nube ofrecen a la
comunidad científica que trabaja con datos la flexibilidad y la
capacidad de procesamiento necesarias para el análisis avanzado de
datos.
• Internet de las cosas: Se refiere a varios dispositivos que se pueden
conectar de forma automática a Internet. Estos dispositivos recogen
datos para iniciativas de la ciencia de datos. Generan datos masivos
que se pueden utilizar para la minería y extracción de datos.
• Computación cuántica: Las computadoras cuánticas pueden realizar
cálculos complejos a alta velocidad. La comunidad científica que
trabaja con datos cualificados las utiliza para crear algoritmos
cuantitativos complejos.
Sugerencia
• Visualizar vídeo para expandir el conocimiento de
datos y la importancia en la ciencia de datos.
• Título: ¿Cómo experimentamos el Ciclo de Datos?
• Duración: 3:07 min
• Productor: Latidos Expresivos
• Plataforma: YouTube
• Link:
https://www.youtube.com/watch?v=_KstjxK-Fmg
CIERRE
Capturando datos
• Recuperar la encuesta diseñada en la Actividad 1.3
Preguntas estadísticas.
• Aplicar el ciclo de datos:
• Recolección: Cada alumno o alumna aplicara 5
encuestas fuera del salón.
• Depuración: Escribir los resultados en una tabla.
El grupo debe decir como estructurar la
información.
• Exploración. Identificar con qué tipo de datos se
cuenta y qué información se puede obtener de ellos.
• Modelación. Elegir el tipo de gráfico más adecuado
para representar la información recabada.
• Interpretación. Escribir la interpretación que se
hace de la información tratada.
• Recordemos que en la Actividad 1.1 Red Social,
aprendimos que hay muchas formas de distinguir los tipos
de datos o variables
• Forma de identificar los datos:
• Estructurados. EJ: El número de me gusta en un post)
• No estructurados. Ej: Los comentarios que se hacían
sobre los posts).
Ejemplo de la organización de los datos para su análisis y la
generación de gráficos
Númer Aplicación Nombre Est Gé Me Patiempo Mater ¿Qué tan ¿Qué tan ¿Qué tan ¿Qué tanto ¿Qué tanto te ¿Qué tan importante ¿Qué tanto te ¿Qué tanto te ¿Qué tanto te ¿Qué tanto ¿Qué ¿Qué tanto te ¿Qué tanto te gusta ¿Qué tanto te ¿Qué tanto te ¿Qué tanto te ¿Qué tanto te
Ed ia fiel te consideras una tanto te consideras una consideras
o de de la de ad atu ner inter s favorit consideras importante es tú imporntante es te gusta la gustan las series es pasar tiempo con persona gustan los gustan los te gusta el gusta gusta salir a pasar tiempo con tus gustan los persona unas persona consideras una
usuario encuesta usuario ra o esan favoritos familia para ti? el dinero para ti? escuela? y peliculas? tu pareja? videojuegos? deportes? anime? pasear? amistades? animales? persona de fe?
a ? trabajadora? viajar? responsable? paciente?
Hacer Biolog
deportes ía
Ho Mata
1 Dentro de JuanPer 17 1.6 mb Muje Salir de mátic 8 8 7 8 9 7 8 10 8 7.5 5 10 9 6.5 6 9 5
grupo ez_1234 4 res fiesta
re as
Españ
Cocinar
ol
MariaG
2 Dentro de arcia_56 16 1.5 Mu Hom Salir de Biolog 8 8 8 7 8.5 9.5 5.5 8 9 7 5 5 10 9 7.5 7.5 8
grupo 4 jer bres fiesta ía
78
PedroM Ho Comp
3 Dentro de artinez_ 16 1.6 mb Muje Escuchar utació 8.5 9 8 9.5 9 5 10 8.5 5.5 6.5 6.5 5.5 10 6 10 8 6.5
grupo 2 res música
9012 re n
Dentro de AnaLop 1.5 Mu Hom Hacer Españ
4 16 9 9 7 10 9.5 5 8 7 8 6 7 8.5 8.5 7 6 7 8
grupo ez_3456 3 jer bres deportes ol
Leer
libros, Españ
CarlosG Ho
Dentro de 1.6 Muje novelas o ol
5 onzalez 16 mb cuentos 7.5 8 6.5 9 9 5 6.5 8.5 8 7 10 8 10 9 10 8 10
grupo _7890 2 re res
Salir a Estadí
caminar astica
Leer Cienci
libros, as
novelas o social
IsabelRo cuentos es
Dentro de 1.5 Mu Muje
6 driguez_ 16 Mata 9 9 9 5.5 10 9.5 7 5.5 7.5 7.5 9.5 7.5 10 5.5 8.5 7 9.5
grupo 4 jer res Salir a
1234 caminar mátic
as
Salir de Biolog
viaje ía
Mata
Hacer mátic
deportes
as
LuisSanc Ho
Dentro de 1.6 Muje Comp
7 hez_567 16 mb Salir a 9 10 6 10 10 7 9 9 8 5 8.5 8 10 9 10 8.5 9
grupo 8 4 re res caminar utació
n
Escuchar Españ
música ol
GloriaM Comp
Dentro de 1.5 Mu Hom Salir de
8 grupo endez_9 16 4 jer bres fiesta utació 8 8.5 8 10 9 7 9 8 7 5 6 9 9 5 7 6 9
012 n
No
JorgeGa Mata
9 Dentro de rcia_345 17 1.6 bin Muje Hacer mátic 7.5 7 8 9 8.5 5 8 5.5 10 6 10 10 9 6 9 10 7
grupo 6 ari res deportes
6 as
o
Francisc Ho Comp
10 Dentro de oMartin 16 1.6 mb Muje Escuchar utació 8 9.5 9 5.5 8 7 8 7 9.5 7.5 8 6 10 5 7.5 6.5 6
grupo 4 res música
ez_7890 re n

También podría gustarte