Análisis de Tesis Mineria de Datos
Análisis de Tesis Mineria de Datos
Análisis de Tesis Mineria de Datos
País: México
Url: https://www.academia.edu/44745426/Aplicaci%C3%B3n_de_miner
%C3%ADa_de_datos_para_pron%C3%B3stico_de_ventas
2. RESUMEN GENERAL:
La minería de datos ha recibido mayor importancia, en los últimos años ha sido posible
notar su incorporación en sectores de negocios como telecomunicaciones, salud,
marketing, finanzas, etc.
La analítica predictiva de datos posibilita que cada tienda tenga los productos
adecuados a disposición de los clientes. Sin embargo, es más fácil decir esto que
hacerlo. Por lo tanto, esto también es uno de los retos más difíciles de alcanzar dentro
del sector retail porque la mayoría de las tiendas no disponen de algún sistema de
análisis predictivo de datos que les permita dirigir adecuadamente sus acciones día a
día.
- Detección de fraudes
Falcon Fraud Manager es un sistema inteligente con el cual se
puede examinar transacciones, propietarios de tarjetas y datos
financieros. Se empleaba inicialmente para detectar y paliar el
número acciones fraudulentas, las cuales hacían perder mucho
dinero a las entidades financieras norteamericanas.
- Migración de clientes
De acuerdo con los datos oficiales de la Comisión Nacional de
Telecomunicaciones (Conatel), de enero a septiembre de 2019, un
total de 553.981 abonados cambiaron de telefónica. En todo el
2018, ejercicio en el que se había registrado el máximo récord, se
realizaron 456.114 migraciones. En total, desde su habilitación, se
contabilizan 1.868.697 cambios de operadora
- Sector retail
Wal-Mart es una empresa pionera en la minería masiva de datos
para transformar sus relaciones con los proveedores. Walmart
captura transacciones en puntos de venta de más de 2.900 tiendas
en seis países y continuamente transmite estos datos a su enorme
depósito de 7.5 terabytes de datos.
-
3.2.7 Estructura de datos
Los datos se clasifican en dos partes; datos estructurados y no
estructurados. Cuando hablamos de datos estructurados nos referimos
a la información que se encuentran en la mayoría de las bases de datos
relacionales, estos suelen ser archivos que suelen ser almacenados en
formato de tablas, hojas de cálculo o datos relacionales con títulos o
etiquetas que permite identificarlos. Por su parte, la principal
característica de los datos no estructurados, es que no poseen una
estructura interna que los identifique llevándolos a ser un cúmulo de
información que se almacenan y organizan en una base de datos no
relacional, comúnmente estos son archivos PDF, documentos Word,
correos electrónicos, etc. En este proyecto se hace uso de datos
estructurados.
3.2.8.1 data.world
es el hogar de la comunidad de datos colaborativos más grande
del mundo, es gratuita y abierta al público. Es donde las personas
descubren datos, comparten análisis y se unen en todo, desde la
detección de bots sociales hasta el periodismo de datos
galardonado
3.2.8.2 Kaggle
es un sitio multifuncional, , ofrece no solo una variedad de
conjuntos de datos interesantes compartidos externamente, sino
también materiales para adquirir nuevos conocimientos y
practicar habilidades.
Las ventas netas más altas son en los días festivos como el
Super Bowl, Día del Trabajo, Día de Acción de gracia, Navidad,
entre otras festividades que se realizan en USA llevándolos a
tener un ingreso aproximado de 57248.43 dólares a la semana
de un departamento de la tienda. Para el resto de grupos de
datos se lleva a cabo la misma estrategia de exploración,
ubicando los picos de ventas más altos que obtuvieron durante
las fechas correspondientes y los días con festividades.
1) SELECCIÓN DE DATOS
Respecto a los cuatro datasets que han sido seleccionados del
repositorio de datos Kaggle. Si los datasets obtenidos son de
fuentes no confiables, se deben excluir o eliminar los datos
atípicos. En este caso como la fuente es confiable no se optó por
eliminar los datos.
2) INTEGRACION DE DATOS
Como los datos de datasets provienen de fuentes confiables por la
compañía, se procede a realizar la integración de datos el cual
consiste en crear identificadores de dos o más variables de los
datasets. La creación de estos identificadores se le conoce como
tipificación que consiste en el ajuste o adaptación de varias cosas
semejantes a un modelo o norma común, es decir, clasificar los
datos haciendo uso de identificadores.
3.4.4 MODELADO
En esta etapa se lleva a cabo el proceso de minería de datos de
acuerdo a los objetivos del negocio. Se diseña la estructura de minería
de datos, dentro de la estructura se encuentra el modelo de
pronóstico de ventas el cual se encarga de encontrar los patrones
utilizando los datos como entrada y proporciona como resultado un
nuevo dato.
3. Salida de datos
El archivo generado con los datos del pronóstico de ventas
está formado por dos matrices de datos que se componen
de la siguiente forma: Id se forma
3.4.5 EVALUACIÓN
El modelo implementado resulto ser adaptable al uso de múltiples
algoritmos de aprendizaje sin hacer cambios drásticos lo cual nos
permite no solo obtener los resultados de un algoritmo sino realizar
comparaciones de varios algoritmos para obtener el más eficiente con
la tasa de error más baja, la mayor ventaja de este modelo es realizar
el pronóstico mediante series de tiempo de los registros históricos de
ventas, lo cual, al no hacer ninguna agregación o desagregación que
condujera a la perdida de información esto lo hace eficiente.
3.4.6 DESPLIEGUE
1) Seguimiento
El seguimiento del proyecto consiste en dar a conocer los resultados
obtenidos, la compañía decidirá cuándo y cómo hacerlo. De igual
manera se plantean mejoras en el modelo predictivo utilizando ya sea
un nuevo lenguaje o 59 reestructurar el modelo con una visión
futurista para pertenecer en un mercado competitivo.
PRONOSTICO DE VENTAS
El proyecto de minería de datos para el pronóstico de ventas proporcionó
resultados favorables debido a que se realizaron múltiples pruebas y el uso de
4 algoritmos de aprendizaje permitiendo analizar el comportamiento de cada
uno y encontrar el mejor algoritmo.
Se realizaron 4 iteraciones durante el proceso de entrenamiento del modelo
haciendo uso de la validación cruzada K-Fold, esto con el fin de entrenar cada
algoritmo y obtener un pronóstico de ventas con menos tasa de error.
Se implementó la métrica WMAE para evaluar el puntaje que obtuvo el modelo
con el algoritmo utilizado, el algoritmo Extra Trees Regresor fue el que obtuvo
una mejor puntuación.
Los resultados de las iteraciones realizadas para el entrenamiento del modelo
mediante la validación cruzada K-Fold nos permitió encontrar el mejor
algoritmo que puede ser utilizado en el modelo.
Como resultado final se obtuvo un total de 4 datasets con formato CSV que
contiene 115,064 registros de datos de pronóstico, cuenta con dos columnas
de datos que contiene el pronóstico de ventas semanales con su respectiva
fecha. A continuación, se describen los resultados obtenidos de los algoritmos
propuestos.
De acuerdo con los resultados obtenidos de cada algoritmo, se consideró la tasa de error más
baja y el promedio para seleccionar aquél con los mejores resultados de las ventas que obtendría
la tienda Walmart. 66
En la Tabla 5.9 se muestran los datos de la tasa de error más baja que obtuvo cada algoritmo
respecto a las 5 iteraciones especificadas en el modelo y en la Figura 5.1 se observa que el
algoritmo ETR es quien tiene la menor tasa de error en comparación con los demás.
3.6.1 Conclusiones
-El análisis de datos para pronósticos de ventas nos permitió optimizar
el tiempo y margen de error humano al implementar la minería de
datos para pronosticar ventas de una tienda del sector retail
analizando datos históricos que nos fue proporcionada.