Análisis de Tesis Mineria de Datos

ANÁLISIS DE TESIS
1. DATOS GENERALES DE LA TESIS:
Tema: Minería de datos
Tipo de tesis: Tesis de grado
Institución: Tecnológico Nacional de México
Nombre: “Aplicación de minería de datos para pronóstico de ventas”
Autor: Pedro Arcos Méndez
Año: septiembre 2020
País: México
Url: https://www.academia.edu/44745426/Aplicaci%C3%B3n_de_miner
%C3%ADa_de_datos_para_pron%C3%B3stico_de_ventas
2. RESUMEN GENERAL:
En este trabajo se realizó un modelo de minería de datos para el pronóstico de ventas

de la empresa retail Walmart con el fin de pronosticar ventas haciendo uso de historial
de ventas permitiendo reducir el tiempo y margen de error humano al realizar análisis
de datos. Los datos históricos pertenecen a 45 tiendas Walmart ubicadas en diferentes
regiones de EEUU. Se implemento la metodología de minería de datos CRISP-DM en el
desarrollo del proyecto. Para el entrenamiento del modelo se utiliza la validación
cruzada K-Fold aplicando algoritmos de aprendizaje, para obtener un buen modelo se
implementa cuatro diferentes algoritmo de aprendizaje, en este caso fue; Extra Tress
Regressor, K nearesr Neighbours, MLP Regressor y Random Forest Regressor y
posteriormente se mide la eficiencia del modelo con el respectivo algoritmo aplicando
la métrica de Error Absoluto Medio Ponderado lo cual permite obtener tasa de error y
la puntuación de eficiencia del modelo. Los resultados evidencian que el algoritmo más
eficiente en el modelo implementado es Extra Trees Regressor, ya que la tasa y
promedio de error es menor en comparación con los algoritmos implementados, de
igual manera el puntaje obtenido al aplicar la métrica WMAE fue el más alto, llegando
a la conclusión que dicho algoritmo fue el óptimo en realizar el pronóstico de ventas
para la tienda Walmart. Por lo tanto se concluye que la minería de datos es ahora una
herramienta con un potencial increíble y aplicable en múltiples proyectos y
circunstancias como lo fue en este caso, utilizarlo para pronosticar ventas basados en
una serie de registros históricos.
3. ANÁLISIS POR CAPITULO:

3.1 CAPÍTULO 1: Introducción
La minería de datos ha recibido mayor importancia, en los últimos años ha sido posible
notar su incorporación en sectores de negocios como telecomunicaciones, salud,
marketing, finanzas, etc.
La analítica predictiva de datos posibilita que cada tienda tenga los productos
adecuados a disposición de los clientes. Sin embargo, es más fácil decir esto que
hacerlo. Por lo tanto, esto también es uno de los retos más difíciles de alcanzar dentro
del sector retail porque la mayoría de las tiendas no disponen de algún sistema de
análisis predictivo de datos que les permita dirigir adecuadamente sus acciones día a
día.
Algunos retailers todavía confían en sus experiencias pasadas, en pronósticos de

analistas, comentarios de los clientes e incluso conjeturas basadas en interpretaciones
subjetivas para obtener una visión general de sus procesos de inventario, por lo que
esto es un error [3]. Sin embargo, hacer uso de la minería de datos se ha demostrado
que ayuda a las empresas a elegir las mejores rutas para cumplir sus objetivos y dejar a
sus rivales de mercado fuera de la competencia, ya que se obtienen información que
solo la empresa utilizara de manera exclusiva
3.1.1 Descripción del problema
Las compañías recolectan un gran volumen de datos, ante estola

mayoría de empresas optan en utilizar herramientas inteligentes para
prnosticar sus ventas. Sin embargo, existen pequeñas y medianas
empresas que no hacen uso de estas herramientas y técnicas de
minería de datos para el pronóstico de ventas lo cual les impide entrar
en una competencia comercial frente a sus adversarios, ya que no
cuentan con información concreta para trazar sus objetivos
comerciales llevándolos incluso a fracasar en sus metas establecidas.
3.1.2 Objetivos generales
La tesis plantea como objetivo general implementar un modelo de

minería de datos para el pronóstico de ventas que cumpla con las
necesidades de las empresas para reducir el tiempo y margen de error
en el análisis de datos con fines predictivos.
3.1.3 Objetivos Particulares
Luego de definir el objetivo general, el autor plantea sus objetivos

particulares, de los cuales las más importantes y que concuerdan con
sus conclusiones son :
A) implementar una metodología de minado de datos enfocada
en proyectos de negocios.
B) Seleccionar y aplicar los algoritmos de minería de datos que

permitan manipular la información para el pronóstico de
ventas.
C) Proponer una estrategia que abarque todos los aspectos

necesarios para el minado de datos enfocados a ventas y
que ayude en la toma de decisiones en las empresas del
sector retail
3.2 CAPÍTULO 2: Marco teórico
3.2.1 Pronóstico de ventas
El pronóstico de ventas es una técnica que permite calcular las

proyecciones de ventas de una manera rápida y confiable, utilizando
como fuentes de datos las transacciones de inventarios o la
facturación de ventas realizadas. También permite estimar la demanda
hacia el futuro, basándose en información histórica generada por el
movimiento de productos del módulo de Control de Inventarios o por
las ventas del módulo de facturación.
La minería de datos es la extracción de conocimiento almacenado en

base de datos, en pronóstico de ventas ayuda encontrar los patrones y
correlaciones en el conjunto de datos para la toma de decisiones de
una empresa, ahorrando tiempo, esfuerzo y acelerando el ritmo para
la toma de decisiones informadas permitiéndoles pertenecer al
mercado competitivo.
3.2.2 Técnicas clásicas de pronóstico
- Juicio ejecutivo: se basa en la intuición de uno o más ejecutivos

experimentados con relación a productos de demanda estable. Su
inconveniente es que se basa solamente en el pasado y está
influenciado por los hechos recientes.
- Encuesta: útil para empresas que tengan pocos clientes. Se les

pregunta qué tipo y cantidades de productos se proponen comprar
durante un determinado período.
- Análisis de series de tiempo: se utilizan los datos históricos de

ventas de la empresa para descubrir tendencias de tipo estacional,
cíclico y aleatorio o errático. Es un método efectivo para productos
de demanda razonablemente estable
- Análisis de regresión: se trata de encontrar una relación entre las

ventas históricas (variable dependiente) y una o más variables
independientes, como población, ingreso per-cápita o producto
interno bruto (PIB).Es ineficaz para pronosticar las ventas de
nuevos productos de los que no se tienen históricos.
- Prueba de mercado: se pone un producto a disposición de los

compradores en uno o varios territorios de prueba. Luego se miden
las compras y la respuesta del consumidor a diferentes mezclas de
mercadeo.
3.2.3 Minería de datos
Según Han Jiawei, la minería de datos (DM) es el proceso de descubrir

conocimiento interesante de grandes cantidades de datos almacenadas
en bases de datos, data warehouses (colección de datos) u otro
repositorio de información.
Los datos se obtienen de bases de datos ya sean relacionales,

temporales, documentales, multimedia, etc., e igual la podemos
obtener de internet, en los registros e interacción por parte de los
usuarios de esta. En la minería de datos existen dos tipos de modelos:
1) predictivo, que estiman valores de variables de interés a partir de
otras variables y 2) descriptivo, que identifican los patrones que
explican los datos creando reglas de asociación de datos.
3.2.4 Métodos de minería de datos

Para llevar a cabo el proceso de minería de datos se necesitaba de una
metodología ágil que permitiera estructurar, racionalizar y enriquecer su
estudio de proceso, lo cual llevó metodologías de minería de datos,
como resultado de esta tarea se crearon las siguientes metodologías;
CRISP-DM (Cross Industry Standard Process for Data Mining), KDD
(Knowledge Discovery in Databases) y SEMMA (Sample, Explore,
Modify Model, Assess). Estas metodologías integran el proceso
estructurado al realizar un proyecto de minería de datos
3.2.4.1 Metodología CRISP-DM

se describe en términos de una metodología de proceso
jerárquico, que consiste en conjuntos de tareas descritas en seis
etapas: comprensión del negocio, comprensión de los datos,
preparación de los datos, modelado, evaluación y despliegue
- Comprensión del negocio: En esta etapa se definen cuáles son los

objetivos del negocio, tratando de evitar el gran error de dedicar el
esfuerzo de todo el proyecto a proporcionar respuestas correctas a
preguntas equivocadas.
- Comprensión de los datos: En esta etapa se trabaja con el conjunto

de datos obtenidos de los repositorios de datos con el fin de
familiarizarse al máximo con ellos, saber de dónde provienen, en
qué condiciones llegan, cuál es su estructura, qué propiedades
tienen, qué inconvenientes presentan y cómo mitigarlos o
eliminarlos.
- Preparación de los datos: En esta etapa se preparan los conjuntos

de datos que serán utilizados en el modelado, desarrollado la
documentación descriptiva de las características necesarias sobre
el conjunto de datos.
- Modelado: Un modelo se crea mediante la aplicación de un

algoritmo a un juego de datos con el objetivo de predecir una
variable objetivo o encontrar un patrón desconocido. Para crear un
modelo de minería de datos, se crea la estructura de minería de
datos subyacente e incluye las columnas de datos que sean
necesarias.
- Evaluación: En etapas anteriores se preocupa de asegurar la

fiabilidad y plausibilidad del modelo, en cambio en esta etapa se
centra en evaluar el grado de acercamiento a los objetivos de
negocio y en la búsqueda, si las hay, de razones de negocio por las
cuales el modelo es ineficiente.
𝑅𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠=𝑀𝑜𝑑𝑒𝑙𝑜𝑠+𝑑𝑒𝑠𝑐𝑢𝑏𝑟𝑖𝑚𝑖𝑒𝑛𝑡𝑜
- Despliegue: En esta etapa se organizan y ejecutan las tareas

propias del despliegue de los resultados y el mantenimiento de las
nuevas funcionalidades, una vez el análisis de resultados haya
finalizado.
3.2.5 Aplicaciones de minería de datos

La minería de datos tiene una aplicación valiosa para las empresas, su
importancia viene de la filtración y estudio de los datos internos que
pueden ayudar a las empresas a plantear sus estrategias.
- Detección de fraudes
Falcon Fraud Manager es un sistema inteligente con el cual se
puede examinar transacciones, propietarios de tarjetas y datos
financieros. Se empleaba inicialmente para detectar y paliar el
número acciones fraudulentas, las cuales hacían perder mucho
dinero a las entidades financieras norteamericanas.
- Migración de clientes
De acuerdo con los datos oficiales de la Comisión Nacional de
Telecomunicaciones (Conatel), de enero a septiembre de 2019, un
total de 553.981 abonados cambiaron de telefónica. En todo el
2018, ejercicio en el que se había registrado el máximo récord, se
realizaron 456.114 migraciones. En total, desde su habilitación, se
contabilizan 1.868.697 cambios de operadora
- Sector retail
Wal-Mart es una empresa pionera en la minería masiva de datos
para transformar sus relaciones con los proveedores. Walmart
captura transacciones en puntos de venta de más de 2.900 tiendas
en seis países y continuamente transmite estos datos a su enorme
depósito de 7.5 terabytes de datos.
3.2.6 Algoritmos de minería de datos

Un algoritmo de minería de datos es un conjunto de heurísticas y
cálculos que crea un modelo de minería de datos. Para crear un
modelo, el algoritmo analiza primero los datos proporcionados, en
busca de tipos específicos de patrones o tendencias.
A continuación, se describen algunos de los algoritmos más populares

utilizados en la minería de datos.
- Extra Tress Regressor: este algoritmo implementa un

metaestimulador que se ajusta a varios árboles de decisión
aleatorios (también conocidos como árboles extra) en varias
submuestras del conjunto de datos y utiliza el promedio para
mejorar la precisión predictiva y controlar el sobreajuste
- K Nearest Neighbours: es un algoritmo de aprendizaje

supervisado, es decir, que a partir de un juego de datos inicial su
objetivo será el de clasificar correctamente todas las instancias
nueva
- MLP Regressor: el algoritmo MLPRegressor implementa un

perceptrón multicapa (MLP) que entrena usando la propagación
hacia atrás sin función de activación en la capa de salida, que
también puede verse como el uso de la función de identidad como
función de activación.
- Random Forest Regressor: es un algoritmo meta-estimador que se

ajusta a una serie de árboles de decisión de clasificación en varias
submuestras del conjunto de datos y utiliza el promedio para
mejorar la precisión predictiva y el control de sobreajuste
-
3.2.7 Estructura de datos
Los datos se clasifican en dos partes; datos estructurados y no
estructurados. Cuando hablamos de datos estructurados nos referimos
a la información que se encuentran en la mayoría de las bases de datos
relacionales, estos suelen ser archivos que suelen ser almacenados en
formato de tablas, hojas de cálculo o datos relacionales con títulos o
etiquetas que permite identificarlos. Por su parte, la principal
característica de los datos no estructurados, es que no poseen una
estructura interna que los identifique llevándolos a ser un cúmulo de
información que se almacenan y organizan en una base de datos no
relacional, comúnmente estos son archivos PDF, documentos Word,
correos electrónicos, etc. En este proyecto se hace uso de datos
estructurados.
3.2.7.1 Estructura de datos tipo matriz

En el área de computación, la forma obvia de almacenar una
colección ordenada de datos es como una matriz. Los elementos
de la matriz generalmente se almacenan en una secuencia de
ubicaciones de memoria de la computadora, pero para
analizarlos, necesitamos una forma conveniente de escribirlos en
papel.
3.2.7.2 Estructura de datos tipo lista
Una lista puede incluir prácticamente cualquier cosa, por
ejemplo, una lista de enteros [3, 2, 4, 2, 5], una lista de compras
[manzanas, mantequilla, pan de molde, queso], o una lista de
páginas web que contienen una imagen y un enlace a la siguiente
página web.
Las listas no vacías se pueden representar mediante dos celdas,
en cada una de las cuales la primera celda contiene un puntero a
un elemento de la lista y la segunda celda contiene un puntero a
la lista vacía u otra de dos celdas. Podemos representar un
puntero a la lista vacía mediante una barra diagonal o cruzar la
celda.
3.2.7.3 Estructura de datos tipo pilas
Las pilas son, en un nivel abstracto, equivalentes a listas
enlazadas. Son la estructura de datos ideal para modelar una
estrategia primero en entrar, último en salir (FIFO) o último en
entrar, primero en salir (LIFO) en la búsqueda
3.2.7.4 Estructura de datos tipo árbol

En informática, un árbol es una estructura de datos muy general
y poderosa que se asemeja a un árbol real. Consiste en un
conjunto ordenado de nodos vinculados en un gráfico
conectado, en el que cada nodo tiene como máximo un nodo
primario y cero o más nodos secundarios con un orden
específico.
3.2.8 Repositorios de datos

Un repositorio de datos es un espacio en donde se almacenan,
organizan y difunden información digital, estas pueden contener
datasets, trabajos científicos, registros de software, etc. En la
actualidad existen múltiples repositorios de datos gratuitos y
propietarios en donde pueden extraer información
3.2.8.1 data.world
es el hogar de la comunidad de datos colaborativos más grande
del mundo, es gratuita y abierta al público. Es donde las personas
descubren datos, comparten análisis y se unen en todo, desde la
detección de bots sociales hasta el periodismo de datos
galardonado
3.2.8.2 Kaggle
es un sitio multifuncional, , ofrece no solo una variedad de
conjuntos de datos interesantes compartidos externamente, sino
también materiales para adquirir nuevos conocimientos y
practicar habilidades.
3.2.8.3 UCI Machine Learning Repositorio

es un repositorio de datos más famoso. Por lo general, es el
primer lugar para ir si está buscando conjuntos de datos
relacionados con repositorios de aprendizaje automático. Los
conjuntos de datos incluyen una amplia gama de conjuntos de
datos, desde conjuntos de datos populares como Iris y Titanic
Survival hasta contribuciones recientes como la calidad del aire y
las trayectorias GPS.
En este trabajo de tesis se utilizó el repositorio de datos Kaggle para

obtener los datasets relacionados con los datos de ventas de la
empresa Walmart. De igual manera se hace uso únicamente de
repositorios de datos que contengan conjuntos de datos de registros
de ventas de tiendas retail.
3.3 CAPITULO 3: TRABAJOS RELACIONADOS
3.3.1 Pronóstico de ventas para cadenas retail

Ankur Jain, et al. presenta el caso de uso de minería de datos para
pronosticar ventas en la demanda del cliente minorista y predicción de
ventas futuras. En particular utilizaron el algoritmo Extreme Gradient
Boosting (XGBosting3) para diseñar un modelo de predicción y estimar
las ventas probables para los puntos de comercio de una importante
cadena de farmacias retail europea.
El pronóstico de ventas potenciales se basó en la combinación de
características temporales y económicas que incluyen datos de ventas
históricas, promociones de la tienda, competidores minoristas
suspensiones escolares y estatales, ubicación y accesibilidad de la
tienda, así como la época de año.
3.3.2 Minería de datos espaciales para pronósticos de ventas retail

En este articulo Mike Krause, et al. presenta un caso de una de
minería de datos espaciales para pronóstico de ventas agregadas a la
planificación de ubicaciones de ventas retail. En particular la técnica de
minería de datos Suport Vector Regression (SVR7) se utilizó para
diseñar un modelo de regresión que permite predecir las pérdidas de
posibles sitios de salida de una gran empresa retail de alimentos
europea.
3.3.3 Predicción de ventas futuras de OnePlus utilizando los datos de

Amazon
En esta investigación, Kanak Sharma pronóstico las ventas de modelos
de teléfonos celulares OnePlus utilizando la información de reseñas de
Amazon extraída de Amazon.in. Comenzando con la extracción, la
clasificación y luego la limpieza de los datos.
Además, con Tableau13 presentaron los resultados en forma de gráficos
de líneas/barras de cada modelo y cómo los resultados finales son
diferentes en comparación con las ventas, el mes, el año y en su
conjunto. El resultado está más orientado a la predicción de ventas de
cualquier producto vendido en Amazon y revisado por los clientes en
Amazon.
3.3.4 Estudio de la técnica de minería de datos al pronóstico de ventas

Erkin Guler, et al. abordan los problemas y técnicas haciendo uso de la
minería de datos para predecir los precios de ventas de las
maquinarias agrícola. La minería de datos significa el descubrimiento
eficiente de patrones previamente desconocidos en grandes bases de
datos. Es un proceso interactivo de descubrimiento de información
que incluye adquisición de datos, preprocesamiento de datos,
exploración de datos y construcción, interpretación y evaluación de
modelos. En este estudio, el método de minería de datos se ha
aplicado a los datos de ventas de productos de maquinaria agrícola
que se obtuvieron de la empresa CANSA entre 2011-2013. Se aplicaron
técnicas de minería de datos a los datos obtenidos del algoritmo
CHAID15. Se utilizaron análisis basados en la técnica de clasificación
mientras que este método encontró la minería de datos y el modelo de
decisión sobre montos de venta y variables que afectan las ventas. De
acuerdo con los resultados del análisis; a medida que aumenta el gasto
en R&D16, aumenta la cantidad de ventas de maquinaria agrícola.
3.4 CAPITULO 4: Aplicación de minería de datos para pronóstico de ventas
En este capítulo se da a conocer de manera detallada las tareas que se

realizaron para llevar a cabo el proyecto de minería de datos enfocados al
pronóstico de ventas, en este proyecto se implementó la metodología de
minería de datos CRISP-DM.
Implementación de minería de datos para el pronóstico de ventas basados en

datos históricos:
La implementación de la minería de datos para la extracción de información

cuenta con metodologías que ayudan a realizar un proceso ágil, sin embargo,
no todas las que existen son aptas para aplicarlas en áreas comercio del sector
retail. CRISP-DM es una metodología de las más utilizadas y enfocadas en
análisis de ingresos económicos de compañías retailers, por lo que en este
proyecto se ha considerado en utilizarla.
3.4.1 COMPRESIÓN DEL NEGOCIO

Este proyecto se enfoca en la tienda de comercio retail Walmart, por
ello se realiza una breve investigación de cuáles son sus objetivos
comerciales que abarca; el contexto de negocio del sector al que
pertenece, contexto de negocio de la empresa y los objetivos del
negocio para poder deducir los objetivos de la minería de datos.
1) Contexto de negocio sector retail

Antes de abordar el tema del negocio de Walmart abordaremos el
contexto del sector al cual pertenece. El sector dentro del cual se
clasifica Walmart es el sector retail denominado comercio
minorista.
El ranking para este sector está liderada en buena parte por
empresas de supermercados, de acuerdo a informe realizado por
el consultor del sector retail Fernando Pasamón , el Top 5 de los
retailers mundiales sufre variaciones con respecto a la edición
anterior del informe: las dos primeras posiciones siguen ocupadas
por Walmart, liderando el sector y costo, mientras Amazon
arrebata la tercera posición a The Kroger y alcanza el Top 3
mundial. El porcentaje de retailers este 2020 bajó un 63%, es decir,
8 puntos porcentuales menos que el año anterior.
En conclusión, el sector de retail es un sector bastante variable,
dadas sus condiciones y entorno hace que cada vez sea más
competitivo y sean mayores los retos para poder innovar con
servicios y/o productos.
2) Contexto de negocio Walmart

Walmart es una empresa de tiendas de origen estadounidense
fundada por Sam Walton en 1962, es el retail más grande del
mundo y ofrece la mayor oferta de empleo privado en el mundo,
con más de 2 millones de empleados. Walmart tiene casi 11 000
tiendas bajo 65 marcas en 28 países y cuenta con sitios web de
comercio electrónico en 11 países .
Al igual que el sector en el que se encuentra, Walmart ha tenido
un comportamiento variable en cuanto a sus ingresos,
aumentando y
disminuyendo de un año a otro. Dentro del ranking por ingresos
realizado por Statista presenta la evolución anual de los ingresos
de Walmart a nivel mundial desde 2005 hasta 2019 (ver Figura
4.2), en miles de millones de dólares. Durante todo el periodo de
estudio, los ingresos mundiales de la empresa líder en comercio
minorista fueron aumentando paulatinamente hasta superar los
510.000 millones en 2019, mostrando un liderazgo y crecimiento
en el sector.
3.4.1.1 Objetivos comerciales
Para las empresas en general es fundamental poder realizar

pronósticos de manera interna como en el mercado competitivo
en el cual pertenece; internamente es necesario poder realizar
pronósticos de sus ventas, pronosticar costos para realizar un
buen presupuesto, predecir la capacidad a usar para producir
bienes o servicios, frecuentemente es usada para predecir la
demanda enfocando a las empresas en entender cómo alcanzar
el mercado objetivo y generar su estrategia alrededor de estos
pronósticos.
3.4.1.2 Objetivos del negocio

la empresa Walmart pretende mantener el liderazgo frente a sus
competidores en el sector retail haciendo uso de herramientas
inteligentes de análisis de datos para la toma de decisiones
comerciales, con el fin de realizar pronósticos e ventas futuras
utilizando sus datos históricos y así mantener el liderazgo dentro
del sector retail.
3.4.1.3 Objetivos de minería de datos

El objetivo de la minería de datos es generar un modelo para el
análisis de datos históricos que reduzcan el margen de error y
tiempo humano para realizar pronóstico de ventas semanales,
con el fin de facilitar la labor de análisis predictivo de datos para
la tienda Walmart, así como las empresas que tengan la
intención de implementar herramientas inteligentes para el
análisis de datos.
3.4.2 COMPRENCION DE LOS DATOS
3.4.2.1 Recopilación de datos iniciales

En esta etapa se obtienen los datos que van a ser procesados, en
la tesis se utilizo el repositorio de datos Kaggle obtuviendo los
datos del historial de ventas de la empresa Walmart para llevar a
cabo el proceso de minería de datos.
Recopilación de datasets:
Los datasets contienen datos históricos de ventas semanales de
45 tiendas con 98 departamentos distribuidos en diferentes
regiones e información adicional de semanas especiales y gasto
de combustible al transportar productos en las diferentes
tiendas de la empresa de comercio retail Walmart en USA, los
datos obtenidos comprenden los periodos entre el 05 de febrero
de 2010 al 01 de noviembre de 2012.
Lista de datasets:
- stores.csv: contiene información referente a las 45 tiendas de
Walmart distribuidas en diferentes regiones de USA, indicando la
región en la que se encuentra y el tamaño de ingresos que tiene la
tienda.
- train.csv: contiene datos históricos de las ventas de las 45 tiendas,
los registros de ventas están organizadas por el número de tienda,
departamento y fecha los cuales son para el entrenamiento de los
algoritmos de aprendizaje, los datos cubren desde el 05 de febrero
de 2010 a 01 de noviembre de 2012.
- test.csv: es idéntico al datasets train.csv, excepto que tiene
excluido las ventas semanales. Este datasets contiene registros
para predecir las ventas de la tienda en los días especiales de
vacaciones en su respectivo departamento y fecha, con el fin de
obtener datos precisos del alza en ventas especiales y de esta
manera regularizar las ventas estándar.
- features.csv: contiene datos adicionales relacionados con la
tienda, el departamento y la actividad regional para las fechas
indicadas, es decir, contiene datos del gasto de combustible de
transporte de productos, rebajas, días feriados, etc. Estos datos
son utilizados para calcular los ingresos reales, tomando en cuenta
los datos anteriores como un costo extra para abastecer las
tiendas.
3.4.2.2 Descripción y exploración de los datos
3.4.2.2.1 Descripcion de los datos
1) Descripcion del del dataset store.csv.

Las matrices de datos utilizadas dentro de este datasets son;
Store, Tipe y Size, estos datos permiten saber a qué tienda
pertenecen los registros de ventas y obtener los gastos de
combustible de transporte a las diferentes regiones que se
encuentra la tienda, utilizando los datos del datasets
features.csv para obtener un pronóstico acertado de
acuerdo al tamaño de ingresos que tiene cada tienda.
2) Descripción del dataset train.csv.

este conjunto de datos contiene los registros de las ventas
semanales de cada tienda con su respectivo departamento,
los registros están divididos en las siguientes matrices de
datos: Store contiene el número de las respectivas tiendas,
Dept contiene el número de departamento de cada tienda,
Date contiene las fechas de registros de ventas de cada
tienda y departamento, Weekly_Sales contiene el registro
de las ventas semanales de cada departamento de las
tiendas y IsHoliday contiene registros de ventas en semanas
especiales en cada departamento con su respectiva tienda.
3) Descripción del test.csv.

De igual manera que el dataset train.csv, se utilizaron todas
las variables de datos para predecir las ventas especiales de
cada departamento y tener un pronóstico adecuado entre la
venta estándar.
4) Descripción del features.csv.

Finalmente, los campos del dataset features.csv se muestran
en la Tabla 4.5, este datasets contiene registros adicionales,
los registros se dividen en matrices de datos: Store contiene
el registro de la tienda correspondiente, Date contiene las
fechas de registros de ventas de cada tienda y
departamento, Temperature contienen los registros de la
demanda de productos en las diferentes regiones en donde
se ubican las tiendas, Fuel_Price contiene los registros del
costo de combustible de transporte de productos,
MarkDown1-5 contiene los registros de las rebajas de
productos en cada tienda, Unemployment contiene los
registros de la tasa de desempleo que hubo en cada tienda y
IsHoliday contiene registros de las semanas especiales de
vacaciones en cada tienda.
3.4.2.2.2 Exploración de los datos
Para la exploración de los datos se utilizó la herramienta

Microsoft Excel. La importancia de explorar los datos mediante
gráficas en esta etapa de la metodología, nos permite detectar
datos atípicos que puedan interferir durante la ejecución de los
algoritmos de aprendizaje que alteren los resultados finales. En
nuestro caso, los datos que se obtuvieron son de fuentes
confiables por lo que no se encontraron datos con anomalías
que puedan alterar los resultados
Las ventas netas más altas son en los días festivos como el
Super Bowl, Día del Trabajo, Día de Acción de gracia, Navidad,
entre otras festividades que se realizan en USA llevándolos a
tener un ingreso aproximado de 57248.43 dólares a la semana
de un departamento de la tienda. Para el resto de grupos de
datos se lleva a cabo la misma estrategia de exploración,
ubicando los picos de ventas más altos que obtuvieron durante
las fechas correspondientes y los días con festividades.
La finalidad de visualizar datos mediante gráficas permite

analizar las ganancias y gastos de combustibles utilizado para
el transporte de productos que satisfacen las demandas en
cada región de las tiendas de Walmart y de esta manera
detectar los datos atípicos que posteriormente pueden afectar
el proceso de los algoritmos
3.4.3 PREPARACIÓN DE LOS DATOS

En esta etapa de la metodología es necesario verificar que los datasets
no tengan problemas de compatibilidad, debido a que existen
versiones de bases de datos y formatos de los datasets (por ejemplo:
SQL, CSV, JSON, etc.) que suelen ser incompatibles con el lenguaje de
programación y modelo a utilizar impidiendo el desarrollo del
proyecto.
1) SELECCIÓN DE DATOS
Respecto a los cuatro datasets que han sido seleccionados del
repositorio de datos Kaggle. Si los datasets obtenidos son de
fuentes no confiables, se deben excluir o eliminar los datos
atípicos. En este caso como la fuente es confiable no se optó por
eliminar los datos.
2) INTEGRACION DE DATOS
Como los datos de datasets provienen de fuentes confiables por la
compañía, se procede a realizar la integración de datos el cual
consiste en crear identificadores de dos o más variables de los
datasets. La creación de estos identificadores se le conoce como
tipificación que consiste en el ajuste o adaptación de varias cosas
semejantes a un modelo o norma común, es decir, clasificar los
datos haciendo uso de identificadores.
3.4.4 MODELADO
En esta etapa se lleva a cabo el proceso de minería de datos de
acuerdo a los objetivos del negocio. Se diseña la estructura de minería
de datos, dentro de la estructura se encuentra el modelo de
pronóstico de ventas el cual se encarga de encontrar los patrones
utilizando los datos como entrada y proporciona como resultado un
nuevo dato.
3.4.4.1 Selección del algoritmo.

Para llevar a cabo el proceso de minería de datos para pronóstico
de ventas, se implementó cuatro algoritmos diferentes: Extra
Trees Regressor, K Nearest Neighbours, MLP Regessor y Random
Forest Regressor, con el fin de obtener datos predictivos más
precisos al comparar cada uno de ellos. Al implementar los
cuatro algoritmos nos permite medir el rendimiento, efectividad
y la adaptación del modelo con cada uno de ellos con el fin de
que el modelo no esté limitado únicamente a ser implementado
con un solo algoritmo.
3.4.4.2 Diseño de la estructura de minería de datos
La estructura parte desde la introducción de los datasets que
fueron analizados y verificados con la compatibilidad del modelo
y el lenguaje de programación a utilizar, posteriormente el
programa hace una exploración de los datos, con el fin de
seleccionar las matrices de datos que serán utilizados por el
algoritmo de aprendizaje.
Luego de haber seleccionado las matrices de datos se define el
algoritmo que realizara el análisis de datos y posteriormente leer
los datos de entrada para iniciar con el proceso de
entrenamiento mediante iteraciones y de esta manera obtener
un pronóstico con menos tasa de error.
Al finalizar el entrenamiento, se calcula el promedio de la tasa de
error de las iteraciones realizadas y así generar el archivo del
pronóstico de la iteración con menor tasa de error en un
datasets con formato CSV recomendada por la compañía
Walmart, este datasets almacena el pronóstico de ventas
semanal de las 45 tiendas en sus respectivos departamentos y
fechas.
3.4.4.3 Implementación del modelo de pronóstico de ventas

Una vez propuesto el diseño de la estructura de minería de datos
(Figura 4.8), se procede a implementarlo, por lo que se utiliza el
lenguaje de programación Python, haciendo uso del entorno del
software Anaconda Navigator, utilizando como el intérprete de
programación Jupyter Notebook creado para desarrollar
software de código abierto en distintos lenguajes de
programación.
Proceso que se lleva a cabo en la implementación del modelo:

1) Introducir datasets
La estructura de minería de datos parte de la introducción de
los datos de entrada, sin embargo, antes de ello se define el
algoritmo a utilizar durante la implementación del modelo.
2) Exploración de los datos de entrada

Al explorar los datos el programa genera gráficas de
dispersión de las ventas semanales de la matriz de datos
weeklySales respecto a las matrices de datos Fuel_Price, Size,
CPI, Type, isHoliday, Unemployment, Temperature, Store y
Dept que anteriormente fueron integradas para mostrar
cuánto afecta una variable a otra.
3) Análisis de datos para pronóstico de ventas

la ejecución del modelo da inicio con el algoritmo predictivo,
es decir, se ejecuta el algoritmo seleccionado aceptando los
datos de entrada de las matrices con mayor correlación y así
iniciar con el proceso de análisis y entrenamiento del
modelo.
Para iniciar con el entrenamiento del modelo se utiliza la
validación cruzada K-Fold siendo un método estadístico de
análisis ya que funciona mediante iteraciones al momento de
entrenar el modelo. La validación cruzada K-Fold se aplica de
la siguiente manera:
1. Se dividen aleatoriamente los conjuntos de datos de

entrenamiento en K subconjunto sin reemplazo donde se usa
𝐾−1 para el entrenamiento del modelo y la prueba.
2. Una vez encontrado los valores de hiperparámetros

satisfactorios, se vuelve a entrenar el modelo en el conjunto
de entrenamiento completo y obtener una estimación de
rendimiento final utilizando el conjunto de pruebas.
3. Salida de datos
El archivo generado con los datos del pronóstico de ventas
está formado por dos matrices de datos que se componen
de la siguiente forma: Id se forma
3.4.5 EVALUACIÓN
El modelo implementado resulto ser adaptable al uso de múltiples
algoritmos de aprendizaje sin hacer cambios drásticos lo cual nos
permite no solo obtener los resultados de un algoritmo sino realizar
comparaciones de varios algoritmos para obtener el más eficiente con
la tasa de error más baja, la mayor ventaja de este modelo es realizar
el pronóstico mediante series de tiempo de los registros históricos de
ventas, lo cual, al no hacer ninguna agregación o desagregación que
condujera a la perdida de información esto lo hace eficiente.
1) Evaluación del modelo de minería de datos

Para la evaluación del modelo se utilizó la métrica WMAE que
permite medir la eficiencia en la ejecución del modelo y el
algoritmo implementado y así obtener el mejor puntaje de los 4
algoritmos implementados. La implementada es la siguiente:
Como resultado de la evaluación del modelo basado en la métrica
mencionada anteriormente uno de los algoritmos implementado
(Extra Trees Regressor) en el modelo obtuvo una puntuación de
3473.11419, lo que significa que el modelo implementado con este
algoritmo fue exitoso, de igual manera el pronóstico tiene la tasa
de error más baja.
Los resultados del proyecto obtenidos con la implementación del
modelo de minería de datos cumplen con los objetivos
empresariales planteados durante la planeación interpretando los
resultados en términos técnicos realizando:
• Comparaciones de los resultados de los algoritmos
• Comparaciones de los resultados correspondientes al objetivo
• Determinar posibles objetivos de negocio que se puede abordar
más adelante
• Recomendaciones para trabajos futuros
3.4.6 DESPLIEGUE
1) Seguimiento
El seguimiento del proyecto consiste en dar a conocer los resultados
obtenidos, la compañía decidirá cuándo y cómo hacerlo. De igual
manera se plantean mejoras en el modelo predictivo utilizando ya sea
un nuevo lenguaje o 59 reestructurar el modelo con una visión
futurista para pertenecer en un mercado competitivo.
2) Revisión del proyecto

El resultado del proyecto cumple con los puntos correspondientes al
problema planteado. Se analizaron los procesos que se llevaron a cabo
como el funcionamiento, errores cometidos, lecciones aprendidas,
entre otras.
Si en un fututo se pretende realizar mejoras se puede, incluso aportar
nuevas estrategias para pronosticar ventas e incluso automatizarlas
usando datos en tiempo real.
3.5 CAPITULO 5: Resultados

En este capítulo se dan a conocer los resultados obtenidos al implementar la
metodología CRISP-DM y llevar a cabo el proceso de la minería de datos
implementando cuatro algoritmos de aprendizaje con el fin obtener un modelo
eficiente de análisis de datos para el pronóstico de ventas.
PRONOSTICO DE VENTAS
El proyecto de minería de datos para el pronóstico de ventas proporcionó
resultados favorables debido a que se realizaron múltiples pruebas y el uso de
4 algoritmos de aprendizaje permitiendo analizar el comportamiento de cada
uno y encontrar el mejor algoritmo.
Se realizaron 4 iteraciones durante el proceso de entrenamiento del modelo
haciendo uso de la validación cruzada K-Fold, esto con el fin de entrenar cada
algoritmo y obtener un pronóstico de ventas con menos tasa de error.
Se implementó la métrica WMAE para evaluar el puntaje que obtuvo el modelo
con el algoritmo utilizado, el algoritmo Extra Trees Regresor fue el que obtuvo
una mejor puntuación.
Los resultados de las iteraciones realizadas para el entrenamiento del modelo
mediante la validación cruzada K-Fold nos permitió encontrar el mejor
algoritmo que puede ser utilizado en el modelo.
Como resultado final se obtuvo un total de 4 datasets con formato CSV que
contiene 115,064 registros de datos de pronóstico, cuenta con dos columnas
de datos que contiene el pronóstico de ventas semanales con su respectiva
fecha. A continuación, se describen los resultados obtenidos de los algoritmos
propuestos.
3.5.1 Algoritmo Extra Trees Regressor

La implementación del algoritmo Extra Trees Regressor (ETR) en el
modelo de minería de datos obtuvo una puntuación de 3473.11419 al
aplicar la métrica WMAE siendo esta una de las mejores puntuaciones
con respecto a los otros tres algoritmos propuestos.
El pronóstico de ventas obtenidos de la tienda Walmart se muestra en
la Tabla , visualizando solo las 5 primeras y últimas líneas, ya que el
archivo contiene un total de 115063 pronósticos de las 45 tiendas con
sus respectivos departamentos que abarca el periodo del 02 de
noviembre de 2012 al 26 de julio de 2013.
la tasa de errores obtenidos durante la ejecución del modelo,

destacando que la menor tasa de error de este algoritmo se encuentra
en la iteración 5, con una tasa de error de 1810.442572075646
respecto al dólar.
3.5.2 Algoritmo K Nearest Neighbours

Al implementar el algoritmo K Nearest Neighbours (KNN) en el modelo
de minería de datos y aplicar la métrica WMAE obtuvo una puntuación
de 3472.01058 siendo esta la segunda mejor puntuación.
Como resultado se obtuvo un archivo con un total de 115063
pronósticos de las 45 tiendas con sus respectivos departamentos que
abarca el periodo del 02 de noviembre de 2012 al 26 de julio de 2013
la tasa de errores obtenidos durante la ejecución del modelo,

destacando que en l iteración 3 se encuentra la menor tasa de error de
este algoritmo, con una tasa de error de 8020.284378148511 respecto
al dólar.
3.5.3 Algoritmo MLP Regressor

El algoritmo MPL Regressor (MPLR) aplicado en el modelo de minería
de datos consiguió una puntuación de 3406.24879 al aplicar la métrica
WMAE llevándolo al tercer lugar.
Los resultados obtenidos durante el pronóstico de ventas genero un
archivo que contiene un total de 115063 pronósticos de las 45 tiendas
con sus respectivos departamentos que abarca del 02 de noviembre de
2012 a 26 de julio de 2013.
se muestran la tasa de errores obtenidos durante la ejecución del
modelo destacando que la menor tasa de error de este algoritmo se
encuentra en la iteración 29 con una tasa de error de
13390.224160495654 respecto al dólar.
3.5.4 Algoritmo Random Forest Regressor

Al implementar el algoritmo Random Forest Regressor (RFR) en el
modelo de minería de datos y aplicar la métrica WMAE se obtuvo una
puntuación de 3337.99000 siendo esta la última la puntuación más
baja.
Como resultado del pronóstico de ventas se obtuvo un archivo que
contiene un total de 115063 pronósticos de las 45 tiendas con sus
respectivos departamentos que abarca del 02 de noviembre de 2012 a
26 de julio de 2013
se muestran la tasa de errores obtenidos durante la ejecución del
modelo destacando que la menor tasa de error de este algoritmo se
encuentra en la iteración 1 con una tasa de error de
2859.5534554908654 respecto al dólar.
Comparación de resultados de algoritmos
De acuerdo con los resultados obtenidos de cada algoritmo, se consideró la tasa de error más
baja y el promedio para seleccionar aquél con los mejores resultados de las ventas que obtendría
la tienda Walmart. 66
En la Tabla 5.9 se muestran los datos de la tasa de error más baja que obtuvo cada algoritmo
respecto a las 5 iteraciones especificadas en el modelo y en la Figura 5.1 se observa que el
algoritmo ETR es quien tiene la menor tasa de error en comparación con los demás.
3.6 CAPITULO 6: CONCLUSIONES Y TRABAJOS FUTUROS
3.6.1 Conclusiones
-El análisis de datos para pronósticos de ventas nos permitió optimizar
el tiempo y margen de error humano al implementar la minería de
datos para pronosticar ventas de una tienda del sector retail
analizando datos históricos que nos fue proporcionada.
-Aunque el pronóstico obtenido no es actualizado, el modelo

implementado puede ser de gran utilidad para la tienda Walmart, de
igual manera puede ser útil para que las empresas que aún no aplican
análisis de datos predictivos lo cual sería de gran ayuda para ser parte
de un mercado competitivo, actualmente la empresa de comercio que
no se adapte a utilizar herramientas corren el riesgo de salir fuera de la
competencia de mercado.
Como sugerencia, tomando en cuenta que el aumento de recursos

humanos y la inversión en marketing repercuten en el incremento de
las ventas, estos gastos deberían tomarse en cuenta al momento de
realizar pronósticos de ventas. De igual manera, la reducción de
inversiones también puede tener impacto.
3.6.2 Trabajos futuros:

• Implementar minería de datos para descubrir la tendencia de
productos para campañas de marketing digital
• Desarrollar un modelo de minería y aprendizaje automático para la
recomendación de productos basados en los datos de interacción del
cliente

Análisis de Tesis Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Análisis de Tesis Mineria de Datos

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis de Tesis Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS DE TESIS

1. DATOS GENERALES DE LA TESIS:

Tema: Minería de datos

Tipo de tesis: Tesis de grado

Institución: Tecnológico Nacional de México

Nombre: “Aplicación de minería de datos para pronóstico de ventas”

Autor: Pedro Arcos Méndez

Año: septiembre 2020

En este trabajo se realizó un modelo de minería de datos para el pronóstico de ventas

3. ANÁLISIS POR CAPITULO:

Algunos retailers todavía confían en sus experiencias pasadas, en pronósticos de

3.1.1 Descripción del problema

Las compañías recolectan un gran volumen de datos, ante estola

3.1.2 Objetivos generales

La tesis plantea como objetivo general implementar un modelo de

3.1.3 Objetivos Particulares

Luego de definir el objetivo general, el autor plantea sus objetivos

B) Seleccionar y aplicar los algoritmos de minería de datos que

C) Proponer una estrategia que abarque todos los aspectos

3.2 CAPÍTULO 2: Marco teórico

3.2.1 Pronóstico de ventas

El pronóstico de ventas es una técnica que permite calcular las

La minería de datos es la extracción de conocimiento almacenado en

3.2.2 Técnicas clásicas de pronóstico

- Juicio ejecutivo: se basa en la intuición de uno o más ejecutivos

- Encuesta: útil para empresas que tengan pocos clientes. Se les

- Análisis de series de tiempo: se utilizan los datos históricos de

- Análisis de regresión: se trata de encontrar una relación entre las

- Prueba de mercado: se pone un producto a disposición de los

3.2.3 Minería de datos

Según Han Jiawei, la minería de datos (DM) es el proceso de descubrir

Los datos se obtienen de bases de datos ya sean relacionales,

3.2.4 Métodos de minería de datos

3.2.4.1 Metodología CRISP-DM

- Comprensión del negocio: En esta etapa se definen cuáles son los

- Comprensión de los datos: En esta etapa se trabaja con el conjunto

- Preparación de los datos: En esta etapa se preparan los conjuntos

- Modelado: Un modelo se crea mediante la aplicación de un

- Evaluación: En etapas anteriores se preocupa de asegurar la

- Despliegue: En esta etapa se organizan y ejecutan las tareas

3.2.5 Aplicaciones de minería de datos

3.2.6 Algoritmos de minería de datos

A continuación, se describen algunos de los algoritmos más populares

- Extra Tress Regressor: este algoritmo implementa un

- K Nearest Neighbours: es un algoritmo de aprendizaje

- MLP Regressor: el algoritmo MLPRegressor implementa un

- Random Forest Regressor: es un algoritmo meta-estimador que se

3.2.7.1 Estructura de datos tipo matriz

3.2.7.4 Estructura de datos tipo árbol

3.2.8 Repositorios de datos

3.2.8.3 UCI Machine Learning Repositorio

En este trabajo de tesis se utilizó el repositorio de datos Kaggle para

3.3 CAPITULO 3: TRABAJOS RELACIONADOS

3.3.1 Pronóstico de ventas para cadenas retail

3.3.2 Minería de datos espaciales para pronósticos de ventas retail

3.3.3 Predicción de ventas futuras de OnePlus utilizando los datos de

3.3.4 Estudio de la técnica de minería de datos al pronóstico de ventas

3.4 CAPITULO 4: Aplicación de minería de datos para pronóstico de ventas

En este capítulo se da a conocer de manera detallada las tareas que se