Mineria de Datos - Entrega 2
Mineria de Datos - Entrega 2
Mineria de Datos - Entrega 2
AUTORES:
ASESOR:
HUGO ORTIZ
NEGOCIOS
De acuerdo con los objetivos de minería de datos planteados en la entrega 1, se procede a utilizar el
algoritmo de clasificación, y las siguientes técnicas predictivas: Árbol de decisión (J48, Randomtree,
DecesionStump) y redes neuronales. Se escogen estás técnicas ya que la naturaleza de los objetivos
planteados, se ajustan a estas de manera que se pueda alcanzar una alta bondad de ajuste. A continuación,
• Determinar el modelo que mejor pronostique el índice de riesgo de los agentes químicos
en un futuro.
• Determinar los cargos a los cuales se les debería pagar una pensión especial basados en el
En primera instancia se toma una parte aleatoria de los datos, aproximadamente el 10 % (50
datos) del total de la base de datos. Estos datos se cargan en el software WEKA, como se muestra a
continuación:
Imagen 1.
Se ejecutiva el algoritmo clasificatorio j48 de tipo árbol de decisión con los siguientes resultados:
Imagen 2.
A pesar de que la muestra solo representa el 10% del total de los datos, se observa que la bondad de ajuste
para esta corrida es alto y cercano a uno como se observa en la columna enmarcada en rojo.
También se observa que la suma de la diagonal principal de la matriz de confusión (De arriba
abajo de izquierda a derecha) es mayor a la diagonal secundaria (De abajo a arriba de derecha a izquierda)
lo que representa una buena bondad de ajuste. Se realiza una prueba con el modelo DecisionStump, en el
cual se observa que la bondad de ajuste es muy baja, en donde la mayoría de los valores están cercanos al
Imagen 3.
También se observa que la suma de la diagonal principal de la matriz de confusión (De arriba abajo de
izquierda a derecha) es mayor por muy poco a la diagonal secundaria (De abajo a arriba de derecha a
Por ultimo se realiza una prueba de clasificación con el algoritmo RandomTree, con los siguientes
resultados:
Imagen 4.
estudiados, ya que el valor ROC área es igual 1. Por lo tanto, es la mejor técnica para evaluar este grupo
de datos. Se observa que la suma de la diagonal principal de la matriz de confusión (De arriba abajo de
izquierda a derecha) es mayor a la diagonal secundaria (De abajo a arriba de derecha a izquierda) lo que
En primera instancia se realiza el cargue de la totalidad de los registros de la base de datos que se dispone
Imagen 5.
En esta pantalla podemos observar el tipo de los datos, la cantidad de registros por cada una de las
variables, valores mínimos y máximos, media y desviación estándar de los datos de tipo numérico.
Luego del cargue de los datos, se ejecutan las diferentes técnicas de modelado y así realizar el análisis
correspondiente.
• Árbol de decisión de tipo j48
selecciona como variable pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes
resultados.
Imagen 6.
De acuerdo con los resultados arrojados por la herramienta Weka, se identifica que se clasifican
correctamente el 100% de las instancias del grupo de datos. Lo que nos indica que el algoritmo j48, es
adecuado para realizar el análisis de los resultados. Se observa que los valores de la columna ROC Area,
son iguales a 1, lo que indica una perfecta bondad de ajuste de los datos. En cuanto a la matriz de
confusión se puede observar que solo la diagonal principal tiene valores diferentes de cero, lo que
En la representación gráfica del árbol de decisión, se observa que la herramienta empieza a dividir
la decisión de acuerdo con el porcentaje de riesgo, si este valor es menor o igual a 9,65, la exposición se
considera como NO peligrosa, y se registran 105 eventos en los que no hay peligro en la exposición. Por
otro lado, si el índice de riesgo es mayor a 9,65, el sistema clasifica la decisión de acuerdo al
contaminante de exposición, en donde, se considera que, si una persona expuesta a Benceno tiene un
índice de riesgo mayor a 9,65, se considera peligro y se tienen 341 registros. Para el Formaldehido, no se
consideran como peligros 25 registros, para el arsénico 4 registros como no peligrosos y finalmente para
Se realiza nuevamente el experimento con el algoritmo j48, pero esta vez utilizando la opción “Use
training set”, en donde se observa que la herramienta arroja los mismos datos que el experimento anterior.
Imagen 7.
selecciona como variable pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes
resultados.
Imagen 8.
Como en los experimentos realizados anteriormente con el algoritmo J48, los resultados arrojados
por la herramienta, se identifica que se clasifican correctamente el 100% de las instancias del grupo de
datos. Lo que nos indica que el algoritmo RandomTree, también es adecuado para realizar el análisis de
los resultados. Se observa que los valores de la columna ROC Area, son iguales a 1, lo que indica una
perfecta bondad de ajuste de los datos. En lo referente a la matriz de confusión se puede observar que solo
la diagonal principal tiene valores diferentes de cero, lo que reafirma que el algoritmo también es
puede observar:
En este árbol de decisión el sistema inicia dividiendo la decisión a partir del riego, en donde se presentan
- Se presentan 113 eventos para el riesgo muy alto cuando el contaminante SI es peligroso.
Se realiza nuevamente el experimento con el algoritmo Random Tree, pero esta vez utilizando la opción
“Use training set”, en donde se observa que la herramienta arroja los mismos datos que el experimento
Para este experimento se selecciona la opción “Use traning set” Se selecciona como variable
Imagen 10.
presentaron instancias clasificadas incorrectamente. Este valor represento el 5,1786 % (29 datos) del total
de los datos. En este caso, las instancias clasificadas correctamente representan el 94,8214 % del total de
los casos.
Se observa que los valores de la columna ROC área, en este experimento presentan valores de 0,892;
valor que se encuentra cercano 1, lo que indica una buena bondad de ajuste. Sin embargo y en
comparación con los dos algoritmos corridos anteriormente. Respecto a la matriz de confusión se puede
observar que la suma de los valores de la diagonal principal es mayor a la de la suma de los valores de la
diagonal secundaria; lo que indica que existe una buena bondad de ajuste para este modelo.
En este modelo la herramienta no presenta la opción de visualización del árbol de decisión,
debido a la bondad de ajuste que se presenta para este caso, que, aunque es alta, no permite generar un
Imagen 11.
Se ejecuta nuevamente el algoritmo Decision stump, pero en está ocasión se selecciona la opción
“Cross – Validation” configurado en 10 folds. Se observa que los resultados son los mismos que el
Imagen 12.
Al igual que en el experimento anterior, el sistema no habilita la opción de visualizar el árbol de decisión
para este algoritmo, dados los resultados que se presentan para la bondad de ajuste.
• Red neuronal ( MultilayerPerceptron)
selecciona como variable pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes
resultados.
Imagen 13.
En primera instancia se identifica que se clasifican correctamente el 100% de los registros del grupo de
datos. Lo que indica que el algoritmo que se está utilizando también presenta una gran adecuación a los
Respecto a la columna ROC Área, se evidencia una perfecta bondad de ajuste, ya que todos los valores de
esta columna presentan el valor 1. Lo que también indica un alto nivel de ajuste de los datos, al algoritmo
utilizado.
Finalmente se evidencia que la diagonal principal de la matriz de confusión es la única que presenta
valores diferentes de cero, por lo tanto, también se difiere que los datos presentan un alto bondad de
ajuste.
Representación gráfica de la red neuronal de algoritmo.
Se ejecuta nuevamente el algoritmo Decision stump, pero en está ocasión se selecciona la opción
“Use training set”. Se observa que los resultados son los mismos que el experimento ejecutado
Imagen 14.
En las siguientes gráficas se observan los cargos clasificados como peligrosos y no peligrosos.
Gráfica 7.
Fabricante de llantas y Operador. Se observa una gran concentración de registros clasificados como
peligrosos en el cargo de operador, que se expone a niveles clasificados como peligrosos de silice y
Benceno; otro cargo que presenta una gran concentración de registros clasificados como peligrosos es el
Gráfica 8.
riesgo mas altos se expone, ya que es el que de mayor concentración en el nivel de riesgo “Muy alto”,
Gráfica 9.
Teniendo como base la comprensión del negocio, objetivos de negocio y de minería de datos, se
determina que los objetivos planteados son de tipo clasificación por lo cual se procede hacer diferentes
pruebas haciendo uso de las siguientes técnicas: Árbol de decisión (J48, Random tree, DecesionStump) y
redes neuronales. De manera que se pudiera determinar cuál era la mejor técnica que se ajustaría a los
objetivos planteados.
Una vez se tuvo claridad sobre las pruebas que se iban a realizar se convierte la base de datos, que se
encuentra en Microsoft Excel, en un archivo. arff de manera que fuera manejable en la herramienta
Al trabajar con el algoritmo de Árbol de decisión de tipo j48, se tuvo como variable pivot “PELIGROSO”
que se refiere al grado de peligrosidad de los contaminantes químicos cancerígenos al que se exponen los
cargos objeto de estudio. Se identifica que los datos se clasifican correctamente, el 100% de las instancias
del grupo de datos. Por su parte los valores de la columna ROC área, son iguales a 1, lo que indica una
perfecta bondad de ajuste para los datos. En cuanto a la matriz de confusión se pudo observar que solo la
diagonal principal tuvo valores diferentes de cero, lo que reafirma que el algoritmo es el adecuado para
este ejercicio.
Por otra parte, al hacer el árbol de decisión tipo Random Tree con la misma variable Pivot
“PELIGROSO”. Igual que el J48 se identifica que se clasifican al 100% de las instancias del grupo de
datos. Los valores Roc área, son iguales a 1, indicando también una buena bondad de ajuste de los datos.
En cuanto a la matriz de confusión se puede observar que solo la diagonal principal tiene valores
diferentes de cero, por tanto, este algoritmo también es adecuado para este ejercicio.
Al aplicar el árbol de decisión de tipo Decision Stump con la misma variable Pivot “PELIGROSO”. En
comparación con los anteriores algoritmos, en este estudio si se presentaron instancias clasificadas
incorrectamente. Este valor valor represento el 5,1786 % (29 datos) del total de los datos. En este caso, las
instancias clasificadas correctamente representan el 94,8214 % del total de los casos. Se observa que los
valores de la columna ROC área, en este experimento presentan valores de 0,892; valor que se encuentra
cercano 1, lo que indica una buena bondad de ajuste. Respecto a la matriz de confusión se puede observar
que la suma de los valores de la diagonal principal es mayor a la de la suma de los valores de la diagonal
secundaria; lo que indica que existe una buena bondad de ajuste para este modelo. Sin embargo, en
comparación con los dos algoritmos anteriores este resulta ser el menos eficiente. Tanto así que en este
Por último, se aplica la red neuronal (MultilayerPerceptron), seleccionando de igual manera como
variable pivot “PELIGROSO”. En primera instancia se identifica que se clasifican correctamente el 100%
de los registros del grupo de datos. Lo que indica que el algoritmo que se está utilizando también presenta
una gran adecuación a los datos con los que sé que trabajan. Respecto a la columna ROC Área, se
evidencia una perfecta bondad de ajuste, ya que todos los valores de esta columna presentan el valor 1. Lo
que también indica un alto nivel de ajuste de los datos, al algoritmo utilizado. Finalmente se evidencia
que la diagonal principal de la matriz de confusión es la única que presenta valores diferentes de cero, por
lo tanto, también se difiere que los datos presentan un alto bondad de ajuste.
Presentado lo anterior se logró identificar que las técnicas que mejor presentan una bondad de
ajuste son el árbol de decisión (J48, Random tree) y redes neuronales, siendo los 3, 100% eficientes para
el estudio planteado. El árbol de decisión DecesionStump resulto también eficiente pero no tanto como
los anteriores planteados. Dando de esta manera cumplimiento al objetivo de determinar el modelo que
Una vez se conoce la correcta bondad de ajuste de los modelos planteados al analizar las gráficas del
árbol de decisión j48, se observa que la herramienta empieza a dividir la decisión de acuerdo con el
porcentaje de riesgo, si este valor es menor o igual a 9,65, la exposición se considera como NO peligrosa,
y se registran 105 eventos en los que no hay peligro en la exposición. Por otro lado, si el índice de riesgo
considera que si una persona expuesta a Benceno tiene un índice de riesgo mayor a 9,65, se considera
peligroso y se tienen 341 registros. Para el Formaldehido, no se consideran como peligros 25 registros,
para el arsénico 4 registros como no peligrosos y finalmente para el sílice se registran como peligroso 95
eventos. Es decir que se logra identificar que a lo largo de la historia los agentes químicos que mayor
riesgo han presentado para sus trabajadores es el Benceno y la sílice. El Arsénico y formaldehido a pesar
de ser sustancias catalogadas como cancerígenas han presentado riesgo bajo en las mediciones realizadas.
Por lo cual los agentes químicos que deberían ser de mayor interés para la empresa serian el benceno y la
sílice. Siendo por estos agentes de riesgo por los cuales se debería pagar una pensión especial.
Con el árbol de decisión de tipo randomTree la información que se puede obtener con la gráfica
obtenida es la siguiente:
- Se presentan 113 eventos para el riesgo muy alto cuando el contaminante SI es peligroso.
Por lo cual se puede observar que el riesgo que ha predominado a lo largo de las mediciones de los
agentes químicos cancerígenos es el Medio (201 eventos), seguido del Muy alto (113 eventos), Alto
(112 eventos), Bajo (105 eventos) y finalmente el Muy bajo (29 eventos).
cargo con mayor exposición a los agentes químicos cancerígenos, Benceno y sílice, fue el fabricante de
llantas. Este es el de mayor concentración en el nivel de riesgo “Muy Alto”, especialmente durante el año
2007. Dando respuesta a otro de los objetivos importante para la empresa que los encaminara a la
protección y seguimiento prioritario para este cargo identificado en los agentes cancerígenos Benceno y
sílice.
Otro dato que también resulta importante para la empresa es que los cargos expuestos a formaldehido y
arsénico no deben pagar una pensión especial dado que el comportamiento del riesgo siempre ha sido bajo
o muy bajo en el transcurso de los años, a diferencia de los agentes químicos sílice y Benceno que como