Mineria de Datos - Entrega 2

PROYECTO MINERIA DE DATOS – ENTREGA 2.
AUTORES:
1912010704 – Deisy Bibiana Chavarría Arango
1912010773 – Wendy Sabina Valencia Garcés
1912010677 – Anderson Peñarete Cepeda
191201799 – Sergio Andres Murillo Castro
ASESOR:
HUGO ORTIZ
INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO
FACULTAD DE INGENIERÍA, DISEÑO E INNOVACIÓN
ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE
NEGOCIOS
BOGOTÁ, D.C. 2020

TABLA DE CONTENIDO
2. FASE DE MODELADO ......................................................................................................3
2.1. Técnica de modelado ................................................................................................................ 3
2.2. Prueba de diseño ...................................................................................................................... 4
2.3. Construcción del modelo .......................................................................................................... 6
2.4. Evaluación del modelo ........................................................................................................... 19

2. FASE DE MODELADO
2.1. Técnica de modelado
De acuerdo con los objetivos de minería de datos planteados en la entrega 1, se procede a utilizar el
algoritmo de clasificación, y las siguientes técnicas predictivas: Árbol de decisión (J48, Randomtree,
DecesionStump) y redes neuronales. Se escogen estás técnicas ya que la naturaleza de los objetivos
planteados, se ajustan a estas de manera que se pueda alcanzar una alta bondad de ajuste. A continuación,
se exponen los objetivos de minería de datos.
• Determinar el modelo que mejor pronostique el índice de riesgo de los agentes químicos
en un futuro.
• Determinar los cargos de mayor exposición a los agentes químicos cancerígenos a lo
largo del historial de mediciones.
• Determinar los cargos a los cuales se les debería pagar una pensión especial basados en el
resultado de las exposiciones a lo largo de los años.

2.2. Prueba de diseño
En primera instancia se toma una parte aleatoria de los datos, aproximadamente el 10 % (50
datos) del total de la base de datos. Estos datos se cargan en el software WEKA, como se muestra a
continuación:
Imagen 1.
Fuente: Elaboración propia.
Se ejecutiva el algoritmo clasificatorio j48 de tipo árbol de decisión con los siguientes resultados:
Imagen 2.
A pesar de que la muestra solo representa el 10% del total de los datos, se observa que la bondad de ajuste
para esta corrida es alto y cercano a uno como se observa en la columna enmarcada en rojo.
También se observa que la suma de la diagonal principal de la matriz de confusión (De arriba
abajo de izquierda a derecha) es mayor a la diagonal secundaria (De abajo a arriba de derecha a izquierda)
lo que representa una buena bondad de ajuste. Se realiza una prueba con el modelo DecisionStump, en el
cual se observa que la bondad de ajuste es muy baja, en donde la mayoría de los valores están cercanos al
valor promedio de 0.5.
Imagen 3.
También se observa que la suma de la diagonal principal de la matriz de confusión (De arriba abajo de
izquierda a derecha) es mayor por muy poco a la diagonal secundaria (De abajo a arriba de derecha a
izquierda) lo que representa una bondad de ajuste baja.
Por ultimo se realiza una prueba de clasificación con el algoritmo RandomTree, con los siguientes
resultados:
Imagen 4.

Se puede observar que esta técnica tiene la mejor bondad de ajuste que los demás algoritmos
estudiados, ya que el valor ROC área es igual 1. Por lo tanto, es la mejor técnica para evaluar este grupo
de datos. Se observa que la suma de la diagonal principal de la matriz de confusión (De arriba abajo de
izquierda a derecha) es mayor a la diagonal secundaria (De abajo a arriba de derecha a izquierda) lo que
representa una buena bondad de ajuste.
2.3. Construcción del modelo
En primera instancia se realiza el cargue de la totalidad de los registros de la base de datos que se dispone
para este ejercicio, el cual se compone de 560 instancias.
Imagen 5.
En esta pantalla podemos observar el tipo de los datos, la cantidad de registros por cada una de las
variables, valores mínimos y máximos, media y desviación estándar de los datos de tipo numérico.
Luego del cargue de los datos, se ejecutan las diferentes técnicas de modelado y así realizar el análisis
correspondiente.
• Árbol de decisión de tipo j48
Para este experimento se selecciona la opción “Cross – Validation”, configurada en 10 folds. Se
selecciona como variable pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes
resultados.
Imagen 6.
De acuerdo con los resultados arrojados por la herramienta Weka, se identifica que se clasifican
correctamente el 100% de las instancias del grupo de datos. Lo que nos indica que el algoritmo j48, es
adecuado para realizar el análisis de los resultados. Se observa que los valores de la columna ROC Area,
son iguales a 1, lo que indica una perfecta bondad de ajuste de los datos. En cuanto a la matriz de
confusión se puede observar que solo la diagonal principal tiene valores diferentes de cero, lo que
reafirma que el algoritmo es el adecuado para este ejercicio.

Representación gráfica del árbol de decisión
Gráfica 1. Árbol de decisión J48
En la representación gráfica del árbol de decisión, se observa que la herramienta empieza a dividir
la decisión de acuerdo con el porcentaje de riesgo, si este valor es menor o igual a 9,65, la exposición se
considera como NO peligrosa, y se registran 105 eventos en los que no hay peligro en la exposición. Por
otro lado, si el índice de riesgo es mayor a 9,65, el sistema clasifica la decisión de acuerdo al
contaminante de exposición, en donde, se considera que, si una persona expuesta a Benceno tiene un
índice de riesgo mayor a 9,65, se considera peligro y se tienen 341 registros. Para el Formaldehido, no se
consideran como peligros 25 registros, para el arsénico 4 registros como no peligrosos y finalmente para
la sílice se registran como peligro 95 eventos, si el índice de riego es superior a 9,65.
Se realiza nuevamente el experimento con el algoritmo j48, pero esta vez utilizando la opción “Use
training set”, en donde se observa que la herramienta arroja los mismos datos que el experimento anterior.
Imagen 7.
Se observa que árbol de decisión es el mismo en los dos experimentos.
Gráfica 2. Árbol de decisión J48

• Árbol de decisión de tipo RandomTree
resultados.
Imagen 8.
Como en los experimentos realizados anteriormente con el algoritmo J48, los resultados arrojados
por la herramienta, se identifica que se clasifican correctamente el 100% de las instancias del grupo de
datos. Lo que nos indica que el algoritmo RandomTree, también es adecuado para realizar el análisis de
los resultados. Se observa que los valores de la columna ROC Area, son iguales a 1, lo que indica una
perfecta bondad de ajuste de los datos. En lo referente a la matriz de confusión se puede observar que solo
la diagonal principal tiene valores diferentes de cero, lo que reafirma que el algoritmo también es
adecuado para este ejercicio.

En cuanto a la representación gráfica del árbol de decisión en este algoritmo si varía, como se
puede observar:
Gráfica 3. Árbol de decisión Random Tree.
En este árbol de decisión el sistema inicia dividiendo la decisión a partir del riego, en donde se presentan
los siguientes por cada uno de los niveles de riesgo:
- Se presentan 201 eventos para el riesgo medio cuando el contaminante SI es peligroso.
- Se presentan 112 eventos para el riesgo alto cuando el contaminante SI es peligroso.
- Se presentan 105 eventos para el riesgo bajo cuando el contaminante No es peligroso.
- Se presentan 113 eventos para el riesgo muy alto cuando el contaminante SI es peligroso.
- Se presentan 29 eventos para el riesgo muy bajo cuando el contaminante NO es peligro.
Se realiza nuevamente el experimento con el algoritmo Random Tree, pero esta vez utilizando la opción
“Use training set”, en donde se observa que la herramienta arroja los mismos datos que el experimento
anterior, como se precia a continuación:

Imagen 9.
Al ejecutar este experimento el sistema replica el árbol de decisión obtenido en el primer
experimento que se ejecutó.
Gráfico 4. Árbol de decisión Random Tree

• Árbol de decisión de tipo Decision Stump
Para este experimento se selecciona la opción “Use traning set” Se selecciona como variable
pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes resultados.
Imagen 10.
En comparación con los algoritmos ejecutados anteriormente, en este experimento si se
presentaron instancias clasificadas incorrectamente. Este valor represento el 5,1786 % (29 datos) del total
de los datos. En este caso, las instancias clasificadas correctamente representan el 94,8214 % del total de
los casos.
Se observa que los valores de la columna ROC área, en este experimento presentan valores de 0,892;
valor que se encuentra cercano 1, lo que indica una buena bondad de ajuste. Sin embargo y en
comparación con los dos algoritmos corridos anteriormente. Respecto a la matriz de confusión se puede
observar que la suma de los valores de la diagonal principal es mayor a la de la suma de los valores de la
diagonal secundaria; lo que indica que existe una buena bondad de ajuste para este modelo.
En este modelo la herramienta no presenta la opción de visualización del árbol de decisión,
debido a la bondad de ajuste que se presenta para este caso, que, aunque es alta, no permite generar un
árbol de decisión en este algoritmo.
Imagen 11.
Se ejecuta nuevamente el algoritmo Decision stump, pero en está ocasión se selecciona la opción
“Cross – Validation” configurado en 10 folds. Se observa que los resultados son los mismos que el
experimento ejecutado anteriormente. A continuación, se exponen los datos de está corrida:
Imagen 12.
Al igual que en el experimento anterior, el sistema no habilita la opción de visualizar el árbol de decisión
para este algoritmo, dados los resultados que se presentan para la bondad de ajuste.
• Red neuronal ( MultilayerPerceptron)
resultados.
Imagen 13.
En primera instancia se identifica que se clasifican correctamente el 100% de los registros del grupo de
datos. Lo que indica que el algoritmo que se está utilizando también presenta una gran adecuación a los
datos con los que se que trabajan.
Respecto a la columna ROC Área, se evidencia una perfecta bondad de ajuste, ya que todos los valores de
esta columna presentan el valor 1. Lo que también indica un alto nivel de ajuste de los datos, al algoritmo
utilizado.
Finalmente se evidencia que la diagonal principal de la matriz de confusión es la única que presenta
valores diferentes de cero, por lo tanto, también se difiere que los datos presentan un alto bondad de
ajuste.
Representación gráfica de la red neuronal de algoritmo.
Gráfica 5. Red Neuronal.
Se ejecuta nuevamente el algoritmo Decision stump, pero en está ocasión se selecciona la opción
“Use training set”. Se observa que los resultados son los mismos que el experimento ejecutado
anteriormente. A continuación, se exponen los datos de esta corrida:
Imagen 14.

Gráfica 6. Red neuronal.
Fuente: Elaboración propia
En las siguientes gráficas se observan los cargos clasificados como peligrosos y no peligrosos.
Gráfica 7.
Fuente: Elaboración propia

En la gráfica se puede observar que los cargos con más registros clasificados como peligrosos son
Fabricante de llantas y Operador. Se observa una gran concentración de registros clasificados como
peligrosos en el cargo de operador, que se expone a niveles clasificados como peligrosos de silice y
Benceno; otro cargo que presenta una gran concentración de registros clasificados como peligrosos es el
de fabricante de llantos que se expone principalmente al contaminante benceno.
Gráfica 8.

En la siguiente gráfica se puede observar que el fabricante de llantas es el cargo que a niveles de
riesgo mas altos se expone, ya que es el que de mayor concentración en el nivel de riesgo “Muy alto”,
especialmente durante el año 2007.
Gráfica 9.
2.4. Evaluación del modelo
Teniendo como base la comprensión del negocio, objetivos de negocio y de minería de datos, se
determina que los objetivos planteados son de tipo clasificación por lo cual se procede hacer diferentes
pruebas haciendo uso de las siguientes técnicas: Árbol de decisión (J48, Random tree, DecesionStump) y
redes neuronales. De manera que se pudiera determinar cuál era la mejor técnica que se ajustaría a los
objetivos planteados.
Una vez se tuvo claridad sobre las pruebas que se iban a realizar se convierte la base de datos, que se
encuentra en Microsoft Excel, en un archivo. arff de manera que fuera manejable en la herramienta
WEKA, la cual fue la usada para este estudio.
Al trabajar con el algoritmo de Árbol de decisión de tipo j48, se tuvo como variable pivot “PELIGROSO”
que se refiere al grado de peligrosidad de los contaminantes químicos cancerígenos al que se exponen los
cargos objeto de estudio. Se identifica que los datos se clasifican correctamente, el 100% de las instancias
del grupo de datos. Por su parte los valores de la columna ROC área, son iguales a 1, lo que indica una
perfecta bondad de ajuste para los datos. En cuanto a la matriz de confusión se pudo observar que solo la
diagonal principal tuvo valores diferentes de cero, lo que reafirma que el algoritmo es el adecuado para
este ejercicio.
Por otra parte, al hacer el árbol de decisión tipo Random Tree con la misma variable Pivot
“PELIGROSO”. Igual que el J48 se identifica que se clasifican al 100% de las instancias del grupo de
datos. Los valores Roc área, son iguales a 1, indicando también una buena bondad de ajuste de los datos.
En cuanto a la matriz de confusión se puede observar que solo la diagonal principal tiene valores
diferentes de cero, por tanto, este algoritmo también es adecuado para este ejercicio.
Al aplicar el árbol de decisión de tipo Decision Stump con la misma variable Pivot “PELIGROSO”. En
comparación con los anteriores algoritmos, en este estudio si se presentaron instancias clasificadas
incorrectamente. Este valor valor represento el 5,1786 % (29 datos) del total de los datos. En este caso, las
instancias clasificadas correctamente representan el 94,8214 % del total de los casos. Se observa que los
valores de la columna ROC área, en este experimento presentan valores de 0,892; valor que se encuentra
cercano 1, lo que indica una buena bondad de ajuste. Respecto a la matriz de confusión se puede observar
que la suma de los valores de la diagonal principal es mayor a la de la suma de los valores de la diagonal
secundaria; lo que indica que existe una buena bondad de ajuste para este modelo. Sin embargo, en
comparación con los dos algoritmos anteriores este resulta ser el menos eficiente. Tanto así que en este
modelo la herramienta no presento la opción de visualización del árbol de decisión.
Por último, se aplica la red neuronal (MultilayerPerceptron), seleccionando de igual manera como
variable pivot “PELIGROSO”. En primera instancia se identifica que se clasifican correctamente el 100%
de los registros del grupo de datos. Lo que indica que el algoritmo que se está utilizando también presenta
una gran adecuación a los datos con los que sé que trabajan. Respecto a la columna ROC Área, se
evidencia una perfecta bondad de ajuste, ya que todos los valores de esta columna presentan el valor 1. Lo
que también indica un alto nivel de ajuste de los datos, al algoritmo utilizado. Finalmente se evidencia
que la diagonal principal de la matriz de confusión es la única que presenta valores diferentes de cero, por
lo tanto, también se difiere que los datos presentan un alto bondad de ajuste.
Presentado lo anterior se logró identificar que las técnicas que mejor presentan una bondad de
ajuste son el árbol de decisión (J48, Random tree) y redes neuronales, siendo los 3, 100% eficientes para
el estudio planteado. El árbol de decisión DecesionStump resulto también eficiente pero no tanto como
los anteriores planteados. Dando de esta manera cumplimiento al objetivo de determinar el modelo que
mejor pronosticaría la exposición a agentes químicos cancerígenos de los trabajadores.
Una vez se conoce la correcta bondad de ajuste de los modelos planteados al analizar las gráficas del
árbol de decisión j48, se observa que la herramienta empieza a dividir la decisión de acuerdo con el
porcentaje de riesgo, si este valor es menor o igual a 9,65, la exposición se considera como NO peligrosa,
y se registran 105 eventos en los que no hay peligro en la exposición. Por otro lado, si el índice de riesgo
es mayor a 9,65, el sistema clasifica la decisión de acuerdo al contaminante de exposición, en donde, se
considera que si una persona expuesta a Benceno tiene un índice de riesgo mayor a 9,65, se considera
peligroso y se tienen 341 registros. Para el Formaldehido, no se consideran como peligros 25 registros,
para el arsénico 4 registros como no peligrosos y finalmente para el sílice se registran como peligroso 95
eventos. Es decir que se logra identificar que a lo largo de la historia los agentes químicos que mayor
riesgo han presentado para sus trabajadores es el Benceno y la sílice. El Arsénico y formaldehido a pesar
de ser sustancias catalogadas como cancerígenas han presentado riesgo bajo en las mediciones realizadas.
Por lo cual los agentes químicos que deberían ser de mayor interés para la empresa serian el benceno y la
sílice. Siendo por estos agentes de riesgo por los cuales se debería pagar una pensión especial.
Con el árbol de decisión de tipo randomTree la información que se puede obtener con la gráfica
obtenida es la siguiente:
- Se presentan 201 eventos para el riesgo medio cuando el contaminante SI es peligroso.
- Se presentan 112 eventos para el riesgo alto cuando el contaminante SI es peligroso.
- Se presentan 105 eventos para el riesgo bajo cuando el contaminante No es peligroso.
- Se presentan 113 eventos para el riesgo muy alto cuando el contaminante SI es peligroso.
- Se presentan 29 eventos para el riesgo muy bajo cuando el contaminante NO es peligro.
Por lo cual se puede observar que el riesgo que ha predominado a lo largo de las mediciones de los
agentes químicos cancerígenos es el Medio (201 eventos), seguido del Muy alto (113 eventos), Alto
(112 eventos), Bajo (105 eventos) y finalmente el Muy bajo (29 eventos).
Finalmente, en la gráfica que se obtuvo en la Red neuronal (MultilayerPerceptron). Se observó que el
cargo con mayor exposición a los agentes químicos cancerígenos, Benceno y sílice, fue el fabricante de
llantas. Este es el de mayor concentración en el nivel de riesgo “Muy Alto”, especialmente durante el año
2007. Dando respuesta a otro de los objetivos importante para la empresa que los encaminara a la
protección y seguimiento prioritario para este cargo identificado en los agentes cancerígenos Benceno y
sílice.
Otro dato que también resulta importante para la empresa es que los cargos expuestos a formaldehido y
arsénico no deben pagar una pensión especial dado que el comportamiento del riesgo siempre ha sido bajo
o muy bajo en el transcurso de los años, a diferencia de los agentes químicos sílice y Benceno que como
se mencionó su exposición si amerita un pago de pensión especial por parte de la compañía.

Mineria de Datos - Entrega 2

Cargado por

Copyright:

Formatos disponibles

Mineria de Datos - Entrega 2

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos - Entrega 2

Cargado por

Copyright:

Formatos disponibles

PROYECTO MINERIA DE DATOS – ENTREGA 2.

1912010704 – Deisy Bibiana Chavarría Arango

1912010773 – Wendy Sabina Valencia Garcés

1912010677 – Anderson Peñarete Cepeda

191201799 – Sergio Andres Murillo Castro

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

FACULTAD DE INGENIERÍA, DISEÑO E INNOVACIÓN

ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE

BOGOTÁ, D.C. 2020

2. FASE DE MODELADO ......................................................................................................3

2.1. Técnica de modelado ................................................................................................................ 3

2.2. Prueba de diseño ...................................................................................................................... 4

2.3. Construcción del modelo .......................................................................................................... 6

2.4. Evaluación del modelo ........................................................................................................... 19

2.1. Técnica de modelado

se exponen los objetivos de minería de datos.

• Determinar los cargos de mayor exposición a los agentes químicos cancerígenos a lo

largo del historial de mediciones.

resultado de las exposiciones a lo largo de los años.

Fuente: Elaboración propia.

Fuente: Elaboración propia.

valor promedio de 0.5.

Fuente: Elaboración propia.

izquierda) lo que representa una bondad de ajuste baja.

Fuente: Elaboración propia.

representa una buena bondad de ajuste.

2.3. Construcción del modelo

para este ejercicio, el cual se compone de 560 instancias.

Fuente: Elaboración propia.

Para este experimento se selecciona la opción “Cross – Validation”, configurada en 10 folds. Se

Fuente: Elaboración propia.

reafirma que el algoritmo es el adecuado para este ejercicio.

Gráfica 1. Árbol de decisión J48

Fuente: Elaboración propia.

la sílice se registran como peligro 95 eventos, si el índice de riego es superior a 9,65.

Fuente: Elaboración propia.

Se observa que árbol de decisión es el mismo en los dos experimentos.

Gráfica 2. Árbol de decisión J48

Fuente: Elaboración propia.

Para este experimento se selecciona la opción “Cross – Validation”, configurada en 10 folds. Se

Fuente: Elaboración propia.

adecuado para este ejercicio.

Gráfica 3. Árbol de decisión Random Tree.

los siguientes por cada uno de los niveles de riesgo:

- Se presentan 201 eventos para el riesgo medio cuando el contaminante SI es peligroso.

- Se presentan 112 eventos para el riesgo alto cuando el contaminante SI es peligroso.

- Se presentan 105 eventos para el riesgo bajo cuando el contaminante No es peligroso.

- Se presentan 29 eventos para el riesgo muy bajo cuando el contaminante NO es peligro.

anterior, como se precia a continuación:

Fuente: Elaboración propia.

Al ejecutar este experimento el sistema replica el árbol de decisión obtenido en el primer

experimento que se ejecutó.

Gráfico 4. Árbol de decisión Random Tree

Fuente: Elaboración propia.

pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes resultados.

Fuente: Elaboración propia.

En comparación con los algoritmos ejecutados anteriormente, en este experimento si se

árbol de decisión en este algoritmo.

Fuente: Elaboración propia.