Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Mineria de Datos - Entrega 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 22

PROYECTO MINERIA DE DATOS – ENTREGA 2.

AUTORES:

1912010704 – Deisy Bibiana Chavarría Arango

1912010773 – Wendy Sabina Valencia Garcés

1912010677 – Anderson Peñarete Cepeda

191201799 – Sergio Andres Murillo Castro

ASESOR:

HUGO ORTIZ

INSTITUCIÓN UNIVERSITARIA POLITÉCNICO GRANCOLOMBIANO

FACULTAD DE INGENIERÍA, DISEÑO E INNOVACIÓN

ESPECIALIZACIÓN EN GERENCIA DE PROYECTOS EN INTELIGENCIA DE

NEGOCIOS

BOGOTÁ, D.C. 2020


TABLA DE CONTENIDO

2. FASE DE MODELADO ......................................................................................................3

2.1. Técnica de modelado ................................................................................................................ 3

2.2. Prueba de diseño ...................................................................................................................... 4

2.3. Construcción del modelo .......................................................................................................... 6

2.4. Evaluación del modelo ........................................................................................................... 19


2. FASE DE MODELADO

2.1. Técnica de modelado

De acuerdo con los objetivos de minería de datos planteados en la entrega 1, se procede a utilizar el

algoritmo de clasificación, y las siguientes técnicas predictivas: Árbol de decisión (J48, Randomtree,

DecesionStump) y redes neuronales. Se escogen estás técnicas ya que la naturaleza de los objetivos

planteados, se ajustan a estas de manera que se pueda alcanzar una alta bondad de ajuste. A continuación,

se exponen los objetivos de minería de datos.

• Determinar el modelo que mejor pronostique el índice de riesgo de los agentes químicos

en un futuro.

• Determinar los cargos de mayor exposición a los agentes químicos cancerígenos a lo

largo del historial de mediciones.

• Determinar los cargos a los cuales se les debería pagar una pensión especial basados en el

resultado de las exposiciones a lo largo de los años.


2.2. Prueba de diseño

En primera instancia se toma una parte aleatoria de los datos, aproximadamente el 10 % (50

datos) del total de la base de datos. Estos datos se cargan en el software WEKA, como se muestra a

continuación:

Imagen 1.

Fuente: Elaboración propia.

Se ejecutiva el algoritmo clasificatorio j48 de tipo árbol de decisión con los siguientes resultados:

Imagen 2.

Fuente: Elaboración propia.

A pesar de que la muestra solo representa el 10% del total de los datos, se observa que la bondad de ajuste

para esta corrida es alto y cercano a uno como se observa en la columna enmarcada en rojo.
También se observa que la suma de la diagonal principal de la matriz de confusión (De arriba

abajo de izquierda a derecha) es mayor a la diagonal secundaria (De abajo a arriba de derecha a izquierda)

lo que representa una buena bondad de ajuste. Se realiza una prueba con el modelo DecisionStump, en el

cual se observa que la bondad de ajuste es muy baja, en donde la mayoría de los valores están cercanos al

valor promedio de 0.5.

Imagen 3.

Fuente: Elaboración propia.

También se observa que la suma de la diagonal principal de la matriz de confusión (De arriba abajo de

izquierda a derecha) es mayor por muy poco a la diagonal secundaria (De abajo a arriba de derecha a

izquierda) lo que representa una bondad de ajuste baja.

Por ultimo se realiza una prueba de clasificación con el algoritmo RandomTree, con los siguientes

resultados:

Imagen 4.

Fuente: Elaboración propia.


Se puede observar que esta técnica tiene la mejor bondad de ajuste que los demás algoritmos

estudiados, ya que el valor ROC área es igual 1. Por lo tanto, es la mejor técnica para evaluar este grupo

de datos. Se observa que la suma de la diagonal principal de la matriz de confusión (De arriba abajo de

izquierda a derecha) es mayor a la diagonal secundaria (De abajo a arriba de derecha a izquierda) lo que

representa una buena bondad de ajuste.

2.3. Construcción del modelo

En primera instancia se realiza el cargue de la totalidad de los registros de la base de datos que se dispone

para este ejercicio, el cual se compone de 560 instancias.

Imagen 5.

Fuente: Elaboración propia.

En esta pantalla podemos observar el tipo de los datos, la cantidad de registros por cada una de las

variables, valores mínimos y máximos, media y desviación estándar de los datos de tipo numérico.

Luego del cargue de los datos, se ejecutan las diferentes técnicas de modelado y así realizar el análisis

correspondiente.
• Árbol de decisión de tipo j48

Para este experimento se selecciona la opción “Cross – Validation”, configurada en 10 folds. Se

selecciona como variable pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes

resultados.

Imagen 6.

Fuente: Elaboración propia.

De acuerdo con los resultados arrojados por la herramienta Weka, se identifica que se clasifican

correctamente el 100% de las instancias del grupo de datos. Lo que nos indica que el algoritmo j48, es

adecuado para realizar el análisis de los resultados. Se observa que los valores de la columna ROC Area,

son iguales a 1, lo que indica una perfecta bondad de ajuste de los datos. En cuanto a la matriz de

confusión se puede observar que solo la diagonal principal tiene valores diferentes de cero, lo que

reafirma que el algoritmo es el adecuado para este ejercicio.


Representación gráfica del árbol de decisión

Gráfica 1. Árbol de decisión J48

Fuente: Elaboración propia.

En la representación gráfica del árbol de decisión, se observa que la herramienta empieza a dividir

la decisión de acuerdo con el porcentaje de riesgo, si este valor es menor o igual a 9,65, la exposición se

considera como NO peligrosa, y se registran 105 eventos en los que no hay peligro en la exposición. Por

otro lado, si el índice de riesgo es mayor a 9,65, el sistema clasifica la decisión de acuerdo al

contaminante de exposición, en donde, se considera que, si una persona expuesta a Benceno tiene un

índice de riesgo mayor a 9,65, se considera peligro y se tienen 341 registros. Para el Formaldehido, no se

consideran como peligros 25 registros, para el arsénico 4 registros como no peligrosos y finalmente para

la sílice se registran como peligro 95 eventos, si el índice de riego es superior a 9,65.

Se realiza nuevamente el experimento con el algoritmo j48, pero esta vez utilizando la opción “Use

training set”, en donde se observa que la herramienta arroja los mismos datos que el experimento anterior.
Imagen 7.

Fuente: Elaboración propia.

Se observa que árbol de decisión es el mismo en los dos experimentos.

Gráfica 2. Árbol de decisión J48

Fuente: Elaboración propia.


• Árbol de decisión de tipo RandomTree

Para este experimento se selecciona la opción “Cross – Validation”, configurada en 10 folds. Se

selecciona como variable pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes

resultados.

Imagen 8.

Fuente: Elaboración propia.

Como en los experimentos realizados anteriormente con el algoritmo J48, los resultados arrojados

por la herramienta, se identifica que se clasifican correctamente el 100% de las instancias del grupo de

datos. Lo que nos indica que el algoritmo RandomTree, también es adecuado para realizar el análisis de

los resultados. Se observa que los valores de la columna ROC Area, son iguales a 1, lo que indica una

perfecta bondad de ajuste de los datos. En lo referente a la matriz de confusión se puede observar que solo

la diagonal principal tiene valores diferentes de cero, lo que reafirma que el algoritmo también es

adecuado para este ejercicio.


En cuanto a la representación gráfica del árbol de decisión en este algoritmo si varía, como se

puede observar:

Gráfica 3. Árbol de decisión Random Tree.

En este árbol de decisión el sistema inicia dividiendo la decisión a partir del riego, en donde se presentan

los siguientes por cada uno de los niveles de riesgo:

- Se presentan 201 eventos para el riesgo medio cuando el contaminante SI es peligroso.

- Se presentan 112 eventos para el riesgo alto cuando el contaminante SI es peligroso.

- Se presentan 105 eventos para el riesgo bajo cuando el contaminante No es peligroso.

- Se presentan 113 eventos para el riesgo muy alto cuando el contaminante SI es peligroso.

- Se presentan 29 eventos para el riesgo muy bajo cuando el contaminante NO es peligro.

Se realiza nuevamente el experimento con el algoritmo Random Tree, pero esta vez utilizando la opción

“Use training set”, en donde se observa que la herramienta arroja los mismos datos que el experimento

anterior, como se precia a continuación:


Imagen 9.

Fuente: Elaboración propia.

Al ejecutar este experimento el sistema replica el árbol de decisión obtenido en el primer

experimento que se ejecutó.

Gráfico 4. Árbol de decisión Random Tree

Fuente: Elaboración propia.


• Árbol de decisión de tipo Decision Stump

Para este experimento se selecciona la opción “Use traning set” Se selecciona como variable

pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes resultados.

Imagen 10.

Fuente: Elaboración propia.

En comparación con los algoritmos ejecutados anteriormente, en este experimento si se

presentaron instancias clasificadas incorrectamente. Este valor represento el 5,1786 % (29 datos) del total

de los datos. En este caso, las instancias clasificadas correctamente representan el 94,8214 % del total de

los casos.

Se observa que los valores de la columna ROC área, en este experimento presentan valores de 0,892;

valor que se encuentra cercano 1, lo que indica una buena bondad de ajuste. Sin embargo y en

comparación con los dos algoritmos corridos anteriormente. Respecto a la matriz de confusión se puede

observar que la suma de los valores de la diagonal principal es mayor a la de la suma de los valores de la

diagonal secundaria; lo que indica que existe una buena bondad de ajuste para este modelo.
En este modelo la herramienta no presenta la opción de visualización del árbol de decisión,

debido a la bondad de ajuste que se presenta para este caso, que, aunque es alta, no permite generar un

árbol de decisión en este algoritmo.

Imagen 11.

Fuente: Elaboración propia.

Se ejecuta nuevamente el algoritmo Decision stump, pero en está ocasión se selecciona la opción

“Cross – Validation” configurado en 10 folds. Se observa que los resultados son los mismos que el

experimento ejecutado anteriormente. A continuación, se exponen los datos de está corrida:

Imagen 12.

Fuente: Elaboración propia.

Al igual que en el experimento anterior, el sistema no habilita la opción de visualizar el árbol de decisión

para este algoritmo, dados los resultados que se presentan para la bondad de ajuste.
• Red neuronal ( MultilayerPerceptron)

Para este experimento se selecciona la opción “Cross – Validation”, configurada en 10 folds. Se

selecciona como variable pivot, la variable “PELIGROSO” y se ejecuta la corrida con los siguientes

resultados.

Imagen 13.

Fuente: Elaboración propia.

En primera instancia se identifica que se clasifican correctamente el 100% de los registros del grupo de

datos. Lo que indica que el algoritmo que se está utilizando también presenta una gran adecuación a los

datos con los que se que trabajan.

Respecto a la columna ROC Área, se evidencia una perfecta bondad de ajuste, ya que todos los valores de

esta columna presentan el valor 1. Lo que también indica un alto nivel de ajuste de los datos, al algoritmo

utilizado.

Finalmente se evidencia que la diagonal principal de la matriz de confusión es la única que presenta

valores diferentes de cero, por lo tanto, también se difiere que los datos presentan un alto bondad de

ajuste.
Representación gráfica de la red neuronal de algoritmo.

Gráfica 5. Red Neuronal.

Fuente: Elaboración propia.

Se ejecuta nuevamente el algoritmo Decision stump, pero en está ocasión se selecciona la opción

“Use training set”. Se observa que los resultados son los mismos que el experimento ejecutado

anteriormente. A continuación, se exponen los datos de esta corrida:

Imagen 14.

Fuente: Elaboración propia.


Gráfica 6. Red neuronal.

Fuente: Elaboración propia

En las siguientes gráficas se observan los cargos clasificados como peligrosos y no peligrosos.

Gráfica 7.

Fuente: Elaboración propia


En la gráfica se puede observar que los cargos con más registros clasificados como peligrosos son

Fabricante de llantas y Operador. Se observa una gran concentración de registros clasificados como

peligrosos en el cargo de operador, que se expone a niveles clasificados como peligrosos de silice y

Benceno; otro cargo que presenta una gran concentración de registros clasificados como peligrosos es el

de fabricante de llantos que se expone principalmente al contaminante benceno.

Gráfica 8.

Fuente: Elaboración propia.


En la siguiente gráfica se puede observar que el fabricante de llantas es el cargo que a niveles de

riesgo mas altos se expone, ya que es el que de mayor concentración en el nivel de riesgo “Muy alto”,

especialmente durante el año 2007.

Gráfica 9.

Fuente: Elaboración propia.

2.4. Evaluación del modelo

Teniendo como base la comprensión del negocio, objetivos de negocio y de minería de datos, se

determina que los objetivos planteados son de tipo clasificación por lo cual se procede hacer diferentes

pruebas haciendo uso de las siguientes técnicas: Árbol de decisión (J48, Random tree, DecesionStump) y

redes neuronales. De manera que se pudiera determinar cuál era la mejor técnica que se ajustaría a los

objetivos planteados.

Una vez se tuvo claridad sobre las pruebas que se iban a realizar se convierte la base de datos, que se

encuentra en Microsoft Excel, en un archivo. arff de manera que fuera manejable en la herramienta

WEKA, la cual fue la usada para este estudio.

Al trabajar con el algoritmo de Árbol de decisión de tipo j48, se tuvo como variable pivot “PELIGROSO”

que se refiere al grado de peligrosidad de los contaminantes químicos cancerígenos al que se exponen los
cargos objeto de estudio. Se identifica que los datos se clasifican correctamente, el 100% de las instancias

del grupo de datos. Por su parte los valores de la columna ROC área, son iguales a 1, lo que indica una

perfecta bondad de ajuste para los datos. En cuanto a la matriz de confusión se pudo observar que solo la

diagonal principal tuvo valores diferentes de cero, lo que reafirma que el algoritmo es el adecuado para

este ejercicio.

Por otra parte, al hacer el árbol de decisión tipo Random Tree con la misma variable Pivot

“PELIGROSO”. Igual que el J48 se identifica que se clasifican al 100% de las instancias del grupo de

datos. Los valores Roc área, son iguales a 1, indicando también una buena bondad de ajuste de los datos.

En cuanto a la matriz de confusión se puede observar que solo la diagonal principal tiene valores

diferentes de cero, por tanto, este algoritmo también es adecuado para este ejercicio.

Al aplicar el árbol de decisión de tipo Decision Stump con la misma variable Pivot “PELIGROSO”. En

comparación con los anteriores algoritmos, en este estudio si se presentaron instancias clasificadas

incorrectamente. Este valor valor represento el 5,1786 % (29 datos) del total de los datos. En este caso, las

instancias clasificadas correctamente representan el 94,8214 % del total de los casos. Se observa que los

valores de la columna ROC área, en este experimento presentan valores de 0,892; valor que se encuentra

cercano 1, lo que indica una buena bondad de ajuste. Respecto a la matriz de confusión se puede observar

que la suma de los valores de la diagonal principal es mayor a la de la suma de los valores de la diagonal

secundaria; lo que indica que existe una buena bondad de ajuste para este modelo. Sin embargo, en

comparación con los dos algoritmos anteriores este resulta ser el menos eficiente. Tanto así que en este

modelo la herramienta no presento la opción de visualización del árbol de decisión.

Por último, se aplica la red neuronal (MultilayerPerceptron), seleccionando de igual manera como

variable pivot “PELIGROSO”. En primera instancia se identifica que se clasifican correctamente el 100%

de los registros del grupo de datos. Lo que indica que el algoritmo que se está utilizando también presenta

una gran adecuación a los datos con los que sé que trabajan. Respecto a la columna ROC Área, se

evidencia una perfecta bondad de ajuste, ya que todos los valores de esta columna presentan el valor 1. Lo
que también indica un alto nivel de ajuste de los datos, al algoritmo utilizado. Finalmente se evidencia

que la diagonal principal de la matriz de confusión es la única que presenta valores diferentes de cero, por

lo tanto, también se difiere que los datos presentan un alto bondad de ajuste.

Presentado lo anterior se logró identificar que las técnicas que mejor presentan una bondad de

ajuste son el árbol de decisión (J48, Random tree) y redes neuronales, siendo los 3, 100% eficientes para

el estudio planteado. El árbol de decisión DecesionStump resulto también eficiente pero no tanto como

los anteriores planteados. Dando de esta manera cumplimiento al objetivo de determinar el modelo que

mejor pronosticaría la exposición a agentes químicos cancerígenos de los trabajadores.

Una vez se conoce la correcta bondad de ajuste de los modelos planteados al analizar las gráficas del

árbol de decisión j48, se observa que la herramienta empieza a dividir la decisión de acuerdo con el

porcentaje de riesgo, si este valor es menor o igual a 9,65, la exposición se considera como NO peligrosa,

y se registran 105 eventos en los que no hay peligro en la exposición. Por otro lado, si el índice de riesgo

es mayor a 9,65, el sistema clasifica la decisión de acuerdo al contaminante de exposición, en donde, se

considera que si una persona expuesta a Benceno tiene un índice de riesgo mayor a 9,65, se considera

peligroso y se tienen 341 registros. Para el Formaldehido, no se consideran como peligros 25 registros,

para el arsénico 4 registros como no peligrosos y finalmente para el sílice se registran como peligroso 95

eventos. Es decir que se logra identificar que a lo largo de la historia los agentes químicos que mayor

riesgo han presentado para sus trabajadores es el Benceno y la sílice. El Arsénico y formaldehido a pesar

de ser sustancias catalogadas como cancerígenas han presentado riesgo bajo en las mediciones realizadas.

Por lo cual los agentes químicos que deberían ser de mayor interés para la empresa serian el benceno y la

sílice. Siendo por estos agentes de riesgo por los cuales se debería pagar una pensión especial.
Con el árbol de decisión de tipo randomTree la información que se puede obtener con la gráfica

obtenida es la siguiente:

- Se presentan 201 eventos para el riesgo medio cuando el contaminante SI es peligroso.

- Se presentan 112 eventos para el riesgo alto cuando el contaminante SI es peligroso.

- Se presentan 105 eventos para el riesgo bajo cuando el contaminante No es peligroso.

- Se presentan 113 eventos para el riesgo muy alto cuando el contaminante SI es peligroso.

- Se presentan 29 eventos para el riesgo muy bajo cuando el contaminante NO es peligro.

Por lo cual se puede observar que el riesgo que ha predominado a lo largo de las mediciones de los

agentes químicos cancerígenos es el Medio (201 eventos), seguido del Muy alto (113 eventos), Alto

(112 eventos), Bajo (105 eventos) y finalmente el Muy bajo (29 eventos).

Finalmente, en la gráfica que se obtuvo en la Red neuronal (MultilayerPerceptron). Se observó que el

cargo con mayor exposición a los agentes químicos cancerígenos, Benceno y sílice, fue el fabricante de

llantas. Este es el de mayor concentración en el nivel de riesgo “Muy Alto”, especialmente durante el año

2007. Dando respuesta a otro de los objetivos importante para la empresa que los encaminara a la

protección y seguimiento prioritario para este cargo identificado en los agentes cancerígenos Benceno y

sílice.

Otro dato que también resulta importante para la empresa es que los cargos expuestos a formaldehido y

arsénico no deben pagar una pensión especial dado que el comportamiento del riesgo siempre ha sido bajo

o muy bajo en el transcurso de los años, a diferencia de los agentes químicos sílice y Benceno que como

se mencionó su exposición si amerita un pago de pensión especial por parte de la compañía.

También podría gustarte