Reporte de Proyecto
Reporte de Proyecto
Reporte de Proyecto
Primavera 2022
Minería de datos
NRC: 22726
Docente: Irene Olaya Ayaquica Martínez
Proyecto
Alumno: Oscar Rene Salgado Guzman
Matricula: 201637300
Contenido
RESUMEN ............................................................................. 4
INTRODUCCION .................................................................... 5
WEKA .................................................................................... 5
EXPLORER........................................................................... 5
EXPERIMENTER .................................................................. 6
KNOWLEDGEFLOW ............................................................ 7
EXTRACCION DE CARACTERISTICAS................................... 7
ALGORITMOS ..................................................................... 8
PrincipalComponents ...................................................... 8
CorrelationAttributeEval ................................................. 8
GainRatioAttributeEval ................................................... 8
CLASIFICACIÓN................................................................... 9
Evaluación de los clasificadores ...................................... 9
ALGORITMOS ................................................................... 10
J48 .................................................................................. 10
MultilayerPerceptron .................................................... 10
SMO ............................................................................... 10
AGRUPAMIENTO.............................................................. 11
ALGORITMOS ................................................................... 12
DBScan ........................................................................... 12
EM .................................................................................. 13
K-Means......................................................................... 13
BASE DE DATOS ............................................................... 14
En este proyecto haremos una uso de la que ya hemos visto en las anteriores
prácticas, usando las herramientas de Weka
1) Seleccionar una base de datos de las disponibles en la carpeta
BasesDatos que se encuentra en materiales de clase en Teams.
INTRODUCCION
WEKA
Es un paquete con una extensa colección de algoritmos de Máquinas de
conocimiento desarrollados por la universidad de Waikato (Nueva
Zelanda) implementados en Java, útiles para ser aplicados sobre datos
mediante los interfaces que ofrece o para embeberlos dentro de
cualquier aplicación. Además, Weka contiene las herramientas
necesarias para realizar transformaciones sobre los datos, tareas de
clasificación, regresión, clustering, asociación y visualización. Weka está
diseñado como una herramienta orientada a la extensibilidad por lo que
añadir nuevas funcionalidades es una tarea sencilla.
EXPLORER
EXPERIMENTER
Esta última interfaz de Weka es quizá la más cuidada y la que muestra de una
forma más explícita el funcionamiento interno del programa. Su
funcionamiento es gráfico y se basa en situar en el panel de trabajo (zona gris
de la figura 27), elementos base (situados en la parte superior de la ventana)
de manera que creemos un “circuito” que defina nuestro experimento.
EXTRACCION DE CARACTERISTICAS
PrincipalComponents
CorrelationAttributeEval
Los atributos nominales se consideran valor por valor tratando cada valor
como un indicador. Se llega a una correlación general para un atributo
nominal a través de un promedio ponderado.
GainRatioAttributeEval
J48
MultilayerPerceptron
SMO
AGRUPAMIENTO
ALGORITMOS
DBScan
K-Means
Este algoritmo se puede emplear cuando las variables empleadas para llevar
a cabo la agrupación son numéricas, no siendo apropiado en otros casos. Es
el algoritmo que habitualmente se emplea en SPSS para generar grupos. Su
cálculo es muy simple, ya que simplemente asigna al sujeto al clúster al que
esté más cercano, conforme a la distancia euclidea entre el sujeto y el
centroide del clúster, calculado a partir de las puntuaciones de todos los
sujetos del grupo asignado. El proceso se itera, sujeto a sujeto, hasta que
todos los sujetos se mantienen en el mismo centroide.
BASE DE DATOS
- 19 clases
(diaporthe-stem-canker, charcoal-rot, rhizoctonia-root-rot,
phytophthora-rot, brown-stem-rot, powdery-mildew, downy-
mildew, brown-spot, bacterial-blight, bacterial-pustule, purple-
seed-stain, anthracnose, phyllosticta-leaf-spot, alternarialeaf-
spot, frog-eye-leaf-spot, diaporthe-pod-&-stem-blight, cyst-
nematode, 2-4-d-injury, herbicide-injury.)
- 683 instancias
DESCRIPCION DE LA PRACTICA Y RESULTADOS
EXTRACCION DE CARACTERISTICAS
Principal Components
CorrelationAttributeEval
GainRatioAttributeEval
J48
SMO
(optimización mínima secuencial) Implementa Maquina de vectores de
soporte. Lo que hace este algoritmo es entrenar un clasificador de vector de
soporte.
Resultados de algoritmo SMO en base de datos Soybean
Resultados de algoritmo SMO en base de datos generada por
CorrelationAttributeEval
Resultados de algoritmo SMO en base de datos generada por
GainRatioAttributeEval
COMPARACIÓN ESTADÍSTICA
Multilayer
SMO J48
Perceptron
92.5
92 91.78
91.5
91
90.5
Multilayer Perceptron SMO J48
FLUJO DE DATOS
AGRUPAMIENTO
DBScan
EM
Resultados para base de datos generada por PrincipalComponents
K-Means
Resultados para base de datos generada por PrincipalComponents
De igual forma que los clasificadores en este parte también obtuvimos los
mismos resultados del apartado de clustering con los de la herramienta
KnowledgeFlow.
CONCLUSIONES
• Ian H. Witten, Eibe Frank, Len Trigg, Mark Hall Geoffrey Holmes, and Sally Jo
Cunningham. Weka: Practical machine learning tools and techniques with java
implementations. Department of Computer Science. University of Waikato. New
Zealand. http://www.cs.waikato.ac.nz/~ml/publications/1999/99IHW-EF-LT-MH-
GH-SJC%-Tools-Java.pdf
• WekaMOOC - YouTube.
https://www.youtube.com/channel/UCXYXSGq6Oz21b43hpW2DCvw