Reporte de Proyecto

Benemérita Universidad Autónoma de Puebla
Facultad Ciencias de la Computación
Primavera 2022
Minería de datos
NRC: 22726
Docente: Irene Olaya Ayaquica Martínez
Proyecto
Alumno: Oscar Rene Salgado Guzman
Matricula: 201637300
Contenido
RESUMEN ............................................................................. 4
INTRODUCCION .................................................................... 5
WEKA .................................................................................... 5
EXPLORER........................................................................... 5
EXPERIMENTER .................................................................. 6
KNOWLEDGEFLOW ............................................................ 7
EXTRACCION DE CARACTERISTICAS................................... 7
ALGORITMOS ..................................................................... 8
PrincipalComponents ...................................................... 8
CorrelationAttributeEval ................................................. 8
GainRatioAttributeEval ................................................... 8
CLASIFICACIÓN................................................................... 9
Evaluación de los clasificadores ...................................... 9
ALGORITMOS ................................................................... 10
J48 .................................................................................. 10
MultilayerPerceptron .................................................... 10
SMO ............................................................................... 10
AGRUPAMIENTO.............................................................. 11
ALGORITMOS ................................................................... 12
DBScan ........................................................................... 12
EM .................................................................................. 13
K-Means......................................................................... 13
BASE DE DATOS ............................................................... 14
DESCRIPCION DE LA PRACTICA Y RESULTADOS ................. 15

EXTRACCION DE CARACTERISTICAS................................. 15
Principal Components ................................................... 15
CorrelationAttributeEval ............................................... 16
GainRatioAttributeEval ................................................. 17
RESULTADOS EN CLASSIFY ............................................... 18
J48 .................................................................................. 18
MultilayerPerceptron .................................................... 26
SMO ............................................................................... 29
COMPARACIÓN ESTADÍSTICA .......................................... 33
FLUJO DE DATOS .............................................................. 34
AGRUPAMIENTO.............................................................. 45
DBScan ........................................................................... 46
EM .................................................................................. 49
K-Means......................................................................... 55
FLUJO DE DATOS PARA AGRUPAMIENTO ....................... 60
CONCLUSIONES .................................................................. 67
BIBLIOGRAFIA..................................................................... 68
RESUMEN
En este proyecto haremos una uso de la que ya hemos visto en las anteriores
prácticas, usando las herramientas de Weka
1) Seleccionar una base de datos de las disponibles en la carpeta
BasesDatos que se encuentra en materiales de clase en Teams.
2) Usando la herramienta explorer de Weka, aplicar los algoritmos

PrincipalComponents, CorrelationAttributeEval y GainRatioAttributeEval,
sobre la base de datos seleccionada. Una vez obtenido el resultado, guardar
las bases de datos reducidas presionando el botón derecho del mouse sobre
el método correspondiente mostrado en la lista de resultados y
seleccionando la opción "save transformed data".
3) Aplicar tres algoritmos de clasificación sobre la base de datos

seleccionada en el paso 1 y las bases de datos reducidas obtenidas en el paso
2.
4) Usando la herramienta Experimenter de Weka, realizar una prueba

estadística de los tres algoritmos de clasificación seleccionados.
5) Usando la herramienta KnowledgeFlow de Weka, generar el flujo de

datos que represente el procedimiento realizado en los pasos 1, 2 y 3.
6) Aplicar tres algoritmos de agrupamiento sobre la base de datos

seleccionada en el paso 1 y las bases de datos reducidas obtenidas en el paso
2. Recordar que para utilizar las técnicas de clustering en Weka es necesario
ignorar el atributo de la clase, para ello hay que dar click sobre el botón
ignore atributes y seleccionar el atributo de la clase (generalmente es el
último atributo).
7) Usando la herramienta KnowledgeFlow de Weka, generar el flujo de
datos que represente el procedimiento realizado en los pasos 1, 2 y 6.
INTRODUCCION
WEKA
Es un paquete con una extensa colección de algoritmos de Máquinas de
conocimiento desarrollados por la universidad de Waikato (Nueva
Zelanda) implementados en Java, útiles para ser aplicados sobre datos
mediante los interfaces que ofrece o para embeberlos dentro de
cualquier aplicación. Además, Weka contiene las herramientas
necesarias para realizar transformaciones sobre los datos, tareas de
clasificación, regresión, clustering, asociación y visualización. Weka está
diseñado como una herramienta orientada a la extensibilidad por lo que
añadir nuevas funcionalidades es una tarea sencilla.
EXPLORER
La interfaz Explorer (Explorador) dispone de varios paneles que dan acceso a

los componentes principales del banco de trabajo:
• El panel Preprocess dispone de opciones para importar datos de

una base de datos, de un fichero CSV, etc., y para preprocesar estos
datos utilizando los denominados algoritmos de filtrado. Estos
filtros se pueden utilizar para transformar los datos (por ejemplo
convirtiendo datos numéricos en valores discretos) y para eliminar
registros o atributos según ciertos criterios previamente
especificados.
• El panel Classify permite al usuario aplicar algoritmos
de clasificación estadística y análisis de regresión a los conjuntos de
datos resultantes. También permite estimar la exactitud del modelo
predictivo resultante, mediante curvas ROC, etc. Finalmente, tiene
utilidades para visualizar el propio modelo, en aquellos casos en
que esto sea posible, como por ejemplo un árbol de decisión.
• El panel Associate proporciona acceso a las reglas de

asociación aprendidas que intentan identificar todas las
interrelaciones importantes entre los atributos de los datos.
• El panel Cluster da acceso a las técnicas

de clustering o agrupamiento de Weka como por ejemplo el
algoritmo K-means. Este es sólo una implementación del algoritmo
expectación-maximización para aprender una mezcla
de distribuciones normales.
• El panel Selected attributes proporciona algoritmos para identificar

los atributos más predictivos en un conjunto de datos.
• El panel Visualize muestra una matriz de puntos dispersos

(scatterplot) donde cada punto individual puede seleccionarse y
agrandarse para ser analizados en detalle usando varios operadores
de selección.
EXPERIMENTER
El modo experimentador (Experimenter) es un modo muy útil para aplicar uno

o varios métodos de clasificación sobre un gran conjunto de datos y, luego
poder realizar contrastes estadísticos entre ellos y obtener otros índices
estadísticos, permite la comparación sistemática de una ejecución de los
algoritmos predictivos de Weka sobre una colección de conjuntos de datos.
KNOWLEDGEFLOW
Esta última interfaz de Weka es quizá la más cuidada y la que muestra de una
forma más explícita el funcionamiento interno del programa. Su
funcionamiento es gráfico y se basa en situar en el panel de trabajo (zona gris
de la figura 27), elementos base (situados en la parte superior de la ventana)
de manera que creemos un “circuito” que defina nuestro experimento.
EXTRACCION DE CARACTERISTICAS
Esta técnica la utilizamos con el objetivo de identificar qué conjunto de datos

poseen atributos similares con el objetivo, entre otros, de reducir su número.
Para esto utilizamos la opción de select attributes de weka, la cual tenemos
que seguir dos pasos; primero, seleccionar el método para la evaluación de
atributos a través de Atribute Evaluator, que sirve para asignar a cada atributo
un peso específico. El segundo y último paso será elegir el método de
búsqueda.
En un árbol de decisión final se puede observar que no se utilizan todos los
atributos para efectuar una clasificación, esto indica que hay atributos que no
son significativos para la resolución del 12 problema. Existen métodos como
los árboles de decisión, a los cuales no les afecta de manera grave la presencia
de atributos no significativos, ya que en el propio mecanismo de aprendizaje
realizan una selección de atributos por su relevancia. Sin embargo, otros
métodos no realizan este proceso, por lo que si realizamos un filtrado de
atributos previo al aprendizaje podremos mejorar de manera relevante su
precisión, y al mismo tiempo simplificamos los modelos, probablemente los
atributos no relevantes están afectando a la calidad del método.
ALGORITMOS
PrincipalComponents
Realiza un análisis de componentes principales y transformación de los datos.

Úselo junto con una búsqueda de Ranker. La reducción de la dimensionalidad
se logra eligiendo suficientes vectores propios para dar cuenta de algún
porcentaje de la varianza en los datos originales---defectos 0,95 (95%). El ruido
de atributos se puede filtrar transformándose en el espacio de la PC,
eliminando algunos de los peores vectores propios y luego transformándose
de nuevo al espacio original.
CorrelationAttributeEval
Evalúa el valor de un atributo midiendo la correlación (de Pearson) entre éste

y la clase.
Los atributos nominales se consideran valor por valor tratando cada valor
como un indicador. Se llega a una correlación general para un atributo
nominal a través de un promedio ponderado.
GainRatioAttributeEval
Evalúa el valor de un atributo midiendo la relación de ganancia con respecto

a la clase.
CLASIFICACIÓN
La clasificación en minería de datos es una técnica supervisada, donde

generalmente se tiene un atributo llamado clase y se busca determinar si los
atributos pertenecen o no a un determinado concepto, La clasificación, es la
habilidad para adquirir una función que mapee (clasifique) un elemento de
dato a una de entre varias clases predefinidas. Un objeto se describe a través
de un conjunto de características (variables o atributos) X→{X1 , X2 ,…, Xn }.
El objetivo de la tarea de clasificación es clasificar el objeto dentro de una de
las categorías de la clase C = {C1 ,…, Ck }
Evaluación de los clasificadores

Para evaluar los clasificadores se consideraron los siguientes parámetros:
- Classification acccuary (CA): Determina la proporción de ejemplos
correctamente clasificados.
- Precisión y exactitud: La primera se refiere a la dispersión del conjunto
de valores obtenidos de mediciones repetidas de una magnitud. y la
segunda, se refiere a cuán cerca del valor real se encuentra el valor
medido.
- Recall (sensibilidad o exhaustividad): es la proporción de verdaderos
positivos entre todos los casos positivos en los casos.
- Matriz de confusión: La matriz de confusión permite la visualización
del desempeño de un algoritmo que se emplea en aprendizaje
supervisado. Las columnas representan el número de predicciones de
cada clase, mientras que cada fila representa las instancias en la clase
real.
ALGORITMOS
J48
Los arboles de decisión son una técnica de clasificación supervisada,

permite determinar la decisión que se debe tomar siguiendo las condiciones
que se cumplen desde la raíz hasta alguna de sus hojas.
El algoritmo J48, integrado en Weka, es uno de los algoritmos de minería de
datos más extendido en los estudios que incluyen algoritmos de clasificación.
Entre los parámetros estimados bajo este procedimiento, destaca nivel de
confianza establecido para la poda del árbol generado, confidence level,
puesto que influye notoriamente en el tamaño y capacidad de predicción del
árbol construido.
MultilayerPerceptron
Un clasificador que utiliza retropropagación para aprender un

perceptrón multicapa para clasificar instancias. La red se puede construir a
mano o configurar usando una heurística simple. Los parámetros de la red
también se pueden monitorear y modificar durante el tiempo de
entrenamiento. Los nodos de esta red son todos sigmoides (excepto cuando
la clase es numérica, en cuyo caso los nodos de salida se convierten en
unidades lineales sin umbral).
SMO
Implementa el algoritmo de optimización mínima secuencial de John

Platt para entrenar un clasificador de vectores de soporte.
Esta implementación reemplaza globalmente todos los valores faltantes y
transforma los atributos nominales en binarios. También normaliza todos los
atributos por defecto. (En ese caso, los coeficientes en la salida se basan en
los datos normalizados, no en los datos originales; esto es importante para
interpretar el clasificador).
Los problemas de varias clases se resuelven mediante la clasificación por

pares (también conocida como 1 contra 1).
Para obtener estimaciones de probabilidad adecuadas, utilice la opción que

ajusta los modelos de calibración a las salidas de la máquina de vectores de
soporte. En el caso de clases múltiples, las probabilidades pronosticadas se
acoplan utilizando el método de acoplamiento por pares de Hastie y
Tibshirani.
AGRUPAMIENTO
Las técnicas de clustering se emplean para identificar tendencias comunes por

parte de grupos de sujetos en las puntuaciones obtenidas en un conjunto de
variabes, de manera que se puedan establecer gruposde sujetos similares
entre sí y diferentes con respecto al resto. Estas técnicas sirven generalmente
para segmentar a un conjunto de sujetos en grupos en función e sus
características personales, buscando grupos sujetos que se comporten de
manera similar entre sí, esto es, en los que la homogeneidad intragrupo y la
heterogeneidad intergrupo sean máximas.
Los algoritmos de agrupamiento en Weka se encuentran dentro del
paquete clusterers, estos heredan de la superclase abstracta Clusterer.
Además, en este paquete se encuetra la clase
ClusterEvaluation, que es la encargada de la evaluación de un algoritmo de
agrupamiento en específico. Esta clase incluye la
función evaluateClusterer que dado un conjunto de datos (instancias)
devuelve el resultado del agrupamiento para éste. Para ello, esta función llama
a la función clusterInstance de la clase Clusterer, la cual devuelve el número
del grupo al que pertenece una instancia del conjunto de datos.
ALGORITMOS
DBScan
Los principales algoritmos basados en densidad son: el algoritmo para el

agrupamiento espacil basado en densidad para aplicaciones con ruido
(Density-Based Spatial Clustering of Applications with Noise; DBSCAN) (Ester,
Kriegel et al. 1996) y el algoritmo basado en
densidad (DENsity-based CLUstEring; DENCLUE) (Hinneburg and Keim 1998).
Ambos tienen una complejidad O(n log n), con n número de nodos. No
funcionan correctamente con datos de alta dimensionalidad y dependen
altamente de los parámetros iniciales.
DBSCAN trata con datos ruidosos y un grupo se define como un conjunto
maximal de puntos densamente conectados. Los grupos son identificados
mediante la detección de la densidad de los puntos. Regiones con alta
densidad de puntos describen la existencia de grupos mientras que regiones
con una baja densidad de puntos indican grupos ruidosos o puntos fuera de la
curva. Este algoritmo es particularmente usado para agrupar grandes
conjuntos de datos y es capaz de identificar grupos con diferentes tamaños y
formas.
La idea clave de DBSCAN es, para cada punto de un grupo, la vecindad de un
radio dado tiene que contener al menos un número mínimo de puntos, tal que,
la densidad en la vecindad no excesa algún umbral predefinido. Este algoritmo
necesita tres parámetros de entrada: el tamaño de la vecindad, el radio que
delimita el área de la vecindad de un punto y el número mínimo de puntos que
pueden existir en la vecindad.
EM
Los dos algoritmos anteriores presentan el mismo problema de dependencia

del resultado del orden en el que estén presentados los sujetos en la base de
datos, y su tendencia a sobreajustar los clústeres obtenidos en las muestras de
entrenamiento. El algoritmo EM permite un Minería de datos con software
Weka Fernando Martínez Abad 12 acercamiento probabilístico al problema del
clústering, solucionando los mencionados problemas. Ahora, en lugar de
buscar sujetos parecidos entre sí de manera iterativa, lo que se intenta es
buscar el grupo de clústeres más probables dado un conjunto de
puntuaciones. El algoritmo se basa en calcular las probabilidades que existen
de que un sujeto tenga una puntuación en la variable, si se supiera que el
sujeto es miembro de ese clúster. Así, se obtienen k distribuciones de
probabilidad, una por cada uno de los k clústeres. Lo que hace el algoritmo EM
es adivinar inicialmente los parámetros de las distribuciones para, a
continuación, emplear esos parámetros para llevar a cabo el cálculo de las
probabilidades de que cada sujeto pertenezca a un cluster. Posteriormente,
emplea esas probabilidades para re-estimar los parámetros. Y así hasta llegar
al criterio de parada establecido, en base a un valor mínimo de convergencia.
K-Means
Este algoritmo se puede emplear cuando las variables empleadas para llevar
a cabo la agrupación son numéricas, no siendo apropiado en otros casos. Es
el algoritmo que habitualmente se emplea en SPSS para generar grupos. Su
cálculo es muy simple, ya que simplemente asigna al sujeto al clúster al que
esté más cercano, conforme a la distancia euclidea entre el sujeto y el
centroide del clúster, calculado a partir de las puntuaciones de todos los
sujetos del grupo asignado. El proceso se itera, sujeto a sujeto, hasta que
todos los sujetos se mantienen en el mismo centroide.
BASE DE DATOS
La base de datos usada para este reporte es Soybean, el titulo de la BD

es Large Soybean Database, sobre una comparación experimental de dos
métodos de adquisición de conocimientos en el contexto del desarrollo de un
sistema para el diagnóstico de enfermedades de la soja.
Contiene:
- 35 atributos categóricos, algunos nominales y otros ordenados.
- (date, plant-stand, precip, temp, hail, crop-hist, area-damaged,
severity, seed-tmt, germination, plant-growth, leaves, leafspots-
halo, leafspots-marg, leafspot-size, leaf-shread, leaf-malf, leaf-
mild, stem, lodging, stem-cankers, canker-lesion, fruiting-bodies,
external-decay, mycelium, int-discolor, sclerotia, fruit-pods, fruit-
spots, seed, mold-growth, seed-discolor, seed-size, shriveling,
roots)
- 19 clases
(diaporthe-stem-canker, charcoal-rot, rhizoctonia-root-rot,
phytophthora-rot, brown-stem-rot, powdery-mildew, downy-
mildew, brown-spot, bacterial-blight, bacterial-pustule, purple-
seed-stain, anthracnose, phyllosticta-leaf-spot, alternarialeaf-
spot, frog-eye-leaf-spot, diaporthe-pod-&-stem-blight, cyst-
nematode, 2-4-d-injury, herbicide-injury.)
- 683 instancias
DESCRIPCION DE LA PRACTICA Y RESULTADOS
EXTRACCION DE CARACTERISTICAS
Usando la herramienta explorer de Weka, aplicaremos los algoritmos

PrincipalComponents, CorrelationAttributeEval y GainRatioAttributeEval,
sobre la base de datos seleccionada. Una vez obtenido el resultado, guardar
las bases de datos reducidas presionando el botón derecho del ratón sobre el
método correspondiente mostrado en la lista de resultados y seleccionando la
opción "save transformed data".
Principal Components
Ahora que tenemos otras tres bases de datos correspondiente a los

algoritmos aplicados, vamos a aplicar algoritmos de clasificación a cada base
de datos.
RESULTADOS EN CLASSIFY
Algoritmos clasificadores y sus resultados correspondientes aplicados con la

herramienta weka para la base de datos precargada Soybean.arff
J48
Al utilizar este algoritmo nos genera un árbol de decisión implementando

C4.5
Resultados para la base de datos Soybean:
Resultados de algoritmo J48 en base de datos generada con
Resultados de algoritmo J48 en base de datos generada por
MultilayerPerceptron
El algoritmo MultilayerPreceptron utiliza capas, capas de entrada que

representa a los atributos y capas de salida que representan a las clases, y
también capas ocultas, Con weka también podemos una grafico de la red. Es
un algoritmo que genera buenos resultados pero que al tener varios
parámetros hace que su ejecución sea lenta.
Resultados de algoritmo MultilayerPerceptron en base de datos Soybean
Resultados de algoritmo MultilayerPerceptron en base de datos generada
por CorrelationAttributeEval
por GainRatioAttributeEval
por PrincipalComponents
SMO
(optimización mínima secuencial) Implementa Maquina de vectores de
soporte. Lo que hace este algoritmo es entrenar un clasificador de vector de
soporte.
Resultados de algoritmo SMO en base de datos Soybean
Resultados de algoritmo SMO en base de datos generada por
Resultados de algoritmo SMO en base de datos generada por
COMPARACIÓN ESTADÍSTICA
En este apartado vamos a mostrar una comparación estadística de los

diferentes algoritmos clasificación aplicados a las base de datos seleccionada.
Para ello utilizaremos la herramienta experimenter de Weka. El resultado
que obtuvimos con la herramienta exprimenter es la siguiente:
Lo siguientes graficos representa los resultados:
Multilayer
SMO J48
Perceptron
93.35 93.10 91.78

Experimenter
93.5 93.35
93.1
93
92.5
92 91.78
91.5
91
90.5
Multilayer Perceptron SMO J48
Podemos observar que el los algoritmos que obtienen mejores resultados

para la base de datos que ocupamos son en el siguiente orden:
- MultilayerPerceptron 93.35
- SMO 93.1
- J48 91.78
FLUJO DE DATOS
Usando la herramienta KnowledgeFlow de Weka, generaremos el flujo de

datos que represente el procedimiento realizado anteriormente.
Lo siguiente representa la Base de datos Soybean con los algoritmos de
clasificación que utilizamos a lo largo de este reporte, podemos notar la
estructura del gráfico y los resultados.
Resultados de Weka KnowledgeFlow de base de datos
CorrelationAttributeEval con lo algortimos de clasificación.
GainRatioAttributeEval con lo algortimos de clasificación.
PrincipalComponents con lo algortimos de clasificación.
De los resultados de la herramienta KnowledgeFlow podemos observar que
son los mismos resultados que obtuvimos en classify pero aquí podemos
observar como el proceso que se hace al utilizar un algoritmo de clasificación.
AGRUPAMIENTO
Ahora vamos a aplicar algoritmos de agrupamiento sobre las bases de datos

que venimos ocupando durante esta práctica. Para ello vamos a ocupar el
apartado de cluster de la herramienta Explorer de Weka, para utilizar las
técnicas de clustering en Weka es necesario ignorar el atributo de la clase.
Vamos a aplicar los algoritmos antes descritos los cuales son DBScan, EM y
K-Means.
DBScan
Resultados de algoritmo DBScan en base de datos SoyBean
Resultados de algoritmo DBScan en base de datos generada por

PrincipalComponents
EM
Resultados de algoritmo EM en base de datos Soybean

Resultados de algoritmo EM en base de datos generada por
PrincipalComponents
K-Means
Resultados de algoritmo K-Means en base de datos SoyBean

Resultados de algoritmo K-Means en base de datos generada por
PrincipalComponents
FLUJO DE DATOS PARA AGRUPAMIENTO
Ahora con la herramienta KnowledgeFlow vamos a generar el flujo de datos
para los algoritmos de agrupamiento
DBScan
Resultados para base de datos SoyBean

Resultados para base de datos generada por CorrelationAttributeEval y
EM
Resultados para base de datos generada por PrincipalComponents
K-Means
Resultados para base de datos generada por PrincipalComponents
De igual forma que los clasificadores en este parte también obtuvimos los
mismos resultados del apartado de clustering con los de la herramienta
KnowledgeFlow.
CONCLUSIONES
En este proyecto pudimos observar a grandes rasgos las técnicas de

clasificación y agrupamiento, que permiten explorar grandes bases de datos,
de manera automática o semiautomática, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el comportamiento de
los datos en un determinado contexto. También usamos las principales
características y herramientas de Weka.
SMO es el algoritmo que mejor resultados se obtienen para la base de datos
Soybean. Aunque con todos los algoritmos obtenemos más de un %90 de
instancias correctamente clasificadas. Se pudo evidenciar que los resultados
en los clasificadores mediante los diferentes métodos no varían en
proporciones significativas. También con las bases de datos reducidas no
difieren tanto el porcentaje de precisión con los algoritmos que utilizamos los
cuales fueron PrincipalComponents, CorrelationAttributeEval y
GainRatioAttributeEval. Pues en sus respectivos resultados obtuvimos
precisión casi idéntica.
BIBLIOGRAFIA
• Ian H. Witten, Eibe Frank, Len Trigg, Mark Hall Geoffrey Holmes, and Sally Jo
Cunningham. Weka: Practical machine learning tools and techniques with java
implementations. Department of Computer Science. University of Waikato. New
Zealand. http://www.cs.waikato.ac.nz/~ml/publications/1999/99IHW-EF-LT-MH-
GH-SJC%-Tools-Java.pdf
• Aplicación de técnicas de minería de datos son software weka.

https://knowledgesociety.usal.es/sites/default/files/Apuntes-curso-Weka.pdf
• INTRODUCCIÓN A LA MINERÍA DE DATOS CON WEKA: APLICACIÓN A UN PROBLEMA

ECONÓMICO. Universidad de Jaén. 2016.
https://tauja.ujaen.es/bitstream/10953.1/6984/1/TFG%20-
%20navas%20moreno%2C%20%20Francisco.pdf
• MÉTODOS DE CLASIFICACIÓN EN MINERÍA DE DATOS METEOROLÓGICOS, Escuela superior

politécnica de chimborazo, Riobamba. Ecuador
http://ceaa.espoch.edu.ec:8080/revista.perfiles/faces/Articulos/Perfiles20Art13.pdf
• Manual de WEKA, Diego García Morate.

https://knowledgesociety.usal.es/sites/default/files/MANUAL%20WEKA.pdf
• WekaMOOC - YouTube.
https://www.youtube.com/channel/UCXYXSGq6Oz21b43hpW2DCvw
• Packages weka, https://weka.sourceforge.io/doc.dev/overview-summary.html

Reporte de Proyecto

Cargado por

Copyright:

Formatos disponibles

Reporte de Proyecto

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Reporte de Proyecto

Cargado por

Copyright:

Formatos disponibles

Benemérita Universidad Autónoma de Puebla

Facultad Ciencias de la Computación

DESCRIPCION DE LA PRACTICA Y RESULTADOS ................. 15

2) Usando la herramienta explorer de Weka, aplicar los algoritmos

3) Aplicar tres algoritmos de clasificación sobre la base de datos

4) Usando la herramienta Experimenter de Weka, realizar una prueba

5) Usando la herramienta KnowledgeFlow de Weka, generar el flujo de

6) Aplicar tres algoritmos de agrupamiento sobre la base de datos

La interfaz Explorer (Explorador) dispone de varios paneles que dan acceso a

• El panel Preprocess dispone de opciones para importar datos de

• El panel Associate proporciona acceso a las reglas de

• El panel Cluster da acceso a las técnicas

• El panel Selected attributes proporciona algoritmos para identificar

• El panel Visualize muestra una matriz de puntos dispersos

El modo experimentador (Experimenter) es un modo muy útil para aplicar uno

Esta técnica la utilizamos con el objetivo de identificar qué conjunto de datos

Realiza un análisis de componentes principales y transformación de los datos.

Evalúa el valor de un atributo midiendo la correlación (de Pearson) entre éste

Evalúa el valor de un atributo midiendo la relación de ganancia con respecto

La clasificación en minería de datos es una técnica supervisada, donde

Evaluación de los clasificadores

Los arboles de decisión son una técnica de clasificación supervisada,

Un clasificador que utiliza retropropagación para aprender un

Implementa el algoritmo de optimización mínima secuencial de John

Los problemas de varias clases se resuelven mediante la clasificación por

Para obtener estimaciones de probabilidad adecuadas, utilice la opción que

Las técnicas de clustering se emplean para identificar tendencias comunes por

Los principales algoritmos basados en densidad son: el algoritmo para el

Los dos algoritmos anteriores presentan el mismo problema de dependencia

La base de datos usada para este reporte es Soybean, el titulo de la BD

Usando la herramienta explorer de Weka, aplicaremos los algoritmos

Ahora que tenemos otras tres bases de datos correspondiente a los

Algoritmos clasificadores y sus resultados correspondientes aplicados con la

Al utilizar este algoritmo nos genera un árbol de decisión implementando

El algoritmo MultilayerPreceptron utiliza capas, capas de entrada que

En este apartado vamos a mostrar una comparación estadística de los

Lo siguientes graficos representa los resultados:

93.35 93.10 91.78

Podemos observar que el los algoritmos que obtienen mejores resultados

Usando la herramienta KnowledgeFlow de Weka, generaremos el flujo de

Ahora vamos a aplicar algoritmos de agrupamiento sobre las bases de datos

Resultados de algoritmo DBScan en base de datos SoyBean

Resultados de algoritmo DBScan en base de datos generada por

Resultados de algoritmo EM en base de datos Soybean

Resultados de algoritmo K-Means en base de datos SoyBean

Resultados para base de datos SoyBean

En este proyecto pudimos observar a grandes rasgos las técnicas de

• Aplicación de técnicas de minería de datos son software weka.

• INTRODUCCIÓN A LA MINERÍA DE DATOS CON WEKA: APLICACIÓN A UN PROBLEMA

• MÉTODOS DE CLASIFICACIÓN EN MINERÍA DE DATOS METEOROLÓGICOS, Escuela superior

• Manual de WEKA, Diego García Morate.

• Packages weka, https://weka.sourceforge.io/doc.dev/overview-summary.html

También podría gustarte