Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Reporte de Proyecto

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 68

Benemérita Universidad Autónoma de Puebla

Facultad Ciencias de la Computación

Primavera 2022
Minería de datos
NRC: 22726
Docente: Irene Olaya Ayaquica Martínez

Proyecto
Alumno: Oscar Rene Salgado Guzman
Matricula: 201637300
Contenido
RESUMEN ............................................................................. 4
INTRODUCCION .................................................................... 5
WEKA .................................................................................... 5
EXPLORER........................................................................... 5
EXPERIMENTER .................................................................. 6
KNOWLEDGEFLOW ............................................................ 7
EXTRACCION DE CARACTERISTICAS................................... 7
ALGORITMOS ..................................................................... 8
PrincipalComponents ...................................................... 8
CorrelationAttributeEval ................................................. 8
GainRatioAttributeEval ................................................... 8
CLASIFICACIÓN................................................................... 9
Evaluación de los clasificadores ...................................... 9
ALGORITMOS ................................................................... 10
J48 .................................................................................. 10
MultilayerPerceptron .................................................... 10
SMO ............................................................................... 10
AGRUPAMIENTO.............................................................. 11
ALGORITMOS ................................................................... 12
DBScan ........................................................................... 12
EM .................................................................................. 13
K-Means......................................................................... 13
BASE DE DATOS ............................................................... 14

DESCRIPCION DE LA PRACTICA Y RESULTADOS ................. 15


EXTRACCION DE CARACTERISTICAS................................. 15
Principal Components ................................................... 15
CorrelationAttributeEval ............................................... 16
GainRatioAttributeEval ................................................. 17
RESULTADOS EN CLASSIFY ............................................... 18
J48 .................................................................................. 18
MultilayerPerceptron .................................................... 26
SMO ............................................................................... 29
COMPARACIÓN ESTADÍSTICA .......................................... 33
FLUJO DE DATOS .............................................................. 34
AGRUPAMIENTO.............................................................. 45
DBScan ........................................................................... 46
EM .................................................................................. 49
K-Means......................................................................... 55
FLUJO DE DATOS PARA AGRUPAMIENTO ....................... 60
CONCLUSIONES .................................................................. 67
BIBLIOGRAFIA..................................................................... 68
RESUMEN

En este proyecto haremos una uso de la que ya hemos visto en las anteriores
prácticas, usando las herramientas de Weka
1) Seleccionar una base de datos de las disponibles en la carpeta
BasesDatos que se encuentra en materiales de clase en Teams.

2) Usando la herramienta explorer de Weka, aplicar los algoritmos


PrincipalComponents, CorrelationAttributeEval y GainRatioAttributeEval,
sobre la base de datos seleccionada. Una vez obtenido el resultado, guardar
las bases de datos reducidas presionando el botón derecho del mouse sobre
el método correspondiente mostrado en la lista de resultados y
seleccionando la opción "save transformed data".

3) Aplicar tres algoritmos de clasificación sobre la base de datos


seleccionada en el paso 1 y las bases de datos reducidas obtenidas en el paso
2.

4) Usando la herramienta Experimenter de Weka, realizar una prueba


estadística de los tres algoritmos de clasificación seleccionados.

5) Usando la herramienta KnowledgeFlow de Weka, generar el flujo de


datos que represente el procedimiento realizado en los pasos 1, 2 y 3.

6) Aplicar tres algoritmos de agrupamiento sobre la base de datos


seleccionada en el paso 1 y las bases de datos reducidas obtenidas en el paso
2. Recordar que para utilizar las técnicas de clustering en Weka es necesario
ignorar el atributo de la clase, para ello hay que dar click sobre el botón
ignore atributes y seleccionar el atributo de la clase (generalmente es el
último atributo).
7) Usando la herramienta KnowledgeFlow de Weka, generar el flujo de
datos que represente el procedimiento realizado en los pasos 1, 2 y 6.

INTRODUCCION
WEKA
Es un paquete con una extensa colección de algoritmos de Máquinas de
conocimiento desarrollados por la universidad de Waikato (Nueva
Zelanda) implementados en Java, útiles para ser aplicados sobre datos
mediante los interfaces que ofrece o para embeberlos dentro de
cualquier aplicación. Además, Weka contiene las herramientas
necesarias para realizar transformaciones sobre los datos, tareas de
clasificación, regresión, clustering, asociación y visualización. Weka está
diseñado como una herramienta orientada a la extensibilidad por lo que
añadir nuevas funcionalidades es una tarea sencilla.

EXPLORER

La interfaz Explorer (Explorador) dispone de varios paneles que dan acceso a


los componentes principales del banco de trabajo:

• El panel Preprocess dispone de opciones para importar datos de


una base de datos, de un fichero CSV, etc., y para preprocesar estos
datos utilizando los denominados algoritmos de filtrado. Estos
filtros se pueden utilizar para transformar los datos (por ejemplo
convirtiendo datos numéricos en valores discretos) y para eliminar
registros o atributos según ciertos criterios previamente
especificados.
• El panel Classify permite al usuario aplicar algoritmos
de clasificación estadística y análisis de regresión a los conjuntos de
datos resultantes. También permite estimar la exactitud del modelo
predictivo resultante, mediante curvas ROC, etc. Finalmente, tiene
utilidades para visualizar el propio modelo, en aquellos casos en
que esto sea posible, como por ejemplo un árbol de decisión.

• El panel Associate proporciona acceso a las reglas de


asociación aprendidas que intentan identificar todas las
interrelaciones importantes entre los atributos de los datos.

• El panel Cluster da acceso a las técnicas


de clustering o agrupamiento de Weka como por ejemplo el
algoritmo K-means. Este es sólo una implementación del algoritmo
expectación-maximización para aprender una mezcla
de distribuciones normales.

• El panel Selected attributes proporciona algoritmos para identificar


los atributos más predictivos en un conjunto de datos.

• El panel Visualize muestra una matriz de puntos dispersos


(scatterplot) donde cada punto individual puede seleccionarse y
agrandarse para ser analizados en detalle usando varios operadores
de selección.

EXPERIMENTER

El modo experimentador (Experimenter) es un modo muy útil para aplicar uno


o varios métodos de clasificación sobre un gran conjunto de datos y, luego
poder realizar contrastes estadísticos entre ellos y obtener otros índices
estadísticos, permite la comparación sistemática de una ejecución de los
algoritmos predictivos de Weka sobre una colección de conjuntos de datos.
KNOWLEDGEFLOW

Esta última interfaz de Weka es quizá la más cuidada y la que muestra de una
forma más explícita el funcionamiento interno del programa. Su
funcionamiento es gráfico y se basa en situar en el panel de trabajo (zona gris
de la figura 27), elementos base (situados en la parte superior de la ventana)
de manera que creemos un “circuito” que defina nuestro experimento.

EXTRACCION DE CARACTERISTICAS

Esta técnica la utilizamos con el objetivo de identificar qué conjunto de datos


poseen atributos similares con el objetivo, entre otros, de reducir su número.
Para esto utilizamos la opción de select attributes de weka, la cual tenemos
que seguir dos pasos; primero, seleccionar el método para la evaluación de
atributos a través de Atribute Evaluator, que sirve para asignar a cada atributo
un peso específico. El segundo y último paso será elegir el método de
búsqueda.
En un árbol de decisión final se puede observar que no se utilizan todos los
atributos para efectuar una clasificación, esto indica que hay atributos que no
son significativos para la resolución del 12 problema. Existen métodos como
los árboles de decisión, a los cuales no les afecta de manera grave la presencia
de atributos no significativos, ya que en el propio mecanismo de aprendizaje
realizan una selección de atributos por su relevancia. Sin embargo, otros
métodos no realizan este proceso, por lo que si realizamos un filtrado de
atributos previo al aprendizaje podremos mejorar de manera relevante su
precisión, y al mismo tiempo simplificamos los modelos, probablemente los
atributos no relevantes están afectando a la calidad del método.
ALGORITMOS

PrincipalComponents

Realiza un análisis de componentes principales y transformación de los datos.


Úselo junto con una búsqueda de Ranker. La reducción de la dimensionalidad
se logra eligiendo suficientes vectores propios para dar cuenta de algún
porcentaje de la varianza en los datos originales---defectos 0,95 (95%). El ruido
de atributos se puede filtrar transformándose en el espacio de la PC,
eliminando algunos de los peores vectores propios y luego transformándose
de nuevo al espacio original.

CorrelationAttributeEval

Evalúa el valor de un atributo midiendo la correlación (de Pearson) entre éste


y la clase.

Los atributos nominales se consideran valor por valor tratando cada valor
como un indicador. Se llega a una correlación general para un atributo
nominal a través de un promedio ponderado.

GainRatioAttributeEval

Evalúa el valor de un atributo midiendo la relación de ganancia con respecto


a la clase.
CLASIFICACIÓN

La clasificación en minería de datos es una técnica supervisada, donde


generalmente se tiene un atributo llamado clase y se busca determinar si los
atributos pertenecen o no a un determinado concepto, La clasificación, es la
habilidad para adquirir una función que mapee (clasifique) un elemento de
dato a una de entre varias clases predefinidas. Un objeto se describe a través
de un conjunto de características (variables o atributos) X→{X1 , X2 ,…, Xn }.
El objetivo de la tarea de clasificación es clasificar el objeto dentro de una de
las categorías de la clase C = {C1 ,…, Ck }

Evaluación de los clasificadores


Para evaluar los clasificadores se consideraron los siguientes parámetros:
- Classification acccuary (CA): Determina la proporción de ejemplos
correctamente clasificados.
- Precisión y exactitud: La primera se refiere a la dispersión del conjunto
de valores obtenidos de mediciones repetidas de una magnitud. y la
segunda, se refiere a cuán cerca del valor real se encuentra el valor
medido.
- Recall (sensibilidad o exhaustividad): es la proporción de verdaderos
positivos entre todos los casos positivos en los casos.
- Matriz de confusión: La matriz de confusión permite la visualización
del desempeño de un algoritmo que se emplea en aprendizaje
supervisado. Las columnas representan el número de predicciones de
cada clase, mientras que cada fila representa las instancias en la clase
real.
ALGORITMOS

J48

Los arboles de decisión son una técnica de clasificación supervisada,


permite determinar la decisión que se debe tomar siguiendo las condiciones
que se cumplen desde la raíz hasta alguna de sus hojas.
El algoritmo J48, integrado en Weka, es uno de los algoritmos de minería de
datos más extendido en los estudios que incluyen algoritmos de clasificación.
Entre los parámetros estimados bajo este procedimiento, destaca nivel de
confianza establecido para la poda del árbol generado, confidence level,
puesto que influye notoriamente en el tamaño y capacidad de predicción del
árbol construido.

MultilayerPerceptron

Un clasificador que utiliza retropropagación para aprender un


perceptrón multicapa para clasificar instancias. La red se puede construir a
mano o configurar usando una heurística simple. Los parámetros de la red
también se pueden monitorear y modificar durante el tiempo de
entrenamiento. Los nodos de esta red son todos sigmoides (excepto cuando
la clase es numérica, en cuyo caso los nodos de salida se convierten en
unidades lineales sin umbral).

SMO

Implementa el algoritmo de optimización mínima secuencial de John


Platt para entrenar un clasificador de vectores de soporte.
Esta implementación reemplaza globalmente todos los valores faltantes y
transforma los atributos nominales en binarios. También normaliza todos los
atributos por defecto. (En ese caso, los coeficientes en la salida se basan en
los datos normalizados, no en los datos originales; esto es importante para
interpretar el clasificador).

Los problemas de varias clases se resuelven mediante la clasificación por


pares (también conocida como 1 contra 1).

Para obtener estimaciones de probabilidad adecuadas, utilice la opción que


ajusta los modelos de calibración a las salidas de la máquina de vectores de
soporte. En el caso de clases múltiples, las probabilidades pronosticadas se
acoplan utilizando el método de acoplamiento por pares de Hastie y
Tibshirani.

AGRUPAMIENTO

Las técnicas de clustering se emplean para identificar tendencias comunes por


parte de grupos de sujetos en las puntuaciones obtenidas en un conjunto de
variabes, de manera que se puedan establecer gruposde sujetos similares
entre sí y diferentes con respecto al resto. Estas técnicas sirven generalmente
para segmentar a un conjunto de sujetos en grupos en función e sus
características personales, buscando grupos sujetos que se comporten de
manera similar entre sí, esto es, en los que la homogeneidad intragrupo y la
heterogeneidad intergrupo sean máximas.
Los algoritmos de agrupamiento en Weka se encuentran dentro del
paquete clusterers, estos heredan de la superclase abstracta Clusterer.
Además, en este paquete se encuetra la clase
ClusterEvaluation, que es la encargada de la evaluación de un algoritmo de
agrupamiento en específico. Esta clase incluye la
función evaluateClusterer que dado un conjunto de datos (instancias)
devuelve el resultado del agrupamiento para éste. Para ello, esta función llama
a la función clusterInstance de la clase Clusterer, la cual devuelve el número
del grupo al que pertenece una instancia del conjunto de datos.

ALGORITMOS

DBScan

Los principales algoritmos basados en densidad son: el algoritmo para el


agrupamiento espacil basado en densidad para aplicaciones con ruido
(Density-Based Spatial Clustering of Applications with Noise; DBSCAN) (Ester,
Kriegel et al. 1996) y el algoritmo basado en
densidad (DENsity-based CLUstEring; DENCLUE) (Hinneburg and Keim 1998).
Ambos tienen una complejidad O(n log n), con n número de nodos. No
funcionan correctamente con datos de alta dimensionalidad y dependen
altamente de los parámetros iniciales.
DBSCAN trata con datos ruidosos y un grupo se define como un conjunto
maximal de puntos densamente conectados. Los grupos son identificados
mediante la detección de la densidad de los puntos. Regiones con alta
densidad de puntos describen la existencia de grupos mientras que regiones
con una baja densidad de puntos indican grupos ruidosos o puntos fuera de la
curva. Este algoritmo es particularmente usado para agrupar grandes
conjuntos de datos y es capaz de identificar grupos con diferentes tamaños y
formas.
La idea clave de DBSCAN es, para cada punto de un grupo, la vecindad de un
radio dado tiene que contener al menos un número mínimo de puntos, tal que,
la densidad en la vecindad no excesa algún umbral predefinido. Este algoritmo
necesita tres parámetros de entrada: el tamaño de la vecindad, el radio que
delimita el área de la vecindad de un punto y el número mínimo de puntos que
pueden existir en la vecindad.
EM

Los dos algoritmos anteriores presentan el mismo problema de dependencia


del resultado del orden en el que estén presentados los sujetos en la base de
datos, y su tendencia a sobreajustar los clústeres obtenidos en las muestras de
entrenamiento. El algoritmo EM permite un Minería de datos con software
Weka Fernando Martínez Abad 12 acercamiento probabilístico al problema del
clústering, solucionando los mencionados problemas. Ahora, en lugar de
buscar sujetos parecidos entre sí de manera iterativa, lo que se intenta es
buscar el grupo de clústeres más probables dado un conjunto de
puntuaciones. El algoritmo se basa en calcular las probabilidades que existen
de que un sujeto tenga una puntuación en la variable, si se supiera que el
sujeto es miembro de ese clúster. Así, se obtienen k distribuciones de
probabilidad, una por cada uno de los k clústeres. Lo que hace el algoritmo EM
es adivinar inicialmente los parámetros de las distribuciones para, a
continuación, emplear esos parámetros para llevar a cabo el cálculo de las
probabilidades de que cada sujeto pertenezca a un cluster. Posteriormente,
emplea esas probabilidades para re-estimar los parámetros. Y así hasta llegar
al criterio de parada establecido, en base a un valor mínimo de convergencia.

K-Means

Este algoritmo se puede emplear cuando las variables empleadas para llevar
a cabo la agrupación son numéricas, no siendo apropiado en otros casos. Es
el algoritmo que habitualmente se emplea en SPSS para generar grupos. Su
cálculo es muy simple, ya que simplemente asigna al sujeto al clúster al que
esté más cercano, conforme a la distancia euclidea entre el sujeto y el
centroide del clúster, calculado a partir de las puntuaciones de todos los
sujetos del grupo asignado. El proceso se itera, sujeto a sujeto, hasta que
todos los sujetos se mantienen en el mismo centroide.
BASE DE DATOS

La base de datos usada para este reporte es Soybean, el titulo de la BD


es Large Soybean Database, sobre una comparación experimental de dos
métodos de adquisición de conocimientos en el contexto del desarrollo de un
sistema para el diagnóstico de enfermedades de la soja.
Contiene:
- 35 atributos categóricos, algunos nominales y otros ordenados.
- (date, plant-stand, precip, temp, hail, crop-hist, area-damaged,
severity, seed-tmt, germination, plant-growth, leaves, leafspots-
halo, leafspots-marg, leafspot-size, leaf-shread, leaf-malf, leaf-
mild, stem, lodging, stem-cankers, canker-lesion, fruiting-bodies,
external-decay, mycelium, int-discolor, sclerotia, fruit-pods, fruit-
spots, seed, mold-growth, seed-discolor, seed-size, shriveling,
roots)

- 19 clases
(diaporthe-stem-canker, charcoal-rot, rhizoctonia-root-rot,
phytophthora-rot, brown-stem-rot, powdery-mildew, downy-
mildew, brown-spot, bacterial-blight, bacterial-pustule, purple-
seed-stain, anthracnose, phyllosticta-leaf-spot, alternarialeaf-
spot, frog-eye-leaf-spot, diaporthe-pod-&-stem-blight, cyst-
nematode, 2-4-d-injury, herbicide-injury.)

- 683 instancias
DESCRIPCION DE LA PRACTICA Y RESULTADOS

EXTRACCION DE CARACTERISTICAS

Usando la herramienta explorer de Weka, aplicaremos los algoritmos


PrincipalComponents, CorrelationAttributeEval y GainRatioAttributeEval,
sobre la base de datos seleccionada. Una vez obtenido el resultado, guardar
las bases de datos reducidas presionando el botón derecho del ratón sobre el
método correspondiente mostrado en la lista de resultados y seleccionando la
opción "save transformed data".

Principal Components
CorrelationAttributeEval
GainRatioAttributeEval

Ahora que tenemos otras tres bases de datos correspondiente a los


algoritmos aplicados, vamos a aplicar algoritmos de clasificación a cada base
de datos.
RESULTADOS EN CLASSIFY

Algoritmos clasificadores y sus resultados correspondientes aplicados con la


herramienta weka para la base de datos precargada Soybean.arff

J48

Al utilizar este algoritmo nos genera un árbol de decisión implementando


C4.5
Resultados para la base de datos Soybean:
Resultados de algoritmo J48 en base de datos generada con
CorrelationAttributeEval
Resultados de algoritmo J48 en base de datos generada por
GainRatioAttributeEval
MultilayerPerceptron

El algoritmo MultilayerPreceptron utiliza capas, capas de entrada que


representa a los atributos y capas de salida que representan a las clases, y
también capas ocultas, Con weka también podemos una grafico de la red. Es
un algoritmo que genera buenos resultados pero que al tener varios
parámetros hace que su ejecución sea lenta.
Resultados de algoritmo MultilayerPerceptron en base de datos Soybean
Resultados de algoritmo MultilayerPerceptron en base de datos generada
por CorrelationAttributeEval
Resultados de algoritmo MultilayerPerceptron en base de datos generada
por GainRatioAttributeEval
Resultados de algoritmo MultilayerPerceptron en base de datos generada
por PrincipalComponents

SMO
(optimización mínima secuencial) Implementa Maquina de vectores de
soporte. Lo que hace este algoritmo es entrenar un clasificador de vector de
soporte.
Resultados de algoritmo SMO en base de datos Soybean
Resultados de algoritmo SMO en base de datos generada por
CorrelationAttributeEval
Resultados de algoritmo SMO en base de datos generada por
GainRatioAttributeEval
COMPARACIÓN ESTADÍSTICA

En este apartado vamos a mostrar una comparación estadística de los


diferentes algoritmos clasificación aplicados a las base de datos seleccionada.
Para ello utilizaremos la herramienta experimenter de Weka. El resultado
que obtuvimos con la herramienta exprimenter es la siguiente:

Lo siguientes graficos representa los resultados:

Multilayer
SMO J48
Perceptron

93.35 93.10 91.78


Experimenter
93.5 93.35
93.1
93

92.5

92 91.78

91.5

91

90.5
Multilayer Perceptron SMO J48

Podemos observar que el los algoritmos que obtienen mejores resultados


para la base de datos que ocupamos son en el siguiente orden:
- MultilayerPerceptron 93.35
- SMO 93.1
- J48 91.78

FLUJO DE DATOS

Usando la herramienta KnowledgeFlow de Weka, generaremos el flujo de


datos que represente el procedimiento realizado anteriormente.
Lo siguiente representa la Base de datos Soybean con los algoritmos de
clasificación que utilizamos a lo largo de este reporte, podemos notar la
estructura del gráfico y los resultados.
Resultados de Weka KnowledgeFlow de base de datos
CorrelationAttributeEval con lo algortimos de clasificación.
Resultados de Weka KnowledgeFlow de base de datos
GainRatioAttributeEval con lo algortimos de clasificación.
Resultados de Weka KnowledgeFlow de base de datos
PrincipalComponents con lo algortimos de clasificación.
De los resultados de la herramienta KnowledgeFlow podemos observar que
son los mismos resultados que obtuvimos en classify pero aquí podemos
observar como el proceso que se hace al utilizar un algoritmo de clasificación.

AGRUPAMIENTO

Ahora vamos a aplicar algoritmos de agrupamiento sobre las bases de datos


que venimos ocupando durante esta práctica. Para ello vamos a ocupar el
apartado de cluster de la herramienta Explorer de Weka, para utilizar las
técnicas de clustering en Weka es necesario ignorar el atributo de la clase.
Vamos a aplicar los algoritmos antes descritos los cuales son DBScan, EM y
K-Means.
DBScan

Resultados de algoritmo DBScan en base de datos SoyBean

Resultados de algoritmo DBScan en base de datos generada por


CorrelationAttributeEval
Resultados de algoritmo DBScan en base de datos generada por
GainRatioAttributeEval
Resultados de algoritmo DBScan en base de datos generada por
PrincipalComponents
EM

Resultados de algoritmo EM en base de datos Soybean


Resultados de algoritmo EM en base de datos generada por
CorrelationAttributeEval
Resultados de algoritmo EM en base de datos generada por
GainRatioAttributeEval
Resultados de algoritmo EM en base de datos generada por
PrincipalComponents
K-Means

Resultados de algoritmo K-Means en base de datos SoyBean


Resultados de algoritmo K-Means en base de datos generada por
CorrelationAttributeEval
Resultados de algoritmo K-Means en base de datos generada por
GainRatioAttributeEval
Resultados de algoritmo K-Means en base de datos generada por
PrincipalComponents
FLUJO DE DATOS PARA AGRUPAMIENTO
Ahora con la herramienta KnowledgeFlow vamos a generar el flujo de datos
para los algoritmos de agrupamiento

DBScan

Resultados para base de datos SoyBean


Resultados para base de datos generada por CorrelationAttributeEval y
GainRatioAttributeEval

EM
Resultados para base de datos generada por PrincipalComponents
K-Means
Resultados para base de datos generada por PrincipalComponents
De igual forma que los clasificadores en este parte también obtuvimos los
mismos resultados del apartado de clustering con los de la herramienta
KnowledgeFlow.
CONCLUSIONES

En este proyecto pudimos observar a grandes rasgos las técnicas de


clasificación y agrupamiento, que permiten explorar grandes bases de datos,
de manera automática o semiautomática, con el objetivo de encontrar
patrones repetitivos, tendencias o reglas que expliquen el comportamiento de
los datos en un determinado contexto. También usamos las principales
características y herramientas de Weka.
SMO es el algoritmo que mejor resultados se obtienen para la base de datos
Soybean. Aunque con todos los algoritmos obtenemos más de un %90 de
instancias correctamente clasificadas. Se pudo evidenciar que los resultados
en los clasificadores mediante los diferentes métodos no varían en
proporciones significativas. También con las bases de datos reducidas no
difieren tanto el porcentaje de precisión con los algoritmos que utilizamos los
cuales fueron PrincipalComponents, CorrelationAttributeEval y
GainRatioAttributeEval. Pues en sus respectivos resultados obtuvimos
precisión casi idéntica.
BIBLIOGRAFIA

• Ian H. Witten, Eibe Frank, Len Trigg, Mark Hall Geoffrey Holmes, and Sally Jo
Cunningham. Weka: Practical machine learning tools and techniques with java
implementations. Department of Computer Science. University of Waikato. New
Zealand. http://www.cs.waikato.ac.nz/~ml/publications/1999/99IHW-EF-LT-MH-
GH-SJC%-Tools-Java.pdf

• Aplicación de técnicas de minería de datos son software weka.


https://knowledgesociety.usal.es/sites/default/files/Apuntes-curso-Weka.pdf

• INTRODUCCIÓN A LA MINERÍA DE DATOS CON WEKA: APLICACIÓN A UN PROBLEMA


ECONÓMICO. Universidad de Jaén. 2016.
https://tauja.ujaen.es/bitstream/10953.1/6984/1/TFG%20-
%20navas%20moreno%2C%20%20Francisco.pdf

• MÉTODOS DE CLASIFICACIÓN EN MINERÍA DE DATOS METEOROLÓGICOS, Escuela superior


politécnica de chimborazo, Riobamba. Ecuador
http://ceaa.espoch.edu.ec:8080/revista.perfiles/faces/Articulos/Perfiles20Art13.pdf

• Manual de WEKA, Diego García Morate.


https://knowledgesociety.usal.es/sites/default/files/MANUAL%20WEKA.pdf

• WekaMOOC - YouTube.
https://www.youtube.com/channel/UCXYXSGq6Oz21b43hpW2DCvw

• Packages weka, https://weka.sourceforge.io/doc.dev/overview-summary.html

También podría gustarte