Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Data Set - Weka

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

UNIVERSIDAD TECNOLÓGICA DE

LOS ANDES
(UTEA)

FACULTAD DE INGENIERIA

ESCUELA PROFESIONAL DE INGENIERÍA DE


SISTEMAS E INFORMATICA

Articulo Cientid¡fico - weka

Docente: ING. Marleny Peralta Ascue.


Curso: Minería de Datos
Alumno:
 QUITO VALLE SAUL LIN

Semestre: 2020 – II
Cusco – Perú - 2021
En este ejemplo, vamos a trabajar con los datos acerca de los días que se ha podido jugar al tenis,
dependiendo de diversos aspectos meteorológicos. El objetivo es poder determinar (predecir) si
hoy podremos jugar al tenis.

Los datos de que disponemos SON:

Lo primero que vamos a hacer es cargar los datos en el área de trabajo. Para ello, pincha en el
botón “Open file” del entorno “preprocess”. Seleccionamos el fichero “weather.arff” y si todo ha
ido bien veremos la pantalla de la Figura 3.

Weka utiliza un formato específico de datos, el formato arff. Un fichero con este formato, no sólo
contiene los datos desde donde vamos a efectuar el aprendizaje, además incluye meta-
información sobre los propios datos, como por ejemplo el nombre y tipo de cada atributo, así
como una descripción textual del origen de los datos.
Desde esta ventana podemos conocer bastantes detalles del dataset que acabamos de cargar.

Por ejemplo, el sistema nos indica que tenemos 14 registros con 5 atributos.

Si seleccionamos cada uno de los atributos, conoceremos más información del atributo en
cuestión:

 tipo (nominal o numérico).


 valores distintos.
 registros que no tienen información de ese atributo.
 el valor máximo y mínimo (sólo en atributos numéricos).
 y finalmente un histograma con información sobre la distribución de los ejemplos para ese
atributo, reflejando con el uso de colores la distribución de clases de cada uno de los
registros.

Por ejemplo, en la Figura anterior podemos observar que el atributo Outlook tiene tres valores
diferentes (Sunny, Overcast y Rainy) siendo la distribución de [5,4,5].

En el caso de los 5 registros donde el atributo Outlook=sunny, tenemos 3 con clase no y 2 con
clase yes 2 , cuando Outlook=overcast los 4 registros son yes, y finalmente cuando Outlook=rainy
existen 3 con clase yes, y 2 con clase no.

Continuando tenemos;

Pulsando en el botón Choose en Filter, tendremos acceso a multitud de herramientas para el pre
procesamiento de datos.

Estas herramientas permiten (entre otras muchas funcionalidades):

 Realizar un filtrado de atributos.


 Cambiar el tipo de los atributos (discretizar o numerizar).
 Realizar muestreos sobre los datos.
 Normalizar atributos numéricos.
 Unificar valores de un mismo atributo.

Una vez cargado el fichero, ya estamos en disposición de aprender un modelo (en este caso un
árbol de decisión). Para ello, seleccionamos en la pestaña Classify.

Como podemos observar, el entorno cambia bastante con respecto a la ventana anterior.
Pulsando en el botón choose de Classifier podemos configurar el método de clasificación o
regresión que queramos utilizar. Estos métodos se han agrupado a grandes rasgos en las
siguientes familias.

Entonces en este ejemplo vamos a utilizar el algoritmo clásico de aprendizaje de árboles de


decisión C.25 (J48 es el nombre que se le da en Weka), Para ello pulsamos Choose, seleccionamos
J48 en Trees.

Si pulsáramos sobre la ventana que contiene el nombre del método podríamos modificar los
parámetros específicos de este método. En este caso dejaremos los valores por defecto.
Por último, seleccionamos como opción de evaluación (test options) la opción Use training set, y
ya estamos listos para ejecutar el método de aprendizaje.

Para ello pulsamos el botón Start para realizar el aprendizaje del modelo predictivo, en este caso
un árbol de decisión.

Si no hay problemas, el sistema nos muestra en la caja “Classifier Output” la siguiente información:
Como podemos observar weka nos informa en primer lugar de algunos parámetros del dataset.
A continuación, nos muestra de manera textual el modelo aprendido (en este caso el árbol de
decisión).

Por ultimo nos incluye información sobre la evaluación del modelo.

En este problema, el árbol aprendido tiene una precisión máxima (100%) por lo que todas las
medidas de error son 0.

Además, podemos conocer más detalles de la distribución de los ejemplos por clase en la matriz
de confusión).

Podemos visualizar el árbol de una manera más atractiva si pulsamos el botón derecho sobre el
texto trees. J48 de la caja Result-list. Seleccionamos la opción Visualize Tree, y obtendremos el
árbol de decisión de la Figura

También podría gustarte