Data Set - Weka
Data Set - Weka
Data Set - Weka
LOS ANDES
(UTEA)
FACULTAD DE INGENIERIA
Semestre: 2020 – II
Cusco – Perú - 2021
En este ejemplo, vamos a trabajar con los datos acerca de los días que se ha podido jugar al tenis,
dependiendo de diversos aspectos meteorológicos. El objetivo es poder determinar (predecir) si
hoy podremos jugar al tenis.
Lo primero que vamos a hacer es cargar los datos en el área de trabajo. Para ello, pincha en el
botón “Open file” del entorno “preprocess”. Seleccionamos el fichero “weather.arff” y si todo ha
ido bien veremos la pantalla de la Figura 3.
Weka utiliza un formato específico de datos, el formato arff. Un fichero con este formato, no sólo
contiene los datos desde donde vamos a efectuar el aprendizaje, además incluye meta-
información sobre los propios datos, como por ejemplo el nombre y tipo de cada atributo, así
como una descripción textual del origen de los datos.
Desde esta ventana podemos conocer bastantes detalles del dataset que acabamos de cargar.
Por ejemplo, el sistema nos indica que tenemos 14 registros con 5 atributos.
Si seleccionamos cada uno de los atributos, conoceremos más información del atributo en
cuestión:
Por ejemplo, en la Figura anterior podemos observar que el atributo Outlook tiene tres valores
diferentes (Sunny, Overcast y Rainy) siendo la distribución de [5,4,5].
En el caso de los 5 registros donde el atributo Outlook=sunny, tenemos 3 con clase no y 2 con
clase yes 2 , cuando Outlook=overcast los 4 registros son yes, y finalmente cuando Outlook=rainy
existen 3 con clase yes, y 2 con clase no.
Continuando tenemos;
Pulsando en el botón Choose en Filter, tendremos acceso a multitud de herramientas para el pre
procesamiento de datos.
Una vez cargado el fichero, ya estamos en disposición de aprender un modelo (en este caso un
árbol de decisión). Para ello, seleccionamos en la pestaña Classify.
Como podemos observar, el entorno cambia bastante con respecto a la ventana anterior.
Pulsando en el botón choose de Classifier podemos configurar el método de clasificación o
regresión que queramos utilizar. Estos métodos se han agrupado a grandes rasgos en las
siguientes familias.
Si pulsáramos sobre la ventana que contiene el nombre del método podríamos modificar los
parámetros específicos de este método. En este caso dejaremos los valores por defecto.
Por último, seleccionamos como opción de evaluación (test options) la opción Use training set, y
ya estamos listos para ejecutar el método de aprendizaje.
Para ello pulsamos el botón Start para realizar el aprendizaje del modelo predictivo, en este caso
un árbol de decisión.
Si no hay problemas, el sistema nos muestra en la caja “Classifier Output” la siguiente información:
Como podemos observar weka nos informa en primer lugar de algunos parámetros del dataset.
A continuación, nos muestra de manera textual el modelo aprendido (en este caso el árbol de
decisión).
En este problema, el árbol aprendido tiene una precisión máxima (100%) por lo que todas las
medidas de error son 0.
Además, podemos conocer más detalles de la distribución de los ejemplos por clase en la matriz
de confusión).
Podemos visualizar el árbol de una manera más atractiva si pulsamos el botón derecho sobre el
texto trees. J48 de la caja Result-list. Seleccionamos la opción Visualize Tree, y obtendremos el
árbol de decisión de la Figura