Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

2.8 Ejemplos Aplicación

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

Ingeniería de Software

Modalidad virtual

Grupo: Nombre del Maestro:


Jose Saúl de Lira Miramontes
Matrícula: Nombre del Alumno:
333823 Monica Coral

ACTIVIDAD: 2.8 FECHA ENTREGA:

TITULO: 2.8 Ejemplos Aplicación

OBJETIVO:

Conocer las diferentes herramientas de Data Mining

DESCRIPCIÓN:

Dar respuesta a diversas premisas sobre la minería de datos

INTERNAL
DESARROLLO:

2.8 Ejemplos Aplicación


El problema del clima.
El problema del clima es un dataset pequeño que es comúnmente utilizado para
enseñar los métodos de machine learning. El dataset es completamente ficticio y
maneja datos sobre las mejores condiciones para hacer algún deporte. Los datos
que maneja son pronóstico, temperatura, humedad y viento. La salida es si se
puede jugar o no. En su forma más simple, las entradas son categorías, pronóstico
puede ser soleado, nublado o lluvioso; la temperatura puede ser caliente,
templado o frío; la humedad puede ser alta o normal; y viento puede ser verdadero
o falso. Esto crea 36 diferentes posibilidades. A partir de estos datos podemos
intuir algunas reglas sencillas como si el pronóstico es soleado y humedad es alta,
entonces no se puede practicar deporte. Si estudiamos varias y les otorgamos
una jerarquía, obtenemos un conjunto de reglas conocido como lista de decisión.
Lo interesante de una lista de decisión es que es totalmente dependiente de que
se interprete la lista de forma jerárquica y en conjunto, ya que por sí mismas, las
reglas pueden llegar a no ser ciertas.
Otra manera de interpretar los datos sería que en lugar de categorías, se les
otorgara valores numéricos. Pero se requiere de un proceso aún más complejo
para desarrollar reglas con valores numéricos. Para estos casos se crean reglas
de asociación, y también van acompañadas de un porcentaje de exactitud. De
este tipo de reglas existen muchísimas más porque pueden „predecir“ cualquiera
de los atributos y no sólo una clase en específico.
Los lentes de contacto, un problema idealizado.
Este modelo te dice el tipo de lentes que se necesita prescribir respecto a la
información del paciente. Aquí hay datos como la edad del paciente, su
diagnóstico, si es o no astigmático, su producción de lágrimas y finalmente el tipo
de lentes que se deben prescribir, ya sean duros, suaves o ninguno. Para el caso
del ejemplo, se determinan una cantidad de reglas muy específicas para cada
caso. En la vida real puede no ser el caso, por ello se le determina un peso o
probabilidad a cada regla, ya que hay algunas más exactas que otras. Debemos

INTERNAL
entender que las reglas son una manera de resumir los datos, expresándolos de
una manera más concisa. La gente utiliza el machine learning como una forma de
entender mejor sus datos que realmente para predecir nuevos casos.
Una manera de representar esto son los árboles de decisión y el ejemplo de los
lentes de contacto lo listra muy bien, ya que se da una decisión tras otra.

INTERNAL
Iris: Un dataset clásico
El dataset Iris, creado por el estatista R.A. Fisher en la mitad de la decada de los
30s. El dataset contiene 50 ejemplos de cada tipo de planta, Iris Setosa, Iris
Versicolor e Iris Virginica. Para cada una hay cuatro atributos: longitud sepal,
ancho sepal, longitud del pétalo y ancho del pétalo, todos sus atributos son
numéricos. Las reglas que se derivan de este dataset son muy engorrosas debido
a los atributos numéricos, pero la predicción que hace es categórica, lo cuál nos
permite agrupar las variables en rangos.

Desempeño de CPU, introducción de la predicción numérica.


A pesar de que el último ejemplo incluía atributos numéricos, la salida era una
categoría. Cuando nos encontramos con el caso de que la salida también sea
numérica, la situación se vuelve más complicada. Este ejemplo trata del
desempeño del poder de procesamiento de una computadora basándose en
atributos como el tiempo de ciclo, memoria, caché, canales, etc. La manera clásica
de lidiar con esta clase de problemas es escribir la salida como una suma lineal
de los valores de los atributos con su respectivo peso. Esto es lo que se conoce
como una ecuación de regresión lineal y el proceso de determinar el peso se
llamana regresión lineal. El método básico no es capaz de descubrir relaciones
que no sean lineales, pero hay versiones que sí. Los datos en la vida real son una
combinación de atributos numéricos y categóricos.
Negociaciones de labor: un ejemplo más realista.
En este conjunto de datos se resume la salida de las negociaciones de contrato
en Canadá de 1987 a 1988. Incluye los acuerdos en las empresas con más de
500 colaboradores. Cada caso es un contrato y la salida es si el contrato se acepta
o no. Los que se consideran aceptables son aquellos aceptados por el área de
trabajo y la gerencia. Una característica de estos datos es que los registros están
organizados en columnas en lugar de filas. Muchos de los valores son
desconocidos o no están registrados. Este es un ejemplo de datos más realista
que otros.

INTERNAL
El problema se solucionó a través de un árbol de decisiones. Aunque los ejemplos
a los que se llegó no describen perfectamente el comportamiento de los datos, ya
que algunos son contrarios al resultado real obtenido en el dataset, es una
herramienta importante para entender el comportamiento de nuestros datos. Al
estudiar los árboles de decisión obtenidos, se espera que se puedan tomar
decisiones administrativas que se ajusten a las situaciones que no se pueden
resolver tan fácilmente.

Clasificación de granos de soya, un ejemplo clásico de éxito en el machine


learning.
En este probelma se intenta detectar las diferentes enfermedades de los granos
de soya. El dataset son más de 680descripciones de las emferdades de las
plantas. Cada planta fue medida en 35 diferentes atributos, cada una con una
con una lista de posibles variables. Cada resultado era el dianóstico de un
experto en biología, siendo un total de 19 categorías de enfermedades.
A partir de estos datos se podían generar reglas bastante claras a partir del
machine learning. Los registros seleccionados para el entrenamiento fueron
seleccionados de los casos por ser muy diferentes unos de otros. Al mismo
tiempo, el biólogo experto fue entrevistado para convertir su conocimiento en
reglas de diagnóstico. De forma sorprendente, las reglas generadas por el
algoritmo superaron por mucho a las reglas del experto, siendo que el algoritmo
tenía razón el 97.5% de las veces, mientras que el experto sólo 72%. Incluso el
mismo experto adoptó las nuevas reglas en lugar de las suyas.

INTERNAL
CONCLUSIONES:

La minería de datos es una de las tecnologías con más potencial para los años
siguientes, sus diversos usos y aplicaciones son de gran ayuda para la industria
y la investigación.

BIBLIOGRAFIA:
Mena, C. D. (2014, 6 agosto). Minería de datos: información precisa y relevante. Forbes

México. https://www.forbes.com.mx/mineria-de-datos-informacion-precisa-y-

relevante/#:%7E:text=La%20miner%C3%ADa%20de%20datos%20es%20el%20

proceso%20de,an%C3%A1lisis%20matem%C3%A1tico%20para%20deducir%2

0las%20tendencias%20que%20existen.

INTERNAL

También podría gustarte