Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Tarea 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

Tarea 1°

Seminario de Solución de Problemas de Inteligencia


Artificial II
Introducción:
Se abordará la investigación de las distintas métricas que se utilizan para verificar si una
red neuronal ha logrado identificar apropiadamente los patrones de un conjunto de datos.
Las redes de neuronas artificiales (RNA) son un paradigma de aprendizaje automático
inspirado en las neuronas de los sistemas nerviosos de los animales. Se trata de un sistema
de enlaces de neuronas que colaboran entre sí para producir un estímulo de salida. Las
conexiones tienen pesos numéricos que se adaptan según la experiencia. De esta manera,
las redes neurales se adaptan a un impulso y son capaces de aprender. La importancia de
las redes neurales cayó durante un tiempo con el desarrollo de los vectores de soporte y
clasificadores lineales, pero volvió a surgir a finales de la década de 2000 con la llegada
del aprendizaje profundo.
Las redes neuronales se entrenan principalmente usando métodos de gradiente mediante
un proceso iterativo de disminución de una función de pérdida. Una pérdida está diseñada
para tener dos propiedades cruciales: cuanto menos valor tiene, mejor se ajusta su modelo
a sus datos y debería ser diferenciable. Entonces, sabiendo esto, podríamos definir
completamente qué es una métrica: es una función que, dados los valores predichos y los
valores reales de los ejemplos, le proporciona una medida escalar de la adecuación de su
modelo a los datos que tiene.

Desarrollo:
El concepto común de métrica es la correspondencia de un dominio empírico (mundo real)
a Es la correspondencia de un dominio empírico (mundo real) a un mundo formal,
matemático. La medida incluye al valor numérico o incluye al valor numérico o nominal
asignado al atribut de un de un ente por medio de dicha por medio de dicha
correspondencia. Pudiendo existir dos tipos de métricas:
1. Métrica directa: Una métrica de un atributo que no depende de ninguna métrica de otro
atributo.
2. Métrica indirecta: Una métrica de un atributo que se deriva de una o más métricas de
otros atributos. Se formaliza por medio de una función de medición (fórmula ecuación).
Función de medición, un algoritmo o cálculo que permite combinar dos o más métricas.
Dentro del área de las redes neuronales una métrica es una función que, dados los valores
predichos y los valores reales de los ejemplos, le proporciona una medida escalar de la
adecuación de su modelo a los datos que tiene. Entonces, como puede ver, una función de
pérdida es métrica, pero lo contrario no siempre se cumple. Para comprender estas
diferencias, veamos los ejemplos más comunes de uso de métricas:
> Mida el rendimiento de su red utilizando funciones no diferenciables: por ejemplo, la
precisión no es diferenciable (ni siquiera continua), por lo que no puede optimizar
directamente su red w.r.t. lo. Sin embargo, puede usarlo para elegir el modelo con la mejor
precisión.
> Obtenga valores de diferentes funciones de pérdida cuando su pérdida final sea una
combinación de algunas de ellas: Supongamos que su pérdida tiene un término de
regularización que mide cómo sus pesos difieren de 0 y un término que mide la aptitud de
su modelo. En este caso, podría usar las métricas para tener una pista separada de cómo
cambia la forma física de sus modelos a lo largo de las épocas.
> Realice un seguimiento de una medida con respecto a la cual no desea optimizar
directamente su modelo: asumamos que está resolviendo un problema de regresión
multidimensional en el que está más preocupado por mse pero al mismo tiempo está
interesado en cómo un coseno -la distancia de su solución está cambiando en el tiempo.
Entonces, es lo mejor para usar métricas. Una métrica es una función usada para juzgar el
desempeño del modelo.
-Métrica Matriz de confusión o error. La información bruta producida por un esquema
de clasificación durante la prueba son recuentos de las clasificaciones correctas e
incorrectas de cada clase. Esta información normalmente se muestra en una matriz
de confusión. Una matriz de confusión es una forma de tabla de contingencia que
muestra las diferencias entre la verdad y las clases predichas para un conjunto de ejemplos
etiquetados.

La matriz de confusión tiene cuatro categorías: Verdaderos positivos, Falsos positivos,


verdaderos negativos y falsos negativos. Aunque la matriz de confusión muestra toda la
información acerca del desempeño del clasificador, otras medidas útiles pueden ser
extraídas de ella para ilustrar algún criterio de desempeño, por ejemplo:
-Métrica de Exactitud. Proporción de resultados correctos que obtiene el clasificador:
𝑇𝑝+𝑇𝑛/𝐶𝑝+𝐶𝑛=𝑃(𝐶)
-Métrica de Sensibilidad (relevancia). Mide la proporción de positivos identificados
correctamente como positivos: 𝑇𝑝/𝐶𝑝=𝑃(𝑇𝑝)
-Métrica de Especificidad. Mide la proporción de negativos correctamente identificados
como negativos: 𝑇𝑛/𝐶𝑛=𝑃(𝑇𝑛)
𝑇𝑝 y 𝑇𝑛 son el número de positivos verdaderos y negativos verdaderos respectivamente,
𝐹𝑝 y 𝐹𝑛 son los números de falsos positivos y falsos negativos respectivamente. Los totales
de la fila, 𝐶𝑝 y 𝐶𝑛, son el número de ejemplos verdaderamente positivos y negativos,
los totales de columna, 𝑅𝑝 y 𝑅𝑛 son el número de positivos predichos y negativos
predichos, 𝑁 es el número total de ejemplos (𝑁=𝐶𝑝+𝐶𝑛=𝑅𝑝+𝑅𝑛).
-Métrica ROC. La curva ROC (Receiver Operating Characteristic) se recomienda para
evaluar problemas de decisión binaria (solamente dos clases), muestra cómo varía el
número de ejemplos positivos correctamente clasificados con el número de ejemplos
negativos incorrectamente clasificados.
En la curva ROC, se grafica la tasa de falsos positivos en el eje x y la tasa de verdaderos
positivos en el eje y. La tasa de falsos positivos mide la fracción de ejemplos negativos
que son incorrectamente clasificados como positivos. La tasa de verdaderos positivos
mide la fracción de ejemplos positivos que son correctamente etiquetados. El objetivo
de la curva ROC es estar en la esquina superior izquierda:

Tasa de verdaderos positivos = 𝑇𝑝/𝑇𝑝+𝐹𝑛

Tasa de falsos positivos = 𝐹𝑝/𝐹𝑝+𝑇𝑛


El área bajo la curva de la curva ROC es la probabilidad de que un miembro elegido al azar
de la clase tenga una probabilidad estimada menor de pertenecer a la clase 0 que un
miembro elegido al azar de la clase 0.
-Métrica Precision-Recall. Es una medida útil para el éxito de predicción cuando las
clases están muy desequilibradas. En la recuperación de información, la precisión es una
medida de relevancia del resultado, mientras que recall es una medida de la cantidad de
resultados verdaderamente relevantes que se devuelven. La curva precision-recall muestra
la compensación entre precisión y relevancia para diferentes umbrales. Cuando el área bajo
la curva es grande, representa gran precisión y gran relevancia, donde gran precisión se
refiere a una tasa baja de falsos positivos (predicción equivocada de positivos) y gran
relevancia se refiere a una tasa baja de falsos negativos (predicción equivocada de
negativos).Un sistema con alta relevancia, pero baja precisión regresa muchos
resultados, pero muchas de las predicciones de etiquetas son equivocadas en comparación
con las etiquetas de entrenamiento. Un sistema con alta precisión, perobaja relevancia es
lo opuesto, entrega muy pocos resultados, pero la mayoría de las etiquetas que predice son
correctas comparadas con las etiquetas de entrenamiento. Un sistema ideal con alta
precisión y alta relevancia entrega muchos resultados con todos los resultados
correctamente etiquetados.

• Precisión (𝑃) es definida como el número de verdaderos positivos (𝑇𝑝) entre


el número de verdaderos positivos más el número de falsos positivos (𝐹𝑝):
𝑃=𝑇𝑝/𝑇𝑝+𝐹𝑝
• Relevancia (𝑅) se define como el número de verdaderos positivos (𝑇𝑝) entre
el número de verdaderos positivos más el número de falsos negativos (𝐹𝑛): 𝑅=
𝑇𝑝/𝑇𝑝+𝐹n
• Estas cantidades también están relacionadas con (𝐹1 𝑠𝑐𝑜𝑟𝑒)el puntaje, que se
define como la media armónica de precisión y relevancia: 𝐹1𝑠𝑐𝑜𝑟𝑒= 2 *𝑃×𝑅/𝑃+𝑅.
En la curva Precision-Recall, grafica la relevancia en el eje x y la precisión en el eje y. El
objetivo de la curva Precision-Recall es estar en la esquina superior derecha.
-Métrica Jaccard Similarity. Mide la proximidad de dos conjuntos de datos
eficientemente. Es el resultado de la división del número de características similares de
ambos conjuntos entre el número de características totales: 𝐽(𝐴,𝐵)=|𝐴∩𝐵| / |𝐴∪𝐵|
-Métrica Matthews Correlation Coefficient. Es una medida de la calidad de
clasificadores binarios. Toma en cuenta verdaderos y falsos positivos y negativos y
generalmente se considera como una medida equilibrada que se puede usar incluso si las
clases son de tamaños muy diferentes. Es esencia un valor de coeficiente de
correlación entre -1 y +1. Un coeficiente de +1 representa una predicción perfecta,
0 una predicción aleatoria promedio y -1 una predicción inversa.
-Métrica adaptativa de mapas autoorganizados. Un mapa auto-organizado (SOM por
sus siglas en inglés) o un mapa auto-organizado de características (SOFM por sus siglas en
inglés) es un tipo de red neuronal artificial (ANN por sus siglas en inglés), que es entrenada
usando aprendizaje no supervisado para producir una representación discreta del espacio
de las muestras de entrada, llamado mapa. Los mapas auto-organizados son diferentes de
otras redes neuronales artificiales, en el sentido que estos usan una función de vecindad
para preservar las propiedades topológicas del espacio de entrada. Un mapa auto
organizado que muestra los patrones de votación del Congreso de EUA visualizado en
Synapse.
Los SOMs son útiles para visualizar vistas de baja dimensión de datos de alta dimensión,
semejante a un escalado multidimensional. El modelo fue descrito por primera vez como
una red neuronal artificial por el profesor finlandés Teuvo Kohonen, debido a lo cual en
ocasiones son llamadas redes o mapas de Kohonen. Al igual que la mayoría de las redes
neuronales artificiales, los SOMs operan en dos modos: entrenamiento y mapeo. En el
entrenamiento construye el mapa usando ejemplos entrenantes, mientras que en el mapeo
clasifica una nueva entrada. El objetivo del aprendizaje en los mapas auto-organizados es
provocar que diferentes partes de la red respondan similarmente a ciertos patrones de la
entrada. Esto es parcialmente motivado por el manejo en partes separadas de la corteza
cerebral del cerebro humano de la información sensorial, como la visual y la auditiva.
-Métrica adaptativa de algoritmos genéticos. Son llamados así porque se inspiran en la
evolución biológica y su base genético-molecular. Estos algoritmos hacen evolucionar una
población de individuos sometiéndola a acciones aleatorias semejantes a las que actúan en
la evolución biológica (mutaciones y recombinaciones genéticas), así como también a una
selección de acuerdo con algún criterio, en función del cual se decide cuáles son los
individuos más adaptados, que sobreviven, y cuáles los menos aptos, que son descartados.
Los algoritmos genéticos se enmarcan dentro de los algoritmos evolutivos, que incluyen
también las estrategias evolutivas, la programación evolutiva y la programación genética.
Puede presentar diversas variaciones, dependiendo de cómo se aplican los operadores
genéticos (cruzamiento, mutación), de cómo se realiza la selección y de cómo se decide el
reemplazo de los individuos para formar la nueva población.
-Métrica F1-Score. Siempre es mejor establecer como científico de datos una métrica de
evaluación de un solo número para que su equipo luego optimice. La precisión es un
ejemplo de una métrica de evaluación de un solo número y le permite comparar
rápidamente dos clasificadores. Si el clasificador A obtiene el 97% de precisión y el
clasificador B obtiene el 90% de precisión, juzgamos que el clasificador A es superior. Por
el contrario, precisión y recall no es una medida de evaluación de un solo número: da dos
2 números para evaluar su clasificador. Es mejor si podemos obtener una sola puntuación
que representa tanto Precisión (P) como recall (R). Una forma de hacerlo es simplemente
tomar su media aritmética. es decir, (P + R) / 2 donde P es Precisión y R es Recall. Pero
eso es bastante malo en algunas situaciones.
Métricas de Regresión:
-Métrica R cuadrado ajustado (R²). R² muestra qué tan bien los términos (puntos de
datos) se ajustan a una curva o línea. El R2 ajustado también indica qué tan bien se ajustan
los términos a una curva o línea, pero se ajusta para el número de términos en un modelo.
Si agrega más y más variables inútiles a un modelo, la R cuadrada ajustada disminuirá. Si
agrega más variables útiles , aumentará R cuadrado ajustado. R² ajustado siempre será
menor o igual a R²:

Donde n es el número total de observaciones y k es el número de regresores independientes,


es decir, el número de variables en su modelo, excluyendo la constante. Tanto R² como el
R² ajustado le dan una idea de cuántos puntos de datos caen dentro de la línea de la ecuación
de regresión . Sin embargo, R² supone que cada variable única explica la variación en la
variable dependiente. El R² ajustado le indica el porcentaje de variación explicado solo por
las variables independientes que realmente afectan la variable dependiente. En realidad, el
R² ajustado lo penalizará por agregar variables independientes (K en la ecuación) que no
se ajusten al modelo.
-Métrica Error cuadrático medio (MSE). Es quizás la métrica más simple y común para
la evaluación de regresión, pero también es probablemente la menos útil. Se define por la
ecuación:
donde yᵢ es el resultado real esperado y ŷᵢ es la predicción del modelo.
MSE básicamente mide el error cuadrado promedio de nuestras predicciones. Para cada
punto, calcula la diferencia cuadrada entre las predicciones y el objetivo y luego promedia
esos valores. Cuanto mayor sea este valor, peor es el modelo. Nunca es negativo, ya que
estamos cuadrando los errores de predicción individuales antes de sumarlos, pero sería cero
para un modelo perfecto.
-Métrica de porcentaje cuadrático medio (MSPE). MSE es el mismo para las
predicciones de ambas tiendas y, por lo tanto, de acuerdo con esas metricas, estos errores
de uno en uno son indistinguibles. Esto se debe básicamente a que MSE trabaja con errores
cuadrados absolutos, mientras que los errores relativos pueden ser más importantes para
nosotros. La preferencia de error relativo se puede expresar con el error de porcentaje
cuadrático medio. Para cada objeto, el error absoluto se divide por el valor objetivo, dando
un error relativo:

Entonces, MSPE puede ser pensado como versiones ponderadas de MSE. El peso de su
muestra es inversamente proporcional a su cuadrado objetivo. Esto significa que, el costo
que pagamos por un error absoluto fijo, depende del valor objetivo y, a medida que
aumenta, pagamos menos. Dado que MSPE se considera como la versión ponderada de
MSE, las predicciones constantes óptimas para MSPE resultan ser la media ponderada de
los valores objetivo. Error de porcentaje cuadrático medio (MSPE) Entonces, MSPE puede
ser pensado como versiones ponderadas de MSE. El peso de su muestra es inversamente
proporcional a su cuadrado objetivo. Esto significa que, el costo que pagamos por un error
absoluto fijo, depende del valor objetivo y, a medida que aumenta, pagamos menos. Dado
que MSPE se considera como la versión ponderada de MSE, las predicciones constantes
óptimas para MSPE resultan ser la media ponderada de los valores objetivo.
-Métrica Error porcentual absoluto medio (MAPE). La preferencia de error relativo
también se puede expresar con el Error porcentual absoluto medio, MAPE. Para cada
objeto, el error absoluto se divide por el valor objetivo, dando un error relativo. MAPE
también puede ser pensado como versiones ponderadas de MAE:
Para MAPE, el peso de su muestra es inversamente proporcional a su objetivo. Pero de
manera similar a MSPE, el costo que pagamos por un error absoluto fijo depende del valor
objetivo. Y a medida que aumenta el objetivo, pagamos menos. Dado que MAPE se
considera como la versión ponderada de MAE, las predicciones constantes óptimas para
MAPE resultan ser la mediana ponderada de los valores objetivo. Tenga en cuenta que si
un valor atípico tuviera un valor muy, muy pequeño, MAPE estaría muy sesgado hacia él,
ya que este valor atípico tendrá el peso más alto.
-Métrica Error logarítmico cuadrático medio (RMSLE). Es solo un RMSE calculado
en escala logarítmica. De hecho, para calcularlo, tomamos un logaritmo de nuestras
predicciones y los valores objetivo, y calculamos RMSE entre ellos. Los objetivos
generalmente no son negativos pero pueden ser iguales a 0, y el logaritmo de 0 no está
definido. Es por eso que generalmente se agrega una constante a las predicciones y los
objetivos antes de aplicar la operación logarítmica. Esta constante también se puede elegir
para que sea diferente a una dependiendo del problema:

Esta métrica se usa generalmente en la misma situación que MSPE y MAPE, ya que
también conlleva errores relativos más que errores absolutos. Tenga en cuenta la asimetría
de las curvas de error. Desde la perspectiva de RMSLE, siempre es mejor predecir más de
la misma cantidad menos que el objetivo. Por lo tanto, llegamos a la conclusión de que
RMSLE penaliza una estimación poco predicha mayor que una estimación sobre
pronosticada. RMSLE se puede calcular sin la operación raíz, pero la versión rooteada se
usa más ampliamente. Ahora pasemos a la pregunta sobre la mejor constante. (Recuerde la
conexión entre RMSLE y RMSE). Primero, encontramos la mejor constante para RMSE
en el espacio de registro, que será la media ponderada en el espacio de registro. Y, después,
debemos regresar del espacio de registro al habitual con una transformación inversa.
-Métrica Error cuadrático medio (RMSE). RMSE es solo la raíz cuadrada de MSE. La
raíz cuadrada se introduce para hacer que la escala de los errores sea igual a la escala de
los objetivos:

Ahora, es muy importante entender en qué sentido RMSE es similar a MSE y cuál es la
diferencia. Primero, son similares en términos de sus minimizadores, cada minimizador de
MSE es también un minimizador para RMSE y viceversa, ya que la raíz cuadrada es una
función que no disminuye. Por ejemplo, si tenemos dos conjuntos de predicciones, A y B,
y decimos que el MSE de A es mayor que el MSE de B, entonces podemos estar seguros
de que RMSE de A es mayor que RMSE de B. Y también funciona en la dirección opuesta:

-Métrica Error absoluto medio (MAE). el error se calcula como un promedio de


diferencias absolutas entre los valores objetivo y las predicciones. El MAE es una
puntuación lineal, lo que significa que todas las diferencias individuales se ponderan por
igual en el promedio. Por ejemplo, la diferencia entre 10 y 0 será el doble de la diferencia
entre 5 y 0. Sin embargo, lo mismo no es cierto para RMSE. Matemáticamente, se calcula
utilizando esta fórmula:

Error absoluto medio


Lo importante de esta métrica es que penaliza errores enormes que no tan mal como lo hace
MSE. Por lo tanto, no es tan sensible a los valores atípicos como el error cuadrático medio.
El MAE se usa ampliamente en finanzas, donde el error de $ 10 suele ser exactamente dos
veces peor que el error de $ 5. Por otro lado, la métrica de MSE piensa que el error de $ 10
es cuatro veces peor que el error de $ 5. MAE es más fácil de justificar que RMSE. Otra
cosa importante acerca de MAE es sus gradientes con respecto a las predicciones. El
gradiend es una función de pasos y toma -1 cuando Y_hat es más pequeño que el objetivo
y +1 cuando es más grande. Ahora, el gradiente no se define cuando la predicción es
perfecta, porque cuando Y_hat es igual a Y, no podemos evaluar el gradiente. No está
definido.
-Métrica R al cuadrado (R²). El coeficiente de determinación, o R² (a veces leído como
R-dos), es otra medida que podemos usar para evaluar un modelo y está estrechamente
relacionada con la MSE, pero tiene la ventaja de estar libre de escala  , no importa si Los
valores de salida son muy grandes o muy pequeños, el R² siempre estará entre -∞ y 1.
Cuando R² es negativo, significa que el modelo es peor que predecir la media:

En conclusión, R² es la proporción entre lo bueno que es nuestro modelo y lo bueno que es


el modelo medio ingenuo. Error común: muchos artículos en la web indican que el rango
de R² se encuentra entre 0 y 1, lo que no es realmente cierto. El valor máximo de R² es 1,
pero el mínimo puede ser menos infinito.

Conclusión:
Al principio me fue muy difícil encontrar las métricas de las redes neuronales para con ello
logar identificar apropiadamente los patrones de un conjunto de datos, una vez ya la
encontré me di cuenta que eran demasiadas, bueno tengo en parte duda si las de Machine
Learning son correctas dado que muchas métricas que encontré eran para redes neuronales
y también para Machine Learning, el cual a su vez contiene en su interior redes neuronales
en algunos casos, espero si estén correctas, o si no tendré métricas demás, pero sé que si
tengo las básicas y no quería que fueran a faltar en la presente investigación.
Es necesario optimizar nuestras métricas para lograr que estas sean lo más precisas
posibles, donde estas son medidas del rendimiento de red respecto a datos de comprobación
y entrenamiento, respectivamente. Se calculan como la correlación entre los valores reales
y predichos al cuadrado, dividida por la media de los errores cuadráticos, no suenan difícil
de implementar, pero ya a la hora de pasar la teoría a la práctica y más en programación
logramos observar muchas diferencias a considerar con lo cual se elige una métrica a
utilizar.
Existe un montón de métricas para usar, lo importante es saber cuándo usarlas y cuantas
vamos a usar, que depende mucho del tipo de objetivo que tengamos que alcanzar donde
lograremos verificar si una red neuronal ha logrado identificar o no apropiadamente los
patrones de un conjunto de datos, en qué medida lo va logrando en cada una de sus
iteraciones con la modificación de sus entradas y datos que la constituyen. Muchas de estas
métricas me parecieron muy avanzadas en su lógica, funcionamiento y constitución por lo
cual no los comprendí detalladamente como me hubiera gustado entenderlas y más a la
primera. Algunas métricas logran alcanzar una mayor precisión del 99% o poco más en
comparación de las otras, pero hay muchos aspectos a considerar o pensar si hasta es
conveniente combinarlas, por lo cual es importante tomarse un tiempo para comenzar a
elegir adecuadamente la o las métricas más apropiadas.
Bibliografía:
https://codeday.me/es/qa/20190324/369627.html
https://es.wikipedia.org/wiki/Algoritmo_gen%C3%A9tico
https://es.wikipedia.org/wiki/Mapa_autoorganizado#cite_note-2
https://es.wikipedia.org/wiki/Red_neuronal_artificial
http://sitiobigdata.com/2019/01/19/machine-learning-metrica-clasificacion-parte-3/#

También podría gustarte