Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
2 vistas53 páginas

Ud08 Ifct155po

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 53

8

INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS ALGORITMOS

Motores de inferencia
Introducción
La probabilidad y los modelos de distribución junto con las técnicas descriptivas,
constituyen la base de la inferencia estadística, que sirve para interpretar la
información suministrada por una parcela de la realidad que interesa investigar.

Puntual

Estadística Estimación
Descriptiva
Intervalos
INFERENCIA

Probabilidad
Y Contraste
Modelos
Introducción
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los individuos de
la población ya sea por el coste que supondría, o por la imposibilidad de acceder a ello. Mediante la
técnica inferencial obtendremos conclusiones para una población no observada en su totalidad, a partir
de estimaciones o resúmenes numéricos efectuados sobre la base informativa extraída de una muestra
de dicha población. Por tanto, el esquema que se sigue es:

Describir
Parámetros Poblacionales
Población
Características Poblacionales

Se extrae Estimación
Contraste

Muestra Estadísticas

Datos
Genera numéricos Utilizados para obtener
Ejemplo
-Queremos estudiar el efecto de las vacunas de CoVID en la población
humana, y somos casi 8.000 millones de personas

-Imposible hacerlo para todos los miembros de la población

-Extraemos una población de 50.000 personas a las que les aplicamos una
serie de estimaciones y obtenemos los estimadores que vienen a
representar los valores que perseguimos encontrar, aunque de forma
estimada.
Ejemplo
-La idea es, a partir de una población se
extrae una muestra por algunos de los
métodos existentes, con la que se generan
datos numéricos que se van a utilizar para
generar estadísticos con los que realizar
estimaciones o contrastes poblacionales.

-Existen dos formas de estimar parámetros: la


estimación puntual y la estimación por
intervalo de confianza.
-En la primera se busca, con base en los datos
muestrales, un único valor estimado para el
parámetro.
-Para la segunda, se determina un intervalo
dentro del cual se encuentra el valor del
parámetro, con una probabilidad determinada.
Definiciones básicas
-POBLACIÓN: Conjunto de elementos sobre los que se observa un carácter común. Se
representa con la letra N.

-MUESTRA: Conjunto de unidades de una población. Cuanto más significativa sea, mejor
será la muestra. Se representa con la letra n.

-UNIDAD DE MUESTREO: Está formada por uno o más elementos de la población. El total
de unidades de muestreo constituyen la población.

-PARÁMETRO: Es un resumen numérico de alguna variable observada de la población,


como la media, o el total poblacional.
Importancia
-El problema central de la inferencia estadística es un
problema de toma de decisiones, del cual la
estimación y el contraste de hipótesis son aspectos
importantes, diferenciados entre sí, pero
complementarios.
¿Qué es un contraste de hipótesis?
-Un contraste de hipótesis o test de hipótesis estadístico es
una prueba estadística, que indica el proceso mediante el
cual decidimos si una afirmación o proposición respecto de
una población, debe ser aceptada o no.

-Esta proposición es lo que se denomina hipótesis


estadística.

-El contraste de hipótesis estadístico se basará en la información


proporcionada por la muestra.

-De modo, que si rechazamos la hipótesis, queremos indicar que


los datos de la muestra ofrecen cierta evidencia sobre su
falsedad.

-Si la aceptamos simplemente queremos significar que no se


rechaza.
¿En qué consiste?
-Un contraste de hipótesis consiste, por tanto, en estudiar dos
hipótesis:
-𝐻0 (hipótesis nula)
-𝐻1 (hipótesis alternativa)
-De esta manera el investigador divide los resultados muestrales
en dos zonas; una zona de rechazo y otra de aceptación. Según
como obtengamos el resultado, aceptaremos o rechazaremos la
hipótesis.
Zonas de rechazo y aceptación
Planteamiento de la hipótesis
-Aquella hipótesis que se desea contrastar se llama
hipótesis nula (𝐻0), por tanto, la que se acepta o
rechaza como conclusión del contraste. La hipótesis
nula suele ser una estrategia o medio del que se sirve
el investigador para probar la alternativa.

-La hipótesis alternativa es la que se verifica cuando no


se verifica la hipótesis nula. El planteamiento de 𝐻0
permite elaborar un modelo Probabilístico a partir del
cual podemos llegar a la decisión final.
Estadístico de contraste
-Es aquel estadístico (T) que utilizamos para tomar una
decisión en un contraste de hipótesis. Este estadístico es una
variable aleatoria, con una distribución muestral determinada,
que nos dará las probabilidades asociadas a un valor o un
determinado intervalo de valores del estadístico de contraste.
Ejemplo

Hipótesis: la altura
media de la
población es 1.60 m
(H0 : µ = 1.60) Población

Muestreo
aleatorio simple

¿Es probable La media


que X = 1.72 muestral es
si µ = 1.60? 1.72 m (x =
1.72) Muestra
Si no lo es,
rechazamos H0
Reglas de decisión
Una regla de decisión es el criterio utilizado para decidir si aceptamos o
rechazamos la hipótesis nula, a partir del espacio muestral de valores del
estadístico de contraste y probabilidades asociadas.
Reglas de decisión
 Este criterio consiste en dividir tal espacio en dos zonas
mutuamente excluyentes y exhaustivas: la zona de rechazo o
región crítica y la zona de aceptación. La zona de rechazo está
constituida por aquellos valores del estadístico de contraste que
se alejan mucho de 𝐻0, por lo tanto es muy poco probable que
ocurran si 𝐻0 es verdadera.
Tipos de contrastes

Los contrastes pueden ser:


 Unilaterales
𝐻0 = 𝜃 = 𝜃^ 𝐻1 = 𝜃 ≤ 𝜃^

 Bilaterales
𝐻0 = 𝜃 = 𝜃^ 𝐻1 = 𝜃 ≠ 𝜃^
Errores en los contrastes
 Cuando se realiza un contraste de hipótesis, siempre debemos tener en
cuenta que cuando aceptamos o rechazamos una hipótesis puede que
estemos cometiendo un cierto error. Por tanto, se pueden considerar,
dos tipos de errores que se pueden cometer cuando se realiza un
contraste:
Potencia de un contraste
-Se llama potencia de un contraste a la probabilidad de
rechazar Ho, cuando es falsa. Su probabilidad es 1 − 𝛽. Más
estrictamente debería llamarse potencia de región crítica.
No es más que la probabilidad de que ésta detecte una 𝐻0
falsa dado un valor para 𝐻1.
Contraste para la media con varianza conocida
Contraste para la media con varianza desconocida y
n>30
Ejemplo

-1,96 1,96
Ejemplo (II)

1,96
-1,96
¿QUÉ ES EL DEEP LEARNING?

Deep learning
Nueva forma de afrontar el problema de
aprendizaje automático:

Coche
Machine No coche
learning Input Extracción de las Output
(Entrada) Aprendizaje
características (Salida)

Deep Coche
No coche
learning Input
Extracción de las características + Output
(Entrada)
Aprendizaje (Salida)
¿QUÉ ES EL DEEP LEARNING?

Deep learning
Muchos pero mucho parámetros

Input Extracción de las


(Entrada) Aprendizaje Output
características
(Salida)

Machine
learning

Deep
learning
¿QUÉ ES EL DEEP LEARNING?

Deep learning
Para poder aprender los valores de los muchos (pero muchos) parámetros de la
arquitectura se necesitan muchos (muchos, muchos) datos, de ahí el término big data.
¿QUÉ ES EL DEEP LEARNING?

Deep learning
Para poder entrenar estos mega modelos
con cantidades ingentes de datos se
necesita un HW muy (pero muy) potente.
¿QUÉ ES EL DEEP LEARNING?

El círculo virtuoso del Deep Learning


ARQUITECTURA

D AT O S

SERVIDOR
Neurona biológica
IMPULSOS AL CUERPO DE
LA CÉLULA

TERMINACIONES AXO D E N D R I TA S
DE AXO

RAMAS DE AXO

NÚCLEO

IMPULSOS DEL CUERPO CUERPO DE LA CÉLULA


DE LA CÉLULA
¿Qué es una red
neuronal?
Neurona Deep Learning
𝑥0 𝑤0S I N A P S I S
AXO DE UNA
NEURONA 𝑤0𝑥0
D E N D R I TA
CUERPO DE
LA CÉLULA
න ෍ 𝑤𝑖𝑥𝑖 + 𝑏
𝑤1𝑥1 𝑖
σ𝑖 𝑤 𝑖 𝑥 𝑖 + 𝑏 𝑓 AXO DE SALIDA

FUNCIÓN DE

𝑤 2𝑥 2 AC TIVACIÓN
Neurona artificial (ADALINE)
𝑏

𝑥1 𝑊1
𝑛
𝑤2
𝑥2 𝛴 𝑦 = ෍ 𝑤𝑖 𝑥𝑖 + 𝑏
𝑤𝑛 𝑖=1

𝑥𝑛
N + 1
DIMENSIONAL

PERCEPTRON
2

𝑥1 𝑦 = 𝑓 ෍ 𝑤𝑖 𝑥𝑖 + 𝑏
𝑊1
𝑖=1
+1
𝑤2
𝑥2 𝛴 0
−1
𝑦
𝑏
+1
{1 𝑖𝑓 𝑠 > 0
𝑓 𝑠 = −1 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
Ejemplo 2: Dimensiones

𝑤1 𝑏
𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑏 = 0 𝑥2 = − 𝑥 −
𝑤2 1 𝑤2

𝑥2 +
+ EL PESO DETERMINA LA
+ + PENDIENTE DE LA LÍNEA

𝑤1 +
+
𝑤2 +
EL BIAS DETERMINA EL OFFSET
𝑥1 ( C Ó M O D E L E J O S E S TÁ L A
−𝑏 LÍNEA DEL ORIGEN)
𝑤
Entrenamiento
• El entrenamiento consiste en estimar los
parámetros (pesos y offset) a partir de N datos
(entradas x y salida deseada d)
• Un ejemplo es el descenso del gradiente: 𝜕𝐸
𝑤 𝑛ⅇ𝑤 = 𝑤 𝑜𝑙𝑑 − 𝑦
𝜕𝑤
• Función de coste a minimizar: Error
Los pesos se actualizan en un proceso iterativo
de forma proporcional a (-) la derivada del Error 𝜕𝐸
Δ𝑤 = 𝑦
respecto de los pesos 𝜕𝑤

𝑤𝐸 𝑛ⅇ𝑤 = 𝑤 𝑜𝑙𝑑 + Δ𝑤

𝐸
PENDIENTE
POSITIVA

PENDIENTE
NEGATIVA

𝑤min 𝑤
El problema de la XOR
• Partimos de una red con una sola capa de
neuronas: solo se pueden resolver
problemas separables linealmente.
• Hasta este momento (1969) no se sabe como
entrenar redes con más capas. Hasta 1986...
El problema de la XOR
• Backpropagation (1986): método para
propagar el error desde las capas de
salida hasta la capa de entrada.
• Permite crear modelos con capas
intermedias.
• Añadir capas implica añadir dimensionalidad
al problema y capacidad de discriminación
del modelo discriminante.

+1 (1,1,1)
1
v
1 1
-2
-0.5 -0.5
3
1
2
1
+1
v
(-1,-1,-1)
Backpropagation
Aplicación recursiva de la regla de la cadena de la derivada

El error de destino se "propaga hacia


atrás" para actualizar los pesos.
𝑤𝑗𝑘 𝑣1
𝛴 𝑤𝑖𝑗
1
𝑥 𝛿𝑖 = 𝑑𝑖 𝑡 − 𝑦𝑖 𝑡
𝛴 𝑦1
𝑣2
𝑥2 𝛴 𝑤𝑖𝑗 𝑡 + 1 = 𝑤𝑖𝑗 𝑡 + 𝛾𝛿𝑣𝑗 𝑡

𝑥p 𝛴 𝑦𝑛
𝑣m
𝑥 (𝑔) (𝑦)
𝛴
𝑘 (𝑣) 𝑖
(ℎ)
𝑗
Backpropagation
Aplicación recursiva de la regla de la cadena de la derivada

෍ 𝑤𝑖𝑗 𝛿𝑖
𝑖=1
𝑤𝑗𝑘 𝑣1 El error de destino se "propaga hacia
𝛴 𝑤𝑖𝑗 𝛿1 atrás" multiplicado por los pesos
𝑥1 entre la capa oculta y la de salida.
𝛴 𝑦1
𝑣2
𝑥2 𝛴 Δ𝑤𝑗𝑘 = 𝛾𝛿𝑗 𝑥𝑘
𝛿n
𝑛
𝑥p 𝛴 𝑦𝑛
𝑣m 𝛿𝑗 = ෍ 𝑊𝑖𝑗 𝛿𝑖
𝑥 (𝑔) (𝑦) 𝑖=1
𝛴
𝑘 (𝑣) 𝑖
(ℎ)
𝑗
Redes Neuronales (Fully Connected FC)

OUTPUT
LAYER
OUTPUT LAYER
INPUT LAYER
INPUT LAYER
HIDDEN HIDDEN
HIDDEN LAYER LAYER 1 LAYER 2
REDES NEURONALES Por otro lado, aquí vemos los tipos de redes
convolucionales. Son redes neuronales

convolucionales preparadas sobre todo para explotar las


características geoespaciales de los datos,
lo cual es muy interesante para imágenes,
por ejemplo.
De hecho, las redes convolucionales tienen
capas de neuronas que involucran tres
tipos de acciones principalmente:
• Convolución.
• ReLu (Unidad de Rectificación
Lineal).
• Pooling.
DEPTH

HEIGHT

OUTPUT
LAYER WIDTH

INPUT LAYER

HIDDEN HIDDEN
LAYER 1 LAYER 2
Capas Convolucionales
PA R Á M E T R O S P R I N C I PA L E S

• Tamaño del volumen de entrada (anterior): W x W x Cin


• Tamaño del filtro (receptive field): F x F
❖ La profundidad es la de la capa de entrada (anterior): Cin
❖ Total: F x F x Cin (pesos de la red)

• Stride o salto de píxel del filtro sobre el volumen de entrada: S


• Padding: puede ser necesario rellenar con ceros el borde del volumen de entrada: P
• Tamaño del volumen de salida:
❖ El número de filtros Cout es un parámetro de diseño
❖ El ancho y alto vendrá dado por: (W – F + 2P) / S + 1 ( debe dar un entero). 1 0 -1

-2 2 1 2 1 -2 1 1

0 1 2 -1 1 -3 0 0 1 2 -1 1 -3 0
Ejemplo de filtros (pesos) aprendidos:

MISMOS PESOS (“FILTRO “I”),


CONECTADOS A LAS NEURONAS DE LA
“FEATURE I” DE LA SIGUIENTE CAPA

ENTRE DIFERENTES FEAUTRES HAY DIFERENTES


FILTROS (“FILTRO J” CONECTANDO A LAS NEURONAS
DE LA “FEATURE J” DE LA SIGUIENTE CAPA)
W1

PESOS DIFERENTES (COUT FILTROS)

W2

F
W2
Cin

W1 COUT

CAPA CONVOLUCIONAL: PESOS SOLO CAPA “FULLY CONNECTED”: PESOS


CONECTADOS A UNA PARTE DEL TENSOR CONECTADOS A TODO EL TENSOR DE
DE ENTRADA (FxFxCin) ENTRADA (W2xW2xCout)
Conv 64

Conv 64
Capas Pooling Pooling es una manera eficiente de reducir los dimensiones
de los datos y extraer la información más útil.
INPUT (X)
Maxpool

Conv 128

Conv 64 OUTPUT (Y)

Maxpool
224
Conv 256

Conv 256
112
Maxpool

Conv 512

Conv 512
224
Maxpool 112

64
64
Conv 512

Conv 512

Maxpool 1 1 2 8
FC 4096 5 6 7 4 MAX
6 8
FC 4096
3 2 1 0 3 4
FC 1000
1 2 3 4
Softmax
Ejemplos
de CNN

ACC E D E A E ST E E N L AC E PA R A S A B E R M Á S
Ejemplos
de CNN

ACC E D E A E ST E E N L AC E PA R A S A B E R M Á S
Aplicaciones
Síntesis de vídeo y audio.
Coloreado de imágenes.
Restauración de píxeles (CSI).
Estimación pose de personas.
Descripción de fotos.
Traducción idiomática.
Síntesis de imágenes.
Videojuegos.
Vehículos automáticos.
Robótica.
Generación de voz, recomposición de sonidos, composición de música, etc.
Arte.
hemos
terminado

También podría gustarte