Ud08 Ifct155po
Ud08 Ifct155po
Ud08 Ifct155po
Motores de inferencia
Introducción
La probabilidad y los modelos de distribución junto con las técnicas descriptivas,
constituyen la base de la inferencia estadística, que sirve para interpretar la
información suministrada por una parcela de la realidad que interesa investigar.
Puntual
Estadística Estimación
Descriptiva
Intervalos
INFERENCIA
Probabilidad
Y Contraste
Modelos
Introducción
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los individuos de
la población ya sea por el coste que supondría, o por la imposibilidad de acceder a ello. Mediante la
técnica inferencial obtendremos conclusiones para una población no observada en su totalidad, a partir
de estimaciones o resúmenes numéricos efectuados sobre la base informativa extraída de una muestra
de dicha población. Por tanto, el esquema que se sigue es:
Describir
Parámetros Poblacionales
Población
Características Poblacionales
Se extrae Estimación
Contraste
Muestra Estadísticas
Datos
Genera numéricos Utilizados para obtener
Ejemplo
-Queremos estudiar el efecto de las vacunas de CoVID en la población
humana, y somos casi 8.000 millones de personas
-Extraemos una población de 50.000 personas a las que les aplicamos una
serie de estimaciones y obtenemos los estimadores que vienen a
representar los valores que perseguimos encontrar, aunque de forma
estimada.
Ejemplo
-La idea es, a partir de una población se
extrae una muestra por algunos de los
métodos existentes, con la que se generan
datos numéricos que se van a utilizar para
generar estadísticos con los que realizar
estimaciones o contrastes poblacionales.
-MUESTRA: Conjunto de unidades de una población. Cuanto más significativa sea, mejor
será la muestra. Se representa con la letra n.
-UNIDAD DE MUESTREO: Está formada por uno o más elementos de la población. El total
de unidades de muestreo constituyen la población.
Hipótesis: la altura
media de la
población es 1.60 m
(H0 : µ = 1.60) Población
Muestreo
aleatorio simple
Bilaterales
𝐻0 = 𝜃 = 𝜃^ 𝐻1 = 𝜃 ≠ 𝜃^
Errores en los contrastes
Cuando se realiza un contraste de hipótesis, siempre debemos tener en
cuenta que cuando aceptamos o rechazamos una hipótesis puede que
estemos cometiendo un cierto error. Por tanto, se pueden considerar,
dos tipos de errores que se pueden cometer cuando se realiza un
contraste:
Potencia de un contraste
-Se llama potencia de un contraste a la probabilidad de
rechazar Ho, cuando es falsa. Su probabilidad es 1 − 𝛽. Más
estrictamente debería llamarse potencia de región crítica.
No es más que la probabilidad de que ésta detecte una 𝐻0
falsa dado un valor para 𝐻1.
Contraste para la media con varianza conocida
Contraste para la media con varianza desconocida y
n>30
Ejemplo
-1,96 1,96
Ejemplo (II)
1,96
-1,96
¿QUÉ ES EL DEEP LEARNING?
Deep learning
Nueva forma de afrontar el problema de
aprendizaje automático:
Coche
Machine No coche
learning Input Extracción de las Output
(Entrada) Aprendizaje
características (Salida)
Deep Coche
No coche
learning Input
Extracción de las características + Output
(Entrada)
Aprendizaje (Salida)
¿QUÉ ES EL DEEP LEARNING?
Deep learning
Muchos pero mucho parámetros
Machine
learning
Deep
learning
¿QUÉ ES EL DEEP LEARNING?
Deep learning
Para poder aprender los valores de los muchos (pero muchos) parámetros de la
arquitectura se necesitan muchos (muchos, muchos) datos, de ahí el término big data.
¿QUÉ ES EL DEEP LEARNING?
Deep learning
Para poder entrenar estos mega modelos
con cantidades ingentes de datos se
necesita un HW muy (pero muy) potente.
¿QUÉ ES EL DEEP LEARNING?
D AT O S
SERVIDOR
Neurona biológica
IMPULSOS AL CUERPO DE
LA CÉLULA
TERMINACIONES AXO D E N D R I TA S
DE AXO
RAMAS DE AXO
NÚCLEO
FUNCIÓN DE
𝑤 2𝑥 2 AC TIVACIÓN
Neurona artificial (ADALINE)
𝑏
𝑥1 𝑊1
𝑛
𝑤2
𝑥2 𝛴 𝑦 = 𝑤𝑖 𝑥𝑖 + 𝑏
𝑤𝑛 𝑖=1
𝑥𝑛
N + 1
DIMENSIONAL
PERCEPTRON
2
𝑥1 𝑦 = 𝑓 𝑤𝑖 𝑥𝑖 + 𝑏
𝑊1
𝑖=1
+1
𝑤2
𝑥2 𝛴 0
−1
𝑦
𝑏
+1
{1 𝑖𝑓 𝑠 > 0
𝑓 𝑠 = −1 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
Ejemplo 2: Dimensiones
𝑤1 𝑏
𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑏 = 0 𝑥2 = − 𝑥 −
𝑤2 1 𝑤2
𝑥2 +
+ EL PESO DETERMINA LA
+ + PENDIENTE DE LA LÍNEA
𝑤1 +
+
𝑤2 +
EL BIAS DETERMINA EL OFFSET
𝑥1 ( C Ó M O D E L E J O S E S TÁ L A
−𝑏 LÍNEA DEL ORIGEN)
𝑤
Entrenamiento
• El entrenamiento consiste en estimar los
parámetros (pesos y offset) a partir de N datos
(entradas x y salida deseada d)
• Un ejemplo es el descenso del gradiente: 𝜕𝐸
𝑤 𝑛ⅇ𝑤 = 𝑤 𝑜𝑙𝑑 − 𝑦
𝜕𝑤
• Función de coste a minimizar: Error
Los pesos se actualizan en un proceso iterativo
de forma proporcional a (-) la derivada del Error 𝜕𝐸
Δ𝑤 = 𝑦
respecto de los pesos 𝜕𝑤
𝑤𝐸 𝑛ⅇ𝑤 = 𝑤 𝑜𝑙𝑑 + Δ𝑤
𝐸
PENDIENTE
POSITIVA
PENDIENTE
NEGATIVA
𝑤min 𝑤
El problema de la XOR
• Partimos de una red con una sola capa de
neuronas: solo se pueden resolver
problemas separables linealmente.
• Hasta este momento (1969) no se sabe como
entrenar redes con más capas. Hasta 1986...
El problema de la XOR
• Backpropagation (1986): método para
propagar el error desde las capas de
salida hasta la capa de entrada.
• Permite crear modelos con capas
intermedias.
• Añadir capas implica añadir dimensionalidad
al problema y capacidad de discriminación
del modelo discriminante.
+1 (1,1,1)
1
v
1 1
-2
-0.5 -0.5
3
1
2
1
+1
v
(-1,-1,-1)
Backpropagation
Aplicación recursiva de la regla de la cadena de la derivada
𝑥p 𝛴 𝑦𝑛
𝑣m
𝑥 (𝑔) (𝑦)
𝛴
𝑘 (𝑣) 𝑖
(ℎ)
𝑗
Backpropagation
Aplicación recursiva de la regla de la cadena de la derivada
𝑤𝑖𝑗 𝛿𝑖
𝑖=1
𝑤𝑗𝑘 𝑣1 El error de destino se "propaga hacia
𝛴 𝑤𝑖𝑗 𝛿1 atrás" multiplicado por los pesos
𝑥1 entre la capa oculta y la de salida.
𝛴 𝑦1
𝑣2
𝑥2 𝛴 Δ𝑤𝑗𝑘 = 𝛾𝛿𝑗 𝑥𝑘
𝛿n
𝑛
𝑥p 𝛴 𝑦𝑛
𝑣m 𝛿𝑗 = 𝑊𝑖𝑗 𝛿𝑖
𝑥 (𝑔) (𝑦) 𝑖=1
𝛴
𝑘 (𝑣) 𝑖
(ℎ)
𝑗
Redes Neuronales (Fully Connected FC)
OUTPUT
LAYER
OUTPUT LAYER
INPUT LAYER
INPUT LAYER
HIDDEN HIDDEN
HIDDEN LAYER LAYER 1 LAYER 2
REDES NEURONALES Por otro lado, aquí vemos los tipos de redes
convolucionales. Son redes neuronales
HEIGHT
OUTPUT
LAYER WIDTH
INPUT LAYER
HIDDEN HIDDEN
LAYER 1 LAYER 2
Capas Convolucionales
PA R Á M E T R O S P R I N C I PA L E S
-2 2 1 2 1 -2 1 1
0 1 2 -1 1 -3 0 0 1 2 -1 1 -3 0
Ejemplo de filtros (pesos) aprendidos:
W2
F
W2
Cin
W1 COUT
Conv 64
Capas Pooling Pooling es una manera eficiente de reducir los dimensiones
de los datos y extraer la información más útil.
INPUT (X)
Maxpool
Conv 128
Maxpool
224
Conv 256
Conv 256
112
Maxpool
Conv 512
Conv 512
224
Maxpool 112
64
64
Conv 512
Conv 512
Maxpool 1 1 2 8
FC 4096 5 6 7 4 MAX
6 8
FC 4096
3 2 1 0 3 4
FC 1000
1 2 3 4
Softmax
Ejemplos
de CNN
ACC E D E A E ST E E N L AC E PA R A S A B E R M Á S
Ejemplos
de CNN
ACC E D E A E ST E E N L AC E PA R A S A B E R M Á S
Aplicaciones
Síntesis de vídeo y audio.
Coloreado de imágenes.
Restauración de píxeles (CSI).
Estimación pose de personas.
Descripción de fotos.
Traducción idiomática.
Síntesis de imágenes.
Videojuegos.
Vehículos automáticos.
Robótica.
Generación de voz, recomposición de sonidos, composición de música, etc.
Arte.
hemos
terminado