Ud08 Ifct155po

8
INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS ALGORITMOS
Motores de inferencia
Introducción
La probabilidad y los modelos de distribución junto con las técnicas descriptivas,
constituyen la base de la inferencia estadística, que sirve para interpretar la
información suministrada por una parcela de la realidad que interesa investigar.
Puntual
Estadística Estimación
Descriptiva
Intervalos
INFERENCIA
Probabilidad
Y Contraste
Modelos
Introducción
En la mayoría de las investigaciones resulta imposible estudiar a todos y cada uno de los individuos de
la población ya sea por el coste que supondría, o por la imposibilidad de acceder a ello. Mediante la
técnica inferencial obtendremos conclusiones para una población no observada en su totalidad, a partir
de estimaciones o resúmenes numéricos efectuados sobre la base informativa extraída de una muestra
de dicha población. Por tanto, el esquema que se sigue es:
Describir
Parámetros Poblacionales
Población
Características Poblacionales
Se extrae Estimación
Contraste
Muestra Estadísticas
Datos
Genera numéricos Utilizados para obtener
Ejemplo
-Queremos estudiar el efecto de las vacunas de CoVID en la población
humana, y somos casi 8.000 millones de personas
-Imposible hacerlo para todos los miembros de la población
-Extraemos una población de 50.000 personas a las que les aplicamos una
serie de estimaciones y obtenemos los estimadores que vienen a
representar los valores que perseguimos encontrar, aunque de forma
estimada.
Ejemplo
-La idea es, a partir de una población se
extrae una muestra por algunos de los
métodos existentes, con la que se generan
datos numéricos que se van a utilizar para
generar estadísticos con los que realizar
estimaciones o contrastes poblacionales.
-Existen dos formas de estimar parámetros: la

estimación puntual y la estimación por
intervalo de confianza.
-En la primera se busca, con base en los datos
muestrales, un único valor estimado para el
parámetro.
-Para la segunda, se determina un intervalo
dentro del cual se encuentra el valor del
parámetro, con una probabilidad determinada.
Definiciones básicas
-POBLACIÓN: Conjunto de elementos sobre los que se observa un carácter común. Se
representa con la letra N.
-MUESTRA: Conjunto de unidades de una población. Cuanto más significativa sea, mejor
será la muestra. Se representa con la letra n.
-UNIDAD DE MUESTREO: Está formada por uno o más elementos de la población. El total
de unidades de muestreo constituyen la población.
-PARÁMETRO: Es un resumen numérico de alguna variable observada de la población,

como la media, o el total poblacional.
Importancia
-El problema central de la inferencia estadística es un
problema de toma de decisiones, del cual la
estimación y el contraste de hipótesis son aspectos
importantes, diferenciados entre sí, pero
complementarios.
¿Qué es un contraste de hipótesis?
-Un contraste de hipótesis o test de hipótesis estadístico es
una prueba estadística, que indica el proceso mediante el
cual decidimos si una afirmación o proposición respecto de
una población, debe ser aceptada o no.
-Esta proposición es lo que se denomina hipótesis

estadística.
-El contraste de hipótesis estadístico se basará en la información

proporcionada por la muestra.
-De modo, que si rechazamos la hipótesis, queremos indicar que

los datos de la muestra ofrecen cierta evidencia sobre su
falsedad.
-Si la aceptamos simplemente queremos significar que no se

rechaza.
¿En qué consiste?
-Un contraste de hipótesis consiste, por tanto, en estudiar dos
hipótesis:
-𝐻0 (hipótesis nula)
-𝐻1 (hipótesis alternativa)
-De esta manera el investigador divide los resultados muestrales
en dos zonas; una zona de rechazo y otra de aceptación. Según
como obtengamos el resultado, aceptaremos o rechazaremos la
hipótesis.
Zonas de rechazo y aceptación
Planteamiento de la hipótesis
-Aquella hipótesis que se desea contrastar se llama
hipótesis nula (𝐻0), por tanto, la que se acepta o
rechaza como conclusión del contraste. La hipótesis
nula suele ser una estrategia o medio del que se sirve
el investigador para probar la alternativa.
-La hipótesis alternativa es la que se verifica cuando no

se verifica la hipótesis nula. El planteamiento de 𝐻0
permite elaborar un modelo Probabilístico a partir del
cual podemos llegar a la decisión final.
Estadístico de contraste
-Es aquel estadístico (T) que utilizamos para tomar una
decisión en un contraste de hipótesis. Este estadístico es una
variable aleatoria, con una distribución muestral determinada,
que nos dará las probabilidades asociadas a un valor o un
determinado intervalo de valores del estadístico de contraste.
Ejemplo
Hipótesis: la altura
media de la
población es 1.60 m
(H0 : µ = 1.60) Población
Muestreo
aleatorio simple
¿Es probable La media

que X = 1.72 muestral es
si µ = 1.60? 1.72 m (x =
1.72) Muestra
Si no lo es,
rechazamos H0
Reglas de decisión
Una regla de decisión es el criterio utilizado para decidir si aceptamos o
rechazamos la hipótesis nula, a partir del espacio muestral de valores del
estadístico de contraste y probabilidades asociadas.
Reglas de decisión
 Este criterio consiste en dividir tal espacio en dos zonas
mutuamente excluyentes y exhaustivas: la zona de rechazo o
región crítica y la zona de aceptación. La zona de rechazo está
constituida por aquellos valores del estadístico de contraste que
se alejan mucho de 𝐻0, por lo tanto es muy poco probable que
ocurran si 𝐻0 es verdadera.
Tipos de contrastes
Los contrastes pueden ser:

 Unilaterales
𝐻0 = 𝜃 = 𝜃^ 𝐻1 = 𝜃 ≤ 𝜃^
 Bilaterales
𝐻0 = 𝜃 = 𝜃^ 𝐻1 = 𝜃 ≠ 𝜃^
Errores en los contrastes
 Cuando se realiza un contraste de hipótesis, siempre debemos tener en
cuenta que cuando aceptamos o rechazamos una hipótesis puede que
estemos cometiendo un cierto error. Por tanto, se pueden considerar,
dos tipos de errores que se pueden cometer cuando se realiza un
contraste:
Potencia de un contraste
-Se llama potencia de un contraste a la probabilidad de
rechazar Ho, cuando es falsa. Su probabilidad es 1 − 𝛽. Más
estrictamente debería llamarse potencia de región crítica.
No es más que la probabilidad de que ésta detecte una 𝐻0
falsa dado un valor para 𝐻1.
Contraste para la media con varianza conocida
Contraste para la media con varianza desconocida y
n>30
Ejemplo
-1,96 1,96
Ejemplo (II)
1,96
-1,96
¿QUÉ ES EL DEEP LEARNING?
Deep learning
Nueva forma de afrontar el problema de
aprendizaje automático:
Coche
Machine No coche
learning Input Extracción de las Output
(Entrada) Aprendizaje
características (Salida)
Deep Coche
No coche
learning Input
Extracción de las características + Output
(Entrada)
Aprendizaje (Salida)
Deep learning
Muchos pero mucho parámetros
Input Extracción de las

(Entrada) Aprendizaje Output
características
(Salida)
Machine
learning
Deep
learning
Deep learning
Para poder aprender los valores de los muchos (pero muchos) parámetros de la
arquitectura se necesitan muchos (muchos, muchos) datos, de ahí el término big data.
Deep learning
Para poder entrenar estos mega modelos
con cantidades ingentes de datos se
necesita un HW muy (pero muy) potente.
El círculo virtuoso del Deep Learning

ARQUITECTURA
D AT O S
SERVIDOR
Neurona biológica
IMPULSOS AL CUERPO DE
LA CÉLULA
TERMINACIONES AXO D E N D R I TA S
DE AXO
RAMAS DE AXO
NÚCLEO
IMPULSOS DEL CUERPO CUERPO DE LA CÉLULA

DE LA CÉLULA
¿Qué es una red
neuronal?
Neurona Deep Learning
𝑥0 𝑤0S I N A P S I S
AXO DE UNA
NEURONA 𝑤0𝑥0
D E N D R I TA
CUERPO DE
LA CÉLULA
න ෍ 𝑤𝑖𝑥𝑖 + 𝑏
𝑤1𝑥1 𝑖
σ𝑖 𝑤 𝑖 𝑥 𝑖 + 𝑏 𝑓 AXO DE SALIDA
FUNCIÓN DE
𝑤 2𝑥 2 AC TIVACIÓN
Neurona artificial (ADALINE)
𝑏
𝑥1 𝑊1
𝑛
𝑤2
𝑥2 𝛴 𝑦 = ෍ 𝑤𝑖 𝑥𝑖 + 𝑏
𝑤𝑛 𝑖=1
𝑥𝑛
N + 1
DIMENSIONAL
PERCEPTRON
2
𝑥1 𝑦 = 𝑓 ෍ 𝑤𝑖 𝑥𝑖 + 𝑏
𝑊1
𝑖=1
+1
𝑤2
𝑥2 𝛴 0
−1
𝑦
𝑏
+1
{1 𝑖𝑓 𝑠 > 0
𝑓 𝑠 = −1 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
Ejemplo 2: Dimensiones
𝑤1 𝑏
𝑤1 𝑥1 + 𝑤2 𝑥2 + 𝑏 = 0 𝑥2 = − 𝑥 −
𝑤2 1 𝑤2
𝑥2 +
+ EL PESO DETERMINA LA
+ + PENDIENTE DE LA LÍNEA
𝑤1 +
+
𝑤2 +
EL BIAS DETERMINA EL OFFSET
𝑥1 ( C Ó M O D E L E J O S E S TÁ L A
−𝑏 LÍNEA DEL ORIGEN)
𝑤
Entrenamiento
• El entrenamiento consiste en estimar los
parámetros (pesos y offset) a partir de N datos
(entradas x y salida deseada d)
• Un ejemplo es el descenso del gradiente: 𝜕𝐸
𝑤 𝑛ⅇ𝑤 = 𝑤 𝑜𝑙𝑑 − 𝑦
𝜕𝑤
• Función de coste a minimizar: Error
Los pesos se actualizan en un proceso iterativo
de forma proporcional a (-) la derivada del Error 𝜕𝐸
Δ𝑤 = 𝑦
respecto de los pesos 𝜕𝑤
𝑤𝐸 𝑛ⅇ𝑤 = 𝑤 𝑜𝑙𝑑 + Δ𝑤
𝐸
PENDIENTE
POSITIVA
PENDIENTE
NEGATIVA
𝑤min 𝑤
El problema de la XOR
• Partimos de una red con una sola capa de
neuronas: solo se pueden resolver
problemas separables linealmente.
• Hasta este momento (1969) no se sabe como
entrenar redes con más capas. Hasta 1986...
El problema de la XOR
• Backpropagation (1986): método para
propagar el error desde las capas de
salida hasta la capa de entrada.
• Permite crear modelos con capas
intermedias.
• Añadir capas implica añadir dimensionalidad
al problema y capacidad de discriminación
del modelo discriminante.
+1 (1,1,1)
1
v
1 1
-2
-0.5 -0.5
3
1
2
1
+1
v
(-1,-1,-1)
Backpropagation
Aplicación recursiva de la regla de la cadena de la derivada
El error de destino se "propaga hacia

atrás" para actualizar los pesos.
𝑤𝑗𝑘 𝑣1
𝛴 𝑤𝑖𝑗
1
𝑥 𝛿𝑖 = 𝑑𝑖 𝑡 − 𝑦𝑖 𝑡
𝛴 𝑦1
𝑣2
𝑥2 𝛴 𝑤𝑖𝑗 𝑡 + 1 = 𝑤𝑖𝑗 𝑡 + 𝛾𝛿𝑣𝑗 𝑡
𝑥p 𝛴 𝑦𝑛
𝑣m
𝑥 (𝑔) (𝑦)
𝛴
𝑘 (𝑣) 𝑖
(ℎ)
𝑗
Backpropagation
Aplicación recursiva de la regla de la cadena de la derivada
෍ 𝑤𝑖𝑗 𝛿𝑖
𝑖=1
𝑤𝑗𝑘 𝑣1 El error de destino se "propaga hacia
𝛴 𝑤𝑖𝑗 𝛿1 atrás" multiplicado por los pesos
𝑥1 entre la capa oculta y la de salida.
𝛴 𝑦1
𝑣2
𝑥2 𝛴 Δ𝑤𝑗𝑘 = 𝛾𝛿𝑗 𝑥𝑘
𝛿n
𝑛
𝑥p 𝛴 𝑦𝑛
𝑣m 𝛿𝑗 = ෍ 𝑊𝑖𝑗 𝛿𝑖
𝑥 (𝑔) (𝑦) 𝑖=1
𝛴
𝑘 (𝑣) 𝑖
(ℎ)
𝑗
Redes Neuronales (Fully Connected FC)
OUTPUT
LAYER
OUTPUT LAYER
INPUT LAYER
INPUT LAYER
HIDDEN HIDDEN
HIDDEN LAYER LAYER 1 LAYER 2
REDES NEURONALES Por otro lado, aquí vemos los tipos de redes
convolucionales. Son redes neuronales
convolucionales preparadas sobre todo para explotar las

características geoespaciales de los datos,
lo cual es muy interesante para imágenes,
por ejemplo.
De hecho, las redes convolucionales tienen
capas de neuronas que involucran tres
tipos de acciones principalmente:
• Convolución.
• ReLu (Unidad de Rectificación
Lineal).
• Pooling.
DEPTH
HEIGHT
OUTPUT
LAYER WIDTH
INPUT LAYER
HIDDEN HIDDEN
LAYER 1 LAYER 2
Capas Convolucionales
PA R Á M E T R O S P R I N C I PA L E S
• Tamaño del volumen de entrada (anterior): W x W x Cin

• Tamaño del filtro (receptive field): F x F
❖ La profundidad es la de la capa de entrada (anterior): Cin
❖ Total: F x F x Cin (pesos de la red)
• Stride o salto de píxel del filtro sobre el volumen de entrada: S

• Padding: puede ser necesario rellenar con ceros el borde del volumen de entrada: P
• Tamaño del volumen de salida:
❖ El número de filtros Cout es un parámetro de diseño
❖ El ancho y alto vendrá dado por: (W – F + 2P) / S + 1 ( debe dar un entero). 1 0 -1
-2 2 1 2 1 -2 1 1
0 1 2 -1 1 -3 0 0 1 2 -1 1 -3 0
Ejemplo de filtros (pesos) aprendidos:
MISMOS PESOS (“FILTRO “I”),

CONECTADOS A LAS NEURONAS DE LA
“FEATURE I” DE LA SIGUIENTE CAPA
ENTRE DIFERENTES FEAUTRES HAY DIFERENTES

FILTROS (“FILTRO J” CONECTANDO A LAS NEURONAS
DE LA “FEATURE J” DE LA SIGUIENTE CAPA)
W1
PESOS DIFERENTES (COUT FILTROS)
W2
F
W2
Cin
W1 COUT
CAPA CONVOLUCIONAL: PESOS SOLO CAPA “FULLY CONNECTED”: PESOS

CONECTADOS A UNA PARTE DEL TENSOR CONECTADOS A TODO EL TENSOR DE
DE ENTRADA (FxFxCin) ENTRADA (W2xW2xCout)
Conv 64
Conv 64
Capas Pooling Pooling es una manera eficiente de reducir los dimensiones
de los datos y extraer la información más útil.
INPUT (X)
Maxpool
Conv 128
Conv 64 OUTPUT (Y)
Maxpool
224
Conv 256
Conv 256
112
Maxpool
Conv 512
Conv 512
224
Maxpool 112
64
64
Conv 512
Conv 512
Maxpool 1 1 2 8
FC 4096 5 6 7 4 MAX
6 8
FC 4096
3 2 1 0 3 4
FC 1000
1 2 3 4
Softmax
Ejemplos
de CNN
ACC E D E A E ST E E N L AC E PA R A S A B E R M Á S
Ejemplos
de CNN
ACC E D E A E ST E E N L AC E PA R A S A B E R M Á S
Aplicaciones
Síntesis de vídeo y audio.
Coloreado de imágenes.
Restauración de píxeles (CSI).
Estimación pose de personas.
Descripción de fotos.
Traducción idiomática.
Síntesis de imágenes.
Videojuegos.
Vehículos automáticos.
Robótica.
Generación de voz, recomposición de sonidos, composición de música, etc.
Arte.
hemos
terminado

Ud08 Ifct155po

Cargado por

Información del documentohacer clic para expandir la información del documento

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Ud08 Ifct155po

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ud08 Ifct155po

Cargado por

Copyright:

Formatos disponibles

8

INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS ALGORITMOS

-Imposible hacerlo para todos los miembros de la población

-Existen dos formas de estimar parámetros: la

-PARÁMETRO: Es un resumen numérico de alguna variable observada de la población,

-Esta proposición es lo que se denomina hipótesis

-El contraste de hipótesis estadístico se basará en la información

-De modo, que si rechazamos la hipótesis, queremos indicar que

-Si la aceptamos simplemente queremos significar que no se

-La hipótesis alternativa es la que se verifica cuando no

¿Es probable La media

Los contrastes pueden ser:

Input Extracción de las

El círculo virtuoso del Deep Learning

IMPULSOS DEL CUERPO CUERPO DE LA CÉLULA

El error de destino se "propaga hacia

convolucionales preparadas sobre todo para explotar las

• Tamaño del volumen de entrada (anterior): W x W x Cin

• Stride o salto de píxel del filtro sobre el volumen de entrada: S

MISMOS PESOS (“FILTRO “I”),

ENTRE DIFERENTES FEAUTRES HAY DIFERENTES

PESOS DIFERENTES (COUT FILTROS)

CAPA CONVOLUCIONAL: PESOS SOLO CAPA “FULLY CONNECTED”: PESOS

Conv 64 OUTPUT (Y)

También podría gustarte