Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

7 C2S3

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

Ciclo II-2024

Introducción a la Inferencia
Estadística
Plug- In Principle

• Vamos a usar una metodología general para relacionar muestras con


poblaciones.
• Dada una muestra (conjunto de datos observados) procederemos como
si esta fuese una población finita (i.e. que los datos provienen de una
distribución de probabilidad discreta).
• Esto nos va a permitir usar los métodos para el estudio de poblaciones
finitas para aprender sobre las muestras.
• Este enfoque se conoce como el Principio del Enchufe (Plug-In Principle).
Plug- In Principle

• Definición 1:Principio del Enchufe (Plug-In Principle). Sea x= (𝑥1, 𝑥2, … ,


𝑥 𝑛) una muestra. La distribución de probabilidad empírica de x
designada como p̂𝑛 distribución de probabilidad discreta definida por:

asignación de la probabilidad 1/n a cada {𝑥} .

Nota: La asignación de la probabilidad 1/n no depende del


valor específico de cada {𝑥𝑖}
.
Plug- In Principle
• Ejemplo: Se lanza un dado honesto 20 Note que, aunque las probabilidades
veces, resultando en la muestra verdaderas son 𝑷 {𝒙𝒊} = 𝟏/𝟔 , las
probabilidades empíricas varían entre 0.05
y 0.35.
x = (1,6,3,2,2,3,5,3,6,4,3,2,5,3,2,2,3,2,4,2) • El hecho que p̂20 difiere de 𝑷 es un
La distribución de probabilidad empírica ejemplo de variación aleatoria.
p̂20 , es la distribución de probabilidad • La inferencia estadística busca : ¿Qué
discreta que asigna las probabilidades nos dice la distribución empírica (muestra)
siguientes: sobre la distribución verdadera
(población)?
• La distribución empírica, p̂𝑛 , es una
aproximación atractiva a la distribución de
probabilidad verdadera 𝑷, de la cual se
extrajo la muestra.
Note que la probabilidad empírica de
cualquier evento A es

p̂𝑛 = # {Xi ϵ A} x (1/n)


Plug- In Principle
Definición 2: Distribución acumulativa empírica La distribución acumulativa
^
empírica, 𝐹𝑛 , es la función de distribución acumulativa asociada con p̂𝑛

^
𝐹𝑛 (X) = p̂𝑛 (X < x) = # {xi < x} x (1/n)
Estimadores Plug-In de la Media y la Varianza

Las cantidades poblacionales definidas con valores esperados son estimadas


fácilmente con el principio de enchufado.
Por ejemplo, suponga que 𝑋1, 𝑋2, … , 𝑋𝑛 ~𝑃 y que observamos la muestra x = 𝑥1 ,
𝑥2 … , 𝑥𝑛 . Denote la media poblacional como 𝜇 = 𝐸(𝑋𝑖) .
Definición 3 El estimado de enchufe de 𝜇, denotado como 𝜇 ^ , es la media de la
𝑛
distribución empírica:

Esta cantidad la media de la muestra y su valor esperado es 𝑬(x̄𝑛 )= 𝜇

𝑛
1
𝜇𝑛 = 𝑥𝑛 = ෍ 𝑥𝑖
𝑛
𝑖=1
Estimadores Plug-In de la Media y la Varianza
Calculemos ahora la media muestral y la media poblacional del Ejemplo del
lanzamiento de dados

Media poblacional
1 1 1 1 1 1
𝜇 = 𝑬(X) = 1 𝑥 + 2 x + 3 𝑥 + 4 x + 5 𝑥 + 6 x = 3.5
6 6 6 6 6 6

Media muestral
𝜇^𝑛 = 𝑬(x̄𝑛 ) = 1 𝑥 0.05 + 2 𝑥 0.35 + 3 + 0.30 + 4 𝑥 0.10 + 5 𝑥 0.1 + (6 𝑥0.10) = 3.15

^ 𝑦 𝑒𝑠 𝑑𝑖𝑠𝑡𝑖𝑛𝑡𝑜 𝑑𝑒 𝜇.
x̄𝑛 = 𝜇20
Podemos observar variación muestral
Estimadores Plug-In de la Media y la Varianza
Denote la varianza poblacional como 𝜎 2 = 𝑉𝑎𝑟(𝑋𝑖) .
Definición 4: El estimado de enchufe de 𝜎 2 , denotado como ^𝜎𝑛2 , es la
varianza de la distribución empírica:

Varianza de la muestra
𝑛
^2 1 ^ )2
𝜎𝑛 = ෍(𝑥𝑖 − 𝜇𝑛
Esta es la varianza de la
𝑛 muestra y se denota 𝑆𝑛2
𝑖=1

𝑛 𝑛−1
^ 1 El valor esperado de 𝑆𝑛2 es E(𝑆𝑛2 ) = 𝜎2 < 𝜎2
𝜎𝑛2 = ෍(𝑥𝑖 − x̄𝑛 ) 2 𝑛
𝑛 Donde 𝑆𝑛2 no es insesgado
𝑖=1

𝑛 𝑛
1 1 Por lo tanto usaremos un estimador alternativo
^
𝜎𝑛 = ෍(𝑥𝑖 ) −( ෍(𝑥𝑖 )2
2 2
1
𝑛 𝑛 de 𝜎 2 → 𝑆𝑛2 = 𝑛−1 σ𝑛𝑖=1(𝑥𝑖 − x̄𝑛 ) 2
𝑖=1 𝑖=1
Estimadores Plug-In de la Media y la Varianza
Retomando el Ejemplo del lanzamiento de los dados

Varianza poblacional

1 1 1 1 1 1
𝜎 2 = 12 𝑥 6 + 22 x6 + 32 𝑥 6 + 42 x 6 + 52 𝑥 6 + 62 x 6 − (𝟑. 𝟓)𝟐
35
=
12
= 2.92
Varianza muestral

^ 2 =𝑆 2 = 12 𝑥 0.05 + 22 𝑥 0.35 + 32 + 0.30 + 42 𝑥 0.10 + 52 𝑥 0.1 + 62 𝑥0.10 − (𝟑. 𝟏𝟓)𝟐


𝜎𝑛 𝑛
= 1.93

^2
𝜎20 no iguala a 𝜎 2 . Estamos ante otro caso de variación muestral
Estimadores Plug-In de la Media y la Varianza

Ejemplo tomado del capítulo 7 (Anderson, 2011)


Estimadores Plug-In de los cuantiles
Los cuantiles poblacionales se pueden estimar con el principio de
enchufado.
• Por ejemplo, suponga que 𝑋1, 𝑋2, … , 𝑋𝑛 ~𝑃 y que observamos la
muestra x= 𝑥1, 𝑥2, … , 𝑥𝑛 ..

• Definición 5 El estimado de enchufe de un cuantil poblacional es el


correspondiente cuantil de la distribución de la muestra. En particular, la
mediana es la mediana de la distribución empírica, y el rango intercuartil
poblacional es el rango intercuartil de la distribución empírica.
Estimadores Plug-In de los cuantiles
Ejemplo
– Se selecciona una muestra de tamaño 20 de la distribución
Uniforme(1,5)
– Esta distribución tiene una mediana de 3 y un rango intercuartil de 4 −
2 = 2.
– Usar el comando siguiente en R: x <- sort(runif(20,min=1,max=5))
– Genera datos de una U(1,5) y lista la muestra en orden ascendente

Si calculamos la mediana → (3.191022 +3.391315)/2 = 3.291168

Y los cuartiles 1 y 3
Estimadores Plug-In de los cuantiles

Bigote superior
max(x) –q3 Q3+1.5(IQR) valores atípicos benignos

Mediana
Rango intercuartil = Q3 –Q1

Q1-1.5(IQR) valores atípicos benignos


Bigote inferior
q1 –min(x)

Eje vertical representa el valor numérico en la muestra


Estimadores Plug-In de los cuantiles
El gráfico de cajas permite identificar valores atípicos (outliers).
• Valores atípicos (outliers) corresponden a observaciones cuyos valores caen a
una distancia extrema de otros valores en una muestra aleatoria.
• Hay 2 tipos de valores atípicos –
Benignos: El valor cae más allá de 𝑸𝟑 + 𝟏. 𝟓(𝑰𝑸𝑹) o de 𝑸𝟏 −
𝟏.𝟓(𝑰𝑸𝑹) (Verjas internas de los datos)
Severos: El valor cae más allá de 𝑸𝟑 + 𝟑(𝑰𝑸𝑹) o de 𝑸𝟏 − 𝟑(𝑰𝑸𝑹)
(Verjas externas de los datos)
• Existen procedimientos estadísticos formales para determinar si hay “Outliers”
en un conjunto de datos
Estimadores Plug-In de los cuantiles
En el caso de una distribución normal estándar, el IQR es aproximadamente
igual a 1.35 desviaciones estándar.
Para una muestra seleccionada de distribución normal, una observación es un
“Outlier” si su valor cae más allá de (𝟏.𝟑𝟒𝟖𝟗𝟖/𝟐) + 𝟏.𝟓 (𝟏. 𝟑𝟒𝟖𝟗𝟖) = 𝟐. 𝟔𝟗𝟕𝟗𝟔
desviaciones estándar de la media.
Así, la probabilidad de que una observación extraída de una distribución normal
sea un “Outlier” es

Esperamos que una muestra seleccionada de la distribución normal


contenga aproximadamente 7 “Outliers” por cada 1000 observaciones.
Estimadores Plug-In de los cuantiles

El gráfico de probabilidad normal para la muestra de tamaño 100 de una


distribución Chi-Cuadrado con 3 grados de libertad se obtiene con > qqnorm(x)

También podría gustarte