Formulario Prob GDC
Formulario Prob GDC
Formulario Prob GDC
GDC
Formulario
Tema 1
Definición: (Espacio de probabilidad) Un espacio de probabilidad consiste en un espacio muestral Ω y una
función de probabilidad P (·)
La función P debe cumplir (axiomas):
• 0≤P ≤1
• P (Ω) = 1.
• Si A1 , An . . . son eventos que no pueden suceder a la vez (eventos disjuntos ∀i 6= j Ai ∩ Aj = ∅)
∞
[ ∞
X
Aj = P (Aj )
P
j=1 j=1
Definición: (Probabilidad Condicional) Dado un evento B del que sabemos que P (B) > 0, definimos la
probabilidad de que suceda otro evento A condicionada a que ha sucedido B como:
P (A ∩ B)
P (A | B) =
P (B)
Teorema: (Ley de la probabilidad total) Dada una serie de sucesos disjuntos B1 . . . Bn cuya unión es el
espacio muestral Ω, la probabilidad de cualquier suceso A ⊂ Ω puede calcularse como:
n
X
P (A) = P (A | Bi )P (Bi )
i=1
Teorema de Bayes
P (B | A)P (A)
P (A | B) =
P (B)
Definición (ODDS) Los odds de un evento A es el ratio entre la probabilidad del suceso y la probabilidad
de su complementario. Esto es:
P (A)
P (Ac )
1
Tema 2
Definición: (Función de Probabilidad) La función de probabilidad de una variable aleatoria discreta es la
función pX dada por: pX (x) = P (X = x). Al conjunto de valores de x donde pX (x) > 0 se le denomina
soporte de X.
Teorema: (Propiedades de la función de probabilidad)
1. pX (x) > 0 si x ∈ {x1 , x2 , . . . } y pX (x) = 0 si no.
2. P (X ∈ C) = xi ∈C pX (xi )
P
P∞
3. i=1 pX (xi ) = 1
Definición: (Variable Aleatoria Continua y Función de Densidad) Decimos que una variable aleatoria es
continua si existe una función no negativa fX conocida como función de desnidad tal que:
Z b
P (a ≤ X ≤ b) = fX (x)dx.
a
Definición: (Función de distribución acumulada) dada una variable aleatoria X (continua o discreta)
definimos su función de distribución acumulada (c.d.f. en inglés) FX como FX (x) = P (X ≤ x).
• Si X es una variable discreta: FX (xj ) = xi ≤xj pX (xi ).
P
Rx
• Si X es una variable continua: FX (x) = −∞ fX (x).
Teorema: (Propiedades de la función de distribución acumulada)
1. Es creciente: Si x1 ≤ x2 , se cumple que F (x1 ) ≤ F (x2 ).
2. Es continua por la derecha.
lim F (x) = F (a).
x→a+
4. P (X > x) = 1 − FX (x)
5. Para dos valores x1 y x2 cualesquiera con x1 < x2 , P (x1 ≤ X ≤ x2 ) = FX (x2 ) − FX (x1 ).
−1
Definición: llamamos Cuantil o Percentil asociado a una probabilidad p, al valor FX (p); el valor más
−1
pequeño del soporte de X que cumple que F (x) ≥ p. La función FX recibe el nombre de función cuantil
de X.
Definición: La esperanza de la variable X se denota por E(X) y se calcula como:
• E(X) = x∈Ω xpX (x) si X es una v.a. discreta
P
2
R∞
• E(X) = −∞
xf (x)dx si X es una v.a. continua
Teorema: (Esperanza de la función de una v.a.) sea X una variable aleatoria y r una función en la recta
real.
R∞
• E[r(X)] = −∞ r(x)f (x)dx, si la integral es finita o
Teorema: La esperanza de una variable aleatoria debe cumplir las siguientes propiedades:
1. sea Y = aX + b, utilizando el teorema que nos dice como calcular la esperanza de una función tenemos
que E(Y ) = aE(X) + b.
2. Si existe a constante tal que P (X ≥ a) = 1, entonces E(X) ≥ a. Del mismo modo, si existe b constante
tal que P (X ≤ b) = 1, entonces E(X) ≤ b.
3. Sean X1 , . . . , Xn n variables aleatorias tales que E(Xi ) es finita para todo (i = 1, . . . , n) entonces
E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ).
4. Sean X1 , . . . , Xn n variables aleatorias independientes tales que E(Xi ) es finita para todo (i = 1, . . . , n)
entonces:
n
Y n
Y
E Xi = E(Xi ).
i=1 i=1
Definición: sea X una variable aleatoria con esperanza finita µ = E(X). La varianza de X se denota por
V ar(X) se define como: V ar(X) = E[(X − µ)2 ]. Si la E(X) no existe diremos que V ar(X) tampoco existe.
Teorema: V ar(X) también puede calcularse como: V ar(X) = E(X 2 ) − [E(X)]2 .
La desviación típica o estandard de X es la raíz cuadrada positiva de V ar(X) si ésta existe y se denota
como σX .
Teorema: la varianza de una variable aleatoria X debe cumplir las siguientes propiedades:
1. La varianza de una variable aleatoria X, si existe, será siempre V ar(X) ≥ 0.
2. Si X es una variable aleatoria acotada, entonces V ar(X) existe y es finita.
3
Tema 3
Definición: Se dice que una variable aleatoria X sigue una distribución de Bernoulli con parámetro π
(0 ≤ π ≤ 1) si X sólo puede tomar los valores 0 y 1 con probabilidades P (X = 1) = p y P (X = 0) = 1 − p.
Su función de probabilidad es:
p(x|π) = π x (1 − π)(1−x) ,
Y sus momentos:
• E(X) = 1 × π + 0 × (1 − π) = π
• V ar(X) = E(X 2 ) − E(X)2 = π − π 2 = π(1 − π)
La suma de variables Bernoulli independientes sigue una distribución Binomial.
Definición: se dice que una variable X tiene una Distribución Binomial de parámetros N y π cuando su
función de probabilidad tiene la siguiente forma:
(
x π (1 − π) Si x = 0, 1, . . . , N
N x (N −x)
p(x | N, π) =
0 En otro caso
Definición: sean A, B y N números enteros no negativos tales que A+B ≥ N , diremos que variable aleatoria
X sigue una Distribución hipergeometrica de parámetros A, B y N si su función de probabilidad
tiene la forma:
A B
x n−x
p(x | A, B, N ) = A+B
N
• V ar(X) = (A+B)
N AB
2 ·
A+B−N
A+B−1
Definición: una variable aleatoria X sigue una Distribución de Poisson de parámetro λ cuando la
probabilidad de x se puede expresar como:
( −λ x
e λ
x = 0, 1, 2, . . .
p(x | λ) = x!
0 en otro caso
Sus momentos son
4
• E(X) = λ
• V ar(X) = λ
Teorema (Suma de v.a.’s Poisson) Sean X1 , . . . , Xk variables aleatorias independientes con media λ1 , . . . , λk
respectivamente, X1 + · · · + Xk sigue una distribución de Poisson con parámetro λ1 + · · · + λk
Teorema Sea X ∼ Bin(N, π), si N → ∞ y π → 0 de forma que N π = λ, la distribución de X converge a
una Poisson de parámetro λ.
Definición: se dice que una v.a. X sigue una Distribución Binomial Negativa (X ∼ BN (r, π)) con
parámetros r (r=1,2,. . . ) y π ∈ (0, 1) si su función de probabilidad es de la forma:
r+x−1 r
p(x | r, π) = π (1 − π)x
x
• E(X) = r(1−π)
π
• V ar(X) = r(1−π)
π2 .
P (X = k + t | X ≥ k) = P r(X = t).
Definición: Una variable aleatoria X tiene una Distribución Uniforme en el intervalo (a, b) X ∼ U nif (a, b)
si su función de densidad es (
1
si a < x < b
f (x) = b−a
0 en otro caso
Definición: decimos que una variable aleatoria X tiene una distribución normal con media µ y varianza
σ 2 (X ∼ N (µ, σ 2 )) con −∞ ≤ µ ≤ ∞, σ > 0 si su función de densidad puede expresarse como:
" 2 #
1 1
x − µ
f (x | µ, σ 2 ) = √ exp −
σ 2π 2 σ
5
Propiedades de la distribución normal son: 1. f (x | µ, σ 2 ) es simétrica alrededor del punto x = µ (que es
también su máximo) y por tanto su media, su mediana y su moda son iguales. 2. El 95% de la probabilidad
queda entre (aproximadamente) µ + 2σ y µ − 2σ y es, prácticamente, imposible (probabilidad inferior a 0.01)
encontrar valores a una distancia de más de 3 desviaciones estándar de la media.
Teorema: sea X ∼ N (µ, σ 2 ), si definimos una nueva variable Y = aX +b, Y también tendrá una distribución
normal con media aµ + b y varianza a2 σ 2
En particular, dada cualquier variable aleatoria X con distribución normal de media µ y varianza σ 2 la
variable:
X −µ
Z= ,
σ
sigue una distribución Normal Estándard (de media 0 y varianza 1)
Teorema: (Combinación lineal de variables normales) sean X1 , . . . , Xk un conjunto de variables aleatorias
independientes y normalmente distribuidas Xi ∼ N (µi , σi2 (para i = 1, . . . , k), su suma Y = X1 + · · · + Xk
sigue una distribución normal de media µ1 + · · · + µk y varianza σ12 + · · · + σk2 .
Como consecuencia, sean a1 , . . . , ak y b constantes tal que, al menos existe aj 6= 0 la combinación lineal
Y = a1 X1 + · · · + ak Xk + b sigue una distribución normal de media a1 µ+ · · · + ak µk + b y varianza
a21 σ12 + · · · + a2k σk2 .
Definición sean unP conjunto de n variables aleatorias X1 , . . . , Xn definimos su media muestral como la
n
variable aleatoria n1 i=1 Xi . Esta variable aleatoria suele denotarse por X̄n .
Dado el teorema anterior, si las variables X1 , . . . , Xn son independientes y vienen todas de la misma
distribución Xi ∼ N (µ, σ 2 ), se demuestra que X̄n ∼ N (µ, σ 2 /n)
La primera distribución derivada de la distribución normal es la distribución conocida como Lognormal y que
modeliza el comportamiento una variable cuyo logaritmo tiene una distribución normal, es decir:
Definición sea X una variable aleatoria tal que log(X) ∼ N (µ, σ 2 ) diremos que X sigue una distribución
lognormal de parámetros µ y σ 2 .
• E(X) = exp(µ + 0.5σ 2 ).
• V ar(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1].
Funciones especiales
Definición: la función gamma para cualquier valor positivo α, Γ(α) viene definida por la siguiente integral:
Z ∞
Γ(α) = x(α−1) e−x dx
0
y, en particular Z ∞
Γ(1) = e−x dx = 1
0
Γ(n) = (n − 1)!
6
Definición: (Función Beta) para todo α y β positivos, se define la función beta:
Z 1
B(α, β) = xα−1 (1 − x)β−1 dx
0
Γ(α)Γ(β)
B(α, β) =
Γ(α + β)
Definición: decimos que una variable X sigue una distribución gamma de parámetros α y β (X ∼ Ga(α, β))
si su función de densidad es ( α
β
xα−1 e−βx si x > 0
f (x | α, β) = Γ(α)
0 si x ≤ 0
La media y la varianza de una distribución gamma son: - E(X) = α
β - V ar(X) = α
β2
• E(X) = 1/β
• V ar(X) = 1/β 2 .
Teorema: (Falta de memoria de la distribución exponencial) sea X una variable aleatoria con distribución
exponencial de parámetro β y sea t > 0. Entonces, para todo h > 0,
P (X ≥ t + h | X ≥ t) = P (X ≥ h).
Teorema: (Mínimo de v.a.’s exponenciales) sean X1, . . . , Xn un conjunto de variables aleatorias independi-
entes e idénticamente distribuidas (iid) exponencial de parámetro β. La distribución de Y1 = min{X1 , . . . , Xn }
será exponencial de parámetro nβ.
Teorema (Tiempo entre dos sucesos consecutivos) El tiempo entre dos sucesos consecutivos (k − 1 y k) de
un total de n donde cada uno de ellos era exponencial de parámetro β sigue una distribución exponencial de
parámetro (n + 1 − k)β
Teorema: (Relación con un proceso de Poisson) Supongamos que las llegadas suceden según un proceso
de Poisson de parámetro λ, sea Zk el tiempo hasta que se produce la k-ésima llegada, definimos el tiempo
entre llegadas: Y1 = Z1 e Yk = Zk − Zk−1 . Se puede demostrar que Y1 , Y2 , . . . son variables independientes e
idénticamente distribuidas con distribución exponencial de parámetro β = λ.
Como consecuencia, la distribución del tiempo hasta la k-ésima llegada, Zk es una Gamma de parámetros k
y β.
7
Variable aleatoria con Distribución Beta
Definición: una variable aleatoria X tiene una Distribución Beta con parámetros α > 0 y β > 0 si su
función de densidad es:
(
Γ(α)Γ(β) α−1
Γ(α+β) x (1 − x)β−1 si 0 < x < 1
f (x | α, β) =
0 en otro caso
• E(X) = α
α+β
• V ar(X) = αβ
(α+β)2 (α+β+1)
Teorema: (Relación con la distribución Gamma) Sean U y V variables aleatorias independientes y sea
U ∼ Ga(α, 1) y V ∼ Ga(β, 1):
1. X = U/(U + V ) e Y = U + V son v.a. independientes ,
2. X ∼ Be(alpha, β) y
3. Y ∼ Ga(alpha + beta, 1)
Teorema: (Relación con la distribución Uniforme) Una distribución beta de parámetros α = β = 1 es una
distribución uniforme en el intervalo [0, 1].
Teorema: Proceso Beta Binomial. Supongamos que π es una variable aleatoria con distribución beta de
parámetros α y β y que X es una variable aleatoria que, condicionada a que π = p sigue una distribución
binomial de parámetros N y p. Entonces, la distribución de π condicionada a X = x es Be(α + x, β + N − x).
Definición sean V = Z12 + · · · + Zn2 con Zi ∼ N (0, 1) decimos que V sigue una distribución χ2 con n grados
de libertad y lo denotamos por V ∼ χ2n .
• E(V ) = n
• V ar(V ) = 2n
f (t | n) = √ 2 1+
nπ Γ 2n n
8
Teoremas Límite
Teorema: Ley fuerte de los grandes números. La media muestral X̄n converge a la verdadera media µ
con probabilidad 1 o, lo que es lo mismo, el evento X̄n → µ tiene probabilidad 1.
Teorema: Ley débil de los grandes números. Para todo > 0, P (|X̄n − µ| > ) → 0 a medida que
n → ∞. (A este tipo de convergencia se le denomina convergencia en probabilidad)
Teorema central del límite. Sean X1 , . . . , Xn variables iid con media µ y varianza σ 2 . Para todo x
X̄n − µ
lim P √ = Φ(x).
n→∞ σ/ n
−µ
Lo que es equivalente a decir que la variable aleatoria X̄n√
σ/ n
converge a una distribución normal estándar.
Teorema central del límite. Versión aproximada. Para una muestra de n variables independientes e
idénticamente distribuidas con n grande tenemos que su media X̄n se comporta aproximadamente normal
N (µ, σ 2 /n).
Convergencia de una Poisson a una normal. Sea Y ∼ P o(n), dadas las propiedades de la suma de
distribuciones Poisson podemos considerarla como la suma de n variables Xi ∼ P o(1). De esta forma, por el
teorema central del limite, para un n grande la distribución de Y puede considerarse
Y ∼ N (n, n)
Convergencia de una gamma a una normal. Sea Y ∼ Ga(n, λ). De nuevo, por las propiedades de la
suma de distribuciones Gamma Y puede considerarse como la suma de Xi ∼ Ga(1, λ) y, por el teorema
central del límite, para n grande n n
Y ∼N ,
λ λ2
Convergencia de una binomial a una normal Sea Y ∼ Bi(n, π), sabemos que Y puede considerarse la
suma de n variables Bernoulli de parámetro π. Por tanto, para n grande, podemos considerar que
9
Tema 4
Distribución Conjunta
Teorema Sea X un vector aleatorio discreto con función de probabilidad conjunta pX (x), la probabilidad
de cualquier conjunto C ⊂ Rn se puede calcular como:
X
P (X ∈ C) = pX (x)
x∈C
Definción decimos que un vector aleatorio X tiene una distribución continua si existe una función f no
negativa tal que, para todo C ⊂ R
Z Z
P (X ∈ C) = · · · f (x1 , . . . , xn )dx1 . . . dxn
C
cuando esta integral existe. A f se le denomina función de densidad conjunta y, en virtud de los axiomas
de probabilidad estudiados en el tema 1, debe cumplir que f (x) ≥ 0 para todo x ∈ SX y
Z ∞ Z ∞
P (X ∈ R ) =
n
··· f (x1 , . . . , xn )dx1 . . . dxn = 1
−∞ −∞
Distribución marginal
Defininción: Dado un vector aleatorio X discreto de dimensión n con función de probabilidad pX podemos
calcular la función de probabilidad para Xi como:
XX X
pXi (xi ) = ··· pX (x1 , . . . , xi , . . . , xn )
| {z }
n−1
Defininción: Dado un vector aleatorio X continuo de dimensión n con función de densidad fX podemos
calcular la función de densidad para Xi como:
Z Z Z
fXi (xi ) = · · · fX (x1 , . . . , xi , . . . , xn )dx1 . . . dxi−1 dxi+1 . . . dxn
| {z }
n−1
Definición: (Independencia de variables aleatorias) Dos o más variables aleatorias serán independientes si
f (x1 , x2 , . . . , xn ) = f (x1 )f (x2 ) · · · f (xn )
10
Distribución condicionada
g(x2 | x1 )h(x1 )
f (x1 | x2 ) =
m(x2 )
Cov(X1 ,X2 )
correlación: ρ(X1 , X2 ) = σ1 σ2
Teorema Para cualesquiera dos variables aleatorias X1 y X2 tales que sus varianzas existen y son finitas:
Esperanza condicional: Dadas dos variables aleatorias X1 y X2 con función de densidad conjunta f (x1 , x2 ),
la esperanza condicional de X2 dada X1 se denota E(X2 | X1 ) y se define como una función de la variable
aleatoria X1 cuyo valor en X1 = x1 es igual a
Z ∞
E(X2 | x1 ) = x2 g(x2 | x1 )dx2
−∞
E[E(X2 | X1 )] = E(X2 )
11