Cota de Cramer PDF
Cota de Cramer PDF
Cota de Cramer PDF
Curso 2015
Repaso
Objetivo: Estimación de parámetros
◮ Encontrar un “buen” estimador de los parámetros de una señal
discreta.
◮ Dado el conjunto de N datos {x[0], x[1], . . . x[N − 1]} que
dependen de un parámetro desconocido θ,
◮ Se quiere estimar θ a partir de los datos
◮ Se define un estimador θ̂ de θ, θ̂ = g (x[0], x[1], . . . x[N − 1])
Utilidad práctica
◮ Permite afirmar si un estimador insesgado es el estimador MVU.
◮ Este es el caso si el estimador alcanza la cota para todos los valores
posibles del parámetro desconocido,
var(θ̂) = CRLB(θ), para todo valor de θ
◮ Provee una referencia contra la cual comparar el desempeño de
cualquier estimador insesgado.
◮ Indica la imposibilidad fı́sica de encontrar un estimador insesgado
con varianza menor que la cota. Esto es útil en estudios de
viabilidad.
 = x[0]
var(Â) = σ 2 .
1 1
0.5 0.5
0 0
0 2 4 6 0 2 4 6
A A
Descripción intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parámetro
◮ con σ1 = 1/3, los valores de A > 4 tienen una probabilidad de
A − x[0]
Pr {A > 4 | x[0] = 3} = 1 − Φ = 1 − Φ(3) ≈ 0.0013
σ1
◮ con σ2 = 1, los valores de A > 4 tienen una probabilidad de
A − x[0]
Pr {A > 4 | x[0] = 3} = 1 − Φ = 1 − Φ(1) ≈ 0.1587
σ2
1 1
0.5 0.5
0 0
0 2 4 6 0 2 4 6
A A
Descripción intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parámetro
◮ Si x ∼ N (µ, σ 2 ) ⇒ Pr{|x − µ| ≤ 3σ} ≈ 0.9973.
◮ Valores de A en el intervalo x[0] ± 3σi son viables. Valores fuera de
ese intervalo tienen una probabilidad muy pequeña.
◮ Con σ1 = 1/3, los candidatos viables son A ∈ [2, 4]
◮ Con σ2 = 1, los candidatos viables son A ∈ [0, 6]
Observaciones
◮ La función de verosimilitud p2 (x[0] = 3; A) tiene una dependencia
más débil del parámetro A que p1 (x[0] = 3; A) por lo que los
candidatos viables de A se encuentran en un intervalo mas amplio.
◮ Intuitivamente, la “agudeza” de la función de verosimilitud
determina la precisión con la cual es posible estimar el parámetro
desconocido.
◮ Una forma de medir la agudeza de la función de verosimilitud es a
través del opuesto de la derivada segunda respecto al parámetro
(curvatura) en el pico.
Descripción intuitiva de la CRLB
Derivada segunda del logaritmo de la función de verosimilitud
◮ La función de verosimilitud es
1 1
p(x[0]; A) = √ exp − 2 (x[0] − A)2
2πσ 2 2σ
◮ El logaritmo de la función de verosimilitud es
√ 1
ln p(x[0]; A) = − ln 2πσ 2 − 2 (x[0] − A)2
2σ
◮ Tomando la derivada primera,
∂ ln p(x[0]; A) 1
= 2 (x[0] − A).
∂A σ
◮ y el opuesto de la derivada segunda queda,
∂ 2 ln p(x[0]; A) 1
− = 2.
∂A2 σ
Descripción intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parámetro
∂ 2 ln p(x[0]; A) 1 ◮ La curvatura crece a medida que la
− = 2 varianza del ruido σ 2 decrece.
∂A2 σ
◮ Teniendo en cuenta que el estimador es  = x[0], y por lo tanto su
varianza es var(Â) = σ 2 , para este ejemplo particular se cumple que
1
var(Â) = 2
− ∂ ln ∂A
p(x[0];A)
2
Resumen
◮ Se dispone de un conjunto de datos y un modelo de los datos que
depende de un parámetro desconocido que se quiere estimar.
◮ El modelo impone una PDF de los datos, la cual depende del
parámetro desconocido.
◮ Si se considera la PDF como función del parámetro manteniendo
fijos los datos, la función se denomina función de verosimilitud.
◮ Cuanto mas fuerte es la dependencia de la función de verosimilitud
con el parámetro, éste puede estimarse con mayor precisión.
◮ Una forma de medir la dependencia de la función de verosimilitud
con el parámetro es a través de la concavidad (opuesto de la
derivada segunda respecto al parámetro).
◮ Cuanto mayor es la concavidad, mayor es la dependencia con el
parámetro y mejor puede estimarse el parámetro.
◮ El estimador del parámetro tendrá menor varianza cuanto mayor esa
la concavidad de la función de verosimilitud.
Cota Inferior de Cramer-Rao
Teorema: Cota Inferior de Cramer-Rao, parámetro escalar
Hipótesis: La PDF p(x; θ) satisface la condición de regularidad,
∂ ln p(x; θ) ◮ La esperanza se toma sobre
∀θ, E =0 (1)
∂θ los datos x.
Tésis:
1. La varianza de todo estimador insesgado θ̂ cumple que
◮ La derivada se evalúa en el
1
var(θ̂) ≥ 2
(2) valor verdadero de θ.
∂ ln p(x; θ)
−E ◮ La esperanza se toma sobre
∂θ2 los datos x.
2. Existe un estimador que alcanza la cota para todo θ si y solo si
∂ ln p(x; θ)
= I(θ)(g(x) − θ) para alguna función I y g (3)
∂θ
1
Este estimador, que es el MVU, es θ̂ = g(x) y su varianza es .
I(θ)
CRLB. Consideraciones.
Esperanza de las derivadas de la función de verosimilitud
◮ La esperanza se toma respecto a los datos x,
2 Z 2
∂ ln p(x; θ) ∂ ln p(x; θ)
E 2
= p(x; θ)dx
∂θ ∂θ2
∂ ln p(x[0]; A) 1
= 2 (x[0] − A) (4)
∂A σ [visto en la página 9]
2
∂ ln p(x[0]; A) 1
=− 2 (5)
∂A2 σ
◮ Aplicando la ecuación 2 de la cota de Cramer-Rao se tiene que
var(Â) ≥ σ 2 ∀A.
h N
i N −1
1 X
ln p(x; A) = − ln (2πσ 2 ) 2 − 2 (x[n] − A)2 (6)
2σ n=0
Ejemplo II
CRLB para nivel de DC en WGN
◮ Aplicando la derivada primera se tiene que
( )
∂ ln p(x; A) ∂ h N
i 1
N
X −1
= − ln (2πσ 2 ) 2 − 2 (x[n] − A)2
∂A ∂A 2σ n=0
N −1
1 X
= (x[n] − A)
σ 2 n=0
N −1
!
N 1 X
= 2 x[n] − A
σ N n=0
N
= (x̄ − A) (7)
σ2
◮ y diferenciando nuevamente,
∂ 2 ln p(x; A) N
=− 2
∂A2 σ
Ejemplo II
CRLB para nivel de DC en WGN
◮ Teniendo en cuenta que la derivada segunda es constante,
empleando la ecuación 2 se obtiene la CRLB,
1 σ2
var(Â) ≥ = . (8)
∂ 2 ln p(x; A) N
−E
∂A2
◮ Además, asociando los términos de la ecuación 7 con los de la
ecuación 3 se llega a que
◮ Â = x̄ (media muestral) alcanza la CRLB y por lo tanto es el
estimador MVU.
◮ La ecuación 8 se cumple con igualdad,
1 σ2
var(Â) = = .
I(A) N
Obsevación
Un estimador MVU puede ser o no ser eficiente.
1 1
◮ Cuando un estimador alcanza la var(θ̂) = =
∂ 2 ln p(x; θ) I(θ)
CRLB, su varianza es: −E
∂θ2
Propiedades
I(θ) tiene las propiedades de una medida de información:
◮ Es no-negativa. Esto puede verse a partir de la siguiente igualdad:
-Ejercicio, ver Apéndice 3A
2 " 2 # en [Kay, 1993]
∂ ln p(x; θ) ∂ ln p(x; θ)
−E =E -Ejercicio: calcular la CRLB
∂θ2 ∂θ para nivel de DC en WGN
◮ Es aditiva para observaciones independientes
Si I(θ) es la información de N
observaciones IID y i(θ) de una única I(θ) = N i(θ)
observación
Información de Fisher
Aditividad para observaciones IID
◮ La densidad de probabilidad de N observaciones IID cumple que
N
Y −1
p(x; θ) = p(x[0], x[1], . . . , x[N − 1]; θ) = p(x[n]; θ).
n=0
donde
1
s[n; f0 ] = A cos(2πf0 n + φ) con 0 < f0 <
2
con la amplitud A y la fase φ conocida.
◮ Usando la ecuación 11, la CRLB es
σ2
var(fˆ0 ) ≥ NP
−1
2
A2 [2πnsen(2πf0 n + φ)]
n=0
CRLB general para señales en WGN
Ejemplo: Estimación de la frecuencia de una sinusoide
Observaciones
x 10
−4 Estimacion de frecuencia, N = 10, φ = 0, SNR = 0 dB
4
3
CRLB
1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Frecuencia
Transformación de parámetros
Ejemplo: potencia de DC en WGN
◮ En el Ejemplo II se vio que x̄ es un estimador eficiente de A.
◮ Podrı́a ocurrir que no interese el signo de A y en cambio interese por
ejemplo, la potencia A2 de la señal.
◮ Surgen las preguntas:
1. ¿x̄2 es un buen estimador de A2 ?
2. ¿Cómo obtener la CRLB de A2 ?
c2 ) ≥ (2A)2 4A2 σ 2
var(A = (14)
N/σ 2 N
σ2
E(x̄2 ) = A2 + −→ A2
N N →∞
E(ξ 2 ) = µ2 + σ 2
var(ξ 2 ) = E(ξ 4 ) − E 2 (ξ 2 )
E(ξ 4 ) = µ4 + 6µ2 σ 2 + 3σ 4
= 4µ2 σ 2 + 2σ 4
Demostración: ejercicio.
4A2 σ 2 2σ 4 4A2 σ 2
var(x̄2 ) = + 2 −→ = CRLB(x̄2 )
N N N →∞ N
Resumen
◮ Una transformación lineal de un estimador eficiente mantiene la
eficiencia.
◮ El estimador transformado es un estimador eficiente del parámetro
transformado.
◮ Una transformación no lineal de un estimador eficiente destruye la
eficiencia, e incluso puede hacerlo sesgado.
◮ Sin embargo, el estimador transformado no linealmente es
asintóticamente insesgado y eficiente.
◮ Cuando la cantidad N de datos crece, el estimador tiende a ser
insesgado y eficiente.
Extensión a vector de parámetros
◮ Se estudiará la extensión de los resultados al caso en que hay mas de
un parámetro desconocido.
T
◮ Se desea estimar el vector de parámetros θ = [θ1 θ2 . . . θp ] .
◮ Asumiendo que el estimador θ̂ es insesgado, la CRLB para un vector
de parámetros establece una cota en la varianza de cada elemento,
var(θ̂i ) ≥ I−1 (θ) ii ,
∂ 2 ln p(x; θ) N
2
=− 2
∂A σ
N −1
∂ 2 ln p(x; θ) 1 X
= − (x[n] − A)
∂A∂σ 2 σ 4 n=0
N −1
∂ 2 ln p(x; θ) N 1 X
= − (x[n] − A)2
∂σ 2 2 2σ 4 σ 6 n=0
Ejemplo IV
CRLB para nivel de DC en WGN
N
◮ Tomando el opuesto de la 2 0
I(θ) = σ N .
esperanza, se construye la 0
matriz de Fisher, 2σ 4
Consecuencias
◮ Como en una matriz semidefinida positiva todos los elementos de la
diagonal son no negativos, la ecuación 17 implica que
Cθ̂ − I−1 (θ) ii ≥ 0
FX (x) = Pr {X ≤ x} .
Z pX (x) = N (0, 1)
x
1
FX (x) = pX (u) du.
−∞
0.5
Distribución de probabilidad
◮ Si X es una variable aleatoria con X ∼ N (µ, σ 2 ), se cumple que
x−µ
Pr {X ≤ x} = Φ
σ
◮ Notar que la transformación de la variable aleatoria
x−µ
x′ =
σ
hace que X ′ ∼ N (0, 1).
Apéndice II
a(θ) = a
⇒ a′ (θ) = b′ (θ) = 0,
b(θ) = b
y Z b Z b
d ∂f (x, θ)
f (x, θ) dx = dx.
dθ a a ∂θ
Apéndice III
Covarianza
◮ La covarianza entre dos variables aleatorias X y Y se define como
cov(X, Y ) = E (X − E[X])(Y − E[Y ])
= E[XY ] − E[X]E[Y ].
Matriz de Covarianza
T
◮ Sea el vector de variables aleatorias X = X1 X2 . . . Xn , la matriz
de covarianza se define como
h i
T
C = E (X − E[X]) (X − E[X])
Kay, S. M. (1993).
Fundamentals of Statistical Signal Processing, Volume I: Estimation
Theory, chapter 3.
Prentice Hall, 1st edition.