Cota de Cramer PDF

Cota Inferior de Cramer Rao
Tratamiento Estadı́stico de Señales

Pablo Musé, Ernesto López & Luı́s Di Martino
{pmuse,elopez}@fing.edu.uy
Departamento de Procesamiento de Señales

Instituto de Ingenierı́a Eléctrica
Facultad de Ingenierı́a
Curso 2015
Repaso
Objetivo: Estimación de parámetros
◮ Encontrar un “buen” estimador de los parámetros de una señal
discreta.
◮ Dado el conjunto de N datos {x[0], x[1], . . . x[N − 1]} que
dependen de un parámetro desconocido θ,
◮ Se quiere estimar θ a partir de los datos
◮ Se define un estimador θ̂ de θ, θ̂ = g (x[0], x[1], . . . x[N − 1])
Condiciones sobre el estimador

◮ En media conduzca al valor verdadero del parámetro,
E(θ̂) = θ Estimador insesgado
◮ La variabilidad del estimador sea lo menor posible
θ̂ = min var(θ̂) Estimador de varianza mı́nima
θ̂
Estimador insesgado de varianza mı́nima (MVU)

Cota Inferior de Cramer-Rao (CRLB)
La Cota Inferior de Cramer-Rao establece una cota inferior teórica en la
varianza de un estimador insesgado:
var(θ̂) ≥ CRLB(θ), para todo estimador insesgado θ̂.
Utilidad práctica
◮ Permite afirmar si un estimador insesgado es el estimador MVU.
◮ Este es el caso si el estimador alcanza la cota para todos los valores
posibles del parámetro desconocido,
var(θ̂) = CRLB(θ), para todo valor de θ
◮ Provee una referencia contra la cual comparar el desempeño de
cualquier estimador insesgado.
◮ Indica la imposibilidad fı́sica de encontrar un estimador insesgado
con varianza menor que la cota. Esto es útil en estudios de
viabilidad.
La teorı́a permite además determinar si existe un estimador que alcanza

la cota.
Descripción intuitiva de la CRLB
Dependencia de la PDF de los datos con el parámetro

◮ Toda la información está contenida en los datos observados y en la
función de densidad de probabilidad (PDF) de esos datos.
◮ Por lo tanto, la precisión de la estimación depende directamente de
la PDF.
◮ No se puede esperar una estimación con mucha precisión si la PDF
depende débilmente del parámetro.
◮ Análogamente, no se puede esperar una estimación precisa si el
modelo depende débilmente del parámetro.
Cuanto mayor es la influencia del parámetro desconocido sobre la PDF,

mejor deberı́a poder estimarse.
Ejemplo: dependencia de la PDF con el parámetro

Se quiere estimar el nivel de DC (parámetro A) en WGN cuando se
observa una sola muestra,
x[0] = A + w[0], donde w[0] = N (0, σ 2 )
◮ Se espera que la estimación sea mejor si σ 2 es pequeño.

◮ Un buen estimador insesgado es
Â = x[0]
◮ La varianza del estimador es
var(Â) = σ 2 .
◮ La precisión del estimador mejora a medida que σ 2 decrece.

◮ Se considera la PDF para dos valores distintos de varianza

1 1 2
pi (x[0]; A) = p exp − 2 (x[0] − A) , con i = 1, 2.
2πσi2 2σi
◮ Se observa la PDF para x[0] = 3 fijo en función del parámetro

desconocido. Se consideran los valores σ1 = 1/3 y σ2 = 1.
Definición: cuando la PDF es vista como una función del parámetro

desconocido con x fijo, se denomina función de verosimilitud.
p1(x[0]=3;A) con σ1=1/3 p2(x[0]=3;A) con σ2=1
1 1
0.5 0.5
0 0
0 2 4 6 0 2 4 6
A A
◮ con σ1 = 1/3, los valores de A > 4 tienen una probabilidad de

A − x[0]
Pr {A > 4 | x[0] = 3} = 1 − Φ = 1 − Φ(3) ≈ 0.0013
σ1
◮ con σ2 = 1, los valores de A > 4 tienen una probabilidad de

A − x[0]
Pr {A > 4 | x[0] = 3} = 1 − Φ = 1 − Φ(1) ≈ 0.1587
σ2
p1(x[0]=3;A) con σ1=1/3 p2(x[0]=3;A) con σ2=1
1 1
0.5 0.5
0 0
0 2 4 6 0 2 4 6
A A
◮ Si x ∼ N (µ, σ 2 ) ⇒ Pr{|x − µ| ≤ 3σ} ≈ 0.9973.
◮ Valores de A en el intervalo x[0] ± 3σi son viables. Valores fuera de
ese intervalo tienen una probabilidad muy pequeña.
◮ Con σ1 = 1/3, los candidatos viables son A ∈ [2, 4]
◮ Con σ2 = 1, los candidatos viables son A ∈ [0, 6]
Observaciones
◮ La función de verosimilitud p2 (x[0] = 3; A) tiene una dependencia
más débil del parámetro A que p1 (x[0] = 3; A) por lo que los
candidatos viables de A se encuentran en un intervalo mas amplio.
◮ Intuitivamente, la “agudeza” de la función de verosimilitud
determina la precisión con la cual es posible estimar el parámetro
desconocido.
◮ Una forma de medir la agudeza de la función de verosimilitud es a
través del opuesto de la derivada segunda respecto al parámetro
(curvatura) en el pico.
Derivada segunda del logaritmo de la función de verosimilitud
◮ La función de verosimilitud es

1 1
p(x[0]; A) = √ exp − 2 (x[0] − A)2
2πσ 2 2σ
◮ El logaritmo de la función de verosimilitud es
√ 1
ln p(x[0]; A) = − ln 2πσ 2 − 2 (x[0] − A)2
2σ
◮ Tomando la derivada primera,
∂ ln p(x[0]; A) 1
= 2 (x[0] − A).
∂A σ
◮ y el opuesto de la derivada segunda queda,
∂ 2 ln p(x[0]; A) 1
− = 2.
∂A2 σ
∂ 2 ln p(x[0]; A) 1 ◮ La curvatura crece a medida que la
− = 2 varianza del ruido σ 2 decrece.
∂A2 σ
◮ Teniendo en cuenta que el estimador es Â = x[0], y por lo tanto su
varianza es var(Â) = σ 2 , para este ejemplo particular se cumple que
1
var(Â) = 2
− ∂ ln ∂A
p(x[0];A)
2
◮ En este ejemplo, la derivada segunda no depende de los datos (x[0]),

pero en general lo hará. Por lo tanto, una medida mas apropiada de
la curvatura es
◮ Mide la curvatura promedio de la
2
función de verosimilitud logarı́tmica.
∂ ln p(x[0]; A)
−E ◮ La esperanza se toma sobre los datos
∂A2
(x[0] en este caso), resultando en una
función únicamente de A.
Resumen
◮ Se dispone de un conjunto de datos y un modelo de los datos que
depende de un parámetro desconocido que se quiere estimar.
◮ El modelo impone una PDF de los datos, la cual depende del
parámetro desconocido.
◮ Si se considera la PDF como función del parámetro manteniendo
fijos los datos, la función se denomina función de verosimilitud.
◮ Cuanto mas fuerte es la dependencia de la función de verosimilitud
con el parámetro, éste puede estimarse con mayor precisión.
◮ Una forma de medir la dependencia de la función de verosimilitud
con el parámetro es a través de la concavidad (opuesto de la
derivada segunda respecto al parámetro).
◮ Cuanto mayor es la concavidad, mayor es la dependencia con el
parámetro y mejor puede estimarse el parámetro.
◮ El estimador del parámetro tendrá menor varianza cuanto mayor esa
la concavidad de la función de verosimilitud.
Cota Inferior de Cramer-Rao
Teorema: Cota Inferior de Cramer-Rao, parámetro escalar
Hipótesis: La PDF p(x; θ) satisface la condición de regularidad,

∂ ln p(x; θ) ◮ La esperanza se toma sobre
∀θ, E =0 (1)
∂θ los datos x.
Tésis:
1. La varianza de todo estimador insesgado θ̂ cumple que
◮ La derivada se evalúa en el
1
var(θ̂) ≥ 2
(2) valor verdadero de θ.
∂ ln p(x; θ)
−E ◮ La esperanza se toma sobre
∂θ2 los datos x.
2. Existe un estimador que alcanza la cota para todo θ si y solo si
∂ ln p(x; θ)
= I(θ)(g(x) − θ) para alguna función I y g (3)
∂θ
1
Este estimador, que es el MVU, es θ̂ = g(x) y su varianza es .
I(θ)
CRLB. Consideraciones.
Esperanza de las derivadas de la función de verosimilitud
◮ La esperanza se toma respecto a los datos x,
2 Z 2
∂ ln p(x; θ) ∂ ln p(x; θ)
E 2
= p(x; θ)dx
∂θ ∂θ2
La esperanza reconoce el hecho de que la función de verosimilitud y

sus derivadas son variables aleatorias por depender de los datos
observados x.
◮ La cota depende en general del parámetro desconocido θ.
CRLB. Consideraciones.
Condición de regularidad
Z
E = p(x; θ)dx
∂θ ∂θ (a) Regla de la cadena
Z
(a) ∂p(x; θ) (b) Cambio del orden de
= dx integración y
∂θ
Z diferenciación
(b) ∂
= p(x; θ)dx
Z
∂θ (c) ∀θ, p(x; θ)dx = 1.
(c)
=0
◮ La condición de regularidad se cumple si es posible cambiar el
oreden de integración y diferenciación.
◮ Esto es cierto en general salvo cuando el soporte de p(x; θ) depende
del parámetro desconocido θ.
◮ se deduce de la regla de integración de Leibniz (ver apéndice I)
Ejercicio: Demostrar que en el caso en que x ∼ U [0, θ] no se cumple la condición de regularidad y

por lo tanto no es posible calcular la CRLB.
Ejemplo I
CRLB para muestra de DC en WGN

◮ Estimar A a partir de x[0] = A + w[0] donde w[0] = N (0, σ 2 ).
◮ Eligiendo Â = x[0], se tiene que var(Â) = σ 2 .
◮ Las derivadas primera y segunda de la función de verosimilitud son,
∂ ln p(x[0]; A) 1
= 2 (x[0] − A) (4)
∂A σ [visto en la página 9]
2
∂ ln p(x[0]; A) 1
=− 2 (5)
∂A2 σ
◮ Aplicando la ecuación 2 de la cota de Cramer-Rao se tiene que
var(Â) ≥ σ 2 ∀A.
No existe un estimador insesgado de varianza menor a σ 2

◮ Conclusión: Como el estimador elegido es insesgado y alcanza la
CRLB para todo A, es el estimador MVU.
Ejemplo I
CRLB para muestra de DC en WGN
◮ En el caso de no haber descubierto a Â = x[0] como estimador, se
podrı́a emplear la segunda parte del teorema de la CRLB.
De la ecuación 3 del teorema La derivada de la función de
de la cota de Cramer-Rao verosimiltud es (ec. 4)
∂ ln p(x; θ) ∂ ln p(x[0]; A) 1
= I(θ)(g(x) − θ) = 2 (x[0]−A)
∂θ ∂A σ
◮ Identificando términos
Se concluye que
◮ Â = g(x[0]) = x[0] es el estimador MVU.
θ=A 1
◮ var(Â) = = σ2
I(θ)
1
I(θ) = 2 ◮ Como el estimador alcanza la cota, se
σ
cumple la ecuación 2 con igualdad, y
g(x[0]) = x[0]
2
∂ ln p(x[0]; A)
I(θ) = −E
∂A2
Ejemplo II
CRLB para nivel de DC en WGN
Como generalización del ejemplo anterior, en este caso se observan
múltiples muestras del nivel de continua en WGN,
x[n] = A + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n
Se quiere determinar la CRLB de A.

N
Y −1
1 1 2
p(x; A) = √ exp − 2 (x[n] − A)
n=0 2πσ 2 2σ
" N −1
#
1 1 X 2
= N exp − 2 (x[n] − A) .
(2πσ 2 ) 2 2σ n=0
◮ Tomando el logaritmo queda,
h N
i N −1
1 X
ln p(x; A) = − ln (2πσ 2 ) 2 − 2 (x[n] − A)2 (6)
2σ n=0
Ejemplo II
◮ Aplicando la derivada primera se tiene que
( )
∂ ln p(x; A) ∂ h N
i 1
N
X −1
= − ln (2πσ 2 ) 2 − 2 (x[n] − A)2
∂A ∂A 2σ n=0
N −1
1 X
= (x[n] − A)
σ 2 n=0
N −1
!
N 1 X
= 2 x[n] − A
σ N n=0
N
= (x̄ − A) (7)
σ2
◮ y diferenciando nuevamente,
∂ 2 ln p(x; A) N
=− 2
∂A2 σ
Ejemplo II
◮ Teniendo en cuenta que la derivada segunda es constante,
empleando la ecuación 2 se obtiene la CRLB,
1 σ2
var(Â) ≥ = . (8)
∂ 2 ln p(x; A) N
−E
∂A2
◮ Además, asociando los términos de la ecuación 7 con los de la
ecuación 3 se llega a que
◮ Â = x̄ (media muestral) alcanza la CRLB y por lo tanto es el
estimador MVU.
◮ La ecuación 8 se cumple con igualdad,
1 σ2
var(Â) = = .
I(A) N
La varianza del estimador es inversamente proporcional a la cantidad

de datos observados.
Ejemplo III
Estimación de fase
Se quiere estimar la fase φ de una sinusoide contaminada con WGN,
x[n] = A cos(2πf0 n + φ) + w[n] con n = 0, 1, . . . , N − 1,
donde w[n] ∼ N (0, σ 2 ) para todo n.

◮ La derivada del logaritmo de la función de verosimilitud es (ejercicio)
N −1
∂ ln p(x; φ) A X A
=− 2 x[n] sin(2πf0 n + φ) − sin(4πf0 n + 2φ) .
∂φ σ n=0 2
(9)
2 2 2
∂ ln p(x; φ) NA 2σ
◮ Además E ≈− =⇒ var(φ̂) ≥
∂φ2 2σ 2 N A2
◮ No se cumple la condición para alcanzar la cota porque la ecuación 9
no se puede expresar en la forma de la ecuación 3.
◮ Es posible que de todas formas exista un estimador MVU, pero
mediante el teorema de Cramer-Rao no es posible determinar su
existencia ni encontrarlo.
Estimador eficiente
Definición
Un estimador que es insesgado y alcanza la cota de Cramer-Rao para
todos los valores del parámetro desconocido se dice que es eficiente.
Obsevación
Un estimador MVU puede ser o no ser eficiente.
θ̂1 es eficiente y MVU θ̂1 es MVU pero no eficiente
◮ Ninguno alcanza la CRLB.

◮ θ̂1 alcanza la CRLB y por lo tanto ◮ La varianza de θ̂1 es menor que la
es el MVU. de los otros estimadores
insesgados. Es el MVU.
Información de Fisher
Definición

◮ La información de Fisher para ∂ 2 ln p(x; θ)
I(θ) = −E (10)
los datos x se define como: ∂θ2
1 1
◮ Cuando un estimador alcanza la var(θ̂) = =
∂ 2 ln p(x; θ) I(θ)
CRLB, su varianza es: −E
∂θ2
Propiedades
I(θ) tiene las propiedades de una medida de información:
◮ Es no-negativa. Esto puede verse a partir de la siguiente igualdad:
-Ejercicio, ver Apéndice 3A
2 " 2 # en [Kay, 1993]
−E =E -Ejercicio: calcular la CRLB
∂θ2 ∂θ para nivel de DC en WGN
◮ Es aditiva para observaciones independientes
Si I(θ) es la información de N
observaciones IID y i(θ) de una única I(θ) = N i(θ)
observación
Información de Fisher
Aditividad para observaciones IID
◮ La densidad de probabilidad de N observaciones IID cumple que
N
Y −1
p(x; θ) = p(x[0], x[1], . . . , x[N − 1]; θ) = p(x[n]; θ).
n=0
◮ La información de Fisher es entonces

N
X −1 2
∂ 2 ln p(x; θ) ∂ ln p(x[n]; θ)
I(θ) = −E =− E = N i(θ),
∂θ2 n=0
∂θ2

∂ 2 ln p(x[n]; θ)
con i(θ) = −E la información de Fisher de una
∂θ2
muestra.
La CRLB al observar N muestras IID es N veces menor que al observar
una muestra (como en los ejemplos I y II)
Independencia No Independencia Dependencia completa
I(θ) = N i(θ) I(θ) < N i(θ) I(θ) = i(θ)
CRLB general para señales en WGN
Se derivará la CRLB para el caso de una señal s[n; θ] con AWGN,
frecuente en la práctica.
◮ Sea una señal determinı́stica con un parámetro desconocido θ
observada en AWGN,
x[n] = s[n; θ] + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n
" N −1
#
1 1 X
p(x; θ) = N exp − 2 (x[n] − s[n; θ])2
(2πσ 2 ) 2 2σ n=0
◮ Tomando el logaritmo queda
h N
i N −1
1 X
ln p(x; θ) = − ln (2πσ 2 ) 2 − 2 (x[n] − s[n; θ])2
2σ n=0
◮ Diferenciando una vez se tiene que
N −1
∂ ln p(x; θ) 1 X ∂s(n; θ)
= 2 (x[n] − s[n; θ])
∂θ σ n=0 ∂θ
◮ Una segunda diferenciación resulta en
N −1
" 2 #
∂ 2 ln p(x; θ) 1 X ∂ 2 s(n; θ) ∂s(n; θ)
= 2 (x[n] − s[n; θ]) −
∂θ2 σ n=0 ∂θ2 ∂θ
◮ y tomando el valor esperado,

2 N −1
" 2 #
∂ ln p(x; θ) 1 X ∂ 2 s(n; θ) ∂s(n; θ)
E = 2 (E(x[n]) − s[n; θ]) −
∂θ2 σ n=0 ∂θ2 ∂θ
N −1 2
(a) 1 X ∂s(n; θ)
= − 2 ,
σ n=0 ∂θ
en donde en (a) se empleó que E(x[n]) = s[n; θ].

◮ La CRLB es por lo tanto
σ2 Se obtiene una mejor estimación

var(θ̂) ≥
−1 ∂s(n; θ) 2
NP cuando la señal cambia mas
n=0 ∂θ rápidamente con el parámetro.
(11)
Ejemplo: Estimación de la frecuencia de una sinusoide

Se considera una señal sinusoidal en AWGN y se quiere estimar su
frecuencia.
◮ Sea la señal
x[n] = s[n; θ] + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n
donde
1
s[n; f0 ] = A cos(2πf0 n + φ) con 0 < f0 <
2
con la amplitud A y la fase φ conocida.
◮ Usando la ecuación 11, la CRLB es
σ2
var(fˆ0 ) ≥ NP
−1
2
A2 [2πnsen(2πf0 n + φ)]
n=0
Ejemplo: Estimación de la frecuencia de una sinusoide
Observaciones
◮ En la precisión del estimador hay frecuencias preferidas.

◮ Cuando f0 → 0, CRLB → ∞. Esto es porque para f0 ≈ 0,
pequeños cambios en f0 no alteran la señal significativamente.
◮ Mediante la teorı́a de Cramer-Rao, se encontró una cota de la
varianza del estimador, pero no es posible encontrar el estimador en
este ejemplo.
x 10
−4 Estimacion de frecuencia, N = 10, φ = 0, SNR = 0 dB
4
3
CRLB
1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Frecuencia
Transformación de parámetros
Ejemplo: potencia de DC en WGN
◮ En el Ejemplo II se vio que x̄ es un estimador eficiente de A.
◮ Podrı́a ocurrir que no interese el signo de A y en cambio interese por
ejemplo, la potencia A2 de la señal.
◮ Surgen las preguntas:
1. ¿x̄2 es un buen estimador de A2 ?
2. ¿Cómo obtener la CRLB de A2 ?
1. x̄2 como estimador de A2 : estudio del sesgo.

Como x̄ es un estimador eficiente E x̄2 = E 2 (x̄) + var (x̄)
de A y la CRLB(A) = σ 2 /N , σ2
= A2 + (12)
x̄ ∼ N (A, σ 2 /N ) N
6= A2
x̄2 ni siquiera es un estimador insesgado de A2
Una transformación no lineal destruye la eficiencia de un estimador.

2. Cálculo de la CRLB de A2
Teorema: La CRLB del estimador de α = g(θ) es
2
∂g
2
∂θ ∂g
var(α̂) ≥ 2 = CRLB(θ̂) (13)
∂ ln p(x; θ) ∂θ
−E
∂θ2
Ver demostración en Apéndice 3A en [Kay, 1993]
En el caso del ejemplo, α = g(A) = A2 y por lo tanto,
c2 ) ≥ (2A)2 4A2 σ 2
var(A = (14)
N/σ 2 N
Observación: Al emplear la ecuación 13, la CRLB queda en general

expresada en función del valor del parámetro θ.
Eficiencia bajo transformaciones lineales
◮ Se supone que θ̂ es un estimador eficiente de θ y se quiere estimar
g(θ) = aθ + b.
◮ d = g(θ̂) = aθ̂ + b.
Como estimador se elige g(θ)
Esperanza Varianza CRLB

2
∂g
d = E(aθ̂ + b)
E g(θ)
d ≥ ∂θ
var g(θ)
d = var(aθ̂ + b)
var g(θ) I(θ)
= aE(θ̂) + b 2
= aθ + b = a2 var(θ̂) ∂g
= var(θ̂)
∂θ
= g(θ)
= a2 var(θ̂)

◮ d = g(θ).
El estimador transformado es insesgado, ya que E g(θ)
◮ También es eficiente, ya que la varianza coincide con la CRLB.
Las transformaciones lineales mantienen la eficiencia de los estimadores
Sesgo y eficiencia asintóticos
La eficiencia es aproximadamente mantenida bajo transformaciones no
lineales si el conjunto de datos es suficientemente grande
◮ Estimador asintóticamente insesgado: lim E(θ̂) = θ

N →∞
◮ Estimador asintóticamente eficiente: lim var(θ̂) = CRLB(θ)
N →∞

◮ Previamente se vio que x̄2 es un estimador sesgado de A2 .
◮ Sin embargo, la esperanza es (ecuación 12)
σ2
E(x̄2 ) = A2 + −→ A2
N N →∞
x̄2 es un estimador asintóticamente insesgado de A2

◮ Además, como x̄ ∼ N (A, σ 2 /N ) es posible evaluar la varianza,
var(x̄2 ) = E(x̄4 ) − E 2 (x̄2 )
Observación: Si ξ ∼ N (µ, σ 2 ), los momentos segundo y cuarto son

respectivamente,
E(ξ 2 ) = µ2 + σ 2
var(ξ 2 ) = E(ξ 4 ) − E 2 (ξ 2 )
E(ξ 4 ) = µ4 + 6µ2 σ 2 + 3σ 4
= 4µ2 σ 2 + 2σ 4
Demostración: ejercicio.
4A2 σ 2 2σ 4 4A2 σ 2
var(x̄2 ) = + 2 −→ = CRLB(x̄2 )
N N N →∞ N
x̄2 es un estimador asintóticamente eficiente de A2

Linealidad estadı́stica de una transformación no lineal
◮ A medida que crece N , la PDF de x̄ se concentra alrededor de la
media A. Los valores observados de x̄ están en un intervalo pequeño
en torno de A.
◮ En ese intervalo pequeño, la transformación no lineal es
aproximadamente lineal.
◮ Los valores de x̄ en la región no lineal ocurren raramente.
N pequeño N grande
Linealidad estadı́stica de una transformación no lineal
◮ Formalmente, esto se puede ver linealizando la transformación g en
A,
dg(A)
g(x̄) ≈ g(A) + (x̄ − A).
dA
◮ Con esta aproximación, se cumple que
2
dg(A)
var [g(x̄)] = var(x̄) (15)
dg(A) dA
E [g(x̄)] = g(A) + (E (x̄) − A) σ2
dA = (2A)2
= g(A) N
4A2 σ 2
= A2 =
N
El estimador es asintóticamente El estimador alcanza la CRLB
insesgado asintóticamente
◮ La linealización conduce a un estimador asintóticamente eficiente.
◮ La ecuación 15 provee intuición de la forma de la ecuación 13.
Resumen
◮ Una transformación lineal de un estimador eficiente mantiene la
eficiencia.
◮ El estimador transformado es un estimador eficiente del parámetro
transformado.
◮ Una transformación no lineal de un estimador eficiente destruye la
eficiencia, e incluso puede hacerlo sesgado.
◮ Sin embargo, el estimador transformado no linealmente es
asintóticamente insesgado y eficiente.
◮ Cuando la cantidad N de datos crece, el estimador tiende a ser
insesgado y eficiente.
Extensión a vector de parámetros
◮ Se estudiará la extensión de los resultados al caso en que hay mas de
un parámetro desconocido.
T
◮ Se desea estimar el vector de parámetros θ = [θ1 θ2 . . . θp ] .
◮ Asumiendo que el estimador θ̂ es insesgado, la CRLB para un vector
de parámetros establece una cota en la varianza de cada elemento,

var(θ̂i ) ≥ I−1 (θ) ii ,
donde I(θ) es la matriz de información de Fisher p × p.

◮ La matriz de información de Fisher se define como
2
∂ ln p(x; θ) i = 1, 2, . . . , p
[I(θ)]ij = −E , con (16)
∂θi ∂θj j = 1, 2, . . . , p
en donde al evaluar esta ecuación hay que emplear el valor verdadero

de θ.
◮ Notar que en el caso escalar (p = 1), I(θ) = I(θ), con I(θ) definida
en la ecuación 10, obteniendo la CRLB escalar.
Ejemplo IV

Como extensión del Ejemplo II, se considera la observación de N
muestras del nivel de continua en WGN,
x[n] = A + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n
pero ahora, además de desconocerse A también se desconococe σ 2 .

T
◮ En este caso, el vector de parámetros es θ = A σ 2 , y p = 2.
◮ La matriz de información de Fisher 2 × 2 es,
 2 2 
 −E 2
−E 2 
I(θ) =  2 ∂A 2 ∂A∂σ ,
 ∂ ln p(x; θ) ∂ ln p(x; θ) 
−E −E
∂σ 2 ∂A ∂σ 2 2
simétrica y definida positiva.
Ejemplo IV
◮ La función de verosimilitud logarı́tmica, al igual que en el ejemplo II
(ecuación 6), es
N −1
N N 1 X
ln p(x; θ) = − ln 2π − ln σ 2 − 2 (x[n] − A)2 .
2 2 2σ n=0
◮ y las derivadas son (ejercicio),
∂ 2 ln p(x; θ) N
2
=− 2
∂A σ
N −1
∂ 2 ln p(x; θ) 1 X
= − (x[n] − A)
∂A∂σ 2 σ 4 n=0
N −1
∂ 2 ln p(x; θ) N 1 X
= − (x[n] − A)2
∂σ 2 2 2σ 4 σ 6 n=0
Ejemplo IV
 
N
◮ Tomando el opuesto de la  2 0 
I(θ) =  σ N .
esperanza, se construye la 0
matriz de Fisher, 2σ 4
◮ Como en este caso la matriz de σ2

Fisher es diagonal, es fácil de var(Â) ≥
N
invertir, conduciendo a que la 2σ 4
cota de Cramer-Rao es var(σˆ2 ) ≥
N
Observaciones
◮ La CRLB de Â es la misma que en el caso en que σ 2 es conocido
(ejemplo II).
◮ Análogamente, se puede ver que la CRLB de σˆ2 es la misma si A es
conocido (ejercicio).
◮ Lo anterior se debe a que la matriz de Fisher es diagonal.
Teorema: Cota Inferior de Cramer-Rao, parámetro vectorial
Hipótesis: La PDF p(x; θ) satisface la condición de regularidad,

∂ ln p(x; θ)
∀θ, E =0 ◮ La esperanza se toma respecto
∂θ a los datos x.
Tésis:
1. La matriz de covarianza de todo estimador insesgado θ̂ cumple que
2
−1 ∂ ln p(x; θ)
Cθ̂ − I (θ) ≥ 0, donde [I(θ)]ij = −E (17)
∂θi ∂θj
◮ I(θ) es la matriz de información de Fisher
◮ ≥ 0 se interpreta en el sentido de matriz semidefinida positiva
◮ La derivada se evalúa en el valor verdadero de θ.
◮ La esperanza se toma respecto a los datos x.
2. Existe un estimador que alcanza la cota Cθ̂ = I−1 (θ) si y solo si
para alguna función g : RN → Rp y
∂ ln p(x; θ)
= I(θ)(g(x) − θ) (18) alguna matriz I p × p.
∂θ
Ese estimador es θ̂ = g(x) con matriz de covarianza I−1 , MVU.
Consecuencias
◮ Como en una matriz semidefinida positiva todos los elementos de la
diagonal son no negativos, la ecuación 17 implica que

Cθ̂ − I−1 (θ) ii ≥ 0
◮ Por lo tanto, la varianza de cada elemento del vector estimador

cumple que
var(θ̂i ) = Cθ̂ ii ≥ I−1 (θ) ii . (19)
◮ Si se cumple la condición de la ecuación 18, la ecuación 19 se
cumple con igualdad,

var(θ̂i ) = I−1 (θ) ii .
El estimador θ̂ = g(x) es eficiente y por lo tanto MVU.
Ver la definición de la matrix de covarianza en el apéndice en pag. 45

Apéndice I
Distribución de probabilidad
◮ La distribución de probabilidad (CDF, Cumulative Distribution
Function) de una variable aleatoria real X se define como
FX (x) = Pr {X ≤ x} .
◮ Se puede expresar como la integral de la PDF pX (x) como
Z pX (x) = N (0, 1)
x
1
FX (x) = pX (u) du.
−∞
0.5
◮ Si X ∼ N (0, 1), la CDF se

3 x
denomina función Φ,
−3
Φ(x)
Z x 1
1 2
Φ(x) = √ e−u /2 du,
2π −∞ 0.5
y sus valores están

3 x
tabulados. −3
Apéndice I
Distribución de probabilidad
◮ Si X es una variable aleatoria con X ∼ N (µ, σ 2 ), se cumple que

x−µ
Pr {X ≤ x} = Φ
σ
◮ Notar que la transformación de la variable aleatoria
x−µ
x′ =
σ
hace que X ′ ∼ N (0, 1).
Apéndice II
Regla de Integración de Leibniz

!
Z b(θ) Z b(θ)
d ∂f (x, θ)
dx + f b(θ), θ ·b′ (θ) − f a(θ), θ ·a′ (θ)

f (x, θ) dx =
dθ a(θ) a(θ) ∂θ
◮ De la regla surge que el orden de derivación y integración puede cambiarse

si los lı́mites de integración no dependen de θ,
a(θ) = a
⇒ a′ (θ) = b′ (θ) = 0,
b(θ) = b
y Z b Z b
d ∂f (x, θ)
f (x, θ) dx = dx.
dθ a a ∂θ
Apéndice III
Covarianza
◮ La covarianza entre dos variables aleatorias X y Y se define como

cov(X, Y ) = E (X − E[X])(Y − E[Y ])
= E[XY ] − E[X]E[Y ].
◮ Es una medida de la dependencia entre variables aleatorias.
◮ Definición: dos variables aleatorias X y Y se dicen no

correlacionadas si
cov(X, Y ) = 0.
◮ Independencia: si dos variables aleatorias X y Y son

independientes se cumple que cov(X, Y ) = 0,
cov(X, Y ) = E[XY ] − E[X]E[Y ] (Lo recı́proco no es

= E[X]E[Y ] − E[X]E[Y ] cierto.)
= 0.
Apéndice III
Matriz de Covarianza
T
◮ Sea el vector de variables aleatorias X = X1 X2 . . . Xn , la matriz
de covarianza se define como
h i
T
C = E (X − E[X]) (X − E[X])
donde la esperanza de un vector y una matriz con entradas

aleatorias se define como la esperanza de las entradas.
Apéndice III
Matriz de Covarianza
E[(X1 − µ1 )(X1 − µ1 )] E[(X1 − µ1 )(X2 − µ2 )] ··· E[(X1 − µ1 )(Xn − µn )]

 
 
 E[(X2 − µ2 )(X1 − µ1 )] E[(X2 − µ2 )(X2 − µ2 )] ··· E[(X2 − µ2 )(Xn − µn )] 
 
 
C=
 
.. .. ..

 .. 

 . . . . 

 
E[(Xn − µn )(X1 − µ1 )] E[(Xn − µn )(X2 − µ2 )] ··· E[(Xn − µn )(Xn − µn )]
var(X1 ) cov(X1 , X2 ) · · · cov(X1 , Xn )
 
 
· · · cov(X2 , Xn )
 
 cov(X2 , X1 ) var(X2 )
 
=
 
.. .. ..

 .. 

 . . . . 

 
cov(Xn , X1 ) cov(Xn , X2 ) ··· var(Xn )
Referencias I
Kay, S. M. (1993).
Fundamentals of Statistical Signal Processing, Volume I: Estimation
Theory, chapter 3.
Prentice Hall, 1st edition.

Cota de Cramer PDF

Cargado por

Copyright:

Formatos disponibles

Cota de Cramer PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cota de Cramer PDF

Cargado por

Copyright:

Formatos disponibles

Cota Inferior de Cramer Rao

Tratamiento Estadı́stico de Señales

Departamento de Procesamiento de Señales

Condiciones sobre el estimador

Estimador insesgado de varianza mı́nima (MVU)

La teorı́a permite además determinar si existe un estimador que alcanza

Dependencia de la PDF de los datos con el parámetro

Cuanto mayor es la influencia del parámetro desconocido sobre la PDF,

Ejemplo: dependencia de la PDF con el parámetro

x[0] = A + w[0], donde w[0] = N (0, σ 2 )

◮ Se espera que la estimación sea mejor si σ 2 es pequeño.

◮ La varianza del estimador es

◮ La precisión del estimador mejora a medida que σ 2 decrece.

◮ Se observa la PDF para x[0] = 3 fijo en función del parámetro

Definición: cuando la PDF es vista como una función del parámetro

p1(x[0]=3;A) con σ1=1/3 p2(x[0]=3;A) con σ2=1

p1(x[0]=3;A) con σ1=1/3 p2(x[0]=3;A) con σ2=1

◮ En este ejemplo, la derivada segunda no depende de los datos (x[0]),

La esperanza reconoce el hecho de que la función de verosimilitud y

Ejercicio: Demostrar que en el caso en que x ∼ U [0, θ] no se cumple la condición de regularidad y

CRLB para muestra de DC en WGN

No existe un estimador insesgado de varianza menor a σ 2

x[n] = A + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n

Se quiere determinar la CRLB de A.

◮ Tomando el logaritmo queda,

La varianza del estimador es inversamente proporcional a la cantidad

x[n] = A cos(2πf0 n + φ) + w[n] con n = 0, 1, . . . , N − 1,

donde w[n] ∼ N (0, σ 2 ) para todo n.

θ̂1 es eficiente y MVU θ̂1 es MVU pero no eficiente

◮ Ninguno alcanza la CRLB.

◮ La información de Fisher es entonces

◮ y tomando el valor esperado,

en donde en (a) se empleó que E(x[n]) = s[n; θ].

σ2 Se obtiene una mejor estimación

Ejemplo: Estimación de la frecuencia de una sinusoide

x[n] = s[n; θ] + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n

◮ En la precisión del estimador hay frecuencias preferidas.

1. x̄2 como estimador de A2 : estudio del sesgo.

x̄2 ni siquiera es un estimador insesgado de A2

Una transformación no lineal destruye la eficiencia de un estimador.

En el caso del ejemplo, α = g(A) = A2 y por lo tanto,

Observación: Al emplear la ecuación 13, la CRLB queda en general

Esperanza Varianza CRLB

◮ Estimador asintóticamente insesgado: lim E(θ̂) = θ

Ejemplo: potencia de DC en WGN

x̄2 es un estimador asintóticamente insesgado de A2

var(x̄2 ) = E(x̄4 ) − E 2 (x̄2 )

Observación: Si ξ ∼ N (µ, σ 2 ), los momentos segundo y cuarto son

x̄2 es un estimador asintóticamente eficiente de A2

donde I(θ) es la matriz de información de Fisher p × p.

en donde al evaluar esta ecuación hay que emplear el valor verdadero

CRLB para nivel de DC en WGN

x[n] = A + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n

pero ahora, además de desconocerse A también se desconococe σ 2 .

◮ y las derivadas son (ejercicio),

◮ Como en este caso la matriz de σ2

◮ Por lo tanto, la varianza de cada elemento del vector estimador

El estimador θ̂ = g(x) es eficiente y por lo tanto MVU.

Ver la definición de la matrix de covarianza en el apéndice en pag. 45