Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Cota de Cramer PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 48

Cota Inferior de Cramer Rao

Tratamiento Estadı́stico de Señales


Pablo Musé, Ernesto López & Luı́s Di Martino
{pmuse,elopez}@fing.edu.uy

Departamento de Procesamiento de Señales


Instituto de Ingenierı́a Eléctrica
Facultad de Ingenierı́a

Curso 2015
Repaso
Objetivo: Estimación de parámetros
◮ Encontrar un “buen” estimador de los parámetros de una señal
discreta.
◮ Dado el conjunto de N datos {x[0], x[1], . . . x[N − 1]} que
dependen de un parámetro desconocido θ,
◮ Se quiere estimar θ a partir de los datos
◮ Se define un estimador θ̂ de θ, θ̂ = g (x[0], x[1], . . . x[N − 1])

Condiciones sobre el estimador


◮ En media conduzca al valor verdadero del parámetro,
E(θ̂) = θ Estimador insesgado
◮ La variabilidad del estimador sea lo menor posible
θ̂ = min var(θ̂) Estimador de varianza mı́nima
θ̂

Estimador insesgado de varianza mı́nima (MVU)


Cota Inferior de Cramer-Rao (CRLB)
La Cota Inferior de Cramer-Rao establece una cota inferior teórica en la
varianza de un estimador insesgado:
var(θ̂) ≥ CRLB(θ), para todo estimador insesgado θ̂.

Utilidad práctica
◮ Permite afirmar si un estimador insesgado es el estimador MVU.
◮ Este es el caso si el estimador alcanza la cota para todos los valores
posibles del parámetro desconocido,
var(θ̂) = CRLB(θ), para todo valor de θ
◮ Provee una referencia contra la cual comparar el desempeño de
cualquier estimador insesgado.
◮ Indica la imposibilidad fı́sica de encontrar un estimador insesgado
con varianza menor que la cota. Esto es útil en estudios de
viabilidad.

La teorı́a permite además determinar si existe un estimador que alcanza


la cota.
Descripción intuitiva de la CRLB

Dependencia de la PDF de los datos con el parámetro


◮ Toda la información está contenida en los datos observados y en la
función de densidad de probabilidad (PDF) de esos datos.
◮ Por lo tanto, la precisión de la estimación depende directamente de
la PDF.
◮ No se puede esperar una estimación con mucha precisión si la PDF
depende débilmente del parámetro.
◮ Análogamente, no se puede esperar una estimación precisa si el
modelo depende débilmente del parámetro.

Cuanto mayor es la influencia del parámetro desconocido sobre la PDF,


mejor deberı́a poder estimarse.
Descripción intuitiva de la CRLB

Ejemplo: dependencia de la PDF con el parámetro


Se quiere estimar el nivel de DC (parámetro A) en WGN cuando se
observa una sola muestra,

x[0] = A + w[0], donde w[0] = N (0, σ 2 )

◮ Se espera que la estimación sea mejor si σ 2 es pequeño.


◮ Un buen estimador insesgado es

 = x[0]

◮ La varianza del estimador es

var(Â) = σ 2 .

◮ La precisión del estimador mejora a medida que σ 2 decrece.


Descripción intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parámetro
◮ Se considera la PDF para dos valores distintos de varianza
 
1 1 2
pi (x[0]; A) = p exp − 2 (x[0] − A) , con i = 1, 2.
2πσi2 2σi

◮ Se observa la PDF para x[0] = 3 fijo en función del parámetro


desconocido. Se consideran los valores σ1 = 1/3 y σ2 = 1.

Definición: cuando la PDF es vista como una función del parámetro


desconocido con x fijo, se denomina función de verosimilitud.

p1(x[0]=3;A) con σ1=1/3 p2(x[0]=3;A) con σ2=1

1 1

0.5 0.5

0 0
0 2 4 6 0 2 4 6
A A
Descripción intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parámetro
◮ con σ1 = 1/3, los valores de A > 4 tienen una probabilidad de
 
A − x[0]
Pr {A > 4 | x[0] = 3} = 1 − Φ = 1 − Φ(3) ≈ 0.0013
σ1
◮ con σ2 = 1, los valores de A > 4 tienen una probabilidad de
 
A − x[0]
Pr {A > 4 | x[0] = 3} = 1 − Φ = 1 − Φ(1) ≈ 0.1587
σ2

p1(x[0]=3;A) con σ1=1/3 p2(x[0]=3;A) con σ2=1

1 1

0.5 0.5

0 0
0 2 4 6 0 2 4 6
A A
Descripción intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parámetro
◮ Si x ∼ N (µ, σ 2 ) ⇒ Pr{|x − µ| ≤ 3σ} ≈ 0.9973.
◮ Valores de A en el intervalo x[0] ± 3σi son viables. Valores fuera de
ese intervalo tienen una probabilidad muy pequeña.
◮ Con σ1 = 1/3, los candidatos viables son A ∈ [2, 4]
◮ Con σ2 = 1, los candidatos viables son A ∈ [0, 6]

Observaciones
◮ La función de verosimilitud p2 (x[0] = 3; A) tiene una dependencia
más débil del parámetro A que p1 (x[0] = 3; A) por lo que los
candidatos viables de A se encuentran en un intervalo mas amplio.
◮ Intuitivamente, la “agudeza” de la función de verosimilitud
determina la precisión con la cual es posible estimar el parámetro
desconocido.
◮ Una forma de medir la agudeza de la función de verosimilitud es a
través del opuesto de la derivada segunda respecto al parámetro
(curvatura) en el pico.
Descripción intuitiva de la CRLB
Derivada segunda del logaritmo de la función de verosimilitud
◮ La función de verosimilitud es
 
1 1
p(x[0]; A) = √ exp − 2 (x[0] − A)2
2πσ 2 2σ
◮ El logaritmo de la función de verosimilitud es
√ 1
ln p(x[0]; A) = − ln 2πσ 2 − 2 (x[0] − A)2

◮ Tomando la derivada primera,

∂ ln p(x[0]; A) 1
= 2 (x[0] − A).
∂A σ
◮ y el opuesto de la derivada segunda queda,

∂ 2 ln p(x[0]; A) 1
− = 2.
∂A2 σ
Descripción intuitiva de la CRLB
Ejemplo: dependencia de la PDF con el parámetro
∂ 2 ln p(x[0]; A) 1 ◮ La curvatura crece a medida que la
− = 2 varianza del ruido σ 2 decrece.
∂A2 σ
◮ Teniendo en cuenta que el estimador es  = x[0], y por lo tanto su
varianza es var(Â) = σ 2 , para este ejemplo particular se cumple que
1
var(Â) = 2
− ∂ ln ∂A
p(x[0];A)
2

◮ En este ejemplo, la derivada segunda no depende de los datos (x[0]),


pero en general lo hará. Por lo tanto, una medida mas apropiada de
la curvatura es
◮ Mide la curvatura promedio de la
 2
 función de verosimilitud logarı́tmica.
∂ ln p(x[0]; A)
−E ◮ La esperanza se toma sobre los datos
∂A2
(x[0] en este caso), resultando en una
función únicamente de A.
Descripción intuitiva de la CRLB

Resumen
◮ Se dispone de un conjunto de datos y un modelo de los datos que
depende de un parámetro desconocido que se quiere estimar.
◮ El modelo impone una PDF de los datos, la cual depende del
parámetro desconocido.
◮ Si se considera la PDF como función del parámetro manteniendo
fijos los datos, la función se denomina función de verosimilitud.
◮ Cuanto mas fuerte es la dependencia de la función de verosimilitud
con el parámetro, éste puede estimarse con mayor precisión.
◮ Una forma de medir la dependencia de la función de verosimilitud
con el parámetro es a través de la concavidad (opuesto de la
derivada segunda respecto al parámetro).
◮ Cuanto mayor es la concavidad, mayor es la dependencia con el
parámetro y mejor puede estimarse el parámetro.
◮ El estimador del parámetro tendrá menor varianza cuanto mayor esa
la concavidad de la función de verosimilitud.
Cota Inferior de Cramer-Rao
Teorema: Cota Inferior de Cramer-Rao, parámetro escalar
Hipótesis: La PDF p(x; θ) satisface la condición de regularidad,
 
∂ ln p(x; θ) ◮ La esperanza se toma sobre
∀θ, E =0 (1)
∂θ los datos x.

Tésis:
1. La varianza de todo estimador insesgado θ̂ cumple que
◮ La derivada se evalúa en el
1
var(θ̂) ≥ 2
 (2) valor verdadero de θ.
∂ ln p(x; θ)
−E ◮ La esperanza se toma sobre
∂θ2 los datos x.
2. Existe un estimador que alcanza la cota para todo θ si y solo si

∂ ln p(x; θ)
= I(θ)(g(x) − θ) para alguna función I y g (3)
∂θ
1
Este estimador, que es el MVU, es θ̂ = g(x) y su varianza es .
I(θ)
CRLB. Consideraciones.
Esperanza de las derivadas de la función de verosimilitud
◮ La esperanza se toma respecto a los datos x,
 2  Z 2
∂ ln p(x; θ) ∂ ln p(x; θ)
E 2
= p(x; θ)dx
∂θ ∂θ2

La esperanza reconoce el hecho de que la función de verosimilitud y


sus derivadas son variables aleatorias por depender de los datos
observados x.
◮ La cota depende en general del parámetro desconocido θ.
CRLB. Consideraciones.
Condición de regularidad
  Z
∂ ln p(x; θ) ∂ ln p(x; θ)
E = p(x; θ)dx
∂θ ∂θ (a) Regla de la cadena
Z
(a) ∂p(x; θ) (b) Cambio del orden de
= dx integración y
∂θ
Z diferenciación
(b) ∂
= p(x; θ)dx
Z
∂θ (c) ∀θ, p(x; θ)dx = 1.
(c)
=0
◮ La condición de regularidad se cumple si es posible cambiar el
oreden de integración y diferenciación.
◮ Esto es cierto en general salvo cuando el soporte de p(x; θ) depende
del parámetro desconocido θ.
◮ se deduce de la regla de integración de Leibniz (ver apéndice I)

Ejercicio: Demostrar que en el caso en que x ∼ U [0, θ] no se cumple la condición de regularidad y


por lo tanto no es posible calcular la CRLB.
Ejemplo I

CRLB para muestra de DC en WGN


◮ Estimar A a partir de x[0] = A + w[0] donde w[0] = N (0, σ 2 ).
◮ Eligiendo  = x[0], se tiene que var(Â) = σ 2 .
◮ Las derivadas primera y segunda de la función de verosimilitud son,

∂ ln p(x[0]; A) 1
= 2 (x[0] − A) (4)
∂A σ [visto en la página 9]
2
∂ ln p(x[0]; A) 1
=− 2 (5)
∂A2 σ
◮ Aplicando la ecuación 2 de la cota de Cramer-Rao se tiene que

var(Â) ≥ σ 2 ∀A.

No existe un estimador insesgado de varianza menor a σ 2


◮ Conclusión: Como el estimador elegido es insesgado y alcanza la
CRLB para todo A, es el estimador MVU.
Ejemplo I
CRLB para muestra de DC en WGN
◮ En el caso de no haber descubierto a  = x[0] como estimador, se
podrı́a emplear la segunda parte del teorema de la CRLB.
De la ecuación 3 del teorema La derivada de la función de
de la cota de Cramer-Rao verosimiltud es (ec. 4)
∂ ln p(x; θ) ∂ ln p(x[0]; A) 1
= I(θ)(g(x) − θ) = 2 (x[0]−A)
∂θ ∂A σ
◮ Identificando términos
Se concluye que
◮ Â = g(x[0]) = x[0] es el estimador MVU.
θ=A 1
◮ var(Â) = = σ2
I(θ)
1
I(θ) = 2 ◮ Como el estimador alcanza la cota, se
σ
cumple la ecuación 2 con igualdad, y
g(x[0]) = x[0]
 2 
∂ ln p(x[0]; A)
I(θ) = −E
∂A2
Ejemplo II
CRLB para nivel de DC en WGN
Como generalización del ejemplo anterior, en este caso se observan
múltiples muestras del nivel de continua en WGN,

x[n] = A + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n

Se quiere determinar la CRLB de A.


◮ La función de verosimilitud es
N
Y −1  
1 1 2
p(x; A) = √ exp − 2 (x[n] − A)
n=0 2πσ 2 2σ
" N −1
#
1 1 X 2
= N exp − 2 (x[n] − A) .
(2πσ 2 ) 2 2σ n=0

◮ Tomando el logaritmo queda,

h N
i N −1
1 X
ln p(x; A) = − ln (2πσ 2 ) 2 − 2 (x[n] − A)2 (6)
2σ n=0
Ejemplo II
CRLB para nivel de DC en WGN
◮ Aplicando la derivada primera se tiene que
( )
∂ ln p(x; A) ∂ h N
i 1
N
X −1
= − ln (2πσ 2 ) 2 − 2 (x[n] − A)2
∂A ∂A 2σ n=0
N −1
1 X
= (x[n] − A)
σ 2 n=0
N −1
!
N 1 X
= 2 x[n] − A
σ N n=0
N
= (x̄ − A) (7)
σ2
◮ y diferenciando nuevamente,

∂ 2 ln p(x; A) N
=− 2
∂A2 σ
Ejemplo II
CRLB para nivel de DC en WGN
◮ Teniendo en cuenta que la derivada segunda es constante,
empleando la ecuación 2 se obtiene la CRLB,

1 σ2
var(Â) ≥   = . (8)
∂ 2 ln p(x; A) N
−E
∂A2
◮ Además, asociando los términos de la ecuación 7 con los de la
ecuación 3 se llega a que
◮ Â = x̄ (media muestral) alcanza la CRLB y por lo tanto es el
estimador MVU.
◮ La ecuación 8 se cumple con igualdad,

1 σ2
var(Â) = = .
I(A) N

La varianza del estimador es inversamente proporcional a la cantidad


de datos observados.
Ejemplo III
Estimación de fase
Se quiere estimar la fase φ de una sinusoide contaminada con WGN,

x[n] = A cos(2πf0 n + φ) + w[n] con n = 0, 1, . . . , N − 1,

donde w[n] ∼ N (0, σ 2 ) para todo n.


◮ La derivada del logaritmo de la función de verosimilitud es (ejercicio)
N −1  
∂ ln p(x; φ) A X A
=− 2 x[n] sin(2πf0 n + φ) − sin(4πf0 n + 2φ) .
∂φ σ n=0 2
(9)
 2  2 2
∂ ln p(x; φ) NA 2σ
◮ Además E ≈− =⇒ var(φ̂) ≥
∂φ2 2σ 2 N A2
◮ No se cumple la condición para alcanzar la cota porque la ecuación 9
no se puede expresar en la forma de la ecuación 3.
◮ Es posible que de todas formas exista un estimador MVU, pero
mediante el teorema de Cramer-Rao no es posible determinar su
existencia ni encontrarlo.
Estimador eficiente
Definición
Un estimador que es insesgado y alcanza la cota de Cramer-Rao para
todos los valores del parámetro desconocido se dice que es eficiente.

Obsevación
Un estimador MVU puede ser o no ser eficiente.

θ̂1 es eficiente y MVU θ̂1 es MVU pero no eficiente

◮ Ninguno alcanza la CRLB.


◮ θ̂1 alcanza la CRLB y por lo tanto ◮ La varianza de θ̂1 es menor que la
es el MVU. de los otros estimadores
insesgados. Es el MVU.
Información de Fisher
Definición
 
◮ La información de Fisher para ∂ 2 ln p(x; θ)
I(θ) = −E (10)
los datos x se define como: ∂θ2

1 1
◮ Cuando un estimador alcanza la var(θ̂) =  =
∂ 2 ln p(x; θ) I(θ)
CRLB, su varianza es: −E
∂θ2
Propiedades
I(θ) tiene las propiedades de una medida de información:
◮ Es no-negativa. Esto puede verse a partir de la siguiente igualdad:
-Ejercicio, ver Apéndice 3A
 2  " 2 # en [Kay, 1993]
∂ ln p(x; θ) ∂ ln p(x; θ)
−E =E -Ejercicio: calcular la CRLB
∂θ2 ∂θ para nivel de DC en WGN
◮ Es aditiva para observaciones independientes
Si I(θ) es la información de N
observaciones IID y i(θ) de una única I(θ) = N i(θ)
observación
Información de Fisher
Aditividad para observaciones IID
◮ La densidad de probabilidad de N observaciones IID cumple que
N
Y −1
p(x; θ) = p(x[0], x[1], . . . , x[N − 1]; θ) = p(x[n]; θ).
n=0

◮ La información de Fisher es entonces


  N
X −1  2 
∂ 2 ln p(x; θ) ∂ ln p(x[n]; θ)
I(θ) = −E =− E = N i(θ),
∂θ2 n=0
∂θ2
 
∂ 2 ln p(x[n]; θ)
con i(θ) = −E la información de Fisher de una
∂θ2
muestra.
La CRLB al observar N muestras IID es N veces menor que al observar
una muestra (como en los ejemplos I y II)
Independencia No Independencia Dependencia completa
I(θ) = N i(θ) I(θ) < N i(θ) I(θ) = i(θ)
CRLB general para señales en WGN
Se derivará la CRLB para el caso de una señal s[n; θ] con AWGN,
frecuente en la práctica.
◮ Sea una señal determinı́stica con un parámetro desconocido θ
observada en AWGN,
x[n] = s[n; θ] + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n
◮ La función de verosimilitud es
" N −1
#
1 1 X
p(x; θ) = N exp − 2 (x[n] − s[n; θ])2
(2πσ 2 ) 2 2σ n=0
◮ Tomando el logaritmo queda
h N
i N −1
1 X
ln p(x; θ) = − ln (2πσ 2 ) 2 − 2 (x[n] − s[n; θ])2
2σ n=0
◮ Diferenciando una vez se tiene que
N −1
∂ ln p(x; θ) 1 X ∂s(n; θ)
= 2 (x[n] − s[n; θ])
∂θ σ n=0 ∂θ
CRLB general para señales en WGN
◮ Una segunda diferenciación resulta en
N −1
"  2 #
∂ 2 ln p(x; θ) 1 X ∂ 2 s(n; θ) ∂s(n; θ)
= 2 (x[n] − s[n; θ]) −
∂θ2 σ n=0 ∂θ2 ∂θ

◮ y tomando el valor esperado,


 2  N −1
"  2 #
∂ ln p(x; θ) 1 X ∂ 2 s(n; θ) ∂s(n; θ)
E = 2 (E(x[n]) − s[n; θ]) −
∂θ2 σ n=0 ∂θ2 ∂θ
N −1  2
(a) 1 X ∂s(n; θ)
= − 2 ,
σ n=0 ∂θ

en donde en (a) se empleó que E(x[n]) = s[n; θ].


◮ La CRLB es por lo tanto

σ2 Se obtiene una mejor estimación


var(θ̂) ≥  
−1 ∂s(n; θ) 2
NP cuando la señal cambia mas
n=0 ∂θ rápidamente con el parámetro.
(11)
CRLB general para señales en WGN

Ejemplo: Estimación de la frecuencia de una sinusoide


Se considera una señal sinusoidal en AWGN y se quiere estimar su
frecuencia.
◮ Sea la señal

x[n] = s[n; θ] + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n

donde
1
s[n; f0 ] = A cos(2πf0 n + φ) con 0 < f0 <
2
con la amplitud A y la fase φ conocida.
◮ Usando la ecuación 11, la CRLB es

σ2
var(fˆ0 ) ≥ NP
−1
2
A2 [2πnsen(2πf0 n + φ)]
n=0
CRLB general para señales en WGN
Ejemplo: Estimación de la frecuencia de una sinusoide

Observaciones

◮ En la precisión del estimador hay frecuencias preferidas.


◮ Cuando f0 → 0, CRLB → ∞. Esto es porque para f0 ≈ 0,
pequeños cambios en f0 no alteran la señal significativamente.
◮ Mediante la teorı́a de Cramer-Rao, se encontró una cota de la
varianza del estimador, pero no es posible encontrar el estimador en
este ejemplo.

x 10
−4 Estimacion de frecuencia, N = 10, φ = 0, SNR = 0 dB
4

3
CRLB

1
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5
Frecuencia
Transformación de parámetros
Ejemplo: potencia de DC en WGN
◮ En el Ejemplo II se vio que x̄ es un estimador eficiente de A.
◮ Podrı́a ocurrir que no interese el signo de A y en cambio interese por
ejemplo, la potencia A2 de la señal.
◮ Surgen las preguntas:
1. ¿x̄2 es un buen estimador de A2 ?
2. ¿Cómo obtener la CRLB de A2 ?

1. x̄2 como estimador de A2 : estudio del sesgo.



Como x̄ es un estimador eficiente E x̄2 = E 2 (x̄) + var (x̄)
de A y la CRLB(A) = σ 2 /N , σ2
= A2 + (12)
x̄ ∼ N (A, σ 2 /N ) N
6= A2

x̄2 ni siquiera es un estimador insesgado de A2

Una transformación no lineal destruye la eficiencia de un estimador.


Transformación de parámetros
Ejemplo: potencia de DC en WGN
2. Cálculo de la CRLB de A2
Teorema: La CRLB del estimador de α = g(θ) es
2
∂g
 2
∂θ ∂g
var(α̂) ≥  2 = CRLB(θ̂) (13)
∂ ln p(x; θ) ∂θ
−E
∂θ2
Ver demostración en Apéndice 3A en [Kay, 1993]

En el caso del ejemplo, α = g(A) = A2 y por lo tanto,

c2 ) ≥ (2A)2 4A2 σ 2
var(A = (14)
N/σ 2 N

Observación: Al emplear la ecuación 13, la CRLB queda en general


expresada en función del valor del parámetro θ.
Transformación de parámetros
Eficiencia bajo transformaciones lineales
◮ Se supone que θ̂ es un estimador eficiente de θ y se quiere estimar
g(θ) = aθ + b.
◮ d = g(θ̂) = aθ̂ + b.
Como estimador se elige g(θ)

Esperanza Varianza CRLB


 2
  ∂g
d = E(aθ̂ + b)
E g(θ)  
  d ≥ ∂θ
var g(θ)
d = var(aθ̂ + b)
var g(θ) I(θ)
= aE(θ̂) + b  2
= aθ + b = a2 var(θ̂) ∂g
= var(θ̂)
∂θ
= g(θ)
= a2 var(θ̂)
 
◮ d = g(θ).
El estimador transformado es insesgado, ya que E g(θ)
◮ También es eficiente, ya que la varianza coincide con la CRLB.
Las transformaciones lineales mantienen la eficiencia de los estimadores
Transformación de parámetros
Sesgo y eficiencia asintóticos
La eficiencia es aproximadamente mantenida bajo transformaciones no
lineales si el conjunto de datos es suficientemente grande

◮ Estimador asintóticamente insesgado: lim E(θ̂) = θ


N →∞
◮ Estimador asintóticamente eficiente: lim var(θ̂) = CRLB(θ)
N →∞

Ejemplo: potencia de DC en WGN


◮ Previamente se vio que x̄2 es un estimador sesgado de A2 .
◮ Sin embargo, la esperanza es (ecuación 12)

σ2
E(x̄2 ) = A2 + −→ A2
N N →∞

x̄2 es un estimador asintóticamente insesgado de A2


Transformación de parámetros
Ejemplo: potencia de DC en WGN
◮ Además, como x̄ ∼ N (A, σ 2 /N ) es posible evaluar la varianza,

var(x̄2 ) = E(x̄4 ) − E 2 (x̄2 )

Observación: Si ξ ∼ N (µ, σ 2 ), los momentos segundo y cuarto son


respectivamente,

E(ξ 2 ) = µ2 + σ 2
var(ξ 2 ) = E(ξ 4 ) − E 2 (ξ 2 )
E(ξ 4 ) = µ4 + 6µ2 σ 2 + 3σ 4
= 4µ2 σ 2 + 2σ 4
Demostración: ejercicio.

4A2 σ 2 2σ 4 4A2 σ 2
var(x̄2 ) = + 2 −→ = CRLB(x̄2 )
N N N →∞ N

x̄2 es un estimador asintóticamente eficiente de A2


Transformación de parámetros
Linealidad estadı́stica de una transformación no lineal
◮ A medida que crece N , la PDF de x̄ se concentra alrededor de la
media A. Los valores observados de x̄ están en un intervalo pequeño
en torno de A.
◮ En ese intervalo pequeño, la transformación no lineal es
aproximadamente lineal.
◮ Los valores de x̄ en la región no lineal ocurren raramente.
N pequeño N grande
Transformación de parámetros
Linealidad estadı́stica de una transformación no lineal
◮ Formalmente, esto se puede ver linealizando la transformación g en
A,
dg(A)
g(x̄) ≈ g(A) + (x̄ − A).
dA
◮ Con esta aproximación, se cumple que
 2
dg(A)
var [g(x̄)] = var(x̄) (15)
dg(A) dA
E [g(x̄)] = g(A) + (E (x̄) − A) σ2
dA = (2A)2
= g(A) N
4A2 σ 2
= A2 =
N
El estimador es asintóticamente El estimador alcanza la CRLB
insesgado asintóticamente
◮ La linealización conduce a un estimador asintóticamente eficiente.
◮ La ecuación 15 provee intuición de la forma de la ecuación 13.
Transformación de parámetros

Resumen
◮ Una transformación lineal de un estimador eficiente mantiene la
eficiencia.
◮ El estimador transformado es un estimador eficiente del parámetro
transformado.
◮ Una transformación no lineal de un estimador eficiente destruye la
eficiencia, e incluso puede hacerlo sesgado.
◮ Sin embargo, el estimador transformado no linealmente es
asintóticamente insesgado y eficiente.
◮ Cuando la cantidad N de datos crece, el estimador tiende a ser
insesgado y eficiente.
Extensión a vector de parámetros
◮ Se estudiará la extensión de los resultados al caso en que hay mas de
un parámetro desconocido.
T
◮ Se desea estimar el vector de parámetros θ = [θ1 θ2 . . . θp ] .
◮ Asumiendo que el estimador θ̂ es insesgado, la CRLB para un vector
de parámetros establece una cota en la varianza de cada elemento,
 
var(θ̂i ) ≥ I−1 (θ) ii ,

donde I(θ) es la matriz de información de Fisher p × p.


◮ La matriz de información de Fisher se define como
 2 
∂ ln p(x; θ) i = 1, 2, . . . , p
[I(θ)]ij = −E , con (16)
∂θi ∂θj j = 1, 2, . . . , p

en donde al evaluar esta ecuación hay que emplear el valor verdadero


de θ.
◮ Notar que en el caso escalar (p = 1), I(θ) = I(θ), con I(θ) definida
en la ecuación 10, obteniendo la CRLB escalar.
Ejemplo IV

CRLB para nivel de DC en WGN


Como extensión del Ejemplo II, se considera la observación de N
muestras del nivel de continua en WGN,

x[n] = A + w[n] con n = 0, 1, . . . , N − 1 y w[n] ∼ N (0, σ 2 ) ∀n

pero ahora, además de desconocerse A también se desconococe σ 2 .


 T
◮ En este caso, el vector de parámetros es θ = A σ 2 , y p = 2.
◮ La matriz de información de Fisher 2 × 2 es,
  2   2  
∂ ln p(x; θ) ∂ ln p(x; θ)
 −E 2
−E 2 
I(θ) =   2 ∂A   2 ∂A∂σ  ,
 ∂ ln p(x; θ) ∂ ln p(x; θ) 
−E −E
∂σ 2 ∂A ∂σ 2 2
simétrica y definida positiva.
Ejemplo IV
CRLB para nivel de DC en WGN
◮ La función de verosimilitud logarı́tmica, al igual que en el ejemplo II
(ecuación 6), es
N −1
N N 1 X
ln p(x; θ) = − ln 2π − ln σ 2 − 2 (x[n] − A)2 .
2 2 2σ n=0

◮ y las derivadas son (ejercicio),

∂ 2 ln p(x; θ) N
2
=− 2
∂A σ
N −1
∂ 2 ln p(x; θ) 1 X
= − (x[n] − A)
∂A∂σ 2 σ 4 n=0
N −1
∂ 2 ln p(x; θ) N 1 X
= − (x[n] − A)2
∂σ 2 2 2σ 4 σ 6 n=0
Ejemplo IV
CRLB para nivel de DC en WGN
 
N
◮ Tomando el opuesto de la  2 0 
I(θ) =  σ N .
esperanza, se construye la 0
matriz de Fisher, 2σ 4

◮ Como en este caso la matriz de σ2


Fisher es diagonal, es fácil de var(Â) ≥
N
invertir, conduciendo a que la 2σ 4
cota de Cramer-Rao es var(σˆ2 ) ≥
N
Observaciones
◮ La CRLB de  es la misma que en el caso en que σ 2 es conocido
(ejemplo II).
◮ Análogamente, se puede ver que la CRLB de σˆ2 es la misma si A es
conocido (ejercicio).
◮ Lo anterior se debe a que la matriz de Fisher es diagonal.
Extensión a vector de parámetros
Teorema: Cota Inferior de Cramer-Rao, parámetro vectorial
Hipótesis: La PDF p(x; θ) satisface la condición de regularidad,
 
∂ ln p(x; θ)
∀θ, E =0 ◮ La esperanza se toma respecto
∂θ a los datos x.
Tésis:
1. La matriz de covarianza de todo estimador insesgado θ̂ cumple que
 2 
−1 ∂ ln p(x; θ)
Cθ̂ − I (θ) ≥ 0, donde [I(θ)]ij = −E (17)
∂θi ∂θj
◮ I(θ) es la matriz de información de Fisher
◮ ≥ 0 se interpreta en el sentido de matriz semidefinida positiva
◮ La derivada se evalúa en el valor verdadero de θ.
◮ La esperanza se toma respecto a los datos x.
2. Existe un estimador que alcanza la cota Cθ̂ = I−1 (θ) si y solo si
para alguna función g : RN → Rp y
∂ ln p(x; θ)
= I(θ)(g(x) − θ) (18) alguna matriz I p × p.
∂θ
Ese estimador es θ̂ = g(x) con matriz de covarianza I−1 , MVU.
Extensión a vector de parámetros

Consecuencias
◮ Como en una matriz semidefinida positiva todos los elementos de la
diagonal son no negativos, la ecuación 17 implica que
 
Cθ̂ − I−1 (θ) ii ≥ 0

◮ Por lo tanto, la varianza de cada elemento del vector estimador


cumple que    
var(θ̂i ) = Cθ̂ ii ≥ I−1 (θ) ii . (19)
◮ Si se cumple la condición de la ecuación 18, la ecuación 19 se
cumple con igualdad,
 
var(θ̂i ) = I−1 (θ) ii .

El estimador θ̂ = g(x) es eficiente y por lo tanto MVU.

Ver la definición de la matrix de covarianza en el apéndice en pag. 45


Apéndice I
Distribución de probabilidad
◮ La distribución de probabilidad (CDF, Cumulative Distribution
Function) de una variable aleatoria real X se define como

FX (x) = Pr {X ≤ x} .

◮ Se puede expresar como la integral de la PDF pX (x) como

Z pX (x) = N (0, 1)
x
1
FX (x) = pX (u) du.
−∞
0.5

◮ Si X ∼ N (0, 1), la CDF se


3 x
denomina función Φ,
−3
Φ(x)
Z x 1
1 2
Φ(x) = √ e−u /2 du,
2π −∞ 0.5

y sus valores están


3 x
tabulados. −3
Apéndice I

Distribución de probabilidad
◮ Si X es una variable aleatoria con X ∼ N (µ, σ 2 ), se cumple que
 
x−µ
Pr {X ≤ x} = Φ
σ
◮ Notar que la transformación de la variable aleatoria
x−µ
x′ =
σ
hace que X ′ ∼ N (0, 1).
Apéndice II

Regla de Integración de Leibniz


!
Z b(θ) Z b(θ)
d ∂f (x, θ)
dx + f b(θ), θ ·b′ (θ) − f a(θ), θ ·a′ (θ)
 
f (x, θ) dx =
dθ a(θ) a(θ) ∂θ

◮ De la regla surge que el orden de derivación y integración puede cambiarse


si los lı́mites de integración no dependen de θ,

a(θ) = a
⇒ a′ (θ) = b′ (θ) = 0,
b(θ) = b
y Z b  Z b
d ∂f (x, θ)
f (x, θ) dx = dx.
dθ a a ∂θ
Apéndice III
Covarianza
◮ La covarianza entre dos variables aleatorias X y Y se define como
 
cov(X, Y ) = E (X − E[X])(Y − E[Y ])
= E[XY ] − E[X]E[Y ].

◮ Es una medida de la dependencia entre variables aleatorias.

◮ Definición: dos variables aleatorias X y Y se dicen no


correlacionadas si
cov(X, Y ) = 0.

◮ Independencia: si dos variables aleatorias X y Y son


independientes se cumple que cov(X, Y ) = 0,

cov(X, Y ) = E[XY ] − E[X]E[Y ] (Lo recı́proco no es


= E[X]E[Y ] − E[X]E[Y ] cierto.)
= 0.
Apéndice III

Matriz de Covarianza
 T
◮ Sea el vector de variables aleatorias X = X1 X2 . . . Xn , la matriz
de covarianza se define como
h i
T
C = E (X − E[X]) (X − E[X])

donde la esperanza de un vector y una matriz con entradas


aleatorias se define como la esperanza de las entradas.
Apéndice III
Matriz de Covarianza

E[(X1 − µ1 )(X1 − µ1 )] E[(X1 − µ1 )(X2 − µ2 )] ··· E[(X1 − µ1 )(Xn − µn )]


 
 
 E[(X2 − µ2 )(X1 − µ1 )] E[(X2 − µ2 )(X2 − µ2 )] ··· E[(X2 − µ2 )(Xn − µn )] 
 
 
C=
 
.. .. ..

 .. 

 . . . . 

 
E[(Xn − µn )(X1 − µ1 )] E[(Xn − µn )(X2 − µ2 )] ··· E[(Xn − µn )(Xn − µn )]
var(X1 ) cov(X1 , X2 ) · · · cov(X1 , Xn )
 
 
· · · cov(X2 , Xn )
 
 cov(X2 , X1 ) var(X2 )
 
=
 
.. .. ..

 .. 

 . . . . 

 
cov(Xn , X1 ) cov(Xn , X2 ) ··· var(Xn )
Referencias I

Kay, S. M. (1993).
Fundamentals of Statistical Signal Processing, Volume I: Estimation
Theory, chapter 3.
Prentice Hall, 1st edition.

También podría gustarte