Teoria Dei Segnali
Teoria Dei Segnali
Teoria Dei Segnali
Pietro Guccione
Indice
Capitolo 1. Richiami principali ai segnali
1.1. Introduzione
1.2. Tipi di segnale
1.3. Segnali elementari
1.4. La Correlazione
5
5
6
9
15
21
21
22
28
30
32
33
36
45
46
50
62
67
67
70
79
88
92
100
104
110
117
117
117
122
123
129
134
INDICE
4.7.
Teoria dellInformazione
140
Capitolo 5. Il rumore
5.1. Introduzione
5.2. Caratteristiche Generali del Rumore
5.3. Fattore e Temperatura Equivalente di Rumore
153
153
154
160
167
167
169
176
CAPITOLO 1
s(t)
s(t)
Unaltra distinzione pu essere fatta tra i segnali periodici e segnali non periodici
(o aperiodici). Detto T un numero reale > 0, un segnale s(t) si dice periodico se
8n 2 Z : s(t) = s(t + nT ). Un segnale periodico quindi definito su tutto lasse
reale e per una sua descrizione completa sufficiente la conoscenza allinterno di un
periodo. Un segnale di durata finita , quindi, aperiodico. Una combinazione lineare
di segnali periodici di stesso periodo T o di periodo che un sottomultiplo di T , cio
T /n , a sua volta, periodica di periodo T .
I segnali inoltre possono essere suddivisi in base al loro comportamento energetico. Si dicono ad energia finita i segnali che verificano la seguente propriet:
(1.2.1)
+1
1
| s(t) |2 dt < +1
dove la quantit a primo membro dellespressione detta energia del segnale. I segnali
R +T /2
periodici non sono segnali ad energia finita, dato che, se T /2 | s(t) |2 dt una quantit finita, lintegrale su tutto < risulter sicuramente infinito. Tali segnali sono allora
segnali a potenza finita, per i quali cio risulta:
(1.2.2)
1
lim
T !+1 T
+T /2
T /2
| s(t) |2 dt < +1
La quantit a primo membro detta potenza del segnale. Per i segnali ad energia finita
la potenza nulla.
Per i segnali tempo discreti la definizione di energia e potenza rispettivamente:
(1.2.3)
+1
X
n= 1
(1.2.4)
|s(n)|2
+N
X
1
lim
|s(n)|2
N !+1 2N + 1
n= N
Infine altre distinzioni tra segnali possono essere fatte sulla base delle loro propriet
puramente matematiche: ad esempio si distinguono i segnali reali da quelli complessi,
composti cio di una parte reale e di una parte immaginaria: sc (t) = sR (t) + jsI (t).
Particolari simmetrie dei segnali possono permettere di distinguere i segnali pari, per i
quali risulta: s(t) = s( t), da quelli dispari, per i quali vale invece: s(t) = s( t).
Per un segnale che non gode di simmetria pari, n dispari, si pu sempre pensare di
estrarne la sua parte pari:
(1.2.5)
1
se (t) = [s(t) + s( t)]
2
(1.2.6)
1
so (t) = [s(t)
2
s( t)]
(1.2.7)
+1
x( )h(t
)d
(1.3.1)
u(t) =
1,
0,
t>0
t<0
r(t) =
t,
0,
t>0
t<0
r(t)
a
t
a
10
Tale segnale pu considerarsi come il risultato del passaggio dello scalino unitario
attraverso un integratore:
(1.3.3)
r(t) =
u( ) d
1
1.3.3. Parabola. La parabola (o rampa parabolica) il segnale che si ottiene riapplicando loperatore di integrazione alla rampa:
(1.3.4)
p(t) =
r( ) d =
1
1 2
t
2
p(t)
(1.3.5)
t
1, |t| <
rect
=
0, |t| >
(1.3.6)
sq(t) =
+1
X
rect
n= 1
2 2
2
nT
11
+
2
2
(1.3.7)
1
t
rect( )
T
T
(1.3.8)
1
t
rect( )
T !0 T
T
(t) = lim
12
La funzione cos definita ha valori sempre nulli tranne in t = 0 dove assume valore
nominalmente infinito. La sua rappresentazione su di un grafico quindi a rigore
impossibile. La schematizzazione che si usa quella riportata in fig. 1.3.4
(t)
(1.3.9)
+1
(t)dt = 1
1
(1.3.10)
+1
s(t) (t
to )dt = s(to )
(1.3.11)
+1
s( ) (t
1
)d = s(t)
13
(1.3.12)
+1
x(t) (at + b) dt =
1
+1
x
1
&
b
a
(&)
d&
1
b
=
x( )
|a|
|a|
a
Per limpulso quindi un cambiamento di scala ed una traslazione comporta la variazione dellarea dellimpulso stesso:
(1.3.13)
(at + b) =
1
b
(t + )
|a|
a
Ultima considerazione quella relativa alle derivate dellimpulso. La derivata dellimpulso, indicata con 0 (t) detta doppietto:
Z
(1.3.14)
+1
x(t) 0 (t
) dt =
x0 ( )
sempre che x(t) sia dotata di derivata in t = . La (1.3.14) si pu ricavare dalla definizione dellimpulso (1.3.8) mediante integrazione per parti (ricordando che
D(AB) = AD(B) + BD(A), dove D() rappresenta loperatore di derivazione):
(1.3.15)
+1
)|+1
1
x(t) (t ) dt = x(t) (t
1
+1
x0 (t) (t ) dt =
x0 ( )
(1.3.16)
u(t) =
( ) d
1
14
infatti tale integrale vale zero finch t < 0, ed 1 non appena t > 0. Dualmente, la
derivata dello scalino unitario limpulso unitario: dtd u(t) = (t)
1.3.6. Funzioni sinusoidali. Una classe di funzioni molto utilizzate, soprattutto nellambito dellanalisi di funzioni periodiche sono le funzioni sinusoidali. Per la
definizione di una funzione sinusoidale sono sufficienti tre elementi: ampiezza A, pulsazione !o e fase iniziale ' (cio largomento della sinusoide per t = 0). Lampiezza
rappresenta lescursione massima che la funzione assume, la frequenza il numero di
cicli per unit di tempo che esegue:
(1.3.17)
A sin(2f t + ')
(1.3.18)
T =
2
!o
f = 1/T la frequenza. Va da s che una sinusoide di frequenza f periodica di periodo T = 1/f ma, anche, di periodo 2T , 3T, . . . , N T . Una sinusoide con fase iniziale
/2 chiamata cosinusoide e vale la relazione sin(!t + /2) = cos(!t). La potenza
media di una sinusoide di ampiezza unitaria vale:
(1.3.19)
!
Pm =
2
2/!
sin2 (!t) dt =
1
2
(1.3.20)
Il rapporto tra potenza di picco e potenza media detto fattore di picco e, per una
sinusoide vale 2.
1.4. LA CORRELAZIONE
15
(1.3.21)
sinc(t) =
sin( Tt )
Tt
e che assume valore pari ad 1 al limite per t ! 0. E una funzione pari, in quanto
rapporto di due funzioni dispari.
1.4. La Correlazione
Dato un segnale deterministico e non periodico, s(t), di esso si pu definire, come
gi visto lenergia:
(1.4.1)
Es =
+1
2
| s(t) | dt =
+1
1
| S(f ) |2 df
dove lultima uguaglianza discende dal teorema di Parseval, il quale afferma che
lenergia del segnale, calcolabile nei due domini tempo e frequenza, non cambia.
Se il segnale passa attraverso un sistema lineare tempo invariante con funzione di
trasferimento: H(f ):
Y (f ) = S(f ) H(f )
(1.4.2)
Ey =
+1
1
| S(f ) |2 | H(f ) |2 df
(1.4.3)
Rx ( ) =
+1
x(t)x(t
)dt
1.4. LA CORRELAZIONE
16
provi
R +1 a porre x( ) = y( ) e ad eseguire lintegrale di convoluzione: Rx ( ) =
x(t)y( t)dt) e quindi che:
1
(1.4.4)
Rx ( ) =
+1
1
| X(f ) |2 ej2f df
cio lautocorrelazione di un segnale anche lantitrasformata del suo spettro di energia. Si ricordi che per un segnale reale, se ad x(t) ! X(f ), allora ad x( t) !
X( f ) = X (f ), mentre per un segnale complesso si ha che se ad x(t) ! X(f ),
allora ad x( t) ! X( f ), e ad x (t) ! X ( f ), infine ad x ( t) ! X (f ).
Poich questultima definizione vale sempre, allora se il segnale complesso la
definizione di autocorrelazione deve essere adeguatamente modificata:
(1.4.5)
Rx ( ) =
+1
x(t)x (t
)dt = x( ) ? x ( )
x(t
)2 + x(t)2
x(t)]2
2x(t
0,
)x(t)
R +1
1
x (t)(t
)dt = x ( ) ? x( ).
1.4. LA CORRELAZIONE
17
Rxy ( ) =
+1
x(t)y(t
)dt = x( ) ? y( )
y(t)x(t
)dt = y( ) ? x( )
ed anche:
(1.4.7)
Ryx ( ) =
+1
1
Rxy ( ) =
(1.4.9)
Ryx ( ) =
Z
Z
+1
x (t)y(t
)dt = x ( ) ? y( )
y (t)x(t
)dt = y ( ) ? x( )
+1
1
Rxy ( ) =
+1
+1
x (t)y(t
1
y(z)x (z + )dz
1
)dt =
+1
+1
x (z + )y(z)dz =
y (z)x(z
( ))dz
= Ryx
( )
Due segnali si dicono ortogonali se risulta che Rxy ( ) = 0, 8 . La cross correlazione d una misura del grado di somiglianza tra due segnali, analogamente allautocorrelazione di un segnale.
1.4. LA CORRELAZIONE
18
1
P = lim
T !+1 T
(1.4.10)
+T /2
| s(t) |2 dt
T /2
si pu ancora definire una quantit che nel dominio delle frequenze ci dice come sono
distribuite le potenze del segnale: la densit spettrale di potenza del segnale. Sia
infatti: sT (t) la limitazione di s(t) nellintervallo: [ T, T ] :
(1.4.11)
sT (t) =
s(t) |t| T
0 altrove
ET =
+1
2
| sT (t) | dt =
+1
1
| ST (f ) |2 df
Poich la potenza di s(t) definita come limite dellenergia della sua limitazione,
sT (t), al tendere dellintervallo di limitazione allinfinito (e rapportando per lintervallo di tempo stesso), la densit spettrale di potenza si pu scrivere come:
P =
+1
1
| ST (f ) |2 df )
T !+1 2T
lim
1
| ST (f ) |2
T !+1 2T
(1.4.13)
Sp (f ) = lim
La densit spettrale di potenza gode di propriet simili a quelle della densit spettrale
di energia: cio una funzione pari (per i segnali reali), sempre non negativa e il suo
intergale su tutto lasse delle frequenze d luogo alla potenza del segnale.
Analogamente a ci che accade per i segnali ad energia finita, il passaggio di un
segnale a potenza finita attraverso un sistema lineare tempo invariante d luogo ad un
segnale a potenza finita in uscita, la cui densit spettrale di potenza pari a: Sy (f ) =
Sx (f ) |H(f )|2 .
Troviamo ora la funzione del tempo che corrisponde alla funzione densit spettrale
di potenza:
Sp (f ) = lim
T !+1
1
1
| ST (f ) |2 = lim
ST (f ) ST (f ) )
T
!+1
2T
2T
1.4. LA CORRELAZIONE
19
antitrasformando:
1
sT ( ) ? sT ( ) =
T !+1 2T
Z +T
1
= lim
sT (t)sT (t + )dt
T !+1 2T
T
) lim
(1.4.14)
1
Rg ( ) = lim
T !+1 2T
+T
sT (t)sT (t + )dt
T
s(t) = s(t + n T )
(1.4.15)
s(t) =
+1
X
n= 1
n
cn exp(j2 t)
T
(1.4.16)
S(f ) =
+1
X
n= 1
cn (f
n
)
T
dove i cn si possono calcolare in base alla trasformata di Fourier di una singola ripetizione del segnale:
1.4. LA CORRELAZIONE
(1.4.17)
1
cn =
T
+T /2
s(t) e
T /2
n
j2 T
t
dt =
20
1
ST (f )|f = n
T
T
I segnali periodici sono ovviamente segnali a potenza finita. La loro densit spettrale
di potenza anchessa a righe e si pu ricavare facilmente :
1
P =
T
1
=
T
+T /2
T /2
X
n
+T /2
s(t)s (t)dt =
T /2
n
j2 T
t
cn e
Z
1 XX
=
cn cm
T n m
(1.4.18)
+T /2
"
n
X
m
ej2 T t e
j2 m
t
T
cm e
j2 m
t
T
dt =
T /2
Sp (f ) ==
+1
X
n= 1
X
n
|cn |2 (f
dt =
|cn |2 )
n
)
T
La corrispondente funzione di autocorrelazione, essendo un intergale di funzione periodica, anchessa periodica di periodo T e la sua definizione si pu restringere ad un
singolo periodo:
Z +1
1
Rg ( ) = lim
sT (t)sT (t + )d =
T !+1 2T
1
Z
1 +T /2
(1.4.19)
=
s(t)s(t + )d
T
T /2
CAPITOLO 2
22
un valore che ragionevolmente vicino a questo numero possiamo dire che questo
risultato prevedibile, e possiamo dire anche che il dado si comportato seguendo le
ipotesi iniziali, cio che non fosse truccato e che tutte e sei le facce avessero la stessa
probabilit di presentarsi.
La teoria alla base dei fenomeni della natura che seguono leggi aleatorie la teoria
delle probabilit. Questa teoria stata sviluppata da fisici e matematici come Bernoulli, Pascal e Laplace, durante il XVII e il XVIII secolo e inizialmente fu utilizzata per
quantificare le vincite ai tavoli da gioco da gestori di casin e giocatori dazzardo.
2.2. Le Basi della Teoria delle Probabilit
Vediamo ora come la teoria delle probabilit permette di modellare un esperimento aleatorio, in modo che si possano ricavare delle leggi applicabili allesperimento
stesso.
Un elemento fondamentale della teoria quello di ricavare tutti i possibili risultati che lesperimento stesso in grado di produrre. Per il lancio di un dado questo
piusttosto facile, dato che lo spazio campione dellesperimento costituito dai
numeri {1, 2, 3, 4, 5, 6}. In altre situazioni lo spazio campione pi difficile da ottenere. Nellesperimento descritto precedentemente, delle automobili che transitano
da un casello autostradale durante una giornata, si pu dire che il risultato sicuramente un numero intero, zero compreso. Tuttavia piuttosto difficile indicare il limite
superiore di questo intervallo se non intervengono altre ipotesi di lavoro (come ad esempio potrebbero essere il tempo medio di transito, la velocit media delle autovetture
sullautostrada, e cos via).
P ROPOSITION 2.2.1. Lo spazio campione rappresenta linsieme dei possibili
risultati di un esperimento aleatorio.
Dato inoltre un certo esperimento, come quello delle auto al casello, possono interessare anche determinati gruppi di risultati. Ad esempio potrebbe essere interessante
valutare il numero di automobili che transitano al casello in unora, oppure il numero
di automobili che transita dalle 8.30 alle 11.30 e cos via. Questi possibili risultati
sono nientaltro che possibili sottoinsiemi dello spazio campione e sono detti eventi.
Gli eventi devono per soddisfare determinate condizioni per potere essere definiti tali:
23
Gli eventi di uno spazio campione costituiscono quindi una classe S cio un insieme
chiuso rispetto alle operazioni di unione e di intersezione.
Un esperimento aleatorio completamente caratterizzato se sono dati i seguenti tre
elementi: i) la descrizione del suo spazio campione , ii) lindividuazione della classe
degli eventi S, ed infine iii) la descrizione della legge di probabilit P (), la legge
che associa ad ogni evento di S la sua probabilit di presentarsi. La terna , S, P ()
detta lo spazio delle probabilit. A volte lesperimento aleatorio viene identificato
con il suo spazio delle probabilit, cio con la sua descrizione matematica astratta.
2.2.1. La probabilit. Varie definizioni ed interpretazioni sono state date alla
probabilit. Secondo la teoria assiomatica moderna, dovuta al matematico Kolmogorov,
dato un esperimento aleatorio con il suo spazio campione, la legge di probabilit una
corrispondenza che permette di associare ad ogni evento di S un numero reale che
soddisfa i seguenti tre assiomi:
la probabilit di un evento arbitrario sempre non negativa: P (A) 0;
La probabilit dellevento certo pari ad 1: P () = 1;
Dati due eventi mutuamente esclusivi, la probabilit
T dellevento unione
S pari
alla somma delle probabilit dei singoli eventi:A B = ; ) P (A B) =
P (A) + P (B)
Da questi assiomi si ricavano alcune propriet (quindi teoremi che si possono dimostrare a partire dagli assiomi):
T HEOREM 2.2.2. Dato un evento A la probabilit dellevento complementare A
pari al complemento ad uno della probabilit di A: P (A) = 1 P (A).
T HEOREM 2.2.3. Levento nullo ha probabilit zero di verificarsi: P (;) = 0.
T HEOREM 2.2.4. La probabilit di un evento A sempre un numero reale compreso tra zero ed 1: 0 P (A) 1.
T HEOREM 2.2.5.
S Dati due eventi, A e B, la
T probabilit dellevento unione
espressa da: P (A B) = P (A) + P (B) P (A B).
S
S
T
S
T S
T S
D IMOSTRAZIONE
A B
= (A B) (A A) = (A A)
T S T .S
T= (A B)
S T
(A S
A) (B A)S (BT A) = A (B A)
T
T S
P (A TB) =
SP (AT (B A). Tuttavia, essendoTB = B =
T B (A A) =
= (B A) (B A). Quindi: P (B) = P (B A) + P (B A), da cui la tesi.
24
(2.2.1)
T
P (A B)
P (A/B) =
P (B)
La probabilit di A, presa separatamente, detta probabilit a priori, mentre la probabilit di A noto anche levento B, cio P (A/B) detta probabilit a posteriori.
Levento B condiziona levento A e quindi ne modifica la sua probabilit, una volta
che esso si sia verificato. Da questa osservazione nasce la definizione stessa nella quale
levento congiunto rinormalizzato per la probabilit di B che funge quindi da nuovo
spazio campione (da definizione infatti: P (B/B) = 1).
E XAMPLE 2.2.6. Supponiamo di voler studiare lesperimento aleatorio che modelli il lancio di un dado non truccato. Lo spazio campione, costituito dallinsieme dei
possibili risultati, dato da: = {!1 , !2 , !3 , !4 , !5 , !6 } dove !i rapresenta il risultato della faccia i sima al termine dellesperimento. La classe S di tutti i possibili
eventi costituita da 26 possibili valori, compresi e ;. La legge di probabilit resta
assegnata non appena si assegna una probabilit a ciascuno dei risultati dello spazio
dei campioni !i . Poich abbiamo ritenuto il dado non truccato e quindi ragionevole
supporre che in un lancio tutte le facce di un dado abbiano uguale possibilit di presentarsi, si pu ritenere che:
(2.2.2)
P (!i ) =
1
6
(2.2.3)
P (A) =
25
NA
N
Lipotesi cruciale alla base di questa definizione sta nel fatto che tutti i risultati dello
spazio campione hanno pari probabilit di verificarsi. Nellipotesi in cui non vi sia
equiprobabilit dei risultati dello spazio campione la definizione precedente non pi
adeguata e si ricorre allora ad un approccio di tipo sperimentale. Si supponga di effettuare un numero molto alto di lanci N e di collezionare il numero di volte che levento
A si verifica, NA . Allaumentare di N si comincia a notare una certa regolarit nella
relazione che esiste tra il numero di lanci e il numero di volte che A si verifica. La
frequenza relativa con cui si verifica A, cio: NA /N tende allora, per un numero di
lanci molto elevato, alla probabilit, secondo la definizione di Von Mises:
NA
N !1 N
(2.2.4)
P (A) = lim
(2.2.5)
P (A
NA S B
NA + NB
= lim
= P (A) + P (B)
N !1
N !1
N
N
B) = lim
(2.2.6)
P (A) = P (A/B)
26
(2.2.7)
T
\
P (A B)
P (A) = P (A/B) =
) P (A) P (B) = P (A B)
P (B)
I due eventi sono detti indipendenti quando la probabilit congiunta pari al prodotto delle singole probabilit. Lindipendenza tra i due eventi esplicata nel fatto che la
probabilit dellevento A uguale a priori ed a posteriori dellevento B. Levento B
quindi non ha alcuna influenza su A, cio i due eventi sono tra loro indipendenti.
Dalla definizione di probabilit condizionata nasce anche la seguente osservazione:
(2.2.8)
P (B/A) P (A)
P (B)
nota anche con il nome di teorema (o formula) di Bayes. IL teorema di Bayes noto
anche con il nome di teorema delle probabilit totali.
Si consideri infatti una certa partizione dello
T spazio deiScampioni , fatto da N
eventi disgiunti tra loro: B1 , B2 , ..., BN , con Bi Bj = ; e i Bi = . La probabilit
di un dato evento A si pu allora calcolare in base alla conoscenza delle probabilit
condizionate di A con le Bi :
(2.2.9)
P (A) = P (A
) = P (A
N
\[
Bi ) = P (
i=1
N
[
i=1
(A
Bi )) =
N
X
i=1
P (A
Bi )
da cui si ricava, ricordando la relazione che esiste tra la probabilit congiunta e quella
condizionata:
(2.2.10)
P (A) =
N
X
i=1
P (A/Bi ) P (Bi )
27
2.2.2. Esperimento composto. Si considerino ora due esperimenti aleatori differenti tra loro e caratterizzati dagli spazi campione 1 ed 2 . Si pu pensare un
esperimento composto come la contemporanea osservazione dei due esperimenti. Lo
spazio campione sar allora il prodotto cartesiano dei due spazi campione: 1 2 e gli
elementi di questo spazio sono le coppie ordinate che si ottengono dalla combinazione
di tutti i possibili risultati di 1 con quelli di 2 . I due esperimenti naturalmente possono fare riferimento a due esperienze uguali (ad esempio due lanci di dadi) o a due
completamente differenti, come ad esempio il lancio di un dado e lestrazione di una
carta da un mazzo di 52 carte francesi.
Sia ora A1 un evento del primo spazio campione ed A2 un evento del secondo. Si
voglia studiare la probabilit dellevento composizione dei due eventi A1 ed A2 , cio:
A = A1 A2 . Se i due eventi fossero indipendenti evidente che la probabilita dellevento A pari al prodotto delle due probabilit: P (A) = P (A1 ) P (A2 ). Se invece
i due esperimenti sono tra loro in qualche modo legati necessario valutare il grado
di correlazione dei due eventi e quindi la probabilit non pi pari al prodotto delle
due probabilit. E ad esempio evidente che se si vuole stabilire la probabilit di un
evento come lestrazione di un numero
T dispari da un lancio di un dado e di1 un4 asso da
1
un mazzo di carte, avremo:P (Adisp Aasso ) = P (Adisp ) P (Aasso ) = 2 52 = 26
.
Le considerazioni fatte per la composizione di due esperimenti si possono fare per
la composizione di N qualunque esperimenti, ricordando per che in generale, dalla
conoscenza delle leggi di probabilit dei singoli esperimenti non possibile determinare la legge di probabilit dellesperimento composto. In tale ambito ricade il
problema delle prove ripetute ed indipendenti. Caso notevole quello delle prove
binarie ripetute ed indipendenti o prove di Bernoulli.
E XAMPLE 2.2.8. Formula di Bernoulli. Si supponga di voler indagare sullesperimento composto da n esperimenti uguali tra loro ed indipendenti. Ciascuno degli
esperimenti d luogo ad uno spazio dei campioni con due soli possibili risultati: !o ed
!1 , con P (!o ) = p e P (!1 ) = 1 p. Un classico esempio il lancio di n monete, o
anche il lancio di una stessa moneta, purch il risultato sia la composizione dei singoli
lanci. Si costruisca ora levento A = !o si presenta k volte negli n esperimenti (o
prove ripetute). La formula di Bernoulli (o binomiale) dice che:
(2.2.11)
P (A) = (
n
) pk (1
k
n
)=
k
p)n
n!
.
k!(n k)!
1
1
Si ricordi che il modo con cui possono essere disposti k oggetti in n differenti posizioni, distinguendo i gruppi anche per lordine, dato dal numero Dn,k = n (n 1) ... (n k + 1), chiamato
28
il
n
n
n!
numero delle permutazioni di k oggetti: Cn,k = Dn,k /Pk = k!(n k)! =
. Il numero
k
k
detto anche coefficiente binomiale.
29
la probabilit che la variabile aleatoria sia compresa tra a e b, cio P (a < X b).
Estendendo il linguaggio usato solo nellambito degli esperimenti aleatori, si definir
evento anche lintervallo di valori sullasse reale compreso tra a e b, dato che, per la
definizione di variabile aleatoria, lintervallo ]a, b] associabile ad un dato evento di
S.
Questa operazione di determinazione della legge di probabilit di un dato evento
definito direttamente sullasse reale diventa immediato se si introduce una funzione, la
funzione distribuzione di probabilit: FX (x), definita come segue:
(2.3.1)
FX (x) = P (X x)
(1) 0 FX (x) 1
(2) Il suo valore limite, per x ! +1 vale 1: limx!+1 FX (x) = FX (+1) =
P (X +1) = 1
(3) Il suo valore limite per x ! 1 vale 0: limx! 1 FX (x) = FX ( 1) =
P (X 1) = 0
(4) La funzione monotona non decrescente, cio se x1 < x2 ) FX (x1 )
FX (x2 )
(5) La funzione continua da destra, cio FX (x) = limh!0+ FX (x + h)
(6) Se la funzione di distribuzione presenta una discontinuit di prima specie nel
punto x, allora la differenza tra il limite a destra e quello a sinistra proprio il
valore della probablit dellevento in X = x: P (X = x) = limh!0+ FX (
x+
h) limh!0 FX (
x + h)
(7) La probabilit dellevento a < X b pu essere calcolata tramite la relazione: FX (b) FX (a).
Le variabili aleatorie possono essere suddivise in tre classi: variabili aleatorie continue,
variabili aleatorie discrete e variabili aleatorie miste. Una variabile aleatoria
P detta
discreta se la sua funzione di distribuzione continua a tratti: FX (x) = k P (X =
xk )u(x xk ). Tenendo conto delle ultime due propriet viste precedentemente questo
significa che la variabile aleatoria assume valore solo in un numero discreto (cio con
cardinalit pari a quella dei numeri naturali) di valori, e non continuo. Le posizioni
in cui questo accade sono proprio le xk . In queste posizioni la probabilit dellevento
concentrata nel valore xk : pk = P (X = xk ). Le pk sono dette anche masse di
probabilit.
Se invece abbiamo a che fare con una distribuzione di probabilit continua, allora
linsieme dei valori che pu assumere la funzione FX (x) si distribuisce con continuit
30
sullasse dei numeri reali. Linsieme degli eventi a cui associata tale v.a. un infinito di cardinalit pari a quello dei numeri reali, quindi la probabilit che la variabile
aleatoria assuma un certo valore x un infinitesimo, tende cio a zero.
Una variabile aleatoria mista una variabile aleatoria continua quasi ovunque,
tranne che per un numero finito (o uninfinit numerabile) di punti per i quali presenta
discontinuit.
2.4. Densita di Probabilita
Una descrizione alternativa di una variabile aleatoria data anche della funzione
densit di probabilit, fX (x), definita dalla relazione:
(2.4.1)
fX (x) =
dFX (x)
dx
(2.4.2)
FX (x) =
fX (x)dx
1
(2.4.3)
.
+1
fX (x)dx = 1
1
P (x < X x +
(2.4.4)
x) =
fX (x) =
x+ x
fX (x)dx fX (x)
P (x < X x +
x
x)
x)
31
xi
X
k
P (X = xk ) u(x
xk ) ) fX (x) =
X
k
P (X = xk ) (x
xk )
32
F(x)
xi
(2.5.1)
33
dg 1 (y)
fX (g 1 (y))
fY (y) = fX (g (y))
= 0 1
dy
g (g (y))
1
fY (y) =
dg 1 (y)
=
dy
fX (g 1 (y))
fX (g 1 (y))
g 0 (g 1 (y))
fY (y) =
dY
fX (x)
dx
|g 0 (x)|
(2.6.1)
X =
+1
x fX (x)dx
1
e rappresenta una sorta di baricentro della funzione densit di probabilit (si confronti a tale proposito la media con le definizioni, meno note di moda e mediana). Se
la variabile aleatoria discreta la relazione precedente, a causa della presenza degli
34
(2.6.2)
X =
+1
x fX (x)dx =
1
X
k
pk
+1
x (x
xk )dx =
xk pk
Loperazione precedente di media pu essere scritta molto pi facilmente introducendo loperatore di aspettazione (o di valor medio):
(2.6.3)
E[g(X)] =
+1
g(x) fX (x)dx
1
che nel caso della media assume la semplice relazione: X = E[X]. Loperatore di
valor medio gode della propriet di linearit, dato che definito attraverso unoperazione di integrazione: E[a g(X) + b h(X)] = a E[g(X)] + b E[h(X)]. Inoltre,
si supponga di avere una variabile aleatoria Y ottenuta tramite trasformazione della
v.a. X attraverso la funzione y = g(x). Senza passare attraverso il calcolo (a volte
difficoltoso) della densit di probabilit di Y nota quella di X possibile determinare
il valor medio di Y :
(2.6.4)
Y = E[Y ] = E[g(X)] =
+1
g(x) fX (x)dx
1
(2.6.5)
2
X
= E[(X
X ) ] =
+1
(x
1
X )2 fX (x)dx
35
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
6
F IGURA 2.6.1. Confronto tra due densit di probabilit con la stessa media
La radice quadrata della varianza detta deviazione standard e rappresenta una misura
di quanto dispersa sia la densit di probabilit attorno alla media (pi grande la
deviazione standard, maggiore la dispersione). Una v.a. che non presenti affatto dispersione attorno alla media (cio con X = 0) sarebbe tutta concentrata sulla media,
cio avrebbe una densit di probabilit pari ad un impulso di area unitaria posto sulla posizione della media (ovviamente in questo caso non si pu parlare di densit di
probabilit vera e propria, dato che i possibili valori collassano su unico valore certo).
Il valore quadratico medio (chiamato a volte anche potenza) definito come segue:
(2.6.6)
m2X
= E[X ] =
+1
x2 fX (x)dx
1
Loperatore E[] un operatore lineare, quindi possibile trovare la relazione che lega
tra loro varianza e potenza:
2
X
= E[(X
(2.6.7)
X )2 ] = E[X 2
= m2X
2XX + 2X ] = E[X 2 ]
22X + 2X = m2X
2X
2E[X] X + 2X =
36
(2.7.1)
fX (x) =
1
b
rect(
x
b
b+a
2
La v.a. non pu assumere mai valori al di fuori dellintervallo [a, b], ma dentro di
questo intervallo la probabilit di occorrenza di tutti i possibili valori uguale ( come
se fosse un dado continuo, dotato cio di infinite facce).
La funzione di distribuzione, essendo la funzione integrale della densit di probabilit avr comportamento a rampa nellintervallo in cui la funzione di densit non
nulla:
(2.7.2)
FX (x) =
8
< 0
:
x a
b a
x<a
axb
x>b
1/(ba)
(2.7.3)
X =
2
X
(2.7.4)
(2.7.5)
1
b
b3
a3
x2
1
b
dx =
b+a
2
b+a 2
1
)
dx =
2
b a
(x
(b + a) (b2
2
3
m2X
37
a2 )
dx =
(b2 + a2 + 2ab)(b
4
a)
)=
(b
a)2
12
b 3 a3
a2 + ab + b2
=
3(b a)
3
2.7.2. Variabile aleatoria esponenziale. Una variabile aleatoria molto utilizzata la cosiddetta variabile aleatoria continua esponenziale unilatera o semplicemente
esponenziale, cos definita:
(2.7.6)
fX (x) =
1
x
exp(
) u(x)
(2.7.7)
FX (x) =
1
x
exp(
)dx = [1
exp(
x
)] u(x)
(2.7.8)
X =
+1
(2.7.9)
m2X
+1
x2
1
x
exp(
)dx =
1
x
exp(
)dx = 2 2
38
3
2.5
2
1.5
1
0.5
0
0.5
1.5
+1
1
x
exp(
)dx = 2
0
La v.a. esponenziale spesso utilizzata (in ambito telecomunicazionistico) nella
seguente forma:
(2.7.10)
(2.7.11)
dove
2
X
(x
fX (x) =
)2
exp(
x) u(x)
(2.7.12)
fZ (z) =
+1
X
n=0
n!
(z
n)
(2.7.13)
+1
X
FZ (z) =
n!
n=0
u(z
39
n)
0.2
0.15
0.1
0.05
10
12
(2.7.14) Z =
+1
m2Z
(2.7.15)
+1
X
e
n=1
(2.7.16)
+1
X
n=0
+1
2
n!
+1
X
n=0
n
(n 1+1) = e
(n 1)!
2
Z
(z
n)dz =
+1
X
n=0
n!
(z
n)dz = e
n!
+1
X
n 1
(n 1)+e
(n
1)!
n=2
= m2Z
n=e
+1
X
n
n=0
n!
+1
X
n
n=1
n!
n=
n2 =
+1
X
n 1
= 2 +
(n
1)!
n=2
2Z =
Quindi per la v.a. di Poisson il parametro caratteristico rappresenta sia il valor medio
sia la varianza.
40
2.7.4. Variabile aleatoria di binomiale. Considerato un esperimento che conduce a due soli possibili risultati (successo, con probabilit p e insuccesso, con probabilit 1 p), la variabile aleatoria binomiale (o di Bernoulli) conta il numero di successi
accaduti in n esperimenti aleatori di questo tipo indipendenti tra loro:
n
P (X = k) =
pk (1 p)n k
k = 0, ..., n
k
Questa v.a. discreta, quindi hanno ovvia formulazione sia la distribuzione sia la
densit di probabilit. La media vale:
n
X
n
X =
k
pk (1
k
n k
p)
k=0
n
X
(k
n(n 1)!
ppk 1 (1
k(k 1)!(n k)!
pk (1
k=1
n
X
np)
k=0
n
k
p)n
= np(1
p)n
= np
p)
2.7.5. Variabile aleatoria geometrica. Considerati n esperimenti aleatori indipendenti di Bernoulli la v.a. geometrica conta qual il numero di successi da osservare
prima di registrare il primo insuccesso:
P (X = k) = pk (1 p)
k = 0, ..., 1
La media vale:
1
X
p
X =
kpk (1 p) =
1 p
k=0
la varianza vale invece:
2
X
1
X
k=0
p
1
pk (1
p) =
p
(1
p)2
n+m 1
P (X = n) =
pn (1 p)m 1 (1 p)
m 1
Il valore medio pari a: X = m 1 p p .
Infine la variabile aleatoria ipergeometrica si introduce in una particolare classe di
esperimenti detti senza rimessa (o senza rimescolamento). Si supponga, per rendere
41
P (X = k) =
D
k
N D
n k
N
n
1)
x
0
2)
x
3)
x
x
0
42
P (N ( T ) = 1) = p
P (N ( T ) = 0) = 1 p
si esclude la probabilit che in un singolo intervallino capiti pi di un evento
(2) Gli arrivi in intervallini diversi sono indipendenti tra loro.
Calcoliamo ora qual la probabilit che in un dato intervallo finito T capitino k
eventi: Pn (N (T ) = k). In base alle formule viste per la v.a. di Bernoulli si ha:
n
P (N (T ) = k) = ( )pk (1 p)n k con n numero totale di intervallini in cui si pu
k
pensare suddiviso lintervallo T . Sia ora un parametro costante, tale che si possa
scrivere: T = np = , cos che, quando il numero di intervallini tende ad infinito, la
probabilit che un evento capiti in un dato intervallino vada a zero: n ! 1 ) p ! 0.
La probabilit diventa allora:
P (N (T ) = k) = lim Pn (N (T ) = k) = lim (
n!1
= lim (
n!1
(2.7.17)
n
n k
)( ) (1
)
k n
n
=
n!1
n k
)p (1
k
k
n (n 1) ... (n
lim
k! n!1
nk (n k)!
k
lim (1
k! n!1
k)!
p)n
(1
) (1
)
n
n
n k
) =
exp( )
n
k!
(2.7.18)
F (x) = 1 e x
f (x) = e x
43
che, confrontata con le (2.7.6) e (2.7.7) d significato alla v.a. esponenziale, purch si
ponga: = 1 .
Si supponga ora che, a partire da un certo istante in cui capitato un evento, si
voglia determinare quale sar la probabilit che sia il tempo di arrivo dellevento
successivo. Questa probabilit di arrivo, detta tempo di interarrivo si pu calcolare
facilmente a partire dalle considerazioni fatte precedentemente. Infatti, poich gli
eventi sono indipendenti tra loro, loccorrere di un evento ad un certo istante (quello nel quale noi poniamo t = 0) non genera alcuna dipendenza futura sullevento
successivo. Ne consegue che la distribuzione e la densit di probabilit del tempo di
interarrivo sono uguali a quelle calcolate per il tempo di attesa. La variabile aleatoria
esponenziale esprime cio la mancanza di memoria di un sistema.
2.7.8. Variabie aleatoria gaussiana. La variabile aleatoria di Gauss detta anche
v.a. normale, o a campana, emerge nellesperienza dellumanit come una delle pi
ampie generalizzazioni della filosofia naturale. Essa serve come strumento guida in
ricerche della scienza, della medicina e dellingegneria. E uno strumento indispensabile per lanalisi e linterpretazione dei dati fondamentali ottenuti dallosservazione
e dallesperimento.2
Moltissimi fenomeni naturali si modellano statisticamente, in mancanza di altre
informazioni, come se seguissero una variabile aleatoria gaussiana. Inoltre, come verr
dimostrato pi avanti con il teorema del limite centrale, la v.a. gaussiana si pu sempre
considerare una generalizzazione di altre v.a. quando il numero di elementi presenti
diventa molto grande.
La densit di probabilit della v.a. gaussiana :
(2.7.19)
1
(x )2
fX (x) = p exp(
)
2 2
2
(2.7.20)
1
x2
p
fXN (x) =
exp(
)
2
2
44
fXN (
1
(x )2
) = p exp(
)
2 2
2
(2.7.21)
XN (x)
x
1
1
z2
p exp(
)dz
2
2
Questa funzione calcolata con metodi numerici e spesso si danno anche valori tabulati. Talvolta si usa anche la funzione Q(x) = 1
(x). Nota la funzione di distribuzione standard possibile calcolare la funzione di distribuzione per una normale
qualunque @(, 2 ): X (x) = P (X x) = P ( XN + x) = XN ( x ). Quindi, ad esempio, se si vuole conoscere la probabilit che la variabile gaussiana assuma
valori in un intervallo [a, b], si ottiene:
(2.7.22)
.
P (a < x b) = FX (b)
FX (a) =
N(
N(
Molte volte nei calcolatori si ha a disposizione, direttamente implementata, la funzione di distribuzione standard. Quando questa non presente, si hanno le funzioni
errore ed errore complementare (error function e complementary error function):
(2.7.23)
(2.7.24)
2
erf (x) = p
erf c(x) = 1
z2
dz
2
erf (x) = p
+1
z2
dz
45
probabilit che una gaussiana assuma valori nellintervallo [a, b]: P (a < x b) =
b
a
a
b
1
[erf ( p
) erf ( p
)] = 12 [erf c( p
) erf c( p
)]. Nelle figura (2.7.5) sono
2
2
2
2
2
riportate la densit di probabilit gaussiana con la funzione di distribuzione e la Q(x),
in figura (2.7.6) riportata invece la funzione errore e la sua complementare.
1
Q(x)
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
4
erfc(x)
1.5
erf(x)
1
0.5
0
0.5
1
4
46
vale ovviamente:
(2.8.1)
FX/B (x/B) =
P (A, B)
P (X x, B)
=
P (B)
P (B)
(2.8.2)
fX/B (x/B) =
dFX/B (x/B)
dx
(2.9.1)
fX (x) =
t=0
1
x
exp(
) u(x)
2
2
t=X
C
Vo
47
(2.9.2)
fV (v) =
fX (x)
v 0 (x)
dove x la quantit che soddisfa lequazione v = v(x). Poich la legge v(t) perfettamente invertibile nellintervallo [0, Vo ], solo in questo intervallo avr senso definire
la densit di probabilit di fV (v). Linversione della legge porta a:
(2.9.3)
v = v(x) ) x =
v
)
Vo
ln(1
poich inoltre:
(2.9.4)
v 0 (x) =
Vo
exp( t/)
si ha infine:
(2.9.5)
fV (v) =
1
1
p
2Vo
1
v
Vo
48
2.9.2. Tempo di guasto dopo il rodaggio. Un altro problema interessante quello del tempo di guasto dopo il rodaggio. Si abbia una serie di resistenze, tutte nominalmente uguali tra loro. Se queste resistenze si pongono sotto tensione, presto o tardi
esse tenderanno a rompersi. La rottura di una singola resistenza ovviamente un evento casuale, che ben modellato da una variabile aleatoria esponenziale, con densit di
probabilit data dalla (2.7.6). Il parametro , che nella densit di probabilit esponenziale rappresenta il valor medio, detto tempo medio di guasto o MTTF (Mean Time
To Failure).
Effettuiamo ora unoperazione di rodaggio. Dato cio un tempo prefissato a piacere, to , scartiamo le resistenze che si sono guastate sino a quellistante. Quindi
cominciamo, per istanti t to , ad osservare le resistenze che non si sono ancora guastate. In base alla propriet di mancanza di memoria della variabile aleatoria esponenziale, ci si aspetta che la densit di probabilit condizionata da questo evento non sia
mutata. Verifichiamolo. Quello che vogliamo determinare la densit di probabilit
condizionata dallevento B, con B = {t to }.
Si calcola prima la distribuzione di probabilit FX/B (x/B). La probabilit dellevento B : P (B) = P (X
to ) = 1 P (X < to ) = 1 FX (to ), dove FX (x)
la funzione di distribuzione della v.a. X. La probabilit congiunta dellevento
P (X x, B) si pu determinare invece a partire dai due casi in cui x > to oppure x to :
P (X x, B) = P (X x, X
(2.9.6)
= [FX (x)
to ) =
FX (x)
FX (to )] u(x
FX (to )
0
x > to
=
altrimenti
to )
FX/B (x/B) =
(2.9.7)
P (X x, B)
[FX (x) FX (to )] u(x
=
P (B)
1 FX (to )
=
to )
to )
(2.9.8)
fX/B (x/B) =
49
dFX/B (x/B)
fX (x)
=
u(x
dx
1 FX (to )
to )
Questa densit di probabilit spiega il comportamento delle resistenze quando si introduce il tempo di rodaggio: la probabilit che se ne guasti qualcuna per x < to
ovviamente nulla, dato che si stanno considerando solo le resistenze sopravvisute allistante t = to ; inoltre la densit di probabilit la stessa del caso in cui si cominci ad
osservare il fenomeno per t = 0 (e quindi verificato che il sistema privo di memoria), tranne per il fattore di scala 1 FX1 (to ) che ha lo scopo di rinormalizzare la densit
di probabilit in modo che la sua area sia sempre pari ad 1.
2.9.3. Generatori aleatori. Nei problemi di simulazione capita talvolta di richiedere,
ai computer, di produrre dei numeri casuali, generati con una legge assegnata. La routine di sistema di un computer, basata sulle complesse relazioni esistenti tra i registri
della macchina e il clock, in grado spesso di fornire un numero casuale, ad aritmetica
finita, compreso tra 0 ed 1 e distribuito in modo uniforme.
Il primo problema da risolvere per produrre numeri a caso con distribuzione assegnata, consiste nel costruire una funzione tale che se X uniforme nellintervallo
[0, 1], allora (X) abbia la distribuzione assegnata nellintervallo assegnato. Il problema si formalizza cos: data una v.a. X uniforme in [0, 1], ed assegnata una densit di
probabilit (continua) f , si deve trovare unapplicazione , tale che Y = (X) abbia
densit di probabilit f .
Supponiamo che si voglia f non nulla allinterno di un intervallo assegnato [a, b]
e nulla al di fuori di esso. In tal caso la F , funzione cumulativa, sar strettamente
crescente e quindi invertibile in questo intervallo. Mostriamo che la scelta = F 1
risolve il nostro problema.
Anzitutto osserviamo che la F di una v.a. uniforme vale:
0x1
F (x) = x
vale 0 per x < 0 e 1 per x > 1. Si ha allora che 8t, 0 F (t) 1 e quindi che:
P (F
La v.a. Y = (X) = F 1 (X) risolve il problema, dato che avr una funzione
cumulativa pari ad F .
Supponiamo, ad esempio, di voler ottenere una legge esponenziale con parametro
. Siccome la funzione cumulativa vale:
F (t) = 1
exp(
t), t
(x) =
log(1
50
x)
(2.10.1)
FXY (x, y) = P (X x, Y y)
che descrive in modo completo il comportamento statistico delle due v.a. In particolare, conoscendo FXY (x, y) possibile avere informazioni sul comportamento statistico delle due v.a. prese separatamente (probabilit marginali). Le propriet della
funzione di distribuzione di probabilit congiunta sono molto simili a quelle viste per
la funzione di distribuzione di una sola variabile:
(1) la funzione FXY (x, y) assume valori compresi tra 0 ed 1;
(2) Dato un valore fisso di y, y = yo , la funzione FXY (x, yo ) monotona non
decrescente in x e continua da destra; analoga propriet vale per laltra variabile;
(3) la funzione soddisfa le seguenti uguaglianze:
FXY ( 1, y) = P (X 1, Y y) = 0
FXY (x, 1) = P (X x, Y 1) = 0
FXY ( 1, 1) = P (X 1, Y 1) = 0
51
x, y +
y)
@FXY (x, y +
@x
FXY (x, y +
y)
x, y Y y +
y)]
P (x X x +
[FXY (x +
x, y)
@FXY (x, y)
@ 2 FXY (x, y)
x=
x y
@x
@x@y
(2.10.3)
y) =
@ 2 FXY (x,y)
,
@x@y
x, y Y y +
si ha:
y)
= fXY (x, y)
x y
(2.10.4)
Z Z
<2
Le densit di probabilit marginali si ricavano in base a quanto gi visto per la distribuzione di probabilit congiunta:
(2.10.5)
(2.10.6)
fX (x) =
fY (y) =
52
+1
Dato un evento A, identificabile con un dominio sul piano <2 : (x, y) 2 A, la probabilit di quellevento :
(2.10.7)
Z Z
Infine la funzione di distribuzione pu essere ricavata dalla densit di probabilit mediante la relazione:
(2.10.8)
FXY (x, y) =
x
1
(2.10.9)
FY /X (y/x) =
Ry
fY /X (y/x) =
@FY /X (y/x)
fXY (x, y)
=
@y
fX (x)
53
Come gi visto nel caso di una sola v.a., anche nel caso di due v.a. si pu effettuare una trasformazione: Z = g(X, Y ), dove g(, ) una funzione reale di due
variabili reali. La funzione definisce una nuova v.a. con funzione di distribuzione:
FZ (z) = P (g(X, Y ) z). Il calcolo della FZ (z) pu essere facilmente effettuato
tramite:
(2.10.11)
FZ (z) =
Z Z
R(Z)
dove il dominio R(Z) indica la regione di piano in cui vale la relazione g(X, Y ) z.
Nota la funzione di distribuzione, la densit di probabilit si ricava mediante semplice
derivazione rispetto allunica variabile z.
E XAMPLE 2.10.1. Somma di due variabili aleatorie. Questo esempio d luogo
ad un risultato notevole. Detta infatti D la regione di piano individuata dalla relazione
x + y z, si ha che D = {x, y z x} , 8x. Quindi si ha:
FZ (z) =
+1
1
dFZ (z)
=
fZ (z) =
dz
Z
Z
z x
d
dz
+1
1
z x
z x
+1
fXY (x, z
x)dx
+1
fXY (x, z
1
x)dx =
+1
1
fX (x) fY (z
cio date due v.a. sommate tra loro ed indipendenti, la densit di probabilit della v.a.
somma pari alla convoluzione delle densit di probabilit delle due v.a. di partenza.
Il risultato facilmente generalizzabile alla somma di n variabili aleatorie indipendenti tra loro.
2.10.2. Correlazione e covarianza. Il comportamento statistico di una coppia di
v.a. pu essere descritto da alcuni parametri che le descrivono in modo congiunto. Tra
questi parametri vi sono la correlazione:
(2.10.13)
rXY = E[XY ] =
+1
1
54
+1
e la covarianza:
(2.10.14)
cXY = E[(X
X )(Y
Y )] =
+1
1
+1
(x
X )(y
(2.10.15)
Y = aX + b
Y = aX + b
Y = a(X X )
c2XY =
2 2
X Y
(2.10.17)
=E
X
X
55
cXY
X Y
che d una misura del grado di correlazione o di dipendenza lineare tra le due v.a.
Si ponga ora il caso generale: Y = aX + b + Z, in cui la quantit Z una v.a.
Con questo modello abbiamo supposto che la dipendenza lineare tra X e Y sia dubbia
o comunque non nota. Il problema che ci poniamo quello di determinare la retta
migliore possibile (cio i coefficienti a e b) che permettano di formulare la migliore
predizione lineare di Y in funzione di X.
La soluzione considerata ottima quella che si ottiene imponendo che la media di
Z sia nulla e che la sua varianza sia minima:
(2.10.18)
2
Z
2
Y
Z = Y
2
+ a2 X
aX b = 0
2acXY = min
(2.10.20)
2
X
a=
2cXY = 0
cXY
2
X
2
Zmin
2
Y
c2XY
4
X
2
X
cXY
2
X
cXY =
2
Y (1
2 )
56
rXY = E[XY ] =
(2.10.22)
+1
1
+1
1
xfX (x)dx
Z
Z
+1
y fY (y)dy = X Y
1
cio due v.a. indipendenti sono anche incorrelate. Linverso di questa relazione non
sempre vera tuttavia: cio due v.a. incorrelate possono anche essere dipendenti tra
loro. Lindipendenza una condizione pi restrittiva della incorrelazione.
2.10.3. Metodo dei minimi quadrati. Questo metodo, strettamente correlato con
il concetto di dipendenza lineare tra due v.a. in realt oggetto di studio della statistica
e non della teoria delle probabilit. Infatti il metodo si introduce in un contesto in
cui leventuale dipendenza lineare tra due v.a. ignota ma si suppone esistente per
ipotesi di lavoro; si suppone inoltre che le statistiche delle due v.a. non siano note.
Si suppongono invece note una serie di misure delle due v.a., che in un esperimento
aleatorio, si possono considerare due grandezze fisiche in qualche modo dipendenti tra
loro (per esempio si potrebbe pensare ad un esperimento aleatorio che coinvolga spazio
percorso da un oggetto che si muove di moto rettilineo uniforme e tempo trascorso. E
ragionevole supporre dipendenza lineare tra le due grandezze fisiche).
Siano xi e yi , con i = 1, 2, ..., N la serie di misure ottenute. La retta ottima consiste
nel considerare la soluzione che minimizza la somma dei quadrati della relazione di
dipendenza lineare:
S=
@S
=
@a
(2.10.23)
X
i
@S
=
@b
X
i
zi = yi axi b
X
zi2 =
(yi axi b)2
i
xi yi + a
X
i
x2i + b
yi + a
xi = 0
xi + N b = 0
57
1 X
xi
N i
1 X
c
=
yi
Y
N i
1 X
2
2
c
=
(xi c
X)
X
N i
X
2
c2 = 1
(yi c
Y)
Y
N i
1 X
cd
(xi c
c
XY =
X ) (yi
Y)
N i
c
X =
I valori ottimali di a e b nel senso dei minimi quadrati si possono riscrivere nel
seguente modo:
a=
cd
XY
2
c
X
(2.10.24)
b = c
Y
ac
X
cd
XY
=
c
Xc
Y
2.10.4. Sistemi di n variabili aleatorie. Quanto visto per due v.a. pu essere
facilmente generalizzato per n variabili aleatorie. La funzione di distribuzione di probabilit congiunta definita come:
(2.10.25)
(2.10.26)
58
(2.10.27)
(2.10.28)
3
X1
6 X2 7
T
7
X= 6
4 ... 5 = [X1 , X2 , ..., Xn ]
Xn
La funzione di distribuzione di probabilit congiunta e la funzione di densit di probabilit congiunta possono essere quindi indicate con notazione vettoriale: FX (X) ed
fX (X). Anche i parametri statistici possono essere indicati con notazione vettoriale:
(2.10.29)
Poich la correlazione e la covarianza sono state definite per coppie di v.a. quando
si hanno pi di due v.a., ha senso definire la correlazione e la covarianza per tutte le
possibili coppie di v.a. In tal caso tutte le correlazioni, come pure tutte le covarianze
possono essere riunite in una matrice di dimensione n n dette matrici di correlazione
e di covarianza:
(2.10.30)
(2.10.31)
59
3
rX1 X1 rX1 X2 ... rX1 Xn
6 rX2 X1 rX2 X2 ... rX2 Xn 7
7
RX = E[XX T ] = 6
..
..
..
...
4
5
.
.
.
rXn X1 rXn X2 ... rXn Xn
CX = E[(X
X )(X
3
cX1 X1 cX1 X2 ... cX1 Xn
6 cX2 X1 cX2 X2 ... cX2 Xn 7
7
X )T ] = 6
..
..
..
4 ...
5
.
.
.
cXn X1 cXn X2 ... cXn Xn
rXi Xj = rXj Xi
cXi Xj = cXj Xi
dalle loro stesse definizioni. I valori sulla diagonale di RX sono i valori quadratici
medi delle singole v.a. Xi : rXi Xi = E[Xi Xi ] = m2Xi . I valori sulla diagonale della
matrice di covarianza sono le varianze delle singole v.a. Xi :
(2.10.33)
cXi Xi = E[(Xi
Xi )(Xi
Xi )] =
2
Xi
(2.10.34)
fY (y) =
X
i
fX (xi )
|det(J(xi ))|
60
Nellipotesi in cui il vettore aleatorio sia trasformato in un altro vettore di dimensioni differenti, m, necessario passare prima attraverso il calcolo della funzione di
distribuzione di probabilit congiunta, estesa al dominio che soddisfa la disuguaglianza data dalla trasformazione:
(2.10.35)
FZ (z) =
fX (x)dx
RD
gm (X1 , X2 , ..., Xn ) Zm
Xi
2
Z
= E[(1T X
(2.10.38)
= E[(Z
Z )2 ] = E[(Z
1T X )T (1T X
Z )T (Z
1T X )] = E[(X
=
XX
i
c xi xj
Z )] =
X )T 11T (X
X )] =
61
(2.10.39)
fX (x) =
n
Y
fxi (xi )
i=1
n
Y
i=1
1
p
exp(
i )2
(x
2
2
i
1
)= p
Q
n
(2) i
2
i ),
la fX (x) diven-
2
i
1 X (x
exp(
2 i=1
i )2
2
i
2
dove si posto, con notazione abbreviata, i2 = X
e i = Xi . La densit di probai
bilit pu essere riscritta sfruttando il vettore dei valori medi = [1 , 2 , ..., n ]T e la
matrice di covarianza, che peraltro diagonale data lindipendenza delle n variabili:
(2.10.41)
(2.10.42)
6
CX = 6
4
2
1
0
..
.
0
0
2
2
..
.
0
det CX =
2
n
n
Y
i=1
3
0
0 7
.. 7
. 5
...
...
..
.
2
i
(2.10.43)
1
1
fX (x) = p
exp( (x
2
(2)n |det CX |
X )T CX 1 (x
62
X ))
P (|X
E [X]| > )
V ar (X)
2
63
2 , |X
0 , |X
(|X
E [X]| >
E [X]|
E [X]|)2
sempre, dato che se accade levento |X E [X]| > , si ha Y = 2 < (|X E [X]|)2 .
Se invece accade levento |X E [X]| , la v.a. Y vale 0, ma |X E [X]|
comunque un numero 0.
Se ora si fa laspettazione di ambo i membri della relazione precedente si ha:
V ar (X) = E (|X
E [X]|)2
E [Y ] = 2 P (|X
E [X]| > )
La disuguaglianza di Chebyshev rende rigorosa linterpretazione intuitiva di varianza come misura della dispersione: pi V ar(X) piccola pi piccola la probabilit
che X prenda valori lontani dalla media.
Tuttavia la disuguaglianza di Chebyshev spesso una maggiorazione grossolana
della probabilit di P (|X E [X]| > ). Ad esempio si consideri la v.a. che assume i
valori 1, 1 con probabilit rispettivamente di 1/2, 1/2. Per questa v.a. la media 0 e
la varianza vale V ar(X) = 1. Se si sceglie = 2 si ha che P (|X E [X]| > ) = 0
mentre V ar(X)/ 2 = 1/4, ma se addirittura si prende un < 1 si ha una maggiorazione con il valore V ar(X)/ 2 > 1, cosa ovvia dato che una probabilit
sicuramente maggiorata da un numero maggiore di 1.
In molte circostanza tuttavia la disuguaglianza di Chebyshev si dimostra preziosa.
E infatti fondamentale per dimostrare e giustificare la cosiddetta Legge dei grandi
numeri.
Partiamo prima con un esempio. Si supponga di lanciare n volte una moneta e sia
k il numero di lanci in cui si ottiene testa. La quantit k/n quindi la proporzione
di teste ottenute in n lanci. Se la moneta equilibrata lintuizione suggerisce che tale
proporzione non debba discostarsi troppo dal valore 1/2. Tuttavia sar difficile che la
quantit k/n dia esattamente 1/2, come anche poco probabile (ma non impossibile)
che il numero di teste sia molto piccolo (o addirittura nullo) o molto grande. Tuttavia
empiricamente si pu verificare che al crescere del numero di lanci, il fenomeno di
discostamento dal valore 1/2 dovrebbe sparire: cio il numero di teste e croci tende
a compensarsi sempre pi man mano che cresce il valore di n. Formalizziamo allora
quanto lintuizione ci suggerisce. Il lancio di una moneta rappresentabile da una v.a.
di Bernoulli con n = 1 e p = 1/2; a tale v.a. facciamo assumere valore 1 quando si
presenta una testa: Xi = 1, altrimenti 0. Il numero totale di teste ottenute negli n lanci
64
Xn
>
2
V ar X n
=
2
n 2
!n!1 0
Se infatti poniamo
Xi =
65
Xn
p >
Naturalmente, siccome tale valutazione richiederebbe il calcolo della funzione di distribuzione (cumulativa) di una binomiale con n molto grande (quantit per la quale il
calcolo spesso lungo e non vi sono formule chiuse), meglio limitarci a maggiorare
quella probabilt con la disuguaglianza di Chebyshev:
V ar(X n )
p(1 p) 1
=
2
2
Xn
p >
Xn
p >
1
4n 2
(2.11.2)
Zn =
Sn
n
n
Sn n
p
n
che, per qualunque valore di n, ha sempre valor medio nullo e varianza pari ad 1.
66
1
x2
p
lim fZn (x) = fN (x) =
exp(
)
n!1
2
2
(2.11.3)
p
n
n
P
Xn p
=
p
Sn np
n
p
=P
=
n
p
p
p
p
n
n
n
n
= (
)
(
) = 2 (
) 1
' P |ZN |
avendo indicato con ZN una v.a. gaussiana a media 0 e varianza 1. Per = 0.1,
n = 100 e 2 1/4 si ha:
p
n
P |ZN |
' 2 (2) 1
la quantit che volevamo stimare si determina facilmente dal risultato precedente:
P
Xn
p > '1
(2 (2)
1) = 0.0455
CAPITOLO 3
I Processi Stocastici
3.1. Definizione di Processi Stocastici
Una distinzione importante tra i segnali quella che si fa tra segnali predicibili,
di cui si pu conoscere a priori levoluzione nel tempo (come ad esempio unonda
quadra) e segnali non predicibili, di cui si possono al pi supporre alcune caratteristiche principali (ad esempio le escursioni massime, la velocit di variazione e cos
via).
Si supponga di registrare levoluzione della pressione atmosferica in un certo luogo della Terra durante lanno. Questa grandezza fisica non predicibile a priori, e
lunico modo per conoscerla quello di osservarla a posteriori. Dopo lacquisizione
si potranno fare alcune osservazioni, come ad esempio il fatto che essa difficilmente
supera i 1030 mB e altrettanto difficilmente va al di sotto di 950 mB. Una cosa importante a proposito di questo segnale che non solo non si pu prevedere, ma che esso
cambia a seconda del periodo in cui stato registrato (cio la sua osservazione nel
mese di marzo sicuramente diversa da quella nel mese di agosto) ed inoltre cambia
a seconda del luogo della Terra in cui viene registrato, anche se la registrazione fatta
nello stesso periodo (vedi in figura 3.1.1 tre differenti misurazioni).
250
200
150
100
50
0
50
10
20
30
40
50
60
70
80
90
100
68
Come nella teoria delle probabilit, dovremmo, per un segnale aleatorio, individuare lo spazio delle probabilit, cio linsieme di tutti i possibili segnali che costituiscono il processo (ammesso che questo si possa fare): = {!i }. Quindi riferendosi
al processo si pu pensare una corrispondenza che associ ad ogni campione !i di
un dato segnale. Questa corrispondenza costituisce il processo aleatorio. Una data
misurazione della pressione atmosferica in un punto della Terra costituisce un risultato
dello spazio campione e viene chiamato realizzazione del processo xi (t) = X(t, !i ).
Il processo stocastico comunemente indicato con X(t), omettendo la relazione
di dipendenza dallo spazio campione con cui associato .
Una volta fissato quale tra i vari segnali del processo va estratto, si ha una funzione
del tempo che rappresenta la realizzazione. Una realizzazione del processo stocastico
non pi aleatoria, a posteriori, nel senso che dopo losservazione essa una funzione
deterministica del tempo. Viceversa, si pu fissare un arbitrario istante di tempo ed
osservare il valore che tutte le realizzazioni del processo assumono a quellistante:
X(to ) (vedi in figura 3.1.2)
400
350
300
250
200
150
100
50
0
50
10
20
30
40
50
60
70
80
90
100
to
(3.1.1)
X(t; !) = e
A(!)t
u(t)
69
dove A(!) rappresenta una variabile aleatoria con distribuzione uniforme nellintervallo [0, 1/T ]. Se omettiamo la dipendenza dal risultato !, si pu scrivere: X(t) =
e At u(t). In questo processo parametrico quindi definita una classe di funzioni il cui
andamento dipende dal valore estratto di una v.a.
Un altro esempio notevole (che avremo modo di riprendere pi avanti) quello
delloscillazione sinusoidale prodotta da un oscillatore reale. In un oscillatore reale,
mentre si possono controllare abbastanza bene lampiezza e la frequenza delloscillazione, molte volte difficile determinare la fase iniziale. Ne consegue che accendendo in tempi differenti loscillatore la funzione sinusoidale che viene generata pu
essere modellata come un processo stocastico parametrico:
(3.1.2)
X(t) = A sin(2fo t + )
(3.1.3)
F (x; to ) = P (X(to ) x)
70
E necessaria quindi una caratterizzazione del secondo ordine. Questa relazione descritta dalla funzione di distribuzione di probabilit congiunta per una coppia di v.a.:
(3.1.4)
La conoscenza completa della statistica del secondo ordine richiede che queste funzioni di distribuzione siano note per ogni coppia possibile di istanti di tempo.
Iterando questo ragionamento, si capisce che la caratterizzazione di un processo
stocastico si pu considerare completa solo quando, fissati n istanti di tempo (con n
arbitrariamente grande), si in grado di determinare la funzione di distribuzione congiunta di ordine n per le n variabili aleatorie che si hanno estraendo i valori dalle
realizzazioni agli istanti t1 , t2 , ..., tn :
(3.1.5)
F (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) = P (X(t1 ) x1 , X(t2 ) x2 , ..., X(tn ) xn )
Da questa si pu ricavare la funzione densit di probabilit di ordine n:
(3.1.6)
La conoscenza della classe di funzioni f (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) per qualunque valore n e qualunque n pla di istanti di tempo caratterizza completamente il processo
aleatorio.
Si capisce bene che la conoscenza completa di un processo aleatorio impresa
quali sempre impossibile. Nella maggior parte dei casi si cerca di determinare la distribuzione (e densit) del primo o al pi secondo ordine. Altre volte ci si accontenta di
determinare alcuni parametri statistici.
3.2. Parametri Statistici del 1o e 2o Ordine
3.2.1. Valor medio, potenza e varianza. Alcuni parametri statistici permettono
di determinare le caratteristiche principali di un processo statistico, pur senza la conoscenza completa di esso.
Tra questi parametri particolarmente significativa la funzione valor medio: X (t).
Per definizione questa funzione il valor medio della v.a. che si ottiene estraendo i
71
(3.2.1)
(t) = E[X(t)] =
+1
+1
1
a
a cos(2fo t + )f ()d =
cos(2fo t + )d =
2a
sin(2fo t)
Analogamente si potrebbe ricavare la funzione valor medio nel caso visto nella eq.
3.1.2, in cui cio: X(t) = a sin(2fo t + ), con = U (0, 2).
Unaltra grandezza statistica del primo ordine utile per caratterizzare il processo,
la potenza media statistica istantanea (brevemente detta potenza media):
(3.2.3)
+1
1
x2 fX (x, t)dx
(3.2.4)
2
x (t)
= E[(X(t)
(t)) ] =
+1
(x
1
72
(3.2.5)
2
x (t)
2 (t)
= Px (t)
la relazione che esprime la dipendenza tra varianza, funzione valor medio e potenza
istantanea.
3.2.2. Autocorrelazione e autocovarianza. Due parametri statistici del secondo
ordine, fondamentali per lo studio dei processi stocastici, sono la funzione di autocorrelazione e la funzione di autocovarianza. Il loro significato rimandato pi avanti,
quando si introdurranno i processi stazionari.
Si supponga di considerare due istanti di tempo arbitrari, t1 e t2 . Dato il processo
stocastico, possibile estrarre le due v.a. Y = X(t1 ) e Z = X(t2 ). Ha senso allora effettuare il calcolo della correlazione tra Y e Z. Generalmente questa correlazione sar
funzione dei due istanti di tempo, e quindi si pu ritenere una funzione di due variabili:
(3.2.6)
Rx (t1 , t2 ) = E[X(t1 )X(t2 )] =
+1
x1 = 1
+1
x2 = 1
Cx (t1 , t2 ) = E[(X(t1 )
(3.2.7)
+1
x1 = 1
(t1 )) (X(t2 )
(t2 ))] =
+1
x2 = 1
(x1
(t1 )) (x2
(t1 )(t2 ).
73
possono ritenere entrambe trasformazioni della stessa v.a.. Quindi, mediante il teorema del valor medio si ottiene:
=a
1
a2
cos(2fo t1 + ) cos(2fo t2 + )d =
cos(2fo (t1
t2 ))
(3.2.9)
(t) = E[X(t)] =
1
a cos(2fo t + )d = 0
2
1
a2
acos(2fo t1 +)acos(2fo t2 +)d =
cos(2fo (t1 t2 ))
2
2
1
cos(2fo t)
2
74
1
cos(2fo t1 ) cos(2fo t2 )
3
e in questo caso non si pu esprimere come funzione di una sola variabile. La funzione
di autocovarianza vale infine:
Cx (t1 , t2 ) =
(3.2.13)
1
cos(2fo t1 ) cos(2fo t2 )
3
=
1
1
cos(2fo t1 ) cos(2fo t2 ) =
2
2
1
cos(2fo t1 ) cos(2fo t2 )
12
(3.2.14)
In =
0
1
p
1
mI (n) = p 0 + (1
p) 1 = 1
75
1 1 0 1 0 1 1 .....
i
i+1
0 1 1 1 0 0 1 .....
i
i+1 i+2
i+3 ...............
2
I
= E[In2 ]
E 2 [In ] = p 02 + (1
p) 12
(1
p)2 = p(1
p)
(3.2.18)
Dn = 2In
1=
p)2 .
1
p
1 1 p
mD (n) = E[2In
1] = 2(1
p)
1=1
2p
2
D
= E[Dn2 ]
E 2 [Dn ] = E 4In2
4In + 1
(1
2p)2 = 4p(1
p)
= 4(1
p)2
4(1
2In
p) + 1 = (1
76
2Im + 1] =
2p)2
che lo stesso risultato che avremmo ottenuto semplicemente osservando che: E[Dn Dm ] =
E[Dn ]E[Dm ].
Lultima applicazione del processo di Bernoulli la passeggiata a caso unidimensionale, cio il processo:
(3.2.22)
Sn = D1 + D2 + ... + Dn
2
Sn
n
X
2
D
= 4np(1
p)
k=1
"
n
X
k=1
Dk
m
X
l=1
Dl =
n X
m
X
k=1 l=1
Il range di valori che pu assumere questo processo variabile con n. Per un certo
n fissato, Sn pu assumere tutti i valori compresi tra [ n, n]. La probabilit che tra i
D1 , D2 , ..., Dn vi siano k valori pari ad 1 ed n k valori pari a 1 (quindi la probabilit
che Sn valga: k (n k) = 2k n) :
(3.2.26)
P (Sn = 2k
n) = (
n
)(1
k
p)k pn
Una variazione sul tema dei processi stocastici di Bernoulli il segnale telegrafico
casuale. Il processo consiste di realizzazioni che possono assumere solo valori discreti
pari a
77
(3.2.27)
X(t) =
1
1
P (X(0) = 1) = P (X(0) =
1) = 1/2
+P (X(t) = 1/X(0) =
1) P (X(0) =
1)
1
X
(t)2j
j=0
(3.2.31)
P (Ncamb
(2j)!
1
X
(t)2j+1
= dispari) =
e
(2j + 1)!
j=0
=e
=e
1
(et + e
2
1
(et
2
78
1
) = (1 + e
2
1
) = (1
2
2t
2t
Da cui si ha in conclusione:
(3.2.32)
1 1
P (X(t) = 1) = [ (1 + e
2 2
2t
1
) + (1
2
2t
)] =
1
2
ed analogamente: P (X(t) = 1) = 12 .
Calcoliamo la funzione valor medio e la funzione varianza del processo:
(3.2.33)
mX (t) = E[X(t)] =
(3.2.34)
2
X (t)
1
1
( 1) + (+1) = 0
2
2
= Px (t) = E[X(t)2 ] =
1
1
( 1)2 + (+1)2 = 1
2
2
(3.2.35)
t1 ) = pari) =
1
= (1 + e
2
(3.2.36)
2(t2 t1 )
79
P (X(t1 )X(t2 ) =
(3.2.37)
2(t2 t1 )
t1 ) = dispari) =
Si ha in conclusione:
1
E[X(t1 )X(t2 )] = (+1) (1 + e
2
(3.2.38)
2(t2 t1 )
=e
1
) + ( 1) (1
2
2(t2 t1 )
)=
2|t2 t1 |
ed, ancora una volta, abbiamo trovato un processo la cui funzione di autocorrelazione
(e di autocovarianza) dipende solo dalla differenza dei due istanti generici, e non
separatamente dai due.
3.3. Processi Stazionari
Una notevole propriet dei processi stocastici la stazionariet. Si visto che
i parametri statistici del primo e secondo ordine dipendono dalla scelta degli istanti
di tempo. Anche la funzione densit di probabilit congiunta di ordine n dipende
generalmente dalla scelta degli istanti di tempo in corrispondenza dei quali si valuta il
processo.
Si supponga ora di considerare n istanti di tempo t1 , t2 , ..., tn , in corrispondenza
dei quali si ottiene la funzione di densit di probabilit congiunta:
fx (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ).
Se si spostano rigidamente tutti gli istanti di tempo di una stessa quantit t, generalmente otterremo una differente funzione di densit di probabilit congiunta:
(3.3.1)
fx (x1 , x2 , ..., xn ; t1 +
t, t2 +
t, ..., tn +
t)
80
.
P ROPOSITION 3.3.1. Un processo si dice stazionario in senso stretto, se risulta
che, per ogni scelta di n, t1 , t2 , ..., tn e di t:
(3.3.3)
fx (x1 , x2 ; t1 , t2 ) = fx (x1 , x2 ; t1 +
t, t2 +
t)
81
3.3.1. Stazionariet in senso lato. La verifica della stazionariet in senso stretto, anche per ordini bassi, in genere un compito arduo (salvo casi particolari). Di
solito allora ci si accontenta di una definizione di stazionariet meno restrittiva: la
stazionariet in senso lato (o debole).
P ROPOSITION 3.3.3. Un processo aleatorio stazionario in senso lato se la sua
funzione valor medio costante x (t) = x e la sua funzione di autocorrelazione
dipende solo dalla differenza degli istanti di tempo Rx (t1 , t2 ) = Rx (t1 t2 ).
La definizione di stazionariet in senso lato coinvolge solo due statistiche e quindi
non richiede alcuna paricolare propriet alla funzione densit di probabilit congiunta.
C OROLLARY 3.3.4. Un processo stazionario in senso stretto stazionario anche
in senso lato. Non vero il viceversa
Se il processo stazionario in senso lato la funzione di autocovarianza vale:
(3.3.4)
Cx (t1 , t2 ) = Rx (t1
t2 )
2x = Cx (t1
t2 )
(3.3.5)
Rx (t1 , t2 ) = Rx (t, t
) = E[X(t)X(t
)]
pu considerare stazionario in senso lato, dato che la funzione valor medio dipende dal
tempo.
Il processo X(t) = a cos(2fo t + ), con = U [0, 2[, ha invece: (t) = 0
2
e Rx (t1 , t2 ) = a2 cos(2fo (t1 t2 )), e quindi si pu ritenere un processo stazionario
82
in senso lato, dato che la funzione valor medio costante e la funzione di autocorrelazione dipende solo dalla differenza dei tempi.
Un caso particolare del processo telegrafico casuale il seguente
E XAMPLE 3.3.6. Segnale dati.
Si supponga di avere un processo stocastico le cui realizzazioni sono funzioni del
tempo V (t) che possono assumere solo due valori discreti: +1 e 1 con probabilit
1/2. Si supponga inoltre che la funzione cambi di stato solo ad istanti prefissati, che
verranno indicati con degli indici interi: V (nT ) = Vn . I valori inoltre sono assunti in
modo indipendente luno dallaltro. Quindi la funzione assume valore costante per tutti
gli istanti di tempo t compresi tra due transizioni: V (t) = Vn per nT t < (n + 1)T .
La forma generica della funzione quindi la seguente:
(3.3.6)
V (t) =
+1
X
Vn rect(
n= 1
nT T /2
)
T
Il precedente processo modella molto bene un segnale dati binario con velocit di clock
pari a 1/T . Esso utile a schematizzare tutte le situazioni in cui si ha il trasferimento di
bit tra due sistemi (ad esempio un computer ed una sua periferica). Poich infatti non
nota a priori linformazione che si sta trasmettendo, il processo si pu considerare a
tutti gli effetti aleatorio.
Determiniamo ora i parametri statistici rilevanti e verifichiamo leventuale stazionariet. Ad un certo istante fissato t, losservazione di tutte le realizzazioni porta a dire
che i valori che queste possono assumere sono soltanto +1 o 1. Inoltre, poich si
supposto che tali valori sono assunti con probabilit pari ad 1/2, la funzione di densit
di probabilit del primo ordine non pu che valere:
(3.3.7)
fv (v; t) =
1
1
(v + 1) + (v
2
2
1)
Questa funzione non dipende dalla variabile tempo. Quindi il processo stazionario
in senso stretto per il primo ordine. Ci aspettiamo allora che la funzione valor medio
sia costante:
(3.3.8)
v (t) =
+1
+1
1
v[
1
1
(v + 1) + (v
2
2
1)]dv = 0
83
Rv (t1 , t2 ) = E[V (t1 )V (t2 )] = E[V (t1 )]E[V (t2 )] = E[Vn ]E[Vn+1 ] = 0
t1
t2
t1
t2
84
(3.3.10)
(t) = E[p(t
)] =
p(t
1
1
) d =
T
T
p()d
t T
p(t1
1
1
) d =
T
T
) p(t2
)p(t2
)] =
t1
t1 T
p() p(t2
t1 + )d
Anche in questo caso la funzione integranda, essendo il prodotto di due segnali periodici di periodo T, ancora periodica di periodo T , quindi il suo integrale non dipende
dal particolare posizionamento degli estremi di integrazione. La funzione di autocorrelazione quindi non dipende separatamente da t1 o da t2 , ma solo dalla loro differenza:
Rx (t1 , t2 ) = Rx (t1 t2 ). Se si pone allora: t1 t2 = nella equazione precedente si ha:
(3.3.12)
1
Rx ( ) =
T
T /2
T /2
p() p(
)d
85
Rx ( ) = E[X(t)X(t
)] = E[X(t + )X(t)] = Rx ( )
(2) Il valore assunto da Rx ( ) nellorigine pari alla potenza statisica del processo:
(3.3.14)
= E[X 2 (t) + X 2 (t
))2 ] =
) 2X(t)X(t
lim Rx ( ) = 2x
!1
86
(3.3.17)
V (t) =
+1
X
Vn rect(
T /2
T
n= 1
nT
Rv (t1 , t2 ) = E[
+1
X
Vn rect(
t1
n= 1
+1
X
m= 1
Vm rect(
t2
T /2
T
T /2
T
mT
nT
)] =
(3.3.18)
+1
X
=
+1
X
E[Vn Vm rect(
t1
n= 1 m= 1
T /2
T
nT
87
) rect(
t2
T /2
T
mT
)]
Rx (t1 , t2 ) =
+1
X
E [rect(
t1
T /2
T
n= 1
+1
X
E [rect(
T /2
T
n= 1
+1 Z T
1 X
t
=
rect(
T n= 1 0
se ora si pone: = t
(3.3.19)
nT
T /2
T
nT
) rect(
) rect(
nT
) rect(
t2
T /2
T
T /2
nT
T /2
nT
T
t
nT
)] =
)] =
)d =
nT , si ha:
+1 Z t nT
1 X
T /2
=
rect(
)rect(
T n= 1 t nT T
T
T /2
T
)d
(3.3.20)
1
Rx ( ) =
T
+1
rect(
1
T /2
)rect(
T
T /2
T
)d
88
che rappresenta la nota correlazione deterministica tra due funzioni rettangolo. Il risultato pari alla funzione triangolo di base 2T :
(3.3.21)
Rx ( ) = (1
| |
)rect( )
T
2T
Quindi, in questo secondo caso, il segnali dati binario stazionario in senso lato, dato
che la funzione valor medio costante e la funzione di autocorrelazione dipende solo
dalla variabile .
3.3.2.1. Significato della funzione di autocorrelazione. Si supponga di avere due
processi stocastici e stazionari in senso lato X(t) e Y (t), dotati degli stessi parametri
statistici del primo ordine (funzione valor medio, funzione potenza e funzione varianza). In tal caso, rinunciando allidea di riuscire a determinare la funzione di densit
di probabilit congiunta di qualunque ordine per i due processi, ci si deve affidare, per
poterli distinguere, ai parametri statistici. I parametri statistici del primo ordine per
sono tra loro uguali e quindi non permettono una distinzione statistica dei due processi
in esame.
In tal caso vengono in aiuto i parametri statistici del secondo ordine ed in particolare la funzione di autocorrelazione, il cui significato ed utilit sono molto bene
evidenziati proprio per i processi stazionari. Infatti se si suppone che i due processi X(t) ed Y (t) hanno funzioni di autocorrelazione differenti tra loro, qusto significa
che, in uno stesso istante di tempo , Rx ( ) ed Ry ( ) saranno differenti. Cio se si
osservano i processi in due istanti di tempo distaccati di un intervallo , la loro velocit di variazione differente, dato che uno dei due processi assomiglia molto di
pi a se stesso rispetto allaltro processo (quello con autocorrelazione maggiore ha
unautosomiglianza maggiore).
In conclusione la funzione di autocorrelazione decresce tanto pi velocemente a
zero quanto pi rapida la variazione delle realizzazioni del processo. Essa misura
cio la rapidit di variazione del segnale aleatorio.
3.4. Filtraggio di un Processo Aleatorio
Si gi detto che il motivo principale nellintroduzione della teoria dei processi
stocastici sta nel modellamento di fenomeni reali che sono descrivibili da grandezze
fisiche che variano nel tempo e il cui comportamento non predicibile a priori. Poich
le grandezze fisiche con cui ha a che fare lingegnere sono anche grandezze fisiche
manipolabili, ha senso porsi il problema di cosa succede al processo (e quindi anche
alle sue statistiche) se lo si fa passare per un sistema. Uno dei sistemi pi semplici da
studiare il filtro, cio un sistema lineare e tempo-invariante, che pu essere descritto
completamente dalla sua risposta allimpulso, o dalla sua funzione di trasferimento.
89
1.5
1
0.5
0
0.5
1
1.5
10
15
20
25
30
X(t)
h(t)
Y(t)
(3.4.1)
90
(3.4.2)
+1
h( )E[X(t
)]d =
+1
h( )x (t
)d = x (t) ? h(t)
+1
1
Z
Z
+1
X()h(t1
)d
+1
1
+1
1
Z
Z
+1
X( )h(t2
)d ] =
+1
E[X()h(t1
)X( )h(t2
)]dd =
1
+1
h(t1
)h(t2
)E[X()X( )]dd =
+1
h(t1
1
)h(t2
91
La doppia convoluzione va intesa nel senso che, nella prima la variabile t2 considerata costante, nella seconda convoluzione t1 ad essere considerata costante.
3.4.1. Filtraggio di un processo stazionario in senso lato. Particolare interesse
assume il caso in cui il processo in ingresso al filtro sia stazionario in senso lato. Per
la funzione valor medio sia ha infatti la seguente relazione ingresso-uscita:
(3.4.4)
y (t) = y =
+1
h( )x (t
)d = x
+1
h( )d = H(0) x
dove H(0) il valore che la trasformata di Fourier della risposta allimpulso del
sistema (la sua funzione di trasferimento H(f )) assume in f = 0.
La funzione di autocorrelazione vale:
Ry (t, t
) = E[Y (t)Y (t
= E[
+1
Z
= E[
=
h()X(t
1
+1
1
+1
1
=
(3.4.5)
)] = E[(X(t) ? h(t))(X(t
)d
+1
) ? h(t
))] =
+1
h( )X(t
)d ] =
h()h( )X(t
)X(t
)dd ] =
h()h( )E[X(t
)X(t
)]dd =
+1
1
+1
1
+1
h()h( )Rx ( +
1
+1
1
h( ) [
)dd =
+1
h()Rx ( +
)d]d
(3.4.6)
+1
h()Rx ( +
1
)d = Rx ( + ) ? h( + )
92
(3.4.7)
Ry ( ) =
+1
1
h( ) [Rx ( + ) ? h( + )]d = Rx ( ) ? h( ) ? h( )
(3.5.1)
93
dove loperazione di media va fatta tra tutti i segnali aleatori Sx (f ; !) che si ottengono prendendo i pezzi delle realizzazioni del processo X(t) che sono compresi tra
[ T /2, T /2], e cio:
t
xT (t; !) = x(t; !) rect( )
T
e facendone il modulo quadro della loro trasformata di Fourier. La definizione di spettro di potenza ricalca quindi quella che si potrebbe fare per un segnale deterministico
di potenza. Lunica differenza dovuta alla presenza di una collezione (anche infinita)
di realizzazioni sulla quali non possiamo fare altro che effettuare una media. Questa
definizione del tutto generale, cio valida anche per processi non stazionari.
Normalmente essa molto difficile da utilizzare, anche per processi stazionari in
senso lato. Si utilizza allora nella pratica la definizione dovuta a Wiener-Kintchine. In
base a questa definizione
P ROPOSITION 3.5.1. la densit spettrale di potenza dei processi stazionari calcolabile come trasformata di Fourier della funzione di autocorrelazione:
(3.5.2)
Sx (f ) =
+1
Rx ( )e
j2f
Px = E[X (t)] =
+1
Sx (f )df
1
94
(3.5.4)
Sy (f ) = Sx (f ) |H(f )|2
(3.5.5)
che la stessa relazione che vale per gli spettri di potenza dei segnali deterministici.
La risposta in fase del sistema non influenza la densit spettrale del processo in uscita.
Nella densit spettrale di potenza sono quindi contenute tutte le informazioni spettrali del processo e cio come si distribuisce la potenza sulle varie componenti armoniche, dato che Sx (f ) si comporta come la densit spettrale di potenza di un segnale
deterministico.
Conseguentemente il significato di densit spettrale di potenza lo stesso per i segnali deterministici e per i processi aleatori: una fettina spettrale alla frequenza f rappresenta il contenuto in potenza del processo sulla sinusoide a frequenza f moltiplicato
per la banda passante infinitesima intorno a f , df : dPx (f ) = Sx (f )df .
E XAMPLE 3.5.2. Calcoliamo la densit spettrale di potenza del processo visto
in (3.1.2): X(t) = A sin(2fo t + ), con = U [0, 2[. Poich il processo
stazionario in senso lato, la sua densit spettrale di potenza pu essere calcolata
secondo la definizione di Wiener-Kintchine. Poich si gi trovato che: Rx ( ) =
a2
cos(2fo ), la densit spettrale di potenza vale:
2
(3.5.6)
Sx (f ) = F
a2
cos(2fo )
2
a2
[ (f
4
fo ) + (f + fo )]
95
1000
2000
3000
4000
5000
6000
7000
8000
1.5
1
0.5
0
0.5
1
1.5
1000
2000
3000
4000
5000
6000
7000
8000
96
1.5
1
0.5
0
0.5
1
1.5
1000
2000
3000
4000
5000
6000
7000
8000
(3.5.7)
Rx ( ) = n ( ) , Sx (f ) = n
97
ideale e di porre in serie ad esso un generatore di tensione con tensione pari a n(t) V ,
dove n(t) un processo casuale, responsabile della produzione di rumore termico.
Lespressione che assume la densit spettrale di potenza del rumore termico deriva da
considerazioni di carattere quantistico (e quindi non verr effettuata in questa sede) ed
assume la forma:
(3.5.8)
Sn (f ) = kTR
|f | /fo
e|f |/fo
(3.5.9)
Sn (f ) = kTR
|f | /fo
e|f |/fo
kTR
cio come una costante. Il processo di rumore bianco quindi, in questo caso, un utile
idealizzazione di una situazione reale. Un circuito elettrico infatti che sia composto
da un filtro con banda passante B fo , vedr la densit spettrale del processo
praticamente come piatta.
E XAMPLE 3.5.3. Si voglia determinare la densit spettrale di potenza del processo
in uscita dal sistema riportato in figura 3.5.2, con N (t) un processo stazionario in senso
lato e densit spettrale di potenza costante e pari ad n.
Il primo blocco effettua una media pesata del segnale in ingresso su un intervallo
[t T, T ]:
(3.5.10)
1
T
()d
t T
N(t)
X(t)
Z(t)
Y(t)
g(t)
98
H(f)
p(t)
| H(f) |
2/T
f
f0
f0
n
(1
T
| |
)rect( )
T
2T
(3.5.12)
Poich la v.a. indipendente dalla sinusoide in cui contenuta (allinterno del processo p(t)) lo a maggior ragione anche dal processo X(t). Quindi laspettazione
del prodotto pari allaspettazione presa separatamente dei singoli processi: y (t) =
E[X(t)p(t)] = E[X(t)]E[p(t)] = 0. La funzione di autocorrelazione vale:
Ry (t, t
= 4E[X(t)X(t
= 4E[X(t)X(t
(3.5.13)
) = E[Y (t)Y (t
99
)] =
) cos(2f0 t + ) cos(2f0 (t
) + )] =
)] E[cos(2f0 t + ) cos(2f0 (t
) + )] =
= 2Rx ( ) cos(2f0 )
Anche il processo Y (t) quindi stazionario in senso lato, essendo il suo valor medio
nullo e la sua funzione di autocorrelazione dipendente solo da . La densit spettrale
di potenza la trasformata di Fourier di Ry ( ):
Sy (f ) = F {Ry ( )} =
(3.5.14)
= n sinc2 (f T ) ? [ (f
fo ) + (f + fo )] = n [sinc2 (T (f
fo )) + sinc2 (T (f + fo ))]
La maggior parte della potenza si spostata attorno ad fo , anche se le code delle funzioni sinc2 si sovrappongono sino ad infinito. Leffetto del filtraggio passa banda finale
quello di tagliare appunto queste code, in modo da lasciar passare solo la parte dello
spettro che contiene pi potenza (vedi in figure 3.5.3 ed 3.5.4 ). Approssimatamente
quindi lo spettro di potenza in uscita si pu scrivere come:
(3.5.15)
Sz (f ) n [sinc2 (T (f
fo )) rect(
fo
f + fo
) + sinc2 (T (f + fo )) rect(
)]
2/T
2/T
100
1.2
1
0.8
0.6
0.4
0.2
0
15
10
0
5
frequenze normalizzate fT
10
15
0.8
Sz(f)
0.6
0.4
0.2
0
15
10
0
5
frequenze normalizzate fT
10
15
101
1
1
fX (x1 , x2 , ..., xn ; t1 , t2 , ..., tn ) = p
exp( (x
2
(2)n det |CX |
X )T CX 1 (x
X ))
(3.6.2)
x (ti )) (X(tj )
x (ti )x (tj )
Una delle propriet notevoli dei processi gaussiani consiste nel fatto che la stazionariet in senso lato implica la stazionariet in senso stretto (cosa generalmente non vera). Infatti la stazionariet in senso lato equivale ad imporre una funzione valor medio
costante ed una funzione di autocorrelazione dipendente solo dalla differenza degli istanti di tempo: X (t) = X e Rx (t1 , t2 ) = Rx ( ). Se allora si considera ln pla di
istanti:
[t1 +
t, t2 +
t, ..., tn +
t]
in tali istanti la funzione valor medio non sar cambiata poich una costante. La
funzione di autocovarianza rimane anchessa costante dato che dipende solo dalle
differenze tra una qualunque coppia di istanti di tempo.
102
(3.6.4)
+1
X()h(t
)d
Questa operazione si pu pensare come una somma di infiniti termini, ciascuno del
quali vale approssimatamente:
(3.6.5)
X(k )h(t
k )
dove si deve pensare k intero e molto piccolo. Poich allora il processo in uscita
altro non che una combinazione lineare di tanti processi in ingresso, tutti gaussiani
(X(t), calcolato per t = k gaussiano), anchesso gaussiano, comunque si scelga
ln pla degli istanti di tempo [t1 , t2 , ..., tn ].
E XAMPLE 3.6.2. Si consideri un processo gaussiano stazionario con densit spettrale di potenza:
(3.6.6)
Sn (f ) = No (1
|f |
f
)rect( )
B
2B
e si supponga di far passare questo processo attraverso un campionatore. Il campionatore un sistema che, dato un segnale continuo, ne estrae il valore per particolari
istanti di tempo, normalmente equispaziati. A partire da una funzione tempo continua
103
Xk
X(t)
k/B
cxi xj = E[(Xi
(3.6.7)
xi )(Xi
= Rx (ti
j
B
(3.6.8)
Rn ( ) = No B sinc2 (B )
104
f (x1 , x2 , ..., xn ) =
n
Y
f (xk )
k=1
(3.6.9)
1
x2 + x22 + ... + x2n
f (x1 , x2 , ..., xn ) = p
exp( 1
)
2No B
(2)n (No B)n
3.7. Processi Ergodici
(3.7.1)
P ( E[X(t)] = lim
T !1
105
T /2
x(t)dt ) = 1
T /2
Tale definizione nasce infatti dallosservazione che, se si possiede una sola realizzazione del processo, pu avere senso effettuare delle misure deterministiche sul quel
processo (media temporale, misura della autocorrelazione e cos via). In particolare per
la misura della media temporale pu accadere che questa sia differente realizzazione
per realizzazione oppure che, anche se sempre uguale per tutte le realizzazioni, sia
differente dalla media dinsieme del processo in esame. Per alcuni processi invece
capita che non solo la media temporale uguale per tutte le realizzazioni, ma anche
che questo valore pari a quello che si determina dalla media dinsieme. Tali processi
sono appunto detti ergodici in media.
Un processo ergodico in media un processo la cui singola realizzazione si comporta come tutto il processo in esame dal punto di vista statistico, permette cio misure
di media che dovrebbero essere fatte altrimenti su tutta la statistica del processo stesso.
E evidente che, affinch un processo sia ergodico, necessario che sia stazionario, dato che la media temporale necessariamente un valore singolo e quindi non potrebbe
mai essere pari ad una funzione del tempo (se il processo non fosse stazionario).
Si osservi che nella definizione non abbiamo dato una condizione di uguaglianza con certezza, ma con probabilit tendente ad 1, che una cosa differente. Infatti
quando si osserva la singola realizzazione, questa una sola tra le tante che potrebbero capitare, e quindi il valore che estraiamo della media temporale essa stessa una
variabile aleatoria. Luguaglianza di tale variabile aleatoria con una costante (il valor
medio ottenuto come media dinsieme) pu essere fatta solo in termini probabilistici,
affermando cio che tale variabile aleatoria ha valor medio che coincide con la media
dinsieme e varianza nulla. Si tenga inoltre presente che nei casi pratici non si pu
osservare nemmeno tutta la realizzazione (cio da 1 a +1) e quindi quella che si
ottiene solo una stima del valor medio (che a sua volta una variabile aleatoria).
Quello che nella pratica si riesce ad ottenere quindi:
(3.7.2)
1
XT =
T
T /2
x(t)dt
T /2
Xm = lim XT
T !1
106
ed inoltre:
(3.7.3)
Xm = lim XT ,
T !1
2
Xm
= lim
T !1
2
XT
!0
anche se questi ultimi risultati non sono accessibili in una situazione reale.
Si ricordi infine che, essendo la varianza della variabile aleatoria XT pari alla funzione
di autocovarianza valutata per = 0, il verificarsi della condizione di ergodicit in
media subordinato al verificarsi di una determinata condizione (CXT (0) ! 0) che
coinvolge la statistica del secondo ordine del processo.
Per il calcolo della media temporale si definisce un operatore valor medio temporale, che si pu applicare a qualunque segnale x(t) determinato o no:
(3.7.4)
1
hx(t)i = lim
T !1 T
T /2
x(t)dt
T /2
(3.7.5)
dove si messo in evidenza che la media temporale stata effettuata sulla particolare
realizzazione estratta dal processo X(t). Se per il processo ergodico tale valore
uguale per tutte le realizzazioni e quindi, con notazione non proprio rigorosa si pu
scrivere:
(3.7.6)
E[X(t)] = hX(t)i
107
1
E[hx(t)i] = E[ lim
T !1 T
1
= lim
T !1 T
(3.7.7)
T /2
T /2
T /2
x(t)dt] =
T /2
1
E[x(t)]dt = lim
T !1 T
T /2
x dt = x
T /2
T /2
T /2
1
= lim E[ 2
T !1
T
1
= lim 2
T !1 T
1
= lim 2
T !1 T
T /2
T /2
1
x ) ] = lim E[(
T !1
T
2
x(t)dt
1
= lim E[ 2
T !1
T
T /2
T /2
T /2
(x(t)
T /2
T /2
T /2
T /2
T /2
x )2 ] =
x )dt
T /2
x(t)dt
x )2 ] =
T /2
T /2
(x(t)
x )dt] =
T /2
T /2
(x(t)
x )(x(t1 )
x )dtdt1 ] =
E[(x(t)
x )(x(t1 )
x )]dtdt1 =
T /2
T /2
T /2
1
Cx (t, t1 )dtdt1 = lim 2
T !1 T
T /2
T /2
T /2
Cx (t
t1 )dtdt1 =
T /2
dove lultima uguaglianza vale solo nellipotesi che il processo sia stazionario in senso
lato e non solo in media. In questa ipotesi infatti la dimostrazione che la varianza
di hx(t)i va a zero per T ! 1 risulta pi semplice (la dimostrazione nel caso pi
generale pi complessa).
Se ora si pone t t1 = u, si osserva che al variare di (t,
p t1 ) nel quadrato [ T /2, T /2]
[ T /2, T /2], u varia da [ T, T ]. Inoltre dtdt1 = 2(T |u|)du: si provi infatti a
calcolare larea del rettangolino che si ottiene spostando di un infinitesimo du la retta
t t1 = u (vedi figura 3.7.1).
108
t1
T/2
tt1 = u
tt1 = u+du
T/2
T/2
T/2
(3.7.8)
1
= lim 2
T !1 T
|u|)Cx (u)du = 0
2(T
dato che la funzione di autocovarianza non pu divergere per nessun valore della variabile indipendente. E quindi dimostrata la definizione di ergodicit in media secondo
la relazione probabilistica.
Loperatore di media temporale pu essere utilizzato per definire lautocorrelazione
di un segnale deterministico a potenza finita:
(3.7.9)
hx(t)x(t
1
)i = lim
T !1 T
T /2
x(t)x(t
)dt
T /2
Risulta allora abbastanza chiaro che il concetto di ergodicit in media pu essere estesa
anche alla autocorrelazione, purch il processo sia stazionario non solo in media ma
anche per quel che riguarda lautocorrelazione, sia cio stazionario in senso lato.
D EFINITION 3.7.2. Un processo aleatorio stazionario in senso lato ergodico in
autocorrelazione se con probabilit pari ad 1 risulta vera luguaglianza;
(3.7.10)
Rx ( ) = E[X(t)X(t
1
)i = lim
T !1 T
)] = hx(t)x(t
109
T /2
x(t)x(t
)dt
T /2
Si osservi che lipotesi di stazionariet necessaria per lergodicit in autocorrelazione, dato che altrimenti il processo avrebbe una funzione di autocorrelazione
dinsieme dipendente da due variabili, mentre lautocorrelazione temporale dipende
chiaramente da una sola variabile. Inoltre, per gli stessi motivi addotti precedentemente, necessario dare anche in questo caso una definizione in termini probabilistici.
Lergodicit in autocorrelazione importante poich mediante questa possibile
determinare la funzione di autocorrelazione dinsieme mediante losservazione di una
singola realizzazione. Dalla funzione di autocorrelazione si pu poi calcolare la densit
spettrale di potenza del processo.
Le condizioni sullergodicit in autocorrelazione del processo coinvolgono grandezze
statistiche del quarto ordine, poich si deve provare che la varianza della variabile
aleatoria
(3.7.11)
hx(t)x(t
1
)iT =
T
T /2
x(t)x(t
)dt
T /2
n 1 ; !))i
(3.7.13)
x = 0,
Rx ( ) =
110
a2
cos(2fo )
2
T /2
T /2
1
a cos(2fo t + )dt =
T
T /2
T /2
a cos(2fo t + )dt = 0
dato che la media di un qualunque segnale periodico pu essere valutata sul singolo
periodo. Il risultato ottenuto indipendente dal particolare valore di . Il processo
quindi ergodico in media.
Per lautocorrelazione temporale si ha poi:
hx(t; )x(t
1
=
T
1
; )i = lim
T !1 T
T /2
T /2
a cos(2fo t + )a cos(2fo (t
T /2
(3.7.15)
T /2
a cos(2fo t + )a cos(2fo (t
a2
) + )dt =
2T
) + )dt =
T /2
cos(2fo )dt =
T /2
a2
cos(2fo ) = Rx ( )
2
(3.8.1)
111
= P (X(tk ) = xk /X(tk 1 ) = xk 1 )
... P (X(t1 ) = x1 )
112
Naturalmente lultima quantit, cio P (X(t1 ) = x1 ) una probabilit non condizionata e deve essere nota a priori.
D EFINITION 3.8.2. Una catena di Markov detta omogenea quando le probabilit
condizionate non dipendono dallorigine dellasse dei tempi ma solo dalla differenza
tra i tempi considerati:
(3.8.4)
P (X(tk ) = xk /X(tk 1 ) = xk 1 ) = P (X(tk +
t) = xk /X(tk
t) = xk 1 )
I processi di Markov che assumono solo valori discreti sono detti catene di Markov.
Le catene di Markov possono essere tempo discrete o tempo continue a seconda che
evolvano o no in modo discreto.
3.8.2. Catene di Markov tempo discrete. Per le catene di Markov discrete allora possibile scrivere le probabilit di transizione ad un passo, cio: pij = P (Xn+1 =
i/Xn = j), dove levoluzione temporale nel caso di catene discrete indicato con un
indice sul processo aleatorio: X(tn ) = X(n t) = Xn . E allora possibile raggruppare in forma matriciale le probabilit ad un passo, a seconda dei valori che il processo
aleatorio pu assumere. Naturalmente questa matrice pu anche essere di dimensione
infinita se il numero dei valori possibili assunti dal processo infinito:
(3.8.5)
6
6
P =6
6
4
...
...
..
.
7
7
7
7
... 5
...
La somma degli elementi su una riga deve necessariamente essere pari ad 1 (da uno stato il processo deve capitare con probabilit 1 in uno qualunque degli altri stati possibili:
(3.8.6)
pij = 1
(3.8.7)
113
P
Si fa vedere facilmente che: pij (2) = k pik pkj , cio la probabilit di transizione
a due passi si determina effettuando il prodotto della riga i sima per la colonna
j sima della matrice di transizione ad un passo. Allora possibile costruire facilmente la matrice di transizione a due passi, dato che:
(3.8.8)
P (2) = P P = P 2
e, generalizzando:
(3.8.9)
P (k) = P
... P} = P k
| P {z
k volte
P (Xn = i) =
(3.8.10)
X
=
P (Xn = i/Xn
j
= j) P (Xn
= j) =
X
j
pij Pi (n
1) =
Dato un processo aleatorio che risulta essere anche una catena di Markov tempo discreta, normalmente le quantit note sono la matrice di transizione ad un passo e le
probabilit iniziali del processo, cio le: Pi (0) = P (Xo = i).
D EFINITION 3.8.3. Una catena di Markov tempo discreta ammette equilibrio se
esiste il limite:
(3.8.11)
lim Pi (n) = i
n!1
114
Si vuole vedere cio se le probabilit, per tempi di osservazione lunghi si stabilizzano o variano continuamente.
D EFINITION 3.8.4. Una catena di Markov si dice stazionaria se, ammettendo
equilibrio risulta: i = Pi (0).
In una catena di Markov stazionaria si dimostra facilmente che 8n : Pi (n) = i .
(3.8.12)
Nel caso di catene di Markov tempo continue utile definire il cosiddetto tempo di
permanenza in un possibile stato. Questo tempo di permanenza normalmente una
variabile aleatoria, dato che la transizione da uno stato al successivo avviene in un istante non prevedibile. Se allora si vuole calcolare: P (Ti t) oppure la P (Ti > t) si
ha:
P (Ti > t + s/Ti > s) = P (Ti > t + s/X(s0 ) = i, 0 s0 s) =
cio la probabilit che il tempo di permanenza superi lintervallo t + s, noto che
rimasto nello stato i un tempo almeno pari ad s,
= P (Ti > t + s/X(s) = i) =
se ora supponiamo la catena omogenea:
(3.8.13)
115
(3.8.14)
Pij ( ) = (1
(3.8.15)
9 lim Pi (t) = pi
t!1
116
12
1
21
32
13
23
31
3
(3.8.16)
X
ii6=j
ji
pj =
X
ii6=j
ij
pi
ij
il numero medio
CAPITOLO 4
118
e, soprattutto, a renderlo compatibile con i tipi di segnale che possono viaggiare su quel
mezzo trasmissivo.
Il ricevitore ha il compito di ricevere il segnale, cio di prelevarlo dal mezzo
trasmissivo e di estrarne la parte utile, cio quella che trasporta linformazione e di
offrirla allutente nella forma necessaria (ad esempio alle casse di un altoparlante se si
tratta di musica).
MT
Tx
Rx
(4.2.1)
P =
PT
4R2
119
Se quindi il ricevitore si trova a distanza R dal trasmettitore, basta moltiplicare questa potenza per larea dellantenna ricevente per ottenere la potenza in ricezione. In
realt nel conto precedente si deve considerare larea efficace, dato che larea fisica
di unantenna non corrisponde esattamente allarea che effettivamente si pu sfruttare
per trasmettere/ricevere le onde e.m. Se poi lantenna trasmittente non isotropa, essa
ha un certo guadagno di direttivit, cio irradia prevalentemente pi potenza in una
direzione piuttosto che in altre. Naturalmente compito del progettista fare in modo
che la potenza irradiata venga fatta convogliare prevalentemente nella direzione in cui
posto il ricevitore. Lequazione diventa allora:
(4.2.2)
PR = PT
GT AR
4R2
(4.2.3)
PR = PT
si
GT GR 2
(4)2 R2
I mezzi ad onde convogliate sono sostanzialmente tutti i sistemi a cavo. Tra questi
vi sono:
doppino in rame
cavo coassiale
fibra ottica
guide donda
I mezzi ad onde convogliate trasportano la potenza del segnale sotto forma di segnali di
tensione (o corrente) che viaggiano sul mezzo seguendo leggi fisiche differenti a seconda del tipo di mezzo con cui abbiamo a che fare. Questi tipi di mezzo trasmissivo
non possono essere studiati nello stesso modo dei circuiti a parametri concentrati, dato
che le loro dimensioni fisiche sono in genere molto maggiori della lunghezza donda
del segnale che convogliano. Per essi quindi si fa lipotesi di mezzo a costanti distribuite: cio resistenza, induttanza e capacit sono distribuite uniformemente lungo
la linea. Per lanalisi si suppone che, considerando un tratto infinitesimo di linea, dx,
la sezione esaminata sia a parametri concentrati e si suppone inoltre che la linea sia
uniforme, cio che questi parametri non varino lungo la linea stessa.
A causa della presenza di elementi dissipativi allinterno di una linea di trasmissione, anche per i mezzi non dispersivi la potenza cala lungo il percorso del mezzo.
120
In particolare, se si suppongono costanti i parametri caratteristici del mezzo, la potenza decresce in modo lineare con la distanza in unit logaritmiche: PR = PT /10tot .
Cio la potenza ricevuta si pu scrivere come potenza trasmessa meno lattenuazione
specifica per unit di distanza moltiplicato per la distanza, purch le potenze vengano
espresse in dB:
(4.2.4)
P R = PT
s l
Per i conduttori in metallo (ad esempio il rame) lattenuazione varia anche con la frequenza dutilizzo (a causa delleffetto pelle):
(4.2.5)
s = r
f
fr
Caratteristica
Vuoto
Atmosfera
doppino,cavo coassiale
Fibra ottica
dispersivo
dispersivo
non dispersivo
non dispersivo
1/R2
complessa 1/R2
esponenziale
esponenziale
Banda dutilizzo
passa banda
passa banda
passa basso
passa banda
Nellultima colonna stata anche riportata una delle caratteristiche fondamentali dei
mezzi trasmissivi: cio qual la loro banda prevalente dutilizzo, cio la banda di
frequenze dove essi esibiscono una minore attenuazione (per fare in modo da dover
utilizzare meno potenza per lo stesso segnale). I mezzi dispersivi sono ovviamente
passa banda (le onde elettromagnetiche hanno necessit di oscillare e quindi di avere
frequenza non nulla per potersi propagare). I mezzi metallici sono prevalentemente
passa basso a causa delleffetto pelle visto precedentemente: infatti allaumentare della
frequenza essi esibiscono una attenuazione sempre maggiore (che cresce esponenzialmente). Infine le fibre ottiche sono cos dette a causa del loro migliore comportamento
(unattenuazione specifica di circa 0.2 dB per Km) alle frequenze ottiche (nellordine
del migliaio di T Hz).
121
4.2.2. Equalizzazione dei mezzi trasmissivi. Dalla rapida analisi dei mezzi trasmissivi non per emerso qual lo scopo fondamentale di un mezzo trasmissivo: quello
di convogliare linformazione in modo da lasciarla immutata.
Dato in ingresso ad un mezzo trasmissivo ideale un segnale s(t), al pi ci aspettiamo che il segnale di uscita si sia attenuato (ed inevitabile) e ritardato (a causa della
velocit di propagazione finita). La forma del segnale di uscita quindi
(4.2.6)
k s(t
to )
H(f ) = k e
j!to
Il mezzo trasmissivo ideale ha quindi ampiezza costante dello spettro e fase che varia
linearmente. Si pu parlare di funzione di trasferimento del mezzo trasmissivo ideale
perch si suppone che esso sia lineare e che le sue caratteristiche non variano nel tempo
(tempo-invariante).
I mezzi reali tuttavia si discostano molto dal comportamento ideale. Prima di tutto
essi sono solo approssimatamente lineari (o lo sono solo per un determinato range
di ampiezze del segnale), le loro caratteristiche variano nel tempo a causa di molte
condizioni esterne (quindi sono lentamente tempo varianti), infine la loro funzione di
trasferimento (ricavabile con le approssimazioni di linearit e tempo invarianza) non
quella del mezzo ideale.
La prima operazione che si effettua in ricezione allora lequalizzazione del mezzo trasmissivo. Detta Ht (f ) la funzione di trasferimento del mezzo (ricavabile con
le approssimazioni viste), lequalizzazione un filtraggio effettuato per compensare
leffetto del mezzo trasmissivo:
(4.2.8)
Heq (f ) =
k e j!to
Ht (f )
122
trasmissivo. Inoltre, poich una non linearit si pu sempre approssimare con uno
sviluppo in serie di Taylor di ordine opportunamente elevato, pu essere istruttivo
vedere cosa accade quando un segnale passa attraverso un semplice quadratore, la pi
semplice delle non linearit. Questo dispositivo non lineare effettua il quadrato del
segnale che gli proviene allingresso: Y = X 2 . Ad un prodotto nei tempi corrisponde
una convoluzione nelle frequenze: Y (f ) = X(f ) X(f ), con conseguente raddoppio
della banda del segnale e mescolamento delle componenti armoniche.
Si ricordi infine che un mezzo trasmissivo reale introduce sempre una qualche
forma di disturbo sul segnale immesso. In ricezione dunque, oltre al segnale (distorto
o modificato dal mezzo) saranno sempre presenti una serie di segnali indesiderati,
legati in modo pi o meno complesso allinformazione. A tali tipi di disturbo si d il
nome generico di rumore.
4.3. Trasmissione Analogica e Numerica
Una prima grande distinzione tra i sistemi di trasmissione si ha a seconda del
segnale che si vuole trasmettere: se il segnale analogico o se il segnale numerico.
La trasmissione numerica da anni diventata pi popolare e conveniente della
trasmisione analogica per pi motivi. Il motivo fondamentale sta nel fatto che nella
trasmissione numerica la struttura del trasmettitore/ricevitore non cambia al variare
del segnale che si codifica o della sequenza di simboli che si devono trasmettere; al
contrario nella trasmissione analogica il sistema varia a seconda delle caratteristiche
del segnale. Inoltre nella trasmissione numerica si riesce a controllare con maggior
precisione lentit dei disturbi che inevitabilmente influenzano il segnale durante la
trasmissione. La trasmissione numerica inoltre permette un risparmio di potenza a
parit di informazione convogliata o, equivalentemente, una maggiore informazione
a parit di potenza in trasmissione. La trasmissione numerica, rispetto allanalogica,
tuttavia, richiede uno schema di trasmissione/ricezione pi complesso; si tenga conto
per che gli schemi di trasmissione numerica sono standardizzati ormai da anni e in
commercio esistono apparati economici per le pi svariate esigenze e soluzioni.
Dalla rapida analisi dei mezzi di trasmissione fatta precedentemente emersa una
caratteristica importante: i mezzi di trasmissione sono intrinsecamente analogici: cio
non possibile trasmettere su di essi dei segnali di tipo discreto, n tanto meno numeri.
Allora che cosa significa fare la distinzione tra trasmissione analogica e trasmissione
numerica ?
Nella trasmissione analogica linformazione che si trasmette la forma del segnale
stesso, cos come questo generato sul lato del trasmettitore (ad esempio un segnale
musicale generato da uno strumento).
Nella trasmissione numerica invece si effettuano una serie di operazioni sul segnale
sino a codificarlo in una serie di simboli. Una volta che sono stati ottenuti i simboli
si effettua la trasmissione di forme donda analogiche (perch altro non pu essere),
ma che, a differenza del caso precedente, sono rappresentative dei simboli codificati e
non della forma donda originaria. Addirittura possibile che il segnale analogico di
4.4. IL CAMPIONAMENTO
123
partenza non esista affatto: si pensi al caso della trasmissione di dati da un computer
ad una stampante, dove i simboli da trasmettere sono una sequenza di zeri e di uno.
Ritornando tuttavia al caso in cui si voglia trasmettere in modo numerico un segnale analogico, necessario fare su di esso una serie di operazioni per renderlo numerico. Queste operazioni naturalmente devono avere la caratteristica di essere invertibili:
cio al lato del ricevitore deve essere possibile tornare indietro, in modo da avere a
disposizione nuovamente il segnale originario o comunque qualcosa che gli assomigli
abbastanza per lutilizzo a cui destinato.
Le tre operazioni che si effettuano al lato trasmittente per rendere numerico un segnale analogico sono, nellordine, il filtraggio, il campionamento e la quantizzazione.
Cominciamo con lanalizzare il campionamento.
4.4. Il Campionamento
Dato un segnale analogico loperazione di campionamento consiste nellestrarre
una serie di campioni, cio i valori del segnale in posizioni equispaziate (anche se
esistono casi di campionamento a passo non costante). Dalloperazione di campionamento si ha cio una serie di numeri reali che rappresentano i campioni del segnale. In
figura 4.4.1 illustrata lestrazione dei campioni dal segnale analogico s(t).
s(t)
0
T
4.4. IL CAMPIONAMENTO
124
del segnale, per fare in modo, cio, che esso possa essere ricostruito a partire dai suoi
campioni.
Cominciamo allora a dare una descrizione matematica del campionamento. Una
delle propriet dellimpulso, come si avuto modo di vedere, quella di estrarre un
campione del segnale, quando applicato nella posizione di estrazione:
(4.4.1)
s(t) (t
) = s( ) (t
(4.4.2)
sc (t) = s(t)
+1
X
(t
nT )
n= 1
cio una sequenza di impulsi equispaziati di area pari allampiezza del segnale nelle
posizioni nT . Proviamo ad effettuare la trasformata di Fourier del segnale campionato.
(4.4.3)
= S(f ) ?
+1
1 X
(f
T k= 1
+1
X
(t
nT )
n= 1
+1
k
1 X
)=
S(f
T
T k= 1
k
)
T
Lo spettro del segnale campionato la somma di tutte le repliche, a passo 1/T , dello
spettro del segnale di partenza; le repliche vanno da 1 a +1. Una rappresentazione
dello spettro di un segnale campionato riportata in figura 4.4.2.
4.4. IL CAMPIONAMENTO
125
S(f)
f
Sc (f)
0
fc
fc
2 fc
F IGURA 4.4.2. Spettro del segnale di partenza e della sua versione campionata
Da questa semplice osservazione si pu immediatamente dedurre qual la condizione sufficiente affinch un segnale campionato possa essere ricostruito, cio si
possano ottenere dai campioni il segnale di partenza analogico. La condizione da
verificare che la banda unilatera del segnale sia inferiore a met della frequenza di campionamento, oppure che la banda bilatera sia inferiore alla frequenza di
campionamento:
(4.4.4)
2Bs fc
Bt fc
4.4. IL CAMPIONAMENTO
126
S(f)
f
Sc (f)
aliasing
0
f
c
fc
2fc
4.4. IL CAMPIONAMENTO
127
S(f)
0
fc /2
+fc /2
(4.4.5)
H(f ) = rect(
f
)
fc
(4.4.6)
h(t) =
1
t
sinc( )
T
T
1
sr (t) = sc (t) ? h(t) =
T
(4.4.7)
+1
1
+1
X
n= 1
s( ) (
nT )sinc(
)d =
+1
1 X
t nT
=
s(nT ) sinc(
)
T n= 1
T
4.4. IL CAMPIONAMENTO
128
il valore che assume la somma dei prodotti che si ottengono moltiplicando i campioni
del segnale per la funzione seno cardinale centrata in ciascuno dei campioni. Poich
inotre la funzione seno cardinale pari, la formula precedente pu anche essere scritta
come:
+1
1 X
nT t
sr (t) =
s(nT ) sinc(
)
T n= 1
T
il cui significato pu anche essere inteso nel modo seguente: il segnale ricostruito nella
posizione generica t si ottiene come somma dei prodotti tra i campioni e il valore che
assume la funzione seno cardinale nelle posizioni di campionamento quando questa
posta in t. Entrambe le interpretazioni sono riassunte in figura 4.4.5.
s(1)
s(2)
1.5
2
1.5
s(0)
s(3)
t s(1)
0.5
s(2)
0.5
0.5
0.5
s(3)
4.5. LA QUANTIZZAZIONE
129
s(t)
0
T
4.5. LA QUANTIZZAZIONE
130
descrivere un campione con 8 bit, non ha senso utilizzare, ad esempio, solo 180 livelli per descrivere il segnale: sarebbe meglio utilizzarne il numero massimo consentito
dal numero di bit utilizzato (28 = 256). In questo modo usiamo comunque 8 bit per
descrivere i singoli campioni, e allo stesso tempo la descrizione del campione risulter
pi precisa.
La cosa pi logica da fare quando si effettua la descrizione del campione con i
livelli, quella di approssimarlo con il livello pi vicino, in modo da minimizzare
lerrore che inevitabilmente si commette nel quantizzare un segnale. In figura 4.5.1
risportato lo schema generale della quantizzazione
Q
...
011
010
001
000
dinamica
100
...
4.5. LA QUANTIZZAZIONE
131
Si supponga ora di avere a che fare con un processo aleatorio e stazionario, a media
nulla. Il campionamento di una delle sue realizzazioni d luogo, per ogni campione,
ad una variabile aleatoria, la cui densit di probabilit sia f (x). Si supponga inoltre
che la dinamica della variabile aleatoria sia [ a, a]. Detto allora Q il numero di livelli,
lampiezza del quanto o intervallino di quantizzazione :
(4.5.1)
2a
Q
xq =
xi + xi
2
a+i
a+i
i = 1, ..., Q
Nq = E (x
xq )
+a
(x
xq ) f (x)dx =
Q Z
X
i=1
xi
xi
(x
xq )2 f (x)dx =
A questo punto la risoluzione dellintegrale si pu effettuare solo se si conosce la statistica del processo. Una delle ipotesi semplificatrici che si fa molte volte quella di
supporre la statistica del segnale uniforme sulla dinamica considerata. Cio si suppone
f (x) una v.a. uniforme nellintervallo [ a, a]:
1
x 2 [ a, a]
2a
f (x) =
0
altrove
Q Z a+i
X
1
Nq =
(x + a i + )2 dx =
2 2a
a+(i 1)
i=1
(4.5.3)
Q Z
X
i=1
+ /2
y2
/2
2
1
dy =
2a
12
4.5. LA QUANTIZZAZIONE
132
Questa quantit va confrontata con la potenza del segnale, dato che, essendo un disturbo, esso pi o meno forte a seconda del livello di potenza che il segnale possiede
(non ha senso chiedersi il livello di un disturbo se non lo si confronta con il livello del
segnale disturbato):
(4.5.4)
Sx =
+a
1
a2
dx =
x
2a
3
2
a
2
(4.5.5)
dB
Il rapporto segnale rumore aumenta in conclusione di circa 6dB per ogni bit di quantizzazione in pi.
4.5.1. Quantizzazione non lineare. Per il calcolo del rapporto segnale rumore di
quantizzazione si supposto precedentemente che la statistica del processo sia uniforme nella dinamica in cui si suppongono presenti i campioni del segnale. Tuttavia
questo normalmente non vero. Si pone quindi il problema di trovare il rapporto segnale rumore nel caso generale, e, ancora prima, di verificare se il metodo di
quantizzazione proposto lottimale.
Si supponga di avere un processo a media nulla e con una densit di probabilit
molto concentrata attorno allorigine, come potrebbe essere ad esempio un processo
gaussiano con varianza molto piccola. In tal caso le singole realizzazioni del processo, pur potendo in linea teorica avere una dinamica molto elevata, nella maggior
parte del tempo non si discosteranno in modo significativo dallo zero. Per le realizzazioni (e quindi per i campioni) di quel processo, pi probabile un valore piccolo
4.5. LA QUANTIZZAZIONE
133
che uno grande. Si tenga inoltre conto che, essendo il processo un processo gaussiano, la dinamica del segnale infinita, il segnale cio pu avere una escursione anche estremamente grande, sebbene questo evento ha una probabilit molto remota di
accadere.
Si tratta allora di trovare qual la quantizzazione ottima per questo tipo di processo, dove lottimo sta nella massimizzazione del rapporto segnale rumore di quantizzazione.
Quando si quantizzano i campioni di questo processo necessariamente si dovr
scegliere una dinamica finita entro cui far variare il processo, pur essendo questo a
dinamica teoricamente infinita. La descrizione che daremo del processo una descrizione in qualche modo mozzata: quando il campione assume cio un valore che
maggiore del valore della dinamica scelta, esso viene posto pari al valore massimo.
Questa descrizione ragionevole, purch questo evento sia molto remoto.
Per un processo gaussiano per esempio possiamo porre la dinamica pari a 3 volte la
deviazione standard, dato che un processo con densit di probabilit gaussiana ha una
probabilit di superare in escursione 3 pari ad appena lo 0.03%. Scelta la dinamica
si devono scegliere il numero di livelli. Questa normalmente una scelta legata alle
caratteristiche dellhardware, ed quindi limitata da altre considerazioni (il numero di
bit del sistema che effettua la transizione analogico-digitale).
F IGURA 4.5.2. Confronto tra una quantizzazione lineare ed una non lineare
Infine si deve decidere come dividere la dinamica tra i vari livelli. Infatti finora
si implicitamente supposto che la dinamica sia divisa equamente tra i vari livelli,
ma questa solo una possibilit. Unaltra possibilit sta nel dividere i livelli in modo da assegnare livelli pi piccoli dove il segnale pi probabile. In questo modo
la descrizione dei campioni che pi probabilmente occorrono pi precisa, mentre la
descrizione dei campioni pi rari perde di precisione. Complessivamente per questa quantizzazione, detta non lineare, risulta vantaggiosa e permette di migliorare il
rapporto segnale rumore di quantizzazione.
134
Pi precisamente la divisione tra livelli si fa in modo tale da suddividere lescursione della dinamica in intervalli che contengano la stessa area della funzione densit
di probabilit. Dove la densit di probabilit risulta elevata (evento pi probabile) sar
necessaria una suddivisione pi fine e quindi livelli pi piccoli; al contrario dove la
densit di probabilit pi bassa livelli pi ampi (vedi in figura 4.5.3 lesempio per
una gaussiana).
0.2
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
8
P(b 1R/a1 T)
...
...
aN
b1
b2
...
...
bM
135
Se il numero di simboli trasmessi e ricevuti pari a due, allora il sistema si semplifica e si ha il canale binario (figura 4.6.2). Nel canale binario ideale si suppone di
avere due soli simboli in ingresso (che possono essere lo 0 e l1) e due soli simboli in
uscita.
a0
p1
a1
p0
q0
q1
b0
b1
(4.6.1)
(4.6.2)
q0 + p 0 = 1
q1 + p 1 = 1
P (E) = p(P0 + P1 ) = p
136
(4.6.5)
(4.6.6)
Codifica di
sorgente
Codifica di
canale
Canale
Decodifica di
canale
Decodifica di
sorgente
137
i 2n + 1 bit e poi decide il simbolo in base a quello che in questa sequenza si presenta
pi spesso. la probabilit di sbagliare la probabilit che nella sequenza siano stati
sbagliati almeno n + 1 bit tra i 2n + 1 trasmessi.
Esempio: sequenza da trasmettere: 0 1 1 0 1, sequenza effettivamente trasmessa con n = 1: 000 111 111 000 111.
La sequenza di bit in ricezione si pu vedere come un processo di Bernoulli, dato
che i simboli arrivano indipedentemente uno dallaltro e possono assumere solo due
valori (0 e 1). In realt una certa dipendenza statistica c, dato che 2n + 1 bit dovrebbero avere lo stesso valore. Tuttavia la presenza del rumore sul canale rende del tutto
casuale il valore che il bit assumer in ricezione.
La probabilit di errore su un bit allora la probabilit che siano stati sbagliati o
n + 1 bit, oppure n + 2 bit, e cos via sino a 2n + 1:
(4.6.7)
P (E1 ) =
2n+1
X
k=n+1
2n + 1
k
pk (1
p)2n+1
138
Tuttavia il sistema di codifica a parit funziona molto bene dato che normalmente
lerrore di trasmissione su singolo bit molto minore di 1. Questo comporta che a
fronte di un sistema di codifica molto semplice ed efficiente lerrore su pi di un bit in
una sequenza un evento molto pi remoto dellerrore sul singolo bit.
La probabilit che lerrore non sia rivelato dal ricevitore la probabilit che il numero di errori sui singoli bit sia pari. Supponendo n pari si ha:
(4.6.8)
n/2
X
n
P (Er) =
p2k (1
2k
p)n
2k
k=1
(4.6.9)
P (Rt) =
n/2
X
k=1
n
2k
p2k 1 (1
p)n
2k+1
P (C) = (1
p)n
Poich possono risultare solo una di quste tre alternative, si ha: P (Er) + P (Rt) +
P (C) = 1. Le politiche di decisione a questo punto possono essere varie: ad esempio
il ricevitore pu chiedere la ritrasmissione sino a che non riceve una sequenza corretta
(o meglio una sequenza in cui esso non riesce a rivelare lerrore), oppure pu richiedere
la ritrasmissione solo per un numero di volte fissato e poi scartare la sequenza se questa
ancora corrotta, o non richiedere affatto la ritrasmissione.
Facciamo lesempio in cui il ricevitore richiede continuamente la ritrasmissione,
sino a che non rivela pi errore. In tal caso lerrore totale pu capitare se, in prima
trasmissione il ricevitore non si accorge della sequenza corrotta, oppure se, accorgendosi della sequenza corrotta in prima trasmissione, richiede la trasmissione e non si
accorge della sequenza corrotta in seconda trasmissione, o se le prime due trasmissioni sono corrotte in modo che il ricevitore se ne accorga e la terza corrotta in modo
che non se ne accorga e cos via. Quindi lerrore lunione di tutti questi eventi, dato
che questi possibili eventi sono tra loro disgiunti. La probabilit derrore totale quindi:
(4.6.11)
= P (Er)
1
X
P (Rt)k =
k=0
139
P (Er)
1 P (Rt)
A questo punto anche il numero di ritrasmissioni che si possono richiedere una variabile casuale. Infatti il numero di ritrasmissioni zero se la sequenza corretta o se
il ricevitore non in grado di accorgersi dellerrore, uno se in prima trasmissione ci
si accorge dellerrore ma in seconda trasmissione no (oppure non c affatto) e cos via:
(4.6.12)
8
P (nR = 0) = P (Er) + P (C) = 1 P (Rt)
>
>
>
>
P (nR = 1) = P (Rt) (1 P (Rt))
<
P (nR = 2) = P (Rt)2 (1 P (Rt))
>
..
>
>
.
>
:
P (nR = k) = P (Rt)k (1 P (Rt))
1
X
k=0
= (1
k P (nR = k) =
P (Rt)) P (Rt)
(4.6.13)
1
X
k=1
k P (Rt)k
=
1
X
k=0
k P (Rt)k (1
P (Rt)) =
P (Rt)) P (Rt)
= (1
(1
1
=
P (Rt))2
P (Rt)
1 P (Rt)
(4.6.14)
E[nT ] = E[nR ] + 1 =
1
P (Rt)
Il canale binario pu essere soggetto a numerose varianti che rendono lo schema complesso quanto si vuole. Ad esempio sempre possibile immaginare situazioni in cui la
legge di ritrasmissione sia pi semplice del caso teorico di infinite ritrasmissioni: per
esempio si pu chiedere di ritrasmettere solo un certo numero di volte e poi accettare
ci che arriva eventualmente alla trasmissione n-sima.
Inoltre anche lipotesi di simmetria del canale pu cadere: si pu sempre pensare
ad un canale che tratta gli errori sulluno diversamente da quelli sullo zero, attribuendo
cos una probabilit derrore differente a seconda che si sbaglino gli uno o gli zero.
140
a0
p0
p1
a1
b0
r1
q1
b2
b1
141
utilizzare una codifica a lunghezza variabile, dato che pi conveniente utilizzare parole (stringhe di bit che codificano un simbolo) pi corte per i simboli pi probabili,
in modo da minimizzare il numero di bit che per unit di tempo transitano sul canale
binario.
Genericamente quindi la quantit di informazione media che transita sul canale si
pu ritenere pari ad una media pesata della lunghezza delle parole di bit, i pesi essendo
le probabilit di presentarsi da parte dei simboli che quelle parole codificano (praticamente il numero medio di bit che transitano su canale):
(4.7.1)
X
i
p(xi ) ni
p1
p2
pM
pmess = pN
pN
.... pN
1
2
M
Per la supposta ergodicit della sorgente tutti i messaggi leciti emessi dalla sorgente
sono equiprobabili, quindi i possibili messaggi con N simboli sono: 1/pmess .
Il numero minimo di bit necessari per descrivere tutto il messaggio , a questo punto:
n = log2
1
pmess
log2 pmess
(4.7.3)
n
H(x) =
=
N
M
Y
1
pi
log2
pN
=
i
N
i=1
M
X
i=1
142
pi log2 pi
I(xi ) =
log2 p(xi )
Lentropia rappresenta quindi il numero minimo di bit per simbolo mediamente necessari a descrivere un messaggio. Se descriviamo in questo modo linformazione legata
alla sorgente allora valgono le seguenti propriet.
(1) Se p(xi ) ! 1 allora I(xi ) ! 0
Concettualmente, quanto pi probabile lemissione di un simbolo, tanto
meno informazione esso trasporta. Al limite, se esso certo, la quantit di
informazione trasportata nulla.
(2) I(xi ) > I(xj ) se p(xi ) < p(xj )
T
(3) Se lemissione di simboli successivi
indipendente,
allora:
I(x
i
T
T xj ) =
I(xi ) + I(xj ). Infatti si ha: P (xi xj ) = P (xi ) P (xj ) )I(xi xj ) =
1
1
log2 P (xi 1T xj ) = log2 P (xi )P
= log2 P (x
+ log2 P (x1 j ) = I(xi ) + I(xj )
(xj )
i)
E XAMPLE 4.7.1. Si supponga che la sorgente possa emettere solo una coppia di
simboli (come accade nel caso di sorgente binaria), x1 e x2 , con probabilit di emissione rispettivamente p e 1 p:
x1
,p
x2 , 1 p
Lentropia in tal caso vale: H(S) = p log2 p1 + (1 p) log2 1 1 p . La funzione rappresentata in figura 4.7.1. Come si vede il massimo dellentropia, e cio dellinformazione
emessa dalla sorgente si ha quando i simboli sono equiprobabili.
143
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
(4.7.5)
log2 M 0 ()
H(s)
tuttavia si ha
M
M
X
X
1
pi = 1 )
pi log2
pi
i=1
i=1
M
X
i=1
M
X
i=1
i=1
pi
1
M pi
pi log2
i=1
pi log2 M =
pi (log2
M
X
1
pi
M
X
i=1
log2 M 0
pi (log2
1
pi
log2 M ) 0
1
)0
M pi
M
X
1
1 log2 e = log2 e
M
i=1
pi
=0
144
infatti che, al contrario della codifica a lunghezza fissa, in questa situazione si deve essere in grado di comprendere la fine di un simbolo, altrimenti si rischia di equivocare
linterpretazione.
Facciamo il seguente esempio. La sorgente S emetta quattro simboli differenti
x1 , x2 , x3 , x4 (scritti in ordine dal pi probabile al meno probabile) e i simboli siano
codificati con le seguenti parole:
8
x
0
>
>
< 1
x2 01
x3 010
>
>
: x 100
4
Al ricevitore arrivi la seguente sequenza di bit: 100010010 che pu essere interpretata in modo equivoco, dato che pu essere: x4 , x3 , x3 , ma anche x4 , x1 , x4 , ... oppure
ancora x4 , x2 , x1 , x1 , .... Situazioni del genere devono essere evitate.
T HEOREM 4.7.2. Siano M i simboli x1 , x2 , ..., xM e siano n1 , n2 , ..., nM le lunghezze
delle parole di bit che codificano tali simboli. Condizione necessaria affinch un
codice sia univocamente decodificabile che risulti vera la seguente disuguaglianza (disuguaglianza di Kraft):
(4.7.6)
M
X
ni
i=1
E evidente che tale disuguaglianza non pu fornire una condizione sufficiente, dato
che non dice come costruire il codice, n qual la lunghezza delle singole parole. Lunica cosa che pu fare di verificare a posteriori che un codice sia univocamente decodificabile. Codici con parole di lunghezza grande verificheranno facilmente la condizione di cui sopra. Ovviamente noi siamo tuttavia interessati a codici con parole di
lunghezza quanto pi piccola possibile e che siano ancora univocamente decodificabili.
In linea di principio potremmo costruire un codice con una lunghezza di parola
pari a
(4.7.7)
ni = d log pi e
log pi ni
log pi + 1
145
pi log pi
(4.7.9)
M
X
i=1
M
X
pi ni
pi log pi +
i=1
M
X
pi
i=1
H(X) n H(X) + 1
I(xi ) = log2
1
) ni
pi
log2
1
) pi
pi
ni
x 1 0.6
x 2 0.25
x 3 0.1
x 4 0.05
1
0
0.4
0.15
0
0
(4.7.10)
8
x
1
>
>
< 1
x2 01
x3 001
>
>
: x 000
4
La tecnica consiste nellaccoppiare sempre le due probabilit pi piccole. Per valutare lefficienza del codice, basta confrontare la quantit media di informazione con
lentropia della sorgente:
H(s) =
146
0.6 log2 0.6 0.25 log2 0.25 0.1 log2 0.1 0.05 log2 0.05 = 1.49 bit/simbolo
n = 1 0.6 + 2 0.25 + 3 0.1 + 3 0.05 = 1.55 bit/simbolo
Come si vede la codifica di Huffmann risulta molto efficiente poich porta alluso di un
numero medio di bit per simbolo ragionevolmente vicino allentropia. In una codifica
tradizionale (con 2 bit/simbolo) si sarebbe ottenuto n = 2 bit/simbolo.
Vediamo ora lesempio notevole dalla trasmissione fax.
E XAMPLE 4.7.4. Nella trasmissione fax la sorgente emette due simboli, il nero
(N ) e il bianco (B). La probabilit di emissione del bianco enormemente pi grande
di quella del nero. Per semplicit si supponga che le probabilit di emissione siano:
pN = 0.1 e pB = 0.9. Si suppone inoltre che lemissione dei simboli sia indipendente,
cosa nella realt non vera e che viene anzi sfruttata per migliorare ulteriormente la
codifica. Se codificassimo con un bit per simbolo, avremmo che la quantit di informazione media varrebbe: n = 1 bit/simbolo, molto lontana dal limite teorico, dato
dallentropia:
H(s) =
(4.7.11)
0.81
0.09
0.09
0.01
BB 0.81
0
BN 0.09
NB 0.09
NN 0.01
0.1
147
(4.7.12)
Il numero medio di bit necessari per codificare una coppia vale: n = 1 0.81 + 2
0.09 + 3 0.09 + 3 0.01 = 1.29 bit/coppia e quindi 0.645 bit/simbolo. Come si
vede ci si gi avvicinati al valore teorico fornito dallentropia. Si potrebbero anche
considerare blocchi pi lunghi, a patto che la complessit del sistema in ricezione lo
permetta: infatti conviene non aumentare pi la complessit quando lincremento di
efficienza diventa piccolo in confronto allincremento di complessit circuitale.
Una codifica a lunghezza variabile pu tuttavia creare qualche problema. Prima di
tutto si suppone che la sorgente emetta i simboli a tasso costante. Se il codificatore
di sorgente codifica ogni simbolo con un numero differente di bit, allora il numero di
bit trasmessi per unit di tempo potrebbe essere variabile. A tale problema si pone
rimedio con un blocco di memoria sufficientemente lungo sia in trasmissione che in
ricezione: nel blocco di memoria in trasmissione si pongono una serie di simboli che
sono codificati, in modo che la trasmissione avvenga sempre a bit rate costante. In
ricezione i bit sono posti nel registro e quindi prelevati simbolo per simbolo. Quando i bit in ingresso tuttavia riempiono la memoria vi sar overflow e andranno persi.
Viceversa, se la memoria si svuota si ricorre al bit stuffing: si riempie la memoria con
bit privi di informazione unicamente per mantenere occupato il canale.
Un altro problema sta nella pi facile propagazione degli errori. Infatti in una
codifica alla Huffmann lerrore su di un bit non fa equivocare soltanto il simbolo a
cui associato, ma anche il successivo (e forse anche oltre), dato che sbagliando un
simbolo non si pi in grado di riconoscere linizio del successivo/i.
4.7.2. Codifica a blocchi. Nel caso della trasmissione fax si visto che codificando i singoli bit si molto lontani dal limite teorico imposto dallentropia. Per far
fronte a questo problema si pensato di codificare insieme due simboli. In questo modo il limite dellentropia si avicinato un po di pi. Questo approccio di codifica pu
essere formalizzato. Quando infatti il numero medio di bit trasmessi, n
abbastanza
lontano da H(S) si pu pensare di codificare insieme una coppia, una terna, ... oppure
una -pla di simboli. In questo modo la sorgente S diventa, formalmente, la sorgente
Y = S S ... S = S .
Se lemissione dei simboli indipendente, allora si dimostra che:
(4.7.13)
H(Y ) = H(S)
H(Y ) =
X
i,j
XX
1
1
1
p(si , sj )log2
=
p(si )p(sj ) log2
+ log2
=
p(si , sj )
p(s
)
p(s
)
i
j
i
j
XX
i
X
j
148
p(sj )
"
p(si ) log2
X
j
XX
1
1
+
p(si )p(sj ) log2
=
p(si )
p(s
)
j
i
j
#
1
+
p(si )
p(sj ) H(S) +
X
i
p(si )
"
p(sj ) log2
1
=
p(sj )
H(S)
nY
1
H(S) +
1
p(s1 /s0 )
H(S/s0 ) =
X
i
1
p(si /s0 )
149
Linformazione media, o anche entropia del primo ordine, allora la media pesata di
tutte le possibili emissioni del simbolo precedente, con pesi le probabilit che i simboli
precedenti hanno di essere emessi:
(4.7.17)
H(S/s) =
XX
j
X
1
1
p(sj ) =
p(si , sj ) log2
p(si /sj )
p(si /sj )
i,j
(4.7.18)
XX
si
si
...
si
p(si , si 1 , si 2 , ..., si
n)
n)
log2
1
p(si /si 1 , ..., si
n)
Tenendo conto della statistica dipendenza tra i simboli si possono ottenere prestazioni
notevolmente migliori. Ad esempio nella codifica fax evidente una dipendenza statistica tra i simboli. Infatti la presenza di un evento nero rende molto pi probabile
larrivo di un altro evento nero, dato che lo spessore della traccia di scrittura non
nullo. Questo discorso ancora pi valido per il bianco. In conclusione sequenze
anche molto lunghe di 1 o di 0 possono essere codificate con stringhe molto corte di
bit, tanto pi che alcune di esse sono anche molto probabili (ad esempio una sequenza
di eventi bianco che copre tutta la pagina quella corrispondente a una riga tutta
bianca, come ad esempio si trova al termine di un foglio).
Sfruttando quindi la conoscenza sui simboli precedenti si riesce a predire qualcosa
sui simboli in arrivo e quindi lentropia di ordine n ci si aspetta che sia minore di quella
di ordine n 1. Dimostriamo che questo vero per:
(4.7.20)
XX
s1
s0
XX
s1
s0
p(s1 , s0 ) log2
p(s1 , s0 ) log2
1
p(s1 /s0 )
1
p(s1 /s0 )
s1
p(s1 ) log2
XX
s1
s0
s1
s0
1
=
p(s1 )
p(s1 , s0 ) log2
150
s0
1
=
p(s1 )
p(s1 , s0 )
XX
p(s1 )
p(s1 )
p(s1 , s0 ) log2
p(s1 , s0 )
p(s1 /s0 )
p(s1 /s0 )
s
s
1
XX
s1
"
XX
s1
s0
s0
p(s0 )p(s1 )
1)
XX
s1
1 log2 e =
s0
log2 N (t)
t!1
t
C = lim
misurata in bit/s. Nel caso di un canale reale i simboli in uscita da un mezzo trasmissivo sono in parte sbagliati. Consideriamo la sorgente e il canale binario reale come
ununica sorgente che emette un messaggio Y , generalmente diverso (a causa dei bit
errati) dal messaggio X emesso dalla sorgente originaria (vedi figura 4.7.4).
H(X)
Sorgente X
151
H(Y)
Canale Binario
I(X, Y ) = H(Y )
H(Y /X)
dove H(Y /X) lequivocazione, cio quella parte di informazione dovuta alla non
idealit del canale. Al variare della statistica della sorgente il canale pu essere pi o
meno in grado di trasmettere informazione. A questo punto la capacit del canale pu
essere definita anche in base alla seguente:
(4.7.24)
C = max I(X, Y )
X
C =
1
S
log2 (1 + )
2
N
152
di canale. Questo teorema, noto anche come teorema di Shannon, permette di stabilire un limite superiore alla capacit di trasmettere bit su un canale, fissato che sia
il rapporto tra la potenza del segnale emesso dalla sorgente e il rumore presente sul
canale.