Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Cours 1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 29

1

Université de Strasbourg Année 2018/2019


UFR de Mathématiques et d'Informatique Statistique
Han-Ping LI Etude de cas L3
Chapitre 1
Notions statistiques

1.1 Variables aléatoires

Variables aléatoires : notions mathématiques utili-


sées pour
modéliser les phénomènes complexes :
-Impossible de prédire sa valeur exacte
-Possible d'avancer des propositions probabilistes sur
ses valeurs

Exemple 1
n= 20 réalisations d'une variable aléatoire X de loi de
Bernoulli B(1, p) avec p = 0.3 :

2
3

0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0

Exemple 2
n= 20 réalisations d'une variable aléatoire X de loi bi-
nomiale B(5, p) avec p = 0.3 :
1, 3, 0, 2, 2, 2, 1, 1, 2, 1, 1, 1, 0, 1, 1, 3, 3, 3, 1, 2

n=10000 réalisations d'une v. a.X de la loi binomiale


B(5,0.3) :

Table 1.1  Proportion


X 0 1 2 3 4 5
proportion 0.1628 0.3654 0.3099 0.1302 0.0294 0.0023
probabilité 0.16807 0.36015 0.30870 0.13230 0.02835 0.00243
4

Exemple 3
5000 réalisations d'une variable aléatoire X de loi gaus-

sienne N (µ, σ 2) avec µ = −10, σ = 1.5 :


5

Exemple 4
On s'intéresse à la largeur des anneaux de croissance
des arbres. le chier "treering" dans la librairie "data-
sets" avec N = 7980.

On prélève au hasard une valeur X dans cet ensemble


de 7980 valeurs : x = 1.004.
6

Rem On note souvent X ou (Y ) une variable aléatoire


et x (ou y une des ses réalisations. ( souvent une in-
nité !)

1.2 Modélisation statistique :

Modéliser, c'est structurer et simplier, choisir quoi iden-


tier et quoi diérencier, ce qui est important et ce qui
est accessoire, relier entre eux les évènements.

Population : l'ensemble des individus dont une ou plu-


sieurs variables sont prises en considération dans l'étude.

La répartition des valeurs d'une variable est associe à


une loi de probabilité :

Population ⇐⇒ Pθ , θ ∈ Θ


Attention : un sous-ensemble de n individus ne peut pas


être "représentatif" de la population (n << N )..
Echantillon ⇐⇒ n individus choisis au hasard dans la
population. X1, . . . , Xn n variables aléatoires indép. de
même loi.
Exemples :
7

1. On prélève 3 boules dans une urne contenant 7 de


valeurs 5−1, 10−1, . . . , 55 euros.
Avec remise : 73 (=343)
Sans remise : choose(7,3) (=56)
L= 5−1:5
L=1 :7 ; combn(L, 3)
for ( i in 1 :10){ print (sample(L, 3, replace=T))}
2. les résultats après avoir lancé un dé n = 20 fois.
sample(6, 20, replace=T)
3. les poids de n = 10 étudiants choisis au hasard en
France
4. On s'intéresse à la largeur des anneaux de croissance

des arbres. le chier "treering" dans la librairie "data-


sets" avec n = 7980.
8

On simule M=500 réalisations d'un échantillon de taille


n=20 et on constate
9

Histogram of Moyenne.echantillon
80
60
Frequency

40
20
0

0.7 0.8 0.9 1.0 1.1 1.2

Moyenne.echantillon

Données : x1 , . . . , x n

Modèle : x = (x1, . . . , xn) une réalisation d'un échan-


tillon
X = (X1, . . . , Xn) ( n v.a. i.i.d.) de loi Pθ , θ ∈ Θ para-
mètre inconnu.
Paramètres

Paramètres de position : nombre autour duquel se re-


10

partissent les valeurs.


• Espérance de la variable X sous la loi Pθ que on
appelle aussi la moyenne théorique :
 X


 xk Pθ (X = xk ) cas discret

 k
µ = Eθ (X) =
 Z ∞
cas absolument continu

x fθ (x)d x



−∞

• Médiane de la variable X sous la loi Pθ que on


appelle aussi la médiane théorique :

1 1
mθ = Mdianeθ (X) t. q. Pθ (X ≤ mθ ) ≥ et Pθ (X ≥ mθ ) ≥
2 2
.
Paramètres de dispersion : nombre indiquant le degré
d'éparpillement des valeurs.
• Variance de la variable X sous la loi Pθ que on
appelle aussi la variance théorique (l'écart-type, resp.
):

2 2
p
σ = Varθ (X) = Eθ (X − µ) , σ = Varθ (X)
11

• écart-type de la variable X
p
σ = Varθ (X).
Paramètre de forme Paramètre d'asymétrie :
Eθ (X − µ)3
γ1 =
σ3

Si γ1 < 0 =⇒ étalée vers gauche


Si γ1 > 0 =⇒ étalée vers droite

Rem Il est important de diérentier trois sortes de


grandeurs :
1) Grandeurs théoriques : ce sont des paramètres
dépendant de la loi Pθ donc inconnues, par exemple :
µ = Eθ (X), Mdianeθ (X), σ 2 = Varθ (X) et skewness(X).

2) Grandeurs d'échantillon : v.a. calculées à partir


de l'échantillon X = (X1, . . . , Xn). Ce sont des Statis-
tiques (v.a.) . Par exemple :
• La moyenne de l'échantillon
n
1X
X= Xj .
n j=1
12

• La médiane de l'échantillon
On note X(1) = min (Xj ), X(2) = min (Xj ) . . . , X(n) =
1≤j≤n 1≤j≤n,j6=(1)
max (Xj )
1≤j≤n

si n est impair

 X n+1

2



mediane(X) =
 X n + X 
n +1
si n est pair

 2 2

2

• La variance (corrigée) de l'échantillon,


n
1 X 2
Sc2 = Xj − X .
n − 1 j=1
• L'écart-type (corrigé)
p
Sc = Sc2
.
Pn 3
j=1 Xj − X /n
 3 .
Sc

3) Grandeurs observés : calculées à partir des obser-


vations x = (x1, . . . , xn). Ce sont des réalisations des
Statistiques. Par exemple :
13

n n
1X 2 1 X
x= xj , sc = (xj − x)2, ...
n j=1 n − 1 j=1

Propriétés

Soit X = (X1, . . . , Xn) un échantillon aléatoire de taille


n provenant d'une population f (x) avec variance nie
σ 2. Alors,

σ2
Eθ (X) = µ, Varθ (X) = ;
n

Eθ (Sc2) = σ 2.

Propriétés au cas d'un échantillon normal

Soit X = (X1, . . . , Xn) un échantillon provenant d'une


population N (µ, σ 2). Alors,
a X et Sn2 sont indépendantes.
2
b. X suit une loi N (µ, σn )
(n − 1)Sc2
c. suit une loi de khi-deux à (n-1) degré de
σ2
liberté χ2(n−1).

n(X − µ)
d. suit une loi de Student à (n-1) degré
Sc
14

de liberté.

1.3 Inférences

Ob jectifs généraux : Extraire d'informations essen-


tielles contenues dans des données ayant des éléments
inconnus et intrinsèquement imprévisibles et les inter-
préter. On s'intéresse par exemple aux Estimations, aux
tests, aux vérications de modèle.

• Estimer au mieux θ

• Tester l'hypothèse nulle H0 : θ ∈ Θ0 contre H1 :


θ ∈ Θ1

• Vérier le modèle :
existe-t-il un θ∗ ∈ Θ, tel que Pθ∗ modélise bien les
données ?
Statistique (statistic) : Une statistique T (X) est une
fonction de l'échantillon, qui ne ne doit contenir au-
cun paramètre inconnu. Comme un échantillon est n
variables aléatoires, une statistique, elle aussi, est une
variable aléatoire.
Chapitre 2
Estimations

On estimer un paramètre θ en utilisant une fonction


de l'échantillon bien choisie : une "bonne" statistique
T (X).
2.1 critère

Critères pour choisir les estimateurs :

15
16

• Biais de l'estimateur :

b(θ) = Eθ T (X) − θ

T (X) est dit sans biais si b(θ) = 0 ∀ θ ∈ Θ

2
• Erreur quadratique Eθ T (X) − θ = Varθ (T (X)) + b(θ)2

l' estimateur des Erreurs quadratiques


uniformément les plus petites
parmi les estimateurs sans biais :
=⇒ sans biais de variances uni.t minimales

• Vitesse de convergence (T (X) − θ) −→ 0.


17

2.2 Méthode du maximum de vraisemblance

La méthode du maximum de vraisemblance est la tech-


nique la plus populaire pour obtenir des estimateurs,
souvent les meilleures dans les cas classiques.
Exemple 1 : loi de Bernoulli

Un frère dispute d'un précieux tableau à sa soeur. La


soeur propose d'utiliser la lancer d'une pièce pour dési-
gner l'heureux héritier.
X une variable aléatoire de loi de Bernoulli B(1, p)
P(X = k) = pk (1 − p)1−k , k ∈ {0, 1}.

Soit (x1, . . . , xn) une réalisation d'un échantillon (X1, . . . , Xn)


de loi de Bernoulli.

P(X1 = x1, X2 = x2, . . . , Xn = xn)


= P(X1 = x1)P(X2 = x2) · · · P(Xn = xn)
= pxP1 (1 − p)1−x1 px2 P
(1 − p)1−x2 · · · pxn (1 − p)1−xn
n n
= p j=1 xj (1 − p)n− j=1 xj .
Pn Pn
donc P(X1 = x1, X2 = x2, . . . , Xn = xn) = p j=1 xj (1−p) n− j=1 xj .
Cette dernière quantité est une fonction de p, appelée
fonction de vraisemblance L(p|x1, . . . , xn) :
Pn
n− n
P
L(p|x1, . . . , xn) = p j=1 xj (1 − p) j=1 xj .
18

avec le graphique suivant :

Si on étudie son logarithme :


19

n
X Xn
l(p|x1, . . . , xn) = log L = xj log(p)+(n− xj ) log(1−p).
j=1 j=1

n n
∂ 1X 1X
l(p|x1, . . . , xn) = 0 =⇒ p = xj =⇒ p̂ = X = Xj .
∂p n j=1 n j=1

Pn Pn
∂ 2 X
j=1 j n − j=1 Xj
Comme l(p|x1, . . . , xn) = − −
∂p2 p 1−p

Pn Pn
∂ 2
j=1 Xj n− j=1 Xj
=⇒ l(p̂|x1, . . . , xn) = − − = −2n < 0.
∂p2 p̂ 1 − p̂

Rappels :
Lorsque les lois de probabilités sont discrètes, on a
P(Xi = xi) = Pθ (xi).
Par contre, si les lois sont absolument continues, on a
Z b
P(a < Xi ≤ b) = fθ (x)dx .
a

La fonction de vraisemblance est dénie par


θ −→ L(θ|x) = L(θ|x1, . . . , xn)
L(θ|x1, . . . , xn) = Πnj=1Pθ (xj ) si discrèt


L(θ|x1, . . . , xn) = Πnj=1fθ (xj ) si absolument continu
20

On introduit donc estimateur du maximum de vraisem-


blance comme la fonction de X (l'échantillon) tel que

θ̂(x) = Argmaxθ ∈ Θ L(θ|x), ∀ x


ou de manière équivalente :

θ̂(x) = Argmaxθ ∈ Θ l(θ|x), ∀ x


21

Exemple 2 : loi de Poisson

Soit (x1, . . . , xn) une réalisation d'un échantillon (X1, . . . , Xn)


de loi de Poisson P (λ). On a

λxj
P(X = xj ) = exp(−λ) =⇒
xj !
Pn
λ j=1 xj
L(λ|x1, . . . , xn) = n exp(−nλ)
Πj=1xj !

n
X  n
X
l(λ|x1, . . . , xn) = xj log(λ) − log(xj !) − nλ
j=1 j=1

Pn 
∂ x
j=1 j
l(λ|x1, . . . , xn) = − 0 − n.
∂λ λ
n
1X
L'équation ∂
∂λ l(λ|x1 , . . . , xn ) = 0 =⇒ λ(x) = n xj , ∀ x
j=1

Pn 
∂2 j=1 xj
Comme ∂λ2
l(λ|x1, . . . , xn) =− < 0, ∀ λ
λ2

On en déduit 1
Pn
λ̂M V = X = n j=1 Xj .
22

Exemple 3 : loi gaussienne

Soit (x1, . . . , xn) une réalisation d'un échantillon (X1, . . . , Xn)


de loi gaussienne N (µ, σ 2).
Si on note v = σ 2, on a alors
Z b
1 1
P(a < X ≤ b) = √ exp(− (t − µ)2)d t
a 2π v 2v
n
1 1 X 2

L(θ|x1, . . . , xn) = exp − (xj − µ)
(2π)n/2v n/2 2v j=1

n
n n 1 X
l(θ|x1, . . . , xn) = − log(2π) − log(v) − (xj − µ)2
2 2 2v j=1

n
∂  1 X 
l (µ, v)|x1, . . . , xn = −0 − 0 − − (xj − µ)
∂µ 2v j=1

n
∂ n 1 X
(xj − µ)2

l (µ, v)|x1, . . . , xn = −0 − + 2
∂v 2v 2v j=1

n
∂  1X
l (µ, v)|x1, . . . , xn = 0 =⇒ µ
bM V = X = Xj
∂µ n j=1

n
∂ 1X
(Xj − µ̂)2.

l (µ, v)|x1, . . . , xn = 0 =⇒ v̂ =
∂v n j=1
23

n
1X
C'est-à-dire σM V =
d2 (Xj − X)2.
n j=1
Ce dernier est un estimateur biaisé, alors que l'estima-
teur sans biais et de variance minimale est donné par
n
1 X
2
σ =
b (Xj − X)2.
n − 1 j=1

3.3 Comparaison des estimateurs

Exemple 4, autrement Estimation de µ (la moyenne


théorique) de largeur d'anneaux)
On s'intéresse à la largeur des anneaux de croissance des
arbres. On prend le chier "treering" dans la librairie
"datasets" avec N = 7980 (ni) comme étant le cardi-
nal de la population. On note µ = 0.9968 la moyenne
(théorique) de la population.
Echantillon=matrix(NA, nrow=M,ncol=n) # NA : sans
valeur
# pour stocker M réalisations de l'échantillon de taille n
Moyenne.echantillon=rep(NA,M) ;
# pour stocker M réalisations de la moyenne d'échantillon

for (j in 1 :M) {
Echantillon[j, ] = sample(Population, n, replace = T)
Moyenne.echantillon[j] = mean(Echantillon[j, ]) }
Echantillon ; Moyenne.echantillon
24

et on souhaite avoir une idée sur la grandeur du paramètre µ. Pour ce


faire, on va construire M = 100 réalisations, basé sur un échantillon de taille
n = 65, de l'intervalle de conance à 95% sur le paramètre π en utilisant la
méthode de Wald.

1) Sauvegarder ces 7980 valeurs dans un vecteur nommé Population.

2) Générer M = 500 réalisations de l'échantillon (X1 , ..., Xn ) de taille n = 65.

3) Appliquer la formule de l'intervalle de conance à 95% (la méthode de


Wald) sur le paramètre π (c.f. TD 5, exo-7) sur les 50 réalisations de l'échan-
tillon pour obtenir M = 50 réalisations de l'intervalle de conance à 95 %.

4) Calculer la vraie valeur de π en utilisant la totalité des 7980 valeurs de la


population, puis déterminer la proportion des IC contenant cette valeur π .
Commenter vos résultats.
La méthode du maximum de vraisemblance est la technique la plus populaire
pour obtenir des estimateurs, souvent les meilleures dans les cas classiques.
Exemple 1 : loi de Bernoulli
Un frère dispute d'un précieux tableau à sa soeur. La soeur propose d'utiliser
la lancer d'une pièce pour désigner l'heureux héritier.
X une variable aléatoire de loi de Bernoulli B(1, p)

P(X = k) = pk (1 − p)1−k , k ∈ {0, 1}.

Soit (x1 , . . . , xn ) une réalisation d'un échantillon (X1 , . . . , Xn ) de loi de Ber-


noulli.

P(X1 = x1 , X2 = x2 , . . . , Xn = xn )
= P(X1 = x1 )P(X2 = x2 ) · · · P(Xn = xn )
= pxP1 (1 − p)1−x1 px2 P
(1 − p)1−x2 · · · pxn (1 − p)1−xn
n n
= p j=1 xj (1 − p)n− j=1 xj .

Pn Pn
donc P(X1 = x1 , X2 = x2 , . . . , Xn = xn ) = p j=1 xj
(1 − p)n− j=1 xj
.
25

Cette dernière quantité est une fonction de p, appelée fonction de vrai-


semblance L(p|x1 , . . . , xn ) :
Pn Pn
xj
L(p|x1 , . . . , xn ) = p j=1 (1 − p)n− j=1 xj
.

avec le graphique suivant :

Si on étudie son logarithme :

n
X n
X
l(p|x1 , . . . , xn ) = log L = xj log(p) + (n − xj ) log(1 − p).
j=1 j=1

n n
∂ 1X 1X
l(p|x1 , . . . , xn ) = 0 =⇒ p = xj =⇒ p̂ = X = Xj .
∂p n j=1 n j=1
Pn Pn
∂2 j=1 Xj n− j=1 Xj
Comme l(p|x1 , . . . , xn ) = − −
∂p2 p 1−p

Pn Pn
∂2 j=1 Xj n− j=1 Xj
=⇒ 2 l(p̂|x1 , . . . , xn ) = − − = −2n < 0.
∂p p̂ 1 − p̂

Rappels :
Lorsque les lois de probabilités sont discrètes, on a

P(Xi = xi ) = Pθ (xi ).

Par contre, si les lois sont absolument continues, on a


Z b
P(a < Xi ≤ b) = fθ (x)dx .
a

La fonction de vraisemblance est dénie par

θ −→ L(θ|x) = L(θ|x1 , . . . , xn )

L(θ|x1 , . . . , xn ) = Πnj=1 Pθ (xj ) si discrèt




L(θ|x1 , . . . , xn ) = Πnj=1 fθ (xj ) si absolument continu
26

On introduit donc estimateur du maximum de vraisemblance comme la fonc-


tion de X (l'échantillon) tel que

θ̂(x) = Argmaxθ ∈ Θ L(θ|x), ∀ x


ou de manière équivalente :

θ̂(x) = Argmaxθ ∈ Θ l(θ|x), ∀ x


27

Exemple 2 : loi de Poisson

Soit (x1 , . . . , xn ) une réalisation d'un échantillon (X1 , . . . , Xn ) de loi de Pois-


son P (λ). On a

λx j
P(X = xj ) = exp(−λ) =⇒
xj !
Pn
λ j=1 xj
L(λ|x1 , . . . , xn ) = n exp(−nλ)
Πj=1 xj !
n
X  n
X
l(λ|x1 , . . . , xn ) = xj log(λ) − log(xj !) − nλ
j=1 j=1

Pn 
∂ j=1 xj
l(λ|x1 , . . . , xn ) = − 0 − n.
∂λ λ

n
1X
L'équation ∂
∂λ
l(λ|x1 , . . . , xn ) = 0 =⇒ λ(x) = xj , ∀ x
n j=1

Pn 
∂2 j=1 x j
Comme ∂λ2
l(λ|x1 , . . . , xn ) = − < 0, ∀ λ
λ2
Pn
On en déduit λ̂M V = X = 1
n j=1 Xj .
28

Exemple 3 : loi gaussienne


Soit (x1 , . . . , xn ) une réalisation d'un échantillon (X1 , . . . , Xn ) de loi gaus-
sienne N (µ, σ 2 ).
Si on note v = σ 2 , on a alors

Z b
1 1
P(a < X ≤ b) = √ exp(− (t − µ)2 )d t
a 2π v 2v
n
1 1 X
(xj − µ)2

L(θ|x1 , . . . , xn ) = exp −
(2π)n/2 v n/2 2v j=1

n
n n 1 X
l(θ|x1 , . . . , xn ) = − log(2π) − log(v) − (xj − µ)2
2 2 2v j=1

n
∂  1 X 
l (µ, v)|x1 , . . . , xn = −0 − 0 − − (xj − µ)
∂µ 2v j=1

n
∂ n 1 X
(xj − µ)2

l (µ, v)|x1 , . . . , xn = −0 − + 2
∂v 2v 2v j=1

n
∂  1X
l (µ, v)|x1 , . . . , xn = 0 =⇒ µM
ˆV = X = Xj
∂µ n j=1

n
∂ 1X
(Xj − µ̂)2 .

l (µ, v)|x1 , . . . , xn = 0 =⇒ v̂ =
∂v n j=1
n
1X
C'est-à-dire σd
2
MV = (Xj − X)2 .
n j=1

Ce dernier est un estimateur biaisé, alors que l'estimateur sans biais et de


variance minimale est donné par
n
1 X
UMVNB σb2 = (Xj − X)2 .
n − 1 j=1
29

2.3 Comparaison des estimateurs

Vous aimerez peut-être aussi