Cours1.3 2019
Cours1.3 2019
Cours1.3 2019
Thierry Kamionka
1 / 35
Objectifs de la séance
Distribution et statistique
Généralisations de la moyenne
2 / 35
Distribution et statistique
Représentation de la distribution d’un caractère quantitatif
L’histogramme permet de représenter simplement la
distribution d’un caractère quantitatif :
3 / 35
Distribution et statistique
Représentation de la distribution d’un caractère quantitatif
Des paramètres affectent fortement l’allure d’un histogramme
(ici la taille des classes) :
4 / 35
Histogramme : Pour une variable continue codée en classes (tranches)
I l’effectif de chaque classe est représenté par la surface d’un rectangle dont
I la base est l’amplitude de la classe.
I la hauteur est proportionnelle à la densité= fréquence/amplitude
⇒ logique de construction : on obtiendrait le même graphique avec des classes
plus petites si les observations étaient réparties uniformément dans la classe.
5 / 35
Exemple :
12
10
0
1 5 10 42
6 / 35
Exemple :
12
10
0
1 5 10 42
7 / 35
Exemple :
12
10
0
1 5 10 42
8 / 35
Histogramme en SAS : Exemple : l’ancienneté des salariés
dans l’entreprise (variable ancentr dans l’enquête Emploi).
9 / 35
Histogramme en SAS
L’ancienneté des salariés dans l’entreprise (ancentr).
10 / 35
Lien entre histogramme et fonction de densité
I Population de taille n
I Un caractère quantitatif d’intérêt Y
I l’individu i de la population a pour valeur de Y , Yi
I Les n valeurs Yi sont analysées à l’aide d’une statistique
I Buts : résumer et faire des comparaisons
12 / 35
Distribution et statistique
Représentation de la distribution d’un caractère quantitatif
Formellement, la hauteur de la barre associée à chaque classe
de valeur centrale yk et de taille fixe c est déterminée par :
1 X n
H(yk ) = 1|y −Y |≤ c
n × c i=1 k i 2
14 / 35
Distribution et statistique
Calcul des statistiques d’une distribution
Rn → Rq
(Y1 , . . . , Yn ) 7→ T (Y1 , . . . , Yn )
où q ≤ n.
15 / 35
Distribution et statistique
Exemples
1
Pn
T1 (Y1 , . . . , Yn ) = n i=1
Yi = Ȳ ∈ R
1
Pn !
n i=1
Yi
T2 (Y1 , . . . , Yn ) = Pn = (Ȳ , V (Y ))0 ∈ R2
1
n i=1
(Yi − Ȳ )2
Dans certains cas particuliers, on peut être amené à utiliser des statistiques pour
lesquelles q = n.
16 / 35
Distribution et statistique
Calcul des statistiques d’une distribution
Le statisticien Udny Yule a énoncé en 1945 six conditions
caractérisant une bonne statistique :
1. Être définie de façon objective.
2. Dépendre de toutes les observations.
3. Avoir une signification concrète facile à concevoir.
4. Être simple à calculer.
5. Être peu sensible aux fluctuations d’échantillonnage.
6. Se prêter facilement aux calculs algébriques.
17 / 35
Moyenne, médiane et mode
La moyenne
I La moyenne arithmétique :
1X n
Ȳ = Yi
n i=1
1 n
Ȳw = Pn
X
wi Yi
i=1 wi i=1
18 / 35
Moyenne, médiane et mode
Manque de robustesse de la moyenne
Une statistique est dite robuste lorsqu’elle est peu sensible aux
valeurs aberrantes (' condition 5 de Yule).
Estimations :
I Moyenne simple : 4880
I Moyenne sans (5) : 2000
I Moyenne en remplaçant (5) par (3) : 2200
19 / 35
Moyenne, médiane et mode
Illustration
Moyennes et effets de composition : différences de salaire
suivant la nationalité
salaire mensuel
moyen
Français nés en France 1745
Etrangers 1610
Différence 135
Français de naissance Etrangers
20 / 35
Comment expliquer ces résultats ? peu de discrimination sur
les salaires ? discrimination à l’embauche (seuls les plus
diplômés sont employés) ?
21 / 35
Moyenne, médiane et mode
La médiane
La médiane est la valeur de Yi qui partage les observations
rangées par ordre croissant en deux groupes de même effectif.
Soit Y(1) ≤ Y(2) ≤ . . . ≤ Y(n) les observations rangées par
ordre croissant, si n est impair :
MED = Y((n−1)/2+1)
Si n est pair, on parle d’intervalle médian
IMED = [Y(n/2) , Y(n/2)+1 ]
23 / 35
Moyenne, médiane et mode
Le mode
Remarques :
I Le mode peut ne pas être unique : si la série de salaires
comptait un individu supplémentaire avec un salaire de
1 000 €, alors il y aurait deux modes, 1 000 € et 2 000 €.
I Le mode a peu de sens quand le nombre de modalités est
faible.
I Le mode est peu sensible aux valeurs extrêmes.
24 / 35
Les variantes robustes de la moyenne arithmétique
De l’intérêt de variantes robustes de la moyenne
25 / 35
Les variantes robustes de la moyenne arithmétique
La moyenne tronquée
La moyenne tronquée (trimmed mean) d’ordre α est calculée
sur l’échantillon sans les (α/2) % plus grandes valeurs et les
(α/2) % plus petites valeurs de Y . La moyenne tronquée est
calculée après que les k observations les plus petites et les k
observations les plus grandes soient enlevées.
1 n−k
Ȳ T =
X
Y(i)
n − 2k i=k+1
Definition (φ−moyenne)
Soit φ une fonction monotone de R → R telle que φ0 (x ) 6= 0, φ00 (x ) 6= 0, ∀x , on appelle
φ−moyenne la quantité Mφ telle que
N
1 X
φ(Mφ ) = φ(Yi )
N
i=1
1
PN
I φ(x ) = ln(x ) : moyenne géométrique : ln(G) = ln(Yi ), soit
N i=1
G = (Y1 Y2 ...YN )1/N
h P i 1r
1 N
I φ(x ) = x r : moyenne d’ordre r : Mr = Yr
N i=1 i
h P i 12
1 N
1. r = 2 : moyenne quadratique : Q = N i=1
Yi2
h P i−1
1 N 1
2. r = −1 : moyenne harmonique : H = N i=1 Yi
28 / 35
Généralisations de la moyenne
Exemples
1. Considérons 1 individu effectuant N tours d’une piste de longueur d.
Soit Vi sa vitesse au tour i.
Sa vitesse moyenne sur l’ensemble des N tours est définie par :
PN N
1 ttotal i=1
d/Vi 1 X 1
= = =
V̂ H dtotal Nd N Vi
i=1
⇒ moyenne harmonique
2. Considérons le PIB d’un pays dont le niveau en début d’année est P et dont le
taux de croissance annuel est ri , i = 1, 2, ..., 10.
Le taux de croissance annuel moyen sur la décennie r̄ est donné par :
10
Y
(1 + r̄ )10 = (1 + ri )
i=1
⇒ moyenne géométrique
29 / 35
Statistiques univariées avec SAS
Construire de nouvelles variables
L’étape DATA permet de créer facilement de nouvelles variables.
DATA base1;
SET base1;
co2hab = co2 / pop;
RUN;
33 / 35
Statistiques univariées avec SAS
Recoder une variable dans une étape DATA
Comme les variables qualitatives, il est possible de recoder une
variable quantitative dans une étape DATA avec des clauses
IF THEN ELSE.
DATA base1;
SET base1;
LENGTH age3 $ 20;
IF age NE . AND age < 30 THEN age3 = "Moins de
30 ans";
ELSE IF age >= 30 AND age < 60 THEN age3 = "De
30 à 59 ans";
ELSE IF age >= 60 THEN age3 = "60 ans et plus";
ELSE age3 = "Age inconnu";
RUN;
Les opérateurs logiques sont les mêmes que ceux valides dans
une instruction WHERE.
34 / 35
Statistiques univariées avec SAS
Recoder une variable avec un format de type numérique
35 / 35