Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Cours1.3 2019

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 35

Partie 3

Statistiques de tendance centrale

Statistique descriptive 2019-2020

Thierry Kamionka

1 / 35
Objectifs de la séance

Distribution et statistique

Moyenne, médiane et mode

Les variantes robustes de la moyenne arithmétique

Généralisations de la moyenne

Statistiques univariées avec SAS

2 / 35
Distribution et statistique
Représentation de la distribution d’un caractère quantitatif
L’histogramme permet de représenter simplement la
distribution d’un caractère quantitatif :

3 / 35
Distribution et statistique
Représentation de la distribution d’un caractère quantitatif
Des paramètres affectent fortement l’allure d’un histogramme
(ici la taille des classes) :

4 / 35
Histogramme : Pour une variable continue codée en classes (tranches)
I l’effectif de chaque classe est représenté par la surface d’un rectangle dont
I la base est l’amplitude de la classe.
I la hauteur est proportionnelle à la densité= fréquence/amplitude
⇒ logique de construction : on obtiendrait le même graphique avec des classes
plus petites si les observations étaient réparties uniformément dans la classe.

5 / 35
Exemple :

12

10

0
1 5 10 42

6 / 35
Exemple :

12

10

0
1 5 10 42

7 / 35
Exemple :

12

10

0
1 5 10 42

8 / 35
Histogramme en SAS : Exemple : l’ancienneté des salariés
dans l’entreprise (variable ancentr dans l’enquête Emploi).

⇒ attention pas de gestion d’amplitudes de classe différentes

9 / 35
Histogramme en SAS
L’ancienneté des salariés dans l’entreprise (ancentr).

10 / 35
Lien entre histogramme et fonction de densité

Avec une infinité d’observations, si le nb de classes → ∞ et amplitude des classes


→ 0, l’histogramme → fonction de densité (stat. math.).
Z b
f (.) telle que P[a ≤ Y ≤ b] = f (t)dt, ∀a, b ∈ ID(Y ), où ID(Y ) représente l’intervalle
a
de définition de Y (son support).
11 / 35
Distribution et statistique
Cadre

I Population de taille n
I Un caractère quantitatif d’intérêt Y
I l’individu i de la population a pour valeur de Y , Yi
I Les n valeurs Yi sont analysées à l’aide d’une statistique
I Buts : résumer et faire des comparaisons

12 / 35
Distribution et statistique
Représentation de la distribution d’un caractère quantitatif
Formellement, la hauteur de la barre associée à chaque classe
de valeur centrale yk et de taille fixe c est déterminée par :
1 X n
H(yk ) = 1|y −Y |≤ c
n × c i=1 k i 2

En faisant tendre n vers l’infini et c vers 0, on obtient la


densité empirique de la distribution.

On estime cette densité empirique par noyau (kernel) :


1 X n
y − Yi
f K (y ) = K( )
n × c i=1 c
c est alors appelé la fenêtre de l’estimation par noyau (par
défaut le noyau gaussien dans SAS).
13 / 35
Distribution et statistique
Représentation de la distribution d’un caractère quantitatif

Estimation de la densité avec une fenêtre de largeur c = 1 (à


gauche) et c = 0, 5 (à droite) :

14 / 35
Distribution et statistique
Calcul des statistiques d’une distribution

Une statistique est une fonction des données, une


application T

Rn → Rq
(Y1 , . . . , Yn ) 7→ T (Y1 , . . . , Yn )

où q ≤ n.

En d’autres termes une statistique peut être vue comme un


résumé des données : en général on souhaite que q <<< n.

Il arrive cependant que q = n : statistique de rang, fonction de


répartition, etc.

15 / 35
Distribution et statistique
Exemples

1
Pn
T1 (Y1 , . . . , Yn ) = n i=1
Yi = Ȳ ∈ R

1
Pn !
n i=1
Yi
T2 (Y1 , . . . , Yn ) = Pn = (Ȳ , V (Y ))0 ∈ R2
1
n i=1
(Yi − Ȳ )2

Dans certains cas particuliers, on peut être amené à utiliser des statistiques pour
lesquelles q = n.

16 / 35
Distribution et statistique
Calcul des statistiques d’une distribution
Le statisticien Udny Yule a énoncé en 1945 six conditions
caractérisant une bonne statistique :
1. Être définie de façon objective.
2. Dépendre de toutes les observations.
3. Avoir une signification concrète facile à concevoir.
4. Être simple à calculer.
5. Être peu sensible aux fluctuations d’échantillonnage.
6. Se prêter facilement aux calculs algébriques.

Peu de statistiques satisfont à la fois toutes les conditions : les


conditions 2 et 5 en particulier ne sont pas toujours faciles à
concilier (cas des valeurs extrêmes par exemple).

17 / 35
Moyenne, médiane et mode
La moyenne

I La moyenne arithmétique :

1X n
Ȳ = Yi
n i=1

I La moyenne arithmétique pondérée : Si un individu i a un


poids wi , la moyenne de Y pondérée est

1 n
Ȳw = Pn
X
wi Yi
i=1 wi i=1

Propriétés : se prête très bien aux calculs algébriques, mais


très sensible aux valeurs aberrantes (non robuste)

18 / 35
Moyenne, médiane et mode
Manque de robustesse de la moyenne

Une statistique est dite robuste lorsqu’elle est peu sensible aux
valeurs aberrantes (' condition 5 de Yule).

Exemple : salaires déclarés en 2002, une personne sur les 5 de


l’échantillon se trompe et déclare en francs.
Individu 1 2 3 4 5
Salaire déclaré 1000 2000 3000 2000 16400

Estimations :
I Moyenne simple : 4880
I Moyenne sans (5) : 2000
I Moyenne en remplaçant (5) par (3) : 2200

19 / 35
Moyenne, médiane et mode
Illustration
Moyennes et effets de composition : différences de salaire
suivant la nationalité
salaire mensuel
moyen
Français nés en France 1745
Etrangers 1610
Différence 135
Français de naissance Etrangers

Niveau de diplôme part salaire part salaire


Diplôme universitaire 38 2152 30 2081
Bac 19 1680 16 1444
Bepc, CAP 26 1439 16 1627
Brevet ou moins 17 1383 38 1279
Champ: 30-39 ans, salariés à temps complets, France métropolitaine, ménages
ordinaires
Source: enquêtes Emploi 2006

salaire à structure de diplôme des Français


Français nés en France 1745
Etrangers 1705
Différence 40
Part expliquée de la différence 71%

20 / 35
Comment expliquer ces résultats ? peu de discrimination sur
les salaires ? discrimination à l’embauche (seuls les plus
diplômés sont employés) ?

21 / 35
Moyenne, médiane et mode
La médiane
La médiane est la valeur de Yi qui partage les observations
rangées par ordre croissant en deux groupes de même effectif.
Soit Y(1) ≤ Y(2) ≤ . . . ≤ Y(n) les observations rangées par
ordre croissant, si n est impair :
MED = Y((n−1)/2+1)
Si n est pair, on parle d’intervalle médian
IMED = [Y(n/2) , Y(n/2)+1 ]

Exemple : dans l’exemple du salaire déclaré la médiane vaut


2000 et l’intervalle médian sans (5) est [2000 ;2000].
La médiane est nettement plus robuste que la moyenne aux
valeurs extrêmes, mais elle ne se prête pas facilement aux
calculs algébriques.
22 / 35
Moyenne, médiane et mode
La médiane : Extension

Les quartiles : Q1, Q2=med, Q3 partagent l’échantillon


ordonné en 4 sous-groupes de même effectif :

25% de l’échantillon ≤ Q1 < 75% de l’échantillon

50% de l’échantillon ≤ Q2 = Med < 50% de l’échantillon

75% de l’échantillon ≤ Q3 < 25% de l’échantillon

23 / 35
Moyenne, médiane et mode
Le mode

Le mode est la valeur la plus fréquemment prise.

Exemple : dans l’exemple du salaire déclaré le mode vaut 2000


car c’est la seule valeur qui est prise plus d’une fois.

Remarques :
I Le mode peut ne pas être unique : si la série de salaires
comptait un individu supplémentaire avec un salaire de
1 000 €, alors il y aurait deux modes, 1 000 € et 2 000 €.
I Le mode a peu de sens quand le nombre de modalités est
faible.
I Le mode est peu sensible aux valeurs extrêmes.

24 / 35
Les variantes robustes de la moyenne arithmétique
De l’intérêt de variantes robustes de la moyenne

La moyenne est un indicateur particulièrement simple,


compréhensible et facile à calculer. Néanmoins il est très
sensible aux valeurs extrêmes.

La médiane et le mode sont bien moins sensibles aux valeurs


extrêmes mais plus complexes à manipuler (d’un point de vue
algébrique en particulier).

D’où l’idée de partir de la moyenne pour construire des


variantes robustes, qui en conservent les bonnes propriétés tout
en « protégeant » contre l’impact des valeurs trop extrêmes.

25 / 35
Les variantes robustes de la moyenne arithmétique
La moyenne tronquée
La moyenne tronquée (trimmed mean) d’ordre α est calculée
sur l’échantillon sans les (α/2) % plus grandes valeurs et les
(α/2) % plus petites valeurs de Y . La moyenne tronquée est
calculée après que les k observations les plus petites et les k
observations les plus grandes soient enlevées.

Soit Y(1) ≤ Y(2) ≤ ... ≤ Y(n) , les observations ordonnées


(statistique d’ordre).

1 n−k
Ȳ T =
X
Y(i)
n − 2k i=k+1

où k est tel que (α/2) % valeurs de Y ≤ Y(k) ,

Exemple : dans l’exemple du salaire déclaré, la moyenne


tronquée d’ordre α = 0, 20 vaut 2 333.
26 / 35
Les variantes robustes de la moyenne arithmétique
La moyenne winsorisée
La moyenne winsorisée (winsorized mean) d’ordre α est la
moyenne arithmétique calculée sur l’échantillon auquel les
(α/2) % plus grandes valeurs sont remplacées par la valeur de
celle juste en dessous et les (α/2) % plus petites par celle
juste au-dessus.
 
1 n−k−1
Ȳ W =  Y(i) + (k + 1)Y(k+1) + (k + 1)Y(n−k) 
X
n i=k+2

où les k plus petites observations sont remplacées par


l’observation Y(k+1) et les k plus grandes observations sont
remplacées par l’observation Y(n−k) .

Exemple : dans l’exemple du salaire déclaré, la moyenne


winsorisée d’ordre α = 0, 20 vaut 2 400.
27 / 35
Généralisations de la moyenne

Definition (φ−moyenne)
Soit φ une fonction monotone de R → R telle que φ0 (x ) 6= 0, φ00 (x ) 6= 0, ∀x , on appelle
φ−moyenne la quantité Mφ telle que

N
1 X
φ(Mφ ) = φ(Yi )
N
i=1

1
PN
I φ(x ) = ln(x ) : moyenne géométrique : ln(G) = ln(Yi ), soit
N i=1
G = (Y1 Y2 ...YN )1/N
h P i 1r
1 N
I φ(x ) = x r : moyenne d’ordre r : Mr = Yr
N i=1 i
h P i 12
1 N
1. r = 2 : moyenne quadratique : Q = N i=1
Yi2
h P i−1
1 N 1
2. r = −1 : moyenne harmonique : H = N i=1 Yi

28 / 35
Généralisations de la moyenne
Exemples
1. Considérons 1 individu effectuant N tours d’une piste de longueur d.
Soit Vi sa vitesse au tour i.
Sa vitesse moyenne sur l’ensemble des N tours est définie par :

PN N
1 ttotal i=1
d/Vi 1 X 1
= = =
V̂ H dtotal Nd N Vi
i=1

⇒ moyenne harmonique
2. Considérons le PIB d’un pays dont le niveau en début d’année est P et dont le
taux de croissance annuel est ri , i = 1, 2, ..., 10.
Le taux de croissance annuel moyen sur la décennie r̄ est donné par :

10
Y
(1 + r̄ )10 = (1 + ri )
i=1

⇒ moyenne géométrique

29 / 35
Statistiques univariées avec SAS
Construire de nouvelles variables
L’étape DATA permet de créer facilement de nouvelles variables.

Exemple : Construire un indicateur des émissions de CO2 par


habitant à partir des émissions de CO2 et du nombre
d’habitants.

DATA base1;
SET base1;
co2hab = co2 / pop;
RUN;

Les opérateurs classiques sont disponibles :


+ Addition * Multiplication ** Puissance
- Soustraction / Division
ainsi que de nombreuses fonctions (arrondis, etc.).
30 / 35
Statistiques univariées avec SAS
Représenter la distribution d’une variable quantitative avec la PROC
UNIVARIATE
L’instruction HISTOGRAM de la PROC UNIVARIATE permet de
représenter la distribution d’une variable quantitative :
PROC UNIVARIATE DATA = base1;
VAR var1;
HISTOGRAM / MIDPOINTS = 0 TO 100 BY 1 KERNEL
(C = 1);
RUN;

L’option KERNEL permet de rajouter au graphique la courbe de


densité empirique.

La forme de la densité empirique dépend largement de la


fenêtre sur laquelle porte la fonction K() : plus le paramètre C
est proche de zéro, plus les oscillations de la densité empirique
sont nombreuses.
31 / 35
Statistiques univariées avec SAS
Calculer la moyenne et la médiane avec la PROC UNIVARIATE
La PROC UNIVARIATE calcule également les statistiques de
tendance centrale d’une variable de nature quantitative :
PROC UNIVARIATE DATA = base1;
VAR var1;
WEIGHT pond; /*Avec un poids éventuel*/
RUN;
Les résultats sont très complets, seules quelques statistiques
sont des statistiques de tendance centrale.

Des options permettent d’obtenir des statistiques tronquées ou


windsorisées :
PROC UNIVARIATE DATA = base1 TRIMMED = 0.05
WINSORIZED = 0.05;
VAR var1;
RUN;
32 / 35
Statistiques univariées avec SAS
Restreindre un traitement à un sous-échantillon avec l’instruction
WHERE
Il est possible de restreindre un traitement à un
sous-échantillon avec l’instruction WHERE :
PROC UNIVARIATE DATA = base1;
VAR var1;
/*On exclut l’Europe des traitements*/
WHERE code_continent NE "EUR";
RUN;

Les opérateurs =, NE (non-égal), >=, >, <=, <, IN() (égal à un


au moins dans la liste) ainsi que AND, OR et NOT permettent
d’évaluer des conditions complexes.

Note : la variable code_continent étant de type caractère, le code


correspondant à « Europe » est entouré de guillemets "".

33 / 35
Statistiques univariées avec SAS
Recoder une variable dans une étape DATA
Comme les variables qualitatives, il est possible de recoder une
variable quantitative dans une étape DATA avec des clauses
IF THEN ELSE.
DATA base1;
SET base1;
LENGTH age3 $ 20;
IF age NE . AND age < 30 THEN age3 = "Moins de
30 ans";
ELSE IF age >= 30 AND age < 60 THEN age3 = "De
30 à 59 ans";
ELSE IF age >= 60 THEN age3 = "60 ans et plus";
ELSE age3 = "Age inconnu";
RUN;

Les opérateurs logiques sont les mêmes que ceux valides dans
une instruction WHERE.
34 / 35
Statistiques univariées avec SAS
Recoder une variable avec un format de type numérique

Il est également possible de recourir aux formats pour recoder


une variable quantitative.
PROC FORMAT;
VALUE age3c
low-<30 = "Moins de 30 ans"
30-<60 = "De 30 à 59 ans"
60-high = "60 ans et plus"
. = "Age inconnu"
;
RUN;

Note : Un format ne peut pas se terminer par un chiffre. Contrairement


aux noms de format de type caractère, les noms de formats de type
numérique ne commencent pas par « $ ».

35 / 35

Vous aimerez peut-être aussi