Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Éléments de Statistique Descriptive

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 19

Rappels de statistique descriptive

GBETEY Sidoïne B.
Ingénieur Statisticien-Economètre, ISMADE

Année 2019-2020
Le but de ce chapitre est de présenter les statistiques principales et les outils graphiques les plus
répandus de la statistique descriptive. On considérera les cas d’une série numérique
unidimensionnelle et bidimensionnelle.
Avant de rentrer dans le vif du sujet, apportons une petite précision à une idée très largement
répandue, selon laquelle le but de la discipline statistique est d’analyser des données issues
d’une expérience à caractère aléatoire. Cela sous-entend qu’il n’est pas possible ou qu’il n’est
pas utile d’appliquer la méthodologie statistique aux données recueillies par un procédé
déterministe (non aléatoire). Cette une déduction erronée. La bonne définition de l’objectif de
la Statistique en tant que discipline scientifique, à notre avis, serait d’explorer les « propriétés
fréquentielles » d’un jeu de données. Par « propriétés fréquentielles », on comprend les
propriétés qui restent invariantes par toute transformation des données (comme, par exemple,
la permutation) qui ne modifie pas la fréquence des résultats.

Section 1 : Statistiques d’une série numérique unidimensionnelle


On appelle une statistique toute fonction qui associe aux données x1, . . ., xn un vecteur S(x1, . .
. , xn) ∈ Rp. On utilise les statistiques pour résumer les données.

0- Répartition d’une série numérique unidimensionnelle

Supposons que les données qu’on a à notre disposition représentent n valeurs réelles – notées
x1, . . ., xn – constituant les résultats d’une certaine expérience répétée n fois. Des exemples de
source de telles données sont : les sondages, les expériences scientifiques (physiques,
chimiques, médicales, ...), les enregistrements historiques (météorologiques,
socioéconomiques, ...). Dans certains cas, ces données sont volumineuses et difficiles à
interpréter. On a alors besoin de les résumer et de trouver des outils pertinents pour les
visualiser.
Afin que l’analyse statistique d’une série numérique ait un sens, il faut que les différents
éléments de cette série représentent la même quantité mesurée sur des entités différentes. Par
exemple, x1, . . ., xn peuvent être les hauteurs de n immeubles choisis au hasard à Paris, ou les
températures journalières moyennes à Paris enregistrées au cours de l’année 2009, etc. On dit
alors que x1, . . ., xn sont les valeurs d’une variable (statistique) observées sur n individus.
On va différencier deux types de séries numériques : celles qui représentent une variable
discrète et celles qui représentent une variable continue 1. On dit qu’une variable est discrète,
si le nombre de valeurs différentes parmi x1, . . ., xn est petit devant n. Cette définition est loin
d’être rigoureuse, mais cela n’est en général pas très gênant. Dans les deux exemples donnés
au paragraphe précédent, les variables « hauteur d’immeuble » et « température journalière
moyenne » sont continues. Si au lieu de mesurer la hauteur d’un immeuble, on comptait le
nombre d’étages, ce serait une variable discrète.

1- Statistiques de tendance centrale


Les trois statistiques de tendance centrale les plus utilisées sont la moyenne, la médiane et le
mode. On les appelle également les statistiques de position.
La moyenne, notée x¯, est définie par :

1 . Le terme variable continue n’est pas très bien choisi, mais cela ne pose pas de problème majeur.
Ou

La médiane :

Le mode, noté Modex, est la valeur la plus fréquente à l’intérieur de l’ensemble des données.
Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques.

➢ Autres moyennes
2- Statistiques de dispersion
2-1- Variance, écart-type, l’écart interquartile et l’écart absolu moyen

Plus encore que la tendance centrale, la dispersion est la notion clé en statistique car si tous
les individus avaient la même valeur, il n’y aurait plus le raisonnement statistique.

La variance, notée vx, est la valeur moyenne des carrés des écarts entre les données et la
moyenne
L’écart-type, notée sx, est la racine carrée de la variance :
L’écart interquartile est la différence entre le troisième et le premier quartile : Q3 − Q1, où
le premier quartile Q1 (respectivement, le troisième quartile Q3) est la médiane des
données < Medx (resp. > Medx).

2-2 Statistiques d’ordre et quantiles

Etant donné une série de données unidimensionnelles x1, . . ., xn, on s’intéresse souvent à la plus
petite valeur mini xi ou à la plus grande valeur maxi xi prise par les xi. En statistique, on utilise
les notations

x(1) = min xi, x(n) = max xi,


1≤i≤n 1≤i≤n
et on les appelle première et dernière statistiques d’ordre. Plus généralement, on définit la
statistique d’ordre de rang k, notée x(k), comme la kème plus petite valeur parmi x1, . . ., xn. Plus
précisément, soit (i1, . . ., in) une permutation (il peut y en avoir plusieurs) des indices (1, . . .,
n) qui classe les données dans l’ordre croissant :

xi1 ≤ xi2 ≤ . . . ≤ xin.

On appelle alors statistique d’ordre k la valeur x(k) = xik.


Pour toute valeur α ∈ [0, 1], on appelle quantile d’ordre α, noté qαx, de la série x1, . . ., xn, la
statistique d’ordre x(m) avec m = [αn]. En utilisant la notion de quantile, on peut redéfinir les
quartiles et la médiane comme suit :

Q1 = q0.25x , Medx = q0.5x , Q3 = q0.75x .

En pratique, ces définitions de quartiles et médiane conduisent vers des résultats qui diffèrent
légèrement de ceux obtenus par la première définition, mais généralement la différence n’est
pas importante et décroît lorsque la taille n de la série augmente.

3- Représentation graphique : boite de distribution


3-1 Camemberts
3-2 Histogramme

Analogues à la courbe de densité d'une variable aléatoire, un histogramme est un graphique à


barres verticales accolées, obtenu après découpage en classes des observations d'une variable
continue. La surface de chaque barre, encore appelée tuyau d'orgue, doit être proportionnelle à
la fréquence de la classe. Pour des classes d'égale amplitude, la hauteur de chaque barre est
proportionnelle à la fréquence.

Remarques
Cohérence entre tendance centrale et dispersion

Statistiques de forme∗

Les deux statistiques de forme les plus utilisées sont le coefficient d’asymétrie et le coefficient
d’aplatissement. Le coefficient d’asymétrie (skewness), notée αx, et le coefficient
d’aplatissement (kurtosis), notée βx, sont définis par :

On peut facilement vérifier que le coefficient d’asymétrie de toute série numérique symétrique
est nul. (On dit qu’une série numérique est symétrique par rapport à un nombre réel mu, si pour
tout a > 0 la fréquence de la valeur µ + a dans la série est égale à celle de µ − a.
On peut également vérifier que le coefficient d’aplatissement tend vers zéro lorsque n → ∞ si
la série numérique représente des réalisations indépendantes de la loi gaussienne N(0, 1).

FIGURE Exemples de répartitions asymétriques : le coefficient d’asymétrie est positive pour


la distribution à gauche et négative pour celle de droite.

4- Caractéristiques de concentration

Propriétés mathématiques
Indice de concentration ou indice de Gini
Autre méthode de calcul de l’indice de Gini
5- QQ-Plot (diagramme quantile-quantile)
Section 2 : Statistique descriptive bivariée

Dans cette section on s’intéresse à la relation entre deux variables X et Y observées sur
un même échantillon de taille n. A chaque individu i, on peut associer un couple

1- Loi conjointe
2- Distribution marginale

3- Distribution conditionnelle
4- Statistique de Khi-deux

5- Cas particulier des couples de variables quantitatives (Covariance et


coefficient de corrélation linéaire, ajustement linéaire d’un nuage de points)
Ajustement linéaire d’un nuage de points
Références bibliographiques
1- Gilbert SAPORTA, Probabilités, Analyse des données Statistiques de Gilbert
SAPORTA, 2ème édition revisée et augmentée, Editions TECHNIP, 2006
2- Yadolah Dodge, Dictionnaire statistique encyclopédique, ,Edition Springer, 2007
3- Damien BATHOSSI, Support de cours de statistique descriptive en licence 1,
Mathématiques de la Décision, (ISMADE 2016-2017)
4- Arnak DALALYAN, Support de cours de statistique numérique et analyse de
données,(Ecole des ponts PARITECH, Septembre 2011)

Vous aimerez peut-être aussi