Éléments de Statistique Descriptive
Éléments de Statistique Descriptive
Éléments de Statistique Descriptive
GBETEY Sidoïne B.
Ingénieur Statisticien-Economètre, ISMADE
Année 2019-2020
Le but de ce chapitre est de présenter les statistiques principales et les outils graphiques les plus
répandus de la statistique descriptive. On considérera les cas d’une série numérique
unidimensionnelle et bidimensionnelle.
Avant de rentrer dans le vif du sujet, apportons une petite précision à une idée très largement
répandue, selon laquelle le but de la discipline statistique est d’analyser des données issues
d’une expérience à caractère aléatoire. Cela sous-entend qu’il n’est pas possible ou qu’il n’est
pas utile d’appliquer la méthodologie statistique aux données recueillies par un procédé
déterministe (non aléatoire). Cette une déduction erronée. La bonne définition de l’objectif de
la Statistique en tant que discipline scientifique, à notre avis, serait d’explorer les « propriétés
fréquentielles » d’un jeu de données. Par « propriétés fréquentielles », on comprend les
propriétés qui restent invariantes par toute transformation des données (comme, par exemple,
la permutation) qui ne modifie pas la fréquence des résultats.
Supposons que les données qu’on a à notre disposition représentent n valeurs réelles – notées
x1, . . ., xn – constituant les résultats d’une certaine expérience répétée n fois. Des exemples de
source de telles données sont : les sondages, les expériences scientifiques (physiques,
chimiques, médicales, ...), les enregistrements historiques (météorologiques,
socioéconomiques, ...). Dans certains cas, ces données sont volumineuses et difficiles à
interpréter. On a alors besoin de les résumer et de trouver des outils pertinents pour les
visualiser.
Afin que l’analyse statistique d’une série numérique ait un sens, il faut que les différents
éléments de cette série représentent la même quantité mesurée sur des entités différentes. Par
exemple, x1, . . ., xn peuvent être les hauteurs de n immeubles choisis au hasard à Paris, ou les
températures journalières moyennes à Paris enregistrées au cours de l’année 2009, etc. On dit
alors que x1, . . ., xn sont les valeurs d’une variable (statistique) observées sur n individus.
On va différencier deux types de séries numériques : celles qui représentent une variable
discrète et celles qui représentent une variable continue 1. On dit qu’une variable est discrète,
si le nombre de valeurs différentes parmi x1, . . ., xn est petit devant n. Cette définition est loin
d’être rigoureuse, mais cela n’est en général pas très gênant. Dans les deux exemples donnés
au paragraphe précédent, les variables « hauteur d’immeuble » et « température journalière
moyenne » sont continues. Si au lieu de mesurer la hauteur d’un immeuble, on comptait le
nombre d’étages, ce serait une variable discrète.
1 . Le terme variable continue n’est pas très bien choisi, mais cela ne pose pas de problème majeur.
Ou
La médiane :
Le mode, noté Modex, est la valeur la plus fréquente à l’intérieur de l’ensemble des données.
Contrairement à la moyenne, la médiane et le mode ne sont pas toujours uniques.
➢ Autres moyennes
2- Statistiques de dispersion
2-1- Variance, écart-type, l’écart interquartile et l’écart absolu moyen
Plus encore que la tendance centrale, la dispersion est la notion clé en statistique car si tous
les individus avaient la même valeur, il n’y aurait plus le raisonnement statistique.
La variance, notée vx, est la valeur moyenne des carrés des écarts entre les données et la
moyenne
L’écart-type, notée sx, est la racine carrée de la variance :
L’écart interquartile est la différence entre le troisième et le premier quartile : Q3 − Q1, où
le premier quartile Q1 (respectivement, le troisième quartile Q3) est la médiane des
données < Medx (resp. > Medx).
Etant donné une série de données unidimensionnelles x1, . . ., xn, on s’intéresse souvent à la plus
petite valeur mini xi ou à la plus grande valeur maxi xi prise par les xi. En statistique, on utilise
les notations
En pratique, ces définitions de quartiles et médiane conduisent vers des résultats qui diffèrent
légèrement de ceux obtenus par la première définition, mais généralement la différence n’est
pas importante et décroît lorsque la taille n de la série augmente.
Remarques
Cohérence entre tendance centrale et dispersion
Statistiques de forme∗
Les deux statistiques de forme les plus utilisées sont le coefficient d’asymétrie et le coefficient
d’aplatissement. Le coefficient d’asymétrie (skewness), notée αx, et le coefficient
d’aplatissement (kurtosis), notée βx, sont définis par :
On peut facilement vérifier que le coefficient d’asymétrie de toute série numérique symétrique
est nul. (On dit qu’une série numérique est symétrique par rapport à un nombre réel mu, si pour
tout a > 0 la fréquence de la valeur µ + a dans la série est égale à celle de µ − a.
On peut également vérifier que le coefficient d’aplatissement tend vers zéro lorsque n → ∞ si
la série numérique représente des réalisations indépendantes de la loi gaussienne N(0, 1).
4- Caractéristiques de concentration
Propriétés mathématiques
Indice de concentration ou indice de Gini
Autre méthode de calcul de l’indice de Gini
5- QQ-Plot (diagramme quantile-quantile)
Section 2 : Statistique descriptive bivariée
Dans cette section on s’intéresse à la relation entre deux variables X et Y observées sur
un même échantillon de taille n. A chaque individu i, on peut associer un couple
1- Loi conjointe
2- Distribution marginale
3- Distribution conditionnelle
4- Statistique de Khi-deux