Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Bac1 - Statistique Descriptive (2023-2024)

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 54

STATISTIQUE DESCRIPTIVE

Notes de cours

Licence 1 – Économie & Gestion

Bienvenu M. Selenge

Université de Kalemie • Décembre 2023


Ce document est un support pour les enseignements du cours de Statistique descriptive à la faculté
des sciences économiques et de gestion de l’Université de Kalemie. Il correspond aux enseignements de
la statistique en L1 Économie et Gestion (système LMD) et couvre les concepts de base en statistique,
la représentation graphique des données statistiques, les analyses des distributions à une dimension
et des distributions statistiques à deux dimensions.
Ce support n’est pas parti du zéro. Il s’appuie sur une documentation riche, des ouvrages reconnus
dans la discipline, mais aussi des ressources en ligne qui sont de plus en plus présents aujourd’hui
dans la diffusion de la connaissance. Une liste sélective des ouvrages consultés est présentée dans la
bibliographie.
Je remercie le Pr Pacifique Mongongo Dosa pour ses précieux conseils et recommandations. Je
reste toutefois le seul responsable des erreurs contenues dans ce document. Pour des commentaires
ou remarques, me contacter à l’adresse ci-dessous.

Bienvenu Mulunda Selenge


Département d’économie
Université de Kalemie
E-mail : bm.selenge@gmail.com

© 2023 B. M. Selenge
Typographié avec LATEX en Linux Libertine 12pt.
Table des matières

Introduction 4

1 Les notions fondamentales en statistique 6


1.1 La population et les unités statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Les caractères et les modalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3 Les variables qualitatives et les variables quantitatives . . . . . . . . . . . . . . . . 7
1.4 Série statistique et distribution statistique . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Série statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Distribution statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3 La fréquence cumulée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Les classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Les tableaux statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7 Les représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7.1 Représentation graphique des variables qualitatives . . . . . . . . . . . . . . 12
1.7.2 Représentation graphique des variables discrètes . . . . . . . . . . . . . . . 14
1.7.3 Représentation graphique des variables continues . . . . . . . . . . . . . . . 16
1.7.4 Autres graphiques usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.7.5 Pour aller plus loin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2 Les distributions à une dimension 21


2.1 Caractéristiques des tendances centrales . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 La moyenne arithmétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.1.3 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 Les caractéristiques de dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 L’étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.2 Les quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.3 Représentation graphique des quantiles : le box-plot . . . . . . . . . . . . . 30
2.2.4 La variance et l’écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3 La dissymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.1 Le coefficient de dissymétrie de Pearson . . . . . . . . . . . . . . . . . . . . 34
2.3.2 Le coefficient de Fischer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3 Les distributions à deux dimensions 37


3.1 Les tableaux de contingence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.1 Le test d’indépendance du khi-deux . . . . . . . . . . . . . . . . . . . . . . . 38
3.1.2 Le test de Cramer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
TABLE DES MATIÈRES 3

3.1.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 La covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 La corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.1 Types de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2 Le coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . 43
3.3.3 Dépendance et causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4 La régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.2 Analyses post-estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.3 Tests de signification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


Introduction

Quoi ? Pourquoi ?
La statistique est un ensemble de principes et de méthodes scientifiques pour recueillir, classer,
synthétiser et communiquer des données numériques en vue de leur utilisation pour en tirer des
conclusions et prendre des décisions. Il est d’usage de considérer deux approches de l’analyse
statistique : la description et la déduction ou l’inférence.
La statistique descriptive constitue la première étape de l’analyse des données. L’objectif poursuivi
est de trois ordres :
1. Obtenir un contrôle des données et éliminer les données aberrantes ;
2. Résumer les données sous formes de tableaux ou des graphiques ;
3. Étudier les particularités de ces données, ce qui permettra éventuellement de choisir les mé-
thodes les plus complexes.
Les méthodes descriptives ou exploratoires se classent en deux catégories qui souvent sont
complémentaires :
– la description numérique : valeurs centrales, paramètres de dispersion, paramètres de forme.
– la description graphique : description de la densité ou histogramme, diagrammes, fonction de
répartition, etc.

Pré-requis
L’étudiant doit avoir, au départ, des connaissances bien maitrisées en arithmétique et une culture
générale en économie. La maîtrise de l’algèbre est un atout.

Bibliographie
Anderson, David R. et al. (2015). Statistiques pour l’économie et la gestion. 5e éd. Paris : De Boeck
Supérieur.
Bailly, Pierre et Christine Carrère (2015). Statistiques descriptives : l’économie et les chiffres. Presses
universitaires de Grenoble.
Bluman, Allan G. (2018). Elementary statistics : a step by step approach. 10e éd. New York, NY :
McGraw-Hill Education.
Dodge, Yadolah (2006). Premiers pas en statistique. Paris : Springer-Verlag.
Haccoun, Robert et Denis Cousineau (2010). Statistiques : concepts et applications. 2e éd. Québec :
Presses de l’Université de Montréal.
Leboucher, Lucien et Marie-José Voisin (2011). Introduction à la statistique descriptive. Toulouse,
France : Cépaduès-Éditions.
Mazerolle, Fabrice (2006). Statistiques descriptives. Paris : Gualino.
TABLE DES MATIÈRES 5

McClave, James, George Benson et Terry Sincich (2018). Statistics for Business and Economics. 13e éd.
Harlow, UK : Pearson Education.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


Chapitre 1

Les notions fondamentales en statistique

1.1 La population et les unités statistiques


Dans le vocabulaire statistique, une population est un ensemble dont chaque élément est un
individu ou une unité statistique. Les termes de population et d’individus sont employés aussi
bien lorsqu’il s’agit d’un ensemble d’êtres humains, que d’un ensemble d’objets inanimés, et même
d’ensembles abstraits ou des événements.
Exemple 1.1. Considérons les exemples suivants :
1. Les étudiants de l’université de Kalemie forment une population. Chaque étudiant est un individu
ou une unité statistique.
2. Les étudiants de Bac 1 Économie forment une population. Chaque étudiant de Bac 1 est un individu.
3. Dans un champ de maïs, les plantes de maïs forment une population ; chaque plante est un individu.
4. La production minière pour une année donnée forme une population.
5. Le stock des marchandises à une date donnée.
6. Ensemble des jours d’une année.
7. La série du revenu national depuis vingt ans.
La population soumise à l’analyse statistique doit être définie avec précision afin que l’ensemble
considéré soit déterminé sans ambiguïté de sorte qu’un individu quelconque puisse y être affecté
sans incertitude.
Dans une population, un sous-groupe généralement quelconque forme un échantillon. Nous
désignerons par 𝑛 le nombre d’individus qui composent un échantillon et par 𝑁 le nombre d’individus
qui composent une population.
Exemple 1.2. Considérons les deux exemples :
1. On prélève 30 plantes de maïs dans un champ de maïs de 50 hectares.
– Population : toutes les plantes de maïs de ce champ.
– Échantillon : les 30 plantes de maïs qu’on a prélevées.
2. On interroge 50 étudiant.e.s de l’Université de Kalemie sur leurs intentions de vote en décembre 2023.
– Population : tous les étudiants et toutes les étudiantes de l’Université de Kalemie.
– Échantillon : les 50 étudiant.e.s qu’on a interrogés.

1.2 Les caractères et les modalités


Pour décrire une population, on classe les individus selon certains attributs que l’on appelle des
caractères ou des variables. Il est indispensable de ne retenir que les caractères les plus pertinents
1.3 Les variables qualitatives et les variables quantitatives 7

pour pouvoir décrire une population convenablement.


Exemple 1.3. Dans une étude portant sur les étudiants de l’Université de Kalemie, les caractères ou
variables peuvent être :
– le sexe ;
– l’âge ;
– l’état matrimonial ;
– la commune de résidence ;
– la faculté ;
– la promotion ;
– la taille du ménage ;
– la ration quotidienne du ménage ;
– le pourcentage obtenu à l’examen d’État ;
– etc.
Remarque. Avec le développement des logiciels statistiques, les variables seront désignées par une
chaine de caractères au choix (selon la spécificité du logiciel utilisé). On recommande généralement
de ne pas utiliser des espaces et des caractères unicodes dans les noms des variables. Par exemple,
une variable pour désigner la commune de résidence peut être désignée par comres ou commune,
mais surtout pas « commune de résidence » (avec des espaces, et des accents !)

Les modalités d’un caractère statistique sont les différentes situations, particularités ou valeurs
possibles de ce caractère. Les modalités doivent être à la fois exclusives et exhaustives, ce qui
signifie qu’un individu doit présenter une seule modalité et une seule de la variable, et toutes les
modalités doivent englober les différentes particularités ou valeur susceptibles d’être observées dans
la population. Modalité : valeur que le caractère peut prendre.
Exemple 1.4. Les modalités du caractère « sexe » sont : masculin et féminin ; les modalités du caractère
« état matrimonial » sont : célibataire, marié, divorcé, veuf. Les modalités du caractère « âge » sont les
différents âges possibles que les enquêtés vont donner, par exemple, 15, 16, . . ., 80, etc.
Question de réflexion : quelles sont les modalités du caractère « dépense alimentaire journalière » ?

1.3 Les variables qualitatives et les variables quantitatives


Un caractère peut être :
– Qualitatif : lors qu’il ne s’exprime pas par un nombre.
Exemple : le sexe, l’état matrimonial, la nationalité, la province d’origine, la couleur, la profes-
sion, le sport préféré, etc.
– Quantitatif : lors qu’il s’exprime par un nombre, ou lorsqu’il est mesurable.
Exemple : la taille, la durée du chômage, la consommation journalière, la taille du ménage, etc.
Dans les deux cas, on parlera souvent de variable qualitative et de variable quantitative.
Une variable qualitative n’ayant que deux modalités est dite variable dichotomique ou variable
indicatrice. C’est le cas de la variable représentant le sexe (masculin ou féminin) ou de toute variable
binaire, représentant une situation à laquelle on a que deux choix, comme par exemple vrai ou faux,
oui ou non, succès ou échec.
Lorsque les modalités d’une variable qualitative peuvent être ordonnées dans un ordre spécifique
ou naturellement quelconque, c’est-à-dire avoir une importance croissante dans un ordre déterminé,
comme par exemple l’intensité d’une douleur (absente, faible, modérée, forte, extrêmement forte) ou le
niveau de scolarité (sans éducation, primaire, secondaire, universitaire), la variable est dite ordinale.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.4 Série statistique et distribution statistique 8

Lorsque les modalités d’une variable qualitative ne peuvent pas être ordonnées objectivement (état
civil, profession, province d’origine,...), la variable est dite nominale ou catégorielle.
Une variable quantitative peut être :
– Discrète : si elle ne prend que des valeurs isolées, souvent entières. Par exemple, les variables
représentant le nombre d’enfant dans une famille, le nombre des chambre dans une maison, le
nombre des classes dans une école, le nombre d’étudiants dans une promotion, etc.
– Continue : si elle prend sa valeur sur un intervalle ; souvent sa valeur exprime le résultat d’une
mesure, d’une évaluation par un nombre plus approché. Par exemple, la variable représentant
la taille d’un individu, la température, le poids, etc.
Remarque. Parfois, un code numérique ou des labels non numériques peuvent être utilisés pour
représenter les différentes modalités d’une variable qualitative. Par exemple, pour la variable sexe,
1 pour représenter le sexe masculin et 2 pour le sexe féminin. Dans ce cas la variable est toujours
qualitative même si les données apparaissent sous forme de valeurs numériques.

1.4 Série statistique et distribution statistique


1.4.1 Série statistique
Une série statistique est une suite des valeurs numériques prises par 𝑛 individus de la population,
ces valeurs étant relatives à une ou plusieurs variables.
Une série statistique simple est la suite des 𝑛 valeurs observées sur 𝑛 individus se rapportant à une
seule variable, chaque valeur étant la mesure de cette variable prise par un seul de ces 𝑛 individus. Si
on symbolise par 𝑋 la variable considérée, la série statistique relative à cette variable pour 𝑛 individus
sera représentée par : 𝑥 1 , 𝑥 2 , . . ., 𝑥𝑖 , . . ., 𝑥𝑛 (𝑥𝑖 est la valeur de 𝑋 pour le 𝑖-ème individu).
Plusieurs techniques sont employées pour « pointer » les données d’une série statistique suivant
le classement ou les modalités. La plus employée est le système de quatre bâtonnets barrés par le
cinquième.

Exemple 1.5. La note obtenue par 20 étudiants à l’interrogation de statistique :

2 7 7 9 4
5 6 6 7 2
0 3 5 4 3
8 8 9 1 0
Supposons que le tableau ci-dessus a été rempli horizontalement, on a par exemple : 𝑥 1 = 1, 𝑥 2 = 7,
etc.

Une série statistique double est l’ensemble des 𝑛 couples des valeurs pour deux variables, chaque
couple de valeurs représentant les valeurs prises par ces deux variables respectivement sur une unité
statistique. Exemple : pour les variables 𝑋 et 𝑌 la série double relative à ces deux variables se présente
comme suit : (𝑥 1 , 𝑦1 ), (𝑥 2 , 𝑦2 ),. . ., (𝑥𝑛 , 𝑦𝑛 ).

Exemple 1.6. La taille et la consommation journalière des ménages de la commune de Kalemie :

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.4 Série statistique et distribution statistique 9

Ménage 𝑛 o 1 2 3 4 5 ···
Taille 2 11 3 3 2 ···
Consommation 3000 5000 10000 6000 7500 ···

1.4.2 Distribution statistique


Une distribution statistique est un ensemble des couples (𝑥𝑖 , 𝑛𝑖 ) où 𝑥𝑖 est une modalité de la
variable 𝑋 et 𝑛𝑖 le nombre de fois que cette modalité est observée dans la population ou l’échantillon.
On appelle 𝑛𝑖 l’effectif ou la fréquence absolue.
À la place de l’effectif 𝑛𝑖 on peut mettre
𝑛𝑖
𝑓𝑖 = (1.1)
𝑛
avec 𝑛, l’effectif total des observations (ou la taille de l’échantillon). On appelle 𝑓𝑖 la proportion ou
la fréquence relative.
L’effectif total est donné par :
𝑘
∑︁
𝑛= 𝑛𝑖 = 𝑛 1 + 𝑛 2 + · · · + 𝑛𝑘 (1.2)
𝑖=1
avec 𝑘 le nombre de modalités de la variable. (On lit : somme des effectifs 𝑛𝑖 , 𝑖 allant de 1 à 𝑘.)
Généralement une distribution statistique se présente sous forme d’un tableau statistique où
l’on place dans une colonne les modalités de la variable et dans l’autre en face de chaque modalité
l’effectif ou la fréquence de la modalité. Ce tableau est parfois appelé tableau des fréquences. (Voir
la section 1.6 page 11 consacrée aux tableaux statistiques.)
La distribution statistique est aussi représentée par l’ensemble des couples (𝑥𝑖 , 𝑓𝑖 ).
Bien souvent, la fréquence relative s’exprime en pourcentage pour rendre les données plus lisibles :

𝑝𝑖 = 𝑓𝑖 × 100 % (1.3)
La fréquence relative d’une modalité varie entre 0 et 1. Par ailleurs, la somme de fréquences
relatives de toutes les modalités d’une variable est égale à 1, c’est-à-dire
𝑘
∑︁
0 ⩽ 𝑓𝑖 ⩽ 1 et 𝑓𝑖 = 1.
𝑖=1

Lorsque les fréquences relatives sont en pourcentage, la somme donne 100 %.


Remarque. La somme des fréquences peut être différente (mais très proche) de 1 ou de 100% lorsque
nous commettons des erreurs de mesure, par exemple en arrondissant à un centième près. Ces types
d’erreurs sont généralement tolérées, mais le chercheur doit tout faire pour les minimiser.

1.4.3 La fréquence cumulée


On appelle fréquence cumulée, la somme des fréquences des modalités ou des classes dans l’ordre
croissant ou décroissant. Lorsque les valeurs du caractère sont ordonnées dans l’ordre croissant, on
obtient les fréquences cumulées croissantes.
Remarque. Les effectifs cumulés et les fréquences cumulées n’ont pas souvent de sens dans le cas
d’une série statistique à caractère qualitatif. Il conviendra d’être sûr de leur signification avant de les
calculer.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.5 Les classes 10

1.5 Les classes


Une variable quantitative (discrète ou continue) peut prendre un grand nombre de modalités.
Pour simplifier la présentation des données, il est nécessaire de les grouper en classes. Une classe est
définie par son intervalle et son effectif 𝑛𝑖 .
Les classes se présentent sous la forme [𝑒𝑖 ; 𝑒𝑖+1 [. L’intervalle est fermé à gauche et ouvert à droite.
Le choix des classes est subjectif. Le choix du nombre des classes est guidé par le bon
sens et par la pratique. Il dépend des objectifs du groupement. Il n’y a pas de règle absolue
pour le choix du nombre de classes.
Ainsi, les données peuvent être groupées en 𝑘 classes pris au choix.
Pour des raisons de commodité, nous donnons ci-après quelques recommandations qui peuvent
être suivies pour constituer les classes.
1. En général, le nombre de classes 𝑘 est compris entre 5 et 20. Il dépend du nombre 𝑛 d’observations
et de l’étalement des données. La formule de Sturges donne une valeur approximative du nombre
𝑘 de classes :
10
𝑘 ≃1+ log 𝑛 (1.4)
3
Une formule alternative est la règle de Yule :

𝑘 ≃ 2,5 4 𝑛 (1.5)

2. La quantité 𝑒𝑖+1 − 𝑒𝑖 est appelée amplitude de classe. Elle est notée 𝑎𝑖 . Les classes peuvent avoir
une amplitide variable ou constante. Si les classes sont d’égale amplitude, celle-ci se définit
simplement par
𝐸𝑉
𝑎𝑖 = (1.6)
𝑘
avec 𝑘 le nombre de classes et 𝐸𝑉 , l’étendue de variation de la série d’observations :

𝐸𝑉 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 (1.7)


On veillera à ce que l’amplitude de classe ait une valeur aisée à utiliser.
3. La moyenne des extrémités d’une classe est appelée centre de la classe et notée 𝑥𝑖 (comme les
valeurs de la variable lorsqu’elle est discrète). En d’autres termes, c’est la valeur qui représente
le milieu de chaque intervalle de classe.
𝑒𝑖 + 𝑒𝑖+1
𝑥𝑖 = . (1.8)
2
4. La limite inférieure de la première classe est
𝑎
𝑙𝑖𝑛𝑓 = 𝑥𝑚𝑖𝑛 −
2
La limite supérieure :
𝑙𝑠𝑢𝑝 = 𝑙𝑖𝑛𝑓 + 𝑎𝑘
.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.6 Les tableaux statistiques 11

1.6 Les tableaux statistiques


Sauf cas exceptionnels, les données statistiques sont présentées sous forme de tableau. D’une
part, cela permet d’appréhender l’information qui est synthétisée et d’autre part cela facilite ou rend
possible les calculs. Ils constituent le moyen le plus sûr de pouvoir répondre aux questions posées de
par leur systématisme.
Il convient de savoir tracer le tableau approprié selon que la variable est qualitative (Tableau 1.1),
quantitative discrète (Tableau 1.2) ou quantitative continue (Tableau 1.3).
Tableau 1.1 – Tableau statistique pour une variable qualitative.

Modalités Effectifs Fréquences Pourcentages Fréquences cumulées


(𝑛𝑖 ) (𝑓𝑖 ) (𝑝𝑖 ) (𝐹𝑖 )
Catégorie 1 𝑛1 𝑓1 𝑝1 𝐹1
Catégorie 2 𝑛2 𝑓2 𝑝2 𝐹2
.. .. .. .. ..
. . . . .
𝑛𝑘
Catégorie 𝑘 𝑛𝑘 𝑓𝑘 = 𝑝𝑘 = 𝑓𝑘 · 100 𝐹𝑘 = 1
𝑛
𝑘
∑︁ 𝑘
∑︁ 𝑘
∑︁
𝑛= 𝑛𝑖 𝑓𝑖 = 1 𝑝𝑖 = 100%
𝑖=1 𝑖=1 𝑖=1

Tableau 1.2 – Tableau statistique pour une variable quantitative discrète.

Valeurs Effectifs Fréquences Pourcentages Fréquences cumulées


(𝑥𝑖 ) (𝑛𝑖 ) (𝑓𝑖 ) (𝑝𝑖 ) (𝐹𝑖 )
𝑥1 𝑛1 𝑓1 𝑝1 𝐹1
𝑥2 𝑛2 𝑓2 𝑝2 𝐹2
.. .. .. .. ..
. . . . .
𝑛𝑘
𝑥𝑘 𝑛𝑘 𝑓𝑘 = 𝑝𝑘 = 𝑓𝑘 · 100 𝐹𝑘 = 1
𝑛
𝑘
∑︁ 𝑘
∑︁ 𝑘
∑︁
𝑛= 𝑛𝑖 𝑓𝑖 = 1 𝑝𝑖 = 100%
𝑖=1 𝑖=1 𝑖=1

Tableau 1.3 – Tableau statistique pour une variable quantitative continue (données groupées en classes).

Classes Centres des cl. Effectifs Fréquences Pourcentages Fréq. cumulées


(𝑥𝑖 ) (𝑛𝑖 ) (𝑓𝑖 ) (𝑝𝑖 ) (𝐹𝑖 )
[𝑒𝑖 ; 𝑒𝑖+1 [ 𝑥1 𝑛1 𝑓1 𝑝1 𝐹1
[𝑒𝑖+1 ; 𝑒𝑖+2 [ 𝑥2 𝑛2 𝑓2 𝑝2 𝐹2
.. .. .. .. ..
. . . . .
𝑛𝑘
[𝑒𝑘−1 ; 𝑒𝑘 [ 𝑥𝑘 𝑛𝑘 𝑓𝑘 = 𝑝𝑘 = 𝑓𝑘 · 100 𝐹𝑘 = 1
𝑛
𝑘
∑︁ 𝑘
∑︁ 𝑘
∑︁
𝑛= 𝑛𝑖 𝑓𝑖 = 1 𝑝𝑖 = 100 %
𝑖=1 𝑖=1 𝑖=1

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.7 Les représentations graphiques 12

Exemple 1.7. Le Tableau 1.4 est le tableau statistique correspondant aux données de l’exemple 1.5.
On a :
∑︁𝑘 11
∑︁
𝑛= 𝑛𝑖 = 𝑛𝑖 = 𝑛 1 + 𝑛 2 + · · · + 𝑛 11 = 2 + 1 + 2 + 2 + . . . = 20
𝑖=1 𝑖=1
On a aussi, par exemple,
𝑛1 2 𝑛2 1
𝑓1 = = = 0,10 𝑓2 = = = 0,05 𝑓3 = . . .
𝑛 20 𝑛 20

Tableau 1.4

Modalité Effectifs Fréquence relative Fréquence cumulée


0 2 0,10 0,10
1 1 0,05 0,15
2 2 0,10 0,25
3 2 0,10 0,35
4 2 0,10 0,45
5 2 0,10 0,55
6 2 0,10 0,65
7 3 0,15 0,80
8 2 0,10 0,90
9 2 0,10 1,00
10 0 0 1,00
Total 20 1 -

1.7 Les représentations graphiques


Les graphiques ou graphes sont des représentations imagées, illustrées des données inscrites dans
les tableaux statistiques. Ils sont plus parlants et présentent, d’un seul coup d’œil, l’ensemble de la
situation. Ils attirent davantage l’attention et facilitent la compréhension.
Il existe différents types de graphiques dont certains sont beaucoup plus appropriés à certains
types de caractères : caractère qualitatif, variable statistique discrète ou variable statistique continue.

1.7.1 Représentation graphique des variables qualitatives


1.7.1.1 Le diagramme circulaire
On trace un cercle. La surface de ce cercle représente les 100% des observations, c’est-à-dire la
totalité des valeurs des fréquences de modalités. On divise le cercle en secteurs proportionnels aux
différentes valeurs exprimées en pourcentage des modalités considérées. Pour cela, on emploie la
règle de trois simples ; on a donc la formule :
𝑝𝑖 × 360°
Angle au centre en degrés =
100%
Exemple 1.8. On s’intéresse aux études humanitaires effectuées par les étudiants de G1 Agronomie.
On trouve les résultats suivants : 54 ont fait la commerciale, 32 la scientifique, 45 le latin-philo et 19

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.7 Les représentations graphiques 13

diverses autres options (bois, électricité, pédagogie, sociale, etc.) Construire le diagramme circulaire de
cette distribution.
Solution
D’abord nous calculons le tableau des fréquences ci-après.

Modalités Effectifs Fréquence Pourcentage Aire


Commerciale 54 0,36 36 129,6°
Scientifique 32 0,21 21 76,8°
Littéraire 45 0,30 30 108°
Autres 19 0,13 13 45,6°
Total 150 1 100% 360°

Le graphique 1.1 est le diagramme circulaire représentant ces données.

Figure 1.1 – Diagramme circulaire

1.7.1.2 Diagramme en bâtons


Pour le construire, on trace deux axes perpendiculaires, l’axe horizontal appelé axe des abscisses
ou axe des 𝑥 et l’axe vertical appelé axe des ordonnées ou axe des 𝑦.
Le long de l’axe des abscisses on place des points régulièrement espacés. Sous ces points, on
indique les différentes valeurs ou modalités du caractère étudié. Sur l’axe des ordonnées on porte
une échelle correspondant aux effectifs (ou aux fréquences relatives ou encore aux pourcentages) des
valeurs ou des modalités du caractère.
À partir des points marqués sur l’axe des abscisses on trace des segments de droite ou bâtons
dont la longueur est proportionnelle aux effectifs des valeurs correspondantes.

Exemple 1.9. Pour chacun de deux exemples ci-dessous, tracer le graphique représentant ces données.
1. On interroge 11 personnes sur leurs préférences concernant les 4 produits A, B, C, D. Chaque
personne doit choisir seulement un produit. On obtient les résultats suivants :

𝐴 𝐶 𝐵 𝐴
𝐵 𝐴 𝐴 𝐵
𝐷 𝐵 𝐴

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.7 Les représentations graphiques 14

2. On demande à 11 couples le nombre d’enfants qu’ils désireraient avoir après le mariage. On obtient
les résultats suivants :

1 2 1 2
2 1 2 1
1 3 4.

Solution
Nous construisons les tableaux de fréquence pour pouvoir tracer aisément les graphiques demandés :

Produit Effectifs Nb. enfants Effectifs


A 5 1 5
B 4 2 4
C 1 3 1
D 1 4 1

Figure 1.2 – Diagramme en bâtons

(a) Variable qualitative (b) Variable discrète

1.7.1.3 Diagramme en barres


Le diagramme en barres repose sur le même principe que le diagramme en bâtons, sauf qu’au
lieu de bâtons, on a des barres rectangulaires de base identique et identiquement espacées les unes
des autres. La taille de la base, ainsi que celle de l’espacement n’ont pas de signification particulière
et tiennent seulement à l’esthétique du graphique. L’espacement n’est pas obligatoire.
Le diagramme en barres est souvent présenté de façon horizontale.
Reprenons l’exemple 1.9, on peut avoir les graphiques ci-après :

1.7.2 Représentation graphique des variables discrètes


Nous avons déjà vu ci-haut que les variables discrètes peuvent être représentées par le diagramme
en bâtons. Voir graphique 1.2b. Ce graphique différentiel représente mieux la fréquence absolue (les
effectifs) ou la fréquence relative. Pour représenter la fréquence cumulée (fonction de répartition
ou fonction de distribution) d’une variable discrète, on doit recourir au graphique intégral. Le plus
approprié est le graphique en escaliers.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.7 Les représentations graphiques 15

Figure 1.3 – Diagrammes en barres

(a) Diagramme en barres verticales (b) Diagramme en barres horizontales

Exemple 1.10. Représentez graphiquement la répartition des familles selon le nombre d’enfants par un
graphique différentiel et par un graphique cumulatif.

Nombre d’enfants 0 1 2 3 4 et +
Nombre de familles 7000 3600 3300 1300 500

Solution
Pour répondre à la question, il est nécessaire de construire le tableau statistique.

Nombre d’enfants Effectifs Fréquences Fréquences cum.


(𝑥𝑖 ) (𝑛𝑖 ) (𝑓𝑖 ) (𝐹𝑖 )
0 7000 0,446 0,446
1 3600 0,229 0,675
2 3300 0,210 0,885
3 1300 0,083 0,965
4,5 500 0,032 1
Total 15 700 1

Nous construisons ensuite les graphiques 1.4a et 1.4b.


Figure 1.4 – Familles selon le nombre d’enfants

(a) Fréquence relative : le diagramme en bâtons. (b) Fréquence cumulée : la courbe en escaliers

Remarque. La représentation 1.4a indique clairement le caractère discret de la variable, le décalage


de l’origine des abscisses est indispensable sinon le premier segment serait confondu avec l’axe des
ordonnées.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.7 Les représentations graphiques 16

1.7.3 Représentation graphique des variables continues


1.7.3.1 Histogramme
L’histogramme est un diagramme à barres dont les rectangles sont contiguës (c’est-à-dire qui se
touchent). L’histogramme est utilisé lorsque la variable est quantitative continue et ses modalités
regroupées en classes. À chaque classe, on associe un rectangle dont la base est délimitée par les
extrémités de la classe et dont la hauteur est proportionnelle à l’effectif 𝑛𝑖 de la classe.

Exemple 1.11. Les données suivantes se rapportent à la durée d’incubation (en jours) d’une maladie
chez 200 enfants. Construire le graphique représentant ces données.

Durée d’incubation Effectifs


0-5 2
5-10 7
10-15 19
15-20 49
20-25 48
25-30 49
30-35 18
35-40 6
40-45 2

Solution
Voici deux versions d’histogramme (figure 1.5).

Figure 1.5 – Histogrammes

Remarque. Si les classes n’ont pas la même amplitude, la hauteur des rectangles est trouvée par la
formule :
𝑓𝑖
ℎ𝑖 =
𝑎𝑖

1.7.3.2 Polygone de fréquences


Le polygone des fréquences donne une vision plus réaliste de la distribution en éliminant les
ruptures entre les classes. Il permet également de percevoir la dissymétrie de la distribution. La
courbe cumulative des effectifs ou des fréquences (polygone des fréquences cumulées) représente
graphiquement la fonction cumulative ou fonction de répartition définie par 𝐹 (𝑥𝑖 ) = 𝐹𝑖 . La courbe

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.7 Les représentations graphiques 17

cumulative des effectifs (ou des fréquences) s’obtient en joignant les points d’abscisse : la borne
supérieure de la classe, et d’ordonnée : l’effectif cumulé croissant correspondant.
Voici la courbe de fréquences cumulées (Figure 1.6) relativement à l’exemple 1.11.

Figure 1.6 – Courbe de fréquences cumulées

1.7.4 Autres graphiques usuels


1.7.4.1 Le nuage des points
Le nuage de points est une représentation graphique de données généralement nombreuses,
éventuellement interprétable par l’identification de relations. Il permet de voir l’évolution ou la
relation entre deux variables.
La figure 1.7 est un nuage des points qui représente la relation entre le nombre d’heures d’étude
et la moyenne obtenue à une interrogation cotée sur 20 pour un échantillon de 15 étudiants.

Figure 1.7 – Nuage des points

1.7.4.2 Le radar
Parmi les différents types de représentation nous devons évoquer le diagramme polaire (aussi
appelé radar ou toile) qui permet de visualiser un phénomène sur plusieurs axes. Dans un graphique
à coordonnées cartésiennes, un point 𝑀 est repéré par ses coordonnées (𝑥 et 𝑦) ; dans un graphique
→−
polaire, il l’est par l’angle 𝜃 (angle polaire) et la mesure algébrique 𝜌 du vecteur 𝑂 𝑀.
Un exemple de ce type de graphique est connu sous le nom de carré magique de Nicolas Kaldor
(Économiste britannique) résume la situation économique conjoncturelle d’un pays en retenant
quatre objectifs de politique économique :

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.7 Les représentations graphiques 18

– la croissance économique : évaluée par le taux de croissance du PIB ;


– la situation de l’emploi : mesurée par le taux de chômage en pourcentage de la population
active ;
– la stabilité des prix : mesurée par le taux d’inflation en pourcentage ;
– l’équilibre des comptes extérieurs : mesuré par le solde de la balance des paiements en pour-
centage du PIB.
La situation conjoncturelle idéale est représentée par un carré.

Exemple 1.12. Voici un exemple (les données sont fictives) pour trois pays : la République démocratique
du Congo, la Tanzanie et la Zambie.

RDC Tanzanie Zambie


Croissance du PIB 3,1 8 5
Taux d’inflation 6,8 1 3
Taux de chômage 12 3 5
Solde extérieur -5,2 7,3 12

Figure 1.8 – Le carré magique de Nicolas Kaldor

1.7.4.3 Les cartogrammes


Eux aussi clairs et lisibles, les cartogrammes représentent les valeurs ou variations d’une grandeur
sur un territoire géographique en assignant à chaque zone – région – ses caractéristiques. Pour cela,
on utilise des fonds de cartes pour représenter les variables. Il existe deux grandes catégories de
cartogrammes. Dans la première catégorie, les surfaces de chaque unité géographique sont par une
gamme de hachures ou de couleurs propres à chaque classe du phénomène hachurées ou coloriées.
L’impression retirée par le lecteur dépend à la fois de l’intensité des hachures ou des couleurs et
de l’aire concernée. Dans la seconde catégorie, les phénomènes sont représentés par des surfaces
proportionnelles centrées sur les unités géographiques et proportionnelles aux effectifs étudiés.

Exemple 1.13. Nous donnons ci-dessous (fig. 1.9) deux cartogrammes, le premier représente le nombre
d’ONG par zone de santé dans la province du Tanganyika en septembre 2020 et le deuxième représente le
nombre de violations des droits de l’homme dans les provinces affectées par les conflits en RDC en 2020.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.8 Exercices 19

Figure 1.9 – Les cartogrammes

(a) Organisations opérationnelles au Tanganyika par zone de santé. (b) Violations des droits humains en RDC en 2020

1.7.5 Pour aller plus loin


Il existe plusieurs autres types de visualisations : graphique en aires, boîte à moustaches, graphique
à bulles, diagramme en cascade, graphique en entonnoir, corrélogramme, graphique en forêt, etc.
Chacun.e est invité.e à effectuer des recherches pour les découvrir.

Le développement des logiciels (Microsoft Word, Microsoft Excel, Stata, R, SPSS, etc.) a simplifié
grandement la tracée et la conception des graphiques. Les graphiques de ce chapitre ont été tracées
en partie avec Excel. Chaque étudiant.e est invité.e également à effectuer des recherches personnelles
pour exploiter au maximum les possibilités qu’offrent les logiciels statistiques.

Il est aussi très nécessaire de savoir interpréter les graphiques.

1.8 Exercices
1. On veut savoir la couleur préférée des étudiants de Bac 1 Économie & Gestion. Pour ce faire, on
demande la couleur préférée à 25 étudiants de cet auditoire. On obtient les réponses suivantes :
vert, jaune, rose, bleu, bleu, vert, bleu, jaune, vert, bleu, rouge, vert, rose, rose, rose,
bleu, blanc, noir, rose, rose, jaune, vert, rose, blanc, rouge.
a) Quel est le caractère étudié ?
b) Quelles sont les modalités ?
c) Le caractère est-il qualitatif ou quantitatif ?
d) Identifiez la population étudiée.
e) Identifiez l’échantillon.
f) Effectuez le pointage et construire le tableau statistique.
g) Représentez ces données graphiquement.
2. On a questionné 100 ménages de la commune du Lac (ville de Kalemie) sur le nombre d’ampoules
électriques utilisées dans leur domicile. On obtient les réponses suivantes :

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


1.8 Exercices 20

2 11 8 3 4 8 7 10 11 8 7 4 15 13 6 11 8 10 9 14
9 5 8 12 8 2 10 4 8 6 15 8 2 14 4 14 9 11 8 4
14 5 2 9 10 7 8 14 7 4 12 2 10 11 4 2 5 14 7 4
9 9 6 2 5 9 10 8 7 12 6 4 13 3 3 12 7 8 15 7
9 7 10 12 13 3 8 12 15 15 4 11 5 6 12 9 5 7 5 2

a) Quel est le caractère étudié ? Quelles sont ses modalités ?


b) Les valeurs sont-elles discrètes ou continues ?
c) Identifiez la population et l’échantillon.
d) Présentez ces données dans un tableau statistique :
– en les regroupant par valeurs.
– en les regroupant par classes.
e) Représentez ces données graphiquement (groupement par valeurs et groupement par
classes).
3. Le tableau suivant représente la répartition de 15 élèves selon leurs conduite dans la classe
terminale au secondaire :
Í
Conduite Me AB B TB
Effectif 8 4 2 1 15
a) Déterminer la population, l’individu, l’ensemble des modalités, le caractère et sa nature.
b) Remplir le tableau statistique par les fréquences et les pourcentages.
c) Représenter par le diagramme qui convient la distribution des fréquences.
4. Dans une classe de 24 enfants, on enregistre les caractères suivants : la nationalité, l’âge en
année, la taille en cm, la couleur des yeux, l’obéissance (appréciée sur l’échelle : absolue, très
grande, assez grande, normale, faible, nulle), le nombre de dents (réparti en 7 catégories : 10 et
moins, entre 11 et 14, 15 ou 16, 17, 18 ou 19, entre 20 et 23, 24 et plus).
Indiquer pour chacun de ces caractères les représentations graphiques qui conviennent.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


Chapitre 2

Les distributions à une dimension

Les exemples de séries statistiques rencontrées dans les chapitres précédents montrent qu’en
général les données d’une série statistique accusent une certaine accumulation des effectifs autour
d’une variable particulière. Il est donc intéressant de spécifier la valeur remarquable autour de laquelle
se produit cette tendance à l’accumulation.

2.1 Caractéristiques des tendances centrales


Une distribution statistique peut être synthétisée par un seul nombre, par une valeur particulière,
dite centrale. L’appellation tendance centrale vient du fait que ce nombre donne une idée de ce qui se
passe au centre d’une distribution, d’un ensemble de données.
Le calcul des caractéristiques de tendance centrale est facilité par la construction de tableaux
statistiques.
Les trois mesures de tendance centrale les plus usuelles sont : la moyenne arithmétique, la médiane
et le mode.

2.1.1 La moyenne arithmétique


La moyenne arithmétique d’une série est égale à la somme de tous les résultats individuels de la
série, divisée par le nombre d’individus de la série. Elle est conventionnellement symbolisée par 𝑥
lorsqu’elle est calculée sur les données d’un échantillon et 𝜇 lorsqu’elle se rapporte à une population.
La moyenne arithmétique de l’échantillon 𝑥 est un estimateur ponctuel de la moyenne 𝜇 de la
population.

2.1.1.1 Calcul de la moyenne arithmétique


1. Données brutes : lorsqu’on a une série de données 𝑥 1 , 𝑥 2 , . . ., 𝑥𝑛 , la moyenne arithmétique est
calculée à l’aide de la formule :
𝑛
1 ∑︁
𝑥= 𝑥𝑖 (2.1)
𝑛 𝑖=1
avec 𝑥𝑖 valeur observée, 𝑛 taille de l’échantillon.
2. Variable discrète : la moyenne arithmétique est la somme, pondérée par les fréquences, des
valeurs. Ainsi calculée, cette moyenne est parfois appelée moyenne pondérée.
2.1 Caractéristiques des tendances centrales 22

𝑘 𝑘
1 ∑︁ ∑︁
𝑥= 𝑥 𝑖 𝑛𝑖 ou 𝑥 = 𝑥𝑖 𝑓𝑖 (2.2)
𝑛 𝑖=1 𝑖=1
avec 𝑘 le nombre de modalités, 𝑛𝑖 la fréquence absolue (effectif), 𝑓𝑖 la fréquence relative.
3. Données groupées en classes :
𝑘 𝑘
1 ∑︁ ∑︁
𝑥= 𝑥 𝑖 𝑛𝑖 ou 𝑥 = 𝑥𝑖 𝑓𝑖 (2.3)
𝑛 𝑖=1 𝑖=1
avec 𝑘 le nombre de classes, 𝑥𝑖 le centre de classe, 𝑛𝑖 l’effectif de la classe.

2.1.1.2 Quelques propriétés de la moyenne arithmétique


1. La moyenne arithmétique des différences à la moyenne arithmétique est nulle :

𝑘
1 ∑︁
𝑥= (𝑥𝑖 − 𝑥) = 0 (2.4)
𝑛 𝑖=1
𝑘
∑︁
𝑥= 𝑓𝑖 (𝑥𝑖 − 𝑥) = 0 (2.5)
𝑖=1
𝑘
1 ∑︁
𝑥= 𝑛𝑖 (𝑥𝑖 − 𝑥) = 0 (2.6)
𝑛 𝑖=1

Démonstration. La démonstration est simple :


𝑘
∑︁ 𝑘
∑︁ 𝑘
∑︁ 𝑘
∑︁
𝑓𝑖 (𝑥𝑖 − 𝑥) = 𝑓𝑖 𝑥𝑖 − 𝑥 𝑓𝑖 = 𝑓𝑖 𝑥𝑖 − 𝑥 = 𝑥 − 𝑥 = 0. □
𝑖=1 𝑖=1 𝑖=1 𝑖=1

Les données 𝑥𝑖 − 𝑥 sont appelées valeurs centrées.


2. Effet de regroupement : pour une même distribution, selon le nombre de classes et le choix des
regroupements, nous obtenons des moyennes arithmétiques différentes.

Exemple 2.1. Voici deux versions de la distribution de la taille d’un échantillon de 300 personnes.

Classe de taille en m Effectifs Classe de taille en m Effectifs


[1,49 ; 1,75[ 250 [1,50 ; 1,65[ 30
[1,75 ; 1,85[ 50 [1,65 ; 1,75[ 220
Total 300 [1,75 ; 1,85[ 50

Pour le premier tableau, la taille moyenne est égale à 1,65 m tandis que pour le second, la taille
moyenne est égale à 1,71 m.

3. Effet de bornes : lorsqu’on modifie une borne, la moyenne est modifiée.

Exemple 2.2. Supposons que les données suivantes représentent les ménages d’une région selon
le nombre de personnes (en milliers) et proposons-nous de calculer la moyenne.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.1 Caractéristiques des tendances centrales 23

Nombre de personnes Effectifs


1 9216,2
2 8964,2
3 3924,2
4 3308,4
5 1234,8
6 et plus 458,7
Il est nécessaire de fixer « 6 et plus » : prenons 6,5 on trouve la moyenne égale à 2,262. Si on prend,
par exemple, 7,5, la moyenne devient 2,279. La différence paraît faible, cependant, si ces moyennes
sont multipliées par le nombre de logements, soit 27 106,5 milliers, l’écart pour la population totale
atteint 460 810 habitants, ça dépasse de loin la population de la ville de Kalemie.

4. La moyenne de sous-populations : la moyenne arithmétique d’une population 𝑃 composée de


plusieurs sous-populations est égale à la moyenne des moyennes calculées dans les différentes
sous populations telles que :
– La population 𝑃1 a pour moyenne arithmétique 𝑥 1
– La population 𝑃2 a pour moyenne arithmétique 𝑥 2
– La population 𝑃𝑘 a pour moyenne arithmétique 𝑥 𝑘
La moyenne de la population composée s’exprime de la manière suivante :
𝑘
∑︁
𝑛𝑖 𝑥 𝑖
𝑖=1
𝑥= (2.7)
𝑘
∑︁
𝑛𝑖
𝑖=1
avec 𝑘 nombre d’échantillons, 𝑛𝑖 nombre d’éléments de chaque échantillon.

Exemple 2.3. On a fait passer une épreuve aux étudiants des cinq promotions de BAC 1 et l’on a
calculé la moyenne arithmétique des résultats obtenus dans chacune des promotions.
Faculté Effectifs 𝑥
Économie 22 89,7
Agronomie 35 69,4
Droit 27 70,5
Psychologie 23 81,1
Informatique 41 69,6
Quelle est la moyenne arithmétique de l’échantillon ?
Solution
22(89,7) + 35(69,4) + 27(70,5) + 23(81,1) + 41(69,6)
𝑥= = 74,4%.
22 + 35 + 27 + 23 + 41

2.1.1.3 Autres types de moyennes


2.1.1.3.1 La moyenne pondérée La moyenne pondérée est utile lorsque les données ont des
poids ou des coefficients différents qui reflètent leur importance relative. Par exemple, si on veut
calculer la note moyenne d’un étudiant qui a passé plusieurs examens avec des coefficients (crédits)
différents, on utilise la moyenne pondérée.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.1 Caractéristiques des tendances centrales 24

𝑛
∑︁
𝑝𝑖 𝑥𝑖
𝑖=1
𝑥= 𝑛 (2.8)
∑︁
𝑝𝑖
𝑖=1
Avec 𝑝𝑖 : le poids.
Exemple 2.4. Soit un étudiant qui a passé trois examens : algèbre (crédits : 3), droit (crédit : 2) et histoire
(crédit : 1). Ses notes sont respectivement 15, 12 et 10. La moyenne pondérée de ses notes est :
𝑛
∑︁
𝑝𝑖 𝑥𝑖
𝑖=1 3 × 15 + 2 × 12 + 1 × 10 87
𝑥= = = = 14.5
𝑛
∑︁ 3+2+1 6
𝑝𝑖
𝑖=1
La note moyenne de l’étudiant est donc 14,5.
Exemple 2.5. Supposons qu’on ait les données suivantes sur le nombre de ventes et le prix unitaire de
différents produits :
Produit Nombre de ventes Prix unitaire (en euros)
A 10 5
B 15 4
C 20 3
D 25 2
Si on veut calculer le prix moyen pondéré par le nombre de ventes, on aura :
𝑛
∑︁
𝑝𝑖 𝑥𝑖
𝑖=1 10 × 5 + 15 × 4 + 20 × 3 + 25 × 2
𝑥= = = 3,29
𝑛
∑︁ 10 + 15 + 20 + 25
𝑝𝑖
𝑖=1
Le prix moyen pondéré par le nombre de ventes est donc 3,29 euros.

2.1.1.3.2 Moyenne géométrique La moyenne géométrique (notée 𝑥 𝑔 ou 𝐺) est un instrument


permettant de calculer des taux moyens, notamment des taux moyens annuels. Son utilisation n’a un
sens que si les valeurs ont un caractère multiplicatif.
v
t 𝑛
Ö
𝑥𝑔 = 𝑛 𝑥𝑖 (2.9)
𝑖=1

Exemple 2.6. Si le taux de croissance économique de la RDC est de 5 % en 2021, 3 % en 2022 et 8 % en


2023, le taux moyen de la période est :

𝑥 𝑔 = 3 1,05 × 1,03 × 1,08 = 1,053
Donc, on a :
1,053 − 1 = 0,053 = 5,3%
Le taux de croissance économique moyen de la période 2021-2023 est 5,3 %.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.1 Caractéristiques des tendances centrales 25

Exemple 2.7. Si le prix du carburant a augmenté de 8% la première année et baissé de 5% la deuxième


année, le taux moyen calculé comme suit :

𝑥 𝑔 = 1,08 × 0,95 = 1,013
Le prix a augmenté en moyenne de 1,3 % chaque année.

2.1.1.3.3 Moyenne harmonique La moyenne harmonique est une mesure de tendance centrale
qui s’applique lorsque les données ont des liens de proportionnalité inverse. Par exemple, la vitesse
moyenne d’un trajet aller-retour n’est pas la moyenne arithmétique des vitesses aller et retour, mais
la moyenne harmonique.
La formule de la moyenne harmonique de 𝑛 nombres réels strictement positifs 𝑥 1, 𝑥 2, ..., 𝑥𝑛 est :
𝑛
𝐻= 𝑛 (2.10)
∑︁ 1
𝑖=1
𝑥𝑖

Exemple 2.8. Soit un trajet de 100 km, effectué à une vitesse de 80 km/h à l’aller et de 120 km/h au
retour. La vitesse moyenne du trajet est la moyenne harmonique de 80 et 120, c’est-à-dire :
2 2 2 2 × 9600
𝐻= 1 1
= 120+80
= 200
= = 96
80 + 120 80×120 9600
200
La vitesse moyenne du trajet est donc 96 km/h. Cela veut dire que le temps total du trajet aller-retour
est le même que si l’on a effectué le trajet à 96 km/h à l’aller et au retour.

2.1.1.3.4 Moyenne quadratique La moyenne quadratique d’un ensemble de nombres est la


racine carrée de la moyenne arithmétique des carrés de ces nombres.
v
t 𝑛
1 ∑︁ 2
𝑥𝑞 = 𝑥 (2.11)
𝑛 𝑖=1 𝑖
Elle trouve des applications lorsque l’on a affaire à des phénomènes présentant un caractère
sinusoïdal avec alternance de valeurs positives et de valeurs négatives.

2.1.2 La médiane
On appelle valeur médiane ou simplement médiane d’une variable statistique, la valeur de la
variable observée se situant au milieu après sériation des résultats de la distribution considérée. Elle
est notée 𝑀𝑒 .
La médiane est une autre mesure de tendance centrale pour une variable. Lorsque les données
sont classées en ordre croissant (de la plus petite à la plus grande valeur), la médiane correspond à la
valeur centrale.

2.1.2.1 Calcul de la médiane d’une série non groupée


Il importe toujours de travailler sur les résultats rangés par ordre de grandeur.
Ainsi :
– Si le nombre de résultats est impair, la médiane correspond à la valeur située au milieu de la
distribution.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.1 Caractéristiques des tendances centrales 26

Exemple 2.9. Calculons l’âge médian de l’échantillon de cinq enseignants de l’Université de


Kalemie :

42 32 46 48 54

Solution
D’abord on ordonne ces valeurs : 32 42 46 48 54. La médiane est égale à 46.

– Si le nombre d’observations est pair : il n’y a pas une unique valeur centrale. Dans ce cas, la
convention consiste à définir la médiane comme la moyenne des deux valeurs centrales.

Exemple 2.10. Calculons l’âge médian de l’échantillon de six enseignants de l’Université de


Kalemie :

42 32 46 48 54 38

Solution
D’abord on ordonne ces valeurs : 32 38 42 46 48 54. La médiane est égale à la moyenne entre 42 et
46, soit 44.

Remarque. Lorsque plusieurs valeurs des données coïncident avec le médian, sa valeur significative
devient douteuse, il est conseillé de faire plutôt confiance à un autre paramètre, tel que le mode.
Par exemple : 3,5,7,8,8,8,8,10,11,13.
Il vaut mieux de dire que 8 apparaît 4 fois.

2.1.2.2 Calcul de la médiane d’une série groupée en classes


La médiane s’obtient par l’interpolation linéaire à l’intérieur de l’intervalle de la classe médiane
c’est-à-dire la classe que contient au moins 𝑛/2 effectifs cumulés c’est-à-dire la classe pour laquelle la
fréquence cumulée égale ou dépasse pour la première fois 0,5 ou 50%.
0,50 − 𝐹𝑖−1
𝑀𝑒 = 𝑒𝑖 + 𝑎𝑖 · (2.12)
𝑓𝑖
ou
𝐹𝑖 − 0,50
𝑀𝑒 = 𝑒𝑖+1 − 𝑎𝑖 · (2.13)
𝑓𝑖
avec 𝑒𝑖 la limite inférieure de la classe, 𝑒𝑖+1 la limite supérieure de la classe, 𝑎𝑖 l’amplitude de la classe,
𝑓𝑖 la fréquence relative et 𝐹𝑖 la fréquence cumulée.

Exemple 2.11. Supposons la distribution ci-après des surfaces agricoles utiles de la culture du manioc
dans une région donnée et calculons la médiane.

Classes (en ha) 𝑎𝑖 𝑛𝑖 𝑓𝑖 (en %) 𝐹𝑖


[0 ; 5[ 5 5 8,3 8,3
[5 ; 15[ 10 15 25,0 33,3
[15 ; 25[ 10 11 18,3 51,7
[25 ; 50[ 25 20 33,3 85,0
[50 ; 100[ 50 7 11,7 96,7
[100 ; 150] 50 2 3,3 100
Í
//// 60 100,0 ////

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.1 Caractéristiques des tendances centrales 27

La classe médiane est bien évidemment [15 ; 25[, la médiane est alors (Remarquez 50 à la place de
0,50 dans la formule à cause des fréquences qui sont en %) :

50 − 𝐹𝑖−1 50 − 33,3
𝑀𝑒 = 𝑒𝑖 + 𝑎𝑖 · = 15 + 10 · ≃ 24,1
𝑓𝑖 18,3
𝐹𝑖 − 50 51,7 − 50
𝑀𝑒 = 𝑒𝑖+1 − 𝑎𝑖 · = 25 − 10 · = 24,1.
𝑓𝑖 18,3
Il y a autant d’exploitation ayant une surface supérieure à 24,1 hectares que d’exploitation ayant
moins de 24,1 hectares.
Remarque. La médiane est souvent une mesure préférable de la tendance centrale lorsqu’un ensemble
de données contient des valeurs extrêmes.

2.1.3 Le mode
Le mode (noté 𝑀𝑜 ) est la valeur de caractère pour laquelle la fréquence est maximale dans la
distribution observée. Il correspond à la valeur de la variable pour laquelle la fréquence est la plus
élevée.
– Pour une série non groupée (variable qualitative ou quantitative discrète), le mode est la valeur
la plus fréquente dans la série d’observations. Graphiquement, c’est la catégorie ou la modalité
dont la colonne est la plus élevée.
– Dans le cas d’une variable continue classée, la classe modale est celle dont la fréquence par
unité d’amplitude notée ℎ𝑖 = 𝑓𝑖 /𝑎𝑖 est la plus élevée. On a :
Δ𝑖
𝑀𝑜 = 𝑒𝑖 + 𝑎𝑖 · (2.14)
Δ𝑖 + Δ𝑖+1
avec 𝑀𝑜 le mode, 𝑒𝑖 limite inférieure de la classe modale, 𝑎𝑖 l’amplitude de la classe modale,
Δ𝑖 = ℎ𝑖 − ℎ𝑖−1 différence entre la fréquence de la classe modale et la fréquence de la classe
précédente dans la distribution, Δ𝑖+1 = ℎ𝑖 −ℎ𝑖+1 différence entre la fréquence de la classe modale
et la fréquence de la classe suivante dans la distribution.
Exemple 2.12. Reprenons les données de l’exemple 2.11. (Les ℎ𝑖 sont multipliés par 100 pour plus de
lisibilité.)
Classes (en ha) 𝑎𝑖 𝑛𝑖 𝑓𝑖 (en %) ℎ𝑖 = 𝑓𝑖 /𝑎𝑖 · 100
[0 ; 5[ 5 5 8,3 166,7
[5 ; 15[ 10 15 25,0 250
[15 ; 25[ 10 11 18,3 183,3
[25 ; 50[ 25 20 33,3 133,3
[50 ; 100[ 50 7 11,7 23,3
[100 ; 150] 50 2 3,3 6,7
Í
//// 60 100,0 /////
La classe modale se repère facilement : [5 ; 15[. On peut ainsi calculer la valeur du mode.
Δ𝑖 250 − 166,7
𝑀𝑜 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 10,6 ha.
Δ𝑖 + Δ𝑖+1 250 − 166,7 + 250 − 183,3
Remarque. Les distributions statistiques les plus courantes n’ont qu’un seul mode (distribution
unimodale), il arrive de rencontrer des distributions présentant plusieurs modes.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.2 Les caractéristiques de dispersion 28

2.2 Les caractéristiques de dispersion


Les paramètres de dispersion sont importants car ils sont le reflet de la variabilité des données.
Les paramètres de dispersion les plus fréquents sont : les mesures d’intervalles (étendue,...) et les
moyennes des écarts entre les paramètres centraux (variance, écart-type,...)

2.2.1 L’étendue
L’étendue 𝑒, autrement appelée l’intervalle de variation ou l’amplitude de la distribution est la
différence entre la plus grande et la plus petite valeur observée. Par exemple, pour les données de
l’exemple 2.11, l’étendue de la distribution vaut 150 − 0 = 150 ha.

2.2.2 Les quantiles


Les quantiles partagent une distribution ordonnée en 𝑛 parties ayant toutes le même effectif.
Plusieurs types de partitions sont utilisés, les plus courantes sont : la médiane (division en deux),
les quartiles (division en quatre), les quintiles (division en cinq), les déciles (division en dix). Les
centiles (division en 100) et les terciles (divisions en trois) sont aussi employés, mais plus rarement.
Les institutions internationales privilégient les déciles et les quintiles plus explicatifs que les
quartiles et plus faciles à calculer, car demandant moins de données précises que les centiles.

2.2.2.1 Les quartiles


Les quartiles 𝑄 1 , 𝑄 2 , 𝑄 3 partagent la série en quatre parties d’effectifs égaux comprenant chacun
25 % des effectifs. 25 % des données sont inférieures à 𝑄 1 , 25 % des données sont supérieures à 𝑄 3 , il
est important de rappeler que le deuxième quartile est la médiane.
Le calcul d’un quartile se réalise par interpolation linéaire comme pour la médiane. Les quartiles
sont solutions des trois équations 𝐹 (𝑄 1 ) = 0,25 ; 𝐹 (𝑄 2 ) = 0,50 ; 𝐹 (𝑄 3 ) = 0,75.
Si la classe 𝑖 est la classe contenant le premier quartile :
0,25 − 𝐹𝑖−1
𝑄 1 = 𝑒𝑖 + 𝑎𝑖 · (2.15)
𝐹𝑖 − 𝐹𝑖−1
Si la classe 𝑖 est la classe contenant le troisième quartile :
0,75 − 𝐹𝑖−1
𝑄 3 = 𝑒𝑖 + 𝑎𝑖 · (2.16)
𝐹𝑖 − 𝐹𝑖−1

2.2.2.2 Les quintiles


En ce qui concerne les quintiles, notés par 𝑉1 , 𝑉2 , 𝑉3 et 𝑉4 , ils divisent une série statistique ordonnée
en cinq groupes égaux comprenant chacun 20 % des données de la série : 20 % des données sont
inférieures à 𝑉1 , 20 % des données sont supérieures à 𝑉4 .
À l’identique du quartile, la formule de calcul d’un quintile utilise l’interpolation linéaire, les
quintiles extrêmes sont solutions des équations 𝐹 (𝑉1 ) = 0,20 et 𝐹 (𝑉4 ) = 0,80.
Si la classe 𝑖 est la classe contenant le premier quintile :
0,20 − 𝐹𝑖−1
𝑉1 = 𝑒𝑖 + 𝑎𝑖 · . (2.17)
𝑓𝑖
Si la classe 𝑖 est la classe contenant le quatrième quintile :

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.2 Les caractéristiques de dispersion 29

0,80 − 𝐹𝑖−1
𝑉4 = 𝑒𝑖 + 𝑎𝑖 · . (2.18)
𝑓𝑖

2.2.2.3 Les déciles et les centiles


Les déciles partagent la série en dix parties d’effectifs égaux
0,10 − 𝐹𝑖−1
𝐷 1 = 𝑒𝑖 + 𝑎𝑖 · (2.19)
𝑓𝑖
0,90 − 𝐹𝑖−1
𝐷 9 = 𝑒𝑖 + 𝑎𝑖 · (2.20)
𝑓𝑖

Les centiles partagent la distribution en 100 parties d’effectifs égaux. Les calculs sont analogues
aux précédents.

2.2.2.4 Écarts interquantiles et rapports interquantiles


L’écart interquantile est obtenu en faisant la différence entre le dernier et le premier quantiles.
Il mesure l’étendue de l’intervalle inter quantile. Pour les quartiles 𝐼𝑄 = 𝑄 3 − 𝑄 1 , pour les quintiles
𝐼𝑉 = 𝑉4 − 𝑉1 et pour les déciles 𝐼𝐷 = 𝐷 9 − 𝐷 1 . L’écart interquantile élimine l’effet des valeurs extrêmes
ou aberrantes, ne se calcule que sur deux valeurs et il est facile à calculer et à interpréter.
𝑄𝑛
Le rapport interquantile : 𝐼𝑄 (𝑥) = est un nombre sans dimension qui mesure le rapport entre
𝑄1
𝑄3
le dernier et le premier quantiles. Pour les quartiles, le rapport interquartile 𝐼𝑄 = fournit une
𝑄1
mesure relative des écarts entre les 25 % de la distribution ayant les valeurs les plus basses et les 25 %
de la distribution disposant des valeurs de la variable les plus élevées.
𝑉4
Le rapport inter quintile 𝐼𝑉 = donne une mesure relative des écarts entre, par exemple, les 20
𝑉1
% de la population disposant des revenus les plus élevés et les 20 % de la population ayant les revenus
𝐷9
les plus bas. Le rapport interdécile 𝐼𝐷 = fournit une mesure du rapport relatif entre les 10 % des
𝐷1
valeurs plus élevés et les 10 % les plus faibles.
Le coefficient de dispersion utilise les écarts interquantiles en référence à la médiane de façon à
obtenir un indicateur de dispersion relative sans dimension comme le rapport interquantile.
𝑄3 − 𝑄1 𝑉4 − 𝑉1 𝐷9 − 𝐷1
𝐶𝑑𝑖𝑠𝑄 = 𝐶𝑑𝑖𝑠𝑉 = 𝐶𝑑𝑖𝑠𝐷 = (2.21)
𝑀𝑒 𝑀𝑒 𝑀𝑒
Exemple 2.13. Reprenons les données de l’exemple 2.11 et calculons les quantiles.

Classes (en ha) 𝑎𝑖 𝑛𝑖 𝑓𝑖 (en %) 𝐹𝑖


[0 ; 5[ 5 5 8,3 8,3
[5 ; 15[ 10 15 25,0 33,3
[15 ; 25[ 10 11 18,3 51,7
[25 ; 50[ 25 20 33,3 85,0
[50 ; 100[ 50 7 11,7 96,7
[100 ; 150] 50 2 3,3 100
Í
//// 60 100,0 ////

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.2 Les caractéristiques de dispersion 30

– Les quartiles (les formules ont été adaptées vu que les fréquences sont en %) :
50 − 𝐹𝑖−1 50 − 33,3
𝑀𝑒 = 𝑒𝑖 + 𝑎𝑖 · = 15 + 10 · ≃ 24,1 ha
𝑓𝑖 18,3
25 − 𝐹𝑖−1 25 − 8,3
𝑄1 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 11,7 ha
𝑓𝑖 25
75 − 𝐹𝑖−1 75 − 51,7
𝑄3 = 𝑒𝑖 + 𝑎𝑖 · = 25 + 25 · ≃ 42,5 ha
𝑓𝑖 33,3
𝐼𝑄 = 𝑄 3 − 𝑄 1 = 42,5 − 11,7 = 30,8 ha
𝑄 3 42,5
𝐼𝑄 = = ≃ 3,6
𝑄 1 11,7
𝑄 3 − 𝑄 1 30,8
𝐶𝑑𝑖𝑠𝑄 = = ≃ 1,3
𝑀𝑒 24,1
– Les déciles :
10 − 𝐹𝑖−1 10 − 8,3
𝐷 1 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 5,7 ha
𝑓𝑖 25
90 − 𝐹𝑖−1 90 − 85
𝐷9 = 𝑒𝑖 + 𝑎𝑖 · = 50 + 50 · ≃ 57,5 ha
𝑓𝑖 11,7
𝐼𝐷 = 𝐷 9 − 𝐷 1 = 57,5 − 5,7 = 48,8 ha
𝐷 9 57,5
𝐼𝐷 = = ≃ 10,1
𝐷1 5,7
𝐷 9 − 𝐷 1 48,8
𝐶𝑑𝑖𝑠𝐷 = = ≃ 2,0
𝑀𝑒 24,1
– Les quintiles :
20 − 𝐹𝑖−1 20 − 8,3
𝑉1 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 9,7 ha
𝑓𝑖 25
80 − 𝐹𝑖−1 80 − 51,7
𝑉4 = 𝑒𝑖 + 𝑎𝑖 · = 25 + 25 · ≃ 46,3 ha
𝑓𝑖 33,3
𝐼𝑉 = 𝑉4 − 𝑉1 = 46,3 − 9,7 = 36,6 ha
𝑉4 46,3
𝐼𝑉 = = ≃ 4,8
𝑉1 9,7
𝑉4 − 𝑉1 36,6
𝐶𝑑𝑖𝑠𝑉 = = ≃ 1,5
𝑀𝑒 24,1

2.2.3 Représentation graphique des quantiles : le box-plot


Le diagramme en boîte – autrement appelé boîte à moustaches, box plot ou box-and-whisker plot
– donne une représentation très simple de la distribution. Elle consiste en une boîte rectangulaire,
dont les deux extrémités sont les quartiles. Ces extrémités se prolongent en segments dont les valeurs
extrêmes sont les déciles. On représente aussi la médiane par un trait dans la boîte ainsi que les
valeurs extrêmes par des points. Le graphique 2.1 page suivante illustre le boxplot.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.2 Les caractéristiques de dispersion 31

Figure 2.1 – Le boxplot

2.2.4 La variance et l’écart-type


La variance et l’écart type sont les indicateurs de dispersion les plus utilisés. Dans la pratique,
l’indicateur le plus souvent utilisé pour mesurer la dispersion d’une série autour de la moyenne est
l’écart-type qui est obtenu à partir de la variance.

2.2.4.1 La variance
La variance 𝑉 (𝑋 ) est le carré de la moyenne quadratique des écarts à la moyenne arithmétique.
En d’autres termes, la variance est la moyenne arithmétique du carré des écarts par rapport à la
moyenne arithmétique.
– Pour les données brutes, la variance est calculée de la manière suivante :
𝑛
1 ∑︁
𝑉 (𝑋 ) = (𝑥𝑖 − 𝑥) 2 (2.22)
𝑛 𝑖=1

– Pour les données discrètes, groupées en valeurs dans un tableau statistique, la variance s’ex-
prime de la manière suivante :
𝑘 𝑘
1 ∑︁ ∑︁
𝑉 (𝑋 ) = 𝑛𝑖 (𝑥𝑖 − 𝑥) 2 ou 𝑉 (𝑋 ) = 𝑓𝑖 (𝑥𝑖 − 𝑥) 2 (2.23)
𝑛 𝑖=1 𝑖=1

– Pour les données classées :


𝑘 𝑘
1 ∑︁ ∑︁
𝑉 (𝑋 ) = 𝑛𝑖 (𝑥𝑖 − 𝑥) 2 ou 𝑉 (𝑋 ) = 𝑓𝑖 (𝑥𝑖 − 𝑥) 2 (2.24)
𝑛 𝑖=1 𝑖=1
avec 𝑥𝑖 le centre de classe.

Remarque. Il est utile de savoir distinguer la variance de la population (symbolisée par 𝜎 2 ), la variance
empirique (symbolisée par 𝑠˜2 ou 𝑉 (𝑋 )) et la variance d’un échantillon (symbolisée par 𝑠 2 ).

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.2 Les caractéristiques de dispersion 32

– Variance d’une population :


1 ∑︁
𝜎2 = (𝑥𝑖 − 𝜇) 2 (2.25)
𝑁
avec 𝑁 la taille de la population, 𝑥𝑖 les valeurs individuelles et 𝜇 la moyenne de la population.
– Variance empirique : c’est la définition fournie ci-dessus :
𝑛
2 1 ∑︁
𝑠˜ = 𝑉 (𝑋 ) = (𝑥𝑖 − 𝑥) 2 .
𝑛 𝑖=1

Cependant, lorsque la variance est calculée sur un échantillon avec la formule (2.22), (2.23)
ou (2.24), elle ne donne pas une bonne estimation de la variance 𝜎 2 de la population. C’est
pourquoi il faut calculer la variance 𝑠 2 de l’échantillon qui donne une bonne estimation de la
variance 𝜎 2 de la population.
– Variance échantillonnale (ou variance corrigée) : notée 𝑠 2 , elle donne une meilleure estimation
de la variance 𝜎 2 de la population :
𝑛
2 1 ∑︁
𝑠 = (𝑥𝑖 − 𝑥) 2 . (2.26)
𝑛 − 1 𝑖=1

Le calcul de la variance à l’aide de la formule de définition est peu commode, l’utilisation des
formules suivantes facilite les calculs :
– À partir des données brutes :
𝑛
1 ∑︁ 2
𝑉 (𝑋 ) = 𝑥 − 𝑥 2. (2.27)
𝑛 𝑖=1 𝑖

– Données groupées en valeurs ou en classes dans un tableau statistique :


𝑘 𝑘
1 ∑︁ 2 ∑︁
𝑉 (𝑋 ) = 𝑛𝑖 𝑥 𝑖 − 𝑥 2 ou 𝑉 (𝑋 ) = 𝑓𝑖 𝑥𝑖2 − 𝑥 2 . (2.28)
𝑛 𝑖=1 𝑖=1
avec 𝑥𝑖 la valeur de la modalité ou le centre de classe, selon le cas.
Remarque. La formule 2.28 est dite formule de Konig-Huyghens.
Démonstration. Il suffit de développer la formule de définition :

𝑛 𝑛
1 ∑︁ 1 ∑︁  2 
𝑉 (𝑋 ) = (𝑥𝑖 − 𝑥) 2 = 𝑥𝑖 − 2𝑥𝑥𝑖 + 𝑥 2
𝑛 𝑖=1 𝑛 𝑖=1
𝑛 𝑛 𝑛
1 ∑︁ 2 1 ∑︁ 1 ∑︁ 2
= 𝑥 − 2𝑥𝑥𝑖 + 𝑥
𝑛 𝑖=1 𝑖 𝑛 𝑖=1 𝑛 𝑖=1
𝑛
1 ∑︁ 2
= 𝑥 − 2𝑥 2 + 𝑥 2
𝑛 𝑖=1 𝑖
𝑛
1 ∑︁ 2
= 𝑥 − 𝑥2 □
𝑛 𝑖=1 𝑖

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.2 Les caractéristiques de dispersion 33

2.2.4.2 L’écart type


L’écart type est la moyenne quadratique des écarts à la moyenne arithmétique. En d’autres termes,
l’écart type est la racine carrée de la variance. Il noté par 𝜎 ou 𝑠, selon les cas.

√︁ √
𝜎 = 𝑉 (𝑋 ) 𝑠 = 𝑠2 (2.29)
v
t 𝑛 v
t 𝑛
1 ∑︁ 1 ∑︁
= (𝑥𝑖 − 𝑥) 2 = (𝑥𝑖 − 𝑥) 2 (2.30)
𝑛 𝑖=1 𝑛 − 1 𝑖=1

On définit aussi le coefficient de variation, qui est le rapport de la moyenne arithmétique à l’écart
type, c’est un nombre sans dimension. Plus il est important et moins la moyenne est significative
pour décrire la distribution.
𝜎
𝐶𝑉 = (2.31)
𝑥

Exemple 2.14. Reprenons les données de l’exemple 2.2 page 22 : ménages selon le nombre de personnes
(en milliers).

Nombre de personnes 𝑥𝑖 𝑛𝑖 𝑓𝑖 (en %) 𝑓𝑖 𝑥𝑖 𝑓𝑖 𝑥𝑖2


1 1 9216,2 34,0 34,0 34,0
2 2 8964,2 33,1 66,1 132,3
3 3 3924,2 14,5 43,4 130,3
4 4 3308,4 12,2 48,8 195,3
5 5 1234,8 4,6 22,8 113,9
6 et plus 6,5 457,7 1,7 11,0 71,5
Totaux 27106,5 100 226,2 677,2

𝑘
∑︁ 677,2
𝑉 (𝑋 ) = 𝑓𝑖 𝑥𝑖2 − 𝑥 2 = − (2,262) 2 ≃ 1,655
𝑖=1
100
√︁ √
𝜎 = 𝑉 (𝑋 ) = 1,655 ≃ 1,29 personnes
𝜎 1,29
𝐶𝑉 = = ≃ 0,57
𝑥 2,262

Exemple 2.15. Reprenons les données de l’exemple 2.11 : surfaces agricoles utiles de la culture de manioc
dans une région donnée.

Classes (en ha) 𝑥𝑖 𝑓𝑖 𝑓𝑖 𝑥𝑖 𝑓𝑖 𝑥𝑖2


[0 ; 5[ 2,5 0,083 0,2075 0,51875
[5 ; 15[ 10,0 0,250 2,5000 25
[15 ; 25[ 20,0 0,183 3,6600 73,2
[25 ; 50[ 37,5 0,333 12,4875 468,28125
[50 ; 100[ 75,0 0,117 8,7750 658,125
[100 ; 150] 125,0 0,033 4,1250 515,625
Í
1 31,755 1 740,75

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.3 La dissymétrie 34

𝑘
∑︁
𝑉 (𝑋 ) = 𝑓𝑖 𝑥𝑖2 − 𝑥 2 = 1740,75 − (31,755) 2 ≃ 732,37
𝑖=1
√︁ √
𝜎 = 𝑉 (𝑋 ) = 732,37 ≃ 27,06 ha
𝜎 27,06
𝐶𝑉 = = ≃ 0,85
𝑥 31,755

2.3 La dissymétrie
Deux séries statistiques peuvent avoir la même moyenne et le même écart type sans pour cela
être identiques. L’un comme l’autre ne rendent pas compte de la dissymétrie de la distribution. Une
estimation de celle-ci est parfois utile.
La dissymétrie est évaluée par divers indicateurs. Les coefficients d’asymétrie mesurent la réparti-
tion des valeurs de part et d’autre d’une valeur centrale.
En cas de parfaite symétrie, le mode, la médiane et la moyenne sont identiques. On dit que la
distribution est normale.

𝑀𝑜 = 𝑀𝑒 = 𝑥

Figure 2.2 – Courbe d’une distribution normale de moyenne 𝑥 = 5 et d’écart type 𝜎 = 2,3.

Plusieurs coefficients permettent d’estimer la dissymétrie d’une distribution.

2.3.1 Le coefficient de dissymétrie de Pearson


Noté 𝐷 1 — il existe un autre coefficient de Pearson noté 𝐷 2 — ce coefficient est sans dimension. Il
est calculé par le rapport suivant :

𝑥 − 𝑀𝑜
𝐷1 = (2.32)
𝜎𝑥
avec 𝜎𝑥 l’écart type.
– 𝐷 1 = 0 la courbe est symétrique.
– 𝐷 1 > 0 la courbe est étalée à droite
– 𝐷 1 < 0 la courbe est étalée à gauche.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.4 Exercices 35

2.3.2 Le coefficient de Fischer

𝑘
∑︁
𝑓𝑖 (𝑥𝑖 − 𝑥) 3
𝑖=1
𝛾1 = " # 3/2 (2.33)
𝑘
∑︁
𝑓𝑖 (𝑥𝑖 − 𝑥) 2
𝑖=1
Avec :
– 𝛾 1 = 0 distribution symétrique
– 𝛾 1 > 0 distribution étalée à droite
– 𝛾 1 < 0 distribution étalée à gauche
Il faut remarquer le dénominateur de la formule (2.33) est le cube de l’écart type.
Exemple 2.16. Reprendre les données de l’exemple 2.11 pour déterminer la dissymétrie de cette distri-
bution.
Indice : comme nous le montre l’histogramme, la distribution est étalée à droite.

2.4 Exercices
1. Que signifie tendance centrale ? Quelles sont les mesures de tendance centrale les plus utilisées ?
Définissez-le.
2. Pourquoi la moyenne arithmétique est considérée comme une bonne mesure de la tendance
centrale ?
3. Que signifie dispersion ? Quelles sont les mesures de dispersion les plus courantes ? Définissez-
le.
4. Calculer la moyenne, la médiane, le mode, la variance et l’écart type pour les données suivantes :
a) 2, 5, 7, 3, 4, 3, 3.
b) 4, 5, 5, 12, 8, 6, 7, 6, 5.
c) 23, 1, 3, 2, 3, 7, 6, 7, 7, 5, 3.
d) 16, 1, 3, 15, 11, 5, 6, 7.
5. Considérer un échantillon avec les observations suivantes : 27, 25, 20, 15, 30, 34, 28 et 25.
Calculer le 20e, 25e, 65e et 75e percentile.
6. Considérer un échantillon avec les observations suivantes : 53, 55, 70, 58, 64, 57, 53, 69, 57, 68
et 53. Calculer la moyenne, la médiane et le mode.
7. Pour les données suivantes, calculer le premier quartile, le troisième quartile, le quatrième
décile et le 36e centile.

22 18 20 23 17 22 17 19 20 22

Réponses : 𝑄 1 = 18, 𝑄 3 = 22, 𝐷 4 = 22, 𝑃 36 = 19

8. On donne les notes d’un échantillon de 25 étudiants à l’interrogation de statistique.

7 8 6 8 9 8 8 10 7
9 7 10 9 10 9 8 9 9
7 9 9 10 7 7 8
a) Calculer la moyenne, la médiane, le mode, la variance et l’écart type.
b) Représenter ces données graphiquement.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


2.4 Exercices 36

9. Voici un échantillon de notes obtenues par les étudiants de Bac 1 Économie & Gestion au cours
de statistique descriptive :
Côte 8 9 10 11 12 13
Nombre d’étudiants 4 12 25 16 10 3
a) Calculer la côte moyenne, la médiane, le mode, la variance et l’écart type.
b) Représenter ces données graphiquement.
c) Peut-on dire que cette distribution est normale ?
10. Calculer la moyenne, la variance et l’écart type pour les données du tableau ci-dessous :

Intervalles de classes Fréquence


0,5–2,5 2
2,5–4,5 5
4,5–6,5 7
6,5–8,5 1
11. Supposons les données suivantes de la consommation journalière en aliments de 100 ménages
de la commune de Kalemie.
Consommation journalière Nombre de ménages
0 – 1000 12
1000 – 2000 18
2000 – 3000 27
3000 – 4000 20
4000 – 5000 17
5000 – 6000 6
a) Calculer le mode, la moyenne, la variance et l’écart type. Interprétez
b) Calculer 𝑄 1 , 𝑄 3 , 𝐷 8 et 𝑃 35 et interpréter.
c) Représentez ces données graphiquement.
d) Représentez le diagramme en boîte (le box-plot) de ces données.
12. Le tableau suivant donne la distribution des salaires horaires (en ×1 000 CDF) des agents
employés dans une ONG :

Salaire horaire Nombre d’employés Salaire horaire Nombre d’employés


5–9 2 25–29 62
10–14 9 30–34 39
15–19 25 35–39 20
20–24 30 40–44 3
a) Calculer le salaire horaire moyen des employés de cette ONG.
b) Calculer le salaire médian et commenter.
c) Supposons que l’ONG veut augmenter 25 % du salaire parmi les 35 % des employés ayant le
salaire le plus bas, calculer le salaire horaire maximum des employés qui seront concernés
par cette politique.
d) D’autre part, si l’ONG veut baisser de 20 % le salaire des employés comptant parmi les
12 % ayant le salaire le plus élevé, calculé le salaire minimum des employés qui seront
concernés par cette décision.
e) Calculer la variance et l’écart type.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


Chapitre 3

Les distributions à deux dimensions

Il est souvent pertinent d’étudier une population à l’aide de plusieurs caractères. Ce chapitre
présente les distributions pour lesquelles nous disposons d’observations concernant simultanément
deux caractères – qui peuvent être qualitatifs ou quantitatifs – pour chaque individu de la population.
Il se concentre donc sur l’analyse statistique bivariée, portant sur deux variables simultanément.

3.1 Les tableaux de contingence


Quand on a deux variables qualitatives, discrètes ou classées, l’information peut être représentée
sous la forme d’un tableau croisé qui donne la distribution de la population ou de l’échantillon selon
les différentes modalités des deux variables. Un tel tableau s’appelle tableau de contingence.

Tableau 3.1 – Tableau de contingence

Effectif marginal
Caractère A \ Caratère B Modalité 1 Modalité 𝑗 Modalité 𝑝
du caractère A
𝑝
∑︁
Modalité 1 𝑛 11 𝑛 1𝑗 𝑛 1𝑝 𝑛1 = 𝑛 1𝑘
𝑘=1
𝑝
∑︁
Modalité 𝑖 𝑛𝑖1 𝑛𝑖 𝑗 𝑛𝑖𝑝 𝑛𝑖 = 𝑛𝑖𝑘
𝑘=1
𝑝
∑︁
Modalité 𝑚 𝑛𝑚1 𝑛𝑚 𝑗 𝑛𝑚𝑝 𝑛𝑚 = 𝑛𝑚𝑘
𝑘=1
𝑚
∑︁ 𝑚
∑︁ 𝑚
∑︁ 𝑚
∑︁ 𝑝
∑︁
Effectif marginal
𝑛1 = 𝑛𝑘1 𝑛𝑗 = 𝑛𝑘 𝑗 𝑛𝑝 = 𝑛𝑘𝑝 𝑛= 𝑛𝑘 = 𝑛𝑘
du caractère B
𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1

L’effectif 𝑛𝑖 𝑗 de la case (𝑖, 𝑗) est le sous-ensemble de la population 𝑃 des individus qui présentent
simultanément la modalité 𝐴𝑖 et la modalité 𝐵 𝑗 . Tous les individus présentant ces deux modalités
sont considérés comme équivalents.
On appelle 𝑓𝑖 𝑗 la fréquence conjointe de la modalité (𝑥𝑖 , 𝑦𝑖 ) ou de l’événement 𝐴𝑖 , 𝐵 𝑗 , la proportion
d’individus qui présentent simultanément 𝐴𝑖 et 𝐵 𝑗 soit :
𝑛𝑖 𝑗
𝑓𝑖 𝑗 = (3.1)
𝑛
Voici un exemple numérique du tableau de contingence : répartition des décès dans une clinique
selon que l’individu était fumeur ou non fumeur.
3.1 Les tableaux de contingence 38

Fumeur Non fumeur Total


Cancer pulmonaire 4 4 8
Autre maladie 15 24 39
Total 19 28 47
L’analyse des tableaux de contingence consiste à découvrir et à étudier les relations entre les
modalités, si elles existent. On se pose souvent cette question de savoir si les données du tableau ont
été obtenues par pur hasard, ou s’il y a une certaine dépendance entre les modalités. Pour y répondre,
il faut tester l’indépendance des deux variables qui forment le tableau de contingence. Si les deux
variables sont dépendantes, on testera aussi l’intensité de cette dépendance.

3.1.1 Le test d’indépendance du khi-deux


Le test du khi-deux qui s’écrit 𝜒 2 est utilisé pour tester l’indépendance entre deux variables. Les
données relatives à ces deux variables doivent être présentées dans un tableau de contingence.
On dit que les variables 𝑋 et 𝑌 sont totalement indépendantes si les variations de l’une n’entraînent
pas de variations de l’autre. En considérant par exemple la répartition des salariés d’une entreprise
selon le montant du salaire et l’âge : le salaire est indépendant de l’âge si, parmi les salariés des
différentes tranches d’âge, la proportion de ceux dont le salaire est compris entre telle et telle limite
ne varie pas d’une tranche d’âge à l’autre.
Voici la marche à suivre pour construire un test du 𝜒 2 :
Étape 1. Formulation des hypothèses :
𝐻 0 : Les deux variables sont indépendantes 1 ;
𝐻 1 : Les deux variables sont dépendantes.
On formule toujours l’hypothèse nulle 𝐻 0 et l’hypothèse alternative 𝐻 1 sous cette forme.
Comme pour tout autre test d’hypothèse, on considère que 𝐻 0 est vraie jusqu’à preuve du
contraire.
Étape 2. Construire le tableau de contingence et calculer des effectifs théoriques selon l’hypothèse nulle.
Par effectifs théoriques, entendre des effectifs que l’on devrait obtenir si l’on considère que
l’hypothèse nulle est vraie, c’est-à-dire si les variables sont indépendantes.
(Total ligne) · (Total colonne)
Effectif théorique (T) = (3.2)
𝑛
Étape 3. Calculer la statistique du test.
La valeur du khi-deux est donnée par la formule :
∑︁ (𝑂 − 𝑇 ) 2
𝜒2 = (3.3)
𝑇
où 𝑂 est l’effectif observé et 𝑇 l’effectif théorique.
Étape 4. Déterminer la valeur critique de la statistique du test 𝜒02 au seuil 𝛼 avec dl degrés de libertés.

dl = (𝐿 − 1) · (𝐶 − 1) (3.4)
où 𝐿 et 𝐶 sont respectivement le nombre de lignes et de colonnes du tableau de contingence.
La valeur de 𝜒02 est lue dans la table 2 de 𝜒 2 .

1. C’est-à-dire il n’existe pas de relation entre les deux variables.


2. Chaque étudiant.e peut taper “tables statistiques” sur Google pour télécharger les tables statistiques usuelles.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.1 Les tableaux de contingence 39

Étape 5. Décision.
Si 𝜒 2 > 𝜒02 , on rejette 𝐻 0 .

Exemple 3.1. Supposons que l’on cherche à savoir s’il existe une relation entre la consommation de la
bière et le statut matrimonial. À partir d’une enquête auprès de 1 772 ménages, nous avons les observations
suivantes sur la consommation mensuelle et le statut matrimonial. Construire les hypothèses du test
d’indépendance et déterminer s’il existe des évidences statistiques d’un lien entre le statut matrimonial et
la consommation de la bière.

Statut \ Consommation Abstient 1–60 Plus de 60


Célibataire 67 213 74
Marié (e) 411 633 129
Veuf ou veuve 85 51 7
Divorcé 27 60 15

Solution
1. Formulons les hypothèses.
𝐻 0 : Il n’y a pas de lien entre le statut matrimonial et la consommation de la bière.
𝐻 1 : Il y a un lien entre le statut matrimonial et la consommation de la bière.
2. Nous construisons la table de fréquences théoriques.
354 × 590
Par exemple : = 117,9
1772
Abstient 1–60 Plus de 60 Total
67 213 74
Célibataire 354
117,9 191,2 44,9
411 633 129
Marié(e) 1173
390,6 633,5 148,9
85 51 7
Veuf ou veuve 143
47,6 77,2 18,2
27 60 15
Divorcé(e) 102
34,0 55,1 13,0
Total 590 957 225 1772

3. Calculons le 𝜒 2 :
∑︁ (𝑂 − 𝑇 ) 2 (67 − 117,9) 2 (213 − 191,2) 2 (15 − 13,0) 2
𝜒2 = = + +···+ = 94,4
𝑇 117,9 191,2 13

4. La valeur critique est le khi-deux avec dl = (𝐿 − 1)(𝐶 − 1) = 3 × 2 = 6 degrés de libertés. Au seuil


de 5%, la table donne 𝜒 02 = 12,592.
5. Nous voyons que
𝜒 2 > 𝜒 02 ⇒ 94,4 > 12,592
Donc, nous rejetons 𝐻 0 . Commentaire : nos données fournissent l’évidence d’un lien statistique
entre le statut matrimonial et la consommation de la bière. Les personnes mariées consomment
plus de bière que les personnes célibataires, veuves ou divorcées.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.1 Les tableaux de contingence 40

3.1.2 Le test de Cramer


Le test du 𝜒 2 permet de savoir si les variables entretiennent une relation. Mais, il ne renseigne
pas sur l’intensité de cette relation. Il est parfois utile de connaître les croisements de variables qui
entretiennent les relations les plus intéressantes. Le test de Cramer (aussi appelé V de Cramer ou
test de l’intensité de la dépendance) permet d’apprécier la signification ou l’intensité de la liaison
entre deux variables et donc la valeur du 𝜒 2 calculé. Il est égal au rapport du 𝜒 2 au 𝜒 2 maximum
2 ) que l’on aurait obtenu si la dépendance avait été totale.
(noté 𝜒max
2
𝜒 max = 𝑛 · min(𝐿 − 1, 𝐶 − 1)
√︄
𝜒2 (3.5)
et V de Cramer = 2
𝜒 max
avec 𝑛 la taille de l’échantillon, 𝐿 le nombre de lignes et 𝐶 le nombre de colonnes.
Le V de Cramer est un nombre compris entre 0 et 1. Plus il est proche de 1, plus la dépendance
entre les variables est forte.
Tableau 3.2 – Interprétation du V de Cramer

Valeur du Intensité de la relation


V de Cramer entre les variables
[0,00 ; 0,10[ Relation très faible
[0,10 ; 0,20[ Relation faible
[0,20 ; 0,30[ Relation moyenne
[0,30 ; 1,00] Relation forte

Exemple 3.2. Reprenons l’exemple 3.1. Nous avons :


2
𝜒max = 𝑛 · min(𝐿 − 1, 𝐶 − 1) = 1772 · min(3; 2) = 1772 · 2 = 3544

d’où √︄ √︂
𝜒2 94,4 √
V de Cramer = 2
= = 0,0266 = 0,163
𝜒 max 3544

Donc, il existe un lien statistique faible entre la consommation de la bière et le statut matrimonial.
Remarque. Le V de Cramer est calculé seulement dans le cas où le test de 𝜒 2 rejette l’hypothèse nulle
de l’indépendance entre les variables.

3.1.3 Exercices
1. Sous quelle(s) condition(s) pouvez-vous utiliser le test d’indépendance du 𝜒 2 ?
2. Si un tableau de contingence a trois lignes et quatre colonnes, combien y a-t-il de degrés de
liberté pour le test d’indépendance de 𝜒 2 ?
3. Supposons que vous exécutez un test d’indépendance du 𝜒 2 sur un tableau de contingence
ayant 𝐿 lignes et 𝐶 colonnes. Déterminez la valeur critique de la statistique du test dans chacun
des cas suivants :
a) a = 0,05, L = 4 lignes, C = 5 colonnes
b) a = 0,01, L = 4 lignes, C = 5 colonnes
c) a = 0,01, L = 4 lignes, C = 6 colonnes

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.2 La covariance 41

d) a = 0,01, L = 3 lignes, C = 6 colonnes


e) a = 0,05, L = 6 lignes, C = 3 colonnes
4. Combien de fois les femmes postent-elles des statuts sur WhatsApp ? Une étude a révélé les
résultats suivants sous forme d’un tableau de contingence. En colonne, les tranches d’âge des
femmes interrogées et en ligne leur fréquence de publication des statuts sur WhatsApp.

16–17 18–29 30–49 50–64 65+ Total


Plusieurs fois par jour 36 322 352 147 64 922
Environ une fois par jour 4 69 135 100 48 356
Quelques fois par semaine 20 55 90 74 27 266
Environ une fois par semaine 4 11 8 25 7 55
Moins souvent 4 14 21 25 11 75
Total 68 471 607 371 157 1 674

Au seuil de signification de 0,01, peut-on dire qu’il y a l’évidence d’une relation significative
entre l’âge et la fréquence de publications des statuts sur WhatsApp ? Si oui, quelle est l’intensité
de cette relation ?

3.2 La covariance
La covariance est une mesure de la relation linéaire entre deux variables quantitatives.
Pour un échantillon de taille 𝑛 composé des observations (𝑥 1, 𝑦1 ), (𝑥 2, 𝑦2 ), etc., la covariance de
l’échantillon est définie par :
1 ∑︁
𝑠𝑥𝑦 = (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) (3.6)
𝑛−1
Une valeur positive élevée de la covariance semble indiquer une forte relation positive et une
valeur négative élevée de la covariance semble indiquer une forte relation négative.
Remarque. Pour une population de taille 𝑁 , la formule de la covariance s’écrit :
1 ∑︁
𝜎𝑥𝑦 = (𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 ) (3.7)
𝑁

Inconvénient de la covariance
L’utilisation de la covariance comme mesure de la relation linéaire présente un inconvénient : la
valeur de la covariance dépend de l’unité de mesure des variables 𝑥 et 𝑦.
Par exemple, supposons que nous nous intéressions à la relation entre la taille, 𝑥, et le poids, 𝑦,
d’individus. La robustesse de la relation devrait être la même que la taille soit mesurée en mètres
ou en centimètres. Cependant, lorsque la taille est mesurée en centimètres, les valeurs numériques
(𝑥𝑖 − 𝑥) sont supérieures à celles obtenues en mesurant la taille en mètres. Ainsi, lorsque la taille est
mesurée en centimètres, l’expression (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) dans la formule (3.6) nous donne une valeur
supérieure alors qu’en fait, il n’y a pas de différence dans la relation.
C’est pourquoi le coefficient de corrélation – section suivante – est une mesure de la relation entre
deux variables qui n’est pas exposée à ce type de problème.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.3 La corrélation linéaire 42

3.3 La corrélation linéaire


La corrélation a un sens lorsqu’on étudie la dépendance entre deux variables quantitatives.
Supposons un exemple : on dispose des données sur les investissements directs étrangers et sur les
exportations d’un pays et on désire examiner l’évolution commune des deux variables. On pourrait
obtenir le diagramme de dispersion (ou nuage des points) représenté à la figure 3.1.

Figure 3.1 – Diagramme de dispersion (nuage des points)

Ainsi on a l’impression générale de l’évolution de ces deux indicateurs et il apparait clair que les
deux variables ont tendance d’évoluer dans le même sens.

3.3.1 Types de corrélation


Lorsque deux phénomènes ont une évolution commune, nous disons qu’ils sont « corrélés ». La
corrélation simple mesure le degré de liaison existant entre ces deux phénomènes représentés par
des variables. Nous pouvons distinguer la corrélation linéaire, lorsque tous les points du couple de
valeurs (𝑥, 𝑦) des deux variables semblent alignés sur une droite, de la corrélation non linéaire
lorsque le couple de valeurs se trouve sur une même courbe d’allure quelconque.
Deux variables peuvent être :
– en corrélation positive ; on constate alors une augmentation (ou diminution, ou constance)
simultanée des valeurs des deux variables ;
– en corrélation négative, lorsque les valeurs de l’une augmentent, les valeurs de l’autre
diminuent ;
– non corrélées, il n’y a aucune relation entre les variations des valeurs de l’une des variables
et les valeurs de l’autre.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.3 La corrélation linéaire 43

Figure 3.2 – Les différentes corrélations : corrélations linéaires : 1 et 2 ; corrélations non linéaires : 3 et 4 ; pas de
corrélation : 5.
Les graphes 1 et 3 représentent des corrélations positives tandis que les graphes 2 et 4 représentent des corrélations
négatives.

3.3.2 Le coefficient de corrélation linéaire


Pour mesurer l’intensité d’une liaison entre deux variables, on calcule une statistique appelée
coefficient de corrélation linéaire simple ou coefficient de corrélation de Pearson, noté 𝑟 𝑥,𝑦
ou simplement 𝑟 . Il est égal à :
𝑛
∑︁
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝐶𝑜𝑣 (𝑥, 𝑦) 𝑖=1
𝑟= = √︄ √︄ 𝑛 (3.8)
𝜎𝑥 𝜎𝑦 𝑛
∑︁ ∑︁
(𝑥𝑖 − 𝑥) 2 (𝑦𝑖 − 𝑦) 2
𝑖=1 𝑖=1
avec :

Cov (𝑥, 𝑦)= covariance entre 𝑥 et 𝑦


𝜎𝑥 et 𝜎𝑦 = écart type de 𝑥 et écart type de 𝑦
n = nombre d’observations

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.3 La corrélation linéaire 44

En développant la formule (3.8), il vient :


𝑛
∑︁ 𝑛
∑︁ 𝑛
∑︁
𝑛 𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝑟=v
u ! 2v
u !2 (3.9)
t 𝑛 𝑛
t 𝑛 𝑛
∑︁ ∑︁ ∑︁ ∑︁
𝑛 𝑥𝑖2 − 𝑥𝑖 𝑛 𝑦𝑖2 − 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1

Ce coefficient reste compris entre −1 et 1 :


– proche de 1, les variables sont corrélées positivement ;
– proche de −1, les variables sont corrélées négativement ;
– proche de 0, les variables ne sont pas corrélées.
Dans la pratique, ce coefficient est rarement proche de l’une de ces trois valeurs. C’est pourquoi
il faut « tester » l’hypothèse d’un coefficient de corrélation nul. On emploie pour cela le test de
Student à 𝑛 − 2 degrés de liberté. Les hypothèses de ce test sont formulées comme suit :
𝐻0 : 𝑟 = 0 ;
𝐻 1 : 𝑟 ≠ 0.
Pour décider, nous calculons une statistique appelée 𝑡 de Student empirique (ou 𝑡 de Student
calculé)
√︂
|𝑟 | 𝑛−2
𝑡 cal = √︂ = |𝑟 | (3.10)
1 − 𝑟2 1 − 𝑟2
𝑛−2
𝛼/2
Si 𝑡 cal > valeur lue dans une table de Student au seuil 𝛼 = 0,05 (5 %) à 𝑛 − 2 degrés de liberté,
𝑡𝑛−2
nous rejetons l’hypothèse 𝐻 0 , le coefficient de corrélation est donc significativement différent de 0 ;
dans le cas contraire, l’hypothèse d’un coefficient de corrélation nul est acceptée.
Remarque. Si 𝑛 > 30, la loi de Student tend vers la loi normale. Dans ce cas, 𝑡 𝛼/2 ≈ 1,96.
Exemple 3.3. Un agronome s’intéresse à la liaison pouvant exister entre le rendement de maïs 𝑥 (en
quintal) d’un champ et la quantité d’engrais 𝑦 (en kilo). Il relève 10 couples de données consignés dans le
tableau suivant.
Rendement 𝑦 16 18 23 24 28 29 26 31 32 34
Engrais 𝑥 20 24 28 22 32 28 32 26 41 41

Calculer le coefficient de corrélation simple et tester sa signification par rapport à 0 pour un seuil
𝛼 = 0,05.
Solution
Nous calculons la table 3.3 nécessaire pour calculer un coefficient de corrélation.
𝑛
∑︁
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑖=1 351,6
𝑟 = √︄ √︄ 𝑛 =√ √ = 0,892
𝑛
∑︁ ∑︁ 492,4 · 314,9
(𝑥𝑖 − 𝑥) 2 (𝑦𝑖 − 𝑦) 2
𝑖=1 𝑖=1
Il existe une corrélation positive entre les variables 𝑥 et 𝑦 ; cela veut dire que les deux variables varient
dans le même sens.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.3 La corrélation linéaire 45

Tableau 3.3 – Calcul d’un coefficient de corrélation

𝑦 𝑥 𝑥 −𝑥 𝑦 −𝑦 (𝑥 − 𝑥)(𝑦 − 𝑦) (𝑥 − 𝑥) 2 (𝑦 − 𝑦) 2
16 20 -10,4 -10,1 105,04 108,16 102,01
18 24 -6,4 -8,1 51,84 40,96 65,61
23 28 -2,4 -3,1 7,44 5,76 9,61
24 22 -8,4 -2,1 17,64 70,56 4,41
26 32 1,6 -0,1 -0,16 2,56 0,01
28 32 1,6 1,9 3,04 2,56 3,61
29 28 -2,4 2,9 -6,96 5,76 8,41
31 36 5,6 4,9 27,44 31,36 24,01
32 41 10,6 5,9 62,54 112,36 34,81
34 41 10,6 7,9 83,74 112,36 62,41
Somme 261 304 0 0 351,6 492,4 314,9
Moyenne 26,1 30,4

Le 𝑡 de Student empirique est égal à :

𝑟 0,892 0,892
𝑡 cal = √︃ = √︃ = = 5,58 > 𝑡 80,025 = 2,306.
1−𝑟 2 1−0,8922 0,1598
𝑛−2 10−2

Conclusion : le coefficient de corrélation entre 𝑥 et 𝑦 est significativement différent de 0.


Exemple 3.4. Utiliser les données de l’exercice précédent pour calculer le coefficient de corrélation à
l’aide de la formule (3.9). (Indice : calculer les colonnes 𝑥𝑦, 𝑥 2 et 𝑦 2 .)

3.3.3 Dépendance et causalité


Le fait d’avoir un coefficient de corrélation élevé entre deux variables ne signifie pas qu’il existe
un autre lien que statistique. En d’autres termes, une covariance significativement différente de
0 n’implique pas une liaison d’ordre économique, physique ou autre. C’est l’inconvénient de ce
coefficient. Il donc est utile de toujours garder à l’esprit que la corrélation n’est pas une causalité.

3.3.4 Exercices
1. Sous quelle(s) condition(s) pouvez-vous utiliser le coefficient de corrélation linéaire simple ?
2. On sélectionne un échantillon de pays en développement. Leur espérance de vie à la naissance
en années est donnée dans le tableau ci-dessous pour les hommes et les femmes.
Hommes 59,7 72,9 41,9 46,2 50,3 43,2
Femmes 63,8 77,8 44,5 48,3 54,0 43,5
Calculer la covariance et le coefficient de corrélation linéaire entre l’espérance de vie à la
naissance des hommes et femmes et interpréter vos résultats.
3. Voici les données sur les flux entrant d’investissements directs étrangers (en % du PIB) et
la croissance économique (en %) de la République démocratique du Congo sur la période
2010–2017.
Investissements directs étrangers 12,7 6,2 9,9 5,2 4,2 3,3 2,4 2,8
Croissance économique 7,1 6,9 7,1 8,5 9,5 6,9 2,4 3,7

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 46

Calculer le coefficient de corrélation de la relation linéaire entre les IDE et la croissance


économique et interpréter votre réponse.

3.4 La régression linéaire simple


L’analyse de régression linéaire simple permet de connaître la relation linéaire qui existe entre
deux variables quantitatives en estimant l’équation d’une fonction (la droite de régression), à partir du
modèle suivant :
𝑦 = 𝛽 0 + 𝛽 1𝑥 + 𝜀 (3.11)
où 𝑦 est la variable dépendante, 𝑥 la variable indépendante, 𝜀 un terme d’erreur aléatoire non
observable et 𝛽 0 et 𝛽 1 les paramètres (ou coefficients) à estimer.
Avec un ensemble de 𝑛 observations (𝑥 1, 𝑦1 ), (𝑥 2, 𝑦2 ), . . ., (𝑥𝑛 , 𝑦𝑛 ), le modèle de régression simple
s’écrit :
𝑦𝑖 = 𝛽 0 + 𝛽 1𝑥𝑖 + 𝜀𝑖 (3.12)
Le problème consiste à estimer les paramètres 𝛽 0 et 𝛽 1 , en trouvant les valeurs 𝛽ˆ0 et 𝛽ˆ1 qui
minimisent la distance entre 𝑦𝑖 et (𝛽 0 + 𝛽 1𝑥), c’est-à-dire entre la droite et les différents points du
nuage. En d’autres termes, on cherche à trouver les valeurs 𝛽ˆ0 et 𝛽ˆ1 qui minimisent l’erreur de
l’estimation 𝜀𝑖 = 𝑦𝑖 − 𝛽 0 − 𝛽 1𝑥𝑖 pour tout 𝑖.
Il existe pour cela plusieurs méthodes d’estimation dont la plus fréquente et la meilleure est la
méthode des moindres carrés ordinaire, abrégée MCO, qui consiste à rendre minimale la somme
des carrés des erreurs (résidus).

3.4.1 Estimation des paramètres


L’estimation des paramètres ou coefficients 𝛽 0 et 𝛽 1 se fait par la méthode des moindres carrés
ordinaires (MCO). Les formules de ces deux paramètres sont données par :

Í
(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥)
𝛽ˆ1 = (3.13)
(𝑥𝑖 − 𝑥) 2
Í

𝛽ˆ0 = 𝑦 − 𝛽ˆ1𝑥 (3.14)

On peut ainsi écrire l’équation de la droite de régression :

𝑦ˆ𝑖 = 𝛽ˆ0 + 𝛽ˆ1𝑥𝑖 (3.15)

Cette droite permet :


– d’expliquer la variation des valeurs de la variable 𝑦 en fonction de celles de 𝑥 ;
– de prédire les valeurs de la variable 𝑦 pour de nouvelles valeurs de 𝑥.
Démonstration. Il est important de savoir la logique des moindres carrés ordinaires. Le principe
opérationnel de cette méthode consiste à minimiser la somme des carrés des résidus.
Soit 𝜀𝑖 = 𝑦𝑖 − 𝑦ˆ𝑖 le résidu de l’estimation, la méthode des MCO conduit à la résolution d’un
problème d’optimisation classique sans contrainte en minimisant la fonction de deux variables 𝛽 0 et
𝛽1
𝑛 𝑛
 ∑︁ ∑︁
𝑓 𝛽 0,𝛽 1 = 2
𝜀𝑖 = (𝑦𝑖 − 𝛽 0 − 𝛽 1𝑥𝑖 ) 2 (3.16)
𝑖=1 𝑖=1

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 47

La condition de minimisation (condition du premier ordre 3 ) est :


𝜕𝑓
=0 (3.17)
𝜕𝛽 0
𝜕𝑓
=0 (3.18)
𝜕𝛽 1
Le développement de l’équation (3.17) donne :
𝜕𝑓 ∑︁ ∑︁
= −2 (𝑦𝑖 − 𝛽 0 − 𝛽 1𝑥𝑖 ) = 0 ⇔ (𝑦𝑖 − 𝛽 0 − 𝛽 1𝑥𝑖 ) = 0
𝜕𝛽 0
∑︁ ∑︁ ∑︁
⇔ 𝑦𝑖 − 𝛽0 − 𝛽 1𝑥 𝑖 = 0
∑︁ ∑︁
⇔ 𝑦𝑖 − 𝑛𝛽 0 − 𝛽 1 𝑥𝑖 = 0

En divisant les deux membres de l’égalité par 𝑛, on obtient :

𝑦 − 𝛽 0 − 𝛽 1𝑥 = 0
et donc
𝛽ˆ0 = 𝑦 − 𝛽 1𝑥 (3.19)
La valeur de 𝛽ˆ0 étant trouvée, on la remplace dans la fonction de départ (équation 3.16) et on
développe :
𝑛 𝑛
 ∑︁ ∑︁
𝑓 𝛽 0,𝛽 1 = 𝜀𝑖2 = (𝑦𝑖 − 𝛽 0 − 𝛽 1𝑥𝑖 ) 2
𝑖=1 𝑖=1
𝑛
∑︁
= (𝑦𝑖 − 𝑦 + 𝛽 1𝑥 − 𝛽 1𝑥𝑖 ) 2
𝑖=1
𝑛 (3.20)
∑︁  2
= (𝑦𝑖 − 𝑦) − 𝛽 1 (𝑥𝑖 − 𝑥)
𝑖=1
𝑛
∑︁  
= (𝑦𝑖 − 𝑦) 2 − 2𝛽 1 (𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) + 𝛽 12 (𝑥𝑖 − 𝑥) 2
𝑖=1

La condition de minimisation (3.18) donne alors :


𝑛 𝑛
𝜕𝑓 ∑︁ ∑︁
= 0 ⇔ −2 (𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) + 2𝛽 1 (𝑥𝑖 − 𝑥) 2 = 0
𝜕𝛽 1 𝑖=1 𝑖=1
Í (3.21)
(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) □
⇔ 𝛽ˆ1 =
(𝑥𝑖 − 𝑥) 2
Í

Remarques.
– Le coefficient 𝛽ˆ1 représente la pente de la droite ou encore une propension marginale. Dans
la relation macroéconomique entre la consommation et le revenu (𝐶 = 𝑐𝑌 + 𝐶 0 ), il représente
ce que les économistes appellent la propension marginale à consommer. Dans la fonction
d’épargne (𝑆 = (1 − 𝑐)𝑌 + 𝐶 0 ), il représente la quantité notée 1 − 𝑐 qu’on appelle propension
marginale à épargner. Dans la fonction d’imposition (𝑇 = 𝑡𝑌 + 𝑇0 ), c’est le taux d’imposition
marginal.

3. La fonction 𝑓 est convexe. Nous considérons donc les conditions du deuxième ordre comme vérifiées.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 48

– En divisant par 𝑛 le numérateur et le dénominateur de l’expression de 𝛽ˆ1 , sa formule devient :


1 ∑︁
(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥)
𝛽ˆ1 = 𝑛
1 ∑︁
(𝑥𝑖 − 𝑥) 2
𝑛
𝐶𝑜𝑣 (𝑥,𝑦)
= (𝜎𝑥2 est la variance de la variable 𝑥)
𝜎𝑥2
La droite de régression passe par le point 𝐺 (𝑥, 𝑦) et sa pente est égale au rapport de la
covariance par la variance de 𝑥.
– Nous pouvons démontrer 4 que la formule (3.21) de 𝛽ˆ1 peut s’écrire :
𝑛
∑︁
𝑥𝑖 𝑦𝑖 − 𝑛(𝑥 · 𝑦)
𝑖=1
𝛽ˆ1 = 𝑛 (3.22)
∑︁
2
𝑥𝑖2 − 𝑛𝑥
𝑖=1

– Nous pouvons également montrer que la formule (3.21) de 𝛽ˆ1 peut s’écrire sous la forme
suivante :
𝑛 𝑛
! 𝑛 !
∑︁ ∑︁ ∑︁
𝑛 𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝛽ˆ1 = !2 (3.23)
∑︁𝑛 𝑛
∑︁
𝑛 𝑥𝑖2 − 𝑥𝑖
𝑖=1 𝑖=1

Exemple 3.5. Reprenons les données de l’exemple 3.3 et calculons les paramètres 𝛽ˆ0 et 𝛽ˆ1 .
Nous avons :
Í
(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) 351,6
𝛽ˆ1 = = = 0,714
(𝑥𝑖 − 𝑥) 2
Í
492,4
𝛽ˆ0 = 𝑦 − 𝛽ˆ1𝑥 = 26,1 − 0,714 · 30,4 = 4,3944.
Exemple 3.6. Voici un échantillon de données.
𝑥 0 3 4 3 5
𝑦 4 3 2 1 0
Écrire l’équation de la droite de régression et prédire la valeur de 𝑦 pour 𝑥 = 6.
Solution
Nous construisons le tableau :
𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖2
1 0 4 0 0
2 3 3 9 9
3 4 2 8 16
4 3 1 3 9
5 5 0 0 25
Í
15 10 20 59
4. chaque étudiant.e peut démontrer ce résultat en exercice.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 49

Ainsi, partant des formules (3.23) et (3.19), nous avons :


5 · 20 − 15 · 10 5
𝛽ˆ1 = = − ≃ −0,714
5 · 59 − 15 · 15 7
10 5 15 29
𝛽ˆ0 = 𝑦 − 𝛽ˆ1𝑥 = − (− ) · = ≃ 4,143.
5 7 5 7
La droite qui aligne mieux ces cinq points a pour équation

𝑦 = −0,714𝑥 + 4,143.

Nous pouvons prédire la valeur de 𝑦 pour 𝑥 = 6 :

𝑦 = −0,714 · 6 + 4,143 = −0,141.

Exemple 3.7. Un professeur de statistiques veut utiliser le nombre d’absences dans une classe durant
un semestre (𝑥) pour prédire le pourcentage final à aux examens de ce semestre (𝑦). À partir des données
collectées au sein d’une école, un modèle de régression est estimé :

𝑦ˆ𝑖 = 85,0 − 5𝑥𝑖

Quelle est l’interprétation de ce modèle de régression ?


Solution
Le terme indépendant 𝛽ˆ0 = 85,0 indique que quand un élève ne s’absente pas durant le semestre, le
pourcentage prédit est de 85,0 % en moyenne. Le signe de la pente 𝛽ˆ1 = −5 donne le sens de la corrélation
(qui est négative dans cet exemple) entre le nombre d’absences et le pourcentage obtenu. La valeur de
la pente indique que chaque augmentation du nombre d’absences provoque une variation de −5 sur le
pourcentage final du semestre. En d’autres termes, toutes choses restant égales par ailleurs, le pourcentage
final du semestre est prédit décroître d’en moyenne 5 points de pourcentage à chaque absence de classe
durant ce semestre.

3.4.2 Analyses post-estimations


Après avoir estimé les paramètres d’un modèle de régression linéaire, il convient d’effectuer
certaines analyses essentielles avant d’effectuer les prévisions – un des objectifs principaux de la
détermination d’une équation de régression est de pouvoir effectuer des prévisions –.

3.4.2.1 Analyse de la variance


Deux propriétés :
1. La somme des résidus est nulle. (Résidus : écarts entre les valeurs de 𝑦 et les valeurs 𝑦ˆ estimées
à l’aide de la droite de régression.)
On note ∑︁ ∑︁
𝜀𝑖 = (𝑦𝑖 − 𝑦ˆ𝑖 ) = 0 (3.24)
Démonstration.
∑︁ ∑︁
𝑦𝑖 = 𝛽ˆ0 + 𝛽ˆ1𝑥𝑖 + 𝜀𝑖 ⇔ ( 𝛽ˆ0 + 𝛽ˆ1𝑥𝑖 + 𝜀𝑖 )
𝑦𝑖 =
∑︁ ∑︁ ∑︁
⇔ 𝜀𝑖 = 𝑦𝑖 − 𝑛 𝛽ˆ0 − 𝛽ˆ1 𝑥𝑖
𝑖
1 ∑︁ 1 ∑︁ 1 ∑︁
⇔ 𝜀𝑖 = 𝑦𝑖 − (𝑦 − 𝛽ˆ1𝑥) − 𝛽ˆ1 ( 𝑥𝑖 )
𝑛 𝑖 𝑛 𝑖 𝑛 𝑖

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 50

∑︁
⇔ 𝜀𝑖 = 𝑛(𝑦 − 𝑦 + 𝛽ˆ1𝑥 − 𝛽ˆ1𝑥)
𝑖
∑︁
⇔ 𝜀𝑖 = 0 □
𝑖

2. Il y a égalité entre la moyenne de la série à expliquer et la moyenne de la série ajustée. On


note :
𝑦 = 𝑦.
ˆ (3.25)

Démonstration.
∑︁ ∑︁ ∑︁
𝜀𝑖 = 𝑦𝑖 − 𝑦ˆ𝑖 ⇔ 𝜀𝑖 = 𝑦𝑖 − 𝑦ˆ𝑖
𝑖 𝑖 𝑖
∑︁ ∑︁ Í
⇔0= 𝑦𝑖 − 𝑦ˆ𝑖 (car 𝜀𝑖 = 0)
𝑖 𝑖
∑︁ ∑︁
⇔ 𝑦𝑖 = 𝑦ˆ𝑖
𝑖 𝑖
⇔ 𝑦 = 𝑦.
ˆ □

À partir de ces propriétés, on peut démontrer 5 aisément que


Í 2 = Í (𝑦ˆ − 𝑦) 2 + Í (𝑦 − 𝑦)
𝑖 (𝑦𝑖 − 𝑦) 𝑖 𝑖 𝑖 ˆ 2
(3.26)
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅.

SCT : Somme des carrés totale


SCE : Somme des carrés expliquée ou somme des carrés de la régression
SCR : Somme des carrés des résidus (ou somme des carrés des erreurs).

La variabilité totale (SCT) est égale à la variabilité expliquée (SCE) + la variabilité des
résidus (SCR).

3.4.2.2 Le coefficient de détermination


En élevant le coefficient de corrélation au carré, on obtient le coefficient de détermination (𝑟 2 ).
Exprimé en pourcentage, il indique la part de la variation de la variable 𝑌 expliquée par la droite de
régression.
Si tous les points ne sont pas situés sur la droite de régression, c’est que d’autres facteurs influent
sur la variation de la variable 𝑌 ; on dira que (1 − 𝑟 2 ), exprimé en pourcentage, est la part de la
variation de la variable 𝑌 qui est attribuable à ces facteurs. Par exemple, si nous trouvons 𝑟 2 = 0,89,
nous dirons que notre droite de régression explique la variation de la variable 𝑦 à 89 % et donc que 11
% de la variation de 𝑦 est attribuable à d’autres facteurs.
On peut aussi calculer le coefficient de détermination à partir du rapport
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑟2 = =1− . (3.27)
𝑆𝐶𝑇 𝑆𝐶𝑇
La formule (3.27) donne une réponse égale à celle qu’on pourrait obtenir en élevant au carré le
coefficient de corrélation linéaire simple (formule (3.8)).
5. Chaque étudiant.e peut démontrer ce résultat en exercice.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 51

Exemple 3.8. Reprenons les données de l’exemple 3.3 et calculons le coefficient de détermination.
ˆ (𝑦ˆ − 𝑦) 2 et (𝑦 − 𝑦)
Après avoir calculé les trois colonnes : 𝑦, ˆ 2 , nous avons :
Somme des carrés
Régression (SCE) 251,061251
Résidus (SCR) 63,83874898
Total (SCT) 314,9

𝑆𝐶𝐸 251,061251
𝑟2 = = = 0,79727 ≃ 80 %.
𝑆𝐶𝑇 314,9
On remarquera qu’il est égal au carré du coefficient de corrélation que nous avons trouvé précédem-
ment (exemple 3.3 page 44) :

𝑟 = 0, 892 ⇔ 𝑟 2 = 0,795664 ≃ 80 %.

Interprétation : 80 % de la variation du rendement de maïs sont expliqués par la quantité d’engrais


utilisés. On note en même temps que 20 % de la variation du rendement de maïs ne sont pas expliqués
par la quantité d’engrais utilisés mais par d’autres facteurs exogènes.

3.4.3 Tests de signification


✘ Cette section est vide, insuffisamment détaillée ou incomplète.

Il convient de souligner que même lorsque le coefficient de détermination est très grand (proche
de 1), l’utilisation de l’équation estimée de la régression n’est pas pertinente aussi longtemps qu’une
analyse plus approfondie de la robustesse du modèle ne sera pas faite. Il est nécessaire d’effectuer des
tests de signification de la relation. Nous allons voir deux tests, l’un portant sur la signification des
paramètres et l’autre sur la signification globale du modèle.

3.4.4 Exercices
1. Un économiste désire analyser la relation entre la consommation et le revenu. Les données
d’un ménage observé sur 10 ans sont fournies dans le tableau ci-après.
Année Consommation Revenu
1 7 300 8 000
2 8 150 9 000
3 8 850 9 500
4 8 650 9 500
5 8 700 9 800
6 9 600 11 000
7 10 650 12 000
8 11 150 13 000
9 12 800 15 000
10 13 850 16 000
a) Calculer le coefficient de corrélation et interpréter.
b) Déterminer la propension marginale à consommer et la consommation incompressible.
Interprétez-les.
c) Écrire l’équation de la droite de régression et interpréter.

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 52

d) Calculer le coefficient de détermination et interpréter.


e) Déterminer le niveau de la consommation pour un revenu de 10 000.
2. Un environnementaliste veut déterminer la relation entre le nombre de forêts brûlés (en milliers)
au cours d’une année et le nombre d’hectares brulés (en milliers). Les données pour 8 ans sont
reprises ci-dessous. Décrire cette relation et estimer le nombre d’hectares brûlés si, au cours
d’une année, il y a eu 40 000 forêts brûlés.
Nombre de feux (𝑥) 72 69 58 47 84 62 57 45
Nombre d’hectares brûlés (𝑦) 62 42 19 26 51 15 30 15
3. On sélectionne un échantillon de pays en développement. Leur espérance de vie à la naissance
en années est donné dans tableau ci-dessous pour les hommes et les femmes.
Hommes 59,7 72,9 41,9 46,2 50,3 43,2
Femmes 63,8 77,8 44,5 48,3 54,0 43,5
Estimer l’espérance de vie à la naissance des femmes dans un pays où l’espérance de vie à la
naissance de hommes égale à 60 ans.
4. Voici les données sur les flux entrant d’investissements directs étrangers (en % du PIB) et la
croissance économique de la République démocratique du Congo sur la période 2010–2017.
Investissements directs étrangers 12,7 6,2 9,9 5,2 4,2 3,3 2,4 2,8
Croissance économique 7,1 6,9 7,1 8,5 9,5 6,9 2,4 3,7

a) Écrire l’équation de la droite de régression estimant la relation entre les IDE (𝑥) et la
croissance économique (𝑦) ?
b) Estimer la croissance économique des années 2018 et 2019 sachant que les niveaux des
IDE sont respectivement de 3 % et 2,8 %.
5. Quelle est la relation entre le signe du coefficient de corrélation et le signe de la pente de la
droite de régression ?
6. Démontrez les formules suivantes : !2
𝑛 𝑛 𝑛
∑︁ ∑︁ 1 ∑︁
a) SCT = (𝑦𝑖 − 𝑦) 2 = 𝑦𝑖2 − 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑖=1
𝑛 𝑛 𝑛 𝑛
!2
∑︁ ∑︁ ∑︁ 1 ∑︁
b) SCE = (𝑦ˆ𝑖 − 𝑦) 2 = 𝛽 0 𝑦𝑖 + 𝛽 1 𝑥𝑖 𝑦𝑖 − 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑖=1
𝑛
∑︁ ∑︁𝑛 ∑︁𝑛 𝑛
∑︁
c) SCR = (𝑦𝑖 − 𝑦ˆ𝑖 ) 2 = 𝑦𝑖2 − 𝛽ˆ0 𝑦𝑖 − 𝛽ˆ1 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1

✪✪✪✪✪

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL


3.4 La régression linéaire simple 53

❝ La compréhension des maths passe par les


doigts... et monte jusqu’au cerveau. ❞

– Anonyme

B. M. Selenge SEG1112 Statistique descriptive • UNIKAL

Vous aimerez peut-être aussi