Bac1 - Statistique Descriptive (2023-2024)
Bac1 - Statistique Descriptive (2023-2024)
Bac1 - Statistique Descriptive (2023-2024)
Notes de cours
Bienvenu M. Selenge
© 2023 B. M. Selenge
Typographié avec LATEX en Linux Libertine 12pt.
Table des matières
Introduction 4
3.1.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 La covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 La corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.1 Types de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2 Le coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . 43
3.3.3 Dépendance et causalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4 La régression linéaire simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4.2 Analyses post-estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.3 Tests de signification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Quoi ? Pourquoi ?
La statistique est un ensemble de principes et de méthodes scientifiques pour recueillir, classer,
synthétiser et communiquer des données numériques en vue de leur utilisation pour en tirer des
conclusions et prendre des décisions. Il est d’usage de considérer deux approches de l’analyse
statistique : la description et la déduction ou l’inférence.
La statistique descriptive constitue la première étape de l’analyse des données. L’objectif poursuivi
est de trois ordres :
1. Obtenir un contrôle des données et éliminer les données aberrantes ;
2. Résumer les données sous formes de tableaux ou des graphiques ;
3. Étudier les particularités de ces données, ce qui permettra éventuellement de choisir les mé-
thodes les plus complexes.
Les méthodes descriptives ou exploratoires se classent en deux catégories qui souvent sont
complémentaires :
– la description numérique : valeurs centrales, paramètres de dispersion, paramètres de forme.
– la description graphique : description de la densité ou histogramme, diagrammes, fonction de
répartition, etc.
Pré-requis
L’étudiant doit avoir, au départ, des connaissances bien maitrisées en arithmétique et une culture
générale en économie. La maîtrise de l’algèbre est un atout.
Bibliographie
Anderson, David R. et al. (2015). Statistiques pour l’économie et la gestion. 5e éd. Paris : De Boeck
Supérieur.
Bailly, Pierre et Christine Carrère (2015). Statistiques descriptives : l’économie et les chiffres. Presses
universitaires de Grenoble.
Bluman, Allan G. (2018). Elementary statistics : a step by step approach. 10e éd. New York, NY :
McGraw-Hill Education.
Dodge, Yadolah (2006). Premiers pas en statistique. Paris : Springer-Verlag.
Haccoun, Robert et Denis Cousineau (2010). Statistiques : concepts et applications. 2e éd. Québec :
Presses de l’Université de Montréal.
Leboucher, Lucien et Marie-José Voisin (2011). Introduction à la statistique descriptive. Toulouse,
France : Cépaduès-Éditions.
Mazerolle, Fabrice (2006). Statistiques descriptives. Paris : Gualino.
TABLE DES MATIÈRES 5
McClave, James, George Benson et Terry Sincich (2018). Statistics for Business and Economics. 13e éd.
Harlow, UK : Pearson Education.
Les modalités d’un caractère statistique sont les différentes situations, particularités ou valeurs
possibles de ce caractère. Les modalités doivent être à la fois exclusives et exhaustives, ce qui
signifie qu’un individu doit présenter une seule modalité et une seule de la variable, et toutes les
modalités doivent englober les différentes particularités ou valeur susceptibles d’être observées dans
la population. Modalité : valeur que le caractère peut prendre.
Exemple 1.4. Les modalités du caractère « sexe » sont : masculin et féminin ; les modalités du caractère
« état matrimonial » sont : célibataire, marié, divorcé, veuf. Les modalités du caractère « âge » sont les
différents âges possibles que les enquêtés vont donner, par exemple, 15, 16, . . ., 80, etc.
Question de réflexion : quelles sont les modalités du caractère « dépense alimentaire journalière » ?
Lorsque les modalités d’une variable qualitative ne peuvent pas être ordonnées objectivement (état
civil, profession, province d’origine,...), la variable est dite nominale ou catégorielle.
Une variable quantitative peut être :
– Discrète : si elle ne prend que des valeurs isolées, souvent entières. Par exemple, les variables
représentant le nombre d’enfant dans une famille, le nombre des chambre dans une maison, le
nombre des classes dans une école, le nombre d’étudiants dans une promotion, etc.
– Continue : si elle prend sa valeur sur un intervalle ; souvent sa valeur exprime le résultat d’une
mesure, d’une évaluation par un nombre plus approché. Par exemple, la variable représentant
la taille d’un individu, la température, le poids, etc.
Remarque. Parfois, un code numérique ou des labels non numériques peuvent être utilisés pour
représenter les différentes modalités d’une variable qualitative. Par exemple, pour la variable sexe,
1 pour représenter le sexe masculin et 2 pour le sexe féminin. Dans ce cas la variable est toujours
qualitative même si les données apparaissent sous forme de valeurs numériques.
2 7 7 9 4
5 6 6 7 2
0 3 5 4 3
8 8 9 1 0
Supposons que le tableau ci-dessus a été rempli horizontalement, on a par exemple : 𝑥 1 = 1, 𝑥 2 = 7,
etc.
Une série statistique double est l’ensemble des 𝑛 couples des valeurs pour deux variables, chaque
couple de valeurs représentant les valeurs prises par ces deux variables respectivement sur une unité
statistique. Exemple : pour les variables 𝑋 et 𝑌 la série double relative à ces deux variables se présente
comme suit : (𝑥 1 , 𝑦1 ), (𝑥 2 , 𝑦2 ),. . ., (𝑥𝑛 , 𝑦𝑛 ).
Ménage 𝑛 o 1 2 3 4 5 ···
Taille 2 11 3 3 2 ···
Consommation 3000 5000 10000 6000 7500 ···
𝑝𝑖 = 𝑓𝑖 × 100 % (1.3)
La fréquence relative d’une modalité varie entre 0 et 1. Par ailleurs, la somme de fréquences
relatives de toutes les modalités d’une variable est égale à 1, c’est-à-dire
𝑘
∑︁
0 ⩽ 𝑓𝑖 ⩽ 1 et 𝑓𝑖 = 1.
𝑖=1
2. La quantité 𝑒𝑖+1 − 𝑒𝑖 est appelée amplitude de classe. Elle est notée 𝑎𝑖 . Les classes peuvent avoir
une amplitide variable ou constante. Si les classes sont d’égale amplitude, celle-ci se définit
simplement par
𝐸𝑉
𝑎𝑖 = (1.6)
𝑘
avec 𝑘 le nombre de classes et 𝐸𝑉 , l’étendue de variation de la série d’observations :
Tableau 1.3 – Tableau statistique pour une variable quantitative continue (données groupées en classes).
Exemple 1.7. Le Tableau 1.4 est le tableau statistique correspondant aux données de l’exemple 1.5.
On a :
∑︁𝑘 11
∑︁
𝑛= 𝑛𝑖 = 𝑛𝑖 = 𝑛 1 + 𝑛 2 + · · · + 𝑛 11 = 2 + 1 + 2 + 2 + . . . = 20
𝑖=1 𝑖=1
On a aussi, par exemple,
𝑛1 2 𝑛2 1
𝑓1 = = = 0,10 𝑓2 = = = 0,05 𝑓3 = . . .
𝑛 20 𝑛 20
Tableau 1.4
diverses autres options (bois, électricité, pédagogie, sociale, etc.) Construire le diagramme circulaire de
cette distribution.
Solution
D’abord nous calculons le tableau des fréquences ci-après.
Exemple 1.9. Pour chacun de deux exemples ci-dessous, tracer le graphique représentant ces données.
1. On interroge 11 personnes sur leurs préférences concernant les 4 produits A, B, C, D. Chaque
personne doit choisir seulement un produit. On obtient les résultats suivants :
𝐴 𝐶 𝐵 𝐴
𝐵 𝐴 𝐴 𝐵
𝐷 𝐵 𝐴
2. On demande à 11 couples le nombre d’enfants qu’ils désireraient avoir après le mariage. On obtient
les résultats suivants :
1 2 1 2
2 1 2 1
1 3 4.
Solution
Nous construisons les tableaux de fréquence pour pouvoir tracer aisément les graphiques demandés :
Exemple 1.10. Représentez graphiquement la répartition des familles selon le nombre d’enfants par un
graphique différentiel et par un graphique cumulatif.
Nombre d’enfants 0 1 2 3 4 et +
Nombre de familles 7000 3600 3300 1300 500
Solution
Pour répondre à la question, il est nécessaire de construire le tableau statistique.
(a) Fréquence relative : le diagramme en bâtons. (b) Fréquence cumulée : la courbe en escaliers
Exemple 1.11. Les données suivantes se rapportent à la durée d’incubation (en jours) d’une maladie
chez 200 enfants. Construire le graphique représentant ces données.
Solution
Voici deux versions d’histogramme (figure 1.5).
Remarque. Si les classes n’ont pas la même amplitude, la hauteur des rectangles est trouvée par la
formule :
𝑓𝑖
ℎ𝑖 =
𝑎𝑖
cumulative des effectifs (ou des fréquences) s’obtient en joignant les points d’abscisse : la borne
supérieure de la classe, et d’ordonnée : l’effectif cumulé croissant correspondant.
Voici la courbe de fréquences cumulées (Figure 1.6) relativement à l’exemple 1.11.
1.7.4.2 Le radar
Parmi les différents types de représentation nous devons évoquer le diagramme polaire (aussi
appelé radar ou toile) qui permet de visualiser un phénomène sur plusieurs axes. Dans un graphique
à coordonnées cartésiennes, un point 𝑀 est repéré par ses coordonnées (𝑥 et 𝑦) ; dans un graphique
→−
polaire, il l’est par l’angle 𝜃 (angle polaire) et la mesure algébrique 𝜌 du vecteur 𝑂 𝑀.
Un exemple de ce type de graphique est connu sous le nom de carré magique de Nicolas Kaldor
(Économiste britannique) résume la situation économique conjoncturelle d’un pays en retenant
quatre objectifs de politique économique :
Exemple 1.12. Voici un exemple (les données sont fictives) pour trois pays : la République démocratique
du Congo, la Tanzanie et la Zambie.
Exemple 1.13. Nous donnons ci-dessous (fig. 1.9) deux cartogrammes, le premier représente le nombre
d’ONG par zone de santé dans la province du Tanganyika en septembre 2020 et le deuxième représente le
nombre de violations des droits de l’homme dans les provinces affectées par les conflits en RDC en 2020.
(a) Organisations opérationnelles au Tanganyika par zone de santé. (b) Violations des droits humains en RDC en 2020
Le développement des logiciels (Microsoft Word, Microsoft Excel, Stata, R, SPSS, etc.) a simplifié
grandement la tracée et la conception des graphiques. Les graphiques de ce chapitre ont été tracées
en partie avec Excel. Chaque étudiant.e est invité.e également à effectuer des recherches personnelles
pour exploiter au maximum les possibilités qu’offrent les logiciels statistiques.
1.8 Exercices
1. On veut savoir la couleur préférée des étudiants de Bac 1 Économie & Gestion. Pour ce faire, on
demande la couleur préférée à 25 étudiants de cet auditoire. On obtient les réponses suivantes :
vert, jaune, rose, bleu, bleu, vert, bleu, jaune, vert, bleu, rouge, vert, rose, rose, rose,
bleu, blanc, noir, rose, rose, jaune, vert, rose, blanc, rouge.
a) Quel est le caractère étudié ?
b) Quelles sont les modalités ?
c) Le caractère est-il qualitatif ou quantitatif ?
d) Identifiez la population étudiée.
e) Identifiez l’échantillon.
f) Effectuez le pointage et construire le tableau statistique.
g) Représentez ces données graphiquement.
2. On a questionné 100 ménages de la commune du Lac (ville de Kalemie) sur le nombre d’ampoules
électriques utilisées dans leur domicile. On obtient les réponses suivantes :
2 11 8 3 4 8 7 10 11 8 7 4 15 13 6 11 8 10 9 14
9 5 8 12 8 2 10 4 8 6 15 8 2 14 4 14 9 11 8 4
14 5 2 9 10 7 8 14 7 4 12 2 10 11 4 2 5 14 7 4
9 9 6 2 5 9 10 8 7 12 6 4 13 3 3 12 7 8 15 7
9 7 10 12 13 3 8 12 15 15 4 11 5 6 12 9 5 7 5 2
Les exemples de séries statistiques rencontrées dans les chapitres précédents montrent qu’en
général les données d’une série statistique accusent une certaine accumulation des effectifs autour
d’une variable particulière. Il est donc intéressant de spécifier la valeur remarquable autour de laquelle
se produit cette tendance à l’accumulation.
𝑘 𝑘
1 ∑︁ ∑︁
𝑥= 𝑥 𝑖 𝑛𝑖 ou 𝑥 = 𝑥𝑖 𝑓𝑖 (2.2)
𝑛 𝑖=1 𝑖=1
avec 𝑘 le nombre de modalités, 𝑛𝑖 la fréquence absolue (effectif), 𝑓𝑖 la fréquence relative.
3. Données groupées en classes :
𝑘 𝑘
1 ∑︁ ∑︁
𝑥= 𝑥 𝑖 𝑛𝑖 ou 𝑥 = 𝑥𝑖 𝑓𝑖 (2.3)
𝑛 𝑖=1 𝑖=1
avec 𝑘 le nombre de classes, 𝑥𝑖 le centre de classe, 𝑛𝑖 l’effectif de la classe.
𝑘
1 ∑︁
𝑥= (𝑥𝑖 − 𝑥) = 0 (2.4)
𝑛 𝑖=1
𝑘
∑︁
𝑥= 𝑓𝑖 (𝑥𝑖 − 𝑥) = 0 (2.5)
𝑖=1
𝑘
1 ∑︁
𝑥= 𝑛𝑖 (𝑥𝑖 − 𝑥) = 0 (2.6)
𝑛 𝑖=1
Exemple 2.1. Voici deux versions de la distribution de la taille d’un échantillon de 300 personnes.
Pour le premier tableau, la taille moyenne est égale à 1,65 m tandis que pour le second, la taille
moyenne est égale à 1,71 m.
Exemple 2.2. Supposons que les données suivantes représentent les ménages d’une région selon
le nombre de personnes (en milliers) et proposons-nous de calculer la moyenne.
Exemple 2.3. On a fait passer une épreuve aux étudiants des cinq promotions de BAC 1 et l’on a
calculé la moyenne arithmétique des résultats obtenus dans chacune des promotions.
Faculté Effectifs 𝑥
Économie 22 89,7
Agronomie 35 69,4
Droit 27 70,5
Psychologie 23 81,1
Informatique 41 69,6
Quelle est la moyenne arithmétique de l’échantillon ?
Solution
22(89,7) + 35(69,4) + 27(70,5) + 23(81,1) + 41(69,6)
𝑥= = 74,4%.
22 + 35 + 27 + 23 + 41
𝑛
∑︁
𝑝𝑖 𝑥𝑖
𝑖=1
𝑥= 𝑛 (2.8)
∑︁
𝑝𝑖
𝑖=1
Avec 𝑝𝑖 : le poids.
Exemple 2.4. Soit un étudiant qui a passé trois examens : algèbre (crédits : 3), droit (crédit : 2) et histoire
(crédit : 1). Ses notes sont respectivement 15, 12 et 10. La moyenne pondérée de ses notes est :
𝑛
∑︁
𝑝𝑖 𝑥𝑖
𝑖=1 3 × 15 + 2 × 12 + 1 × 10 87
𝑥= = = = 14.5
𝑛
∑︁ 3+2+1 6
𝑝𝑖
𝑖=1
La note moyenne de l’étudiant est donc 14,5.
Exemple 2.5. Supposons qu’on ait les données suivantes sur le nombre de ventes et le prix unitaire de
différents produits :
Produit Nombre de ventes Prix unitaire (en euros)
A 10 5
B 15 4
C 20 3
D 25 2
Si on veut calculer le prix moyen pondéré par le nombre de ventes, on aura :
𝑛
∑︁
𝑝𝑖 𝑥𝑖
𝑖=1 10 × 5 + 15 × 4 + 20 × 3 + 25 × 2
𝑥= = = 3,29
𝑛
∑︁ 10 + 15 + 20 + 25
𝑝𝑖
𝑖=1
Le prix moyen pondéré par le nombre de ventes est donc 3,29 euros.
2.1.1.3.3 Moyenne harmonique La moyenne harmonique est une mesure de tendance centrale
qui s’applique lorsque les données ont des liens de proportionnalité inverse. Par exemple, la vitesse
moyenne d’un trajet aller-retour n’est pas la moyenne arithmétique des vitesses aller et retour, mais
la moyenne harmonique.
La formule de la moyenne harmonique de 𝑛 nombres réels strictement positifs 𝑥 1, 𝑥 2, ..., 𝑥𝑛 est :
𝑛
𝐻= 𝑛 (2.10)
∑︁ 1
𝑖=1
𝑥𝑖
Exemple 2.8. Soit un trajet de 100 km, effectué à une vitesse de 80 km/h à l’aller et de 120 km/h au
retour. La vitesse moyenne du trajet est la moyenne harmonique de 80 et 120, c’est-à-dire :
2 2 2 2 × 9600
𝐻= 1 1
= 120+80
= 200
= = 96
80 + 120 80×120 9600
200
La vitesse moyenne du trajet est donc 96 km/h. Cela veut dire que le temps total du trajet aller-retour
est le même que si l’on a effectué le trajet à 96 km/h à l’aller et au retour.
2.1.2 La médiane
On appelle valeur médiane ou simplement médiane d’une variable statistique, la valeur de la
variable observée se situant au milieu après sériation des résultats de la distribution considérée. Elle
est notée 𝑀𝑒 .
La médiane est une autre mesure de tendance centrale pour une variable. Lorsque les données
sont classées en ordre croissant (de la plus petite à la plus grande valeur), la médiane correspond à la
valeur centrale.
42 32 46 48 54
Solution
D’abord on ordonne ces valeurs : 32 42 46 48 54. La médiane est égale à 46.
– Si le nombre d’observations est pair : il n’y a pas une unique valeur centrale. Dans ce cas, la
convention consiste à définir la médiane comme la moyenne des deux valeurs centrales.
42 32 46 48 54 38
Solution
D’abord on ordonne ces valeurs : 32 38 42 46 48 54. La médiane est égale à la moyenne entre 42 et
46, soit 44.
Remarque. Lorsque plusieurs valeurs des données coïncident avec le médian, sa valeur significative
devient douteuse, il est conseillé de faire plutôt confiance à un autre paramètre, tel que le mode.
Par exemple : 3,5,7,8,8,8,8,10,11,13.
Il vaut mieux de dire que 8 apparaît 4 fois.
Exemple 2.11. Supposons la distribution ci-après des surfaces agricoles utiles de la culture du manioc
dans une région donnée et calculons la médiane.
La classe médiane est bien évidemment [15 ; 25[, la médiane est alors (Remarquez 50 à la place de
0,50 dans la formule à cause des fréquences qui sont en %) :
50 − 𝐹𝑖−1 50 − 33,3
𝑀𝑒 = 𝑒𝑖 + 𝑎𝑖 · = 15 + 10 · ≃ 24,1
𝑓𝑖 18,3
𝐹𝑖 − 50 51,7 − 50
𝑀𝑒 = 𝑒𝑖+1 − 𝑎𝑖 · = 25 − 10 · = 24,1.
𝑓𝑖 18,3
Il y a autant d’exploitation ayant une surface supérieure à 24,1 hectares que d’exploitation ayant
moins de 24,1 hectares.
Remarque. La médiane est souvent une mesure préférable de la tendance centrale lorsqu’un ensemble
de données contient des valeurs extrêmes.
2.1.3 Le mode
Le mode (noté 𝑀𝑜 ) est la valeur de caractère pour laquelle la fréquence est maximale dans la
distribution observée. Il correspond à la valeur de la variable pour laquelle la fréquence est la plus
élevée.
– Pour une série non groupée (variable qualitative ou quantitative discrète), le mode est la valeur
la plus fréquente dans la série d’observations. Graphiquement, c’est la catégorie ou la modalité
dont la colonne est la plus élevée.
– Dans le cas d’une variable continue classée, la classe modale est celle dont la fréquence par
unité d’amplitude notée ℎ𝑖 = 𝑓𝑖 /𝑎𝑖 est la plus élevée. On a :
Δ𝑖
𝑀𝑜 = 𝑒𝑖 + 𝑎𝑖 · (2.14)
Δ𝑖 + Δ𝑖+1
avec 𝑀𝑜 le mode, 𝑒𝑖 limite inférieure de la classe modale, 𝑎𝑖 l’amplitude de la classe modale,
Δ𝑖 = ℎ𝑖 − ℎ𝑖−1 différence entre la fréquence de la classe modale et la fréquence de la classe
précédente dans la distribution, Δ𝑖+1 = ℎ𝑖 −ℎ𝑖+1 différence entre la fréquence de la classe modale
et la fréquence de la classe suivante dans la distribution.
Exemple 2.12. Reprenons les données de l’exemple 2.11. (Les ℎ𝑖 sont multipliés par 100 pour plus de
lisibilité.)
Classes (en ha) 𝑎𝑖 𝑛𝑖 𝑓𝑖 (en %) ℎ𝑖 = 𝑓𝑖 /𝑎𝑖 · 100
[0 ; 5[ 5 5 8,3 166,7
[5 ; 15[ 10 15 25,0 250
[15 ; 25[ 10 11 18,3 183,3
[25 ; 50[ 25 20 33,3 133,3
[50 ; 100[ 50 7 11,7 23,3
[100 ; 150] 50 2 3,3 6,7
Í
//// 60 100,0 /////
La classe modale se repère facilement : [5 ; 15[. On peut ainsi calculer la valeur du mode.
Δ𝑖 250 − 166,7
𝑀𝑜 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 10,6 ha.
Δ𝑖 + Δ𝑖+1 250 − 166,7 + 250 − 183,3
Remarque. Les distributions statistiques les plus courantes n’ont qu’un seul mode (distribution
unimodale), il arrive de rencontrer des distributions présentant plusieurs modes.
2.2.1 L’étendue
L’étendue 𝑒, autrement appelée l’intervalle de variation ou l’amplitude de la distribution est la
différence entre la plus grande et la plus petite valeur observée. Par exemple, pour les données de
l’exemple 2.11, l’étendue de la distribution vaut 150 − 0 = 150 ha.
0,80 − 𝐹𝑖−1
𝑉4 = 𝑒𝑖 + 𝑎𝑖 · . (2.18)
𝑓𝑖
Les centiles partagent la distribution en 100 parties d’effectifs égaux. Les calculs sont analogues
aux précédents.
– Les quartiles (les formules ont été adaptées vu que les fréquences sont en %) :
50 − 𝐹𝑖−1 50 − 33,3
𝑀𝑒 = 𝑒𝑖 + 𝑎𝑖 · = 15 + 10 · ≃ 24,1 ha
𝑓𝑖 18,3
25 − 𝐹𝑖−1 25 − 8,3
𝑄1 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 11,7 ha
𝑓𝑖 25
75 − 𝐹𝑖−1 75 − 51,7
𝑄3 = 𝑒𝑖 + 𝑎𝑖 · = 25 + 25 · ≃ 42,5 ha
𝑓𝑖 33,3
𝐼𝑄 = 𝑄 3 − 𝑄 1 = 42,5 − 11,7 = 30,8 ha
𝑄 3 42,5
𝐼𝑄 = = ≃ 3,6
𝑄 1 11,7
𝑄 3 − 𝑄 1 30,8
𝐶𝑑𝑖𝑠𝑄 = = ≃ 1,3
𝑀𝑒 24,1
– Les déciles :
10 − 𝐹𝑖−1 10 − 8,3
𝐷 1 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 5,7 ha
𝑓𝑖 25
90 − 𝐹𝑖−1 90 − 85
𝐷9 = 𝑒𝑖 + 𝑎𝑖 · = 50 + 50 · ≃ 57,5 ha
𝑓𝑖 11,7
𝐼𝐷 = 𝐷 9 − 𝐷 1 = 57,5 − 5,7 = 48,8 ha
𝐷 9 57,5
𝐼𝐷 = = ≃ 10,1
𝐷1 5,7
𝐷 9 − 𝐷 1 48,8
𝐶𝑑𝑖𝑠𝐷 = = ≃ 2,0
𝑀𝑒 24,1
– Les quintiles :
20 − 𝐹𝑖−1 20 − 8,3
𝑉1 = 𝑒𝑖 + 𝑎𝑖 · = 5 + 10 · ≃ 9,7 ha
𝑓𝑖 25
80 − 𝐹𝑖−1 80 − 51,7
𝑉4 = 𝑒𝑖 + 𝑎𝑖 · = 25 + 25 · ≃ 46,3 ha
𝑓𝑖 33,3
𝐼𝑉 = 𝑉4 − 𝑉1 = 46,3 − 9,7 = 36,6 ha
𝑉4 46,3
𝐼𝑉 = = ≃ 4,8
𝑉1 9,7
𝑉4 − 𝑉1 36,6
𝐶𝑑𝑖𝑠𝑉 = = ≃ 1,5
𝑀𝑒 24,1
2.2.4.1 La variance
La variance 𝑉 (𝑋 ) est le carré de la moyenne quadratique des écarts à la moyenne arithmétique.
En d’autres termes, la variance est la moyenne arithmétique du carré des écarts par rapport à la
moyenne arithmétique.
– Pour les données brutes, la variance est calculée de la manière suivante :
𝑛
1 ∑︁
𝑉 (𝑋 ) = (𝑥𝑖 − 𝑥) 2 (2.22)
𝑛 𝑖=1
– Pour les données discrètes, groupées en valeurs dans un tableau statistique, la variance s’ex-
prime de la manière suivante :
𝑘 𝑘
1 ∑︁ ∑︁
𝑉 (𝑋 ) = 𝑛𝑖 (𝑥𝑖 − 𝑥) 2 ou 𝑉 (𝑋 ) = 𝑓𝑖 (𝑥𝑖 − 𝑥) 2 (2.23)
𝑛 𝑖=1 𝑖=1
Remarque. Il est utile de savoir distinguer la variance de la population (symbolisée par 𝜎 2 ), la variance
empirique (symbolisée par 𝑠˜2 ou 𝑉 (𝑋 )) et la variance d’un échantillon (symbolisée par 𝑠 2 ).
Cependant, lorsque la variance est calculée sur un échantillon avec la formule (2.22), (2.23)
ou (2.24), elle ne donne pas une bonne estimation de la variance 𝜎 2 de la population. C’est
pourquoi il faut calculer la variance 𝑠 2 de l’échantillon qui donne une bonne estimation de la
variance 𝜎 2 de la population.
– Variance échantillonnale (ou variance corrigée) : notée 𝑠 2 , elle donne une meilleure estimation
de la variance 𝜎 2 de la population :
𝑛
2 1 ∑︁
𝑠 = (𝑥𝑖 − 𝑥) 2 . (2.26)
𝑛 − 1 𝑖=1
Le calcul de la variance à l’aide de la formule de définition est peu commode, l’utilisation des
formules suivantes facilite les calculs :
– À partir des données brutes :
𝑛
1 ∑︁ 2
𝑉 (𝑋 ) = 𝑥 − 𝑥 2. (2.27)
𝑛 𝑖=1 𝑖
𝑛 𝑛
1 ∑︁ 1 ∑︁ 2
𝑉 (𝑋 ) = (𝑥𝑖 − 𝑥) 2 = 𝑥𝑖 − 2𝑥𝑥𝑖 + 𝑥 2
𝑛 𝑖=1 𝑛 𝑖=1
𝑛 𝑛 𝑛
1 ∑︁ 2 1 ∑︁ 1 ∑︁ 2
= 𝑥 − 2𝑥𝑥𝑖 + 𝑥
𝑛 𝑖=1 𝑖 𝑛 𝑖=1 𝑛 𝑖=1
𝑛
1 ∑︁ 2
= 𝑥 − 2𝑥 2 + 𝑥 2
𝑛 𝑖=1 𝑖
𝑛
1 ∑︁ 2
= 𝑥 − 𝑥2 □
𝑛 𝑖=1 𝑖
√︁ √
𝜎 = 𝑉 (𝑋 ) 𝑠 = 𝑠2 (2.29)
v
t 𝑛 v
t 𝑛
1 ∑︁ 1 ∑︁
= (𝑥𝑖 − 𝑥) 2 = (𝑥𝑖 − 𝑥) 2 (2.30)
𝑛 𝑖=1 𝑛 − 1 𝑖=1
On définit aussi le coefficient de variation, qui est le rapport de la moyenne arithmétique à l’écart
type, c’est un nombre sans dimension. Plus il est important et moins la moyenne est significative
pour décrire la distribution.
𝜎
𝐶𝑉 = (2.31)
𝑥
Exemple 2.14. Reprenons les données de l’exemple 2.2 page 22 : ménages selon le nombre de personnes
(en milliers).
𝑘
∑︁ 677,2
𝑉 (𝑋 ) = 𝑓𝑖 𝑥𝑖2 − 𝑥 2 = − (2,262) 2 ≃ 1,655
𝑖=1
100
√︁ √
𝜎 = 𝑉 (𝑋 ) = 1,655 ≃ 1,29 personnes
𝜎 1,29
𝐶𝑉 = = ≃ 0,57
𝑥 2,262
Exemple 2.15. Reprenons les données de l’exemple 2.11 : surfaces agricoles utiles de la culture de manioc
dans une région donnée.
𝑘
∑︁
𝑉 (𝑋 ) = 𝑓𝑖 𝑥𝑖2 − 𝑥 2 = 1740,75 − (31,755) 2 ≃ 732,37
𝑖=1
√︁ √
𝜎 = 𝑉 (𝑋 ) = 732,37 ≃ 27,06 ha
𝜎 27,06
𝐶𝑉 = = ≃ 0,85
𝑥 31,755
2.3 La dissymétrie
Deux séries statistiques peuvent avoir la même moyenne et le même écart type sans pour cela
être identiques. L’un comme l’autre ne rendent pas compte de la dissymétrie de la distribution. Une
estimation de celle-ci est parfois utile.
La dissymétrie est évaluée par divers indicateurs. Les coefficients d’asymétrie mesurent la réparti-
tion des valeurs de part et d’autre d’une valeur centrale.
En cas de parfaite symétrie, le mode, la médiane et la moyenne sont identiques. On dit que la
distribution est normale.
𝑀𝑜 = 𝑀𝑒 = 𝑥
Figure 2.2 – Courbe d’une distribution normale de moyenne 𝑥 = 5 et d’écart type 𝜎 = 2,3.
𝑥 − 𝑀𝑜
𝐷1 = (2.32)
𝜎𝑥
avec 𝜎𝑥 l’écart type.
– 𝐷 1 = 0 la courbe est symétrique.
– 𝐷 1 > 0 la courbe est étalée à droite
– 𝐷 1 < 0 la courbe est étalée à gauche.
𝑘
∑︁
𝑓𝑖 (𝑥𝑖 − 𝑥) 3
𝑖=1
𝛾1 = " # 3/2 (2.33)
𝑘
∑︁
𝑓𝑖 (𝑥𝑖 − 𝑥) 2
𝑖=1
Avec :
– 𝛾 1 = 0 distribution symétrique
– 𝛾 1 > 0 distribution étalée à droite
– 𝛾 1 < 0 distribution étalée à gauche
Il faut remarquer le dénominateur de la formule (2.33) est le cube de l’écart type.
Exemple 2.16. Reprendre les données de l’exemple 2.11 pour déterminer la dissymétrie de cette distri-
bution.
Indice : comme nous le montre l’histogramme, la distribution est étalée à droite.
2.4 Exercices
1. Que signifie tendance centrale ? Quelles sont les mesures de tendance centrale les plus utilisées ?
Définissez-le.
2. Pourquoi la moyenne arithmétique est considérée comme une bonne mesure de la tendance
centrale ?
3. Que signifie dispersion ? Quelles sont les mesures de dispersion les plus courantes ? Définissez-
le.
4. Calculer la moyenne, la médiane, le mode, la variance et l’écart type pour les données suivantes :
a) 2, 5, 7, 3, 4, 3, 3.
b) 4, 5, 5, 12, 8, 6, 7, 6, 5.
c) 23, 1, 3, 2, 3, 7, 6, 7, 7, 5, 3.
d) 16, 1, 3, 15, 11, 5, 6, 7.
5. Considérer un échantillon avec les observations suivantes : 27, 25, 20, 15, 30, 34, 28 et 25.
Calculer le 20e, 25e, 65e et 75e percentile.
6. Considérer un échantillon avec les observations suivantes : 53, 55, 70, 58, 64, 57, 53, 69, 57, 68
et 53. Calculer la moyenne, la médiane et le mode.
7. Pour les données suivantes, calculer le premier quartile, le troisième quartile, le quatrième
décile et le 36e centile.
22 18 20 23 17 22 17 19 20 22
7 8 6 8 9 8 8 10 7
9 7 10 9 10 9 8 9 9
7 9 9 10 7 7 8
a) Calculer la moyenne, la médiane, le mode, la variance et l’écart type.
b) Représenter ces données graphiquement.
9. Voici un échantillon de notes obtenues par les étudiants de Bac 1 Économie & Gestion au cours
de statistique descriptive :
Côte 8 9 10 11 12 13
Nombre d’étudiants 4 12 25 16 10 3
a) Calculer la côte moyenne, la médiane, le mode, la variance et l’écart type.
b) Représenter ces données graphiquement.
c) Peut-on dire que cette distribution est normale ?
10. Calculer la moyenne, la variance et l’écart type pour les données du tableau ci-dessous :
Il est souvent pertinent d’étudier une population à l’aide de plusieurs caractères. Ce chapitre
présente les distributions pour lesquelles nous disposons d’observations concernant simultanément
deux caractères – qui peuvent être qualitatifs ou quantitatifs – pour chaque individu de la population.
Il se concentre donc sur l’analyse statistique bivariée, portant sur deux variables simultanément.
Effectif marginal
Caractère A \ Caratère B Modalité 1 Modalité 𝑗 Modalité 𝑝
du caractère A
𝑝
∑︁
Modalité 1 𝑛 11 𝑛 1𝑗 𝑛 1𝑝 𝑛1 = 𝑛 1𝑘
𝑘=1
𝑝
∑︁
Modalité 𝑖 𝑛𝑖1 𝑛𝑖 𝑗 𝑛𝑖𝑝 𝑛𝑖 = 𝑛𝑖𝑘
𝑘=1
𝑝
∑︁
Modalité 𝑚 𝑛𝑚1 𝑛𝑚 𝑗 𝑛𝑚𝑝 𝑛𝑚 = 𝑛𝑚𝑘
𝑘=1
𝑚
∑︁ 𝑚
∑︁ 𝑚
∑︁ 𝑚
∑︁ 𝑝
∑︁
Effectif marginal
𝑛1 = 𝑛𝑘1 𝑛𝑗 = 𝑛𝑘 𝑗 𝑛𝑝 = 𝑛𝑘𝑝 𝑛= 𝑛𝑘 = 𝑛𝑘
du caractère B
𝑘=1 𝑘=1 𝑘=1 𝑘=1 𝑘=1
L’effectif 𝑛𝑖 𝑗 de la case (𝑖, 𝑗) est le sous-ensemble de la population 𝑃 des individus qui présentent
simultanément la modalité 𝐴𝑖 et la modalité 𝐵 𝑗 . Tous les individus présentant ces deux modalités
sont considérés comme équivalents.
On appelle 𝑓𝑖 𝑗 la fréquence conjointe de la modalité (𝑥𝑖 , 𝑦𝑖 ) ou de l’événement 𝐴𝑖 , 𝐵 𝑗 , la proportion
d’individus qui présentent simultanément 𝐴𝑖 et 𝐵 𝑗 soit :
𝑛𝑖 𝑗
𝑓𝑖 𝑗 = (3.1)
𝑛
Voici un exemple numérique du tableau de contingence : répartition des décès dans une clinique
selon que l’individu était fumeur ou non fumeur.
3.1 Les tableaux de contingence 38
dl = (𝐿 − 1) · (𝐶 − 1) (3.4)
où 𝐿 et 𝐶 sont respectivement le nombre de lignes et de colonnes du tableau de contingence.
La valeur de 𝜒02 est lue dans la table 2 de 𝜒 2 .
Étape 5. Décision.
Si 𝜒 2 > 𝜒02 , on rejette 𝐻 0 .
Exemple 3.1. Supposons que l’on cherche à savoir s’il existe une relation entre la consommation de la
bière et le statut matrimonial. À partir d’une enquête auprès de 1 772 ménages, nous avons les observations
suivantes sur la consommation mensuelle et le statut matrimonial. Construire les hypothèses du test
d’indépendance et déterminer s’il existe des évidences statistiques d’un lien entre le statut matrimonial et
la consommation de la bière.
Solution
1. Formulons les hypothèses.
𝐻 0 : Il n’y a pas de lien entre le statut matrimonial et la consommation de la bière.
𝐻 1 : Il y a un lien entre le statut matrimonial et la consommation de la bière.
2. Nous construisons la table de fréquences théoriques.
354 × 590
Par exemple : = 117,9
1772
Abstient 1–60 Plus de 60 Total
67 213 74
Célibataire 354
117,9 191,2 44,9
411 633 129
Marié(e) 1173
390,6 633,5 148,9
85 51 7
Veuf ou veuve 143
47,6 77,2 18,2
27 60 15
Divorcé(e) 102
34,0 55,1 13,0
Total 590 957 225 1772
3. Calculons le 𝜒 2 :
∑︁ (𝑂 − 𝑇 ) 2 (67 − 117,9) 2 (213 − 191,2) 2 (15 − 13,0) 2
𝜒2 = = + +···+ = 94,4
𝑇 117,9 191,2 13
d’où √︄ √︂
𝜒2 94,4 √
V de Cramer = 2
= = 0,0266 = 0,163
𝜒 max 3544
Donc, il existe un lien statistique faible entre la consommation de la bière et le statut matrimonial.
Remarque. Le V de Cramer est calculé seulement dans le cas où le test de 𝜒 2 rejette l’hypothèse nulle
de l’indépendance entre les variables.
3.1.3 Exercices
1. Sous quelle(s) condition(s) pouvez-vous utiliser le test d’indépendance du 𝜒 2 ?
2. Si un tableau de contingence a trois lignes et quatre colonnes, combien y a-t-il de degrés de
liberté pour le test d’indépendance de 𝜒 2 ?
3. Supposons que vous exécutez un test d’indépendance du 𝜒 2 sur un tableau de contingence
ayant 𝐿 lignes et 𝐶 colonnes. Déterminez la valeur critique de la statistique du test dans chacun
des cas suivants :
a) a = 0,05, L = 4 lignes, C = 5 colonnes
b) a = 0,01, L = 4 lignes, C = 5 colonnes
c) a = 0,01, L = 4 lignes, C = 6 colonnes
Au seuil de signification de 0,01, peut-on dire qu’il y a l’évidence d’une relation significative
entre l’âge et la fréquence de publications des statuts sur WhatsApp ? Si oui, quelle est l’intensité
de cette relation ?
3.2 La covariance
La covariance est une mesure de la relation linéaire entre deux variables quantitatives.
Pour un échantillon de taille 𝑛 composé des observations (𝑥 1, 𝑦1 ), (𝑥 2, 𝑦2 ), etc., la covariance de
l’échantillon est définie par :
1 ∑︁
𝑠𝑥𝑦 = (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) (3.6)
𝑛−1
Une valeur positive élevée de la covariance semble indiquer une forte relation positive et une
valeur négative élevée de la covariance semble indiquer une forte relation négative.
Remarque. Pour une population de taille 𝑁 , la formule de la covariance s’écrit :
1 ∑︁
𝜎𝑥𝑦 = (𝑥𝑖 − 𝜇𝑥 )(𝑦𝑖 − 𝜇𝑦 ) (3.7)
𝑁
Inconvénient de la covariance
L’utilisation de la covariance comme mesure de la relation linéaire présente un inconvénient : la
valeur de la covariance dépend de l’unité de mesure des variables 𝑥 et 𝑦.
Par exemple, supposons que nous nous intéressions à la relation entre la taille, 𝑥, et le poids, 𝑦,
d’individus. La robustesse de la relation devrait être la même que la taille soit mesurée en mètres
ou en centimètres. Cependant, lorsque la taille est mesurée en centimètres, les valeurs numériques
(𝑥𝑖 − 𝑥) sont supérieures à celles obtenues en mesurant la taille en mètres. Ainsi, lorsque la taille est
mesurée en centimètres, l’expression (𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦) dans la formule (3.6) nous donne une valeur
supérieure alors qu’en fait, il n’y a pas de différence dans la relation.
C’est pourquoi le coefficient de corrélation – section suivante – est une mesure de la relation entre
deux variables qui n’est pas exposée à ce type de problème.
Ainsi on a l’impression générale de l’évolution de ces deux indicateurs et il apparait clair que les
deux variables ont tendance d’évoluer dans le même sens.
Figure 3.2 – Les différentes corrélations : corrélations linéaires : 1 et 2 ; corrélations non linéaires : 3 et 4 ; pas de
corrélation : 5.
Les graphes 1 et 3 représentent des corrélations positives tandis que les graphes 2 et 4 représentent des corrélations
négatives.
Calculer le coefficient de corrélation simple et tester sa signification par rapport à 0 pour un seuil
𝛼 = 0,05.
Solution
Nous calculons la table 3.3 nécessaire pour calculer un coefficient de corrélation.
𝑛
∑︁
(𝑥𝑖 − 𝑥)(𝑦𝑖 − 𝑦)
𝑖=1 351,6
𝑟 = √︄ √︄ 𝑛 =√ √ = 0,892
𝑛
∑︁ ∑︁ 492,4 · 314,9
(𝑥𝑖 − 𝑥) 2 (𝑦𝑖 − 𝑦) 2
𝑖=1 𝑖=1
Il existe une corrélation positive entre les variables 𝑥 et 𝑦 ; cela veut dire que les deux variables varient
dans le même sens.
𝑦 𝑥 𝑥 −𝑥 𝑦 −𝑦 (𝑥 − 𝑥)(𝑦 − 𝑦) (𝑥 − 𝑥) 2 (𝑦 − 𝑦) 2
16 20 -10,4 -10,1 105,04 108,16 102,01
18 24 -6,4 -8,1 51,84 40,96 65,61
23 28 -2,4 -3,1 7,44 5,76 9,61
24 22 -8,4 -2,1 17,64 70,56 4,41
26 32 1,6 -0,1 -0,16 2,56 0,01
28 32 1,6 1,9 3,04 2,56 3,61
29 28 -2,4 2,9 -6,96 5,76 8,41
31 36 5,6 4,9 27,44 31,36 24,01
32 41 10,6 5,9 62,54 112,36 34,81
34 41 10,6 7,9 83,74 112,36 62,41
Somme 261 304 0 0 351,6 492,4 314,9
Moyenne 26,1 30,4
𝑟 0,892 0,892
𝑡 cal = √︃ = √︃ = = 5,58 > 𝑡 80,025 = 2,306.
1−𝑟 2 1−0,8922 0,1598
𝑛−2 10−2
3.3.4 Exercices
1. Sous quelle(s) condition(s) pouvez-vous utiliser le coefficient de corrélation linéaire simple ?
2. On sélectionne un échantillon de pays en développement. Leur espérance de vie à la naissance
en années est donnée dans le tableau ci-dessous pour les hommes et les femmes.
Hommes 59,7 72,9 41,9 46,2 50,3 43,2
Femmes 63,8 77,8 44,5 48,3 54,0 43,5
Calculer la covariance et le coefficient de corrélation linéaire entre l’espérance de vie à la
naissance des hommes et femmes et interpréter vos résultats.
3. Voici les données sur les flux entrant d’investissements directs étrangers (en % du PIB) et
la croissance économique (en %) de la République démocratique du Congo sur la période
2010–2017.
Investissements directs étrangers 12,7 6,2 9,9 5,2 4,2 3,3 2,4 2,8
Croissance économique 7,1 6,9 7,1 8,5 9,5 6,9 2,4 3,7
Í
(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥)
𝛽ˆ1 = (3.13)
(𝑥𝑖 − 𝑥) 2
Í
𝑦 − 𝛽 0 − 𝛽 1𝑥 = 0
et donc
𝛽ˆ0 = 𝑦 − 𝛽 1𝑥 (3.19)
La valeur de 𝛽ˆ0 étant trouvée, on la remplace dans la fonction de départ (équation 3.16) et on
développe :
𝑛 𝑛
∑︁ ∑︁
𝑓 𝛽 0,𝛽 1 = 𝜀𝑖2 = (𝑦𝑖 − 𝛽 0 − 𝛽 1𝑥𝑖 ) 2
𝑖=1 𝑖=1
𝑛
∑︁
= (𝑦𝑖 − 𝑦 + 𝛽 1𝑥 − 𝛽 1𝑥𝑖 ) 2
𝑖=1
𝑛 (3.20)
∑︁ 2
= (𝑦𝑖 − 𝑦) − 𝛽 1 (𝑥𝑖 − 𝑥)
𝑖=1
𝑛
∑︁
= (𝑦𝑖 − 𝑦) 2 − 2𝛽 1 (𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) + 𝛽 12 (𝑥𝑖 − 𝑥) 2
𝑖=1
Remarques.
– Le coefficient 𝛽ˆ1 représente la pente de la droite ou encore une propension marginale. Dans
la relation macroéconomique entre la consommation et le revenu (𝐶 = 𝑐𝑌 + 𝐶 0 ), il représente
ce que les économistes appellent la propension marginale à consommer. Dans la fonction
d’épargne (𝑆 = (1 − 𝑐)𝑌 + 𝐶 0 ), il représente la quantité notée 1 − 𝑐 qu’on appelle propension
marginale à épargner. Dans la fonction d’imposition (𝑇 = 𝑡𝑌 + 𝑇0 ), c’est le taux d’imposition
marginal.
3. La fonction 𝑓 est convexe. Nous considérons donc les conditions du deuxième ordre comme vérifiées.
– Nous pouvons également montrer que la formule (3.21) de 𝛽ˆ1 peut s’écrire sous la forme
suivante :
𝑛 𝑛
! 𝑛 !
∑︁ ∑︁ ∑︁
𝑛 𝑥𝑖 𝑦𝑖 − 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝛽ˆ1 = !2 (3.23)
∑︁𝑛 𝑛
∑︁
𝑛 𝑥𝑖2 − 𝑥𝑖
𝑖=1 𝑖=1
Exemple 3.5. Reprenons les données de l’exemple 3.3 et calculons les paramètres 𝛽ˆ0 et 𝛽ˆ1 .
Nous avons :
Í
(𝑦𝑖 − 𝑦)(𝑥𝑖 − 𝑥) 351,6
𝛽ˆ1 = = = 0,714
(𝑥𝑖 − 𝑥) 2
Í
492,4
𝛽ˆ0 = 𝑦 − 𝛽ˆ1𝑥 = 26,1 − 0,714 · 30,4 = 4,3944.
Exemple 3.6. Voici un échantillon de données.
𝑥 0 3 4 3 5
𝑦 4 3 2 1 0
Écrire l’équation de la droite de régression et prédire la valeur de 𝑦 pour 𝑥 = 6.
Solution
Nous construisons le tableau :
𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖2
1 0 4 0 0
2 3 3 9 9
3 4 2 8 16
4 3 1 3 9
5 5 0 0 25
Í
15 10 20 59
4. chaque étudiant.e peut démontrer ce résultat en exercice.
𝑦 = −0,714𝑥 + 4,143.
Exemple 3.7. Un professeur de statistiques veut utiliser le nombre d’absences dans une classe durant
un semestre (𝑥) pour prédire le pourcentage final à aux examens de ce semestre (𝑦). À partir des données
collectées au sein d’une école, un modèle de régression est estimé :
∑︁
⇔ 𝜀𝑖 = 𝑛(𝑦 − 𝑦 + 𝛽ˆ1𝑥 − 𝛽ˆ1𝑥)
𝑖
∑︁
⇔ 𝜀𝑖 = 0 □
𝑖
Démonstration.
∑︁ ∑︁ ∑︁
𝜀𝑖 = 𝑦𝑖 − 𝑦ˆ𝑖 ⇔ 𝜀𝑖 = 𝑦𝑖 − 𝑦ˆ𝑖
𝑖 𝑖 𝑖
∑︁ ∑︁ Í
⇔0= 𝑦𝑖 − 𝑦ˆ𝑖 (car 𝜀𝑖 = 0)
𝑖 𝑖
∑︁ ∑︁
⇔ 𝑦𝑖 = 𝑦ˆ𝑖
𝑖 𝑖
⇔ 𝑦 = 𝑦.
ˆ □
La variabilité totale (SCT) est égale à la variabilité expliquée (SCE) + la variabilité des
résidus (SCR).
Exemple 3.8. Reprenons les données de l’exemple 3.3 et calculons le coefficient de détermination.
ˆ (𝑦ˆ − 𝑦) 2 et (𝑦 − 𝑦)
Après avoir calculé les trois colonnes : 𝑦, ˆ 2 , nous avons :
Somme des carrés
Régression (SCE) 251,061251
Résidus (SCR) 63,83874898
Total (SCT) 314,9
𝑆𝐶𝐸 251,061251
𝑟2 = = = 0,79727 ≃ 80 %.
𝑆𝐶𝑇 314,9
On remarquera qu’il est égal au carré du coefficient de corrélation que nous avons trouvé précédem-
ment (exemple 3.3 page 44) :
𝑟 = 0, 892 ⇔ 𝑟 2 = 0,795664 ≃ 80 %.
Il convient de souligner que même lorsque le coefficient de détermination est très grand (proche
de 1), l’utilisation de l’équation estimée de la régression n’est pas pertinente aussi longtemps qu’une
analyse plus approfondie de la robustesse du modèle ne sera pas faite. Il est nécessaire d’effectuer des
tests de signification de la relation. Nous allons voir deux tests, l’un portant sur la signification des
paramètres et l’autre sur la signification globale du modèle.
3.4.4 Exercices
1. Un économiste désire analyser la relation entre la consommation et le revenu. Les données
d’un ménage observé sur 10 ans sont fournies dans le tableau ci-après.
Année Consommation Revenu
1 7 300 8 000
2 8 150 9 000
3 8 850 9 500
4 8 650 9 500
5 8 700 9 800
6 9 600 11 000
7 10 650 12 000
8 11 150 13 000
9 12 800 15 000
10 13 850 16 000
a) Calculer le coefficient de corrélation et interpréter.
b) Déterminer la propension marginale à consommer et la consommation incompressible.
Interprétez-les.
c) Écrire l’équation de la droite de régression et interpréter.
a) Écrire l’équation de la droite de régression estimant la relation entre les IDE (𝑥) et la
croissance économique (𝑦) ?
b) Estimer la croissance économique des années 2018 et 2019 sachant que les niveaux des
IDE sont respectivement de 3 % et 2,8 %.
5. Quelle est la relation entre le signe du coefficient de corrélation et le signe de la pente de la
droite de régression ?
6. Démontrez les formules suivantes : !2
𝑛 𝑛 𝑛
∑︁ ∑︁ 1 ∑︁
a) SCT = (𝑦𝑖 − 𝑦) 2 = 𝑦𝑖2 − 𝑦𝑖
𝑖=1 𝑖=1
𝑛 𝑖=1
𝑛 𝑛 𝑛 𝑛
!2
∑︁ ∑︁ ∑︁ 1 ∑︁
b) SCE = (𝑦ˆ𝑖 − 𝑦) 2 = 𝛽 0 𝑦𝑖 + 𝛽 1 𝑥𝑖 𝑦𝑖 − 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1
𝑛 𝑖=1
𝑛
∑︁ ∑︁𝑛 ∑︁𝑛 𝑛
∑︁
c) SCR = (𝑦𝑖 − 𝑦ˆ𝑖 ) 2 = 𝑦𝑖2 − 𝛽ˆ0 𝑦𝑖 − 𝛽ˆ1 𝑥𝑖 𝑦𝑖
𝑖=1 𝑖=1 𝑖=1 𝑖=1
✪✪✪✪✪
– Anonyme