Ecg2 TP3
Ecg2 TP3
Ecg2 TP3
2 Représentations graphiques 7
2.1 Diagrammes en bâtons . . . . . . . . . . . . . 7
2.2 Histogrammes . . . . . . . . . . . . . . . . . . 8
3 Exercices 9
Compétences attendues.
3 Connaître les indicateurs de position (moyenne, médiane, quartiles) et les commandes associées.
3 Connaître les indicateurs de dispersion (écart-type, étendue, distance inter-quartile) et les com-
mandes associées.
• Dans la librairie numpy : np.sum, np.min, np.max, np.cumsum, np.mean, np.median, np.var,
np.std.
Objectifs. L’objet des statistiques descriptives univariées (ou unidimensionnelles) est de fournir des
résumés synthétiques, graphiques et numériques, de séries de valeurs observées sur une population ou
un échantillon. On présente ici les indicateurs les plus couramment employés pour décrire une série
statistique.
Mathieu Mansuy
Professeur en ECG deuxième année spécialité mathématiques approfondies au Lycée Louis Pergaud (Besançon)
Page personnelle : mathieu-mansuy.fr/
E-mail : mathieu.mansuy@ac-besancon.fr
ECG2 - Maths approfondies Lycée Louis Pergaud
Exemple. Un caractère possible sur la population française est la taille (caractère quantitatif) ou
encore la couleur des yeux (caractère qualitatif).
La connaissance complète d’un caractère X peut être rendue difficile, voir impossible, de part la taille
de la population Ω. Afin de pouvoir l’étudier, on peut considérer ce caractère seulement pour une
partie finie {ω1 , . . . , ωn } de Ω appelée échantillon. Son cardinal n est alors la taille ou l’effectif de
l’échantillon.
Définition.
• On appelle série statistique d’un échantillon {ω1 , . . . , ωn } ⊂ Ω (ou échantillon observé) pour
le caractère X la donnée de la liste x = (x1 , . . . , xn ) = (X(ω1 ), . . . , X(ωn )) des valeurs prises
par X sur l’échantillon.
• L’effectif d’une modalité m est le nombre nm de fois où m apparait dans la série statistique.
effectif de la modalité m nm
• La fréquence d’une modalité m est le réel fm = = .
effectif total de l’échantillon n
X
• La fréquence cumulée d’une modalité m est le réel pm = fm0 .
m0 ≤m
Le saviez-vous ?
Les statistiques sont nées en Angleterre, au début du 17-ème siècle pour
décompter les décès lors d’une épidémie de peste. Ce n’était à l’époque
que des données numériques, sans outil théorique pour les analyser. Il faut
attendre le 19-ème siècle pour voir l’apparition de méthodes mathématiques
pour l’étude de telles données. Ce n’est qu’à la fin du 19-ème siècle que
la statistique devient une discipline à part entière des mathématiques sous
l’impulsion des savants anglais Karl Pearson (1857-1936) et Udny Yule (1871-1951).
Karl Pearson est principalement connu pour avoir développé le coefficient
de corrélation linéaire et le test du χ2 (chi-deux). Karl Pearson (1857-1936)
2
ECG2 - Maths approfondies Lycée Louis Pergaud
x = (2, 11, 7, 2, 15, 4, 5, 5, 5, 13, 5, 15, 7, 7, 8, 10, 10, 10, 11, 13, 7, 2, 15, 15).
L’ensemble des modalités est {2, 4, 5, 7, 8, 10, 11, 13, 15}. L’effectif de la modalité m = 5 est n5 = 4, sa
n5 4 8
fréquence est f5 = = et sa fréquence cumulée est p5 = .
n 24 24
Représentation informatique. Sous Python, nous représenterons une série statistique (x1 , . . . , xn )
par un vecteur
x = np.array([x1,...,xn])
L’effectif de la série est obtenu à l’aide de la commande np.shape(u)[0]
Remarques.
• Si x = (x1 , . . . , xn ) est une série statistique, (m1 , . . . , mp ) ses modalités d’effectifs (n1 , . . . , np )
et de fréquences (f1 , . . . , fp ), alors :
p
P
p p p ni
X X X ni i=1
ni = n et fi = = =1
i=1 i=1 i=1
n n
Une série statistique brute ne permettant pas une lecture efficace des données, on souhaite la présenter
de manière synthétique. Pour cela, on procède de deux manières distinctes selon le nombre de ses
modalités.
2 3 2 0.125
4 1 4 0.0416667
5 4 5 0.1666667
7 4 7 0.1666667
8 1 8 0.0416667
10 3 10 0.125
11 2 11 0.0833333
13 2 13 0.0833333
15 4 15 0.1666667
Tri par modalités - effectifs de la série x. Tri par modalités - fréquences de la série x.
3
ECG2 - Maths approfondies Lycée Louis Pergaud
• on considère une suite de réels c = (c0 < · · · < ck ) définissant les classes I1 = [c0 , c1 ], I2 =]c1 , c2 ],
. . . , Ik =]ck−1 , ck ], l’amplitude de la classe Ii étant ci − ci−1 ;
Commandes utiles
On rappelle les commandes suivantes qui pourront être utiles dans la suite.
Définition.
• Si u et v sont deux vecteurs de même format, l’instruction u==v renvoie un vecteur de même
format que u dont les éléments sont True ou False selon que les coefficients correspondants
de u et v à cette même place sont égaux ou non.
• Si tous les éléments de v sont égaux à un même réel x, on peut écrire simplement u==x.
• On définit de même les vecteurs booléens u>v, u>=v, u<v, u<=v et u!=v.
• On rappelle également les connecteurs logiques pour les booléens : and (et), or (ou), not
(négation).
Définition.
Si u est un vecteur dont les composantes sont des booléens, alors :
• la commande np.sum(u) renvoie le nombre de booléens qui ont pris la valeur True ;
• la commande np.mean(u) renvoie la proportion de booléens qui ont pris la valeur True.
Exemple. Supposons avoir représenté la série statistique x à l’aide d’un vecteur x. L’instruction
np.sum(x==7) renvoie l’effectif de la modalité 7, np.mean(x==7) renvoie sa fréquence, et np.mean(x<=7)
sa fréquence cumulée.
Remarque. Si la série statistique x est groupée par modalités - effectifs, avec les modalités (m1 , . . . , mp )
d’effectifs (n1 , . . . , np ) et de fréquences (f1 , . . . , fp ), alors :
p p p
1X X ni X
x= mi · n i = mi · = mi · fi .
n i=1 i=1
n i=1
4
ECG2 - Maths approfondies Lycée Louis Pergaud
On notera sur cette dernière formule la correspondance entre les notions d’espérance en probabilité et
de moyenne en statistique :
X p
X
E(X) = xP (X = x) ↔ x= mi · fi .
x∈X(Ω) i=1
Définition.
La médiane d’une série statistique ordonnée est un réel m partageant la série en deux séries
d’effectifs égaux. Si (x1 ≤ x2 ≤ · · · ≤ xn ) est la série statistique ordonnée, m est défini par :
Définition.
Soit x = (x1 , . . . , xn ) une série statistique.
• Le premier quartile de x est la plus petite modalité q1 de x pour laquelle 25 % des éléments
de x lui sont inférieures ou égales.
• Le troisième quartile de x est la plus petite modalité q3 de x pour laquelle 75 % des éléments
de x lui sont inférieures ou égales.
Remarque. De même, on définit les déciles et les centiles d’une série statistique :
• Pour k ∈ [[1, 99]], le k-ième centile est la modalité ck de la série pour laquelle moins de k %
de la population prend des valeurs strictement inférieures à ck et moins de (100 − k) % de la
population prend des valeurs strictement supérieures à ck .
• Pour k ∈ [[1, 9]], le k-ième décile est la modalité dk de la série pour laquelle moins de k % de la
population prend des valeurs strictement inférieures à dk et moins des (10 − k) dixièmes de la
population prend des valeurs strictement supérieures à dk .
Définition.
On appelle mode d’une série statistique toute modalité pour laquelle l’effectif est maximal (il peut
y en avoir plusieurs).
Exemple. Reprenons l’exemple de la série statistique x, qu’on trie par modalités - fréquences et par
modalités - fréquences cumulées :
5
ECG2 - Maths approfondies Lycée Louis Pergaud
2 0.125 2 0.125
4 0.0416667 4 0.1666667
5 0.1666667 5 0.3333333
7 0.1666667 7 0.5
8 0.0416667 8 0.5416667
10 0.125 10 0.6666667
11 0.0833333 11 0.75
13 0.0833333 13 0.8333333
15 0.1666667 15 1
Tri par modalités - fréquences de x. Tri par modalités - fréquences cumulées de x.
Déterminer le premier quartile, le troisième quartile et le huitième décile, ainsi que le(s) mode(s) de
la série x.
Remarques.
• La variance mesure la dispersion de la série statistique autour de sa moyenne.
• Comme en probabilités, la formule de Koenig-Huygens est valable :
n n n n n
!
1X 1X 1X 1X 1 X
v= (xi − x)2 = (x2i − 2xi x + x2 ) = x2i − 2 × x × xi +x2 = x2 − x2 .
n i=1 n i=1 n i=1 n i=1 n i=1 i
| {z }
=x
Définition.
• On appelle étendue d’une série statistique la différence entre la plus grande et la plus petite
modalité.
x̄
xmin q1 q3 xmax
m
6
ECG2 - Maths approfondies Lycée Louis Pergaud
2 Représentations graphiques
On suppose avoir importé la bibliothèque matplotlib.pyplot à l’aide de l’instruction :
import matplotlib.pyplot as plt
Exemple. Reprenons la série statistique x. En entrant les instructions suivantes dans la console :
>>> m = np.array([2.,4.,5.,7.,8.,10.,11.,13.,15.])
>>> f = np.array([0.125,0.04167,0.16667,0.16667,0.04167,0.125,0.08333,0.08333,0.16667])
>>> plt.bar(m,f)
>>> plt.show()
on obtient le diagramme en bâtons des effectifs de la série x :
7
ECG2 - Maths approfondies Lycée Louis Pergaud
Remarque. La commande plt.bar nécessite d’avoir trié au préalable la série statistique par modal-
ités - effectifs, ce que nous ne pourrons pas toujours faire. En effet, nous n’avons malheureusement pas
de commande Python pour effectuer ce tri. Nous expliquerons ci-dessous comment tracer le diagramme
en bâtons d’une série statistique brute (i.e. sans tri préalable) à l’aide de la commande plt.hist.
2.2 Histogrammes
Définition.
On représente une série statistique groupée par classes à l’aide d’un histogramme, en plaçant
les ci sur un axe horizontal et en traçant à la verticale un rectangle de base [ci , ci+1 ] et d’aire égale
à la fréquence de la classe correspondante.
Définition.
Soit x un vecteur.
• L’instruction plt.hist(x,c) trace l’histogramme associé à la série x dont les classes sont
définies par le vecteur aux composantes strictement croissantes c.
(ii) on définit les classes c = (m1 − 0, 5 < m1 + 0, 5 < m2 − 0, 5 < m2 + 0, 5 < · · · < mk − 0, 5 <
mk + 0, 5) ;
(iii) on dessine l’histogramme (le « diagramme en bâtons ») des effectifs à l’aide de la com-
mande :
plt.hist(x,c,edgecolor=’k’,color=’...’, label="...")
plt.hist(x,c,density=’True’,edgecolor=’k’,color=’...’, label="...")
>>> c = np.arange(np.min(x),np.max(x)+2)-0.5
>>> plt.hist(x, c, density = ’True’, edgecolor = ’k’)
>>> plt.show()
8
ECG2 - Maths approfondies Lycée Louis Pergaud
Notons qu’ici, nous n’avons pas eu au préalable à trier la série statistique x par modalités - fréquences,
c’est fait par Python en exécutant plt.hist.
3 Exercices
Dans les deux exercices suivants, nous aurons besoin de fonctions de la bibliothèque numpy.random.
On va donc l’importer à l’aide de l’instruction :
import numpy.random as rd
Exercice 1 (FF)
La commande rd.binomial(n,p,r) renvoie un vecteur contenant r simulations de la loi binomiale
B(n, p).
1. À l’aide de la commande rd.binomial, simuler 10000 nombres suivant la loi B(10, 0.5). On
notera x le vecteur contenant cette série statistique.
2. Déterminer l’effectif, la fréquence et la fréquence cumulée de la modalité 5.
3. Déterminer la moyenne, la médiane et l’écart-type de x. Était-ce prévisible ?
4. Créer un vecteur m de taille 11 tel que m[k] contient l’effectif de la modalité k. Déterminer le(s)
mode(s) de la série x.
5. Représenter à l’aide de la commande plt.bar les diagrammes en bâtons des effectifs, des
fréquences et des fréquences cumulées de la série x.
6. Représenter de nouveau le diagramme en bâtons des effectifs et des fréquences de la série x, cette
fois à l’aide de la commande plt.hist.
Exercice 2 (FF)
La commande rd.random(n) permet de simuler un vecteur de taille n dont chaque coefficient est un
nombre réel choisi aléatoirement entre 0 et 1.
1. Créer un vecteur x contenant 10000 nombres réels choisis aléatoirement entre 1 et 5.
2. Calculer la moyenne, la médiane, l’écart-type et l’étendue de la série statistique x.
3. Faut-il mieux regrouper cette série statistique par modalités ou par classes ? Pourquoi ?
4. Tracer l’histogramme associé à cette série statistique en la regroupant par classes (choisir 100
classes de même amplitude). Que remarque-t-on ?
9
ECG2 - Maths approfondies Lycée Louis Pergaud
à partir des données contenues dans l’étude 2017 de l’Institut National d’Études Démographiques
(disponible également sur mon site). Pour les exercices qui suivent, vous trouverez en annexe de ce
TP la liste des pays et de leurs index.
Exercice 4
1. Calculer la surface terrestre mondiale, le nombre d’habitants mondial et la densité moyenne
d’habitants au km2 .
3. Représenter la densité moyenne d’habitants au km2 pour chaque continent en utilisant un dia-
gramme en bâtons (on mettra en abscisse des entiers de 1 à 5).
4. Faire de même pour la répartition de la surface terrestre par continent, puis du nombre d’habitants
par continent.
Exercice 5
On considère l’espérance de vie des hommes (ou des femmes) par pays.
1. Calculer la moyenne sur l’ensemble des pays. Ce résultat correspond-il à l’espérance de vie
mondiale des hommes (ou des femmes) ?
3. Calculer les espérances de vie minimale et maximale en précisant les pays correspondant à ces
valeurs extrémales.
4. Représenter l’histogramme de l’espérance de vie des hommes sur l’intervalle [0, 100] avec 20
classes. Quelle est la classe modale de l’espérance de vie des hommes ?
(a) Vérifier que ses premier et troisième quartiles valent respectivement 64 et 76.
10
ECG2 - Maths approfondies Lycée Louis Pergaud
(b) Vérifier que ses premier et neuvième déciles valent respectivement 59 et 80. Donner la liste
des pays dont l’espérance de vie des hommes est inférieure au premier décile ou supérieure
au neuvième décile.
Exercice 6
On rappelle que le taux d’accroissement naturel est la différence entre la natalité et la mortalité.
2. Faire afficher la liste des pays pour lesquels l’accroissement est négatif.
4. Dans ses projections, l’INED prévoit une population mondiale de 9731 millions d’habitants en
2050. Cela est-il conforme à l’hypothèse d’un taux d’accroissement constant ?
Afrique occidentale
Afrique orientale
11
ECG2 - Maths approfondies Lycée Louis Pergaud
Afrique centrale
Afrique australe
Amérique du Nord
Amérique septentrionale
Amérique centrale
Caraïbes
Amérique du Sud
Asie
Asie occidentale
12
ECG2 - Maths approfondies Lycée Louis Pergaud
Asie centrale
Asie du sud
Asie du sud-ouest
Asie orientale
Europe
Europe septentrionale
Europe occidentale
13
ECG2 - Maths approfondies Lycée Louis Pergaud
Europe orientale
Europe méridionale
Océanie
14