Statistique Desc
Statistique Desc
Statistique Desc
KHLIF Ibtihal
1 Introduction 2
1.1 Vocabulaire de Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Notions Fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Statistique Descriptive vs Statistique Inférentielle . . . . . . . . . . . . . . . . . 3
1.3 Types de Données en Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Tableaux Statistiques et Tableaux de Fréquences . . . . . . . . . . . . . . . . . . 3
1.4.1 Tableau Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.2 Tableau de Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Indicateurs Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5.1 Indicateurs de localisation des valeurs . . . . . . . . . . . . . . . . . . . . 4
1.5.2 Indicateurs de dispersion des valeurs . . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1
Chapitre 1
Introduction
2
Par exemple, analyser la relation entre l’âge et le revenu des salariés d’une entreprise.
— Statistique multivariée : Analyse des relations entre plusieurs variables d’une po-
pulation. Par exemple, étudier limpact de lâge, du niveau détudes et du revenu sur la
satisfaction professionnelle.
— Variance : La variance mesure la dispersion des données autour de leur moyenne. Elle est
calculée en prenant la moyenne des carrés des écarts entre chaque valeur et la moyenne.
Elle est donnée par la formule :
1 ∑
N
2
σ = (xi − x̄)2
N i=1
où xi représente chaque valeur, x̄ est la moyenne des données, et N est le nombre total
d’observations.
— Écart-type : Lécart-type est la racine carrée de la variance. Il est préféré à la variance
car il sexprime dans la même unité que les données.
La statistique descriptive se concentre sur la description des données disponibles, tandis que
la statistique inférentielle permet de tirer des conclusions sur une population en utilisant un
échantillon. Par exemple :
— Statistique descriptive : moyenne des notes d’un groupe d’étudiants.
— Statistique inférentielle : estimer la moyenne des notes de tous les étudiants dune
université.
3
colonnes et des lignes bien définies pour organiser chaque variable. En tête de tableau, le titre
donne une indication claire sur le type de données et lobjectif du tableau.
1∑
k
m= vi ni
n i=1
∑
k
m= vi f i
i=1
4
Si les valeurs sont groupées en k classes, alors le calcul de la moyenne devient :
∑k
ci ni
m = ∑i=1 k
i=1 ni
13, 3, 14, 15, 3, 14, 13, 3, 3, 6, 15, 15, 15, 14, 14, 14, 3, 14, 3, 14
vi ni fi
6
3 6 20
1
6 1 20
2
13 2 20
7
14 7 20
4
15 4 20
Médiane observée
La médiane est la valeur qui partage léchantillon en deux groupes de même effectif. Pour
la calculer, il faut commencer par ordonner les valeurs (par exemple, les ranger par ordre
croissant).
— Si l’effectif total n est impair, la médiane est la valeur de rang n+1
2
.
n n
— Si n est pair, la médiane est la moyenne des valeurs de rang 2 et 2 + 1.
Exemple : Considérons la série dobservations suivante :
13, 3, 14, 15, 3, 14, 14, 13, 3, 3, 6, 15, 15, 15, 14, 14, 14, 3, 14, 3
3, 3, 3, 3, 3, 3, 6, 13, 13, 14, 14, 14, 14, 14, 14, 14, 15, 15, 15, 15
Comme n = 20, la médiane est la moyenne des valeurs de rang 10 et 11, soit :
14 + 14
Médiane = = 14
2
5
Mode observé
En statistique descriptive, le mode est une mesure simple mais importante de la tendance
centrale. Contrairement à la moyenne ou à la médiane, qui prennent en compte toutes les valeurs,
le mode se concentre uniquement sur la valeur la plus fréquente. Cela le rend particulièrement
utile pour des données qualitatives ou catégorielles, par exemple pour déterminer la couleur de
voiture la plus populaire dans un parking ou le plat préféré dans une enquête.
Le mode est une mesure de tendance centrale qui représente la valeur la plus fréquente dans
un ensemble de données. Contrairement à la moyenne ou à la médiane, qui se basent sur des
calculs, le mode identifie simplement la valeur ou la catégorie qui apparaît le plus souvent. Il
est particulièrement utile pour les données qualitatives et pour repérer la valeur la plus typique
dans un échantillon.
Cas des Variables Qualitatives
Pour une variable qualitative, le mode est la modalité (ou catégorie) ayant la fréquence la
plus élevée dans l’échantillon. Par exemple, si lon étudie la couleur préférée parmi un groupe
de personnes, le mode sera la couleur choisie le plus souvent.
Exemple : Si, dans une enquête, les réponses à la question "Quelle est votre couleur pré-
férée ?" sont les suivantes : bleu, bleu, vert, rouge, bleu, alors le mode est "bleu", car cest la
couleur la plus fréquemment citée.
Cas des Variables Quantitatives Discrètes
Pour une variable quantitative discrète, le mode est également la valeur qui se produit le
plus souvent dans l’échantillon. Par exemple, si lon analyse le nombre de livres lus par des
étudiants en un mois et que les valeurs sont : 2, 3, 3, 4, 5, 3, alors le mode est 3, car c’est le
nombre de livres qui revient le plus fréquemment.
Cas des Variables Quantitatives Continues
Pour une variable quantitative continue, le mode est approximé dans une classe modale,
cest-à-dire la classe dintervalle qui contient le plus grand nombre dobservations. Dans ce cas,
on utilise la formule suivante pour déterminer une valeur précise du mode M0 , qui prend en
compte les effectifs des classes voisines de la classe modale.
Soit :
— L1 : la borne inférieure de la classe modale,
— d1 : la différence entre l’effectif de la classe modale et l’effectif de la classe précédente,
— d2 : la différence entre l’effectif de la classe modale et l’effectif de la classe suivante,
— ai : lamplitude de la classe modale.
La formule pour calculer le mode est alors :
d1
M 0 = L1 + × ai
d1 + d2
Exemple : Supposons les classes d’un échantillon de poids, avec leurs effectifs respectifs
comme suit :
Dans cet exemple, la classe modale est [70, 80[, car elle contient le plus grand effectif (20).
En utilisant la formule, on obtient :
6
20 − 15
M0 = 70 + × 10
(20 − 15) + (20 − 12)
5 5
M0 = 70 + × 10 = 70 + × 10
5+8 13
M0 ≈ 73.85 kg
Ainsi, le mode approximé du poids dans cet échantillon est de 73,85 kg.
Quantiles
Nous utilisons les quantiles (comme les quartiles, déciles, percentiles, etc.) pour mieux dé-
crire la distribution de la variable. Ces valeurs typiques permettent de diviser les données en
segments égaux et de donner une représentation plus complète et flexible de la tendance centrale
et de la répartition des valeurs, même lorsque la médiane exacte n’est pas définie.
— Quartiles : Q1 (25%), Q2 (50%, médiane), Q3 (75%).
— Déciles : divisent les données en dix parties égales.
— Percentiles : divisent les données en cent parties égales.
Exemple : Dans l’ensemble {5, 10, 15, 20, 25}, le 1er quartile (Q1) est 10, la médiane (Q2) est
15 et le 3e quartile (Q3) est 20.
L’étendue observée
Létendue eX de la variable quantitative discrète X est la différence entre la plus grande et
la plus petite des valeurs observées : eX = max 1iN xi min 1iNxi . Dans le cas de la variable
ń Note à lExamen de Statistique ż, létendue vaut 18 2 = 16.
Variance observée
La variance dun échantillon {xi }ni=1 de moyenne m est donnée par :
1∑
n
S = 2
(xi − m)2
n i=1
1∑
k
2
S = ni (vi − m)2
n i=1
ni
ou, en utilisant les fréquences fi = n
,
∑
k
S = 2
fi (vi − m)2
i=1
7
Si les valeurs sont groupées en k classes, la variance devient :
1∑
k
S2 = ni (ci − m)2
n i=1
Écart-type
L’écart-type est une mesure essentielle en statistique descriptive qui permet de comprendre
la dispersion ou la variabilité d’un ensemble de données autour de la moyenne. Il est directe-
ment lié à la variance, raison pour laquelle on le présente juste après celle-ci.
Pourquoi l’Écart-Type Vient Après la Variance ? La variance est la première étape pour
mesurer la dispersion. Elle calcule lécart moyen au carré de chaque valeur par rapport à la
moyenne. Cependant, comme elle est exprimée en unités au carré, son interprétation peut
être difficile. Par exemple, si on étudie des salaires en euros, la variance sera en euros carrés
(euros2)(euros 2), ce qui na pas de signification intuitive.
Lécart-type() résout ce problème en prenant la racine carrée de la variance. Cela nous
ramène aux mêmes unités que les données dorigine, ce qui facilite linterprétation L’écart-type
de l’échantillon est la racine carrée de la variance. L’avantage de l’écart-type sur la variance est
qu’il s’exprime dans la même unité que les données.
√
s= S2
Interprétation de l’Écart-Type : Lécart-type indique, en moyenne, à quelle distance les
valeurs se trouvent de la moyenne :
Écart-type faible : les valeurs sont proches de la moyenne, donc lensemble est peu dispersé.
Écart-type élevé : les valeurs sont plus éloignées de la moyenne, donc lensemble est dispersé.
Exemple : Si on a une série de salaires avec une moyenne de 2000 , et un écart-type de 300
, cela signifie que, en moyenne, les salaires varient de 300 autour de cette moyenne de 2000 .
1.6 Conclusion
Synthèse des données : La statistique descriptive fournit des outils essentiels pour résu-
mer et comprendre de grandes quantités de données, en identifiant les tendances centrales et
les variations dans un ensemble de données.
Mesures clés : Les indicateurs comme la moyenne, la médiane, le mode, ainsi que les
mesures de dispersion comme l’écart-type et la variance, permettent de décrire précisément la
distribution des données.
8
Visualisation et interprétation : Les tableaux et graphiques utilisés facilitent l’analyse
visuelle, aidant à la communication des résultats de manière claire et accessible.
Importance pour la prise de décision : En fournissant une vue d’ensemble, la statistique
descriptive est un premier pas vers l’analyse et la prise de décisions éclairées, que ce soit en
entreprise, en recherche ou en sciences sociales.