Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Statistique Desc

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 10

Résumé de Statistique Descriptive(Partie 1)

KHLIF Ibtihal

Université Mohammed Premier Oujda


2024 - 2025
Table des matières

1 Introduction 2
1.1 Vocabulaire de Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 Notions Fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Statistique Descriptive vs Statistique Inférentielle . . . . . . . . . . . . . . . . . 3
1.3 Types de Données en Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Tableaux Statistiques et Tableaux de Fréquences . . . . . . . . . . . . . . . . . . 3
1.4.1 Tableau Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4.2 Tableau de Fréquences . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5 Indicateurs Statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.5.1 Indicateurs de localisation des valeurs . . . . . . . . . . . . . . . . . . . . 4
1.5.2 Indicateurs de dispersion des valeurs . . . . . . . . . . . . . . . . . . . . 7
1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1
Chapitre 1

Introduction

La statistique descriptive est un ensemble de méthodes et doutils permettant de résumer et


de décrire des données de manière synthétique. Elle est utilisée pour organiser, représenter et
analyser des ensembles de données sans tirer de conclusions sur une population plus large. Ce
cours aborde les concepts fondamentaux de la statistique descriptive, en incluant les définitions,
les calculs et des exemples.

1.1 Vocabulaire de Base


1.1.1 Notions Fondamentales
— Population : L’ensemble des individus ou des éléments sur lequel porte l’étude statis-
tique. Par exemple, si lon souhaite analyser les habitudes de consommation dans une
entreprise, la population pourrait être l’ensemble des salariés de cette entreprise.
— Échantillon : En raison des contraintes de temps et de coût, il est souvent impossible
d’étudier chaque individu d’une population. On choisit alors un sous-ensemble de la
population, appelé échantillon, qui servira de base pour l’analyse. Cet échantillon est
censé représenter la population étudiée.
— Échantillon représentatif : Un échantillon est dit représentatif s’il possède les mêmes
caractéristiques que la population cible. Si l’échantillon est bien représentatif, les résul-
tats obtenus peuvent être généralisés à lensemble de la population. Dans le cas contraire,
les résultats risquent dêtre biaisés.
— Taille de l’échantillon : Nombre d’individus constituant l’échantillon. Une taille d’échan-
tillon adéquate est cruciale pour garantir la précision des résultats.
— Caractère (ou variable statistique) : Un trait spécifique commun aux individus de
la population qui fait lobjet de létude statistique. Ce caractère peut être de deux types :
— Quantitatif : lorsque le caractère peut être mesuré numériquement (par exemple,
l’âge ou le revenu).
— Qualitatif : lorsque le caractère est non numérique (par exemple, la couleur des
yeux ou le département de résidence).
— Variable : Valeur ou mesure observée sur le caractère étudié. Elle est de la même nature
que le caractère (quantitative ou qualitative).
— Modalités : Les différentes valeurs que peut prendre une variable. Par exemple, pour
la variable "niveau d’éducation", les modalités peuvent être "secondaire", "supérieur",
"postsecondaire", etc.
— Statistique univariée : Analyse de la répartition d’une population en fonction d’une
seule variable. Par exemple, étudier les âges des salariés dune entreprise.
— Statistique bivariée : Étude des relations entre deux variables de la même population.

2
Par exemple, analyser la relation entre l’âge et le revenu des salariés d’une entreprise.
— Statistique multivariée : Analyse des relations entre plusieurs variables d’une po-
pulation. Par exemple, étudier limpact de lâge, du niveau détudes et du revenu sur la
satisfaction professionnelle.
— Variance : La variance mesure la dispersion des données autour de leur moyenne. Elle est
calculée en prenant la moyenne des carrés des écarts entre chaque valeur et la moyenne.
Elle est donnée par la formule :

1 ∑
N
2
σ = (xi − x̄)2
N i=1

où xi représente chaque valeur, x̄ est la moyenne des données, et N est le nombre total
d’observations.
— Écart-type : Lécart-type est la racine carrée de la variance. Il est préféré à la variance
car il sexprime dans la même unité que les données.

1.2 Statistique Descriptive vs Statistique Inférentielle


Il existe deux grandes branches dans le domaine de la statistique. Les statistiques descrip-
tives nous permettent de résumer des informations pour un groupe spécifique, par exemple en
calculant la moyenne ou en regardant la répartition des âges. Elles répondent principalement à
des questions comme Que se passe-t-il dans ce groupe ? À linverse, les statistiques inférentielles
vont plus loin. Elles utilisent les données dun échantillon pour prédire des tendances générales
dans une population plus large. Par exemple, si on veut savoir l’opinion générale d’une popu-
lation sur un sujet, on va interroger un échantillon de personnes et utiliser ces résultats pour
en tirer des conclusions générales.

La statistique descriptive se concentre sur la description des données disponibles, tandis que
la statistique inférentielle permet de tirer des conclusions sur une population en utilisant un
échantillon. Par exemple :
— Statistique descriptive : moyenne des notes d’un groupe d’étudiants.
— Statistique inférentielle : estimer la moyenne des notes de tous les étudiants dune
université.

1.3 Types de Données en Statistique


il est essentiel de comprendre les types de données que nous allons manipuler. Cela nous
aidera à choisir les méthodes appropriées pour résumer et interpréter nos informations. Les
données peuvent être classées en deux grandes catégories : les données qualitatives et les données
quantitatives.
— Données qualitatives : catégores comme le sexe, la couleur des yeux.
— Données quantitatives : valeurs numériques mesurables.

1.4 Tableaux Statistiques et Tableaux de Fréquences


1.4.1 Tableau Statistique
Un tableau statistique est un moyen efficace de regrouper des données pour en faciliter
lanalyse. Il permet de présenter des informations de manière concise et structurée, avec des

3
colonnes et des lignes bien définies pour organiser chaque variable. En tête de tableau, le titre
donne une indication claire sur le type de données et lobjectif du tableau.

1.4.2 Tableau de Fréquences


Les tableaux de fréquences permettent d’organiser et de résumer les données de manière
efficace. On distingue trois types de fréquences :
— Fréquence Absolue (ni ) : est simplement le nombre de fois qu’une valeur apparaît
dans le jeu de données. C’est une valeur brute, sans rapport avec le total.
— Fréquence Relative (fi ) :indique la proportion d’une valeur par rapport à l’ensemble
des données. Elle se calcule en divisant la fréquence absolue d’une catégorie par le
nombre total d’observations, puis en multipliant par 100 pour obtenir un pourcentage.
Par exemple, si nous avons une fréquence absolue de 5 pour une valeur dans un échan-
tillon de 20, la fréquence relative est de 25%.Proportion de la fréquence absolue par
rapport au total : fi = nNi × 100%.
— Fréquence Cumulée :La fréquence cumulée nous permet d’additionner les fréquences
au fur et à mesure, montrant la répartition cumulative des données. C’est très utile pour
observer comment se distribuent les valeurs à travers les catégories. Dans notre exemple,
la fréquence cumulée de la dernière catégorie atteint 100%, ce qui confirme que nous
avons pris en compte toutes les observations.
Ces trois types de fréquences, organisés dans un tableau, nous offrent une vision complète de
la distribution des données et facilitent lanalyse des proportions et de la progression cumulative."

1.5 Indicateurs Statistiques


1.5.1 Indicateurs de localisation des valeurs
Moyenne observée
La moyenne observée est l’indicateur de localisation le plus fréquemment utilisé. La moyenne
observée dun échantillon de n valeurs x1 , . . . , xn est définie comme la moyenne arithmétique de
ces valeurs ; on la note souvent mx , ou simplement m sil ny a pas de confusion possible :
x1 + x2 + . . . + xn
m=
n
Si les valeurs xi se répètent, alors en notant v1 , v2 , . . . , vk les valeurs des xi sans répétition, et
ni est le nombre de fois que la valeur vi est répétée dans la suite x1 , . . . , xn , nous avons :

1∑
k
m= vi ni
n i=1

Définition : on appelle fréquence fi de la valeur vi le rapport entre le nombre ni et le


nombre total n des observations. Ainsi,
ni
fi =
n
La moyenne exprimée en fonction des fréquences est donnée par la formule suivante :


k
m= vi f i
i=1

4
Si les valeurs sont groupées en k classes, alors le calcul de la moyenne devient :
∑k
ci ni
m = ∑i=1 k
i=1 ni

où ci et ni sont respectivement le milieu et l’effectif de la i-ième classe.


Exemple : 1) Soit la série dobservations suivante :

13, 3, 14, 15, 3, 14, 13, 3, 3, 6, 15, 15, 15, 14, 14, 14, 3, 14, 3, 14

Alors nous avons le tableau suivant :

vi ni fi
6
3 6 20
1
6 1 20
2
13 2 20
7
14 7 20
4
15 4 20

La moyenne m est égale à :


1
m= (13+3+14+15+3+14+14+13+3+3+6+15+15+15+14+14+14+3+14+3) = 10.4
20
ou
1
m= (6 × 3 + 1 × 6 + 2 × 13 + 7 × 14 + 4 × 15) = 10.4
20
ou ( ) ( ) ( ) ( ) ( )
6 1 2 7 4
m= ×3 + ×6 + × 13 + × 14 + × 15 = 10.4
20 20 20 20 20

Médiane observée
La médiane est la valeur qui partage léchantillon en deux groupes de même effectif. Pour
la calculer, il faut commencer par ordonner les valeurs (par exemple, les ranger par ordre
croissant).
— Si l’effectif total n est impair, la médiane est la valeur de rang n+1
2
.
n n
— Si n est pair, la médiane est la moyenne des valeurs de rang 2 et 2 + 1.
Exemple : Considérons la série dobservations suivante :

13, 3, 14, 15, 3, 14, 14, 13, 3, 3, 6, 15, 15, 15, 14, 14, 14, 3, 14, 3

Après ordonnancement, nous avons :

3, 3, 3, 3, 3, 3, 6, 13, 13, 14, 14, 14, 14, 14, 14, 14, 15, 15, 15, 15

Comme n = 20, la médiane est la moyenne des valeurs de rang 10 et 11, soit :
14 + 14
Médiane = = 14
2

5
Mode observé
En statistique descriptive, le mode est une mesure simple mais importante de la tendance
centrale. Contrairement à la moyenne ou à la médiane, qui prennent en compte toutes les valeurs,
le mode se concentre uniquement sur la valeur la plus fréquente. Cela le rend particulièrement
utile pour des données qualitatives ou catégorielles, par exemple pour déterminer la couleur de
voiture la plus populaire dans un parking ou le plat préféré dans une enquête.
Le mode est une mesure de tendance centrale qui représente la valeur la plus fréquente dans
un ensemble de données. Contrairement à la moyenne ou à la médiane, qui se basent sur des
calculs, le mode identifie simplement la valeur ou la catégorie qui apparaît le plus souvent. Il
est particulièrement utile pour les données qualitatives et pour repérer la valeur la plus typique
dans un échantillon.
Cas des Variables Qualitatives
Pour une variable qualitative, le mode est la modalité (ou catégorie) ayant la fréquence la
plus élevée dans l’échantillon. Par exemple, si lon étudie la couleur préférée parmi un groupe
de personnes, le mode sera la couleur choisie le plus souvent.
Exemple : Si, dans une enquête, les réponses à la question "Quelle est votre couleur pré-
férée ?" sont les suivantes : bleu, bleu, vert, rouge, bleu, alors le mode est "bleu", car cest la
couleur la plus fréquemment citée.
Cas des Variables Quantitatives Discrètes
Pour une variable quantitative discrète, le mode est également la valeur qui se produit le
plus souvent dans l’échantillon. Par exemple, si lon analyse le nombre de livres lus par des
étudiants en un mois et que les valeurs sont : 2, 3, 3, 4, 5, 3, alors le mode est 3, car c’est le
nombre de livres qui revient le plus fréquemment.
Cas des Variables Quantitatives Continues
Pour une variable quantitative continue, le mode est approximé dans une classe modale,
cest-à-dire la classe dintervalle qui contient le plus grand nombre dobservations. Dans ce cas,
on utilise la formule suivante pour déterminer une valeur précise du mode M0 , qui prend en
compte les effectifs des classes voisines de la classe modale.
Soit :
— L1 : la borne inférieure de la classe modale,
— d1 : la différence entre l’effectif de la classe modale et l’effectif de la classe précédente,
— d2 : la différence entre l’effectif de la classe modale et l’effectif de la classe suivante,
— ai : lamplitude de la classe modale.
La formule pour calculer le mode est alors :
d1
M 0 = L1 + × ai
d1 + d2
Exemple : Supposons les classes d’un échantillon de poids, avec leurs effectifs respectifs
comme suit :

Classe (en kg) Effectif


[50, 60[ 8
[60, 70[ 15
[70, 80[ 20
[80, 90[ 12
[90, 100[ 5

Dans cet exemple, la classe modale est [70, 80[, car elle contient le plus grand effectif (20).
En utilisant la formule, on obtient :

6
20 − 15
M0 = 70 + × 10
(20 − 15) + (20 − 12)
5 5
M0 = 70 + × 10 = 70 + × 10
5+8 13
M0 ≈ 73.85 kg
Ainsi, le mode approximé du poids dans cet échantillon est de 73,85 kg.

Quantiles
Nous utilisons les quantiles (comme les quartiles, déciles, percentiles, etc.) pour mieux dé-
crire la distribution de la variable. Ces valeurs typiques permettent de diviser les données en
segments égaux et de donner une représentation plus complète et flexible de la tendance centrale
et de la répartition des valeurs, même lorsque la médiane exacte n’est pas définie.
— Quartiles : Q1 (25%), Q2 (50%, médiane), Q3 (75%).
— Déciles : divisent les données en dix parties égales.
— Percentiles : divisent les données en cent parties égales.
Exemple : Dans l’ensemble {5, 10, 15, 20, 25}, le 1er quartile (Q1) est 10, la médiane (Q2) est
15 et le 3e quartile (Q3) est 20.

1.5.2 Indicateurs de dispersion des valeurs


On dispose dune population de N individus, et on observe x1, . . . , xN les valeurs dune
variable quantitative discrète X pour ces individus.
Les notions d’étendue et de variance et décart-type permettent de quantifier la dispersion d’un
échantillon autour de sa moyenne.

L’étendue observée
Létendue eX de la variable quantitative discrète X est la différence entre la plus grande et
la plus petite des valeurs observées : eX = max 1iN xi min 1iNxi . Dans le cas de la variable
ń Note à lExamen de Statistique ż, létendue vaut 18 2 = 16.

Variance observée
La variance dun échantillon {xi }ni=1 de moyenne m est donnée par :

1∑
n
S = 2
(xi − m)2
n i=1

Si les valeurs xi se répètent, en notant v1 , v2 , . . . , vk les valeurs distinctes des xi et ni le nombre


de fois que chaque vi apparaît, la variance peut être calculée par :

1∑
k
2
S = ni (vi − m)2
n i=1
ni
ou, en utilisant les fréquences fi = n
,


k
S = 2
fi (vi − m)2
i=1

7
Si les valeurs sont groupées en k classes, la variance devient :

1∑
k
S2 = ni (ci − m)2
n i=1

où ci et ni sont respectivement le centre et l’effectif de la i-ième classe, et n est leffectif total.


Exemple : Soit le nombre d’années pour obtenir une licence :

Nombre d’années Effectif Fréquence


3 8 0.4
4 7 0.35
5 4 0.2
6 1 0.05

Ainsi, la variance est :


( ) ( ) ( ) ( )
S 2 = 0.4 × 32 + 0.35 × 42 + 0.2 × 52 + 0.05 × 62 − (3.9)2 = 0.79 années2

Écart-type
L’écart-type est une mesure essentielle en statistique descriptive qui permet de comprendre
la dispersion ou la variabilité d’un ensemble de données autour de la moyenne. Il est directe-
ment lié à la variance, raison pour laquelle on le présente juste après celle-ci.

Pourquoi l’Écart-Type Vient Après la Variance ? La variance est la première étape pour
mesurer la dispersion. Elle calcule lécart moyen au carré de chaque valeur par rapport à la
moyenne. Cependant, comme elle est exprimée en unités au carré, son interprétation peut
être difficile. Par exemple, si on étudie des salaires en euros, la variance sera en euros carrés
(euros2)(euros 2), ce qui na pas de signification intuitive.
Lécart-type() résout ce problème en prenant la racine carrée de la variance. Cela nous
ramène aux mêmes unités que les données dorigine, ce qui facilite linterprétation L’écart-type
de l’échantillon est la racine carrée de la variance. L’avantage de l’écart-type sur la variance est
qu’il s’exprime dans la même unité que les données.

s= S2
Interprétation de l’Écart-Type : Lécart-type indique, en moyenne, à quelle distance les
valeurs se trouvent de la moyenne :

Écart-type faible : les valeurs sont proches de la moyenne, donc lensemble est peu dispersé.
Écart-type élevé : les valeurs sont plus éloignées de la moyenne, donc lensemble est dispersé.
Exemple : Si on a une série de salaires avec une moyenne de 2000 , et un écart-type de 300
, cela signifie que, en moyenne, les salaires varient de 300 autour de cette moyenne de 2000 .

1.6 Conclusion
Synthèse des données : La statistique descriptive fournit des outils essentiels pour résu-
mer et comprendre de grandes quantités de données, en identifiant les tendances centrales et
les variations dans un ensemble de données.
Mesures clés : Les indicateurs comme la moyenne, la médiane, le mode, ainsi que les
mesures de dispersion comme l’écart-type et la variance, permettent de décrire précisément la
distribution des données.

8
Visualisation et interprétation : Les tableaux et graphiques utilisés facilitent l’analyse
visuelle, aidant à la communication des résultats de manière claire et accessible.
Importance pour la prise de décision : En fournissant une vue d’ensemble, la statistique
descriptive est un premier pas vers l’analyse et la prise de décisions éclairées, que ce soit en
entreprise, en recherche ou en sciences sociales.

Vous aimerez peut-être aussi