Statistiques L3 Cours 2023

Université Gaston Berger de Saint Louis
UFR des Lettres et Sciences Humaines

Section Géographie
Statistiques
Licence 3
UE GEO354 : Outils et méthodes
Dr SARR
SYLLABUS A VISITER
2
Préférable
Ordinateur Curiosité Logiciels statistiques
Attentif au cours
Prise de notes
Retard accepté pour les 10 premières minutes
Silence Téléphone en vibreur

Etat des connaissances
La statistique descriptive Echantillon
Population ? Variable statistique
Médiane
Variable qualitative
Corrélation
Variance
Variable dépendante Variable quantitative
Variable indépendante
Coefficient et amplitude de variation
4. Indicateurs de dispersion
Les caractéristiques de dispersion sont nombreux : intervalle de variation,

variance, écart-type, coefficient de variation, intervalles interquartiles.
Fabrice Mazerolle, 2006
4.1. Intervalle de variation
L’intervalle, c’est la différence entre la plus grande valeur et la plus petite valeur
de la variable.
Exemple : Soit deux élèves dont les notes dans 4 matières ont été les suivantes :
Elève A : {8, 9, 10, 11, 12} et Elève B : {2, 4, 16, 18}
 L’étendue des notes de A est 12-8 = 4, tandis que l’étendue des notes de B est
18-2 = 16.
 La moyenne des 2 élèves est de 10.
 Les Notes de B sont plus dispersées que celles de A. En fait, si on fait le
rapport 16/4, on constate que les notes de B sont 4 fois plus dispersées que
celles de A.
 L’intervalle de variation donne une première idée d’une dispersion de la série
mais reste très sensible aux valeurs extrêmes.
4.2. Variance
La variance renseigne sur la dispersion des données autour de la moyenne.

La variance est le moment d’ordre deux de la distribution ; c’est aussi la
moyenne des écarts quadratiques à la moyenne.
Elle est symbolisée par :
4.3. Ecart type
L’écart type d’une distribution n’est autre que la racine carrée de la

variance.
Les propriétés de la variance et de l’écart type sont :

• Si toutes les observations sont d’égale valeur, la variance est nulle ;
• Plus les données s’avèrent inégales ou dispersées, plus la variance est
grande;
• La variance est très sensible aux valeurs exceptionnelles (forte
augmentation);
• La variance est toujours positive ou nulle;
• L’écart type s’exprime dans les mêmes unités que la moyenne
4.3. Ecart type (suite)
https://www.youtube.com/watch?v=vEzuS_KAid0
4.4. Coefficient de variation
Le coefficient de variation est très utile pour faciliter l’interprétation de la

variation, contrairement à la variance et l’écart type. Elle est symbolisée
par :
CV = pour la population statistique
CV = pour l’échantillon statistique

4.5. Intervalle interquartile
L’intervalle interquartile est une mesure de la variation qui n’est pas

influencée par les valeurs extrêmes, contrairement à l’intervalle de
variation.
Elle mesure l’étendue des 50% des valeurs situées au milieu d’une série
de données classées.
La distribution est divisée en 3 parties :
Si les deux parties sont d’égale importance, il s’agit de la

médiane
Si la première partie comporte 25% des valeurs, on parlera de

premier quartile
Si la troisième partie comporte 75% des valeurs, on dira le

troisième quartile
Il se calcule en 4 étapes :
a) Classement des données par ordre croissant ;

b) Trouver la médiane pour avoir les deux sous ensembles (Cf.
partie sur la médiane)
c) Déterminer la médiane des deux sous ensembles, sans inclure
dans chacun d’eux la médiane de l’ensemble initial. La Me du
premier sous ensemble est appelée « premier quartile » et
désignée par Q1. La Me du second sous ensemble est appelée
« second quartile » et désignée par Q3
d) Calculer l’intervalle interquartile par : IQ = Q3 – Q1

Fabrice Mazerolle, 2006

Exemple : Soit la série de chiffres suivantes : {19, 4, 13, 17, 7, 1, 3, 9, 14, 12, 20,
16, 15, 11, 6, 5}
a) Ordonnons : {1, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 19, 20}
b) Déterminons les 2 sous ensembles et la Me de l’ensemble et les Me des sous

ensembles :
{1, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 19, 20}
c) Calculons Intervalle interquartile :

IQ = Q3 – Q1 = 16 – 5 = 11
5. Régression bivariée
5.1. Série statistique bivariée
On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur
les n unités d’observation. Pour chaque unité, on obtient donc deux mesures.
La série statistique est alors une suite de n couples des valeurs prises par les
deux variables sur chaque individu :
(x1, y1), . . . , (xi, yi), . . . , (xn, yn).
Chacune des deux variables peut être soit quantitative, soit qualitative.
A. Représentation graphique de deux variables
Dans ce cas, chaque couple est composé
de deux valeurs numériques. Un couple de yi xi yi xi
60 155 75 180
nombres (entiers ou réels) peut toujours
61 162 76 175
ˆetre représenté comme un point dans un
64 157 78 173
plan
67 170 80 175
68 164 85 179
(x1 , y1 ), . . . , (xi, yi), . . . , (xn, yn).
69 162 90 175
Exemple. On mesure le poids Y et la taille X
70 169 96 180
de 20 individus.
70 170 96 185
72 178 98 189
73 173 101 187
B. Analyse des variables
Les variables x et y peuvent être analysées séparément. On peut calculer
tous les paramètres dont les moyennes, les écarts types et les variances
Nuage de points
 La dispersion des points sur chacun des axes est la variance de chacune
des variables.
 L’inclinaison de la projection du nuage de points sur un plan composé de 2

axes symbolisant 2 variables est fournie par la covariance.
C. Covariance
 Le centre de gravité du nuage indique la position du nuage
 La variance en X et en Y renseignent sur l’étalement du nuage dans la

direction de X et dans celle de Y
 La covariance fournira une indication sur l’inclinaisondu nuage de points.
 La covariance est le produit des moments centrés d’ordre un et est

une quantité décrivant la variation conjointe de deux variables aléatoires
 La covariance peut prendre des valeurs

positives, négatives ou nulles.
 Quand xi = yi, pour tout i = 1, . . . n, la
covariance est égale à la variance.
C. Covariance
Nous notons par Cov(X,Y) la covariance entre les variables
X et Y. La covariance est un paramètre qui donne la
variabilité de X par rapport à Y
Coefficient de corrélation
Coefficient de la droite
d’ajustement de Y en X
C. Covariance
EXERCICE :
Comment calculer la Covariance
Xi 4 12 23 40
yi 10 12 11 15
C. Covariance ------- exercice de calcul
Som. Moy.
Xi 4 12 23 40 79 19,75
yi 10 12 11 15 48 12
Xi - Moy -15,75 -7,75 3,25 20,25
Yi - Moy -2 0 -1 3
31,5 0 -3,25 60,75 89
Cov (x;y) = ¼ 4 représente le nombre de valeurs du tableau

Xi ou yi représente une valeur
représente les moyennes de x et y
ETAPE 1.
Calculer les sommes pour ensuite avoir les moyennes
ETAPE 2.
Calculer séparément les
ETAPE 3.
Calculer le produit
ETAPE 4.
Calculer la Covariance
D. Coefficient de corrélation de Pearson
La corrélation de Pearson, parfois appelée de Bravais-Pearson, est une

mesure symétrique de liaison linéaire existant entre 2 variables
quantitatives aléatoires. On l’appelle aussi coefficient de corrélation
linéaire entre les variables X et Y. Il est aussi la covariance divisée par les
deux écart-types marginaux.
Ce coefficient est égale à :

La corrélation de Pearson renvoie à la relation entre 2 variables

quantitatives aléatoires. Elle est symétrique ou asymétrique c’est-à-dire
la permutation X et Y est possible. L’intensité de la relation est mesurée
par le coefficient de corrélation. Il se définit comme suit :
Il varie entre -1 et 1 ;
Le signe indique le sens de la relation (linéaire positive ou négative). Le
signe du coefficient est celui de la pente de la tendance linéaire. Il sera
donc positif si une valeur élevée de Xj est associée à une valeur élevée
de Xp et il est négatif si une valeur élevée de Xj est associée à une valeur
faible de Xp ;
S’il est proche de 0, la relation, symbolisée par (r) entre les 2 variables est
faible ;
La corrélation est forte si (r) est proche de 1 ou de -1.
 Relation forte
 Aucune relation
E. Régression linéaire simple
Une relation fonctionnelle entre une variable

explicative/indépendante X et une variable expliquée/dépendante Y
est une fonction mathématique de la forme Y = f(X).
Si cette relation est linéaire, elle s’écrit Y = aX + b, et le graphe

qui la représente est une droite.
a: est l’ordonnée à l’origine ou coefficient directeur (valeur de Y

pour X=0)
b: est l’intercept (variation moyenne de Y quand X augmente d’une

unité) – l’erreur
6. Régression linéaire simple
Ainsi, si un comprimé contient 100 mg de principe actif

et si la production d’un lot de comprimés nécessite de
conserver 20 comprimés pour les contrôles, la relation
fonctionnelle entre la quantité totale Y de principe actif
à synthétiser et le nombre total X de comprimés à
délivrer s’écrit :
Y = 100X + 2000.
Tous les points de coordonnées (xi, yi) sont
parfaitement alignés.
Contrairement à la relation fonctionnelle, la relation statistique n’est pas
parfaite, et tous les points de coordonnées (xi, yi) ne tombent pas sur
la courbe de la fonction.
La relation entre le nombre total d’arbres dénombrés dans une
parcelle échantillon positionnée au hasard dans une foret et la taille
de la parcelle est une relation statistique, car la répartition spatiale des
arbres n’est pas parfaitement régulière.

Les points de coordonnées (xi, yi) forment alors un nuage de points. Une
droite, qui traverse au mieux le nuage de points, permet d’estimer une valeur ^y
pour chaque valeur x.
Cette droite porte le nom de droite d’estimation ou de droite de régression.
Le terme de régression remonte à l’étude de Sir Francis Galton (1889), qui
constata que les fils de père de petite étaient petits, mais en général plus
grands que leur père et que l’inverse se produisait pour les fils de père de
grande taille.
Une relation causale est une relation fonctionnelle ou statistique dans
laquelle le facteur X est effectivement le facteur qui détermine
totalement ou partiellement la valeur de la variable Y dans le système
étudié.
On parle également de relation de cause à effet.

Droite de régression :
L’idée est de transformer un nuage de point en une droite. Celle-ci
doit être la plus proche possible de chacun des points. On
cherchera donc à minimiser les écarts entre les points et la droite.

EXERCICE :
Droite de régression – Coefficient de corrélation
Année 2011 2012 2013 2014 2015 2016 2017

Rang xi 1 2 3 4 5 6 7
Production yi 76 81,7 83 89,8 90,7 91 93
en million
1. Représenter graphiquement le nuage de points Mi (xi ; yi) avec 1 ≤ i ≤ 7

2. Déterminer le coefficient de corrélation linéaire r entre x et y et interpréter le
3. Donner l’équation de la droite de régression de y en x
4. On suppose que l’évolution de cette production se poursuit ainsi, donc,
Estimer quand la production mondiale de véhicules dépassera 100 millions
CORRIGE : Titre du graphique
Droite de régression – Coefficient de corrélation 100
95
90
85
80
75
70 y = 2,7607x + 75,414
65 R² = 0,9021
60
0 1 2 3 4 5 6 7 8
Représenter graphiquement le nuage de points Mi (xi ; yi) avec 1 ≤ i ≤ 7
Déterminer le coefficient de corrélation linéaire r entre x et y et interpréter le

Vue la valeur de R2, il existe une bonne relation/corrélation entre le nombre de voitures
produits et les années ------ donc notre modèle est bon pour nous permettre d’estimer
les années à venir.
Donner l’équation de la droite de régression de y en x

a = 2,7607 ; b = 75,414 ; y = 2,7607x + 75,414
On suppose que l’évolution de cette production se poursuit ainsi. Donc, Estimer quand la
production mondiale de véhicules dépassera 100 millions.
Il suffit de remplacer x par 8, 9 10, etc. pour voir à quel moment y serait égale à 100
millions
7. Résumé
SUITE

Statistiques L3 Cours 2023

Transféré par

Droits d'auteur :

Formats disponibles

Statistiques L3 Cours 2023

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistiques L3 Cours 2023

Transféré par

Droits d'auteur :

Formats disponibles

Université Gaston Berger de Saint Louis

UFR des Lettres et Sciences Humaines

UE GEO354 : Outils et méthodes

Ordinateur Curiosité Logiciels statistiques

Retard accepté pour les 10 premières minutes

Silence Téléphone en vibreur

La statistique descriptive Echantillon

Population ? Variable statistique

Variable dépendante Variable quantitative

Les caractéristiques de dispersion sont nombreux : intervalle de variation,

Elève A : {8, 9, 10, 11, 12} et Elève B : {2, 4, 16, 18}

La variance renseigne sur la dispersion des données autour de la moyenne.

L’écart type d’une distribution n’est autre que la racine carrée de la

Les propriétés de la variance et de l’écart type sont :

Le coefficient de variation est très utile pour faciliter l’interprétation de la

CV = pour la population statistique

CV = pour l’échantillon statistique

L’intervalle interquartile est une mesure de la variation qui n’est pas

La distribution est divisée en 3 parties :

Si les deux parties sont d’égale importance, il s’agit de la

Si la première partie comporte 25% des valeurs, on parlera de

Si la troisième partie comporte 75% des valeurs, on dira le

a) Classement des données par ordre croissant ;

d) Calculer l’intervalle interquartile par : IQ = Q3 – Q1

Fabrice Mazerolle, 2006

b) Déterminons les 2 sous ensembles et la Me de l’ensemble et les Me des sous

c) Calculons Intervalle interquartile :

5.1. Série statistique bivariée

On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur

deux variables sur chaque individu :

(x1, y1), . . . , (xi, yi), . . . , (xn, yn).

 L’inclinaison de la projection du nuage de points sur un plan composé de 2

 Le centre de gravité du nuage indique la position du nuage

 La variance en X et en Y renseignent sur l’étalement du nuage dans la

 La covariance fournira une indication sur l’inclinaisondu nuage de points.

 La covariance est le produit des moments centrés d’ordre un et est

 La covariance peut prendre des valeurs

Cov (x;y) = ¼ 4 représente le nombre de valeurs du tableau

La corrélation de Pearson, parfois appelée de Bravais-Pearson, est une

Ce coefficient est égale à :

La corrélation de Pearson renvoie à la relation entre 2 variables

Une relation fonctionnelle entre une variable

Si cette relation est linéaire, elle s’écrit Y = aX + b, et le graphe

a: est l’ordonnée à l’origine ou coefficient directeur (valeur de Y

b: est l’intercept (variation moyenne de Y quand X augmente d’une

Ainsi, si un comprimé contient 100 mg de principe actif

Contrairement à la relation fonctionnelle, la relation statistique n’est pas

La relation entre le nombre total d’arbres dénombrés dans une

parcelle échantillon positionnée au hasard dans une foret et la taille

de la parcelle est une relation statistique, car la répartition spatiale des

arbres n’est pas parfaitement régulière.

pour chaque valeur x.

Cette droite porte le nom de droite d’estimation ou de droite de régression.

Le terme de régression remonte à l’étude de Sir Francis Galton (1889), qui

Une relation causale est une relation fonctionnelle ou statistique dans

laquelle le facteur X est effectivement le facteur qui détermine

totalement ou partiellement la valeur de la variable Y dans le système

On parle également de relation de cause à effet.

L’idée est de transformer un nuage de point en une droite. Celle-ci