Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Statistiques L3 Cours 2023

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 38

Université Gaston Berger de Saint Louis

UFR des Lettres et Sciences Humaines


Section Géographie

Statistiques

Licence 3

UE GEO354 : Outils et méthodes

Dr SARR
SYLLABUS A VISITER

2
Préférable

Ordinateur Curiosité Logiciels statistiques

Attentif au cours
Prise de notes

Retard accepté pour les 10 premières minutes

Silence Téléphone en vibreur


Etat des connaissances

La statistique descriptive Echantillon

Population ? Variable statistique

Médiane
Variable qualitative
Corrélation
Variance

Variable dépendante Variable quantitative

Variable indépendante
Coefficient et amplitude de variation
4. Indicateurs de dispersion

Les caractéristiques de dispersion sont nombreux : intervalle de variation,


variance, écart-type, coefficient de variation, intervalles interquartiles.
Fabrice Mazerolle, 2006
4.1. Intervalle de variation
L’intervalle, c’est la différence entre la plus grande valeur et la plus petite valeur
de la variable.
Exemple : Soit deux élèves dont les notes dans 4 matières ont été les suivantes :

Elève A : {8, 9, 10, 11, 12} et Elève B : {2, 4, 16, 18}

 L’étendue des notes de A est 12-8 = 4, tandis que l’étendue des notes de B est
18-2 = 16.
 La moyenne des 2 élèves est de 10.
 Les Notes de B sont plus dispersées que celles de A. En fait, si on fait le
rapport 16/4, on constate que les notes de B sont 4 fois plus dispersées que
celles de A.
 L’intervalle de variation donne une première idée d’une dispersion de la série
mais reste très sensible aux valeurs extrêmes.
4.2. Variance

La variance renseigne sur la dispersion des données autour de la moyenne.


La variance est le moment d’ordre deux de la distribution ; c’est aussi la
moyenne des écarts quadratiques à la moyenne.
Elle est symbolisée par :
4.3. Ecart type

L’écart type d’une distribution n’est autre que la racine carrée de la


variance.

Les propriétés de la variance et de l’écart type sont :


• Si toutes les observations sont d’égale valeur, la variance est nulle ;
• Plus les données s’avèrent inégales ou dispersées, plus la variance est
grande;
• La variance est très sensible aux valeurs exceptionnelles (forte
augmentation);
• La variance est toujours positive ou nulle;
• L’écart type s’exprime dans les mêmes unités que la moyenne
4.3. Ecart type (suite)

https://www.youtube.com/watch?v=vEzuS_KAid0
4.4. Coefficient de variation

Le coefficient de variation est très utile pour faciliter l’interprétation de la


variation, contrairement à la variance et l’écart type. Elle est symbolisée
par :

CV = pour la population statistique

CV = pour l’échantillon statistique


4.5. Intervalle interquartile

L’intervalle interquartile est une mesure de la variation qui n’est pas


influencée par les valeurs extrêmes, contrairement à l’intervalle de
variation.

Elle mesure l’étendue des 50% des valeurs situées au milieu d’une série
de données classées.
4.5. Intervalle interquartile

La distribution est divisée en 3 parties :

Si les deux parties sont d’égale importance, il s’agit de la


médiane

Si la première partie comporte 25% des valeurs, on parlera de


premier quartile

Si la troisième partie comporte 75% des valeurs, on dira le


troisième quartile
4.5. Intervalle interquartile
Il se calcule en 4 étapes :

a) Classement des données par ordre croissant ;


b) Trouver la médiane pour avoir les deux sous ensembles (Cf.
partie sur la médiane)
c) Déterminer la médiane des deux sous ensembles, sans inclure
dans chacun d’eux la médiane de l’ensemble initial. La Me du
premier sous ensemble est appelée « premier quartile » et
désignée par Q1. La Me du second sous ensemble est appelée
« second quartile » et désignée par Q3

d) Calculer l’intervalle interquartile par : IQ = Q3 – Q1


4.5. Intervalle interquartile

Fabrice Mazerolle, 2006


4.5. Intervalle interquartile
Exemple : Soit la série de chiffres suivantes : {19, 4, 13, 17, 7, 1, 3, 9, 14, 12, 20,
16, 15, 11, 6, 5}

a) Ordonnons : {1, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 19, 20}

b) Déterminons les 2 sous ensembles et la Me de l’ensemble et les Me des sous


ensembles :

{1, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 19, 20}

c) Calculons Intervalle interquartile :


IQ = Q3 – Q1 = 16 – 5 = 11
5. Régression bivariée

5.1. Série statistique bivariée

On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur

les n unités d’observation. Pour chaque unité, on obtient donc deux mesures.

La série statistique est alors une suite de n couples des valeurs prises par les

deux variables sur chaque individu :

(x1, y1), . . . , (xi, yi), . . . , (xn, yn).

Chacune des deux variables peut être soit quantitative, soit qualitative.
A. Représentation graphique de deux variables
Dans ce cas, chaque couple est composé
de deux valeurs numériques. Un couple de yi xi yi xi
60 155 75 180
nombres (entiers ou réels) peut toujours
61 162 76 175
ˆetre représenté comme un point dans un
64 157 78 173
plan
67 170 80 175
68 164 85 179
(x1 , y1 ), . . . , (xi, yi), . . . , (xn, yn).
69 162 90 175
Exemple. On mesure le poids Y et la taille X
70 169 96 180
de 20 individus.
70 170 96 185
72 178 98 189
73 173 101 187
B. Analyse des variables
Les variables x et y peuvent être analysées séparément. On peut calculer
tous les paramètres dont les moyennes, les écarts types et les variances

Nuage de points

 La dispersion des points sur chacun des axes est la variance de chacune
des variables.

 L’inclinaison de la projection du nuage de points sur un plan composé de 2


axes symbolisant 2 variables est fournie par la covariance.
C. Covariance

 Le centre de gravité du nuage indique la position du nuage

 La variance en X et en Y renseignent sur l’étalement du nuage dans la


direction de X et dans celle de Y

 La covariance fournira une indication sur l’inclinaisondu nuage de points.

 La covariance est le produit des moments centrés d’ordre un et est


une quantité décrivant la variation conjointe de deux variables aléatoires

 La covariance peut prendre des valeurs


positives, négatives ou nulles.
 Quand xi = yi, pour tout i = 1, . . . n, la
covariance est égale à la variance.
C. Covariance
Nous notons par Cov(X,Y) la covariance entre les variables
X et Y. La covariance est un paramètre qui donne la
variabilité de X par rapport à Y

Coefficient de corrélation

Coefficient de la droite
d’ajustement de Y en X
C. Covariance

EXERCICE :
Comment calculer la Covariance

Xi 4 12 23 40
yi 10 12 11 15
C. Covariance ------- exercice de calcul

Som. Moy.
Xi 4 12 23 40 79 19,75
yi 10 12 11 15 48 12
Xi - Moy -15,75 -7,75 3,25 20,25
Yi - Moy -2 0 -1 3
31,5 0 -3,25 60,75 89

Cov (x;y) = ¼ 4 représente le nombre de valeurs du tableau


Xi ou yi représente une valeur
représente les moyennes de x et y
ETAPE 1.
Calculer les sommes pour ensuite avoir les moyennes
ETAPE 2.
Calculer séparément les
ETAPE 3.
Calculer le produit
ETAPE 4.
Calculer la Covariance
D. Coefficient de corrélation de Pearson

La corrélation de Pearson, parfois appelée de Bravais-Pearson, est une


mesure symétrique de liaison linéaire existant entre 2 variables
quantitatives aléatoires. On l’appelle aussi coefficient de corrélation
linéaire entre les variables X et Y. Il est aussi la covariance divisée par les
deux écart-types marginaux.

Ce coefficient est égale à :


D. Coefficient de corrélation de Pearson

La corrélation de Pearson renvoie à la relation entre 2 variables


quantitatives aléatoires. Elle est symétrique ou asymétrique c’est-à-dire
la permutation X et Y est possible. L’intensité de la relation est mesurée
par le coefficient de corrélation. Il se définit comme suit :
Il varie entre -1 et 1 ;
Le signe indique le sens de la relation (linéaire positive ou négative). Le
signe du coefficient est celui de la pente de la tendance linéaire. Il sera
donc positif si une valeur élevée de Xj est associée à une valeur élevée
de Xp et il est négatif si une valeur élevée de Xj est associée à une valeur
faible de Xp ;
S’il est proche de 0, la relation, symbolisée par (r) entre les 2 variables est
faible ;
La corrélation est forte si (r) est proche de 1 ou de -1.
D. Coefficient de corrélation de Pearson

 Relation forte
D. Coefficient de corrélation de Pearson

 Aucune relation
D. Coefficient de corrélation de Pearson
E. Régression linéaire simple

Une relation fonctionnelle entre une variable


explicative/indépendante X et une variable expliquée/dépendante Y
est une fonction mathématique de la forme Y = f(X).

Si cette relation est linéaire, elle s’écrit Y = aX + b, et le graphe


qui la représente est une droite.

a: est l’ordonnée à l’origine ou coefficient directeur (valeur de Y


pour X=0)

b: est l’intercept (variation moyenne de Y quand X augmente d’une


unité) – l’erreur
6. Régression linéaire simple

Ainsi, si un comprimé contient 100 mg de principe actif


et si la production d’un lot de comprimés nécessite de
conserver 20 comprimés pour les contrôles, la relation
fonctionnelle entre la quantité totale Y de principe actif
à synthétiser et le nombre total X de comprimés à
délivrer s’écrit :
Y = 100X + 2000.
Tous les points de coordonnées (xi, yi) sont
parfaitement alignés.
6. Régression linéaire simple
6. Régression linéaire simple

Contrairement à la relation fonctionnelle, la relation statistique n’est pas

parfaite, et tous les points de coordonnées (xi, yi) ne tombent pas sur

la courbe de la fonction.

La relation entre le nombre total d’arbres dénombrés dans une

parcelle échantillon positionnée au hasard dans une foret et la taille

de la parcelle est une relation statistique, car la répartition spatiale des

arbres n’est pas parfaitement régulière.


6. Régression linéaire simple

Les points de coordonnées (xi, yi) forment alors un nuage de points. Une

droite, qui traverse au mieux le nuage de points, permet d’estimer une valeur ^y

pour chaque valeur x.

Cette droite porte le nom de droite d’estimation ou de droite de régression.

Le terme de régression remonte à l’étude de Sir Francis Galton (1889), qui

constata que les fils de père de petite étaient petits, mais en général plus

grands que leur père et que l’inverse se produisait pour les fils de père de

grande taille.
6. Régression linéaire simple

Une relation causale est une relation fonctionnelle ou statistique dans

laquelle le facteur X est effectivement le facteur qui détermine

totalement ou partiellement la valeur de la variable Y dans le système

étudié.

On parle également de relation de cause à effet.


6. Régression linéaire simple

Droite de régression :

L’idée est de transformer un nuage de point en une droite. Celle-ci

doit être la plus proche possible de chacun des points. On

cherchera donc à minimiser les écarts entre les points et la droite.


6. Régression linéaire simple

EXERCICE :
Droite de régression – Coefficient de corrélation

Année 2011 2012 2013 2014 2015 2016 2017


Rang xi 1 2 3 4 5 6 7
Production yi 76 81,7 83 89,8 90,7 91 93
en million

1. Représenter graphiquement le nuage de points Mi (xi ; yi) avec 1 ≤ i ≤ 7


2. Déterminer le coefficient de corrélation linéaire r entre x et y et interpréter le
3. Donner l’équation de la droite de régression de y en x
4. On suppose que l’évolution de cette production se poursuit ainsi, donc,
Estimer quand la production mondiale de véhicules dépassera 100 millions
CORRIGE : Titre du graphique
Droite de régression – Coefficient de corrélation 100

95

90

85

80

75

70 y = 2,7607x + 75,414
65 R² = 0,9021
60
0 1 2 3 4 5 6 7 8

Représenter graphiquement le nuage de points Mi (xi ; yi) avec 1 ≤ i ≤ 7

Déterminer le coefficient de corrélation linéaire r entre x et y et interpréter le


Vue la valeur de R2, il existe une bonne relation/corrélation entre le nombre de voitures
produits et les années ------ donc notre modèle est bon pour nous permettre d’estimer
les années à venir.

Donner l’équation de la droite de régression de y en x


a = 2,7607 ; b = 75,414 ; y = 2,7607x + 75,414

On suppose que l’évolution de cette production se poursuit ainsi. Donc, Estimer quand la
production mondiale de véhicules dépassera 100 millions.
Il suffit de remplacer x par 8, 9 10, etc. pour voir à quel moment y serait égale à 100
millions
7. Résumé
SUITE

Vous aimerez peut-être aussi