Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

STAT-Prev-Chap-22 2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 36

« Dans toute statistique, l’inexactitude du nombre est

compensée par la précision des décimales. »


Alfred SAUVY

Sophie PEREIRA

1
SERIES A 2 CARACTERES ET PREVISIONS

1. Séries à 2 caractères
2. L’ajustement linéaire
3. Méthode des moindres carrés
4. Méthode des points extrêmes
5. Méthode de Mayer

2
1. De quoi parle-t-on ?
2. Liaison statistique
3. Pondération

4. Vocabulaire

5. Présentation des données


6. Illustration

3
 L’objet de l’analyse des données statistiques à 2
dimensions est de permettre de :

 Repérer chaque individu de la population


statistique selon deux caractères en même temps :

 le salaire et l’ancienneté des salariés


 Les niveaux de revenu et de consommation des ménages
 La puissance des véhicules et leur impact carbone
 L’évolution des ventes dans le temps

4
 Les différents calculs sur ces données
statistiques à deux dimensions vont
permettre de saisir l’existence et l’intensité
de la liaison statistique entre les deux
caractères.

 Ont-elles une influence l’une sur l’autre ?

Calcul du coefficient de corrélation

5
 On distingue :
 Les séries non pondérées
 Les données sont rangées dans un tableau simple avec
o 2 caractères
o Aucun effectif de population

Etude du tourisme des plus grandes villes françaises


Nombre d’habitants en Nombre de touristes en
milliers milliers
[100-250[ 21
[250-500[ 24
[500-700[ 36
[700-3000] 50

6
 Les séries pondérées
 Les données sont rangées dans un tableau à
double entrée ou tableau de contingence avec
o 2 caractères
o Des effectifs de la population

7
 X et Y désignent les deux caractères
 xi et yi sont les modalités (les différentes valeurs) des
2 caractères
 N est l’effectif total de la population ;
 n est le nombre de modalités quand la série
statistique est non pondérée

8
 LES GRAPHIQUES :
 FORMES POSSIBLES DES NUAGES DE POINTS

Les liaisons
entre x et y sont
mesurées par
un coefficient
de corrélation
qui indique
l’intensité de la
liaison linéaire

9
 LES GRAPHIQUES : LA DROITE D’AJUSTEMENT
le nuage de points est remplacé par une droite nommée « droite
d’ajustement » si les points du nuage sont alignés. La droite
d’ajustement permet de faire une prévision.

10
Age Revenu  Existe-t-il un lien statistique entre
annuel (€) l’âge et le revenu annuel ?
20 15 000
30 27 500  Si oui, quelle est la nature de ce
40 36 500 lien ? Est-ce que le revenu
augmente avec l’âge par exemple
50 38 200
? Peut-on exprimer ce lien grâce à
une fonction linéaire ?

 Si oui, est ce que cette fonction


linéaire permettrait de faire des
prévisions de revenu pour un âge
donné ?

11
Age Revenu  X : l’âge
annuel (€)
 est la variable explicative,
x y
 on l’appelle la variable
20 15 000
indépendante
30 27 500
40 36 500
50 38 200  Y : le revenu annuel
 Est la variable expliquée,
 on l’appelle la variable
dépendante

12
 Revenu annuel en fonction de l’âge
Age Revenu Revenu annuel (€)
annuel (€) 45 000

x y
40 000

35 000

20 15 000 30 000

30 27 500
25 000

20 000

40 36 500 15 000

50 38 200
10 000

5 000

0
0 10 20 30 40 50 60

Plus le nuage de points forme une droite,


plus le lien entre les 2 variables est fort.
 Corrélation linéaire positive forte

13
1.Comment faire des prévisions ?
2.Qu’est ce que l’ajustement linéaire
3.Quelles sont les données statistiques
concernées
4.Comment fonctionnent les méthodes de
prévision ?

14
 Trouver l’équation de la droite
 Calculer
 le coefficient directeur a
 L’ordonnée à l’origine b
 Incrémenter la valeur de x pour trouver le
nouvel y

Plusieurs méthodes pour trouver


l’équation de la droite

15
y=ax+b

 Ajuster (remplacer) le
nuage de points par la
droite qui passe « au
plus près » des points

16
 Séries statistiques à 2 caractères non
pondérées
 Corrélation forte entre les 2 caractères
 Séries chronologiques

17
 Méthodes fondées sur
 L’analyse des données issues du passé.
 L’analyse de la tendance générale de la série
 L’hypothèse que les événements passés se
reproduisent dans le futur.

 Pas de composante accidentelle majeure


 Les prévisions doivent se limiter aux valeurs proches de
l’échantillon.

18
1.Calcul de la covariance
2.Calcul de la droite
d’ajustement

19
 Dans l’équation 𝑦 = 𝑎𝑥 + 𝑏

 Le coefficient directeur de la droite est

𝑐𝑜𝑣 (𝑥,𝑦)
a=
𝑣(𝑥)

‣ L’ordonnée à l’origine est b = 𝑦ഥ -𝑎𝑥ҧ

20
 La covariance entre x et y, notée Cov(x,y), se définit comme la
moyenne arithmétique du produit des écarts (xi – x) et (yi – y).
 C’est une sorte de variance pour les séries à 2
dimensions.

 Pour une distribution non pondérée elle s’écrit :


1
𝑐𝑜𝑣 𝑥, 𝑦 = × σ 𝑥𝑖 − 𝑥 × (𝑦𝑖 − 𝑦)
𝑛

σ 𝑥𝑖𝑦𝑖
Ou 𝑐𝑜𝑣 𝑥, 𝑦 = − 𝑥𝑦
𝑛

21
Age Revenu Rappel des 2 formules
annuel (€) 1
1/ 𝑐𝑜𝑣 𝑥, 𝑦 = × σ 𝑥𝑖 − 𝑥 × (𝑦𝑖 − 𝑦)
x y 𝑛
σ 𝑥𝑖𝑦𝑖
20 15 000 2/ 𝑐𝑜𝑣 𝑥, 𝑦 = − 𝑥𝑦
𝑛
30 27 500
40 36 500 Etape 1 : calcul des 2 moyennes
50 38 200 𝑥 = (20+30+40+50)/4 = 35
𝑦 = (15000+27500+36500+38200)/4 = 29 300

Etape 2 : application de la formule


Formule 1
Cov(x,y) = ¼ x [(20-35)x(15000-29300) + (30-35)x(27500-29300)
+ (40-35)x(36500-29300) + (50-35)x(38200-29300) = 98 250

Formule 2
Cov (x,y) = [(20x15000 + 30x27500 + 40x36500 + 50x38200)/4]
– 35x29300 = 98 250

22
σ 𝑛𝑖𝑥𝑖²
𝑣 𝑥 = − 𝑥²
𝑁

Mais comme N et ni sont inconnus, on écrit :

σ 𝑥𝑖²
𝑣 𝑥 = − 𝑥²
𝑛

23
Age Revenu
annuel (€)
x y
σ 𝑥𝑖²
20 15 000 Où 𝑉 𝑥 = − 𝑥²ҧ
𝑛
30 27 500
40 36 500
50 38 200

 V(𝑥) = (20²+30²+40²+50²)/4 – 35² = 125

24
 Dans l’équation 𝑦 = 𝑎𝑥 + 𝑏

 Le coefficient directeur de la droite est


𝑐𝑜𝑣 (𝑥,𝑦)
a=
𝑣(𝑥)

 L’ordonnée à l’origine est b = 𝑦ഥ -𝑎𝑥ҧ

 La droite d’ajustement passe par M, le point


moyen, de coordonnées (𝑥ҧ ; 𝑦)

Vous ne voulez pas utiliser ces 2 formules ? σ(𝑥𝑖−𝑥)(𝑦𝑖−


ҧ ത
𝑦)
Vous pouvez utiliser la formule condensée : a = σ ҧ
(𝑥𝑖 −𝑥)²
25
Age Revenu Y = ax + b
annuel (€)
x y a = Cov(𝑥, 𝑦) / V(𝑥)
20 15 000 b = 𝑦ഥ -𝑎𝑥ҧ
30 27 500
40 36 500
50 38 200
 a = 98250/ 125 = 786

 b= 29300 - ( 786x35) = 1790

 y= 786 𝑥 + 1790

26
 y= 786 𝑥 + 1790

 Si 𝑥 = 53

 Y = 786 x 53 + 1790 = 43 448 €

 La prévision salariale d’une personne de 53


ans est donc de 43 448 €

27
Les étapes de calcul
Illustration

28
Etape 1 : Identifier les 2 points extrêmes de la série A et B
avec A(𝑥𝐴 ; 𝑦𝐴) et B (𝑥𝐵 ; 𝑦𝐵)

𝑦𝐵 −𝑦𝐴
Etape 2 : on trouve a => 𝑎=
𝑥𝐵 −𝑥𝐴

Etape 3 : on prend les coordonnées de A et a pour trouver b


𝑏 = 𝑦𝐴 − 𝑎𝑥𝐴

Etape 4 : on remplace a et b dans l’équation 𝑦 = 𝑎𝑥 + 𝑏


Années CA 1. Définir les points extrêmes : A et B

1 2500 A (1 ; 2500) B (4 ; 2860)

2 2700 2. Trouver a
3 2750 2860 − 2500
4 2860 𝑎=
4−1
= 120

3. Trouver b

b= 2500 – 120x1 = 2380

4. Trouver l’équation de droite

y= 120 𝑥 +2380
Années CA Pour réaliser la prévision
On remplace le x par la valeur
1 2500 suivante dans l’équation :
2 2700
y= 120 𝑥 +2380
3 2750
4 2860 y = 120 x 5 + 2380 = 2 980

Le chiffre d’affaires prévisionnel


pour l’année suivante
sera donc de 2 980 €
32
Etape 1 : On partage la série en 2 et on cherche 2 points
moyens A et B avec A(𝑥𝐴 ; 𝑦𝐴) et B (𝑥𝐵 ; 𝑦𝐵)

𝑦𝐵 −𝑦𝐴
Etape 2 : on trouve a => 𝑎 =
𝑥𝐵 −𝑥𝐴

Etape 3 : on prend les coordonnées de A et a pour trouver b


𝑏 = 𝑦𝐴 − 𝑎𝑥𝐴

Etape 4 : on remplace a et b dans l’équation 𝑦 = 𝑎𝑥 + 𝑏


1. On partage la série en 2 et on
Années CA cherche 2 points moyens A et B
1 2500 A (1,5 ; 2600) B (3,5 ; 2805)
2 2700 2. Trouver a
3 2750 2805 − 2600
𝑎= = 102,5
4 2860 3,5 − 1,5
3. Remplacer les coordonnées de A et
a dans l’équation pour trouver b
b= 2600 – 102,5x1,5 = 2446,25

4. Poser l’équation de droite


y= 102,5 𝑥 +2446,25
Années CA Pour réaliser la prévision
On remplace le x par la valeur
1 2500 suivante dans l’équation :
2 2700
y= 102,5 𝑥 +2446,25
3 2750
4 2860 y = 102,5 x 5 + 2446,25 = 2 958,75

Le chiffre d’affaires prévisionnel


pour l’année suivante
sera donc de 2 958,75 €
 EXERCICES

 Fiche d’entraînement

36

Vous aimerez peut-être aussi