Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

SP_Fr_Corr TD123-2425_v01

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 22

Statistiques et techniques de prévision – 2024-

2025 – Notes de correction des TD 1 à 3


Bruno Fischer Colonimos

Sommaire
Sommaire .......................................................................................................................................................................... 1
Principe des tests ...................................................................................................................................................... 2
Beaver ............................................................................................................................................................... 2
Qualité chez Innovatron .................................................................................................................................... 4
Connaissance des prix ....................................................................................................................................... 5
Lire des tests faits par un logiciel - interpréter une p-valeur ........................................................................... 6
Tests du Chi² ............................................................................................................................................................ 10
Librairie ........................................................................................................................................................... 10
Force de Vente ................................................................................................................................................ 11
Beaver, suite .................................................................................................................................................... 12
Gaz................................................................................................................................................................... 13
Régression linéaire simple, corrélation. .................................................................................................................. 14
Introduction aux statistiques : Notes 2023-2024. ........................................................................................... 14
Scierie de Romme ........................................................................................................................................... 16
Tabac et Alcool en Grande-Bretagne............................................................................................................... 20
Oeufs boursiers ............................................................................................................................................... 21

Bruno Fischer Colonimos - 1/22


Principe des tests

Beaver
Pour essayer de prévoir la défaillance des entreprises et prévoir suffisamment tôt leur éventuel reclassement,
l'économiste W. BEAVER introduit le ratio défini, pour chaque entreprise, comme le quotient de la marge brute
d'autofinancement (cash flow) par les dettes totales.
A partir d'un grand nombre d'observations, il déduit que les entreprises saines ont un ratio qui suit une loi normale de
moyenne m = 0.7 et d'écart-type s = 0.18 et que les entreprises défaillantes ont un ratio qui suit une loi normale de
moyenne m = 0.1 et d'écart-type s = 0.15 .

1.1.1 Questions et réponses


Travail à faire:
1. Trouver l'intervalle [ a ; b ] , centré en m , dans lequel se trouve le ratio de 95% des entreprises saines.

Pour l’instant dans cet exercice (vieux sujet de DECS), on demande un intervalle de prévision (bilatéral) pour le ratio
des entreprises saines  cours de 1A :
 ~ 0.7 ; 0.18  ⏟ ∈ 0.7 1.96 0.18 . ; . ;
%

2. On cherche à définir un test pour juger de la santé d’une entreprise. L’hypothèse nulle de ce test est que
l’entreprise considérée est saine, et on décide de juger saines les entreprises dont le ratio est supérieur ou égal
à a et défaillantes celles dont le ratio est inférieur ou égal à a.
Quel est risque de classer défaillante une entreprise qui est saine (seuil de signification du test, ou risque α ) ?

Le texte commence par nous imposer a) l’hypothèse nulle et b) la règle de décision du test
Donc :
: l'entse est saine : μ 0.7
• hypothèses = ! , cad !
l'entse est défaillante μ 0.1
où μ est la valeur moyenne du ratio X (qui est la
+: +:
statistique du test), pour la population à laquelle appartient l’entreprise (on teste sur la moyenne, mais on utilise
l’écart-type de la population des entreprises saines ou celui des entreprises défaillantes). Donc test unilatéral,
mais l’hypothèse et la contre-hypothèses sont des hypothèses simples, avec 1 seule valeur de μ, ce qui rendra
possible le calcul de β

• Règle de décision du test : accepter H0 si X ≥ 0.35

Bruno Fischer Colonimos - 2/22


Donc le risque α est, par construction, α =0.025. = 012 34 56728 ( < 0.35)

Quel est le risque de classer saine une entreprise défaillante (risque β )?


Si l’entreprise est défaillante ( ~ (0.1 ; 0.15)), 012 3< 56728 ( > 0.35) = 0.0475 ≈ 5%

(le calcul est exceptionnellement possible dans ce cas, car H1 ne comprend qu’une seule valeur de μ )

Remarque : si on veut limiter le risque alpha, on ne peut le faire qu’en prenant une valeur critique plus petite que
0.35, ce qui provoquera automatiquement une augmentation de β , et vice-versa

Question supplémentaire :
Vous évaluez une entreprise dont le ratio est X=0.30. Comment est-elle classifiée par le test ? (en se fondant sur a) la
valeur critique de X ou b) la p-valeur du test

a) Evident (X< 0.35)


b) Visualisation de la p-valeur :

Bruno Fischer Colonimos - 3/22


Calcul : 0 034 56728 @ 0.3 034 56728 A @ B2.22 1 B .9868 ? 0,0132 @ 0.025
 Rejet de H0 au seuil de 0.025

Qualité chez Innovatron1


Au sein de l’entreprise Innovatron, un procédé de fabrication courant a produit une population de milliers d’écrans TV
dont la durée de vie moyenne est µ = 12000 heures avec un écart-type σ = 3000 heures. Un nouveau procédé, estimé
meilleur par le bureau d’études de l’entreprise, a été testé sur un échantillon de taille n = 100. La durée de vie moyenne
des écrans de l’échantillon est m = 12650 heures. On estime d’après le théorème central limite que cette distribution est
I
normale, et donc, d’après le cours de 1ère année, que la loi de la moyenne d’échantillon E̅ est GH, L, où μ et σ sont
√K
respectivement la moyenne et l’écart-type des durées de vie des écrans de la population.

Travail à faire :
1. Afin de vérifier si le nouveau procédé est meilleur l’entreprise décide d’utiliser un test. Précisez les hypothèses H0 et
H1 de ce test et précisez s’il est bilatéral ou unilatéral.

!: μ = 12000
μ > 12000
Le teste semble suggérer le jeu d’hypothèses : . Donc test unilatéral : on rejettera H0 si la statistique
+:
E̅ est étonnamment élevée si H0 est vraie.
!: μ=12000
(On peut discuter sur la légitimité de ce choix, comparé à )
+: μ≠12000

2. La statistique du test sera la moyenne d’échantillon E̅ . Donnez les paramètres de la loi de probabilité de E̅

N 3000
E̅ ~ MH, P M12000, P 12000 , 300
√O √100

1
PS
Bruno Fischer Colonimos - 4/22
3. Calculer la valeur critique E̅Q de cette statistique pour un seuil alpha de 5%2. Que peut-on dire du nouveau procédé
de fabrication ?

Loi Normale  p(T>1.65) = 0.05 E̅Q H R S N 12000 R 1.65 300 12495


Règle décision : rejeter H0 si E̅ = 12495
Conclusion : on trouve E̅ 12650 = 12495  au seuil de 5%, on peut rejeter H0 et affirmer que. Le nouveau
procédé est meilleur que l’ancien.

4. Calculer la p-valeur et comparez-la au seuil alpha de 5%. Votre résultat confirme-t-il la conclusion obtenue à la
question précédente ?

+VW !X+V!!!
On a trouvé E̅ 12650. On calcule p = 0T E̅ = 12650 0T GU = Y!!
L 0T U = 2.17 1 B 0.9850
0.015
Si H0 est vraie, la probabilité qu’un échantillon aléatoire de n = 100 écrans ait une durée de vie moyenne E̅ = 12650
heures est p = 1.5%.
1.5%< 5%  au seuil de 5%, on peut rejeter H0. Le nouveau procédé est significativement meilleur que l’ancien (on
peut discuter sure le sens exact de cela)

Connaissance des prix3


Market Research Inc. veut savoir si les acheteurs sont sensibles aux prix des articles vendus dans un supermarché.
Elle a obtenu un échantillon aléatoire de 802 acheteurs et a constaté que 378 acheteurs du supermarché étaient
capables d'indiquer le prix d'un article immédiatement après l'avoir mis dans leur panier. Testez au risque de 5 %
l'hypothèse nulle selon laquelle au moins la moitié des clients sont capables d'indiquer le prix correct.

On note p la proportion de clients connaissant le prix dans la population, f la même proportion dans l’échantillon
: p [ 0.5
Hypothèses : ! test unilatéral. On utilisera p 0.5 pour le calcul
+: p @ 0.5

Statistique : f4 ()
g +Xg
Loi de la statistique f : a ~ b0 , Nc d e0 , f K
h (cf cours de 1A : Loi d’échantillonnage d’une proportion)

. +X.
On utilise H0 et on suppose p = 0.5 : a ~ e0.5 , f i!V
h? 0.5 , 0.0177

Valeur critique (avec α = 5%) aQ 0.5 B 1.65 0.0177 0.471 (voir justification ci-dessous)
Règle de décision : rejeter H0 si f < 0.471
Yji
Réalisation : a i!V ? 0.471 aQ  la significativité du résultat est douteuse : l’échantillon observé est à la limite
de la zone d’acceptation de H0 . On n’a pas de preuve solide de la fausseté de H0

1.3.1 Justification:
ustification:
Explication/justification du calcul de la valeur critique kl au risque α = 0.05.
La statistique du test est a = la proportion dans l’échantillon et le test est unilatéral : on rejettera H0 si la fréquence
observée f est « trop petite ».
. +X.
Si H0 est vraie, on a a ~ e0.5 , f i!V
h? 0.5 , 0.0177 (cad Nc 0.0177 On cherche la valeur aQ de f telle
que 0T a 9 aQ 0.05

2
σ est inconnu, donc la loi de proba devrait être une loi de Student. Toutefois, pour les grands échantillon, cette loi est
approximativement une loi normale. Le cours de 1A n’a traité que des grands échantillons (on n’a donc pas parlé de Student).
3
Proposé par PS. Source : Paul Newbold, William L. Carlson, Betty Thorne
cXg
4
Remarque : on peut aussi choisir la statistique A , qui suit une loi 0 ,1
Im
Bruno Fischer Colonimos - 5/22
aQ est nécessairement à gauche de la moyenne p = 0.5
cXg cX!.
donc, en passant à la variable centrée réduite , la valeur correspondant à aQ est négative. Notons-
Im !.!+jj
la BAQ . On a la figure :

a B 0.5
0.0177

En utilisant la symétrie de la distribution normale :

On peut lire alors sur la table 0T A 9 1.65 ? 0.95 donc 0T A = 1.65 ? 0.05 donc 1.65 est une valeur convenable
pour AQ
Par conséquent
a B 0.5
B1.65
0.0177
Donc :
a 0.5 B 1.65 0.0177 0.470795 ? 0.471
CQFD

p-valeur 5
Lire des tests faits par un logiciel - interpréter une p-
On considère des données dont l’aperçu est le suivant :
Number of
Method of
Amount Sex Items
paymt
purchased
84.12 Male Check 1
34.66 Male Credit Card 9
37.27 Female Credit Card 1
46.5 Female Credit Card 8
99.67 Female Check 5
… … .. …

5
BFC
Bruno Fischer Colonimos - 6/22
(il s’agit d’une enquête sur les achats et les paiements faits par les clients d’un magasin. Nous avons déjà utilisé ces
données. L’échantillon est constitué de 80 clients)

1.4.1 Les montants payés suivent-


suivent-ils une loi normale ?
On se fixe un seuil de signification de 5% et on réalise le test avec le logiciel Xlstatistics . On obtient l’écran suivant :

Data 30
Mean (µ) 66.87263 25

Frequency
St Dev (σ) 36.10915 20
15

Proportions Frequencies 10

Range Observed Expected Observed Expected 5


0
< µ-3σ 0 0.00135 0 0.107992

µ-σ to µ
µ-2σ to µ-σ

µ to µ+σ

µ+σ to µ+2σ
µ+2σ to µ+3σ
µ-3σ to µ-2σ
< µ-3σ

> µ+3σ
µ-3σ to µ-2σ 0 0.0214 0 1.712019
µ-2σ to µ-σ 0.2 0.135905 16 10.87241
µ-σ to µ 0.3 0.341345 24 27.30758
µ to µ+σ 0.3375 0.341345 27 27.30758
Amount
µ+σ to µ+2σ 0.15 0.135905 12 10.87241
µ+2σ to µ+3σ 0.0125 0.0214 1 1.712019 Observed Expected
> µ+3σ 0 0.00135 0 0.107992

Hypothesis Test
H0: Population is normally distributed
H1: Population is not normally distributed
Chisquare 5.163407
DF 5
p-value = 0.396265

 On ne peut pas rejeter H0 ; il est possible que la distribution (dans la population) soit normale

femmes. Peut-on dire que ces montants moyens sont


1.4.2 Comparaison des montants d’achat, différents dans la population ?
en fonction du sexe.  On se fixe un seuil de signification de 5% et on
réalise le test avec le logiciel R On obtient les
Dans l’échantillon, on observe une différence entre les
résultats suivants :
montants payés par les hommes et ceux payés par les

Welch Two Sample t-test

data: Amount_male and Amount_female


t = -4.0257, df = 74.746, p-value = 0.0001349
alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:


-44.20573 -14.93718

sample estimates:
mean of x mean of y
49.49939 79.07085

Quelle est votre conclusion ? Quelle serait cette conclusion si le seuil de signification α était de 1% ?
Bruno Fischer Colonimos - 7/22
 On peut rejeter H0 : le montant moyen payé par les hommes est significativement différent de celui payé par
les femmes
 Même conclusion à 1%

Peut-on dire que ces nombres d’articles moyens sont


1.4.3 Comparaison des nombres d’articles différents dans la population ?
achetés, en fonction du sexe. On se fixe un seuil de signification de 5% et on réalise
le test avec le logiciel Xlstatistics . On obtient l’écran
Dans l’échantillon, on observe une différence entre le
suivant :
nombre d’articles achetés les hommes et ceux achetés
par les femmes.

Bruno Fischer Colonimos - 8/22


On ne peut pas rejeter H0. L’échantillon ne permet pas d’affirmer que ces nombres moyens d’articles
sont différents (dans la population).

Bruno Fischer Colonimos - 9/22


Tests du Chi²

Librairie6
Vous venez d’être nommé directeur d’une grande librairie et vous cherchez à savoir comment en
améliorer l’organisation.
Le magasin dispose de quatre caisses, et les acheteurs peuvent régler leurs achats à chacune d’entre
elles. Toutefois, il vous semble que certaines caisses sont plus fréquentées que d’autres, bien qu’il soit
difficile de dire pourquoi. D’ailleurs, les caissiers prétendent que ces caisses sont toutes également
utilisées par les clients.
Vous considérez les 150 derniers passages de clients en caisse. La distribution de ces passages en
caisse est la suivante :
Caisse A Caisse B Caisse C Caisse D Total
47 31 43 29 150
Ces résultats sont-ils compatibles avec l’hypothèse que toutes les caisses sont également
fréquentées, ou bien permettent-t-ils d’affirmer que certaines caisses sont plus fréquentées que
d’autres ? Vous utiliserez pour répondre à cette question un test d’ajustement du Chi² au seuil de
signification de 5%
Vous préciserez clairement les hypothèses de ce test, puis vous ferez les calculs nécessaires et vous
énoncerez votre conclusion.

Réponses :
!: les 4 caisses ont la même proba d'être utilisées par un client pris au hasard
Certaines caisses sont plus utilisées que d'autres
Hypothèses
+:
(c’est un test d’ajustement.)

Calculs

Caisse A Caisse B Caisse C Caisse D Total

observés 47 31 43 29 150
théoriques 37.5 37.5 37.5 37.5

Chi² 2.40666667 1.12666667 0.80666667 1.92666667 6.26666667

Degrés de liberté : dl = 4 - 1=3

Conclusion:
Yj. Xtj u Yj. XV u
On trouve χ²= R ⋯R 6.27
Yj. Yj.
Au seuil de 5%, χ²critique= 7.81

 on ne peut pas rejeter H0 : l’échantillon ne permet pas d’affirmer que certaines caisses sont plus
utilisées que d'autres

6
Groebner, Shannon, Fry, Smith, Business Statistics: A Decision-Making approach. Pearson. Examen Ipag

Bruno Fischer Colonimos - 10/22


Force de Vente
Les vendeurs d'une entreprise doivent remettre à leur chef des ventes un rapport hebdomadaire
précisant la liste de tous les prospects contactés au cours de la semaine, ainsi que les ventes
réalisées.
B.Baron et C.Corot sont deux commerciaux travaillant sur le même secteur. Le relevé du nombre des
ventes qu’ils ont réalisées cette semaine est le suivant :

Ventes réalisées en un mois par produit


vendeur Produit X Produit Y Produit Z
B.Baron 12 8 4
C.Curie 15 4 11
Répondez aux questions suivantes à l’aide de tests statistiques du χ² au seuil de signification α = 5%.
En considérant la ventilation par produits, peut-on dire que le type de produit vendu dépend
significativement du vendeur ?
Vous présenterez clairement vos hypothèses de test ainsi que vos calculs, et vous utiliserez un seuil
de signification de 5%)

Ans :
Test d’indépendance :
! : les ventes de chaque produit ne dépendent pas du vendeur
les ventes de chaque produit dépendent du vendeur
Hypothèses
+:

Independance
obs Ventes réalisées en un mois
vendeur Produit X Produit Y Produit Z
B.Baron 12 8 4 24
C.Corot 15 4 11 30
27 12 15 54

Théoriques Ventes réalisées en un mois


vendeur Produit X Produit Y Produit Z
B.Baron 12 5.33333333 6.66666667 24
C.Corot 15 6.66666667 8.33333333 30
27 12 15 54

Chi² Ventes réalisées en un mois


vendeur Produit X Produit Y Produit Z
B.Baron 0 1.33333333 1.06666667
C.Corot 0 1.06666667 0.85333333
4.32

dl 2
Critique p
5% 0.11532512
5.99146455

Bruno Fischer Colonimos - 11/22


+VX+V u iX .YY u ++Xi.YY u
Explication: On trouve χ²= R R ⋯R 4.32 .
+V .YY i.YY

Degrés de liberté : xyzTé{ |y }~•yTSé }~zOy{ B 1 €•}•OOy{ B 1 1


Donc, au seuil de 5%, χ²critique= 5.99

 on ne peut pas rejeter H0 : l’échantillon ne permet pas d’affirmer l’existence d’un lien entre
produit vendu et vendeur, au seuil de 5%.

Beaver, suite7
Suite du problème du TD précédent
3. Sur 80 entreprises défaillantes, 48 décident une modernisation de leur gestion.Au bout de la
période d'observation, on constate cependant que 25 d'entre elles ont fait faillite et que, sur les
32 entreprises qui n'ont pas modifié leur gestion, 25 ont également fait faillite. Tester à l'aide du
χ² (Khi-deux), au risque de 5%, puis de 1%, l'indépendance entre le changement de gestion et la
faillite.
Ans :
Test d’indépendance :
! : les variables "gestion" et "survie" sont indépendantes
Il y a un lien entre les variables "gestion" et "survie"
Hypothèses
+:

effectifs observés Faillite Survie total


modification gestion 25 23 48
pas de modification 25 7 32
total 50 30 80

effectifs théoriques Faillite Survie


modification gestion 30 18 48
pas de modification 20 12 32
total 50 30 80

Chi² Faillite Survie total


modification gestion 0.833 1.389
pas de modification 1.250 2.083
5.556

alpha 0.05
dl 1
val crit 3.8415
p 0.0184

V XY! u jX+V u
Explication: On trouve χ²= Y! R ⋯ R +V 5.56 . Au seuil de 5%, χ²critique= 3.84  on peut
rejeter H0 : l’échantillon permet d’affirmer qu’il y a un lien entre le changement de gestion et le
devenir des entreprises.

7
DECS 1984, modifié BFC.

Bruno Fischer Colonimos - 12/22


Avec Excel, on peut également calculer 0 † V [ 5.56 0.018. Comme 0.018 < 5%, on rejette H0.

Gaz8
Gaz
Une compagnie de distribution de gaz a déterminé, à partir de son expérience passée, qu'à la fin de
l'hiver 80 % de ses comptes clients sont entièrement soldés, 10 % ont un mois d'arriérés, 6 % ont
deux mois d'arriérés et 4 % ont plus de deux mois d'arriérés.
À la fin de l'hiver dernier, l'entreprise a contrôlé un échantillon aléatoire de 400 de ses comptes et a
constaté que 287 étaient entièrement soldés, 49 avaient un mois d'arriérés, 30 avaient deux mois
d'arriérés et 34 avaient plus de deux mois d'arriérés.
 Ces données suggèrent-elles que la structure des statuts des comptes a changé cet hiver, par
rapport aux années précédentes

Ans :

Il s’agit d’un test d’ajustement.


Question : la distribution historique des statuts des comptes a-t-elle changé ?
Hypothèses
!: La distribution des statuts est inchangée
+: La distribution des statuts est maintenant différente
Remarque : on parle de la distribution des statuts dans la population de tous les comptes.

Calculs
Satut Soldé Arriéré 1 m Arriéré 2 m Arriéré 2+m Total
proba 80% 10% 6% 4% 100%
Eff. Théorique 320 40 24 16 400
Eff. observé 287 49 30 34 400

Chi² 3.403125 2.025 1.5 20.25 27.178125

YV!XVij u t!Xt u +WXYt u


On trouve χ²= YV!
R t!
R ⋯R Yt
27.18 .

Degrés de liberté = 4 - 1 = 3

Conclusion: Au seuil de 5%, χ²critique= 7.81  on peut rejeter H0 : l’échantillon « prouve », au seuil de
5%, que la distribution des statuts a changé.

8
Proposé par PS. Source : Paul Newbold, William L. Carlson, Betty Thorne

Bruno Fischer Colonimos - 13/22


Régression linéaire simple, corrélation.

Introduction aux statistiques : Notes 2023-


2023-2024.
Dans les données publiées sur Ipagora-Moodle, au même endroit que le cahier de TD, vous trouverez
les notes obtenues par les étudiants au cours d’Introduction aux statistiques en 2023-2024 , au test
de mi-période et au test final.9
Vous préparerez les données et vous présenterez une brève analyse de ces notes, comportant
notamment une réponse à la question suivante: Y-a-t-il un lien statistique entre la note au test de mi-
période et celle obtenue au test final?

Analyse
1 Données
1.1 Origine et sens
Cours “Introduction aux Statistiques 2023-2024 ”; Notes de MIP et de TF. Les notes sont sur 20, la
valeur Zéro résultant en général d’un incident ou d’une absence, et non de l’évaluation de copie. Il
serait donc logique de ne pas tenir compte de ces zéros pour la régression.
1.2 Structure
• Nombre d’individus : 116
• Nombre de variables : 3, incluant un numéro d’identification
• Noms de Variable : Note_MIP and Note_TF, changés en note_mip and note_tf
1.3 Nettoyage
Élimination des individus ayant une ou plus d’une note zéro dans les colonnes “note_mip” et
“note_tf”.
Après élimination, il reste 109 individus.

2 Exploration
2.1 Notes MIP et TF
Chaque distribution des notes de MIP et TF est très symétrique, caractérisée par une forte variabilité
relative

9
Les notes sont exprimées sur une échelle de 0 à 20. Toutefois, aucune copie n’a été notée 0 (zéro). Lorsque la
note est zéro, elle résulte soit d’une absence soit d’un incident à l’examen (fraude…etc.)

Bruno Fischer Colonimos - 14/22


n Moyenne Ecart- C.var Min. Q1 Mediane Q3 Max.
type
mip 109 11.92 4.579 0.3842 1 10 12 15 20
tf 109 9.523 5.15 0.5408 1 6 9 13 20

On note la grande différence entre ces 2 séries de notes: à rang constant dans la promo, les notes de
TF sont inférieures d’environ 3 points à celles de MIP
2.2 Relation MIP /TF

Les données semblent bien se prêter à la représentation par un modèle de régression linéaire, bien
que la dispersion autour de la droite de régression soit très forte
3 Modèle de Régression
3.1 Equation du modèle
O•Sy_Sa ‰ R Š+ (O•Sy_‹~0) + Œ
3.2 Estimation des coeffs
Coeff Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.572 1.243 2.873 0.0049
note_mip 0.4994 0.09742 5.126 1.325e-06

Observations Residual Std. Error R^2 Adjusted R^2


109 4.636 0.1971 0.1896
Le prédicteur (note_mip) a un coefficient significativement différent de 0
3.3 Equation estimée
• = 3.57 + 0.5 · O•Sy_‹~0
O•Sy_Sa

Bruno Fischer Colonimos - 15/22


3.4 Graphiques de diagnostic

3.5 Commentaire modèle


Le coefficient de la variable explicative est significativement différent de 0 et les diagrammes
diagnostiques du modèle sont satisfaisantsle modle est globalement correct.
3.6 Conclusion
Selon le modèle, la note du TF est significativement liée à celle du mip: une variation de 1 point au
mip s’accompagne d’une variation dans le même sens de la note moyenne du TF de 0.5 points.
Le modèle n’explique que 20 % de la variance de TF. On voit de très grands écarts autour de la droite
de régression: lemodèle éclaire bien la relation entre les notes moyennes aux tests mais n’est que
peu utile pour prédire les notes individuelles au TF à partir des notes de MIP.

Scierie de Romme10
La commune de Nancy-sur-Cluses met en vente une coupe de bois d'environ
1 000 m³.( ‼Commentaire : Une coupe de bois est le droit de couper des arbres dans un secteur
délimité d’une forêt)
La vente se fait selon la méthode dite de la "vente au rabais" : un prix de départ est annoncé par un
"crieur", puis le prix est diminué de 1 000 € en 1 000 €, jusqu'à ce qu'un acheteur se manifeste. Bien
entendu, la commune se réserve le droit de retirer la coupe de bois de la vente si le prix baisse au-
dessous d'un prix plancher, appelé "prix de retrait".

3.2.1 I - Détermination d'un prix de départ par le vendeur


Pour fixer le prix de départ, le responsable de la commune procède à une étude sur les ventes
antérieures. Les données sont consignées dans le tableau suivant:

10
D’après un ancien sujet de BTS AC

Bruno Fischer Colonimos - 16/22


m³ Prix d'achat m³ Prix d'achat
400 150 000 550 225 000
600 262 500 850 412 500
700 337 000 800 375 000
700 412 500 700 262 500
450 262 500 650 300 000
300 187 500 550 300 000
800 337 000 750 337 000
450 225 000

Travail à faire:
1. Représentez cette série par un graphique.
Préliminaires ; constater et corriger le problème des espaces insécables dans les nombres du
tableau Excel
Prix
450000

400000

350000

300000
Prix

250000

200000

150000

100000
300 400 500 600 700 800 900

Un modèle linéaire semble adapté.

2. Faites un ajustement linéaire interprétez les coefficients de la droite de régression.


Prix d’achat = 38 768.3 + 411.295·m³
• 38 768.3 = partie fixe du coût d’achat ≈ 38 800 €
• 411.295 = partie variable du coût d’achat ≈ 411 € par m³

3. Déduisez de ce qui précède le prix d'achat probable de la coupe. Sachant que le prix d'achat est
en moyenne égal à 90 % du prix de départ, à quel niveau le responsable peut-il fixer le prix de
départ ? Quel serait alors le prix de retrait (40 % au-dessous du prix de départ) ?
P.achat probable=Prix d’achat = 38 768.3 + 411.295 · 1000 = 450063.3 ≈ 450 ‘€
Prix de départ ;
07Q“ 450
07Q“ = 0.9 · 0”8g ⟺ 0”8g = = = 500 ‘€
0.9 0.9
Prix de retrait :
068– = 0.6 · 0”8g = 0.6 · 500 = 300 ‘€

 Le vendeur peut donc fixer le prix de départ à 500000 €, et retirer la coupe de la vente si le prix
descend au-dessous de 300 000 €

3.2.2 II - Détermination par l'acheteur du prix d'achat maximal


Une scierie voisine envisage de faire une offre, mais pour cela il faut qu'elle tienne compte, dans son
calcul, du coût de revient de l'abattage et du débardage, c'est-à-dire du transport du bois hors de la
forêt. Ces frais peuvent varier et sont évalués soit à l'heure de travail, soit au mètre cube de bois
façonné au bord de la route. Le tableau suivant regroupe les données disponibles :

Bruno Fischer Colonimos - 17/22


Coût d'abattage et de
Nombre de m³ de bois Nombre d'heures passées
débardage (k€)
78 550 900
123 650 900
128 700 1500
126 850 1400
136 750 1100
110 600 1200
146 900 1400
164 850 900
98 600 650
182 1050 1500
100 650 600
158 950 1600
200 1200 2000

Travail à faire:
1. Pour discuter avec une équipe de bûcherons qui se chargerait du travail, le responsable de la
scierie veut savoir quel est le meilleur critère pour cerner à coup sûr son coût de revient. Pouvez-
vous dire, à l'aide de deux graphiques, quel critère (m³ ou nombre d'heures), permet d'évaluer le
prix le plus précisément ? Quel calcul vous permettrait-il de confirmer vos observations ? faites-
le et concluez.

210 250
Coût d'abattage et de débardage (k€)

Coût d'abattage et de débardage (k€)

190
200
170

150 150
130

110 100

90
50
70

50 0
400 500 600 700 800 900 1000 1100 1200 1300 0 500 1000 1500 2000 2500
Nombre de m³ de bois Nombre d'heures passées

Les deux nuages semblent se prêter à un ajustement linéaire. La série des coûts en fonction du
nombre de m3 de bois semble présenter une variabilité moindre autour d’une éventuelle droite de
régression. Le nombre de m3 de bois serait donc un critère permettant d’évaluer les coûts plus
précisément.
On peut le confirmer en calculant les coefficients de corrélation :
• r(m3, coût) = 0.95
• r(heures, coût) = 0.74

1. Etablissez l'équation de la droite d'ajustement donnant le coût d'abattage et de débardage en


fonction du critère choisi à la question précédente. Utilisez l’utilitaire d’analyse d’Excel pour cette
régression. Interprétez les coefficients de cette droite.
Equation :
Coût d'abattage et de débardage (k€) = 0.649 + 0.169 * Nombre de m³ de bois
Indicateurs de qualité :
R² = 0.894. La régression « explique » presque 90% de la variance du coût
Interprétation : Ici encore, une interprétation comme partie fixe et variable du coût est possible.
Attention, dans de nombreux cas, la constante n’a pas d’interprétation satisfaisante.

Bruno Fischer Colonimos - 18/22


2. En se basant sur les prix pratiqués dans ce passé récent, quel est le coût maximal que l'on peut
escompter, pour les frais d'abattage et de débardage, pour la coupe en question ?

Prédiction à partir de l’équation de régression :


Coût d˜ abattage et de débardage (k€) = 0.649 + 0.169 · 1000 = 169.649 ‘€

Cette prédiction est en fait une estimation de la moyenne des coûts d’abattage pour toutes les
coupes de 1000 m3, et non une estimation du coût maximal.
Nous n’avons pas abordé la question de l’incertitude de cette prédiction. Statplus produit une
visualisation de celle-ci (en vert):
Diagramme en nuage de points "Coût d'abattage et de débardage (k€)" vs. "Nombre de m³
de bois"
240

220
Coût d'abattage et de débardage (k€)

200

180
Prédite
160
Coût d'abattage et de débardage (k€)
140
95% CI (L)
120 95% CI (U)
100 95% PI (L)

80 95% PI (U)

60

40
500 600 700 800 900 1000 1100 1200 1300
Nombre de m³ de bois

On voit qu’un intervalle de prédiction à 95% pour le coût est approximativement [140 ; 200 ] k€. Le
coût maximal à prévoir est donc d’environ 200 k€, avec une fiabilité de 97-98%
L’ordre de grandeur de l’incertitude de la prédiction peut également être grossièrement évaluée au
seuil de 95%, comme ± 2 · écart-type des résidus = ± 2 · 11.875 = ± 23.75, soit un max de
169.65 + 23.75 = 193.4. Même genre de résultat, en moins précis.

4. A quel prix le responsable de la scierie peut-il soumissionner, s'il veut s'assurer une marge de
10 % sur les ventes ? Appuyez-vous sur les éléments suivants :
• Prix de vente sur le marché d'un m³ de bois scié: 800 € le m³
• Frais de transport de la forêt à la scierie: 20 € le m³
• Frais de scierie: 60 € le m³
Calcul pour 1000 m3 :
(k€) % scénario "moyen" scénario "pessimiste"
Prix de vente 800 800
Marge désirée 10% 80 80
Coût d'abattage 170 200
Transport 20 20
Scierie 60 60
Prix d'achat à proposer 470 440

Le responsable de la scierie peut donc proposer un prix entre 440 et 470 k€, en fonction de son degré
d’optimisme, concernant le coût d’abattage.

Bruno Fischer Colonimos - 19/22


Grande-Bretagne11
Tabac et Alcool en Grande-
Les personnes qui consomment du tabac sont-elles plus susceptibles de consommer de l'alcool ? Voici
(Ipagora) des données sur les dépenses des ménages (en livres) consacrées au tabac et à l'alcool,
relevées par le gouvernement britannique sur 11 régions de Grande-Bretagne. Les dépenses en tabac
et en alcool semblent-elles être liées ? Que pensez-vous de ces données ? Quelles conclusions
pouvez-vous tirer ?

Region Alcohol Tobacco


North 6.47 4.03
Yorkshire 6.13 3.76
Northeast 6.19 3.77
East Midlands 4.89 3.34
West Midlands 5.63 3.47
East Anglia 4.52 2.92
Southeast 5.89 3.2
Southwest 4.79 2.71
Wales 5.27 3.53
Scotland 6.08 4.51
Northern Ireland 4.02 4.56

3.3.1 Ans
La question du texte semble proposer un rôle pour les variables : on cherchera à savoir si les
variations de la variable Alcohol (réponse) peuvent être expliquées par celles de Tobacco (prédicteur),
mais ce point de vue n’a rien d’obligatoire ni de décisif.
Graphique et calcul direct
Le calcul du coefficient de corrélation donne r = 0.22 (faible corrélation). R² = 0.05  la régression
n’expliquerait que 5% de la variance des dépenses d’alcool.
Le graphique est :

Donc le jeu de données dans son ensemble semble donc se prêter plutôt mal à la régression linéaire.
Toutefois on remarque un important point éloigné, correspondant à l’Irlande du Nord. Ce point est à
la fois un « outlier » (y très différent de la valeur estimée par la droite de régression) et un point au
« levier » important (x très loin du centre des données). Cette situation rappelle fortement celle de
l’ensemble C d’Anscombe (cf.cours) : un seul point « influent » peut modifier très considérablement
l’équation de régression.
Exclusion de l’Irlande du Nord
En excluant l’Irlande du nord, il vient
R = 0.78 et :

11
Source = DASL, https://dasl.datadescription.com/datafile/tobacco-and-alcohol/

Bruno Fischer Colonimos - 20/22


Conclusion
On peut donc dire qu’il y a une relation linéaire en général bien vérifiée entre les dépenses d’alcool et
de tabac selon les régions : le modèle de régression montre qu’une différence d’une livre de
dépenses consacrées au tabac entre deux régions est accompagnée en moyenne d’une différence
équivalente de dépenses consacrée à l’alcool.
On note d’autre part que l’Irlande du Nord est une exception, avec de fortes dépenses en tabac et de
faibles dépenses consacrées à l’alcool.
Commentaire
Dans le traitement de ce problème, nous avons exclu un point aberrant de l’analyse. Cette décision
est à la fois nécessaire et critiquable : nécessaire parce que cela n’aurait pas de sens de conclure à
l’inexistence d’une relation à cause d’un seul point de données, et critiquable dans la mesure où se
laisser aller à éliminer tous les points qui semblent contredire notre jugement permettrait de valider
n’importe quelle hypothèse, et serait un comportement hautement suspect…

Oeufs boursiers
Sur son site (https://tylervigen.com), Tyler Vigen présente la remarquable corrélation entre les
dépenses en œufs des ménages américains et le prix des actions de la société Emerson Electric :

Les données sont disponibles sur Ipagora.


• Quels sont les produits fabriqués par Emerson Electric ?
D’après le site zonebourse12 (https://www.zonebourse.com), Emerson Electric Co. est spécialisé
dans la conception, la fabrication et la commercialisation de produits technologiques. Le groupe
propose des produits de gestion et d'optimisation des procédés (instruments de mesure et
d'analyse, vannes de contrôle, régulateurs, systèmes de contrôle et logiciels d'automatisation et
d'optimisation, etc.) ainsi que des prestations d'ingénierie. Donc RIEN A VOIR avec les œufs.
• Quel graphique pouvez-vous proposer pour mettre en valeur le lien statistique entre ces deux
séries ?

12
https://www.zonebourse.com , consulté le 29/09/2024

Bruno Fischer Colonimos - 21/22


Nuage de points :
Emerson Electric Co.'s stock price (EMR)
(Stock price)
100
90
80
70

Stock price
60
50
40
30
20
30 40 50 60 70 80 90
Annual US household spending on eggs (Household spend)

• Calculez le coefficient de corrélation


Calcul : r =0.94 TRES forte corrélation positive
• Quelle conclusion pouvez-vous en tirer ?
o 2 réponses simples :
 Réponse 1 : Aucune : cette corrélation peut être purement fortuite. Tyler Vigen
commente sur son site :
Data dredging : Ma base de données contient 25 153 variables. Je compare
toutes ces variables entre elles pour trouver celles qui se correspondent. Cela
représente 632 673 409 calculs de corrélation ! C'est ce qu'on appelle le « Data
dredging». Au lieu de partir d'une hypothèse et de la tester, j'abuse des données
pour voir quelles corrélations se dégagent. Il s'agit d'une méthode d'analyse
dangereuse, car tout ensemble de données suffisamment important produira des
corrélations fortes de manière totalement aléatoire.
Vous connaissez peut-être la citation"If you torture the data long enough, it will
confess to anything." - Ronald Coase:
L'apparition de corrélations fortuites est très fréquente lorsqu’on considère des
comparaisons multiples.
 Réponse 2 : Aucune : cette corrélation peut résulter d’autres corrélations avec
des variables non représentées dans le jeu de données (appelées facteurs de
confusion).
Dans la situation considérée ici, il ne fait pas de doute que les dépenses des
ménages sont corrélées à l’activité économique générale, tout comme le prix des
actions. Si on mesure la corrélation entre le PNB/habitant (aux US)13 et chacune
des variables considérées, on trouve :
r(PNB/h ; spend) = 0.94 et r(PNB/h ; EMR price) =0.92, avec les graphiques
correspondants :
Emerson Electric Co.'s stock price (EMR) Annual US household spending on eggs
(Stock price) (Household spend)
100 100
90 90
80 80
Household spend

70 70
Stock price

60 60
50 50
40 40
30 30
20 20
30000 40000 50000 60000 70000 80000 30000 40000 50000 60000 70000 80000
US GDP/capita US GDP/capita

Cette situation se présente aussi très fréquemment.


o En définitive, cette corrélation n’implique aucune relation causale directe. Corrélation
n’est pas causalité.

13
World bank: https://data.worldbank.org/indicator/NY.GDP.PCAP.CN?locations=US

Bruno Fischer Colonimos - 22/22

Vous aimerez peut-être aussi