SP_Fr_Corr TD123-2425_v01
SP_Fr_Corr TD123-2425_v01
SP_Fr_Corr TD123-2425_v01
Sommaire
Sommaire .......................................................................................................................................................................... 1
Principe des tests ...................................................................................................................................................... 2
Beaver ............................................................................................................................................................... 2
Qualité chez Innovatron .................................................................................................................................... 4
Connaissance des prix ....................................................................................................................................... 5
Lire des tests faits par un logiciel - interpréter une p-valeur ........................................................................... 6
Tests du Chi² ............................................................................................................................................................ 10
Librairie ........................................................................................................................................................... 10
Force de Vente ................................................................................................................................................ 11
Beaver, suite .................................................................................................................................................... 12
Gaz................................................................................................................................................................... 13
Régression linéaire simple, corrélation. .................................................................................................................. 14
Introduction aux statistiques : Notes 2023-2024. ........................................................................................... 14
Scierie de Romme ........................................................................................................................................... 16
Tabac et Alcool en Grande-Bretagne............................................................................................................... 20
Oeufs boursiers ............................................................................................................................................... 21
Beaver
Pour essayer de prévoir la défaillance des entreprises et prévoir suffisamment tôt leur éventuel reclassement,
l'économiste W. BEAVER introduit le ratio défini, pour chaque entreprise, comme le quotient de la marge brute
d'autofinancement (cash flow) par les dettes totales.
A partir d'un grand nombre d'observations, il déduit que les entreprises saines ont un ratio qui suit une loi normale de
moyenne m = 0.7 et d'écart-type s = 0.18 et que les entreprises défaillantes ont un ratio qui suit une loi normale de
moyenne m = 0.1 et d'écart-type s = 0.15 .
Pour l’instant dans cet exercice (vieux sujet de DECS), on demande un intervalle de prévision (bilatéral) pour le ratio
des entreprises saines cours de 1A :
~ 0.7 ; 0.18 ⏟ ∈ 0.7 1.96 0.18 . ; . ;
%
2. On cherche à définir un test pour juger de la santé d’une entreprise. L’hypothèse nulle de ce test est que
l’entreprise considérée est saine, et on décide de juger saines les entreprises dont le ratio est supérieur ou égal
à a et défaillantes celles dont le ratio est inférieur ou égal à a.
Quel est risque de classer défaillante une entreprise qui est saine (seuil de signification du test, ou risque α ) ?
Le texte commence par nous imposer a) l’hypothèse nulle et b) la règle de décision du test
Donc :
: l'entse est saine : μ 0.7
• hypothèses = ! , cad !
l'entse est défaillante μ 0.1
où μ est la valeur moyenne du ratio X (qui est la
+: +:
statistique du test), pour la population à laquelle appartient l’entreprise (on teste sur la moyenne, mais on utilise
l’écart-type de la population des entreprises saines ou celui des entreprises défaillantes). Donc test unilatéral,
mais l’hypothèse et la contre-hypothèses sont des hypothèses simples, avec 1 seule valeur de μ, ce qui rendra
possible le calcul de β
(le calcul est exceptionnellement possible dans ce cas, car H1 ne comprend qu’une seule valeur de μ )
Remarque : si on veut limiter le risque alpha, on ne peut le faire qu’en prenant une valeur critique plus petite que
0.35, ce qui provoquera automatiquement une augmentation de β , et vice-versa
Question supplémentaire :
Vous évaluez une entreprise dont le ratio est X=0.30. Comment est-elle classifiée par le test ? (en se fondant sur a) la
valeur critique de X ou b) la p-valeur du test
Travail à faire :
1. Afin de vérifier si le nouveau procédé est meilleur l’entreprise décide d’utiliser un test. Précisez les hypothèses H0 et
H1 de ce test et précisez s’il est bilatéral ou unilatéral.
!: μ = 12000
μ > 12000
Le teste semble suggérer le jeu d’hypothèses : . Donc test unilatéral : on rejettera H0 si la statistique
+:
E̅ est étonnamment élevée si H0 est vraie.
!: μ=12000
(On peut discuter sur la légitimité de ce choix, comparé à )
+: μ≠12000
2. La statistique du test sera la moyenne d’échantillon E̅ . Donnez les paramètres de la loi de probabilité de E̅
N 3000
E̅ ~ MH, P M12000, P 12000 , 300
√O √100
1
PS
Bruno Fischer Colonimos - 4/22
3. Calculer la valeur critique E̅Q de cette statistique pour un seuil alpha de 5%2. Que peut-on dire du nouveau procédé
de fabrication ?
4. Calculer la p-valeur et comparez-la au seuil alpha de 5%. Votre résultat confirme-t-il la conclusion obtenue à la
question précédente ?
+VW !X+V!!!
On a trouvé E̅ 12650. On calcule p = 0T E̅ = 12650 0T GU = Y!!
L 0T U = 2.17 1 B 0.9850
0.015
Si H0 est vraie, la probabilité qu’un échantillon aléatoire de n = 100 écrans ait une durée de vie moyenne E̅ = 12650
heures est p = 1.5%.
1.5%< 5% au seuil de 5%, on peut rejeter H0. Le nouveau procédé est significativement meilleur que l’ancien (on
peut discuter sure le sens exact de cela)
On note p la proportion de clients connaissant le prix dans la population, f la même proportion dans l’échantillon
: p [ 0.5
Hypothèses : ! test unilatéral. On utilisera p 0.5 pour le calcul
+: p @ 0.5
Statistique : f4 ()
g +Xg
Loi de la statistique f : a ~ b0 , Nc d e0 , f K
h (cf cours de 1A : Loi d’échantillonnage d’une proportion)
. +X.
On utilise H0 et on suppose p = 0.5 : a ~ e0.5 , f i!V
h? 0.5 , 0.0177
Valeur critique (avec α = 5%) aQ 0.5 B 1.65 0.0177 0.471 (voir justification ci-dessous)
Règle de décision : rejeter H0 si f < 0.471
Yji
Réalisation : a i!V ? 0.471 aQ la significativité du résultat est douteuse : l’échantillon observé est à la limite
de la zone d’acceptation de H0 . On n’a pas de preuve solide de la fausseté de H0
1.3.1 Justification:
ustification:
Explication/justification du calcul de la valeur critique kl au risque α = 0.05.
La statistique du test est a = la proportion dans l’échantillon et le test est unilatéral : on rejettera H0 si la fréquence
observée f est « trop petite ».
. +X.
Si H0 est vraie, on a a ~ e0.5 , f i!V
h? 0.5 , 0.0177 (cad Nc 0.0177 On cherche la valeur aQ de f telle
que 0T a 9 aQ 0.05
2
σ est inconnu, donc la loi de proba devrait être une loi de Student. Toutefois, pour les grands échantillon, cette loi est
approximativement une loi normale. Le cours de 1A n’a traité que des grands échantillons (on n’a donc pas parlé de Student).
3
Proposé par PS. Source : Paul Newbold, William L. Carlson, Betty Thorne
cXg
4
Remarque : on peut aussi choisir la statistique A , qui suit une loi 0 ,1
Im
Bruno Fischer Colonimos - 5/22
aQ est nécessairement à gauche de la moyenne p = 0.5
cXg cX!.
donc, en passant à la variable centrée réduite , la valeur correspondant à aQ est négative. Notons-
Im !.!+jj
la BAQ . On a la figure :
a B 0.5
0.0177
On peut lire alors sur la table 0T A 9 1.65 ? 0.95 donc 0T A = 1.65 ? 0.05 donc 1.65 est une valeur convenable
pour AQ
Par conséquent
a B 0.5
B1.65
0.0177
Donc :
a 0.5 B 1.65 0.0177 0.470795 ? 0.471
CQFD
p-valeur 5
Lire des tests faits par un logiciel - interpréter une p-
On considère des données dont l’aperçu est le suivant :
Number of
Method of
Amount Sex Items
paymt
purchased
84.12 Male Check 1
34.66 Male Credit Card 9
37.27 Female Credit Card 1
46.5 Female Credit Card 8
99.67 Female Check 5
… … .. …
5
BFC
Bruno Fischer Colonimos - 6/22
(il s’agit d’une enquête sur les achats et les paiements faits par les clients d’un magasin. Nous avons déjà utilisé ces
données. L’échantillon est constitué de 80 clients)
Data 30
Mean (µ) 66.87263 25
Frequency
St Dev (σ) 36.10915 20
15
Proportions Frequencies 10
µ-σ to µ
µ-2σ to µ-σ
µ to µ+σ
µ+σ to µ+2σ
µ+2σ to µ+3σ
µ-3σ to µ-2σ
< µ-3σ
> µ+3σ
µ-3σ to µ-2σ 0 0.0214 0 1.712019
µ-2σ to µ-σ 0.2 0.135905 16 10.87241
µ-σ to µ 0.3 0.341345 24 27.30758
µ to µ+σ 0.3375 0.341345 27 27.30758
Amount
µ+σ to µ+2σ 0.15 0.135905 12 10.87241
µ+2σ to µ+3σ 0.0125 0.0214 1 1.712019 Observed Expected
> µ+3σ 0 0.00135 0 0.107992
Hypothesis Test
H0: Population is normally distributed
H1: Population is not normally distributed
Chisquare 5.163407
DF 5
p-value = 0.396265
On ne peut pas rejeter H0 ; il est possible que la distribution (dans la population) soit normale
sample estimates:
mean of x mean of y
49.49939 79.07085
Quelle est votre conclusion ? Quelle serait cette conclusion si le seuil de signification α était de 1% ?
Bruno Fischer Colonimos - 7/22
On peut rejeter H0 : le montant moyen payé par les hommes est significativement différent de celui payé par
les femmes
Même conclusion à 1%
Librairie6
Vous venez d’être nommé directeur d’une grande librairie et vous cherchez à savoir comment en
améliorer l’organisation.
Le magasin dispose de quatre caisses, et les acheteurs peuvent régler leurs achats à chacune d’entre
elles. Toutefois, il vous semble que certaines caisses sont plus fréquentées que d’autres, bien qu’il soit
difficile de dire pourquoi. D’ailleurs, les caissiers prétendent que ces caisses sont toutes également
utilisées par les clients.
Vous considérez les 150 derniers passages de clients en caisse. La distribution de ces passages en
caisse est la suivante :
Caisse A Caisse B Caisse C Caisse D Total
47 31 43 29 150
Ces résultats sont-ils compatibles avec l’hypothèse que toutes les caisses sont également
fréquentées, ou bien permettent-t-ils d’affirmer que certaines caisses sont plus fréquentées que
d’autres ? Vous utiliserez pour répondre à cette question un test d’ajustement du Chi² au seuil de
signification de 5%
Vous préciserez clairement les hypothèses de ce test, puis vous ferez les calculs nécessaires et vous
énoncerez votre conclusion.
Réponses :
!: les 4 caisses ont la même proba d'être utilisées par un client pris au hasard
Certaines caisses sont plus utilisées que d'autres
Hypothèses
+:
(c’est un test d’ajustement.)
Calculs
observés 47 31 43 29 150
théoriques 37.5 37.5 37.5 37.5
Conclusion:
Yj. Xtj u Yj. XV u
On trouve χ²= R ⋯R 6.27
Yj. Yj.
Au seuil de 5%, χ²critique= 7.81
on ne peut pas rejeter H0 : l’échantillon ne permet pas d’affirmer que certaines caisses sont plus
utilisées que d'autres
6
Groebner, Shannon, Fry, Smith, Business Statistics: A Decision-Making approach. Pearson. Examen Ipag
Ans :
Test d’indépendance :
! : les ventes de chaque produit ne dépendent pas du vendeur
les ventes de chaque produit dépendent du vendeur
Hypothèses
+:
Independance
obs Ventes réalisées en un mois
vendeur Produit X Produit Y Produit Z
B.Baron 12 8 4 24
C.Corot 15 4 11 30
27 12 15 54
dl 2
Critique p
5% 0.11532512
5.99146455
on ne peut pas rejeter H0 : l’échantillon ne permet pas d’affirmer l’existence d’un lien entre
produit vendu et vendeur, au seuil de 5%.
Beaver, suite7
Suite du problème du TD précédent
3. Sur 80 entreprises défaillantes, 48 décident une modernisation de leur gestion.Au bout de la
période d'observation, on constate cependant que 25 d'entre elles ont fait faillite et que, sur les
32 entreprises qui n'ont pas modifié leur gestion, 25 ont également fait faillite. Tester à l'aide du
χ² (Khi-deux), au risque de 5%, puis de 1%, l'indépendance entre le changement de gestion et la
faillite.
Ans :
Test d’indépendance :
! : les variables "gestion" et "survie" sont indépendantes
Il y a un lien entre les variables "gestion" et "survie"
Hypothèses
+:
alpha 0.05
dl 1
val crit 3.8415
p 0.0184
V XY! u jX+V u
Explication: On trouve χ²= Y! R ⋯ R +V 5.56 . Au seuil de 5%, χ²critique= 3.84 on peut
rejeter H0 : l’échantillon permet d’affirmer qu’il y a un lien entre le changement de gestion et le
devenir des entreprises.
7
DECS 1984, modifié BFC.
Gaz8
Gaz
Une compagnie de distribution de gaz a déterminé, à partir de son expérience passée, qu'à la fin de
l'hiver 80 % de ses comptes clients sont entièrement soldés, 10 % ont un mois d'arriérés, 6 % ont
deux mois d'arriérés et 4 % ont plus de deux mois d'arriérés.
À la fin de l'hiver dernier, l'entreprise a contrôlé un échantillon aléatoire de 400 de ses comptes et a
constaté que 287 étaient entièrement soldés, 49 avaient un mois d'arriérés, 30 avaient deux mois
d'arriérés et 34 avaient plus de deux mois d'arriérés.
Ces données suggèrent-elles que la structure des statuts des comptes a changé cet hiver, par
rapport aux années précédentes
Ans :
Calculs
Satut Soldé Arriéré 1 m Arriéré 2 m Arriéré 2+m Total
proba 80% 10% 6% 4% 100%
Eff. Théorique 320 40 24 16 400
Eff. observé 287 49 30 34 400
Degrés de liberté = 4 - 1 = 3
Conclusion: Au seuil de 5%, χ²critique= 7.81 on peut rejeter H0 : l’échantillon « prouve », au seuil de
5%, que la distribution des statuts a changé.
8
Proposé par PS. Source : Paul Newbold, William L. Carlson, Betty Thorne
Analyse
1 Données
1.1 Origine et sens
Cours “Introduction aux Statistiques 2023-2024 ”; Notes de MIP et de TF. Les notes sont sur 20, la
valeur Zéro résultant en général d’un incident ou d’une absence, et non de l’évaluation de copie. Il
serait donc logique de ne pas tenir compte de ces zéros pour la régression.
1.2 Structure
• Nombre d’individus : 116
• Nombre de variables : 3, incluant un numéro d’identification
• Noms de Variable : Note_MIP and Note_TF, changés en note_mip and note_tf
1.3 Nettoyage
Élimination des individus ayant une ou plus d’une note zéro dans les colonnes “note_mip” et
“note_tf”.
Après élimination, il reste 109 individus.
2 Exploration
2.1 Notes MIP et TF
Chaque distribution des notes de MIP et TF est très symétrique, caractérisée par une forte variabilité
relative
9
Les notes sont exprimées sur une échelle de 0 à 20. Toutefois, aucune copie n’a été notée 0 (zéro). Lorsque la
note est zéro, elle résulte soit d’une absence soit d’un incident à l’examen (fraude…etc.)
On note la grande différence entre ces 2 séries de notes: à rang constant dans la promo, les notes de
TF sont inférieures d’environ 3 points à celles de MIP
2.2 Relation MIP /TF
Les données semblent bien se prêter à la représentation par un modèle de régression linéaire, bien
que la dispersion autour de la droite de régression soit très forte
3 Modèle de Régression
3.1 Equation du modèle
O•Sy_Sa ‰ R Š+ (O•Sy_‹~0) + Œ
3.2 Estimation des coeffs
Coeff Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.572 1.243 2.873 0.0049
note_mip 0.4994 0.09742 5.126 1.325e-06
Scierie de Romme10
La commune de Nancy-sur-Cluses met en vente une coupe de bois d'environ
1 000 m³.( ‼Commentaire : Une coupe de bois est le droit de couper des arbres dans un secteur
délimité d’une forêt)
La vente se fait selon la méthode dite de la "vente au rabais" : un prix de départ est annoncé par un
"crieur", puis le prix est diminué de 1 000 € en 1 000 €, jusqu'à ce qu'un acheteur se manifeste. Bien
entendu, la commune se réserve le droit de retirer la coupe de bois de la vente si le prix baisse au-
dessous d'un prix plancher, appelé "prix de retrait".
10
D’après un ancien sujet de BTS AC
Travail à faire:
1. Représentez cette série par un graphique.
Préliminaires ; constater et corriger le problème des espaces insécables dans les nombres du
tableau Excel
Prix
450000
400000
350000
300000
Prix
250000
200000
150000
100000
300 400 500 600 700 800 900
m³
3. Déduisez de ce qui précède le prix d'achat probable de la coupe. Sachant que le prix d'achat est
en moyenne égal à 90 % du prix de départ, à quel niveau le responsable peut-il fixer le prix de
départ ? Quel serait alors le prix de retrait (40 % au-dessous du prix de départ) ?
P.achat probable=Prix d’achat = 38 768.3 + 411.295 · 1000 = 450063.3 ≈ 450 ‘€
Prix de départ ;
07Q“ 450
07Q“ = 0.9 · 0”8g ⟺ 0”8g = = = 500 ‘€
0.9 0.9
Prix de retrait :
068– = 0.6 · 0”8g = 0.6 · 500 = 300 ‘€
Le vendeur peut donc fixer le prix de départ à 500000 €, et retirer la coupe de la vente si le prix
descend au-dessous de 300 000 €
Travail à faire:
1. Pour discuter avec une équipe de bûcherons qui se chargerait du travail, le responsable de la
scierie veut savoir quel est le meilleur critère pour cerner à coup sûr son coût de revient. Pouvez-
vous dire, à l'aide de deux graphiques, quel critère (m³ ou nombre d'heures), permet d'évaluer le
prix le plus précisément ? Quel calcul vous permettrait-il de confirmer vos observations ? faites-
le et concluez.
210 250
Coût d'abattage et de débardage (k€)
190
200
170
150 150
130
110 100
90
50
70
50 0
400 500 600 700 800 900 1000 1100 1200 1300 0 500 1000 1500 2000 2500
Nombre de m³ de bois Nombre d'heures passées
Les deux nuages semblent se prêter à un ajustement linéaire. La série des coûts en fonction du
nombre de m3 de bois semble présenter une variabilité moindre autour d’une éventuelle droite de
régression. Le nombre de m3 de bois serait donc un critère permettant d’évaluer les coûts plus
précisément.
On peut le confirmer en calculant les coefficients de corrélation :
• r(m3, coût) = 0.95
• r(heures, coût) = 0.74
Cette prédiction est en fait une estimation de la moyenne des coûts d’abattage pour toutes les
coupes de 1000 m3, et non une estimation du coût maximal.
Nous n’avons pas abordé la question de l’incertitude de cette prédiction. Statplus produit une
visualisation de celle-ci (en vert):
Diagramme en nuage de points "Coût d'abattage et de débardage (k€)" vs. "Nombre de m³
de bois"
240
220
Coût d'abattage et de débardage (k€)
200
180
Prédite
160
Coût d'abattage et de débardage (k€)
140
95% CI (L)
120 95% CI (U)
100 95% PI (L)
80 95% PI (U)
60
40
500 600 700 800 900 1000 1100 1200 1300
Nombre de m³ de bois
On voit qu’un intervalle de prédiction à 95% pour le coût est approximativement [140 ; 200 ] k€. Le
coût maximal à prévoir est donc d’environ 200 k€, avec une fiabilité de 97-98%
L’ordre de grandeur de l’incertitude de la prédiction peut également être grossièrement évaluée au
seuil de 95%, comme ± 2 · écart-type des résidus = ± 2 · 11.875 = ± 23.75, soit un max de
169.65 + 23.75 = 193.4. Même genre de résultat, en moins précis.
4. A quel prix le responsable de la scierie peut-il soumissionner, s'il veut s'assurer une marge de
10 % sur les ventes ? Appuyez-vous sur les éléments suivants :
• Prix de vente sur le marché d'un m³ de bois scié: 800 € le m³
• Frais de transport de la forêt à la scierie: 20 € le m³
• Frais de scierie: 60 € le m³
Calcul pour 1000 m3 :
(k€) % scénario "moyen" scénario "pessimiste"
Prix de vente 800 800
Marge désirée 10% 80 80
Coût d'abattage 170 200
Transport 20 20
Scierie 60 60
Prix d'achat à proposer 470 440
Le responsable de la scierie peut donc proposer un prix entre 440 et 470 k€, en fonction de son degré
d’optimisme, concernant le coût d’abattage.
3.3.1 Ans
La question du texte semble proposer un rôle pour les variables : on cherchera à savoir si les
variations de la variable Alcohol (réponse) peuvent être expliquées par celles de Tobacco (prédicteur),
mais ce point de vue n’a rien d’obligatoire ni de décisif.
Graphique et calcul direct
Le calcul du coefficient de corrélation donne r = 0.22 (faible corrélation). R² = 0.05 la régression
n’expliquerait que 5% de la variance des dépenses d’alcool.
Le graphique est :
Donc le jeu de données dans son ensemble semble donc se prêter plutôt mal à la régression linéaire.
Toutefois on remarque un important point éloigné, correspondant à l’Irlande du Nord. Ce point est à
la fois un « outlier » (y très différent de la valeur estimée par la droite de régression) et un point au
« levier » important (x très loin du centre des données). Cette situation rappelle fortement celle de
l’ensemble C d’Anscombe (cf.cours) : un seul point « influent » peut modifier très considérablement
l’équation de régression.
Exclusion de l’Irlande du Nord
En excluant l’Irlande du nord, il vient
R = 0.78 et :
11
Source = DASL, https://dasl.datadescription.com/datafile/tobacco-and-alcohol/
Oeufs boursiers
Sur son site (https://tylervigen.com), Tyler Vigen présente la remarquable corrélation entre les
dépenses en œufs des ménages américains et le prix des actions de la société Emerson Electric :
12
https://www.zonebourse.com , consulté le 29/09/2024
Stock price
60
50
40
30
20
30 40 50 60 70 80 90
Annual US household spending on eggs (Household spend)
70 70
Stock price
60 60
50 50
40 40
30 30
20 20
30000 40000 50000 60000 70000 80000 30000 40000 50000 60000 70000 80000
US GDP/capita US GDP/capita
13
World bank: https://data.worldbank.org/indicator/NY.GDP.PCAP.CN?locations=US