Econometrie TP Accidents de La Route
Econometrie TP Accidents de La Route
Econometrie TP Accidents de La Route
Econométrie TP
Sommaire :
Introduction.
Construction du modèle.
Schématisation.
Nos données.
Le modèle de régression linéaire multiple (RLM)
A. Hypothèses du modèle de RLM
B. Terme d’erreur
C. Propriétés des estimateurs
Estimation de notre modèle
A. Modèles théoriques
B. 1ère estimation par la méthode des moindres carrés ordinaires (MCO).
1. Théorie de la décision:
2. Test F :
3. Test t (test bilatéral)
4. Matrice de corrélation :
C. 2ème estimation par la méthode des moindres carrés ordinaires (MCO) :
1. Théorie de la décision:
2. Test F
3. Test t (test bilatéral)
4. Comparaison des deux estimations :
D. 3ème estimation avec transformation logarithmique.
1. Test F
2. Test t (test bilatéral)
3. Comparaison entre les 3 estimations.
E. Prévisions
2. Estimation par MCO
3. Estimation ponctuelle
Conclusion.
Bibliographie.
Introduction.
Alors que la lutte contre la violence routière est une des priorités actuelles du
gouvernement, nous nous sommes donc interrogés sur les facteurs explicatifs du nombre
d’accident corporel observer sur les routes des départements français. Plusieurs phénomènes
nous paraissaient à priori intéressant à étudier comme la mise en place des radars
automatiques ou encore le renforcement des contrôles effectués ces derniers temps.
Malheureusement nous n’avons pas pu trouver suffisamment de données sur ces dernières
années pour construire un modèle significatif. C’est pourquoi nous nous sommes rabattus sur
une analyse en coupe transversale sur un échantillon de 50 départements français. Les donnés
datent de l’année 2004.
Ainsi, nous allons construire un modèle de régression linéaire multiple à 4 variables
explicatives sur le nombre d accidents constatés dans les différents départements. Différents
tests sur notre modèle vont nous permettre de conclure à la significativité ou non des variable
explicative et de quantifier ces éventuelles relations.
Construction du modèle.
La part du trafic sur route nationale 2*2 voies dans le département. Cette variable
est définie comme le poids du parcours (véhicules * kilomètre) qu elle représente
en 2004. Lors de nos recherche documentaire, nous avons constaté que :
1. Les routes nationales sont très accidentogènes
2. Les autoroutes présentent une bonne sécurité.
Ainsi grâce à cette variable nous allons pouvoir mesuré l’éventuelle impacte du
doublement de la chaussée des routes nationales sur les accident. Nous avons
supposé que la présence d’un terre plein central et d équipement adapté à ce type
de voie a un impact négatif sur les accidents. Cette variable est notée X4i.
La part des 15-24 ans dans la population du département. Les tests effectués sur
cette variable vont tenter de cerner l’impact du manque d’expérience de la route
des jeunes utilisateurs pour les 18-24, et dans une moindre mesure l’utilisation des
véhicules 2 roues avant l’age de 18 ans. La variable X5i devrait avoir un impact
positif sur notre variable expliquée.
Les cinq variables citées devraient selon nous expliquer les variations du nombre constaté
d’accident dans chaque département.
Schématisation.
Nous devons rappeler que le phénomène que nous allons expliquer ne peut pas se
résumer à nos seules variables et est bien sur bien plus complexe. Voici une vue d’ensemble
des facteurs qui probablement ont un impact significatif.
-R & D
-Etat du véhicule
-Eléments de sécurité a bord
Véhicule
ACCIDENT -Alcoolémie
-Vitesse
-fatigue
Conducteur -Expérience
-Signalisation
déterminer les facteurs emmenant au décès, mais les facteurs étaient difficilement quantifiables
et les données très peu accessibles. Cependant intuitivement, on devine une relation très forte
entre le nombre d’accidents et le nombre de tués sur les routes. Ainsi nous avons opté pour une
étude portant sur les accidents plutôt que sur le nombre de tués. Apres une rapide analyse nous
avons pu constater que cette corrélation est globalement vérifiée, a l’exception des grandes
Evenement Il parait probable que la vitesse
agglomérations. - Facteurs potentiellement
de circulation dans le centre des grandes villes
explicatifs
est trop faible pour provoquer des accidents mortels. Prenons l’exemple de Paris ou le nombre
de tués pour un million d’habitants est de 24, ce qui est le taux le plus faible de France, mais
dansGroupe
le même -Facteurs
temps Paris est une des villes
de facteurs les plusétudiés
accidentogène (7000 accidents corporels
pour 2 million d’habitants). Les deux événements doivent donc être dissociés.
Avant de passer a l analyse des données statistique, il parait judicieux de rappeler que
notre travail a pour but d’appliquer un cours théorique, le rapport souligne dons l’intérêt de
l’approche économétrique sur un phénomène comme celui étudié, mais ne pourra pas se
conclure par des recommandations car les variables utilisées ne se prêtent pas à d’éventuels
ajustements.
Nos données.
Sources :
◦ http://www.securiteroutiere.gouv.fr/IMG/pdf/comparaisons_interdepartementales-2.pdf
◦ http://www.insee.fr/fr/ffc/docs_ffc/ElpDep_5trages90-04[1].xls
◘ La variable dépendante Yi , dans notre modèle , peut être calculée par une relation
linéaire des variables indépendantes et du terme d’erreur. Cette relation linéaire
impose:
→ Yi = α+∑Ni=1 β j X ji+ εi i ε [1,N] j ε [2,k]
◘ Hypothèse fondamentale :
→ L’espérance mathématique conditionnelle est supposée être nulle.
E[εi/ X ji ] = 0 pour tout i ε [1,N] et j ε [2,k]
◘ Hypothèse d’homoscédasticité :
La variance de cette variable aléatoire, le terme d’erreur, est une variance identique. Les
termes d’erreur ne sont pas corrélés entre eux.
→ V[εi/ X ji ] = E[εi ²] = σ² pour tout i ε [1,N] et j ε [2,k]
→ Cov[εi εi’] = E[εi εi’] = 0 pour tout i ε [1,N] et i ≠ i’
◘ Les variables explicatives et les termes d’erreur sont supposés indépendants et non
corrélés :
→ Cov[εi X ji ] = E[(εi - E[εi ]) (X ji - E[X ji])] = 0
◘ La variable aléatoire εi évolue selon le loi normale. On suppose que les perturbations
sont normales, indépendantes et identiquement distribuées :
→ εi ~ N (0, σ²)
◘ Hypothèse de multicolinéarité :
→ On suppose qu’il n’existe pas de relation linéaire parfaite entre les variables explicatives.
B. Terme d’erreur
On considère que les variables explicatives du modèle ne sont pas les seules variables
à pouvoir expliquer la variable endogène Yi .
La présence d’εi s’explique à cause de l’erreur de spécification. Il existe beaucoup de
variables qui ne sont pas observables et entrent ainsi dans la partie „erreur“. Cette variable
„erreur“ va représenter l’effet net d’un grand nombre de variables non présentes dans le
modèle. On suppose que l’effet net en terme d’erreur est relativement faible.
Nous introduisons εi pour les erreurs de mesure sur la variable dépendante Yi. Les erreurs de
mesure ne correspondent pas aux erreurs réelles postulées par la théorie.
Les individus effectuent des choix différents dans des conditions totalement identiques. Il
s’agit de la notion du hasard.
Pour qu’un estimateur ponctuel soit un bon estimateur il doit avoir les propriétés
suivantes:
◘ L’estimateur doit être sans biais, c’est-à-dire que le coefficient de régression b doit avoir
comme espérance mathématique le paramètre de la relation théorique:
E(b) = β
◘ L’estimateur b doit être efficace. Un estimateur sans biais est un estimateur efficace si sa
distribution d’échantillonnage possède la plus petite variance parmi tous les estimateurs sans
biais:
V(b) = σ²b
◘ L’estimateur doit converger vers la vraie valeur du paramètre β.
A. Modèles théoriques
RLM:
Yi = α+∑Ni=1 β j X ji+ εi i ε [1,N] j ε [2,k]
Dependent Variable: Y
Method: Least Squares
Date: 01/13/06 Time: 14:01
Sample: 1 50
Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob.
C 1900.406 625.5454 3.037999 0.0040
X2 2.170576 0.276186 7.859108 0.0000
X3 20.55132 7.051298 2.914544 0.0055
X4 1.174395 2.359868 0.497653 0.6212
X5 -278.9953 62.02830 -4.497870 0.0000
R-squared 0.831343 Mean dependent var 735.3200
Adjusted R-squared 0.816351 S.D. dependent var 897.4098
S.E. of regression 384.5786 Akaike info criterion 14.83681
Sum squared resid 6655532. Schwarz criterion 15.02802
Log likelihood -365.9203 F-statistic 55.45332
Durbin-Watson stat 1.871092 Prob(F-statistic) 0.000000
Ŷi = a + b2 X 2i + b3 X 3i + b4 X 4i + b5 X 5i i ε [1,50]
[t] [ta = 3.038] [tb2 =7,859] [tb3 = 2,915] [tb4 = 0,498] [tb5 = 4,498]
a…estimateur de α
bj …estimateur de β j j ε [2,5]
1. Théorie de la décision:
2. Test F :
Hypothèse jointe: H0 : β2 = β3 = β4 = β5 = 0
Fstat = 55,45332
Fthéorique = F 1-s (k ; N-(k+1))
= F 1-0,05 (4 ; 50-(4+1))
= F0,95 (4 ; 45) = 2,61
► β 2 ~ N (E(b2 ), σb2)
E(b2 ) = β2
(b2 - β2) / σb2 ~ N (0, 1)
(b2 - β2) / ^σb2 ~ t (N-k+1)
H0 : β2 = 0 contre H1 : β2 ≠ 0
► β 3 ~ N (E(b3), σb3)
E(b3 ) = β3
(b3 – β3) / σb3 ~ N (0, 1)
(b3 – β3) / ^σb3 ~ t (N-k+1)
H0 : β3 = 0 contre H1 : β3 ≠ 0
► β 4 ~ N (E(b4 ), σb4)
E(b4 ) = β4
(b4 – β4) / σb4 ~ N (0, 1)
(b4 – β4) / ^σb4 ~ t (N-k+1)
H0 : β4 = 0 contre H1 : β4 ≠ 0
► β 5 ~ N (E(b5 ), σb5)
E(b5 ) = β5
(b5 – β5) / σb5 ~ N (0, 1)
(b5 – β5) / ^σb5 ~ t (N-k+1)
H0 : β5 = 0 contre H1 : β5 ≠ 0
Après avoir effectué le test t sur chaque variable explicative dans notre modèle, on
constate, qu’il y a trois variables explicatives significatives statistiquement, X2 et X3 et X5
6000
4000
2000
1500 0
1000
-2000
500
-500
-1000
5 10 15 20 25 30 35 40 45 50
4. Matrice de corrélation :
X2 X3 X4 X5
X2 1 0.818578 0.276888 0.686188
X3 0.818578 1 0.181700 0.723525
X4 0.276888 0.181700 1 0.394526
X5 0.686188 0.723525 0.394526 1
On observe la plus forte corrélation entre X2 et X3. Cependant ces deux variables sont
statistiquement significative. Il n’est donc pas judicieux de supprimer l’une des deux.
X4 étant la seul variable non significative, on va alors la supprimer pour tester de nouveau le
modèle.
Dependent Variable: Y
Method: Least Squares
Date: 01/13/06 Time: 14:58
Sample: 1 50
Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob.
C 1829.473 604.0885 3.028485 0.0040
X2 2.191306 0.270785 8.092432 0.0000
X3 19.77604 6.820581 2.899465 0.0057
X5 -268.1058 57.56398 -4.657528 0.0000
R-squared 0.830415 Mean dependent var 735.3200
Adjusted R-squared 0.819355 S.D. dependent var 897.4098
S.E. of regression 381.4207 Akaike info criterion 14.80230
Sum squared resid 6692161. Schwarz criterion 14.95526
Log likelihood -366.0575 F-statistic 75.08321
Durbin-Watson stat 1.844189 Prob(F-statistic) 0.000000
Ŷi = a + b2 X 2i + b3 X 3i + b5 X 5i i ε [1,50]
[t] [ta = 3,028] [tb2 =8,092] [tb3 = 2,899] [tb5 = 4,658]
a…estimateur de α
bj …estimateur de β j j ε [2,5]
1. Théorie de la décision:
Nous allons prendre en compte le risque de première espèce (qui correspond à la situation où
l‘on rejette l’hypothèse alors qu’en réalité elle est vérifiée). On va imposer ce risque à une
valeur relativement faible, seuil limite s = 5% = 0,05.
2. Test F
Hypothèse jointe: H0 : β2 = β3 = β5 = 0
Fstat = 75,08321
Fthéorique = F 1-s (k ; N-(k+1))
= F 1-0,05 (3 ; 50-(3+1))
= F0,95 (3 ; 46) = 2,76
► β 2 ~ N (E(b2 ), σb2)
E(b2 ) = β2
(b2 - β2) / σb2 ~ N (0, 1)
(b2 - β2) / ^σb2 ~ t (N-k+1)
H0 : β2 = 0 contre H1 : β2 ≠ 0
► β 3 ~ N (E(b3), σb3)
E(b3 ) = β3
(b3 – β3) / σb3 ~ N (0, 1)
(b3 – β3) / ^σb3 ~ t (N-k+1)
H0 : β3 = 0 contre H1 : β3 ≠ 0
► β 5 ~ N (E(b5 ), σb5)
E(b5 ) = β5
(b5 – β5) / σb5 ~ N (0, 1)
(b5 – β5) / ^σb5 ~ t (N-k+1)
H0 : β5 = 0 contre H1 : β5 ≠ 0
Après avoir effectué le test t sur chaque variable explicative dans notre modèle, on
constate, que les trois variables explicatives sont significatives statistiquement, X2, X3 et X5 .
6000
4000
2000
1500 0
1000
-2000
500
-500
-1000
5 10 15 20 25 30 35 40 45 50
Dependent Variable: LY
Method: Least Squares
Date: 01/14/06 Time: 12:03
Sample(adjusted): 2 50
Included observations: 43
Excluded observations: 6 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C -0.789204 1.126020 -0.700879 0.4876
LX2 0.752757 0.114155 6.594147 0.0000
LX3 1.569797 0.306569 5.120526 0.0000
LX4 0.092691 0.044582 2.079108 0.0444
LX5 -1.637755 0.665013 -2.462741 0.0184
R-squared 0.880222 Mean dependent var 6.321732
Adjusted R-squared 0.867614 S.D. dependent var 0.805067
S.E. of regression 0.292923 Akaike info criterion 0.491129
Sum squared resid 3.260543 Schwarz criterion 0.695920
Log likelihood -5.559271 F-statistic 69.81357
Durbin-Watson stat 1.771178 Prob(F-statistic) 0.000000
LŶi = a + b2 LX 2i + b3 LX 3i + b4 LX 4i + b5 LX 5i i ε [1,43]
[t] [ta = 0,7009] [tb2 = 5,5941] [tb3 = 5,1205] [tb4 = 2,0791] [tb5 = 2,4627]
a…estimateur de α
bj …estimateur de β j j ε [2,5]
1. Test F
Hypothèse jointe: H0 : β2 = β3 = β4 = β5 = 0
Fstat = 69,81357
Fthéorique = F 1-s (k ; N-(k+1))
= F 1-0,05 (4 ; 43-(4+1))
= F0,95 (4 ; 38) = 2,61
► β 2 ~ N (E(b2 ), σb2)
E(b2 ) = β2
(b2 - β2) / σb2 ~ N (0, 1)
(b2 - β2) / ^σb2 ~ t (N-k+1)
H0 : β2 = 0 contre H1 : β2 ≠ 0
► β 3 ~ N (E(b3), σb3)
E(b3 ) = β3
(b3 – β3) / σb3 ~ N (0, 1)
(b3 – β3) / ^σb3 ~ t (N-k+1)
H0 : β3 = 0 contre H1 : β3 ≠ 0
tthéorique = ts (N-(k+1))
= t0,05 (43-(4+1))
= t0,05 (38) = 2,042
► β 4 ~ N (E(b4 ), σb4)
E(b4 ) = β4
(b4 – β4) / σb4 ~ N (0, 1)
(b4 – β4) / ^σb4 ~ t (N-k+1)
H0 : β4 = 0 contre H1 : β4 ≠ 0
► β 5 ~ N (E(b5 ), σb5)
E(b5 ) = β5
(b5 – β5) / σb5 ~ N (0, 1)
(b5 – β5) / ^σb5 ~ t (N-k+1)
H0 : β5 = 0 contre H1 : β5 ≠ 0
Après avoir effectué le test t sur chaque variable explicative dans notre modèle, on constate,
que les quatre variables sont statistiquement significative. Cependant, il faut noter que la
transformation logarithmique a écarté 6 observations du fait qu’elles ont un X4 égal à zéro.
6
1.0
5
0.5
4
0.0
-0.5
-1.0
5 10 15 20 25 30 35 40 45 50
Après avoir « fait tourné » le modèle trois fois, on peut supposer qu’il peut être utiliser
avec les quatre variables explicatives pour faire des prévisions puisque le R-squared est a
chaque fois compris entre 0,83 et 0,88 et qu’au moins trois variable sur quatre sont
significative tout le temps.
E. Prévisions
1. Modèle théorique.
Yi = α + β2 X 2i + εi i ε [1,N]
Yi = α + β2 X 2i + εi i ε [1,50]
Ŷi = a + b2 X 2i i ε [1,50]
ei = Yi - ^ Yi
a……estimateur de α
b2 ….estimateur de β2
ei……estimateur d’εi
Dependent Variable: Y
Method: Least Squares
Date: 01/14/06 Time: 12:48
Sample: 1 50
Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob.
C -317.8957 109.9507 -2.891258 0.0057
X2 2.148455 0.181313 11.84945 0.0000
R-squared 0.745236 Mean dependent var 735.3200
Adjusted R-squared 0.739928 S.D. dependent var 897.4098
S.E. of regression 457.6542 Akaike info criterion 15.12928
Sum squared resid 10053474 Schwarz criterion 15.20576
Log likelihood -376.2321 F-statistic 140.4095
Durbin-Watson stat 1.910418 Prob(F-statistic) 0.000000
3. Estimation ponctuelle
Erreur de prévision:
Ŷθ - Yθ = (a - α ) + (b2 - β2) Xθ - εθ
E[(Ŷθ - Yθ)] = 0
V[[(Ŷθ - Yθ)] = σ² (1 + 1/N + (Xθ - X¯)² / Sxx)
▪ a = -317,8957
▪ b2 = 2,148455
▪ Xθ = 481
▪ X¯= 490,22
▪ σ² = 457,6542
▪ N = 50
▪ Sxx = ∑Ni=1 (Xi - X¯)² = 6 371 164,58
Application numérique :
Ŷθ = a + b2 Xθ
Ŷθ = -317,8957 + 2,148455 * 481 = 715,51
Intervalle de confiance :
[715,51 ± 44,12]
[671.39 ; 759.63]
Conclusion.
Notre modèle parait à priori bien expliquer les variation de notre variable expliquée,
mais les types de corrélation vont a l encontre de nos premières intuitions. En effet, la part des
15-24 ans dans la population et le poids des 2*2 voies dans les parcours de chaque
département sont significatifs mais corrélés négativement avec le nombre d’accidents
corporels. Nous devons alors remettre en cause soit nos données, soit les spécifications du
modèle. On peut schématiser le principe :
Echantillonage
Statistiques
-Nouvelles
spécifications
-Nouvelles
Infirmation données
-Redéfinition
Méthode
des variables
économétrique
Confirmation
Les variables plus générales relatives à la population et au taux d’urbanisation sont
elles aussi significatives mais corrélées comme nous l’avions supposé.
On peut dons conclure que l’approche d’une étude des accidents de la route n’est pas
aisée car le nombres de déterminants de l’accident est très élevé et très souvent ces variable
sont corrélées entre elles, d’où la difficulté à résumer le phénomène a seulement quatre
variables explicative. A posteriori une étude du type suivant aurai été intéressante a mener :
indépendants du temps
o utiliser un véhicule qui peut rouler beaucoup plus vite que les vitesses
autorisées
o circuler sur une route peu lisible dont l'aspect incite à rouler à une vitesse
supérieure à celle pour laquelle elle a été conçue
o transgresser facilement les règles de la circulation
intervenant à l'échelle de l'année
o l'ancienneté du permis de conduire récent
o parcourir peu de kilomètres chaque année
intervenant à l'échelle du trajet (heures)
o ne pas avoir suffisamment dormi
o avoir consommé une quantité d'alcool excessive
o avoir consommé des produits psycho-actifs (certains médicaments, drogues)
o ne pas avoir attaché sa ceinture ou mis son casque
intervenant à l'échelle de la minute (pré-accident)
o être en excès de vitesse par rapport à la limite légale du lieu
o ne pas avoir identifié un facteur de risque routier (virage serré, sol glissant,
chaussée altérée)
o faire une manoeuvre qui réduit les capacités de conduite (téléphoner)
intervenant à l'échelle de la seconde
o quitter trop longtemps du regard la voiture qui vous précède ou la chaussée (se
tourner pour regarder des enfants à l'arrière du véhicule, se laisser distraire par
un événement, par exemple un accident dans l'autre sens sur une autoroute, un
animal, etc.)
o effectuer une manoeuvre sans s'être assuré de pouvoir l'effectuer sans risque
(changer de file pour un dépassement ou un changement de direction)
http://www.securite-routiere.org/Connaitre/accidentologie.htm
Ce genre d’étude oblige à utiliser des donnés en panel voir en cohorte et est bien sur
bien plus compliqué à mener.
Bibliographie.
http://www.securite-routiere.org/Connaitre/accidentologie.htm
http://www.securitéroutière.gouv.fr
http://www.insee.fr.