Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Regression Multiple

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

Rgression linaire multiple

1. Le modle de rgression linaire multiple.


1.1. Position du problme.

La rgression linaire multiple est une mthode d'analyse de donnes quantitatives. Elle a pour but de
mettre en vidence la liaison pouvant exister entre une variable dite explique, que l'on notera Y et
plusieurs autres variables dites explicatives que l'on notera X1, X2, ..., Xp-1.

Les p-1 variables Xi, i = 1, , p-1 peuvent tre soit alatoires, soit contrles c'est--dire qu'elles sont
connues sans erreur. Nous supposerons dans la suite que les variables Xi, i = 1, ..., p-1 sont
contrles. Nous nous intressons aux modles dits linaires, c'est--dire aux modles du type :

Y = a0 +a1X1 + a2X2 + ... +ap-1Xp-1

dans lequel a0, a1, ... , ap-1 sont des rels appels coefficients du modle (c'est, ici, un modle sans
interaction).

Montrons que ce modle est insuffisant pour dcrire la ralit. En effet, dans la pratique, on effectue n
expriences, donc on dispose de n rsultats de mesures.

Nous utiliserons les notations suivantes : pour l'exprience i, X1 prend la valeur xi1, X2 prend la valeur
xi2, , Xp-1 prend la valeur xip-1. La valeur (yi)obs observe de Y obtenue lors de la ralisation de
l'exprience i diffre de la valeur yi attendue d'une quantit alatoire que nous noterons ei. L'existence
du << facteur d'erreur>> ei est d des facteurs non contrls (drive des appareils, adresse de
l'exprimentateur, etc). Cela justifie le fait que nous adopterons dsormais le modle suivant :

Y = a0 + a1X1 + a2X2 + ... + ap-1Xp-1 + e

dans lequel a0, a1, a2, , ap-1 sont en ralit des variables alatoires, et e une variable alatoire
prenant le nom de facteur d'erreur.

1.2. Estimation des coefficients du modle.

On appelle << ajustement >> du modle toute solution du systme des n quations :

yi = a0 + a1xi1 + ... + ap-1xip-1 + ei (i = 1, 2, ... , n)


dans laquelle :

a) yi, xi1, , xip-1 sont les valeurs observes lors de la ralisation des expriences.
b) ei sont les rsidus d'ordre i observs lors de la ralisation des expriences. Ils sont dfinis par :
p 1
ei = yi ak xik a0
k =1

c) a0, a1, , ap-1 les estimateurs des variables alatoires a0, a1, a2, , ap-1

L'<< ajustement des moindre carrs >> est celui qui fournit les estimateurs a0, , ak conduisant au
minimum de la somme des carrs des rsidus , autrement dit :

e
i
2
i = valeur minimale

Le calcul des estimateurs a0, a1, , ap-1 , rsulte de l'application de rsultats de l'algbre linaire qui
n'ont pas leur place ici. On obtient alors :

Y observ = a0 + a1X1 + a2X2 + ... + akXp-1 + e

1
Dans la pratique, pour ne pas alourdir le discours et les critures, on crira Y la place de Yobserv, on
dira que a0, a1, ... , ap-1 sont les coefficients du modle et on omettra souvent le rsidu e.

Exemple: l'abondance de Bidonia exemplaris (y) est influence par le taux d'humidit (x1) et par le
pourcentage de matire organique dans le sol (x2).Lorsqu'on a des raisons de penser que la relation
entre ces variables est linaire (faire des diagrammes de dispersion!), on peut tendre la mthode de
rgression linaire simple plusieurs variables explicatives; s'il y a deux variables explicatives, le
rsultat peut tre visualis sous la forme d'un plan de rgression dont l'quation est:

y = a1x1 + a2x2 + b (dans cet exemple a0 = b )

Le plan est ajust selon le principe des moindres carrs o les sommes des carrs des erreurs
d'estimation de la variable dpendante sont minimises.

Exemple d'une quation de rgression multiple deux variables explicatives x1 et x2:

y = 0.5543x1 + 0.7211x2 - 41.6133

Si on remplace les symboles des variables par leur nom dans le"monde rel", on a:

Abond. Bidonia = 0.5543* Humid. + 0.7211* Mat.Org. 41.6133

Les signes des paramtres a1 et a2 sont tous deux positifs, ce qui montre que Bidonia ragit
positivement une augmentation du taux d'humidit et de la teneur en matire organique.
Cette quation peut servir estimer l'abondance de Bidonia exemplaris en fonction des deux
descripteurs "Humidit" et " Matire organique" (exprims en % dans cet exemple).
Pour une humidit de 80% et un taux de matire organique de 30%, on estime l'abondance de
Bidonia exemplaris

Abond. Bidonia ex. = 0.5543*80 + 0.7211*30 41.6133 = 24.3637 individus.

Comme en rgression linaire simple, on mesure la variance explique par la rgression l'aide du
2
coefficient de dtermination multiple R :

( y y )
i
2

R2 =
( y y)
i
2

Le coefficient de corrlation multiple est dfini comme la racine carre du coefficient de dtermination
multiple;

2
2
Le R peut aussi se calculer partir des coefficients de rgression centrs-rduits a'j et des
coefficients de corrlation entre la variable dpendante y et chacune des variables explicatives xj (voir
plus loin).

1.3. Intrt de la rgression multiple

La rgression multiple peut tre utilise plusieurs fins:


Trouver la meilleure quation linaire de prvision (modle) et en valuer la prcision et la
signification.
Estimer la contribution relative de deux ou plusieurs variables explicatives sur la variation d'une
variable expliquer; dceler l'effet complmentaire ou, au contraire, antagoniste entre diverses
variables explicatives.
Estimer l'importance relative de plusieurs variables explicatives sur une variable dpendante, en
relation avec une thorie causale sous-jacente la recherche (attention aux abus: une corrlation
n'implique pas toujours une causalit; cette dernire doit tre postule a priori).

2. Test de signification du modle de rgression multiple


La signification du modle de rgression multiple peut tre teste par une variable auxiliaire FRMc
qui, sous H0, est distribue comme un F de Fisher (p1) et (np) degrs de libert. Rappelons que
dans cette notation, p dsigne le nombre de variables explicatives plus une, c'est--dire le nombre de
paramtres de l'quation: coefficients de rgression plus l'ordonne l'origine.

Les hypothses du test sont:


H0: la variable y est linairement indpendante des variables xj
H1: la variable y est linairement lie au moins une des variables xj
L'expression la plus commode de la variable auxiliaire F est base sur le coefficient de dtermination:
R 2 (n p )
FRM C =
(1 R 2 ) ( p 1)
En ce qui concerne les conditions d'application du test, la rgression multiple est soumise aux mmes
contraintes que la rgression linaire simple:
- distribution normale de la variable dpendante
- quivariance
- indpendance des rsidus
- linarit des relations entre la variable dpendante y et chacune des variables explicatives x.

La liaison entre la variable expliquer y et l'ensemble des variables explicatives peut se mesurer par
un coefficient de "corrlation multiple" dfini comme la racine carre du coefficient de dtermination
2
R . Par dfinition (puisqu'on prend la racine carre d'un nombre rel), la corrlation multiple obtenue
ne peut pas tre ngative.
De ce fait, la notion de corrlation multiple a une interprtation douteuse et doit tre manipule avec
beaucoup de prudence: par exemple, mme dans un cas o une variable dpendante y serait
influence ngativement par toutes les variables explicatives x1 xp-1, le coefficient de corrlation
multiple serait positif.

Point important, les coefficients de rgression obtenus par rgression multiple sont en fait des
coefficients de rgression partielle, en ce sens que chacun mesure l'effet de la variable explicative
concerne sur la variable dpendante lorsque la ou les autres variables explicatives sont tenues
constantes.
Cette proprit est trs intressante. En effet, si on dsire connatre l'influence d'un groupe de
facteurs sur une variable-cible (=dpendante) donne, en contrlant l'effet d'un autre groupe (par
exemple on veut valuer l'effet de la teneur en matire organique du sol sur l'abondance de Bidonia
exemplaris, en tant l'effet de l'humidit), on peut calculer une rgression intgrant toutes les variables
explicatives, et examiner les coefficients de rgression du groupe de variables voulu, en sachant que
ces coefficients expliquent la variance de la variable dpendante en contrlant pour l'effet de l'autre
groupe.
Cette dmarche n'est pas triviale. En effet, les influences combines des diverses variables en jeu
aboutissent quelquefois des effets apparents contraires ceux qui sont en jeu.

3
Dans notre exemple, en rgression simple, Bidonia a l'air de ragir ngativement l'augmentation de
la teneur en matire organique (voir figure ci-dessous). Par contre, si l'on tient constant l'effet de
l'humidit, le coefficient de rgression partielle de la matire organique est positif (0.7211). Cela tient
ce que dans l'chantillonnage, les prlvements les plus humides sont aussi ceux o le taux de
matire organique est le plus faible. Or, Bidonia ragit fortement (et positivement) l'humidit.
Il ragit aussi positivement une augmentation de la matire organique, mais pas de faon aussi forte
que vis--vis de l'humidit.

En haut gauche: rgression linaire simple de B. exemplaris sur l'humidit.


Enbas gauche: rgression linaire simple de B. exemplaris sur le taux de matire organique
(raction apparemment ngative).
En haut droite: relation entre humidit et matire organique.
En bas droite: rgression partielle de B.exemplaris sur la matire organique, en maintenant
l'humidit constante (la variable explicative est le rsidu d'une rgression de la matire organique
sur l'humidit).
On voit donc qu'il est indispensable, lorsqu'on dispose de plusieurs variables explicatives, de les
intgrer ensemble dans une analyse plutt que d'avoir recours une srie de rgressions simples.
En plus de ce qui prcde, non seulement on peut alors mesurer leur effet combin sur la variable
dpendante, mais on peut aussi tester globalement cet effet ( l'aide de la statistique F prsente plus
haut).

3. Rgression sur variables centres-rduites


Une pratique courante en rgression consiste interprter les coefficients de rgression centrs-
rduits, c'est--dire ceux qu'on obtient en centrant-rduisant toutes les variables (y compris la
variable dpendante). En exprimant toutes les variables en units d'cart-type, on rend les coefficients
de rgression insensibles l'tendue de variation des variables explicatives, leur permettant ainsi
d'tre interprts directement en termes de "poids" relatif des variables explicatives. Notez aussi que
la plupart des logiciels courants fournissent de toute manire les "coefficients de rgression centrs
rduits" (standardized regression coefficients) en plus des coefficients calculs pour les variables
brutes.
On peut remarquer aussi que si on fait le calcul l'aide de la mthode expose plus loin (cf 1.8), on
obtient de toute manire d'abord les coefficients centrs-rduits (sans avoir centrer-rduire les
variables pour faire le calcul!).
Le centrage-rduction n'affecte pas la corrlation entre les variables, ni les coefficients de
2
dtermination (R ) des rgressions simples et multiples.

4
L'exemple de Bidonia expos plus haut devient ainsi:
Abondance Bidoniacr = 1.6397 Hum.cr + 0.9524 Mat.Org.cr

L'ordonne l'origine vaut 0 puisque toutes les variables sont centres.


Dans ce contexte, mentionnons que le coefficient de dtermination peut aussi s'exprimer
p 1
R = a ' j rjp
2

j =1
Les a'j sont les coefficients de rgression des variables centres rduites.
Donc, chaque lment a'jrjp reprsente la contribution de la variable xj l'explication de la variance
de y. Dans notre exemple, la contribution de l'humidit et celle de la matire organique s'lvent

1.6397 * 0.8251 = 1.3529 et 0.9524 * 0.4498 = 0.4284


2
R = 1.3529 0.4284 = 0.9245

Remarque: en rgression linaire simple (uniquement!), lorsque les deux variables sont centres-
rduites, le coefficient de rgression a (=la pente) est gal la corrlation r entre les deux variables x
et y.

4. R2 ajust
Une des proprits de la rgression multiple est que l'ajout de chaque variable explicative au modle
permet d'"expliquer" plus de variation, et cela mme si la nouvelle variable explicative est
compltement alatoire. Cela vient du fait que si l'on compare deux variables alatoires, les
fluctuations alatoires de chacune d'entre elles produisent de trs lgres corrlations: y et chacune
des xj ne sont pas strictement indpendantes (orthogonales) mme s'il n'y a aucune relation entre
2
elles. Par consquent, le R calcul comme ci-dessus comprend une composante dterministe, et une
composante alatoire d'autant plus leve que le nombre de variables explicatives est lev dans le
modle de rgression.
2 2
Pour contrer cet effet, et donc viter de surestimer le R , plusieurs auteurs ont propos un R ajust,
qui tient compte du nombre de variables explicatives du modle de rgression. La formule la plus
couramment utilise est la suivante:
( n 1)
Raj2 = 1
( n m 1)
(1 R )
2

o n = nombre d'observations et m = nombre de variables explicatives

5. Partitionnement de la variation
Dans la grande majorit des cas, les variables explicatives intgres une rgression multiple ne sont
2
pas linairement indpendantes entre elles (orthogonales). Le R total de la rgression multiple n'est
2
donc pas la somme des r d'une srie de rgressions simples impliquant tour tour toutes les
variables explicatives, mais une valeur infrieure cette somme:

Dans cet exemple, la barre grasse reprsente toute la variation de la variable dpendante. Comme les
variables x1 et x2 ne sont pas linairement indpendantes, une partie de leur pouvoir explicatif va
expliquer la mme part de variation de y. Cette fraction commune est appele fraction [b].
L'explication unique de la variable x1 est la fraction [a], et l'explication unique de la variable x2 est la
fraction [c].
La fraction [d] constitue la partie non explique, soit le rsidu de la rgression multiple.
On peut obtenir les valeurs de chacune de ces fractions de la manire suivante:
2
(1) Rgression linaire simple de y sur x1: le r vaut [a]+[b].

5
2
(2) Rgression linaire simple de y sur x2: le r vaut [b]+[c].
2
(3) Rgression linaire multiple de y sur x1 et x2: le R vaut [a]+[b]+[c].
2 2 2
tape intermdiaire: il faut maintenant ajuster les r et R ci-dessus l'aide de la formule du R
ajust . Ensuite:
(4) La valeur de [a]aj peut donc tre obtenue en soustrayant le rsultat de l'opration (2)aj de celui de
(3)aj.
(5) La valeur de [c]aj peut donc tre obtenue en soustrayant le rsultat de (1)aj de celui de (3)aj.
(6) La valeur de [b]aj s'obtient de diverses manires, p. ex. ([a]+[b])aj [a]aj, ou ([b]+[c])aj [c]aj.
(7) La fraction [d]aj (variation non explique) s'obtient en faisant 1 ([a]+[b]+[c])aj.

Remarque: on ne peut pas ajuster de modle de rgression sur la fraction [b], dont la valeur ne peut
tre obtenue que par soustraction.
Elle peut mme tre ngative s'il y a antagonisme entre les effets de certaines variables explicatives
(c'est le cas dans notre exemple de Bidonia montr plus haut). C'est pourquoi on parle ici de variation
et non de variance au sens strict.

Autre remarque: pour permettre la comparaison de variables explicatives qui ne sont pas toutes
mesures dans les mmes units, ou qui ont des intervalles de variation trs diffrents, on a
souvent recours au centrage-rduction des variables explicatives.
Dans ce cas-l, il n'est pas ncessaire de centrer-rduire la variable dpendante.

6. La corrlation partielle
Au contraire du coefficient de "corrlation multiple" voqu plus haut, on peut dfinir un coefficient de
corrlation partielle qui a le mme sens que le coefficient de corrlation r de Pearson ordinaire.
Un coefficient de corrlation partielle mesure la liaison entre deux variables lorsque l'influence d'une
troisime (ou de plusieurs autres) est garde constante sur les deux variables compares. On
rappellera cependant qu'une corrlation ne mesure que la liaison entre deux variables, sans se
proccuper de modles fonctionnels ou de capacit de prdiction ou de prvision.
Le calcul d'une corrlation partielle fait intervenir les corrlations ordinaires entre les paires de
variables considres. L'exemple ci-dessous vaut dans le cas o on a deux variables explicatives x1 et
x2
La formule dcrit le calcul de la corrlation partielle de y et x1 en tenant x2 constant:
ryx1 ryx2 rx1x2
ry , x1|x2 =
(1 r )(1 r )
2
yx2
2
x1x2

Ce coefficient se teste l'aide d'un F obissant sous H0 une loi de Fisher-Snedecor 1 et n-p
degrs de libert (rappel: p dsigne ici tous les paramtres de l'quation de rgression multiple:
coefficients de rgression plus ordonne l'origine).
2
Le carr du coefficient de corrlation partielle r y,x1|x2 ,x3... mesure la proportion de la variation de y
explique par x1 par rapport la variation non explique par x2, x3, etc. Cela correspond donc au
rapport des fractions de variation [a]/([a]+[d]) dans le cadre du partitionnement expliqu plus haut. Les
composantes de variation [b] et [c], lies l'autre ou aux autres variables explicatives, sont donc
absentes du calcul.
L'exemple de Bidonia et de sa relation avec l'humidit et la teneur en matire organique du sol est
assez parlant:

Un chercheur qui se contenterait d'une matrice de corrlations simples ( gauche) penserait que la
relation entre Bidonia et la teneur en Mat.Org. est ngative. Par contre, s'il prenait la prcaution de
calculer une matrice de corrlations partielles, il verrait que cette illusion est due l'effet masquant de
l'humidit dans l'chantillon. La corrlation partielle forte et positive entre Bidonia et la Mat.Org.
mesure la relation entre Bidonia et la partie de la variation de la matire organique qui n'est pas
explique par l'humidit.

6
7. Rgression pas pas
On rencontre parfois des situations dans lesquelles on dispose de trop de variables explicatives, soit
parce que le plan de recherche tait trop vague au dpart (on a mesur beaucoup de variables "au
cas o elles auraient un effet"), soit parce que le nombre d'observations (et donc de degrs de libert)
est trop faible par rapport au nombre de variables explicatives intressantes.
Une technique est parfois employe pour "faire le mnage" et slectionner un nombre rduit de
variables qui explique pourtant une quantit raisonnable de variation. Cette rgression, est dite "pas
pas" . Il en existe plusieurs variantes.

7.1. Mthode rtrograde (backward selection)

Cette mthode consiste construire un modle de rgression complet (intgrant toutes les variables
explicatives), et en retirer une par une les variables dont le F partiel est non significatif (en
commenant par celle qui explique le moins de variation). Inconvnient: une fois qu'une variable a t
retire, elle ne peut plus tre rintroduite dans le modle, mme si, la suite du retrait d'autres
variables, elle redevenait significative. Cette approche est nanmoins assez librale (elle a tendance
garder un nombre plus lev de variables dans le modle final que les autres approches ci-dessous).

7.2. Mthode progressive (forward selection)

Approche inverse de la prcdente: elle slectionne d'abord la variable explicative la plus corrle la
variable dpendante. Ensuite, elle slectionne, parmi celles qui restent, la variable explicative dont la
corrlation partielle est la plus leve (en gardant constantes la ou les variables dj retenues). Et
ainsi de suite tant qu'il reste des variables candidates dont le coefficient de corrlation partiel est
significatif.
Inconvnient: lorsqu'une variable est entre dans le modle, aucune procdure ne contrle si sa
corrlation partielle reste significative aprs l'ajout d'une ou de plusieurs autres variables. Cette
technique est en gnral plus conservatrice que la prcdente, ayant tendance slectionner un
modle plus restreint (moins de variables explicatives) que la slection rtrograde.

7.3. Slection pas pas proprement dite (stepwise regression)

Cette procdure, la plus complte, consiste faire entrer les variables l'une aprs l'autre dans le
modle (selon leur corrlation partielle) par slection progressive et, chaque tape, vrifier si les
corrlations partielles de l'ensemble des variables dj introduites sont encore significatives (une
variable qui ne le serait plus serait rejete). Cette approche tente donc de neutraliser les
inconvnients des deux prcdentes en les appliquant alternativement au modle en construction.
Quelle que soit sa variante, la rgression pas pas prsente des dangers:
1. Lorsqu'on a fait entrer une variable donne dans le modle, elle conditionne la nature de la
variation qui reste expliquer. De ce fait, rien ne garantit qu'on a choisi au bout du compte la
combinaison de variables qui explique le plus de variation.
2. Le modle devient hautement instable en prsence de (multi) colinarit entre les variables
explicatives, ce qui veut dire que les paramtres estims par la mthode (les coefficients a, donc les
poids attribus aux variables retenues), et mme la liste des variables retenues elle-mme, peuvent
varier fortement si on change (mme trs peu) les donnes.
3. Il semble que quelle que soit la variante de slection pas--pas utilise, cette mthode est un peu
trop librale, c'est--dire qu'elle laisse souvent au moins une variable non significative dans le modle.
L'utilisation la plus recommande de la rgression pas pas se fait dans le cadre de la rgression
polynomiale.

7
8. Calcul des paramtres d'une rgression multiple
Principe:
On peut calculer les coefficients de rgression et l'ordonne l'origine d'une rgression multiple en
connaissant:
les coefficients de corrlation linaire simple de toutes les paires de variables entre elles (y compris
la variable dpendante): r12, r13...r1p, r23, etc...;
les carts-types de toutes les variables: s1, s2, s3...sp;
les moyennes de toutes les variables.
Remarque: dans cette notation la p-ime variable est la variable dpendante.

tapes de calcul (principe):

1. On calcule d'abord les coefficients de rgression centrs-rduits a1', a2', ... a'p-1 en rsolvant un
systme de p1 quations normales p 1 inconnues (p1 = nombre de variables explicatives).
2. On trouve les coefficients de rgression a1, a2, ... ap-1 pour les variables originales en multipliant
chaque coefficient centr-rduit par l'cart-type de la variable dpendante, et en divisant le rsultat
par l'cart-type de la variable explicative considre.
3. On trouve l'ordonne l'origine en posant la moyenne de la variable dpendante, et en lui
soustrayant chaque coefficient obtenu au point 2, multipli par la moyenne de la variable explicative
correspondante.

Formules:
Les formules ci-dessous sont donnes pour 3 variables explicatives.

1. Equations normales :
r1p = a1' + r12a2' + r13a3' (1)
r2p = r21a1' + a2' + r23a3' (2)
r3p = r31a1' + r32a2' + a3' (3)
Ce systme se rsoud par substitutions successives :
1e tape: a1' = r1p - r12a2' - r13a3' est plac dans les quations (2) et (3). On isole ensuite a2' ou a3' dans
l'une des quations.
Ds lors, on peut trouver l'une des valeurs, et, en remontant la filire, on trouve les deux autres.

2. Coefficients pour variables brutes :


sy sy sy
a1 = a1' a2 = a2' a3 = a3'
sx1 sx 2 sx 3
3. Ordonne l'origine :
b= y a1 x1 a2 x2 a3 x3

Remarque: il existe une autre mthode pour calculer les coefficients de rgression multiple, base sur
le calcul matriciel.
On peut aussi trouver la contribution de chacune des variables explicatives l'explication de la
variance de la variable dpendante
Par exemple, pour la variable explicative x1: Contribution = a1'ryx1
2
Attention: cette contribution n'est pas gale au R partiel. Elle n'est pas non plus gale la fraction [a]
d'un partitionnement de variation si les variables explicatives sont (mme trs peu!) corrles entre
elles!
2
Le coefficient de dtermination multiple R de l'quation (=pourcentage de variance explique par
l'ensemble des variables explicatives) peut s'obtenir en faisant la somme des termes ci-dessus:
p 1
R 2 = a 'j rjp
j =1

Vous aimerez peut-être aussi