Regression Multiple
Regression Multiple
Regression Multiple
La rgression linaire multiple est une mthode d'analyse de donnes quantitatives. Elle a pour but de
mettre en vidence la liaison pouvant exister entre une variable dite explique, que l'on notera Y et
plusieurs autres variables dites explicatives que l'on notera X1, X2, ..., Xp-1.
Les p-1 variables Xi, i = 1, , p-1 peuvent tre soit alatoires, soit contrles c'est--dire qu'elles sont
connues sans erreur. Nous supposerons dans la suite que les variables Xi, i = 1, ..., p-1 sont
contrles. Nous nous intressons aux modles dits linaires, c'est--dire aux modles du type :
dans lequel a0, a1, ... , ap-1 sont des rels appels coefficients du modle (c'est, ici, un modle sans
interaction).
Montrons que ce modle est insuffisant pour dcrire la ralit. En effet, dans la pratique, on effectue n
expriences, donc on dispose de n rsultats de mesures.
Nous utiliserons les notations suivantes : pour l'exprience i, X1 prend la valeur xi1, X2 prend la valeur
xi2, , Xp-1 prend la valeur xip-1. La valeur (yi)obs observe de Y obtenue lors de la ralisation de
l'exprience i diffre de la valeur yi attendue d'une quantit alatoire que nous noterons ei. L'existence
du << facteur d'erreur>> ei est d des facteurs non contrls (drive des appareils, adresse de
l'exprimentateur, etc). Cela justifie le fait que nous adopterons dsormais le modle suivant :
dans lequel a0, a1, a2, , ap-1 sont en ralit des variables alatoires, et e une variable alatoire
prenant le nom de facteur d'erreur.
On appelle << ajustement >> du modle toute solution du systme des n quations :
a) yi, xi1, , xip-1 sont les valeurs observes lors de la ralisation des expriences.
b) ei sont les rsidus d'ordre i observs lors de la ralisation des expriences. Ils sont dfinis par :
p 1
ei = yi ak xik a0
k =1
c) a0, a1, , ap-1 les estimateurs des variables alatoires a0, a1, a2, , ap-1
L'<< ajustement des moindre carrs >> est celui qui fournit les estimateurs a0, , ak conduisant au
minimum de la somme des carrs des rsidus , autrement dit :
e
i
2
i = valeur minimale
Le calcul des estimateurs a0, a1, , ap-1 , rsulte de l'application de rsultats de l'algbre linaire qui
n'ont pas leur place ici. On obtient alors :
1
Dans la pratique, pour ne pas alourdir le discours et les critures, on crira Y la place de Yobserv, on
dira que a0, a1, ... , ap-1 sont les coefficients du modle et on omettra souvent le rsidu e.
Exemple: l'abondance de Bidonia exemplaris (y) est influence par le taux d'humidit (x1) et par le
pourcentage de matire organique dans le sol (x2).Lorsqu'on a des raisons de penser que la relation
entre ces variables est linaire (faire des diagrammes de dispersion!), on peut tendre la mthode de
rgression linaire simple plusieurs variables explicatives; s'il y a deux variables explicatives, le
rsultat peut tre visualis sous la forme d'un plan de rgression dont l'quation est:
Le plan est ajust selon le principe des moindres carrs o les sommes des carrs des erreurs
d'estimation de la variable dpendante sont minimises.
Si on remplace les symboles des variables par leur nom dans le"monde rel", on a:
Les signes des paramtres a1 et a2 sont tous deux positifs, ce qui montre que Bidonia ragit
positivement une augmentation du taux d'humidit et de la teneur en matire organique.
Cette quation peut servir estimer l'abondance de Bidonia exemplaris en fonction des deux
descripteurs "Humidit" et " Matire organique" (exprims en % dans cet exemple).
Pour une humidit de 80% et un taux de matire organique de 30%, on estime l'abondance de
Bidonia exemplaris
Comme en rgression linaire simple, on mesure la variance explique par la rgression l'aide du
2
coefficient de dtermination multiple R :
( y y )
i
2
R2 =
( y y)
i
2
Le coefficient de corrlation multiple est dfini comme la racine carre du coefficient de dtermination
multiple;
2
2
Le R peut aussi se calculer partir des coefficients de rgression centrs-rduits a'j et des
coefficients de corrlation entre la variable dpendante y et chacune des variables explicatives xj (voir
plus loin).
La liaison entre la variable expliquer y et l'ensemble des variables explicatives peut se mesurer par
un coefficient de "corrlation multiple" dfini comme la racine carre du coefficient de dtermination
2
R . Par dfinition (puisqu'on prend la racine carre d'un nombre rel), la corrlation multiple obtenue
ne peut pas tre ngative.
De ce fait, la notion de corrlation multiple a une interprtation douteuse et doit tre manipule avec
beaucoup de prudence: par exemple, mme dans un cas o une variable dpendante y serait
influence ngativement par toutes les variables explicatives x1 xp-1, le coefficient de corrlation
multiple serait positif.
Point important, les coefficients de rgression obtenus par rgression multiple sont en fait des
coefficients de rgression partielle, en ce sens que chacun mesure l'effet de la variable explicative
concerne sur la variable dpendante lorsque la ou les autres variables explicatives sont tenues
constantes.
Cette proprit est trs intressante. En effet, si on dsire connatre l'influence d'un groupe de
facteurs sur une variable-cible (=dpendante) donne, en contrlant l'effet d'un autre groupe (par
exemple on veut valuer l'effet de la teneur en matire organique du sol sur l'abondance de Bidonia
exemplaris, en tant l'effet de l'humidit), on peut calculer une rgression intgrant toutes les variables
explicatives, et examiner les coefficients de rgression du groupe de variables voulu, en sachant que
ces coefficients expliquent la variance de la variable dpendante en contrlant pour l'effet de l'autre
groupe.
Cette dmarche n'est pas triviale. En effet, les influences combines des diverses variables en jeu
aboutissent quelquefois des effets apparents contraires ceux qui sont en jeu.
3
Dans notre exemple, en rgression simple, Bidonia a l'air de ragir ngativement l'augmentation de
la teneur en matire organique (voir figure ci-dessous). Par contre, si l'on tient constant l'effet de
l'humidit, le coefficient de rgression partielle de la matire organique est positif (0.7211). Cela tient
ce que dans l'chantillonnage, les prlvements les plus humides sont aussi ceux o le taux de
matire organique est le plus faible. Or, Bidonia ragit fortement (et positivement) l'humidit.
Il ragit aussi positivement une augmentation de la matire organique, mais pas de faon aussi forte
que vis--vis de l'humidit.
4
L'exemple de Bidonia expos plus haut devient ainsi:
Abondance Bidoniacr = 1.6397 Hum.cr + 0.9524 Mat.Org.cr
j =1
Les a'j sont les coefficients de rgression des variables centres rduites.
Donc, chaque lment a'jrjp reprsente la contribution de la variable xj l'explication de la variance
de y. Dans notre exemple, la contribution de l'humidit et celle de la matire organique s'lvent
Remarque: en rgression linaire simple (uniquement!), lorsque les deux variables sont centres-
rduites, le coefficient de rgression a (=la pente) est gal la corrlation r entre les deux variables x
et y.
4. R2 ajust
Une des proprits de la rgression multiple est que l'ajout de chaque variable explicative au modle
permet d'"expliquer" plus de variation, et cela mme si la nouvelle variable explicative est
compltement alatoire. Cela vient du fait que si l'on compare deux variables alatoires, les
fluctuations alatoires de chacune d'entre elles produisent de trs lgres corrlations: y et chacune
des xj ne sont pas strictement indpendantes (orthogonales) mme s'il n'y a aucune relation entre
2
elles. Par consquent, le R calcul comme ci-dessus comprend une composante dterministe, et une
composante alatoire d'autant plus leve que le nombre de variables explicatives est lev dans le
modle de rgression.
2 2
Pour contrer cet effet, et donc viter de surestimer le R , plusieurs auteurs ont propos un R ajust,
qui tient compte du nombre de variables explicatives du modle de rgression. La formule la plus
couramment utilise est la suivante:
( n 1)
Raj2 = 1
( n m 1)
(1 R )
2
5. Partitionnement de la variation
Dans la grande majorit des cas, les variables explicatives intgres une rgression multiple ne sont
2
pas linairement indpendantes entre elles (orthogonales). Le R total de la rgression multiple n'est
2
donc pas la somme des r d'une srie de rgressions simples impliquant tour tour toutes les
variables explicatives, mais une valeur infrieure cette somme:
Dans cet exemple, la barre grasse reprsente toute la variation de la variable dpendante. Comme les
variables x1 et x2 ne sont pas linairement indpendantes, une partie de leur pouvoir explicatif va
expliquer la mme part de variation de y. Cette fraction commune est appele fraction [b].
L'explication unique de la variable x1 est la fraction [a], et l'explication unique de la variable x2 est la
fraction [c].
La fraction [d] constitue la partie non explique, soit le rsidu de la rgression multiple.
On peut obtenir les valeurs de chacune de ces fractions de la manire suivante:
2
(1) Rgression linaire simple de y sur x1: le r vaut [a]+[b].
5
2
(2) Rgression linaire simple de y sur x2: le r vaut [b]+[c].
2
(3) Rgression linaire multiple de y sur x1 et x2: le R vaut [a]+[b]+[c].
2 2 2
tape intermdiaire: il faut maintenant ajuster les r et R ci-dessus l'aide de la formule du R
ajust . Ensuite:
(4) La valeur de [a]aj peut donc tre obtenue en soustrayant le rsultat de l'opration (2)aj de celui de
(3)aj.
(5) La valeur de [c]aj peut donc tre obtenue en soustrayant le rsultat de (1)aj de celui de (3)aj.
(6) La valeur de [b]aj s'obtient de diverses manires, p. ex. ([a]+[b])aj [a]aj, ou ([b]+[c])aj [c]aj.
(7) La fraction [d]aj (variation non explique) s'obtient en faisant 1 ([a]+[b]+[c])aj.
Remarque: on ne peut pas ajuster de modle de rgression sur la fraction [b], dont la valeur ne peut
tre obtenue que par soustraction.
Elle peut mme tre ngative s'il y a antagonisme entre les effets de certaines variables explicatives
(c'est le cas dans notre exemple de Bidonia montr plus haut). C'est pourquoi on parle ici de variation
et non de variance au sens strict.
Autre remarque: pour permettre la comparaison de variables explicatives qui ne sont pas toutes
mesures dans les mmes units, ou qui ont des intervalles de variation trs diffrents, on a
souvent recours au centrage-rduction des variables explicatives.
Dans ce cas-l, il n'est pas ncessaire de centrer-rduire la variable dpendante.
6. La corrlation partielle
Au contraire du coefficient de "corrlation multiple" voqu plus haut, on peut dfinir un coefficient de
corrlation partielle qui a le mme sens que le coefficient de corrlation r de Pearson ordinaire.
Un coefficient de corrlation partielle mesure la liaison entre deux variables lorsque l'influence d'une
troisime (ou de plusieurs autres) est garde constante sur les deux variables compares. On
rappellera cependant qu'une corrlation ne mesure que la liaison entre deux variables, sans se
proccuper de modles fonctionnels ou de capacit de prdiction ou de prvision.
Le calcul d'une corrlation partielle fait intervenir les corrlations ordinaires entre les paires de
variables considres. L'exemple ci-dessous vaut dans le cas o on a deux variables explicatives x1 et
x2
La formule dcrit le calcul de la corrlation partielle de y et x1 en tenant x2 constant:
ryx1 ryx2 rx1x2
ry , x1|x2 =
(1 r )(1 r )
2
yx2
2
x1x2
Ce coefficient se teste l'aide d'un F obissant sous H0 une loi de Fisher-Snedecor 1 et n-p
degrs de libert (rappel: p dsigne ici tous les paramtres de l'quation de rgression multiple:
coefficients de rgression plus ordonne l'origine).
2
Le carr du coefficient de corrlation partielle r y,x1|x2 ,x3... mesure la proportion de la variation de y
explique par x1 par rapport la variation non explique par x2, x3, etc. Cela correspond donc au
rapport des fractions de variation [a]/([a]+[d]) dans le cadre du partitionnement expliqu plus haut. Les
composantes de variation [b] et [c], lies l'autre ou aux autres variables explicatives, sont donc
absentes du calcul.
L'exemple de Bidonia et de sa relation avec l'humidit et la teneur en matire organique du sol est
assez parlant:
Un chercheur qui se contenterait d'une matrice de corrlations simples ( gauche) penserait que la
relation entre Bidonia et la teneur en Mat.Org. est ngative. Par contre, s'il prenait la prcaution de
calculer une matrice de corrlations partielles, il verrait que cette illusion est due l'effet masquant de
l'humidit dans l'chantillon. La corrlation partielle forte et positive entre Bidonia et la Mat.Org.
mesure la relation entre Bidonia et la partie de la variation de la matire organique qui n'est pas
explique par l'humidit.
6
7. Rgression pas pas
On rencontre parfois des situations dans lesquelles on dispose de trop de variables explicatives, soit
parce que le plan de recherche tait trop vague au dpart (on a mesur beaucoup de variables "au
cas o elles auraient un effet"), soit parce que le nombre d'observations (et donc de degrs de libert)
est trop faible par rapport au nombre de variables explicatives intressantes.
Une technique est parfois employe pour "faire le mnage" et slectionner un nombre rduit de
variables qui explique pourtant une quantit raisonnable de variation. Cette rgression, est dite "pas
pas" . Il en existe plusieurs variantes.
Cette mthode consiste construire un modle de rgression complet (intgrant toutes les variables
explicatives), et en retirer une par une les variables dont le F partiel est non significatif (en
commenant par celle qui explique le moins de variation). Inconvnient: une fois qu'une variable a t
retire, elle ne peut plus tre rintroduite dans le modle, mme si, la suite du retrait d'autres
variables, elle redevenait significative. Cette approche est nanmoins assez librale (elle a tendance
garder un nombre plus lev de variables dans le modle final que les autres approches ci-dessous).
Approche inverse de la prcdente: elle slectionne d'abord la variable explicative la plus corrle la
variable dpendante. Ensuite, elle slectionne, parmi celles qui restent, la variable explicative dont la
corrlation partielle est la plus leve (en gardant constantes la ou les variables dj retenues). Et
ainsi de suite tant qu'il reste des variables candidates dont le coefficient de corrlation partiel est
significatif.
Inconvnient: lorsqu'une variable est entre dans le modle, aucune procdure ne contrle si sa
corrlation partielle reste significative aprs l'ajout d'une ou de plusieurs autres variables. Cette
technique est en gnral plus conservatrice que la prcdente, ayant tendance slectionner un
modle plus restreint (moins de variables explicatives) que la slection rtrograde.
Cette procdure, la plus complte, consiste faire entrer les variables l'une aprs l'autre dans le
modle (selon leur corrlation partielle) par slection progressive et, chaque tape, vrifier si les
corrlations partielles de l'ensemble des variables dj introduites sont encore significatives (une
variable qui ne le serait plus serait rejete). Cette approche tente donc de neutraliser les
inconvnients des deux prcdentes en les appliquant alternativement au modle en construction.
Quelle que soit sa variante, la rgression pas pas prsente des dangers:
1. Lorsqu'on a fait entrer une variable donne dans le modle, elle conditionne la nature de la
variation qui reste expliquer. De ce fait, rien ne garantit qu'on a choisi au bout du compte la
combinaison de variables qui explique le plus de variation.
2. Le modle devient hautement instable en prsence de (multi) colinarit entre les variables
explicatives, ce qui veut dire que les paramtres estims par la mthode (les coefficients a, donc les
poids attribus aux variables retenues), et mme la liste des variables retenues elle-mme, peuvent
varier fortement si on change (mme trs peu) les donnes.
3. Il semble que quelle que soit la variante de slection pas--pas utilise, cette mthode est un peu
trop librale, c'est--dire qu'elle laisse souvent au moins une variable non significative dans le modle.
L'utilisation la plus recommande de la rgression pas pas se fait dans le cadre de la rgression
polynomiale.
7
8. Calcul des paramtres d'une rgression multiple
Principe:
On peut calculer les coefficients de rgression et l'ordonne l'origine d'une rgression multiple en
connaissant:
les coefficients de corrlation linaire simple de toutes les paires de variables entre elles (y compris
la variable dpendante): r12, r13...r1p, r23, etc...;
les carts-types de toutes les variables: s1, s2, s3...sp;
les moyennes de toutes les variables.
Remarque: dans cette notation la p-ime variable est la variable dpendante.
1. On calcule d'abord les coefficients de rgression centrs-rduits a1', a2', ... a'p-1 en rsolvant un
systme de p1 quations normales p 1 inconnues (p1 = nombre de variables explicatives).
2. On trouve les coefficients de rgression a1, a2, ... ap-1 pour les variables originales en multipliant
chaque coefficient centr-rduit par l'cart-type de la variable dpendante, et en divisant le rsultat
par l'cart-type de la variable explicative considre.
3. On trouve l'ordonne l'origine en posant la moyenne de la variable dpendante, et en lui
soustrayant chaque coefficient obtenu au point 2, multipli par la moyenne de la variable explicative
correspondante.
Formules:
Les formules ci-dessous sont donnes pour 3 variables explicatives.
1. Equations normales :
r1p = a1' + r12a2' + r13a3' (1)
r2p = r21a1' + a2' + r23a3' (2)
r3p = r31a1' + r32a2' + a3' (3)
Ce systme se rsoud par substitutions successives :
1e tape: a1' = r1p - r12a2' - r13a3' est plac dans les quations (2) et (3). On isole ensuite a2' ou a3' dans
l'une des quations.
Ds lors, on peut trouver l'une des valeurs, et, en remontant la filire, on trouve les deux autres.
Remarque: il existe une autre mthode pour calculer les coefficients de rgression multiple, base sur
le calcul matriciel.
On peut aussi trouver la contribution de chacune des variables explicatives l'explication de la
variance de la variable dpendante
Par exemple, pour la variable explicative x1: Contribution = a1'ryx1
2
Attention: cette contribution n'est pas gale au R partiel. Elle n'est pas non plus gale la fraction [a]
d'un partitionnement de variation si les variables explicatives sont (mme trs peu!) corrles entre
elles!
2
Le coefficient de dtermination multiple R de l'quation (=pourcentage de variance explique par
l'ensemble des variables explicatives) peut s'obtenir en faisant la somme des termes ci-dessus:
p 1
R 2 = a 'j rjp
j =1