Regressao Linear Multipla

Pós-Graduação em Agronomia - CPGA-Solos
Análise Multivariada Aplicada as Ciências Agrárias
Regressão linear múltipla
Carlos Alberto Alves Varella

Objetivo da disciplina
 Ensinar modelagem estatística de
fenômenos naturais aos alunos de pós-
graduação utilizando técnicas da
estatística multivariada.
Ementa da disciplina
 Regressão linear múltipla
 Regressão linear múltipla para dados repetidos
 Validação da predição
 Correlação múltipla
 Análise de componentes principais
 Análise discriminante de Fisher
 Análise de variância multivariada - MANOVA
 Análise de variáveis canônicas
Avaliações
 Uma Prova
 Trabalhos semanais
 Trabalho final: Cada aluno deverá
apresentar um seminário e um
trabalho escrito sobre aplicações de
técnicas da estatística multivariada em
sua tese.
Recursos computacionais
 SAS: recomendado para análises

estatísticas multivariadas por Revistas
de nível internacional.
Local para baixar arquivos da
disciplina pela Internet
 http://www.ufrrj.br/institutos/it/deng/varella/
multivariada.htm
Modelos Lineares
(revisão)
Universidade Federal Rural do Rio de Janeiro CPGA-CS

Modelos lineares
 Seja Y a variável que queremos
predizer a partir de um conjunto de
variáveis preditoras X1, X2, ..., Xp.
Então podemos escrever:
Y  f X 1 , X 2 , , X p , 
 Y representa a resposta;
 X1,X2,..., Xp são as variáveis estudadas;
 ε representa outro conjunto de variáveis não
consideradas no estudo;
Requisitos da função f 
 Deve prestar-se ao tratamento

matemático;
 Deve ser adequada para o conjunto de
dados em estudo;
 Deve ser simples ou pelo menos mais
simples dentre as concorrentes.
Condição para que um modelo seja linear
 Um modelo para as observações Y será
linear se:
(Y )  
 Vamos estudar o caso em que os erros são
normalmente distribuídos, independentes e
homocedásticos.
Y     ,  ~ N  ,  2

 Este modelo é definido como Modelo Linear de
Gauss-Markov-Normal.
A superfície de resposta
 É a superfície gerada pelos valores da
variável de resposta. O modelo linear para
uma única variável de resposta ‘Y’ com ‘p’
variáveis preditoras é:
Yi  0  1 X 1i   2 X 2i     p X pi  ei
i  1,2 , , n.
Yi = superfície de resposta
n = número de observações;
p = número de variáveis preditoras.
 O modelo linear é a chave do negócio, isto é,
tem inúmeras aplicações na estatística
multivariada.
Conseqüências da estimação
Duas situações são

encontradas na modelagem
1. A matriz X’X de variáveis preditoras
‘X’ é de posto coluna completo.
Neste caso o modelo é chamado de
posto completo ou modelo de
regressão. É o modelo que estamos
estudando;
2. A matriz X’X de variáveis preditoras
‘X’ é de posto coluna incompleto.
Neste caso o modelo é chamado de
posto incompleto é o modelo da
ANOVA (ANalysis Of VAriance)
Posto ou Rank de matrizes

 Número de linhas ou colunas linearmente
independentes de uma matriz.
 Em nosso caso, o posto é o número de
colunas linearmente independentes da matriz
X’X, sendo X a matriz dos valores das
variáveis preditoras ou “independentes”
 No programa computacional MATLAB o

comando rank faz uma estimativa do
posto de matrizes.
Condições para que a matriz X’X

seja de posto coluna completo
 O posto ou rank da matriz X’X deve ser
igual a ‘p+1’, ou seja:
posto X ' X   p  1
 p é o número de variáveis preditoras
estudas no modelo.
Condições para que a matriz

X’X tenha inversa (X’X)-1
 As matrizes que possuem inversa são
chamadas NÃO SINGULARES.
 Somente matrizes quadradas podem
ser não singulares. Contudo, nem toda
matriz quadrada é não singular;
Quando uma matriz quadrada é

singular?
 Seu determinante é nulo; det(X’X)
 Ao menos uma de suas raízes
características é nula. As raízes
características são os autovalores da
matriz; eig(X’X)
 Seu posto é menor que p; rank(X’X)
 Não é definida positiva ou negativa.
Matriz definida positiva (negativa)
 Quando todos os autovalores são

positivos (negativos).
Regressão Linear Múltipla
Introdução
 É uma técnica da estatística
multivariada utilizada para a predição
de valores de uma ou mais variáveis
de resposta (dependentes) a partir de
diversas variáveis preditoras ou
independentes.
 JOHNSON, R. A.; WICHERN, D. W.
Applied multivariate statistical
analysis. 5th ed. Upper Saddle River,
New Jersey: Prentice-Hall, 2002, 767
p.
Introdução (Cont.)
 Pode também ser utilizada para estudar o
efeito dos preditores sobre as variáveis de
resposta.
 Primeiro trabalho sobre o assunto:
Regression Towards Mediocrity in Heredity
Stature. Journal of the Anthropological
Institute, 15 (1885). 246-263.
 Mediocridade em função da estatura
hereditária
 Estatística UNIVARIADA. Segundo
JOHNSON & WICHERN (2002) nesse
artigo o autor não percebeu a importância
da técnica para análises multivariadas.
Modelagem da Regressão
Linear
Pressuposições da modelagem
 O modelo utilizado é o de Gauss-Markov-Normal
 Pressupõe que a resposta apresenta uma média.
Pressupõe ainda que essa média contem erros
provenientes de medições aleatórias e de outras
fontes não explicitadas pelo modelo.
 O erro, e conseqüentemente a resposta, são
tratados como variáveis aleatórias, que o
comportamento é caracterizado assumindo-se
uma distribuição NORMAL para os dados
experimentais.
Estimadores dos parâmetros pelo
método dos mínimos quadrados
 Este método consiste em se determinar o
estimador que minimiza a soma do
quadrado das diferenças entre valores
observados e valores preditos pelo modelo.
Y  X   é o modelo linear
Queremos determinar ˆ o estimador de 

Estimadores dos parâmetros pelo método dos mínimos quadrados
O erro da modelagem
 O erro do modelo na forma matricial é:
  Y  X
e1  Y1  1 X 11 X 21  X p 1  0 

e  Y     
 1 X 12 X 22  X p 2   1 
    ,Y    , X  
2 2
 , 
       
       
en  Yn  1 X 1n X 2 n  X pn    p 
 O problema consiste em se ajustar um

modelo de regressão.
Modelo de regressão
Ŷi  ˆ 0  ˆ 1 X 1i  ˆ 2 X 2i    ˆ p X pi , i  1,2, , n.
 O estimador de beta é chamado de beta

chapéu e pode ser determinado por outros
métodos de minimização do erro, como por
exemplo o método da máxima
verossimilhança.
 ˆ 0 
 
 ˆ 
ˆ   1 
 
 ˆ p 
 
O método dos mínimos quadrados

 Sabendo que o erro do modelo é:
  Y  X
 Então o somatório ao quadrado das
diferenças dos erros pode ser
representado na forma matricial por:
Z  Y  X
2
 De acordo com o método temos que

minimizar Z
Minimização da função Z
Z  Y  X
2
Z  Y  X  Y  X 
'
Z  Y '   ' X '  Y  X 

Z  Y ' Y  Y ' X   ' X ' Y   ' X ' X
 As matrizes Y’Xβ e β’X’Y uma é a
transposta da outra e são de
dimensão 1x1, então as matrizes são
iguais.
Diferenciando a função Z
Z  Y ' Y  2  ' X ' Y   ' X ' X
dZ  2d' X ' Y  d' X ' X  ' X ' X d 
 As matrizes (dβ’)X’Xβ e β’X’X(dβ) uma é a

transposta da outra e são de dimensão 1x1,
então as matrizes são iguais.
dZ  2d ' X ' Y  2d ' X ' X

dZ  2d '    X ' X  X ' Y 
Fazendo com que a diferencial

de Z seja igual a zero
dZ  0
 Para que a diferencial de Z seja zero
2d'   X ' X  X ' Y   0
 Para que dZ seja zero, (X’Xβ-X’Y)

deve ser igual a zero.
X ' Xˆ  X ' Y  0
O beta chapéu
 Assim é chamado o vetor estimador
dos parâmetros de beta.
 O vetor beta chapéu é determinado
resolvendo-se o sistema de equações
normais:
X ' Xˆ  X ' Y

Solução do sistema de equações normais
X ' Xˆ  X ' Y

 Multiplicando-se ambos os membros do sistema de
equações por 1
X' X 
 Temos: X' X  1
X ' X   X ' X  X ' Y
ˆ 1
  X' X  X' Y
ˆ 1
 O modelo de regressão pressupõe um beta chapéu

único não tendencioso (blue). Mas isso precisa de
ser testado.
Regressão Linear Múltipla
 O modelo que estamos estudando é o
Linear de Gauss-Markov-Normal.
Y  X   ,  ~ N  ,  2

  Y  X este é o erro do modelo
A média do modelo linear

 Y   X é a esperança matemática
da população, também conhecido como
média ' '.
 Quando trabalhos com dados
experimentais assumimos que o estimador
da média ‘x barra’ pode representar a
média ‘μ’ da população. Mas depois
precisamos testar se isso é verdadeiro.
Os valores preditos pelo modelo

Ŷ  Xˆ são os valores preditos pelo
modelo, isto é, valores obtidos para Y
em função de uma combinação linear
de valores de variáveis preditoras X e do
estimador de  , o ˆ .
 Quando trabalhos com dados experimentais

determinamos o beta chapéu a partir de
amostras da população. Por isso é que
precisamos testar se esse beta é mesmo
estimador não tendencioso.
O erro do modelo de regressão

ˆ  Y  Ŷ  Y  Xˆ é o erro do modelo
ajustado,também chamado de resíduo
ou desvio.
 Este é o erro que calculamos quando
trabalhamos com dados experimentais.
 É um vetor que descreve a distribuição
dos dados experimentais. Muitas
inferências sobre nossos dados podem
ser feitas analisando-se esse vetor.
O que queremos modelar

Y  Ŷ  ˆ
Y : é o fenômeno que queremos modelar;
Ŷ : é a modelagem do fenômeno estudado;
ˆ : é o erro na modelagem do fenômeno.
 Quando trabalhos com dados

experimentais assumimos que nossas
observações são capazes de modelar
o fenômeno, e depois testamos.
Prática 1
 Na tabela abaixo apresentamos os valores de uma
amostra de 6 observações das variáveis Yi, X1i e X2i.
Yi X1i X2i
1,5 0 0
6,5 1 2
10,0 1 4
11,0 2 2
11,5 2 4
16,5 3 6
Fonte: Apostila de INF 664 Modelos Lineares. Adair José Regazzi,UFV,
Viçosa, 2002.
Prática 1
Montar do sistema de equações normais

 Quando a regressão é com intercepto adicionados
uma coluna de uns na matriz de dados.
X com intercepto X sem intercepto Resposta Y

1 0 0 0 0  1,5 
1 1 2 1 2  6 ,5 
   
1 1 4 1 4 10 ,0 
X   X   Y  
1 2 2 2 2 11,0 
1 2 4 2 4 11,5 
     
1 3 6  3 6  16 ,5 
Prática 1
Obtenção da matriz X’X

 Esta matriz é obtida multiplicando-se a
transposta da matriz X por ela mesma.
1 0 0
1 1 2 
1 1 1 1 1 1  6 9 18 
1 4 
X ' X  0 1 1 2 2 3  
1
 
  9 19 36 
0 2 4 2 4 6  1 2 2
18 36 76 
1 2 4
 
1 3 6 
Prática 1
Obtenção da matriz X’Y

 Esta matriz é obtida multiplicando-se a
transposta da matriz X pelo vetor Y.
1,5 
6 ,5 
1 1 1 1 1 1   57 
10 ,0  
X ' Y  0 1 1 2 2 3   
  111 

 11,0  220 
0 2 4 2 4 6 
11,5   
 
16 ,5
Prática 1
Sistema de equações normais

 Estimativa de beta pelos método dos
mínimos quadrados
 B̂0  6 9 18  1 57  2 
    11   3 
 1 
B̂  9 19 36     
  18 36 76  220  1 
 B̂2   
ˆ 0 : é o intercepto da equação de regressão;

1 e  2 : são os regressore s.
Yi  2  3X 1i  1 X 2i : é a equação de regressão
Programa na linguagem MATLAB
Exemplos de comandos do Programa
computacional MATLAB
Vetor de parâmetros
Resultados obtidos no Programa
computacional MATLAB
Posto da matriz
Determinante da matriz
Autovalores da matriz
Análise de Variância da
Regressão Linear
Análise de variância da
regressão linear
 A análise de variância da regressão é a
estatística utilizada para testar os
regressores. A hipótese nula é que todos os
regressores são iguais e zero. Caso isso não
ocorra o resultado da análise é significativo,
isto é, rejeita-se a hipótese nula.
 A análise de variância não testa o intercepto.
H 0 : 1   2     p  0
Algumas Pressuposições do
Modelo
 Beta chapéu é um estimador não
tendencioso:

 ˆ  
 A esperança do erro do modelo é zero e a
esperança da variância dos erros é
constante:
     e V    I 2
Variâncias e Covariâncias do Vetor
Estimador dos Parâmetros
 O vetor estimador dos parâmetros é beta
chapéu:
 A covariância deste vetor é:
ˆ ˆ ˆ
Cov (  )  [(    ) (    ) ]  (X' X) 
' 1 2
ˆ
Cov(  )  ( X ' X ) ˆ
1 2 ˆ
Cov(  )  ( X ' X ) s
1 2
 s2 é o Quadrado médio do resíduo.

Soma de Quadrado do Resíduo
 Soma dos quadrados dos desvios entre os
valores observados e os estimados pela
equação de regressão.
 
n 2
SQ Re s   Yi  Ŷi
i 1
 Escrito na forma matricial é:
SQ Re s  Y ' Y  ˆ ' X ' Y

Soma de Quadrado Total
2
 n

n


 Yi 

SQTotal   Yi 
2 i 1
i 1 n
 Matricialmente podemos escrever:
SQTotal  Y' Y  c 1
c  Y ' u u' Y
n
 u é um vetor de 1’s de dimensão n x 1.
Soma de Quadrado da Regressão
 
n 2
SQ Re g   Ŷi  Y
i 1
 Na forma matricial escrevemos:
ˆ 1
SQ Re g   ' X ' Y  Y ' u u' Y
n
Esquema da análise de variância
da regressão
Causa de
GL SQ QM F
variação
Regressão p ˆ ' X ' Y  c SQReg/p QM Re g
QM Re s
Resíduo n-p-1 Y ' Y  ˆ ' X ' Y SQRes/n-p-1
Total n-1 Y' Y  c

 n =número de observações;
 p =número de variáveis
 Análise para dados não repetidos
Teste F dos parâmetros
 F é utilizado para testar a hipótese:
H 0 : 1   2     p  0
 É o mesmo que testar se:
1   2     p  0
 Se os erros ei têm distribuição normal e se o
quociente
QM Re g
F
QM Re s
 tem distribuição F (central) com p e n-p-1
graus de liberdade.
Quando o teste F é significativo?
 Quando F é maior que o tabelado;
 Quando rejeitamos a hipótese nula;
 Contudo não é possível concluir quais
parâmetros são significativos;
 Exceto para o caso particular de p=1.
Teste t dos parâmetros
 Utilizado para testar hipótese a respeito dos
parâmetros da regressão .
 A estatística utilizada é:
ˆ i  i
t , associado a (n - p - 1) gl.
s( ˆ i )
 O teste é significativo quando t é maior que o

valor tabelado.
Hipóteses a Respeito dos Parâmetros
no Modelo Linear
 A hipótese de nulidade pode ser construída a
partir de m combinações lineares independentes
H0 : c'   
 c’ é uma matriz com m linhas e p+1 colunas
c'  [c 0 c1 c 2  c p ]
 θ é um vetor m-dimensional de constantes
conhecidas.
1 
 
  2
 
 
 m 
Estatística F usada para testar a
hipótese H0:c’=θ
 Estatística de Wald
Para teste F simultâneo dos parâmetros
ˆ
(C'    )' [C' (X' X) C] (C' ˆ   )
1 1
F(H 0 ) 
mˆ 2
 Sendo verdadeira a hipótese de nulidade a

estatística F(H0) tem distribuição F com m
e n-posto[X]=n-p-1 graus de liberdade.
Exemplo: testar a hipótese
H0:1=2=0
 0 
0 1 0   0
H 0 : c'        1      H 0 : 1  0 e  2  0
0 0 1   0
 2 
 Posto [c’]=m=2
 2
0 1 0   3 ˆ 3 0 3
ˆ
c'     3     c'            
0 0 1 1  1 
 
1  0 1 
H0:1=2=0
1 1 132  54
c' ( x ' x ) c 
240  54 33
33 54 
 
1 1
c' ( x ' x ) c  
54
6 6 
132 
 6 6
33 54 
3
3 1  6 6 
1   125,50
54 132   
 6 6
H0:1=2=0
y' y  ˆ ' x ' y 3,00
ˆ  s  QMR 
2 2
  1,00
n  p 1 6  2 1
125,50
F(H 0 )   62,75 F1% (2 ; 3)  30,82
**
2  (1,00)
 Rejeita-se a hipótese H0:1=2=0

Estatística t usada para testar a
hipótese H0:c’=θ
 Podemos usar t para testar hipóteses a
respeito de combinações lineares dos
parâmetros
c' ˆ  c' 
t , associado a (n - p - 1) gl.
Vˆ (c' ˆ )
n  p  1  n  posto (X)  GLR

Teste Simultâneo dos
Parâmetros
 Testa uma única hipótese;
 Testa um vetor de betas;
 Não é o mesmo que testar os betas
separadamente.
 Isto é, testar
H0 : 1  0 e H1 :  2  0
 Não é o mesmo que testar
1  0
H 0 : 1   2  0 ou H 0 :     
 2  0
Programa SAS (reg_cap1.sas)
proc reg data=sas.ind_v9;
/*ndvi rnir gnir arvi savi gndvi*/
model N = ndvi rnir gnir arvi savi gndvi;
output out=p p=yhat r=resid;
print p;
run;
quit;
proc reg;
model yhat=N;
test N=1, intercept=0;
run;
plot yhat*N;
run;
quit;
Output do SAS – Análise de variância do
modelo de regressão
The SAS System 23:15 Thursday, October 7, 2009 5
The REG Procedure

Model: MODEL1
Dependent Variable: N N
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 6 20710 3451.59735 4.39 0.0293

Error 8 6290.41589 786.30199
Corrected Total 14 27000
Root MSE 28.04108 R-Square 0.7670

Dependent Mean 60.00000 Adj R-Sq 0.5923
Coeff Var 46.73513
Teste t dos beta-chapéu do modelo de
regressão
Parameter Estimates
Parameter Standard
Variable Label DF Estimate Error t Value Pr > |t|
Intercept Intercept 1 1835.59747 1483.61562 1.24 0.2511

NDVI NDVI 1 -15182 19298 -0.79 0.4541
RNIR RNIR 1 -1698.66240 3814.27214 -0.45 0.6679
GNIR GNIR 1 -413.90081 2665.47402 -0.16 0.8804
ARVI ARVI 1 546.46984 283.26026 1.93 0.0898
SAVI SAVI 1 8350.10834 13196 0.63 0.5445
GNDVI GNDVI 1 594.04446 2908.94995 0.20 0.8433
Níveis de N preditos pelo modelo
Dependent Predicted
Obs Variable Value Residual
1 0 -16.4019 16.4019
2 0 -3.4152 3.4152
3 0 19.8021 -19.8021
4 30.0000 30.9970 -0.9970
5 30.0000 68.5033 -38.5033
6 30.0000 47.8805 -17.8805
7 60.0000 67.1267 -7.1267
8 60.0000 99.6748 -39.6748
9 60.0000 61.1820 -1.1820
10 90.0000 68.4044 21.5956
11 90.0000 65.1605 24.8395
12 90.0000 78.0660 11.9340
13 120.0000 97.4010 22.5990
14 120.0000 116.5953 3.4047
15 120.0000 99.0235 20.9765
Sum of Residuals -3.6067E-11

Sum of Squared Residuals 6290.41589
Predicted Residual SS (PRESS) 28335
Gráfico: Predito x Observado
Conclusão
 O modelo de regressão multivariado
proposto não pode ser utilizado para
predizer níveis de N aplicados no solo.
Exemplo de regressão linear múltipla
com duas vaiáveis independentes
Y X1 X2
1,5 0 0
6,5 1 2
10 1 4
11 2 2
11,5 2 4
16,5 3 6
Programa SAS
Resumo do Stepwise
Valores preditos
Regressão entre predito e
observado
Validação da predição

Regressao Linear Multipla

Enviado por

Direitos autorais:

Formatos disponíveis

Regressao Linear Multipla

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressao Linear Multipla

Enviado por

Direitos autorais:

Formatos disponíveis

Pós-Graduação em Agronomia - CPGA-Solos

Análise Multivariada Aplicada as Ciências Agrárias

Regressão linear múltipla

Carlos Alberto Alves Varella

 SAS: recomendado para análises

Universidade Federal Rural do Rio de Janeiro CPGA-CS

 Deve prestar-se ao tratamento

Duas situações são

Posto ou Rank de matrizes

 No programa computacional MATLAB o

Condições para que a matriz X’X

Condições para que a matriz

Quando uma matriz quadrada é

Matriz definida positiva (negativa)

 Quando todos os autovalores são

Queremos determinar ˆ o estimador de 

e1  Y1  1 X 11 X 21  X p 1  0 

 O problema consiste em se ajustar um

 O estimador de beta é chamado de beta

O método dos mínimos quadrados

 De acordo com o método temos que

Z  Y '   ' X '  Y  X 

dZ  2d' X ' Y  d' X ' X  ' X ' X d 

 As matrizes (dβ’)X’Xβ e β’X’X(dβ) uma é a

dZ  2d ' X ' Y  2d ' X ' X

Fazendo com que a diferencial

2d'   X ' X  X ' Y   0

 Para que dZ seja zero, (X’Xβ-X’Y)

X ' Xˆ  X ' Y

Solução do sistema de equações normais

X ' Xˆ  X ' Y

 O modelo de regressão pressupõe um beta chapéu

A média do modelo linear

Os valores preditos pelo modelo

 Quando trabalhos com dados experimentais

O erro do modelo de regressão

O que queremos modelar

 Quando trabalhos com dados

Montar do sistema de equações normais

X com intercepto X sem intercepto Resposta Y

Obtenção da matriz X’X

Obtenção da matriz X’Y

Sistema de equações normais

ˆ 0 : é o intercepto da equação de regressão;

 s2 é o Quadrado médio do resíduo.

 Escrito na forma matricial é:

SQ Re s  Y ' Y  ˆ ' X ' Y

 Matricialmente podemos escrever:

 Na forma matricial escrevemos:

Total n-1 Y' Y  c

 O teste é significativo quando t é maior que o

 Sendo verdadeira a hipótese de nulidade a

 Rejeita-se a hipótese H0:1=2=0

n  p  1  n  posto (X)  GLR

The REG Procedure

Model 6 20710 3451.59735 4.39 0.0293

Root MSE 28.04108 R-Square 0.7670

Intercept Intercept 1 1835.59747 1483.61562 1.24 0.2511

Sum of Residuals -3.6067E-11