Clarice
Clarice
Clarice
Extensões
18 de outubro de 2010
ii Gauss M. Cordeiro & Clarice G.B. Demétrio
Prefácio
iii
iv Gauss M. Cordeiro & Clarice G.B. Demétrio
2.4.7 Modelo secante hiperbólico generalizado . . . . . . . . . . . . 56
2.4.8 Modelos definidos por transformações . . . . . . . . . . . . . . 57
2.5 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.1 Formulação de modelos . . . . . . . . . . . . . . . . . . . . . . 58
2.5.2 Ajuste dos modelos . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.3 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Estimação 69
3.1 Estatı́sticas suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2 O algoritmo de estimação . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3 Estimação em modelos especiais . . . . . . . . . . . . . . . . . . . . . 77
3.4 Resultados adicionais na estimação . . . . . . . . . . . . . . . . . . . 79
3.5 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.6 Considerações sobre a função de verossimilhança . . . . . . . . . . . . 85
3.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4 Métodos de Inferência 93
4.1 Distribuição dos estimadores dos parâmetros . . . . . . . . . . . . . . 93
4.2 Função desvio e estatı́stica de Pearson generalizada . . . . . . . . . . 99
4.3 Análise do desvio e seleção de modelos . . . . . . . . . . . . . . . . . 109
4.4 Estimação do parâmetro de dispersão . . . . . . . . . . . . . . . . . . 113
4.5 Comparação dos três métodos de estimação do parâmetro de dispersão
no modelo gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.6 Testes de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.6.1 Teste de uma hipótese nula simples . . . . . . . . . . . . . . . 117
4.6.2 Teste de uma hipótese nula composta . . . . . . . . . . . . . . 119
4.7 Regiões de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.8 Seleção de variáveis explanatórias . . . . . . . . . . . . . . . . . . . . 123
4.9 Método das variáveis explanatórias adicionais . . . . . . . . . . . . . 125
Modelos Lineares Generalizados v
4.10 Seleção da função de ligação . . . . . . . . . . . . . . . . . . . . . . . 127
4.11 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
Famı́lia exponencial de
distribuições
1.1 Introdução
1
2 Gauss M. Cordeiro & Clarice G.B. Demétrio
em que as funções η(θ), b(θ), t(x) e h(x) têm valores em subconjuntos dos reais. As
funções η(θ), b(θ) e t(x) não são únicas. Por exemplo, η(θ) pode ser multiplicada
por uma constante k e t(x) pode ser dividida pela mesma constante.
Várias distribuições importantes podem ser expressas na forma (1.1), tais
como: Poisson, binomial, Rayleigh, normal, gama e normal inversa (as três últimas
com a suposição de que um dos parâmetros é conhecido). Cordeiro et al. (1995)
apresentam 24 distribuições na forma (1.1). O suporte da famı́lia exponencial (1.1),
isto é, {x; f (x; θ) > 0}, não pode depender de θ. Assim, a distribuição uniforme
em (0, θ) não é um modelo da famı́lia exponencial. Pelo teorema da fatoração de
Neyman-Fisher, a estatı́stica t(X) é suficiente para θ.
É fácil comprovar se uma distribuição pertence, ou não, à famı́lia exponen-
cial (1.1), como é demonstrado nos três exemplos que se seguem.
Exemplo 1.2: A distribuição binomial B(m, θ), com 0 < θ < 1 e m, o número
conhecido de ensaios independentes, é usada para análise de dados na forma de
proporções e tem função de probabilidade
( ) ( ) [ ( ) ]
m x m θ
f (x; θ) = θ (1 − θ) m−x
= exp x log + m log(1 − θ)
x x 1−θ
Modelos Lineares Generalizados 3
( )
m
com η(θ) = log[θ/(1 − θ)], b(θ) = −m log(1 − θ), t(x) = x e h(x) = , sendo,
x
portanto, um membro da famı́lia exponencial (1.1).
Convém salientar que se ϕ não for conhecido, a famı́lia (1.5) pode, ou não,
pertencer à famı́lia exponencial biparamétrica (Seção 1.6). Para (1.5) pertencer à
famı́lia exponencial biparamétrica quando ϕ é desconhecido, a função c(y, ϕ) deve
ser decomposta, segundo Cordeiro e McCullagh (1991), como c(y, ϕ) = ϕ−1 d(y) +
d1 (y) + d2 (ϕ). Esse é o caso das distribuições normal, gama e normal inversa.
1 ( πy )
f (y; θ) = exp[θy + log(cos θ)] cosh , y ∈ R, θ > 0. (1.6)
2 2
Tem-se, então,
[ ]
(y − µ)2 1
f (y; µ, σ ) = exp −
2
− log(2πσ )
2
2σ 2 2
[ ( 2
) ]
1 µ 1 y2
= exp 2 yµ − − log(2πσ ) − 2 ,
2
σ 2 2 2σ
Tem-se, então,
[ ( ) ]
m
f (y; π) = exp log + y log(π) + (m − y) log(1 − π)
y
[ ( ) ( )]
π m
= exp y log + m log(1 − π) + log ,
1−π y
Prova: A prova será feita apenas para o caso de variáveis aleatórias contı́nuas. No
caso discreto, basta substituir a integral pelo somatório. Sabe-se que
∫
f (y; θ, ϕ)dy = 1,
e, portanto, ∫
{ }
exp ϕ−1 [θy − b(θ)] + c(y, ϕ) dy = 1,
obtendo-se
∫
[ ] [ ]
exp ϕ−1 θy + c(y, ϕ) dy = exp ϕ−1 b(θ) . (1.8)
Logo,
∫
( tY
)
M (t; θ, ϕ) = E e = exp(ty)f (y)dy
∫
{ }
= exp ϕ−1 [(ϕt + θ)y − b(θ)] + c(y, ϕ) dy
∫
1 [ −1 ]
= exp ϕ (ϕt + θ)y + c(y, ϕ) dy
exp [ϕ−1 b(θ)]
e, usando-se a equação (1.8), tem-se
{ }
M (t; θ, ϕ) = exp ϕ−1 [b(ϕt + θ) − b(θ)] .
em que b(r) (·) indica a derivada de r-ésima ordem de b(·) em relação a t. Para t = 0,
obtém-se o r-ésimo cumulante da famı́lia (1.5) como
e, assim,
Então,
Var(Y ) = ϕ b′′ (θ).
∫∞
em que B(a, b) = 0
xa−1 (1 − x)b−1 dx é a função beta completa, tem-se que
t(y) = log[y/(1 − y)], θ = µ e Var(Y ) = ϕµ(1 − µ)/(1 + ϕ), obtendo-se uma função
de variância do mesmo tipo que a do modelo binomial.
tem-se que t(y) = log(y), θ = µ e Var(Y ) = µ que é do mesmo tipo que a função de
variância do modelo de Poisson.
em que t = T (y) e h(y) não dependem de θ. Esse resultado é valido para os casos
discreto e contı́nuo.
Seja Y1 , . . . , Yn uma amostra aleatória (a.a.) de uma distribuição que per-
tence à famı́lia (1.5). A distribuição conjunta de Y1 , . . . , Yn é expressa por
∏
n ∏
n
{ }
f (y; θ, ϕ) = f (yi ; θ, ϕ) = exp ϕ−1 [yi θ − b(θ)] + c(yi , ϕ)
i=1
{ [ i=1
]} [ ]
∑
n ∑
n
= exp ϕ−1 θ yi − n b(θ) exp c(yi , ϕ) .
i=1 i=1
sendo que g(t, θ) depende de θ e dos y’s apenas por meio de t e h(y1 , . . . , yn ) independe
de θ.
Esse fato revela que, se uma distribuição pertence à famı́lia exponencial
uniparamétrica, então, existe uma estatı́stica suficiente. Na realidade, usando-se o
Modelos Lineares Generalizados 13
∑
n
Teorema de Lehmann-Scheffé (Mendenhall et al., 1981) mostra-se que T = Yi é
i=1
uma estatı́stica suficiente minimal.
n!
f (x; π) = π x1 . . . πkxk ,
x1 ! . . . x k ! 1
∑
k ∑
k
em que xi = n e πi = 1. Essa distribuição pertence, obviamente, à famı́lia
i=1 i=1
exponencial canônica (1.12) com parâmetro canônico θ = [log(π1 ), . . . , log(πk )]T e
∑
k
T
estatı́stica canônica T = (X1 , . . . , Xk ) . Entretanto, devido à restrição πi =
i=1
1, a representação mı́nima da famı́lia exponencial é obtida considerando θ =
[log(π1 /πk ), . . . , log(πk−1 /πk )]T e t = (x1 , . . . , xk−1 )T , ambos vetores de dimensão
k − 1, resultando na famı́lia exponencial multiparamétrica de dimensão k − 1
[ k−1 ]
n! ∑
f (x; θ) = exp θi xi − b(θ) , (1.13)
x1 ! . . . xk ! i=1
( )
∑
k−1
com θi = log(πi /πk ), i = 1, . . . , k − 1, e b(θ) = n log 1 + θi
e .
i=1
∂b(θ) ∂ 2 b(θ)
E(T) = , Cov(T) = . (1.14)
∂θ ∂θ∂θ T
As expressões (1.14) generalizam (1.3). Nas equações (1.14), o vetor
∂b(θ)/∂θ de dimensão k tem um componente tı́pico E[Ti (X)] = ∂b(θ)/∂θi e a
matriz ∂ 2 b(θ)/∂θ∂θ T de ordem k tem como elemento tı́pico Cov(Ti (X), Tj (X)) =
∂ 2 b(θ)/∂θi ∂θj . Assim, os valores esperados e as covariâncias das estatı́sticas
suficientes do modelo (1.12) são facilmente obtidos por simples diferenciação. A
demonstração das equações (1.14) é proposta como Exercı́cio 19.
Modelos Lineares Generalizados 15
Exemplo 1.11 (cont.): Para o modelo multinominal (1.13), usando as equações
(1.14), têm-se
( )
∂ ∑
k−1
E(Xi ) = n log 1 + eθi
∂θi i=1
neθi n ππki
= ∑k−1 = ∑k−1 πi
= nπi
1+ i=1 eθi 1+ i=1 πk
e para i ̸= j
( )
∂2 ∑
k−1
Cov(Xi , Xj ) = n log 1 + eθi
∂θi ∂θj i=1
−neθi eθj
= ( ∑ )2 = −nπi πj
1 + k−1
i=1 e θi
e para i = j
( )
∂2 ∑
k−1
Var(Xi ) = n 2 log 1 + eθi
∂θi i=1
= nπi (1 − πi ).
diferenciação,
√ √
α β
E(X) = , E(X −1 ) = α−1 +
β α
e
α1/2 β −3/2 −(αβ)−1/2
Cov(X, X −1 ) = .
−1/2 −2 −3/2 1/2
−(αβ) 2α +α β
16 Gauss M. Cordeiro & Clarice G.B. Demétrio
1.7 Exercı́cios
1. Verifique se as distribuições que se seguem pertencem à famı́lia (1.5). Obtenha
φ(t), M (t), E(Y ), Var(Y ) e V(µ).
a) Poisson: Y ∼ P(µ), µ > 0
e−µ µy
f (y; µ) = , y = 0, 1, 2, . . . ;
y!
Γ(k + y) µy k k
f (y; µ, k) = , y = 0, 1, 2, . . . ;
Γ(k)y! (µ + k)k+y
2. Seja X uma v.a. com distribuição gama G(ν) de um parâmetro ν > 0, com f.d.p.
xν−1 e−x
f (x; ν) = , x > 0.
Γ(ν)
X
Sendo E(X) = ν, mostre que usando-se a transformação Y = µ, obtém-se a f.d.p.
ν
usada no item c) do Exercı́cio 1.
3. Seja Y uma v.a. com distribuição de Poisson truncada (Ridout e Demétrio, 1992)
com parâmetro λ > 0, isto é, com função de probabilidade expressa por
e−λ λy λy
f (y; λ) = = , y = 1, 2, . . .
y!(1 − e−λ ) y!(eλ − 1)
Mostre que:
a) essa distribuição é um membro da famı́lia exponencial na forma canônica;
Modelos Lineares Generalizados 17
λ
b) E(Y ) = µ = ;
1 − e−λ
( )
λ λe−λ
c) Var(Y ) = 1− = µ(1 + λ − µ);
1 − e−λ 1 − e−λ
exp (λet ) − 1
d) M (t) = .
eλ − 1
4. Seja Y uma v.a. com distribuição binomial truncada (Vieira et al., 2000) com
probabilidade de sucesso 0 < π < 1 e com função de probabilidade expressa por
(m)
y
π y (1 − π)(m−y)
f (y; π) = , y = 1, . . . , m.
1 − (1 − π)m
Mostre que:
a) essa distribuição é um membro da famı́lia exponencial na forma canônica;
mπ
b) E(Y ) = µ = ;
1 − (1 − π)m
5. De acordo com Smyth (1989), uma distribuição contı́nua pertence à famı́lia ex-
ponencial se sua f.d.p. está expressa na forma
{ }
w
f (y; θ, ϕ) = exp [yθ − b(θ)] + c(y, ϕ) , (1.15)
ϕ
sendo g(·), s(·) e t(·) funções conhecidas e, nesse caso, g ′ (·) deve ser a inversa de
b′ (·) tal que θ = g ′ (µ). Mostre que isso ocorre para as distribuições normal, normal
18 Gauss M. Cordeiro & Clarice G.B. Demétrio
inversa e gama.
6. Seja Y | P ∼ B(m, P ) e P ∼ Beta(α, β), α > 0, β > 0, 0 < p < 1, isto é,
( )
m y pα−1 (1 − p)β−1
f (y | p) = p (1 − p)m−y e f (p) = ,
y B(α, β)
Γ(α)Γ(β)
sendo B(α, β) = (Hinde e Demétrio, 1998a). Mostre que:
Γ(α + β)
a) incondicionalmente, Y tem distribuição beta-binomial com f.d.p. expressa por
( )
m B(α + y, m + β − y)
f (y) = ;
y B(α, β)
α
b) E(Y ) = m = mπ e Var(Y ) = mπ(1 − π)[1 + ρ(m − 1)], sendo ρ =
α+β
1
;
α+β+1
c) a distribuição beta-binomial não pertence à famı́lia (1.5).
e−zi ziyi
P(Yi = yi | Zi = zi ) = , yi = 0, 1, 2, . . .
yi !
Então, se:
10. Uma distribuição alternativa para explicar o excesso de zeros em dados na forma
de contagens é a distribuição binomial negativa inflacionada de zeros (Ridout et al.,
1998), com função de probabilidade expressa por
λ1−c
−
ω + (1 − ω) (1 + αλc ) α , y = 0
( )
P(Y = y) = λ1−c
Γ y+ λ1−c ( )−y
α − λ−c
(1 − ω) ( 1−c ) (1 + αλ ) α
c
1+ , y = 1, 2, . . .
λ α
y!Γ
α
20 Gauss M. Cordeiro & Clarice G.B. Demétrio
Mostre que E(Y ) = (1 − ω)λ e Var(Y ) = (1 − ω)λ(1 + ωλ + αλc ).
12. Mostre que as distribuições normal, gama, normal inversa e beta pertencem
à famı́lia exponencial canônica biparamétrica (1.12) com k = 2 e identifique t1 (x),
t2 (x), h(x) e b(θ).
13. No Exercı́cio 12, use as equações (1.14) para calcular E(T) e Cov(T), sendo
T = [T1 (x), T2 (x)]T .
14. Usando as equações (1.14), obtenha E[T (X)] e Var[T (X)] para as 24 distribuições
apresentadas por Cordeiro et al. (1995) na famı́lia exponencial uniparamétrica (1.1).
16. Seja f (x; θ) = h(x) exp[g(x; θ)] uma distribuição uniparamétrica arbitrária.
Demonstre que uma condição necessária para ela não pertencer à famı́lia expo-
nencial (1.1) é que, dados quatro pontos amostrais x1 , x2 , x3 e x4 , o quociente
g(x1 , θ) − g(x2 , θ)
seja uma função que depende de θ.
g(x3 , θ) − g(x4 , θ)
22. Obtenha uma expressão geral para o momento central de ordem r da famı́lia de
distribuições (1.5) a partir da expressão geral (1.10) dos cumulantes.
23. Seja uma distribuição na famı́lia exponencial natural com f.d.p. (y > 0)
e média µ = τ (θ). Mostre que g(y; θ) = yf (y; θ)/τ (θ) é uma nova f.d.p. e calcule
suas funções geratrizes de momentos e de cumulantes.
ρy
f (y; ρ) = −
y log(1 − ρ)
22 Gauss M. Cordeiro & Clarice G.B. Demétrio
para y = 1, 2, . . . e 0 < ρ < 1. Mostre que essa distribuição pertence à famı́lia
exponencial e que
ρ ρ[1 − b(ρ)
ρ
]
E(Y ) = e Var(Y ) = ,
b(ρ)(1 − ρ) b(ρ)(1 − ρ)2
23
24 Gauss M. Cordeiro & Clarice G.B. Demétrio
iii) a ligação entre os componentes aleatório e sistemático é feita por meio de uma
função adequada como, por exemplo, logarı́tmica para os modelos log-lineares,
denominada função de ligação.
Y = µ + ϵ,
(a) modelo clássico de regressão múltipla (Legendre, Gauss, inı́cio do século XIX)
e modelo de análise de variância para experimentos planejados (Fisher, 1920 a
1935) com o erro aleatório tendo distribuição normal;
(c) modelo probito (Bliss, 1935) para o estudo de proporções, envolvendo a dis-
tribuição binomial;
(d) modelo logı́stico (Berkson, 1944; Dyke e Patterson, 1952; Rasch, 1960; Cox,
1970) para o estudo de proporções, envolvendo a distribuição binomial;
Além dessas técnicas usuais, outros modelos podem ser definidos no contexto
dos MLG como, por exemplo, os modelos de Box e Cox (1964) e alguns modelos de
séries temporais. Devido ao grande número de métodos estatı́sticos que engloba, a
teoria dos MLG vem desempenhando um papel importante na Estatı́stica moder-
na, tanto para especialistas, quanto para não-especialistas. Esses modelos podem
ainda representar um meio unificado de ensino da Estatı́stica, em qualquer curso de
graduação ou pós-graduação.
Algumas referências para o estudo dos MLG e extensões são: Cordeiro
(1986), McCullagh e Nelder (1989), Firth (1991), Francis et al. (1993), Fahrmeir
e Tutz (1994), McCulloch e Searle (2000), Demétrio (2001), Dobson (2001), Collet
(2002), Myers et al. (2002), Paula (2004), Molenberghs e Verbeke (2005), Lee et al.
(2006), Hardin e Hilbe (2007) e Aitkin et al. (2009).
Tabela 2.1: Número de insetos mortos (yi ) de (mi ) insetos que receberam a dose di
de rotenone.
Dose (di ) mi yi pi
0,0 49 0 0,00
2,6 50 6 0,12
3,8 48 16 0,33
5,1 46 24 0,52
7,7 49 42 0,86
10,2 50 44 0,88
* *
0.8
0.6
Proporções observadas
*
0.4
*
0.2
*
0.0
*
0 2 4 6 8 10
Dose
Figura 2.1: Gráfico de dispersão das proporções (pi ) versus doses (di ) de rotenone,
referentes à Tabela 2.1.
0.4
0.10
0.3
0.08
0.06
f(dose)
f(dose)
0.2
0.04
0.1
0.02
0.00
0.0
5 10 15 20 25 30 35 5 10 15 20 25 30 35
dose dose
1.0
0.8
0.3
0.6
f(dose)
π
0.2
0.4
0.1
0.2
0.0
0.0
DL50
5 10 15 20 25 30 35 5 10 15 20 25 30 35
dose dose
1.0
Normal Probito
Logística Logito
Gumbel Cloglog
0.8
0.3
F(Proporções de insetos mortos)
0.6
0.2
0.4
0.1
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
dose dose
πi = Φ(β1 + β2 di ),
Logo,
log[− log(1 − πi )] = β1 + β2 di .
ii) as variáveis explanatórias entram na forma de uma soma linear de seus efeitos
sistemáticos, ou seja,
∑
2
ηi = xij βj = xTi β,
j=1
sendo xTi T
= (1, di ), β = (β1 , β2 ) e ηi o preditor linear.
Modelos Lineares Generalizados 33
iii) a média µi é funcionalmente relacionada ao preditor linear, isto é,
( )
µi
ηi = g = g(πi ),
mi
b) Ensaios de diluição
O uso dos ensaios de diluição é uma prática comum para se estimar a con-
centração λ de um organismo (número por unidade de volume, de área, de peso
etc.) em uma amostra. Quando a contagem direta não é possı́vel, mas a presença
ou ausência do organismo em sub-amostras pode ser detectada (Ridout e Fenlon,
1998) pode-se, também, estimar λ. Em geral, registrar a presença, ou ausência, é
mais econômico do que fazer a contagem. Por exemplo, pode-se detectar se uma
determinada bactéria está presente, ou não, em um lı́quido por um teste de cor, ou
se um fungo está presente, ou não, em uma amostra de solo, plantando-se uma planta
susceptı́vel nesse solo e verificando se a planta apresenta sintomas da doença. Esse
método está baseado na suposição de que o número de indivı́duos presentes segue
34 Gauss M. Cordeiro & Clarice G.B. Demétrio
uma distribuição de Poisson, o que é uma suposição forte e torna-se importante ve-
rificar se é verdadeira. Por exemplo, a distribuição espacial de um fungo no solo está
longe de ser aleatória e pode ser que o número de indivı́duos em diferentes amostras
desse solo não tenha a distribuição de Poisson.
Nos ensaios de diluição, a solução original é diluı́da progressivamente e na
i-ésima diluição são realizadas as contagens (Exemplo 2.2) ou, então, são testadas
mi sub-amostras das quais Yi apresentam resultado positivo para a presença do
organismo (Exemplo 2.3). Seja νi o volume da amostra original que está presente
em cada uma das sub-amostras na i-ésima diluição. Em geral, mas nem sempre, são
usadas diluições iguais, de modo que os νi′ s ficam em progressão geométrica.
Diluição Contagens
0,3162 13 14 17 22
0,1778 9 14 6 14
0,1000 4 4 3 5
0,0562 3 2 1 3
0,0316 2 1 3 2 2
Fonte: Ridout (1990), notas de aula
Exemplo 2.3: A Tabela 2.3 mostra os dados de um ensaio de diluição realizado para
determinar o número de esporos de Bacillus mesentericus por grama (g) de farinha
de batata (Fisher e Yates, 1970). Uma suspensão lı́quida foi preparada e sujeita a
Modelos Lineares Generalizados 35
sucessivas diluições para que resultassem soluções com 4, 2, ..., 1/128g de farinha
por 100ml de solução. Para cada diluição consideraram-se cinco amostras de 1ml e
foi contado o número de amostras com esporos.
Tabela 2.3: Números de amostras (Y ) que contêm esporos em cinco amostras para
diferentes quantidades (g) de farinha de batata em cada diluição.
em que log(νi ) entra na regressão como variável offset, que é um valor conhecido no
componente sistemático do modelo.
Quando se observa o número de amostras em que o indivı́duo está presente
tem-se Yi ∼ B(mi , πi ), desde que as sub-amostras de cada diluição sejam indepen-
dentes, sendo que a probabilidade πi de que o organismo esteja presente na sub-
amostra i é expressa como
Logo,
ii) as variáveis explanatórias entram na forma de uma soma linear de seus efeitos,
ou seja,
∑
2
ηi = xij βj = xTi β,
j=1
c) Tabelas de contingência
Dados na forma de contagens são provenientes da simples contagem de
eventos (por exemplo, número de brotos por explante), ou então, da frequência de
ocorrências em várias categorias que originam as tabelas de contingência. Sejam os
exemplos que se seguem.
caso em que o número total de frutos com broca é uma variável aleatória e, por-
tanto, pode ser estudada pela distribuição de Poisson. A hipótese a ser testada é
a da homogeneidade, isto é, a proporção de frutos sadios é a mesma para todos os
inseticidas.
A distribuição de Poisson é especialmente útil na análise de tabelas de con-
tingência em que as observações consistem de contagens ou freqüências nas caselas
pelo cruzamento das variáveis resposta e explanatórias.
Considerando-se uma tabela de contingência bidimensional e a hipótese de
Modelos Lineares Generalizados 39
independência, se yij representa o número de observações numa classificação cruzada
de dois fatores i e j com I e J nı́veis, respectivamente, para i = 1, . . . , I e j = 1, . . . , J,
então,
µij = E(Yij ) = mπi+ π+j ,
∑ ∑ ∑ ∑
em que m = Ii=1 Jj=1 yij e πi+ = Jj=1 πij e π+j = Ii=1 πij são as probabilidades
marginais de uma observação pertencer às classes i e j, respectivamente. Pode-se,
então, supor que Yij tem distribuição de Poisson com média µij .
Verifica-se, então, que uma função logarı́tmica lineariza esse modelo, isto é,
Novamente, tem-se:
ii) as variáveis explanatórias entram na forma de uma soma linear de seus efeitos,
ou seja,
η = Xβ,
2.3 Definição
Os MLG podem ser usados quando se tem uma única variável aleatória Y
associada a um conjunto de variáveis explanatórias x1 , . . . , xp . Para uma amostra
de n observações (yi , xi ), em que xi = (xi1 , . . . , xip )T é o vetor coluna de variáveis
explanatórias, o MLG envolve os três componentes:
E(Yi ) = µi , i = 1, . . . , n,
sendo b(.) e c(.) funções conhecidas. Conforme foi explicado na Seção 1.4,
sendo q(µi ) uma função conhecida da média µi . Supondo uma relação funcional
para a função de variância V (µ), o parâmetro canônico é obtido da equação
Modelos Lineares Generalizados 41
(2.5) e a distribuição é univocamente determinada na famı́lia exponencial (2.4).
A importância da famı́lia (2.4) na teoria dos MLG é que ela permite incorporar
dados que exibem assimetria, dados de natureza discreta ou contı́nua e dados
que são restritos a um intervalo do conjunto dos reais, como o intervalo (0,1).
ηi = g(µi ), (2.7)
sendo λ uma constante desconhecida que tem como casos especiais as funções de
ligação logı́stica para λ = 1 e complemento log-log quando λ → 0.
Uma famı́lia importante de funções de ligação, principalmente para dados
com média positiva, é a famı́lia potência (Exercı́cio 2), especificada por
µ − 1 λ ̸= 0
λ
λ
log µ λ=0
ou então,
µλ λ ̸= 0
log µ λ = 0
Y − mπ
∼ N(0, 1) + Op (m−1/2 ),
[mπ(1 − π)] 1/2
(1 − 2π) 6 1
e 3− + .
[mπ(1 − π)]1/2 m mπ(1 − π)
(mi + 1)(mi + 2)
vi = .
mi (Yi + 1)(mi − Yi + 1)
√
Escolhendo a função de ligação arco seno, tem-se Zi = arcsen( Yi /mi ), denominada
“transformação angular empı́rica” que, aproximadamente, estabiliza a variância para
√
mi grande. A média e a variância de Zi são, aproximadamente, iguais a arcsen( πi )
e 1/(4mi ), respectivamente.
∑
y
µi (y − µ) k e−µ µy
−µ
P(Y ≤ y) ≈ e − .
i=0
i! 2 (µ + k) y!
sendo
{ } ∑
∞ { }
2(1−2ϕ)/ϕ y2
c(y, ϕ) = log − log 1 + .
πϕΓ(ϕ−1 ) j=0
(1 + 2jϕ)2
e
g[E(Y )] = ϕ−1 {[E(Y )]θ − 1},
2.5 Metodologia
O processo de ajuste dos MLG pode ser dividido em três etapas: (i) for-
mulação dos modelos; (ii) ajuste dos modelos e (iii) inferência.
Os MLG formam um ferramental de grande utilidade prática, pois apresen-
tam grande flexibilidade na etapa (i), computação simples em (ii) e critérios razoáveis
em (iii). Essas etapas são realizadas seqüencialmente. Na análise de dados com-
plexos, após a conclusão da etapa de inferência, pode-se voltar à etapa (i) e escolher
outros modelos, a partir de informações mais detalhadas oriundas do estudo feito em
(iii).
Uma caracterı́stica importante dos MLG é que se supõe independência das
variáveis respostas (ou, pelo menos, não-correlação) e, portanto, dados exibindo au-
toregressões como as séries temporais, em princı́pio, podem ser excluı́dos. Uma
segunda caracterı́stica é que a estrutura da variável resposta é suposta única em-
bora, usualmente, existam várias variáveis explanatórias na estrutura linear desses
modelos. Assim, outras técnicas estatı́sticas devem ser consideradas para analisar
dados que ocorrem em planejamentos de experimentos com mais de uma fonte de
erro. Ainda, variáveis respostas com distribuições que não pertencem à famı́lia (2.4),
∑
como a distribuição de Cauchy, e estruturas não-lineares do tipo η = βj exp(αj xj ),
a menos que os αj sejam conhecidos, devem, também, ser excluı́dos.
Apresentam-se, agora, as caracterı́sticas principais das etapas que formam a
metodologia de trabalho com os MLG.
2.5.3 Inferência
A etapa de inferência tem como objetivo principal verificar a adequação
do modelo como um todo e realizar um estudo detalhado quanto a discrepâncias
locais. Essas discrepâncias, quando significativas, podem implicar na escolha de
outro modelo, ou em aceitar a existência de observações aberrantes. Em qualquer
caso, toda a metodologia de trabalho deverá ser repetida.
Deve-se, nessa etapa, verificar a precisão e a interdependência das estimati-
vas, construir regiões de confiança e testes sobre os parâmetros de interesse, analisar
estatisticamente os resı́duos e realizar previsões.
A precisão das previsões depende basicamente do modelo selecionado e, por-
tanto, um critério de adequação do ajuste é verificar se a precisão de uma previsão
em particular é maximizada. Muitas vezes, é possı́vel otimizar a precisão por simples
alteração do componente sistemático do modelo.
Um gráfico dos resı́duos padronizados versus valores ajustados, sem nenhuma
tendência, é um indicativo de que a relação funcional variância/média proposta para
os dados é satisfatória. Gráficos dos resı́duos versus variáveis explanatórias que não
Modelos Lineares Generalizados 65
estão no modelo são bastante úteis. Se nenhuma variável explanatória adicional for
necessária, então não se deverá encontrar qualquer tendência nesses gráficos. Ob-
servações com erros grosseiros podem ser detectadas como tendo resı́duos grandes e
leverages pequenos ou resı́duos pequenos e leverages (h) grandes, ou o modelo ajus-
tado deve requerer mais variáveis explanatórias, por exemplo, interações de ordem
superior. A inspeção gráfica é um meio poderoso de inferência nos MLG.
Um modelo mal ajustado aos dados pode apresentar uma ou mais das
seguintes condições: (a) inclusão de um grande número de variáveis explanatórias
no modelo, muitas das quais são redundantes e algumas explicando somente um pe-
queno percentual das observações; (b) formulação de um modelo bastante pobre em
variáveis explanatórias, que não revela e nem reflete as caracterı́sticas do mecanismo
gerador dos dados; (c) as observações mostram-se insuficientes para que falhas do
modelo sejam detectadas.
2.6 Exercı́cios
1. Para o modelo binomial as funções de ligação mais comuns são: logı́stica, probito
e complemento log-log. Comparar os valores do preditor linear para essas funções de
66 Gauss M. Cordeiro & Clarice G.B. Demétrio
ligação no intervalo (0, 1).
2. Mostre que
µλ − 1
lim = log(µ).
λ→0 λ
6. Demonstrar que se Y tem uma distribuição binomial B(m, π), então para m
√
grande Var(arcsen Y /m) é, aproximadamente, 1/(4m), com o ângulo expresso em
radianos. Em que situações uma estrutura linear associada a essa transformação
poderá ser adequada?
7. Suponha que Y tem distribuição binomial B(m, π) e que g(Y /m) é uma função
arbitrária. Calcular o coeficiente de assimetria assintótico de g(Y /m). Demonstrar
∫π
que se anula quando g(π) = 0 t−1/3 (1 − t)−1/3 dt e, portanto, a variável aleatória
definida por [g(Y /m) − g(α)]/[π 1/6 (1 − π)1/6 m−1/2 ], em que α = π − (1 − 2π)/(6m),
tem distribuição próxima da normal reduzida (Cox e Snell, 1968).
(a) que o coeficiente de assimetria Y 2/3 é de ordem µ−1 enquanto que aqueles de
Y e Y 1/2 são de ordem µ−1/2 ;
(b) que o logaritmo da função de verossimilhança para uma única observação é,
aproximadamente, quadrático na escala µ1/3 ;
(d) a fórmula de recorrência entre os momentos centrais µr+1 = rµµr−1 + µdµr /dµ;
√
(e) que 2 Y tem, aproximadamente, distribuição normal N(0, 1).
(a) quando ϕ < 1, a função densidade é zero na origem e tem uma única moda no
ponto µ(1 − ϕ);
(b) o logaritmo da função de verossimilhança para uma única observação é, apro-
ximadamente, quadrático na escala µ−1/3 ;
12. Se Y tem distribuição de Poisson P(µ), obter uma expansão para Var[(Y + c)1/2 ]
68 Gauss M. Cordeiro & Clarice G.B. Demétrio
em potências de µ−1 , e mostrar que o coeficiente de µ−1 é zero quando c = 3/8.
Achar uma expansão similar para Var[Y 1/2 + (Y + 1)1/2 ].
√
13. Qual é a distribuição da tolerância correspondente à função de ligação arcsen ?
14. Se Y tem distribuição binomial B(m, π), demonstrar que os momentos da es-
tatı́stica Z = ±{2Y log(Y /µ)+2(m−Y ) log[(m−Y )/(m−µ)]}1/2 +{(1−2π)/[mπ(1−
π)]}1/2 /6 diferem dos correspondentes da distribuição normal reduzida N(0, 1) com
erro O(m−1 ). Essa transformação induz simetria e estabiliza a variância simultanea-
mente (McCullagh e Nelder, 1989).
16. Suponha que Y ∼ B(m, π), sendo π = eλ (1 + eλ )−1 . Mostre que m − Y tem
distribuição binomial com parâmetro induzido correspondente λ′ = −λ.
17. Demonstrar que para a variável aleatória Y com distribuição de Poisson, tem-se:
1
(a) E(Y 1/2 ) ≈ µ1/2 e Var(Y 1/2 ) ≈ ;
4
( ) ( )
1 1 3
1/2
(b) E(Y ) = µ 1/2
1− + O(µ −3/2 1/2
) e Var(Y ) = 1+ + O(µ−3/2 );
8µ 4 8µ
( ) 1/3
( )
1 4µ 1
(c) E(Y 2/3 ) ≈ µ2/3 1 − e Var(Y 2/3 ) ≈ 1+ .
9µ 9 6µ
Estimação
3.1 Estatı́sticas suficientes
Seja um MLG definido pelas expressões (2.4), (2.6) e (2.7) e suponha que as
observações a serem analisadas sejam representadas pelo vetor y = (y1 , . . . , yn )T . O
logaritmo da função de verossimilhança como função apenas de β (considerando-se
o parâmetro de dispersão ϕ conhecido), especificado y, é definido por ℓ(β) = ℓ(β; y)
e usando-se a expressão (2.4), tem-se
∑
n ∑
n ∑
n
ℓ(β) = ℓi (θi , ϕ; yi ) = ϕ−1 [yi θi − b(θi )] + c(yi , ϕ), (3.1)
i=1 i=1 i=1
∑
p
em que θi = q(µi ), µi = g −1 (ηi ) e ηi = xir βr .
r=1
A estimação do parâmetro de dispersão ϕ será objeto de estudo na Seção 4.4.
Existem n parâmetros canônicos θ1 , . . . , θn e n médias µ1 , . . . , µn que são desconhe-
cidos, mas que são funções de p parâmetros lineares β1 , . . . , βp do modelo. Deve-se,
primeiramente, estimar o vetor de parâmetros β para depois calcular as estimati-
vas do vetor das médias µ e do vetor dos parâmetros θ pelas relações funcionais
µi = g −1 (xTi β) e θi = q(µi ).
Se o intervalo de variação dos dados não depende de parâmetros, pode-
se demonstrar para os ∫modelos contı́nuos (Cox e Hinkley, 1986, Capı́tulo 9), que
todas as derivadas de exp[ℓ(β)]dy = 1 podem ser computadas dentro do sinal
de integração e que o ponto β̂ correspondente ao máximo do logaritmo da função
69
70 Gauss M. Cordeiro & Clarice G.B. Demétrio
de verossimilhança (3.1) está próximo do vetor β de parâmetros verdadeiros com
probabilidade próxima de 1. Para os modelos discretos, a integração é substituı́da
pelo somatório. Esse fato ocorre em problemas denominados regulares.
Um caso importante dos MLG surge quando o vetor de parâmetros canônicos
θ da famı́lia (2.4) e o vetor de preditores lineares η em (2.6) são iguais, conduzindo
∑
às funções de ligação canônicas. Tem-se, θi = ηi = pr=1 xir βr para i = 1, . . . , n.
∑
As estatı́sticas Sr = ni=1 xir Yi para r = 1, . . . , p são suficientes para os parâmetros
∑
β1 , . . . , βp e têm dimensão mı́nima p. Sejam sr = ni=1 xir yi as realizações de Sr ,
r = 1, . . . , p. Então, a equação (3.1) pode ser escrita na forma
[∑ p
∑
n ] ∑ n
−1
ℓ(β) = ϕ sr βr − b(θi ) + c(yi , ϕ)
r=1 i=1 i=1
ℓ(β) = f (θ1 , . . . , θi , . . . , θn )
↓
∫
θi = Vi−1 dµi = q(µi )
↓
µi = g −1 (ηi ) = h(ηi )
↓
∑p
ηi = r=1 xir βr
72 Gauss M. Cordeiro & Clarice G.B. Demétrio
e, sabendo-se que µi = b′ (θi ) e dµi /dθi = Vi , tem-se
∑
n
1 dµi
−1
Ur = ϕ (yi − µi ) xir (3.2)
i=1
Vi dηi
para r = 1, . . . , p.
A estimativa de máxima verossimilhança (EMV) β̂ do vetor de parâmetros
β é calculada igualando-se Ur a zero para r = 1, . . . , p. Em geral, as equações Ur = 0,
r = 1, . . . , p, não são lineares e têm que ser resolvidas numericamente por processos
iterativos do tipo Newton-Raphson.
O método iterativo de Newton-Raphson para a solução de uma equação
f (x) = 0 é baseado na aproximação de Taylor para a função f (x) na vizinhança do
ponto x0 , ou seja,
f (x) = f (x0 ) + (x − x0 )f ′ (x0 ) = 0,
obtendo-se
f (x0 )
x = x0 −
f ′ (x0 )
ou, de uma forma mais geral,
f (x(m) )
x(m+1) = x(m) − ,
f ′ (x(m) )
sendo wi = Vi−1 (dµi /dηi )2 denominada função peso. Logo, a matriz de informação
de Fisher para β tem a forma
K = ϕ−1 XT WX,
em que G = diag {dη1 /dµ1 , . . . , dηn /dµn } = diag{g ′ (µ1 ), . . . , g ′ (µn )}. Assim, a ma-
triz diagonal G é formada pelas derivadas de primeira ordem da função de ligação.
Substituindo K e U em (3.4) e eliminando ϕ, tem-se
ou, ainda,
ou
A equação matricial (3.5) é válida para qualquer MLG e mostra que a solução
das equações de MV equivale a calcular repetidamente uma regressão linear ponde-
rada de uma variável dependente ajustada z sobre a matriz X usando uma matriz
de pesos W que se modifica no processo iterativo. As funções de variância e de
ligação entram no processo iterativo por meio de W e z. Note-se que Cov(z) =
GCov(Y)G = ϕW−1 , isto é, os zi não são correlacionados. É importante enfatizar
que a equação iterativa (3.5) não depende do parâmetro de dispersão ϕ.
A demonstração da equação (3.5), em generalidade, foi desenvolvida por
Nelder e Wedderburn (1972). Eles generalizaram procedimentos iterativos obtidos
Modelos Lineares Generalizados 75
para casos especiais dos MLG: probito (Fisher, 1935), log-lineares (Haberman, 1970)
e logı́stico-lineares (Cox, 1972).
A variável dependente ajustada depende da derivada de primeira ordem da
função de ligação. Quando a função de ligação é linear (η = µ), isto é, a identidade,
tem-se W = V−1 sendo V = diag{V1 , . . . , Vn }, G = I e z = y, ou seja, a variável
dependente ajustada reduz-se ao vetor de observações. Para o modelo normal linear
(V = I, µ = η), W é igual à matriz identidade de dimensão n, z = y e verifica-se
da equação (3.5) que a estimativa β̂ reduz-se à fórmula esperada β̂ = (XT X)−1 XT y.
Esse é o único modelo em que β̂ é calculado de forma exata sem ser necessário um
procedimento iterativo.
O método usual para iniciar o processo iterativo é especificar uma estimativa
inicial e, sucessivamente, alterá-la até que a convergência seja alcançada e, portanto,
β (m+1) aproxime-se de β̂ quando m cresce. Note, contudo, que cada observação pode
(1)
ser considerada como uma estimativa do seu valor médio, isto é, µi = yi e, assim,
calcula-se
∑
p
= g −1 (ηi
(m) (m) (m)
ηi = xir βr(m) e µi );
r=1
+ (yi − µi )g ′ (µi )
(m) (m) (m) (m)
zi = ηi
76 Gauss M. Cordeiro & Clarice G.B. Demétrio
e os pesos
(m) 1
wi = (m) (m)
;
V (µi )[g ′ (µi )]2
(3) calcular
voltar ao passo (1) com β (m) = β (m+1) e repetir o processo até atingir a convergência,
definindo-se, então, β̂ = β (m+1) .
Dentre os muitos existentes, um critério para verificar a convergência do
algoritmo iterativo poderia ser
( )
∑p (m+1) (m) 2
βr − βr
(m)
< ξ,
r=1 βr
considerando-se que ξ é um número positivo suficientemente pequeno. Em geral, esse
algoritmo é robusto e converge rapidamente (menos de 10 iterações são suficientes).
Entretanto, o critério do desvio é o mais usado e consiste em verificar se |desvio(m+1) −
desvio(m) | < ξ, sendo desvio definido na Seção 4.2.
Deve-se ser cauteloso se a função g(.) não é definida para alguns valores yi .
Por exemplo, se a função de ligação for especificada por
η = g(µ) = log(µ)
XT y = XT µ̂. (3.6)
E(S; µ̂) = s,
mostrando que as EMV das médias µ1 , . . . , µn nos modelos canônicos são calculadas
igualando-se as estatı́sticas suficientes minimais aos seus valores esperados.
78 Gauss M. Cordeiro & Clarice G.B. Demétrio
Se a matriz modelo corresponde a uma estrutura fatorial, consistindo so-
mente de zeros e uns, o modelo pode ser especificado pelas margens que são as
estatı́sticas minimais, cujos valores esperados devem igualar aos totais marginais.
As equações (3.6) são válidas para os seguintes modelos canônicos: modelo
clássico de regressão, modelo log-linear, modelo logı́stico linear, modelo gama com
função de ligação recı́proca e modelo normal inverso com função de ligação recı́proca
ao quadrado. Para os modelos canônicos, o ajuste é realizado pelo algoritmo (3.5)
com W = diag{Vi }, G = diag{Vi−1 } e variável dependente ajustada com componente
tı́pica expressa por zi = ηi + (yi − µi )/Vi .
Nos modelos com respostas binárias, a variável resposta tem distribuição
binomial B(mi , πi ), e o logaritmo da função de verossimilhança em (3.1) pode ser
reescrito como
n [
∑ ( ) ( )] ∑
n ( )
µi mi − µ i mi
ℓ(β) = yi log + mi log + log ,
i=1
mi − µi mi i=1
yi
Cov( c −1 ,
d β̂) = ϕ(XT WX) (3.7)
d β̂r )1/2 .
β̂r ∓ 1, 96Var(
Na prática, uma estimativa consistente de ϕ deve ser usada para o cálculo desse
intervalo.
80 Gauss M. Cordeiro & Clarice G.B. Demétrio
A estrutura da covariância assintótica das EMV dos preditores lineares em
η̂ é obtida diretamente de Cov(η̂) = XCov(β̂)XT . Logo,
d
Cov(η̂) c −1 XT .
= ϕX(XT WX) (3.8)
dg −1 (η)
µ̂ = g −1 (η) + (η̂ − η)
dη
e, portanto,
enfatizando que a matriz diagonal G = diag {dηi /dµi } foi introduzida na Seção 3.2.
Essa matriz é estimada por
b −1 X(XT WX)
d µ̂) = ϕG
Cov( c −1 XT G
b −1 .
d i , η̂j ) = ẑij
Corr(η̂ ,
(ẑii ẑjj )1/2
das EMV dos preditores lineares η1 , . . . , ηn são resultados aproximados que depen-
dem fortemente do tamanho da amostra. Entretanto, são guias úteis de informação
sobre a confiabilidade e a interdependência das estimativas dos preditores lineares,
e podem, também, ser usados para obter intervalos de confiança aproximados para
Modelos Lineares Generalizados 81
esses parâmetros. Para alguns MLG, é possı́vel achar uma forma fechada para a in-
versa da matriz de informação e, consequentemente, para as estruturas de covariância
assintótica das estimativas β̂, η̂ e µ̂.
Frequentemente, nos modelos de análise de variância, considera-se que os
dados são originados de populações com variâncias iguais. Em termos de MLG, isso
implica no uso de uma função de ligação g(.), tal que W, não depende da média
µ e, portanto, que a matriz de informação seja constante. Nesse caso, pelo menos,
assintoticamente, a matriz de covariância das estimativas dos parâmetros lineares é
estabilizada.
Essa função de ligação é denominada estabilizadora e implica na constância
da matriz de pesos do algoritmo de estimação. A função de ligação estabilizadora
será vista (como o caso δ = 1/2) na Seção ??, mas pode ser obtida como solução da
equação diferencial dµ/dη = kdη/dθ, sendo k uma constante arbitrária. Por exemplo,
para os modelos gama e Poisson, as soluções dessa equação são o logaritmo e a raiz
quadrada, respectivamente. Para as funções de ligação estabilizadoras, é mais fácil
obter uma forma fechada para a matriz de informação, que depende inteiramente da
matriz modelo, isto é, do delineamento do experimento.
Em muitas situações, os parâmetros de interesse não são aqueles básicos dos
MLG. Seja γ = (γ1 , . . . , γq )T um vetor de parâmetros, em que γi = hi (β), sendo as
funções hi (.), i = 1, . . . , q, conhecidas. Supõe-se que essas funções, em geral, não-
lineares, são suficientemente bem comportadas. Seja a matriz q × p de derivadas
D = {∂hi /∂βj }. As estimativas γ̂1 , . . . , γ̂q podem ser calculadas diretamente de
γ̂i = hi (β̂), para i = 1, . . . , q. A matriz de covariância assintótica de γ̂ é igual a
ϕ D(XT WX)−1 DT e deve ser estimada no ponto β̂. Uma aplicação será descrita na
Seção ??.
Considere, por exemplo, que após o ajuste de um MLG, tenha-se interesse
em estudar as estimativas dos parâmetros γ’s definidos por um modelo de regressão
assintótico em três parâmetros β0 , β1 e β2
γr = β0 − β1 β2zr , r = 1, . . . , q.
82 Gauss M. Cordeiro & Clarice G.B. Demétrio
A matriz D de dimensões q × 3 é, portanto, igual a
1 −β2z1 −β1 β2z1 log β2
D = ··· ··· ··· .
z z
1 −β2 q −β1 β2 q log β2
(c) adicionando (ou retirando) vetores colunas independentes a partir de uma ma-
triz básica original.
. 1
ℓ̂ − ℓ = (β − β̂)T Ĵ(β − β̂), (3.10)
2
.
β̂ − β = J−1 U (3.12)
−1
β (m+1) = β (m) + J(m) U(m) , (3.13)
.
β̂ − β = K−1 U. (3.14)
em que s(m) é um escalar, Q(m) é uma matriz quadrada que determina a direção da
mudança de β (m) para β (m+1) e U(m) é o vetor gradiente do logaritmo da função de
verossimilhança ℓ(β), com todas essas quantidades variando no processo iterativo.
Os algoritmos iniciam num ponto β (1) e procedem, por meio da equação (3.15), para
calcular aproximações sucessivas para a EMV β̂. Vários algoritmos nessa classe são
Modelos Lineares Generalizados 89
discutidos por Judge et al. (1985). Nos procedimentos iterativos de Newton-Raphson
e escore de Fisher, s(m) é igual a um, e a matriz de direção Q(m) é igual à inversa da
matriz Hessiana e à inversa do valor esperado dessa matriz, respectivamente. Esses
dois procedimentos devem ser iniciados a partir de uma estimativa consistente com
o objetivo de se garantir convergência para β̂. A escolha do melhor algoritmo em
(3.15) é função da geometria do modelo em consideração e, em geral, não existe
um algoritmo superior aos demais em qualquer espectro amplo de problemas de
estimação.
3.7 Exercı́cios
10. Como o modelo binomial do Exercı́cio 3 poderia ser ajustado se λ fosse desco-
nhecido? E os modelos do Exercı́cio 4, ainda λ desconhecido?
∑
r
13. Considere a f.d.p. f (y) = exp(− αi y i ) com parâmetros α1 , . . . , αr desco-
i=1
nhecidos. Demonstrar que as estimativas de MV e dos momentos desses parâmetros
coincidem.
E[log(Yi )] = α∗ + xTi β
Var[log(Yi )] = ψ ′ (ϕ−1 ),
Métodos de Inferência
4.1 Distribuição dos estimadores dos parâmetros
No modelo clássico de regressão, em que a variável resposta tem distribuição
normal e a função de ligação é a identidade, as distribuições dos estimadores dos
parâmetros e das estatı́sticas usadas para verificar a qualidade do ajuste do mode-
lo aos dados podem ser determinadas exatamente. Em geral, porém, a obtenção
de distribuições exatas nos MLG é muito complicada e resultados assintóticos são,
rotineiramente, usados. Esses resultados, porém, dependem de algumas condições
de regularidade e do número de observações independentes mas, em particular, para
os MLG essas condições são verificadas (Fahrmeir e Kaufmann, 1985).
A ideia básica é que se θ̂ é um estimador consistente para um parâmetro θ
e Var(θ̂) é a variância desse estimador, então, para amostras grandes, tem-se:
i) θ̂ é assintoticamente imparcial;
ii) a estatı́stica
θ̂ − θ
Zn = √ → Z quando n → ∞, sendo que Z ∼ N(0, 1)
Var(θ̂)
(θ̂ − θ)2
Zn2 = → Z 2 quando n → ∞, sendo que Z 2 ∼ χ21 .
Var(θ̂)
93
94 Gauss M. Cordeiro & Clarice G.B. Demétrio
Cov(β̂) = E[(β̂ − β)(β̂ − β)T ] = K−1 E(UUT )K−1 = K−1 KK−1 = K−1 ,
T
96 Gauss M. Cordeiro & Clarice G.B. Demétrio
pois K−1 é simétrica. Na realidade, Cov(β̂) = K−1 + O(n−2 ), sendo que o termo
matricial de ordem O(n−2 ) foi calculado por Cordeiro (2004a).
iii) Para amostras grandes, tem-se a aproximação
W avaliada em β̂.
Para as distribuições binomial e de Poisson, ϕ = 1. Se o parâmetro de
dispersão ϕ for constante para todas as observações e desconhecido afetará a matriz
b −1 de β̂ mas não o valor de β̂. Na prática, se ϕ for
de covariância assintótica K
desconhecido, deverá ser substituı́do por alguma estimativa consistente (Seção 4.4).
A distribuição assintótica normal multivariada Np (β, K−1 ) de β̂ é a base
da construção de testes e intervalos de confiança, em amostras grandes, para os
Modelos Lineares Generalizados 97
K = ϕ−1 XT WX = σ −2 XT X
XT Xβ = XT y
Cov(β̂) = E[(β̂ − β)(β̂ − β)T ] = (XT X)−1 XT E[(Y − Xβ)(Y − Xβ)T ]X(XT X)−1
= σ 2 (XT X)−1 ,
d β̂r ) é o valor de κr,r em β̂. Nas Seções 4.6 e 4.7, serão apresentados
em que κ̂r,r = Var(
testes e regiões de confiança construı́dos com base na função desvio.
A correlação estimada ρ̂rs entre as estimativas β̂r e β̂s segue como
r,s
d β̂r , β̂s ) = √ κ̂
ρ̂rs = Corr( ,
κ̂r,r κ̂s,s
Determinados parâmetros têm que estar no modelo como é o caso, por exem-
plo, de efeitos de blocos em planejamento de experimentos ou então, totais marginais
fixados em tabelas de contingência para análise de observações na forma de contagens.
Assim, considerando-se um experimento casualizado em blocos, com tratamentos no
esquema fatorial com dois fatores, têm-se os modelos:
nulo: ηi = µ
minimal: ηi = µ + βℓ
maximal: ηi = µ + βℓ + αj + γk + (αγ)jk
Sp = 2(ℓ̂n − ℓ̂p ),
∑
n ∑
n
ℓ̂n = ϕ−1 [yi θ̃i − b(θ̃i )] + c(yi , ϕ)
i=1 i=1
e
∑
n ∑
n
−1
ℓ̂p = ϕ [yi θ̂i − b(θ̂i )] + c(yi , ϕ),
i=1 i=1
sendo θ̃i = q(yi ) e θ̂i = q(µ̂i ) as EMV do parâmetro canônico sob os modelos saturado
e corrente, respectivamente.
Então, tem-se,
∑
n
Sp = ϕ−1 Dp = 2ϕ−1 [yi (θ̃i − θ̂i ) + b(θ̂i ) − b(θ̃i )], (4.7)
i=1
∑
n
−1
Sp = ϕ d2i ,
i=1
sendo que d2i mede a diferença dos logaritmos das funções de verossimilhança obser-
vada e ajustada, para a observação i correspondente, e é denominado componente
do desvio. A soma deles mede a discrepância total entre os dois modelos na escala
logarı́tmica da verossimilhança. É, portanto, uma medida da distância dos valores
ajustados µ̂′ s em relação às observações y ′ s, ou de forma equivalente, do modelo
corrente em relação ao modelo saturado. Verifica-se que o desvio equivale a uma
constante menos duas vezes o máximo do logaritmo da função de verossimilhança
para o modelo corrente, isto é,
Assim, um modelo bem (mal) ajustado aos dados, com uma verossimilhança máxima
grande (pequena), tem um pequeno (grande) desvio. Entretanto, um grande número
Modelos Lineares Generalizados 103
de variáveis explanatórias, visando reduzir o desvio, significa um grau de comple-
xidade na interpretação do modelo. Procuram-se, na prática, modelos simples com
desvios moderados, situados entre os modelos mais complicados e os que não se
ajustam bem aos dados.
[ ]
1 ∑ 1 ∑ 2
n n
yi2 µ̂2i
Sp = 2 yi (yi − µ̂i ) − + = 2 (2y − 2µ̂i yi − yi2 + µ̂2i )
σ 2 i=1 2 2 σ i=1 i
1 ∑
n
SQRes
= 2
(yi − µ̂i )2 = ,
σ i=1 σ2
∑
que coincide com a estatı́stica clássica SQRes = i (yi − µ̂i )2 com (n − p) graus de
liberdade dividida por σ 2 .
e, em particular, para os modelos log-lineares a segunda soma é igual a zero, desde que
a matriz X tenha uma coluna de 1’s (Exercı́cio 5 da Seção 4.11). Nesse caso, o desvio é
igual à razão de verossimilhanças (denotada por G2 ou Y 2 ), que é, geralmente, usada
nos testes de hipóteses em tabelas de contingência.
Para o modelo gama (θ = −µ−1 ) com média µ e parâmetro de dispersão ϕ
(= Var(Y )/E(Y )2 ), a expressão do desvio é
∑n [ ( ) ]
−1 µ̂i (yi − µ̂i )
Sp = 2ϕ log + ,
i=1
yi µ̂i
que pode ainda ser simplificada em alguns casos especiais (Exercı́cio 6 da Seção 4.11).
Se algum componente é igual a zero, segundo Paula (2004), pode-se substituir Dp
por
∑n [ ]
yi
Dp = 2c(y) + 2 log(µ̂i ) + ,
i=1
µ̂i
Modelos Lineares Generalizados 105
sendo c(y) uma função arbitrária, porém limitada. Pode ser usada, por exemplo, a
∑n
yi
expressão c(y) = . Na Tabela 4.1 apresentam-se as funções desvios para os
i=1
1 + y i
principais modelos.
Modelo Desvio
∑
n
Normal Dp = (yi − µ̂i )2
i=1
∑ n [ ( ) ( )]
yi mi − yi
Binomial Dp = 2 yi log + (mi − yi ) log
i=1
µ̂i mi − µ̂i
∑n [ ( ) ]
yi
Poisson Dp = 2 yi log + (µ̂i − yi )
i=1
µ̂i
∑n [ ( ) ( )]
yi µ̂i + k
Binomial negativo Dp = 2 yi log + (yi + k) log
i=1
µ̂i yi + k
∑n [ ( ) ]
µ̂i yi − µ̂i
Gama Dp = 2 log +
i=1
yi µ̂i
∑
n
(yi − µ̂i )2
Normal inverso Dp =
i=1
yi µ̂2i
Quanto melhor for o ajuste do MLG aos dados tanto menor será o valor do
desvio Dp . Assim, um modelo bem ajustado aos dados, terá uma métrica ||y − µ̂||
pequena, sendo essa métrica definida na escala do logaritmo da função de verossimi-
lhança.
Uma maneira de se conseguir a diminuição do desvio é aumentar o número
de parâmetros, o que, porém, significa um aumento do grau de complexidade na
interpretação do modelo. Na prática, procuram-se modelos simples com desvios
moderados, situados entre os modelos mais complicados e os que se ajustam mal às
observações. Para testar a adequação de um MLG, o valor calculado do desvio com
n − p graus de liberdade, sendo p o posto da matriz do modelo, deve ser comparado
com o percentil de alguma distribuição de probabilidade de referência. Para o mo-
106 Gauss M. Cordeiro & Clarice G.B. Demétrio
delo normal com função de ligação identidade, assumindo-se que o modelo usado é
verdadeiro e que σ 2 é conhecido, tem-se o resultado exato
Dp
Sp = ∼ χ2n−p .
σ2
Entretanto, para modelos normais com outras funções de ligação, esse resul-
tado é apenas uma aproximação. Em alguns casos especiais da matriz modelo, com
delineamentos experimentais simples, considerando-se as distribuições exponencial
(caso especial da gama) e normal inversa, também, podem ser obtidos resultados
exatos. No geral, porém, apenas alguns resultados assintóticos estão disponı́veis e,
em alguns casos, o desvio, não tem distribuição χ2n−p , nem mesmo assintoticamente.
O desvio corrigido por uma correção de Bartlett proposta para os MLG por Cordeiro
(1983, 1987, 1995) tem sido usado para melhorar a sua aproximação pela distribuição
b p ), em que
χ2n−p de referência. Com efeito, o desvio modificado Sp = (n − p)Sp /E(S
b p ) quando E(Sp ) é determinada
a correção de Bartlett é expressa por (n − p)/E(S
b p ) o valor de E(Sp ) avaliada em µ̂, é me-
até termos de ordem O(n−1 ), sendo E(S
lhor aproximado pela distribuição χ2n−p de referência do que o desvio Sp , conforme
comprovam os estudos de simulação de Cordeiro (1993).
Sp = ϕ−1 Dp ≤ χ2n−p;α ,
sendo V (µ̂i ) a função de variância estimada sob o modelo que está sendo ajustado
aos dados. A fórmula (4.8) da estatı́stica de Pearson generalizada tem uma forma
equivalente expressa em termos da variável dependente ajustada do algoritmo (3.5)
c − η̂).
Xp2 = (z − η̂)T W(z
Xp2 ∼ σ 2 χ2n−p ,
Exemplo 4.4: Considere os dados do Exemplo 2.1 da Seção 2.2. A variável resposta
tem distribuição binomial, isto é, Yi ∼ B(mi , πi ). Adotando-se a função de ligação
logı́stica (canônica) e o preditor linear como uma regressão linear simples, isto é,
( )
µi
ηi = log = β0 + β1 di ,
mi − µi
(Dq − Dp )/(p − q)
F = ∼ Fp−q,n−m .
ϕ̂
Para modelo normal linear, tem-se que
dois modelos encaixados podem ser propostos para a análise desses dados, a saber:
a) o modelo nulo: ηi = β0 e
Tabela 4.3: Desvios e X 2 residuais obtidos para dois modelos encaixados ajustados
aos dados da Tabela 2.1.
Modelo g.l. Desvios X2
ηi = β0 5 163,74 135,70
ηi = β0 + β1 di 4 10,26 9,70
Tabela 4.4: Análise do Desvio, considerando o modelo logı́stico linear ajustado aos
dados da Tabela 2.1.
Causa de Variação g.l. Desvios Valor p
Regressão linear 1 153,48 < 0, 0001
Resı́duo 4 10,26
Total 5 163,74
112 Gauss M. Cordeiro & Clarice G.B. Demétrio
O exame da Tabela 4.3, confirmando o que foi descrito no Exemplo 4.4,
mostra que existem evidências, a um nı́vel de significância entre 0,05 e 0,01 de pro-
babilidade, que o modelo logı́stico linear ajusta-se razoavelmente a esse conjunto de
dados, mas rejeita-se o modelo nulo. Pelo exame da Tabela 4.4, rejeita-se a hipótese
nula H0 : β1 = 0, confirmando a adequação do modelo logı́stico linear. Necessita-se,
porém, adicionalmente, de uma análise de resı́duos e de diagnósticos.
Tem-se, ainda, que β̂0 = −3, 226 [s(β̂0 ) = 0, 3699] e β̂1 = 0, 6051 [s(β̂1 ) =
0, 0678]. O número esperado de insetos mortos µ̂i para a dose di é expresso por
*
*
0.8
0.6
Proporção
*
0.4
*
0.2
*
0.0
0 2 4 6 8 10
Dose
Figura 4.1: Valores observados e curva ajustada pelo modelo logı́stico linear aos
dados da Tabela 2.1.
Modelos Lineares Generalizados 113
Dp
ϕ̂d = , (4.9)
n−p
em que o desvio Dp é calculado de (4.7) como função das observações y e dos valores
ajustados µ̂. O estimador ϕ̂d é, aproximadamente, não viesado para os modelos
∑
normal e normal inverso. Para o modelo normal linear, ϕ̂d = (yi − µ̂i )2 /(n − p)
é o estimador usual não-viesado de σ 2 . Para os modelos gama e normal inverso,
as expressões correspondentes dos desvios Dp estão na Tabela 4.1, possibilitando
calcular ϕ̂d de (4.9).
O método de Pearson é baseado na aproximação da distribuição da es-
tatı́stica de Pearson Xp2 generalizada (4.8), dividida por ϕ, pela distribuição χ2n−p .
Obtém-se, assim, a estimativa de Pearson de ϕ
1 ∑ (yi − µ̂i )2
n
ϕ̂P = . (4.10)
n − p i=1 V (µ̂i )
Para o modelo normal, ϕ̂d = ϕ̂P . Para os demais modelos contı́nuos, esses
estimadores diferem em valor. Os estimadores ϕ̂P para os modelos gama e normal
inverso são deduzidos de (4.10) fazendo-se V (µ) = µ2 e V (µ) = µ3 , respectivamente.
114 Gauss M. Cordeiro & Clarice G.B. Demétrio
O método de máxima verossimilhança é sempre possı́vel em teoria, mas pode
tornar-se complicado computacionalmente quando não existir solução explı́cita para
a EMV. Se ϕ é o mesmo para todas as observações, a EMV de β independe de ϕ.
Entretanto, a matriz de variâncias e covariâncias dos β̂ ′ s envolve esse parâmetro.
Interpretando o logaritmo da função de verossimilhança ℓ(β, ϕ) como função de β e
de ϕ, supondo conhecido y, pode-se escrever da equação (3.1)
∑
n ∑
n
−1
ℓ(β, ϕ) = ϕ [yi θi − b(θi )] + c(yi , ϕ). (4.11)
i=1 i=1
∂ℓ(β, ϕ) ∑ n ∑ dc(yi , ϕ) n
Uϕ = = −ϕ−2 [yi θi − b(θi )] + .
∂ϕ i=1 i=1
dϕ
2Dp
ϕ̂ ≈ [ ( )1/2 ] .
2Dp
n 1 + 1 + 3n
Dp Dp
< ϕ̂ <
2n n
e, portanto,
ϕ̂d (n − p) ϕ̂d (n − p)
< ϕ̂ < .
2n n
Logo, para n grande, a EMV de ϕ deve ficar entre ϕ̂d /2 e ϕ̂d , ou seja, será
menor do que ϕ̂d .
Para comparar ϕ̂d e ϕ̂P , admite-se que a matriz modelo X tenha uma
coluna de uns relativa ao intercepto. Nesse caso, o desvio Dp reduz-se a Dp =
∑ ∑
2 ni=1 log(µ̂i /yi ), pois ni=1 (yi − µ̂i )/µ̂i = 0. Considere a expansão em série de Tay-
lor
e a função f (yi ) = log(µ̂i /yi ) com x = yi e a = µ̂i . Então, f ′ (yi ) = −yi−1 , f ′′ (yi ) = yi−2
e f ′′′ (yi ) = −2yi−3 e
( )
µ̂i (yi − µ̂i ) (yi − µ̂i )2 (yi − µ̂i )3
f (yi ) = log ≈− + − .
yi µ̂i 2µ̂2i 3µ̂3i
116 Gauss M. Cordeiro & Clarice G.B. Demétrio
Logo,
∑ ( ) ∑ ∑ 2 ∑ (yi − µ̂i )3
n n n n
µ̂i (yi − µ̂i ) (yi − µ̂i )2
Dp = 2 log ≈ −2 + − . (4.13)
i=1
yi i=1
µ̂i i=1
µ̂2i 3 i=1 µ̂3i
O primeiro termo dessa expansão é nulo, pois o MLG tem por hipótese uma coluna
de uns. Dividindo a equação (4.13) por n − p e usando (4.9) e (4.10), tem-se
2 ∑ (yi − µ̂i )3
n
ϕ̂d ≈ ϕ̂P − .
3(n − p) i=1 µ̂3i
Como a última soma pode ser positiva ou negativa, conclui-se que ϕ̂d pode
ser maior do que, menor do que ou igual a ϕ̂P . Se o MLG tiver um bom ajuste, as
.
médias ajustadas e as observações serão próximas e, assim, ϕ̂d = ϕ̂P .
1 ∑
n
n
ℓ = ℓ(µ) = − 2 (yi − µ)2 − log(2πσ 2 ),
2σ i=1 2
1 ∑
n
dℓ n
U= = 2 (yi − µ) = 2 (ȳ − µ),
dµ σ i=1 σ
n [ ]
E(U ) = E( Ȳ ) − µ =0
σ2
e
n2 n
K = Var(U ) = 4
Var(Ȳ ) = 2 .
σ σ
Modelos Lineares Generalizados 119
Portanto,
resultado que pode ser usado para a obtenção de intervalos de confiança para µ.
Exemplo 4.7: Suponha que Y tem distribuição binomial B(m, π). Então, o loga-
ritmo da função de verossimilhança para uma única observação é
( )
m
ℓ(π) = log + y log(π) + (m − y) log(1 − π)
y
e, portanto,
dℓ(π) y (m − y) y − mπ
U= = − = .
dπ π 1−π π(1 − π)
µ
Mas, E(Y ) = µ = mπ e Var(Y ) = mπ(1 − π) = (m − µ). Logo,
m
Var(Y ) m
E(U ) = 0 e K = Var(U ) = = .
− π)
π 2 (1 2 π(1 − π)
Assim,
que, pelo teorema central do limite, tem distribuição χ21 , ou, equivalentemente,
√
Y − E(Y ) m(Y − µ) D
√ =√ → N(0, 1),
Var(Y ) µ(m − µ)
g β̂ 1 )U1 (β̃),
SR = UT1 (β̃)Cov( (4.16)
em que β˜2 é a EMV de β 2 para cada valor de β 1 que é testado ser pertencente, ou
não, ao intervalo, e χ2q,1−α é o percentil da distribuição χ2 com q graus de liberdade,
correspondente a um nı́vel de significância igual a 100α%.
Usando-se a estatı́stica de Wald, uma região de confiança para β 1 , com um
coeficiente de confiança de 100(1 − α)%, inclui todos os valores de β 1 tais que:
Para um MLG isolado é, usualmente, mais simples trabalhar com Cp∗ do
que AICp . Para o modelo normal linear com variância constante σ 2 , Cp∗ reduz-se à
∑
estatı́stica Cp = SQRp /σ̃ 2 + 2p − n (Mallows, 1966), em que SQRp = nℓ=1 (yℓ − µ̂ℓ )2
e σ̃ 2 = SQRm /(n − m) é, a menos de um coeficiente multiplicador, o resı́duo
quadrático médio baseado no modelo maximal com m parâmetros. Nesse caso,
AICp = SQRp /σ̃ 2 + 2p + n log(2πσ̃ 2 ). Note-se que Cm = m.
Modelos Lineares Generalizados 125
Em geral, E(Cp∗ ) ̸= p. Para o modelo normal linear com variância conhecida
tem-se E(Cp∗ ) = p, supondo que o modelo é verdadeiro. Se a variância for des-
conhecida, o valor esperado de Cp∗ (= Cp ) será muito maior do que p, quando o
modelo não se ajustar bem aos dados. Um gráfico de Cp∗ (ou AICp ) versus p fornece
uma boa indicação para comparar modelos alternativos. Considerando dois modelos
encaixados Mq ⊂ Mp , p > q, tem-se AICp − AICq = Cp∗ − Cq∗ = Sp − Sq + 2(p − q)
e, portanto, supondo Mq verdadeiro, E(AICp − AICq ) = p − q + O(n−1 ).
Na comparação de modelos, sucessivamente, mais ricos, a declividade espe-
rada do segmento de reta unindo AICp com AICq (ou Cp∗ com Cq∗ ) deve ser próxima
de um, supondo o modelo mais pobre Mq verdadeiro. Pares de modelos com de-
clividade observada maior do que um, indicam que o modelo maior (Mp ) não é,
significantemente, melhor do que o modelo menor (Mq ).
Uma outra tentativa para seleção de variáveis explanatórias é minimizar a
expressão (Atkinson, 1981)
pα
Ap = Dp + , (4.23)
ϕ
em que Dp é o desvio do modelo Mp sem o parâmetro de dispersão ϕ e α é uma
constante ou função de n. Para o cálculo de (4.23), ϕ é estimado como descrito na
Seção 4.4. Tem-se Ap = [Cp∗ + p(α − 2) + n]/p e para α = 2, Ap é equivalente a Cp∗
(ou AICp ).
4.11 Exercı́cios
1. Para os modelos normal, gama, normal inverso e Poisson com componentes sis-
temáticos ηi = µλi = β0 + β1 xi , e para o modelo binomial com ηi = log{[(1 − µi )−λ −
1]λ−1 } = β0 + β1 xi , sendo λ conhecido, calcular: a) as estruturas de covariância
assintótica de β̂ e µ̂; b) as estatı́sticas escore, de Wald e da razão de verossimi-
lhanças nos testes: H1 : β1 = 0 versus H1′ : β1 ̸= 0 e H2 : β0 = 0 versus H2′ : β0 ̸= 0;
c) intervalos de confiança para os parâmetros β0 e β1 .
4. a) Mostre que para os modelos log-lineares com a matriz do modelo tendo uma
130 Gauss M. Cordeiro & Clarice G.B. Demétrio
∑
coluna de 1’s, o desvio reduz-se a Sp = 2 ni=1 yi log(yi /µ̂i ); b) Mostre que para o
modelo gama com ı́ndice ν e função de ligação potência η = µλ ou η = log(µ),
nesse último caso a matriz X tendo uma coluna de 1’s, o desvio reduz-se a Sp =
∑
2ν ni=1 log(µ̂i /yi ).
5. Mostre que aos dois modelos do exercı́cio 4. se aplica o resultado mais geral
∑n −1
i=1 (yi − µ̂i )µ̂i V (µ̂i ) = 0 quando o modelo tem função de ligação η = µλ (λ ̸= 0)
ou η = log(µ), nesse último caso, X com uma coluna de 1’s.
6. a) Mostre que para o modelo gama simples com ı́ndice ν, em que todas as médias
são iguais, o desvio reduz-se à estatı́stica clássica S1 = 2nν log(ȳ/ỹ), em que ȳ e ỹ são
as médias aritmética e geométrica dos dados, respectivamente. b) Mostre que, para
um MLG, sendo ℓ o logaritmo da função de verossimilhança total, E(∂ 2 ℓ/∂ϕ∂βj ) = 0
e, portanto, os parâmetros ϕ e β são ortogonais.
à estatı́stica de Wald;
13. Seja Y1 , . . . , Yn uma amostra aleatória de uma distribuição gama G(µ, ϕ) com
média µ e parâmetro de dispersão ϕ. Demonstrar que: a) a EMV de ϕ satisfaz
log(ϕ̂)+ψ(ϕ̂−1 ) = log(ỹ/ȳ), sendo ȳ e ỹ as médias aritmética e geométrica dos dados,
132 Gauss M. Cordeiro & Clarice G.B. Demétrio
respectivamente, e ψ(·) a função digama; b) uma solução aproximada é expressa como
ϕ̂ = 2(ȳ − ỹ)/ȳ.
25. A estatı́stica escore pode ser usada para escolher um entre dois modelos separa-
dos. Sejam Y1 , . . . , Yn variáveis aleatórias independentes com Yi tendo distribuição
normal N(µi , σ 2 ), com µi = βxi ou µi = γzi , i = 1, . . . , n, sendo todos os parâmetros
desconhecidos e os x′i s e os zi′ s conhecidos. Propor um teste baseado na estatı́stica
escore para escolher entre uma dessas estruturas.
T = v ( ).
u
u λ̂ 2
λ̂tn(1 − ω̂) 2 −
eλ̂ − 1 − λ̂
Capı́tulo 5
Resı́duos e Diagnósticos
5.1 Introdução
A escolha de um MLG envolve três passos principais: i) definição da dis-
tribuição (que determina a função de variância); ii) definição da função de ligação;
iii) definição da matriz do modelo.
Na prática, porém, pode ocorrer que após uma escolha cuidadosa de um
modelo e subsequente ajuste a um conjunto de observações, o resultado obtido seja in-
satisfatório. Isso decorre em função de algum desvio sistemático entre as observações
e os valores ajustados ou, então, porque uma ou mais observações são discrepantes
em relação às demais.
Desvios sistemáticos podem surgir pela escolha inadequada da função de
variância, da função de ligação e da matriz do modelo, ou ainda pela definição er-
rada da escala da variável dependente ou das variáveis explanatórias. Discrepâncias
isoladas podem ocorrer ou porque os pontos estão nos extremos da amplitude de vali-
dade da variável explanatória, ou porque eles estão realmente errados como resultado
de uma leitura incorreta ou uma transcrição mal feita, ou ainda porque algum fator
não controlado influenciou a sua obtenção.
Na prática, em geral, há uma combinação dos diferentes tipos de falhas.
Assim, por exemplo, a detecção de uma escolha incorreta da função de ligação
pode ocorrer porque ela está realmente errada ou porque uma ou mais variáveis
explanatórias estão na escala errada ou devido à presença de alguns pontos dis-
135
136 Gauss M. Cordeiro & Clarice G.B. Demétrio
crepantes. Esse fato faz com que a verificação da adequação de um modelo para um
determinado conjunto de observações seja um processo realmente difı́cil.
Maiores detalhes podem ser encontrados em Atkinson (1985), Cordeiro
(1986), Atkinson et al. (1989), McCullagh e Nelder (1989), Francis et al. (1993)
e Paula (2004).
- inclusão de uma função de ligação g(µ) em uma famı́lia mais ampla g(µ, γ),
sendo um exemplo a famı́lia de Aranda-Ordaz (1981), especificada no Exercı́cio
3 do Capı́tulo 2;
- escala usada de forma errada, talvez os dados sejam melhor descritos após uma
transformação, do tipo logarı́tmica ou raiz quadrada;
ri = yi − µ̂i .
o que mostra que à medida que Xi se afasta de X̄, o valor de hii aumenta e que seu
valor mı́nimo é 1/n. Esse valor mı́nimo ocorre para todos os modelos que incluem
uma constante. No caso em que o modelo de regressão passa pela origem, o valor
mı́nimo de hii é 0 para uma observação Xi = 0. O valor máximo de hii é 1, ocorrendo
quando o modelo ajustado é irrelevante para a predição em Xi e o resı́duo é igual a
0. Sendo H uma matriz de projeção, tem-se H = H2 e, portanto,
∑
n ∑
hii = h2ij = h2ii + h2ij
j=1 j̸=i
∑n
concluindo-se que 0 ≤ hii ≤ 1 e j=1 hij = 1. Além disso,
∑
n
T −1 T T −1 T
r(H) = tr[X(X X) X ] = tr[(X X) X X] = tr(Ip ) = hii = p,
i=1
∑
n
µ̂i = hij yj = hi1 y1 + . . . + hii yi + . . . + hin yn com 1 ≤ i ≤ n.
j=1
Verifica-se, portanto, que o valor ajustado µ̂i é uma média ponderada dos
valores observados e que o peso de ponderação é o valor de hij . Assim, o elemento da
diagonal de H é o peso com que a observação yi participa do processo de obtenção
do valor ajustado µ̂i . Valores de hii ≥ 2p/n indicam observações que merecem uma
análise mais apurada (Belsley et al., 1980, p. 17).
b) DFBeta e DFBetaS
Essas estatı́sticas são importantes quando o coeficiente de regressão tem um
significado prático. A estatı́stica DFBeta(i) mede a alteração no vetor estimado β̂ ao
se retirar a i-ésima observação da análise, isto é,
ri
DFBeta(i) = β̂ − β̂ (i) = (XT X)−1 xi .
(1 − hii )
Modelos Lineares Generalizados 143
ri
DFBeta(i) = cTi , i = 1, . . . n,
(1 − hii )
ri
DFBetaj(i) = cji , i = 1, . . . n, j = 0, . . . , p − 1.
(1 − hii )
c) DFFit e DFFitS
A estatı́stica DFFit e sua versão estudentizada DFFitS medem a alteração
decorrente no valor ajustado pela eliminação da observação i. São expressas como
e
DFFit(i) xTi (β̂ − β̂ (i) ) 1 ri
DFFitS(i) = √ = √ =√ xTi (XT X)−1 xi
2 2 2 (1 − hii )
hii s(i) hii s(i) hii s(i)
ou, ainda,
( ) 12 ( ) 12
hii ri hii
DFFitS(i) = = rse(i) ,
1 − hii 1
s(i) (1 − hii ) 2 1 − hii
sendo o quociente hii /(1 − hii ), chamado potencial de influência, uma medida da
distância do ponto xi em relação às demais observações. Nota-se que DFFitS pode
ser grande quando hii é grande ou quando o resı́duo estudentizado externamente
√
é grande. Valores absolutos, excedendo 2 p/n, podem identificar observações
influentes (Belsley et al., 1980, p. 28).
144 Gauss M. Cordeiro & Clarice G.B. Demétrio
d) Distância de Cook
Uma medida de afastamento do vetor de estimativas resultante da elimina-
ção da observação i é a distância de Cook. Tem uma expressão muito semelhante
ao DFFitS mas que usa como estimativa da variância residual aquela obtida com
todas as n observações, ou ainda, considera o resı́duo estudentizado internamente. É
expressa por
[ ]2
(β̂ − β̂ (i) )T (XT X)(β̂ − β̂ (i) ) hii ri2 ri hii
D(i) = = =
ps2 (1 − hii )2 ps2 (1 − hii ) 2 s p(1 − hii )
1
ou, ainda,
hii rsi2i
D(i) = .
p (1 − hii )
f) Gráficos de ı́ndices
Servem para localizar observações com resı́duos, hii (leverage), distância de
Cook modificada etc, grandes.
e, portanto,
β̂ = (XT X)−1 XT (y − uγ̂)
e
uT (I − H)y uT (I − H)(I − H)y u∗T r
γ̂ = = = ,
uT (I − H)u uT (I − H)(I − H)u u∗T u∗
que é o coeficiente angular de uma reta que passa pela origem, sendo r = y − Xβ̂ =
(I − H)y o vetor dos resı́duos de y ajustado para X e u∗ = (I − H)u o vetor dos
resı́duos de u ajustado para X.
O gráfico da variável adicionada de r versus u∗ , portanto, tem coeficiente
angular γ̂ (diferente do gráfico de r versus u) e é calculado a partir dos resı́duos
Modelos Lineares Generalizados 147
ordinários da regressão de y como função de todas as variáveis explanatórias, exceto
u = xj , versus os resı́duos ordinários da regressão de u = xj como função das mesmas
variáveis explanatórias usadas para analisar y. Assim, por exemplo, para um modelo
com três variáveis explanatórias, o gráfico da variável adicionada para x3 é obtido a
partir de duas regressões lineares
e
xˆ3 = β̂0′ + β̂1′ x1 + β̂2′ x2 ⇒ u∗ = x3 − xˆ3 .
( )
−1 i − 0, 375
zi = Φ , para i = 1, . . . , n.
n + 0, 25
c) coloque, em um gráfico, d(i) versus zi .
Modelos Lineares Generalizados 149
Esse gráfico tem, também, o nome de Q-Q plot, por relacionar os valores de
um quantil amostral (d(i) ) versus os valores do quantil correspondente da distribuição
normal (zi ).
A construção do gráfico semi-normal de probabilidades é o resultado do
conjunto de pontos obtidos pelo gráfico dos valores |d(i) | versus zi , em que zi =
Φ−1 (i + n − 0, 125)/(2n + 0, 5).
McCullagh e Nelder (1989) sugerem o uso do gráfico normal de probabilida-
des para os resı́duos e o gráfico semi-normal de probabilidades para medidas positivas
como é o caso de hii e da distância de Cook modificada. No caso do gráfico normal de
probabilidades para os resı́duos, espera-se que na ausência de pontos discrepantes, o
aspecto seja linear, mas não há razão para se esperar que o mesmo ocorra quando são
usados hii ou a distância de Cook modificada. Os valores extremos aparecerão nos
extremos do gráfico, possivelmente com valores que desviam da tendência indicada
pelos demais.
Para auxiliar na interpretação do gráfico semi-normal de probabilidades,
Atkinson (1985) propôs a adição de um envelope simulado. Esse gráfico é obtido,
seguindo-se os passos:
a) ajuste um determinado modelo a um conjunto de dados e obtenha d(i) ,
os valores absolutos ordenados de uma certa estatı́stica de diagnóstico (resı́duos,
distância de Cook, hii , etc);
b) simule 19 amostras da variável resposta, usando as estimativas obtidas
após um determinado modelo ser ajustado aos dados e os mesmos valores para as
variáveis explanatórias;
c) ajuste o mesmo modelo a cada uma das 19 amostras e calcule os valores
absolutos ordenados da estatı́stica de diagnóstico de interesse, d∗j(i) , j = 1, . . . , 19,
i = 1, . . . , n;
d) para cada i, calcule a média, o mı́nimo e o máximo dos d∗j(i) ;
e) coloque em um gráfico as quantidades calculadas no item anterior e d(i)
150 Gauss M. Cordeiro & Clarice G.B. Demétrio
versus zi .
o que é equivalente a substituir X por W1/2 X. Note-se que H, agora, depende das
variáveis explanatórias, da função de ligação e da função de variância, tornando mais
difı́cil a interpretação da medida de leverage. Demonstra-se que
V−1/2 (µ̂ − µ) ∼
= HV−1/2 (Y − µ), (5.2)
Modelos Lineares Generalizados 151
sendo V = diag{V (µi )}. A equação (5.2) mostra que H mede a influência em
unidades estudentizadas de y sobre µ̂.
iii’) Ri versus i;
ri = yi − µ̂i .
b) Resı́duos de Pearson
O resı́duo mais simples é o de Pearson definido por
yi − µ̂i
riP = 1/2
. (5.4)
V̂i
c) Resı́duos de Anscombe
Anscombe (1953) apresenta uma definição geral de resı́duos, usando uma
transformação N (yi ) da observação yi , escolhida visando tornar a sua distribuição o
mais próxima possı́vel da distribuição normal. Barndorff-Nielsen (1978) demonstra
∫
que, para os MLG, N (.) é calculada por N (µ) = V −1/3 dµ. Como N ′ (µ)(V /ϕ)1/2 é
a aproximação de primeira ordem do desvio padrão de N (y), o resı́duo de Anscombe,
visando à normalização e à estabilização da variância, é expresso por
N (yi ) − N (µ̂i )
Ai = 1/2
. (5.5)
N ′ (µ̂i )V̂i
154 Gauss M. Cordeiro & Clarice G.B. Demétrio
Da definição do resı́duo de Anscombe, conclui-se que a transformação apli-
cada aos dados para normalizar os resı́duos é a mesma que aplicada às médias das
observações normaliza a distribuição de β̂ (vide equação (??), caso δ = 2/3).
Para os modelos de Poisson, gama e normal inverso, os resı́duos de
Anscombe são, facilmente, calculados da equação (5.5) como 3(y 2/3 − µ̂2/3 )/(2µ̂1/6 ),
3(y 1/3 − µ̂1/3 )/µ̂1/3 e (log y − log µ̂)/µ̂1/2 , respectivamente. Para o modelo binomial
1/2
B(m, µ), a equação (5.5) reduz-se a Ai = mi [N (yi ) − N (µ̂i )]/[µ̂i (1 − µ̂i )]1/6 , em
∫
que N (µ) = [µ(1 − µ)]−1/3 dµ. Cox e Snell (1968) calculam esse resı́duo, usando a
função beta incompleta.
e) Componentes do desvio
Os resı́duos podem, também, ser definidos como iguais às raı́zes quadradas
dos componentes do desvio com o sinal igual ao sinal de yi − µ̂i . Tem-se,
√
riD = sinal(yi − µ̂i ) 2[v(yi ) − v(µ̂i ) + q(µ̂i )(µ̂i − yi )]1/2 , (5.7)
em que a função v(x) = xq(x) − b(q(x)) é expressa em termos das funções b(.) e q(.)
definidas na Seção 1.3.
O resı́duo riD representa uma distância da observação yi ao seu valor ajus-
tado µ̂i , medida na escala do logaritmo da função de verossimilhança. Tem-se
∑ n
2
Dp = riD . Um valor grande para riD indica que a i-ésima observação é mal ajus-
i=1
tada pelo modelo. Pregibon (1979) demonstra que, se existe uma transformação hi
que normaliza a distribuição do resı́duo Ri = hi (yi , µ̂i ), então as raı́zes quadradas dos
Modelos Lineares Generalizados 155
componentes do desvio são resı́duos que exibem as mesmas propriedades induzidas
por essa transformação. Assim, os resı́duos riD podem ser considerados, aproximada-
2
mente, como variáveis aleatórias normais reduzidas e, consequentemente, riD como
tendo, aproximadamente, uma distribuição χ21 .
Para os modelos de Poisson, gama, binomial e normal inverso, os
resı́duos definidos como as raı́zes quadradas dos componentes do desvio, têm
as formas respectivas: δ {2 [y log(y/µ̂) + µ̂ − y]}1/2 , δ {2[log(µ̂/y) + (y − µ̂)/µ̂]}1/2 ,
δ (2m{y log(y/µ̂) + (1 − y) log[(1 − y)/(1 − µ̂)]})1/2 e (y − µ̂)/(y 1/2 µ̂), em que δ re-
presenta o sinal de (y − µ̂).
As vantagens dos resı́duos (5.7) são: a) não requerem o conhecimento
da função normalizadora; b) computação simples após o ajuste do MLG; c) são
definidos para todas as observações e, mesmo para observações censuradas, desde
que essas contribuam para o logaritmo da função de verossimilhança.
′ rD
riD = √ i .
1 − ĥii
′
Os resı́duos riD são definidos a partir da equação (5.7). Os resı́duos de
Pearson, de Anscombe e componentes do desvio, expressos em (5.4), (5.5) e (5.7),
respectivamente, são os mais importantes nas aplicações dos MLG.
No modelo normal, nenhuma distinção é feita entre esses três tipos de
resı́duos. Para modelos bem ajustados, as diferenças entre riD e riP devem ser pe-
quenas. Entretanto, para os modelos mal-ajustados e/ou para observações aber-
rantes, podem ocorrer diferenças consideráveis entre esses resı́duos. Embora os
resı́duos, definidos por (5.5) e (5.7), apresentem formas bem diferentes para mo-
delos não-normais, os seus valores, especificados y e µ̂, são similares. Admite-se que
µ̂ = cy, em que c é um real qualquer. Seja A/D o quociente entre o resı́duo de
Anscombe (A) e aquele definido como a raiz quadrada do componente do desvio
(D). Para os modelos de Poisson, gama e normal inverso, esse quociente é igual
156 Gauss M. Cordeiro & Clarice G.B. Demétrio
√ √
a 3δ(1 − c2/3 )/(2 2)c1/6 (c − 1 − log c)1/2 , 3δ(1 − c1/3 )c1/6 / 2(c log c + 1 − c)1/2 e
c1/2 log c/(c − 1), respectivamente, em que δ = +1(−1) quando c < 1(> 1).
A Tabela 5.1 apresenta valores do quociente A/D para esses três modelos.
Dessa tabela, conclui-se que esses dois resı́duos são, aproximadamente, equivalentes.
Essa equivalência poderia ainda ser determinada por expansões em série de Taylor.
McCullagh e Nelder (1989) comparam os resı́duos de Pearson, de Anscombe e como
componentes do desvio para o modelo de Poisson.
Tabela 5.1: Relação A/D entre o resı́duo de Anscombe e o definido como a raiz
quadrada do componente do desvio, para três modelos.
estimados por
(yi − µ̂i ) d
dµi
si =
V (µ̂i ) dηi
158 Gauss M. Cordeiro & Clarice G.B. Demétrio
e u o vetor com os valores da variável a ser adicionada (Wang, 1985). Aqui
c −1/2 s representa o vetor de elementos (yi − µ̂i )V (µ̂i )−1/2 (resı́duo de Pear-
W
son generalizado da regressão ponderada de y em relação a X com matriz de
c e (I − H)
pesos estimada W) b Wc 1/2 u representa os resı́duos da regressão ponder-
c O padrão nulo para
ada de u em relação a X com matriz de pesos estimada W.
esse tipo de gráfico é uma distribuição aleatória de média zero e amplitude constante.
padrão nulo desse gráfico é linear com coeficiente angular γ̂ se a escala da variável
u está adequada. A forma desse gráfico pode sugerir uma escala alternativa para u.
f) Gráficos de ı́ndices
Servem para localizar observações com resı́duo, leverage (hii ), distância de
Cook modificada, etc, grandes.
c −1 XT Wẑ,
β̂ = (XT WX) c
b W)ẑ.
ẑ − η̂ = (I − Z c
A conclusão prática importante é que para uma análise mais cuidadosa dos
gráficos i’), i”), i”’) e iv’), descritos na Seção 5.4.1, devem-se usar os resı́duos de
′
Pearson estudentizados riP definidos na equação (5.6), em que o denominador é
[V (µ̂i )(1 − ĥii )]1/2 ao invés de V (µ̂i )1/2 .
Exemplo 5.1: Seja a função de ligação g0 (µ) = g(µ, λ0 ) = Xβ, incluı́da em uma
famı́lia paramétrica g(µ, λ), indexada pelo parâmetro escalar λ, por exemplo,
µ −1
λ
λ ̸= 0
g(µ, λ) = λ (5.8)
log(µ) λ=0
′ h′′ (0)
g(µ) ≃ h(0) + h (0)η + η⊗η
2
e, então, a variável adicionada é η̂ ⊗ η̂, desde que o modelo tenha termos para o
qual a média geral seja marginal.
Exemplo 5.2: Considere os dados do Exemplo 2.1. A variável resposta tem dis-
tribuição binomial, isto é, Yi ∼ B(mi , πi ). Adotando-se a função de ligação logı́stica
(canônica) e os preditores lineares expressos por
( )
µi
ηi = log = β1 + β2 di ,
mi − µ i
e
( )
µi
ηi = log = β1 + β2 di + γui ,
mi − µi
sendo ui = η̂i2 , usa-se a diferença de desvios para testar a adequação da função de
ligação, obtendo-se os resultados da Tabela 5.2. Verifica-se que se rejeita a hipótese
nula H0 : γ = 0, ao nı́vel de 5% de significância, indicando que a função de ligação
logı́stica não é adequada. A estimativa para γ é γ̂ = −0, 2087 com erro padrão
0,0757.
Tabela 5.2: Análise de desvio e teste da função de ligação para os dados do Exemplo
2.1.
( )
µ̂i
ηi = log = −3, 5823 + 0, 7506di .
mi − µ̂i
r̃ = ẑ − η̂ + γ̂x,
Então,
∑ ∑
z(λ) ≈ β0 + βj xj +βk xλk 0 +βk (λ−λ0 )xλk 0 log(xk ) = β0 + βj xj +βk xλk 0 +γu(λ0 ),
j̸=k j̸=k
∑
p−1
λ
z(λp ) = β0 + βj xj j + ϵ. (5.9)
j=1
Na equação (5.9) cada variável, incluindo a variável resposta, pode ter um parâmetro
de transformação diferente. De forma semelhante aos Exemplos 5.3 e 5.4, a expansão
de Taylor desse modelo ao redor de um λ0 comum, suposto conhecido, é
∑
p−1
∑
p−1
z(λ0 ) = β0 − (λp − λ0 )u(λ0 ) + βj xλj 0 + (λj − λ0 )βj xλj 0 log(xj ) + ϵ.
j=1 j=1
∑
p−1 [ ( ) ]
y
uxy (1) = β0 + β̂j xj log(xj ) − y log −1
j=1
ẏ
b W)ẑ.
R = ẑ − η̂ = (I − Z c (5.13)
Essa expressão foi introduzida na Seção 5.4.3. Aqui, estima-se γ ajustando o modelo
aumentado g(µ) = Xβ + Tγ aos dados. Isso determinará opções de aperfeiçoamento
Modelos Lineares Generalizados 171
da estrutura linear do modelo. O ajuste de polinômios de graus elevados é, numeri-
camente, bastante instável, sendo melhor considerar no máximo T = (z, z(2) , z(3) ).
b W)(X
Tem-se R = (I − Z c b W)(Tγ̂
β̂ + Tγ̂ + ε) = (I − Z c + ε) e, portanto, os
resı́duos aumentados nos MLG são expressos por
e =R+Z
R b WTγ̂
c (5.14)
Os resı́duos (5.15), descritos na Seção 5.7, são muito mais simples de serem
computados do que os resı́duos aumentados definidos em (5.14).
5.9 Exercı́cios
172 Gauss M. Cordeiro & Clarice G.B. Demétrio
1. Comparar os resı́duos de Anscombe, Pearson e como raiz quadrada do componente
do desvio, para o modelo de Poisson. Como sugestão supor µ̂ = cy e variar c, por
exemplo, 0(0.2)2(0.5)10. Fazer o mesmo para os modelos binomial, gama e normal
inverso.
3. Seja um MLG com estrutura linear ηi = α + βxi + xγi e função de ligação g(.)
conhecida.
(a) Formular, por meio da função desvio, critérios para os seguintes testes: H1 : γ =
γ (0) versus H1′ : γ ̸= γ (0) ; H2 : β = β (0) , γ = γ (0) versus H2′ : β ̸= β (0) , γ = γ (0) e
versus H2′′ : β ̸= β (0) , γ ̸= γ (0) ; H3 : β = β (0) versus H3 : β ̸= β (0) ;
(b) como obter um intervalo de confiança para γ usando a função desvio?
(c) se a função de ligação dependesse de um parâmetro λ desconhecido, como deter-
minar critérios para os testes citados?
4. Os dados da Tabela 7.29 (Ryan et al., 1976, p. 329) do Apêndice A.1 referem-se a
medidas de diâmetro a 4,5 pés acima do solo (D, polegadas) e altura (H, pés) de 21
cerejeiras (black cherry) em pé e de volume (V , pés cúbicos) de árvores derrubadas.
O objetivo desse tipo de experimento é verificar de que forma essas variáveis estão
relacionadas para poder predizer o volume de madeira em uma área de floresta
(Allegheny National Forest), usando medidas nas árvores em pé. Pede-se:
obtido como no Exemplo 5.5 da Seção 5.7, como variável adicionada, verifique que
há necessidade da transformação simultânea de V , H e D.
′
11. Os resı́duos riP definidos em (5.6) são, também, denominados resı́duos de Stu-
(1)
dent (W.S. Gosset). Calcular expressões para a0 , bi e ci em função desses resı́duos.
12. Seja um modelo normal, ou gama ou normal inverso com componente usual
g(µ) = η = Xβ e que o parâmetro ϕ seja constante para todas as observações,
embora desconhecido. Determinar, usando a função desvio, critérios para os seguintes
testes:
(a) ϕ = ϕ(0) versus ϕ ̸= ϕ(0) ; (b) β = β (0) versus β ̸= β (0) (Cordeiro, 1986).
Capı́tulo 6
177
178 Gauss M. Cordeiro & Clarice G.B. Demétrio
3.0
20
18
2.8
16
2.6
D logD
14
2.4
12
10
2.2
8
4.45
85
80
4.35
H logH
75
4.25
70
65
4.15
70
4.0
60
50
3.5
V logV
40
3.0
30
20
2.5
10
8 10 12 14 16 18 20 10 20 30 40 50 60 70 2.2 2.4 2.6 2.8 3.0 2.5 3.0 3.5 4.0
η = β0 + β1 x1 + β2 x2 , (6.1)
em que x1 = D e x2 = H.
Um segundo modelo (M2 ) baseia-se no fato de que o volume é proporcional
ao produto do diâmetro à altura do peito pela altura, isto é, V ≈ γ0 Dβ1 H β2 e,
portanto, log(V ) ≈ β0 + β1 log(D) + β2 log(H). Então, pode-se supor que a variável
resposta transformada Y = µ + ε2 , em que Y = log(V ) e ε2 ∼ N(0, σ22 ) e, portanto,
Y ∼ N(µ, σ22 ), que a função de ligação é a identidade, η = µ, e que o preditor linear
é expresso por (6.1) com x1 = log(D) e x2 = log(H).
Como um terceiro modelo (M3 ), supõe-se que a variável resposta Y = µ+ε3 ,
em que Y = V , µ = γ0 Dβ1 H β2 e ε3 ∼ N(0, σ32 ) e, portanto, Y ∼ N(µ, σ32 ), que a
função de ligação é a logarı́tmica, η = log(µ), e que o preditor linear é expresso por
(6.1) com x1 = log(D) e x2 = log(H).
A Tabelas 6.1 e 6.2 mostram os resultados obtidos, considerando-se diversos
submodelos para o preditor linear, para a análise dos dados sem transformação (M1 )
e com transformação logarı́tmica (M2 ). Verifica-se que existem evidências, ao nı́vel de
Modelos Lineares Generalizados 179
1% de significância, que os efeitos tanto do diâmetro à altura do peito como da altura
são significativos, sendo que o efeito do diâmetro à altura do peito é maior do que o
da altura, tanto para o caso de dados não transformados como para transformados.
Entretanto, é muito mais forte no caso de dados transformados. É importante, lem-
brar, também, que o teste para o modelo com ambas as variáveis (regressão parcial)
simultaneamente tem um nı́vel de significância conjunto, enquanto que na análise
seqüencial não se sabe o nı́vel conjunto de significância dos testes. Há evidências,
portanto, de que ambas as variáveis explanatórias altura e diâmetro são necessárias
para explicar o volume e que o melhor ajuste é obtido com os dados transformados.
Testes t (equivalentes aos testes F ) e intervalos de confiança para os parâmetros e
intervalos de previsão para Y podem, então, ser calculados. Há necessidade, porém,
de um estudo mais detalhado, fazendo-se uma análise dos resı́duos e de diagnóstico,
para a escolha do modelo final.
1.5
80
60
1.0
Valores ajustados
40
0.5
20
0.0
0
0 20 40 60 80 0 5 10 15 20 25 30
95%
−80
2
−90
Log(função de verossimilhança)
Resíduos estudentizados
−100
1
−110
0
−120
−1
−130
−2
−2 −1 0 1 2 −2 −1 0 1 2
Quantis(t) λ
µi = αtβi eγti ,
η = β0 + β1 D + β2 H - Parcial
Causas de variação G.L. S.Q. Q.M. F
DAP e Altura 2 7.684, 4 3.842, 2 255, 0 ∗ ∗
Resı́duo 28 421, 9 15, 1
Total 30 8.106, 1
V̂ = −57, 99 + 4, 708D + 0, 339H R2 = 0, 948 R̄2 = 0, 944
s(β̂0 ) = 8, 64, s(β̂1 ) = 0, 264 e s(β̂2 ) = 0, 130
η = β0 + β1 D + β2 H - Seqüencial
Causas de variação G.L. S.Q. Q.M. F
DAP 1 7.581, 8 7.581, 8 503, 1 ∗ ∗
Altura|DAP 1 102, 4 102, 4 6, 8∗
Resı́duo 28 421, 9 15, 1
Total 30 8.106, 1
η = β0 + β1 D + β2 H - Seqüencial
Causas de variação G.L. S.Q. Q.M. F
Altura 1 2.901, 2 2.901, 2 192, 5 ∗ ∗
DAP|Altura 1 4.783, 0 4.783, 0 317, 4 ∗ ∗
Resı́duo 28 421, 9 15, 1
Total 30 8.106, 1
F1,29;0,05 = 4, 18, F2,28;0,05 = 3, 34 e F1,28;0,05 = 4, 20
F1,29;0,01 = 7, 60, F2,28;0,01 = 5, 45 e F1,28;0,01 = 7, 64
182 Gauss M. Cordeiro & Clarice G.B. Demétrio
0.8
4.0
0.6
3.5
Valores ajustados
0.4
3.0
0.2
2.5
2.0
0.0
2.0 2.5 3.0 3.5 4.0 0 5 10 15 20 25 30
25
95%
1
20
Log(função de verossimilhança)
Resíduos estudentizados
15
10
−1
5
−2
−2 −1 0 1 2 −2 −1 0 1 2
Quantis(t) λ
Yi = µi + δi = αtβi eγti + δi ,
em que δi ∼ N(0, τ 2 ). Isso equivale ao MLG em que a variável resposta Y tem distribuição
normal com função de ligação logarı́tmica, ηi = log(µi ), e preditor linear que é igual a
log(α) + β log(ti ) + γi ti .
Entretanto, na prática é comum supor que log(Yi ) ∼ N(log(µi ), σ 2 ), isto é,
Tabela 6.3: Produções médias diárias de gordura (kg/dia) do leite de uma vaca.
0.31 0.39 0.50 0.58 0.59 0.64 0.68
0.66 0.67 0.70 0.72 0.68 0.65 0.64
0.57 0.48 0.46 0.45 0.31 0.33 0.36
0.30 0.26 0.34 0.29 0.31 0.29 0.20
0.15 0.18 0.11 0.07 0.06 0.01 0.01
em que ϵi ∼ N(0, σ 2 ). Isso equivale ao MLG em que a variável resposta log(Y ) tem
distribuição normal com função de ligação identidade, ηi = µi , e mesmo preditor linear
log(α) + β log(ti ) + γi ti .
* Observado
Transformação log
Ligação log
0.8
*
*
* *
* *
Produção de gordura (kg/dia)
* * *
0.6
* * *
*
*
* *
0.4
*
*
* *
* * * *
* *
*
0.2
*
*
*
*
* *
0.0
* *
0 5 10 15 20 25 30 35
Semanas
A Figura 6.4 mostra que a distribuição normal com função de ligação logarı́tmica
produz um melhor ajuste do que adotar uma transformação logarı́tmica dos dados e supor
uma distribuição normal com função de ligação identidade. Isso é confirmado nos gráficos
de valores ajustados versus valores observados apresentado na Figura 6.5. O programa
para as análises foi desenvolvido em R e encontra-se no Apêndice B.2.
Modelos Lineares Generalizados 185
0.7
−1
0.6
0.5
Log(Valores ajustados)
Valores ajustados
−2
0.4
0.3
−3
0.2
−4
0.1
0.0
−3.0 −2.5 −2.0 −1.5 −1.0 −0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Figura 6.5: Gráficos de valores ajustados versus valores observados obtidos para o
modelo normal para log(Y ) com função de ligação identidade e para o modelo normal
para Y com função de ligação logarı́tmica (Dados da Tabela 6.3).
10000 16000
IM
4000
8.0 8.5 9.0 9.5
logIM
0.00025
invIM
0.00005
2.2
1.8
TCI
1.4
1.0
120
RN
100
80
4000 10000 16000 0.00005 0.00025 80 100 120
Como esperado, a Figura 6.7 mostra a falta de ajuste desse modelo, por meio dos
gráficos dos valores observados versus valores ajustados, resı́duos estudentizados versus
valores ajustados e resı́duos estudentizados versus TCI e RN. Verifica-se que as suposições
de homocedasticidade e independência dos erros aleatórios são violadas, além de indicar a
necessidade de um componente não-linear. Como um segundo modelo (M2 ), adiciona-se
TCI2 e RN2 ao preditor linear da equação (6.2), obtendo-se
Normal(identidade) Normal(identidade)
12000
2
10000
1
8000
Valor ajustado
Resíduos
6000
0
4000
−1
2000
−2
4000 6000 8000 10000 12000 14000 16000 2000 4000 6000 8000 10000 12000
Normal(identidade) Normal(identidade)
2
2
1
1
Resíduos
Resíduos
0
0
−1
−1
−2
−2
1.0 1.2 1.4 1.6 1.8 2.0 2.2 80 90 100 110 120
TCI RN
0.4
4000
2000
0.2
1000
2000
0.0
Residuo
Residuo
Residuo
0
0
−1000
−0.2
−2000
−2000
−0.4
−3000
−4000
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Verifica-se, também, que a estatı́stica AIC depende da escala da variável resposta (IM ou
log(IM)). Em geral, os valores do logaritmo da função de verossimilhança e, portanto, da
estatı́stica AIC, são calculados sem os termos constantes e para escalas diferentes não há
uma forma de normalizá-los de forma a serem comparáveis. Valores de AIC são apenas
comparáveis na mesma escala da variável resposta. O uso de diferentes funções de ligação
não altera o número de parâmetros mas muda o aspecto estrutural do modelo, modificando
a função de verossimilhança. Entretanto, é possı́vel normalizar a função de verossimilhança
tal que comparações para diferentes funções de ligação tenham sentido.
Tabela 6.4: Resumo do ajuste do modelo normal para diferentes funções de ligação.
Variável resposta Ligação Desvio Residual σ̂ AIC
IM µ 315765900 2108,9 1347,7
log(IM) µ 4,0 0,2382 2,6
IM log(µ) 146543227 1436,7 1290,9
Modelos alternativos podem ser usados, supondo-se que IMi ∼ G(µi , ϕ) com as
funções de ligação canônica (inversa, M5 ), logarı́tmica (M6 ) e identidade (M7 ) e preditor
linear (6.2). A Tabela 6.5 mostra um resumo, considerando o ajuste para esses três casos e
para o caso da distribuição gama e função de ligação canônica (inversa), acrescentando-se
RN2 no preditor linear (M8 ). Observa-se que os modelos com menores AIC são aqueles com
distribuição gama e função de ligação canônica (inversa). A Figura 6.9 apresenta os gráficos
Modelos Lineares Generalizados 189
Tabela 6.5: Resumo do ajuste do modelo gama para funções de ligação inversa (com
dois preditores lineares diferentes), logarı́tmica e identidade.
Ligação ϕ̂ Desvio AIC
1/µ 0,0307 2,294 1240,9
1/µ 0,0236 1,705 1220,9
log(µ) 0,0524 3,908 1280,6
µ 0,0892 6,191 1315,0
dos valores ajustados versus valores observados e os gráficos normais de probabilidade dos
modelos M5 , M6 e M7 .
12000
14000
10000
12000
8000
10000
Valor ajustado
Valor ajustado
valor ajustado
8000
6000
8000
6000
6000
4000
4000
4000
4000 6000 8000 10000 12000 14000 16000 4000 6000 8000 10000 12000 14000 16000 4000 6000 8000 10000 12000 14000 16000
0.4
0.2
0.2
0.2
0.0
Residuo
Residuo
Residuo
0.0
0.0
−0.2
−0.2
−0.2
−0.4
−0.4
−0.4
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Figura 6.9: Gráficos dos valores ajustados versus valores observados, modelos M5 ,
M6 e M7 (Dados da Tabela 7.30).
A Figura 6.10 apresenta os gráficos dos valores ajustados versus valores observa-
dos, dos resı́duos versus valores ajustados e o normal de probabilidade para o modelo M8 .
Entretanto, seria interessante completar com estudos de simulação e testes “bootstrap”
para a escolha do melhor modelo. Outros estudos referentes a pontos discrepantes e/ou
190 Gauss M. Cordeiro & Clarice G.B. Demétrio
influentes são necessários. Um resumo das estatı́sticas para o modelo escolhido encontra-se
na Tabela 6.5.
0.3
0.3
0.2
0.2
15000
0.1
0.1
Valor ajustado
0.0
0.0
Resíduos
Residuo
10000
−0.1
−0.1
−0.2
−0.2
5000
−0.3
−0.3
4000 6000 8000 10000 12000 14000 16000 5000 10000 15000 20000 −2 −1 0 1 2
Figura 6.10: Gráficos dos valores ajustados versus valores observados, dos valores
ajustados versus resı́duos e o normal de probabilidade para o modelo M8 (Dados da
Tabela 7.30).
Tabela 6.6: Resumo do ajuste do modelo gama com função de ligação inversa 1/µ.
Parâmetro Estimativa e.p. t Pr(>|t|)
(Intercepto) -1,188e-05 1,574e-05 -0,755 0,453
TCI 1,393e-04 1,162e-05 11,990 < 2e-16 ***
poly(RN,2)1 -2,383e-04 2,987e-05 -7,977 2,01e-11 ***
poly(RN,2)2 -1,076e-04 2,100e-05 -5,124 2,53e-06 ***
Note que para o teste das variáveis que entrarão no modelo são usados polinômios
ortogonais. Entretanto, para obtenção dos coeficientes, há necessidade de se usar o preditor
linear (6.2) sendo, portanto, estimado por
η̂i = µ̂−1
i = −0, 0004888 + 0, 0001393 T CI + 0, 00001180 RN − 0, 00000006903 RN .
2
Y 1/Y Y −3/4
1.2
3.5
(Tempo de sobrevivência)^(−3/4)
5
1/(Tempo de sobrevivência)
Tempo de sobrevivência
3.0
1.0
2.5
0.8
2.0
3
0.6
1.5
0.4
1.0
0.2
1.1 3.1 1.2 3.2 1.3 3.3 1.1 3.1 1.2 3.2 1.3 3.3
1.1 3.1 1.2 3.2 1.3 3.3
Tipos de venenos e tratamentos Tipos de venenos e tratamentos
Tipos de venenos e tratamentos
Figura 6.11: Box-plots para as observações da Tabela 6.7, com e sem transformação.
em que Yij representa o tempo de sobrevivência do rato que recebeu o veneno i e o trata-
mento j, αi representa o efeito do veneno i, βj representa o efeito do tratamento j, αβij
192 Gauss M. Cordeiro & Clarice G.B. Demétrio
representa o efeito da interação do veneno i com o tratamento j, εij ∼ N(0, σ 2 ). O
gráfico para verificar a necessidade de uma transformação na famı́lia Box-Cox, indica que
λ̂ = −0, 75, conforme mostra a Figura 6.12. Entretanto, o valor λ̂ = −1 está no intervalo
de confiança e 1/Y tem uma melhor interpretação nesse caso, isto é, representa a taxa de
mortalidade.
Y 1/Y Y −3/4
30
−52
Log(função de verossimilhança)
Log(função de verossimilhança)
Log(função de verossimilhança)
95%
−28
95%
28
−54
−29
26
−56
95%
24
−58
−30
22
−60
20
−31
−62
λ λ
λ
1
= αi + βj + αβij + ϵij
Yij
e
−3/4
Yij = αi + βj + αβij + εij + δij ,
em que ϵij ∼ N(0, τ 2 ) e δij ∼ N(0, ζ 2 ), obtêm-se os outros dois gráficos da Figura 6.12,
mostrando que o valor λ̂ = 1 está incluı́do no intervalo de confiança e que, portanto,
ambas as transformações tornam a escala da variável resposta adequada. A Figura 6.13
mostra os gráficos dos valores ajustados versus valores observados sem e com transformação,
dos valores ajustados versus resı́duos e gráficos normais de probabilidades. Esses gráficos
revelam, claramente, a falta de ajuste para o caso do modelo normal para a variável sem
transformação e que ambas as transformações resolvem o problema de heterogeneidade
de variâncias e da falta de normalidade da variável resposta. Outros modelos, supondo
distribuição normal com função de ligação inversa, distribuições gama e normal inversa,
foram usados e apresentaram resultados piores.
Modelos Lineares Generalizados 193
Y 1/Y Y −3/4
3.0
4
Valor ajustado
Valor ajustado
2.5
Valor ajustado
2.0
1.5
2
0.2 0.4 0.6 0.8 1.0 1.2 1.0 1.5 2.0 2.5 3.0 3.5
1 2 3 4 5
Valor observado (Valor observado)^(−3/4)
1/(Valor observado)
0.6
0.4
1.0
0.4
0.2
0.5
0.2
Resíduos
Resíduos
Resíduos
0.0
0.0
0.0
−0.4 −0.2
−0.2
−0.5
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 2 3 4 1.5 2.0 2.5 3.0
0.6
0.4
1.0
0.4
0.2
0.5
0.2
Residuo
Residuo
Residuo
0.0
0.0
0.0
−0.4 −0.2
−0.2
−0.5
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Figura 6.13: Gráficos dos valores ajustados versus valores observados sem e com
transformação, dos resı́duos versus valores ajustados e gráficos normais de probabi-
lidades (Dados da Tabela 6.7).
Fonte GL SQ QM F SQ QM F SQ QM F
Tipo 2 1,0330 0,5165 23,27** 34,877 17,439 72,46** 11,9261 5,9630 68,45**
Tratamento 3 0,9212 0,3071 16,71** 20,414 6,805 28,35** 7,1579 2,3860 27,39**
Interação 6 0,2501 0,0417 1,88 1,571 0,262 1,09 0,4859 0,0810 0,93
Resı́duo 36 0,8007 0,0222 8,643 0,240 3,1361 0,0871
4
y y
2
0 50
0
350
x1 x1
150
3
1
0
11000
9.2
x2 x2
8000
9.0
1.8 2.4 3.0
20
x3 x3
10
2.3
10
x4 x4
8
2.0
6
1.7
3.0
20
x5 x5
2.4
10
1.8
2.6
12
x6
2.0
x6
8
1.4
4
0 50 150 8000 11000 6 8 10 4 8 12 0 2 4 9.0 9.2 1.7 2.0 2.3 1.4 2.0 2.6
−130
95%
−140
Log(função de verossimilhança)
−150
−160
−170
−180
−190 −1.0 −0.5 0.0 0.5
Figura 6.15: Gráfico dos valores ajustados versus valores observados e gráfico para
a famı́lia de transformações Box-Cox, modelo (M1 ) (Dados da Tabela 7.31).
A Figura 6.14 mostra os gráficos de dispersão das variáveis duas a duas sem
transformação e com transformação logarı́tmica. Nota-se que existe uma relação linear
forte entre log(y) e log(x1 ) e mais fraca de y e x1 e de log(y) e log(x5 ), sem muita evidência
de relação entre y ou log(y) e as outras variáveis explanatórias. Há evidências, também,
de relação entre as variáveis x2 , x4 , x5 e x6 , o que pode mascarar a relação entre a variável
resposta Y e as variáveis explanatórias.
A variável resposta Y , embora discreta, assume valores muito grandes o que jus-
tifica o uso da distribuição normal para Y ou log(Y ). Supondo-se que as demais variáveis
sejam constantes, espera-se que o número de assinaturas de TV a cabo seja proporcional
ao número de domicı́lios na área (x1 ). Além disso, espera-se que outras variáveis afetem a
média de uma forma multiplicativa. Isso sugere um modelo linear para log(Y ) com pelo
menos log(x1 ) como um dos preditores com um coeficiente próximo de um, de acordo com
a Figura 6.14.
Ajustando-se, aos dados da Tabela 7.31, o modelo M1
log(Yi ) = β0 +β1 log(x1i )+β2 log(x2i )+β3 log(x3i )+β4 log(x4i )+β5 log(x5i )+β6 log(x6i )+ϵi ,
em que ϵi ∼ N(0, τ 2 ), verifica-se um melhor ajuste aos dados da Tabela 7.31. As estimativas
dos parâmetros para o modelo M2 com seus erros-padrão encontram-se na Tabela 6.9,
revelando a não significância de log(x3i ).
Tabela 6.9: Resumo do ajuste do modelo M2 com e sem log(x3 ) (Dados da Tabela
7.31).
Parâmetro Estimativa e.p. t Pr(>|t|) Estimativa e.p. t Pr(>|t|)
Intercepto -16,44 7,46 -2,20 0,03 * -18,27 7,45 -2,45 0,02 *
log(x1) 0,96 0,05 17,67 <0,001 *** 0,98 0,05 18,38 <0,001 ***
log(x2) 1,86 0,86 2,16 0,04 * 2,12 0,85 2,50 0,02 *
log(x3) 0,28 0,20 1,40 0,17 – – – –
log(x4) -1,10 0,45 -2,44 0,02 * -0,90 0,43 -2,08 0,04 *
log(x5) 0,61 0,23 2,61 0,01 * 0,51 0,23 2,26 0,03 *
log(x6) -0,70 0,28 -2,49 0,02 * -0,73 0,28 -2,59 0,01 *
µ̂i = exp[−18, 27+0, 98 log(x1i )+2, 12 log(x2i )−0, 90 log(x4i )+0, 51 log(x5i )−0, 73 log(x6i )].
Nota-se que o coeficiente de log(x1 ) está muito próximo de um, como previsto.
Tem-se, portanto, evidência de que aumentando-se o número de domicı́lios (em milhares)
na área (x1 ), a renda per capita (em US$) por domicı́lio com TV a cabo (x2 ) e o número
de canais a cabo disponı́veis na área (x5 ) há um aumento no número de assinantes e,
também, que o aumento no custo médio mensal de manutenção (x4 ) e o aumento do
número de canais não pagos com sinal de boa qualidade disponı́veis na área (x6 ) causam
um decréscimo no número de assinantes. Assim, para esse modelo, tem-se que para cada
Modelos Lineares Generalizados 197
14
2
4
0.5
14
1
3
Valor ajustado
Resíduo
Residuo
0.0
0
2
26
11
−1
1
−0.5
−2
11 26
0
0 1 2 3 4 5 0 1 2 3 4 −2 −1 0 1 2
Figura 6.16: Gráfico dos valores ajustados versus log(valores observados), dos
resı́duos versus valores ajustados e dos quantis observados versus quantis teóricos,
modelo M2 , sem log(x3 (Dados da Tabela 7.31).
0.9
Trimestre 1
Trimestre 2
0.8
0.8
Demanda de eletricidade
Demanda de eletricidade
Trimestre 3
Trimestre 4
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
5 10 15 20 5.0 5.5 6.0 6.5 7.0 7.5 8.0
0.9
0.8
0.8
Demanda de eletricidade
Demanda de eletricidade
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
>fit2<-glm(elar~per+pgr+reca+DD1+DD2+DD3,
family = gaussian(link = "log"))
> summary(fit2)
Deviance Residuals:
Min 1Q Median 3Q Max
-8.904e-02 -3.255e-02 8.283e-05 2.854e-02 1.037e-01
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.22778 0.23949 -9.302 1.32e-14 *** per
-0.11247 0.02396 -4.694 1.02e-05 *** pgr 0.07300
0.02012 3.628 0.000486 *** reca 163.04261 14.15700
11.517 < 2e-16 *** DD1 0.12624 0.02217 5.693
1.74e-07 *** DD2 -0.04949 0.02409 -2.054 0.043050 *
DD3 0.11021 0.02369 4.652 1.20e-05 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Valores ajustados X valores observados. Normal Q−Q Plot Resíduos de Pearson X valores ajustados
0.10
0.10
0.9
Resíduos de Pearson
0.05
0.05
Valores ajustados
Sample Quantiles
0.7
0.00
0.00
0.5
−0.05
−0.05
0.3
0.3 0.4 0.5 0.6 0.7 0.8 0.9 −2 −1 0 1 2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Figura 6.18: Gráfico dos valores ajustados versus log(valores observados), dos
resı́duos versus valores ajustados e dos quantis observados versus quantis teóricos,
modelo log(yi ) = β0 + β1 log(x1 ) + β2 x2 + β3 x3 + β4 x4 + β5 x5 + β6 x6 + ϵi , Tabela 7.31.
log(elar) = −2.228−0.1125per+0.073pgr+163reca+0.1262DD1−0.04949DD2+
0.1102DD3
Capı́tulo 7
F −1 (pi ) = β0 + β1 xi , (7.1)
em que pi é a probabilidade de sucesso do evento sob estudo, F (·) uma f.d.a. de interesse e xi
é a variável explanatória. Esses modelos, ajustados a conjuntos de dados, podem ser usados
para sumarizá-los nesse caso pelo par de estimativas (β̂0 , β̂1 ) dos parâmetros e formam a
base para comparação de diferentes conjuntos de dados (?). Assim, por exemplo, podem
ser usados para a comparação de potência de diferentes produtos (inseticidas, fungicidas,
herbicidas etc).
Em geral, porém, o interesse está na determinação de estimativas de doses efetivas,
θp (DE100p ), que são doses, as quais sob o modelo ajustado causam uma mudança de estado
em 100p% dos indivı́duos. Um exemplo muito comum é a determinação da DL50 (também
chamada dose mediana) que é a dose que causa 50% de mortalidade dos indivı́duos. De
201
202 Gauss M. Cordeiro & Clarice G.B. Demétrio
(7.1) para um valor p especificado, tem-se
F −1 (p) = β0 + β1 θp ,
sendo que θp representa a dose efetiva. Portanto, de uma forma geral, a estimativa da dose
efetiva θp é calculada por
F −1 (p) − β̂0
θ̂p = = g(β̂0 , β̂1 ), (7.2)
β̂1
que para os modelos mais comumente usados transforma-se em
( ) [ ( ) ]
p 1 p
logit(p) = log = β̂0 + β̂1 θ̂p ⇒ θ̂p = log − β̂0 , logı́stico;
1−p β̂1 1−p
1
probit(p) = Φ−1 (p) = β̂0 + β̂1 θ̂p ⇒ θ̂p = [Φ−1 (p) − β̂0 ], probit;
β̂1
1
log[− log(1 − p)] = β̂0 + β̂1 θ̂p ⇒ θ̂p = {log[− log(1 − p)] − β̂0 }, clog-log e
β̂1
[ ] { [ ] }
1 − (1 − p)λ 1 1 − (1 − p)λ
log = β̂0 + β̂1 θ̂p ⇒ θ̂p = log − β̂0 , Aranda-Ordaz
λ(1 − p)λ β̂1 λ(1 − p)λ
(1981).
β̂0
θ̂50 = −
β̂1
enquanto que para o modelo complemento log-log é expressa por
log(log 2) − β̂0
θ̂50 =
β̂1
e para o modelo de Aranda-Ordaz, como
[ ( λ ) ]
1 2 −1
θ̂50 = log − β̂0 .
β̂1 λ
É importante notar que se o modelo está como função do logaritmo, em uma base
b qualquer, da dose, então, θ̂p = logb (dˆp ) e, portanto, a dose efetiva é obtida fazendo-se
dˆp = bθ̂p .
Modelos Lineares Generalizados 203
Lembrando que, assintoticamente, β̂0 ∼ N(β0 , Var(β̂0 )), β̂1 ∼ N(β1 , Var(β̂1 )) e
Cov(β̂0 , β̂1 ) ̸= 0, isto é, β̂ ∼ N(β, V), em que V = Cov(β̂) é a matriz de variâncias e
covariâncias dos estimadores dos parâmetros (inversa da matriz de informação de Fisher),
os métodos mais comumente usados para a construção de intervalos de confiança para
doses efetivas são: o método Delta, o de Fieller e o da razão de verossimilhanças (perfil de
verossimilhanças) (?Collet, 2002).
Método Delta
O método delta calcula a variância assintótica de uma função escalar g(β) de um
vetor β, de dimensão p, de parâmetros desconhecidos, quando a matriz de covariância de β̂
é conhecida. O método é baseado na expansão de Taylor até primeira ordem e supõe que,
segundo condições gerais de regularidade, a distribuição assintótica do EMV β̂ é Np (β, V),
sendo V obtida pela inversa da matriz de informação.
Tem-se, supondo que as derivadas parciais ∂g/βr são contı́nuas e não todas nulas
em β̂,
D
g(β̂) → N(g(β), σ 2 ),
Pelo método delta, tem-se que a distribuição assintótica de θ̂p = g(β̂) (expressão (7.2)), é
normal N(θp , σ 2 ), e, portanto, um intervalo de confiança 100(1 − γ)% aproximado para a
dose efetiva θp é expresso por
√
IC(θp ) : θ̂p ∓ zα/2 d θ̂p ),
Var(
em que β̃1 é a EMV restrita de β1 fixado θp . Como, assintoticamente, w(θp ) tem distribuição
χ21 , tem-se que um intervalo de 100(1 − γ)% de confiança para θp é formado por todos os
valores de θp que verificam
ℓ(β̃1 , θp ) ≥ ℓ̂ − zγ2 /2,
Exemplo 7.1: Usando-se os dados do Exemplo 4.5, a dose letal que mata 50% dos
insetos e os intervalos de 90% de confiança, obtidos pelos três métodos, são
206 Gauss M. Cordeiro & Clarice G.B. Demétrio
3, 226
i) dose letal: θ̂50 = = 5, 3,
0, 6051
pode-se concluir que T ∼ N(−β0′ /β1′ , β1′2 ). Logo, T − ϵ tem distribuição normal de média
−β0′ /β1′ e variância aumentada
Var(T − ϵ) = β1′2 + σ 2 .
Então,
( )
T − ϵ + β0′ /β1′ x + β0′ /β1′
P(T ≤ d) = P(T − ϵ ≤ x) = P ≤ ′2
(β1′2 + σ 2 )1/2 (β1 + σ 2 )1/2
e, portanto,
( )
β0′ + β1′ x
F (d) = Φ . (7.4)
(β1′2 + σ 2 )1/2
Considerações
Variável resposta: Yi – número de insetos mortos em amostras de tamanho mi = 20
Distribuição: Binomial
Parte sistemática: completamente casualizado, modelos de regressão.
Objetivo: determinação de doses letais.
A Tabela 7.2 apresenta os desvios residuais, estatı́sticas X 2 para os diversos mo-
delos e seus respectivos números de graus de liberdade (g.l.) e a Tabela 7.3, a análise de
desvios.
Verifica-se que existem evidências de que o modelo com preditor linear com dois
fatores aditivos, sexo (com dois nı́veis, j = 1, 2) e dose (com 6 nı́veis, k = 1, . . . , 6, em
princı́pio sem levar em consideração o fato de serem quantitativos), ajusta-se bem aos
Modelos Lineares Generalizados 209
dados, enquanto que os modelos mais simples, não. Não há, portanto, evidência de efeito
de interação entre os dois fatores.
Pela Tabela 7.3 verifica-se que há evidências para efeito significativo de sexo e
de dose. Note-se, ainda, que os desvios para sexo ignorando dose e, para sexo ajustado
para dose, são diferentes devido à não ortogonalidade por se estar considerando a dis-
tribuição binomial. O mesmo ocorre para dose ignorando sexo e para dose ajustada por
sexo. Pode-se, ainda, tentar uma simplificação desse modelo, considerando que dose é um
fator quantitativo. Se for usado como preditor linear um polinômio com x = dose, verifica-
se que há necessidade de grau 3. Como, porém, as doses estão em progressão geométrica é
conveniente usar como variável regressora x = log2 (dose), considerando-se os modelos de
retas concorrentes, paralelas, com intercepto comum e coincidentes. Os resultados para o
desvio e a estatı́stica X 2 residuais estão apresentados na Tabela 7.4.
Pela Tabela 7.4, nota-se que existem evidências que os modelos com retas concor-
rentes, paralelas e com intercepto comum ajustam-se bem aos dados. Tem-se, ainda, que as
diferenças de desvios entre os modelos com retas paralelas e retas concorrentes (6,76 - 4,99
= 1,77) e entre os modelos com intercepto comum e retas concorrentes (5,04 - 4,99 = 0,05),
210 Gauss M. Cordeiro & Clarice G.B. Demétrio
ambas com um grau de liberdade, não são estatisticamente significativas. Utilizando de
parcimônia e facilidade de interpretação opta-se pelo modelo de retas paralelas. A Tabela
7.5 apresenta a análise de desvios para o modelo escolhido.
Verifica-se que as fêmeas são mais resistentes, pois para matar 100p% das
fêmeas há necessidade de uma dose duas vezes maior do que para matar 100p% dos
machos. Pode-se verificar que a dose letal correspondente a p = 0, 9 para as fêmeas
está fora do intervalo estudado, o que é perigoso, pois acima da dose 32 não se sabe
se o comportamento será o mesmo. Se o interesse estiver na estimação dessa dose há
necessidade de se aumentar a amplitude de doses para fêmeas em um novo experimento.
Necessária se faz ainda uma análise de resı́duos e diagnósticos. A Figura 7.1 mostra o
gráfico das curvas ajustadas e os valores observados.
1.0
*
*
0.8
+
Proportions *
0.6
+
+
0.4 *
+
0.2
*
+
+*
0.0
1 2 5 10 20
log(dose)
Figura 7.1: Cypermetrin - Proporções observadas e curvas ajustadas
números de insetos mortos e os resultados obtidos estão na Tabela 7.6 (Collet, 2002).
Inseticida log(Doses)
2,00 2,64 3,48 4,59 6,06 8,00
DDT 3/50 5/49 19/47 19/50 24/49 35/50
γ-BHC 2/50 14/49 20/50 27/50 41/50 40/50
DDT + γ-BHC 28/50 37/50 46/50 48/50 48/50 50/50
Considerações
Variável resposta: Yi – número de insetos mortos em amostras de tamanho mi
Distribuição: Binomial
Parte sistemática: completamente casualizado, modelos de regressão.
Objetivo: determinação de doses letais e comparação de inseticidas.
212 Gauss M. Cordeiro & Clarice G.B. Demétrio
A Tabela 7.7 apresenta os desvios e as estatı́sticas X 2 residuais e seus respectivos
números de graus de liberdade (g.l.) e a Tabela 7.8, a análise de desvios, considerando-se
o modelo logı́stico.
Verifica-se que existem evidências de que o modelo com preditor linear com dois
fatores aditivos, inseticida (com três nı́veis, j = 1, 2, 3) e dose (com 6 nı́veis, k = 1, . . . , 6,
em princı́pio sem levar em consideração o fato de serem quantitativos), ajusta-se bem aos
dados, enquanto que os modelos mais simples, não. Não há, portanto, evidência de efeito
de interação entre os dois fatores.
Pela Tabela 7.8 verifica-se que há evidências para efeito significativo de inseticida
e de dose. Note-se, ainda, que os desvios para inseticida ignorando dose e, para inseticida
ajustado para dose, são diferentes devido à não ortogonalidade por se estar considerando a
distribuição binomial. O mesmo ocorre para dose ignorando inseticida e para dose ajustada
para inseticida. Pode-se, ainda, tentar uma simplificação desse modelo, considerando que
dose é um fator quantitativo. Se for usado como preditor linear um polinômio com x =
log(dose), pode-se considerar os modelos de retas concorrentes, paralelas, com intercepto
comum e coincidentes. Os resultados para o desvio e a estatı́stica X 2 residuais estão
Modelos Lineares Generalizados 213
apresentados na Tabela 7.9.
Pela Tabela 7.9, observa-se que existem evidências que os modelos com retas
concorrentes e paralelas ajustam-se bem aos dados. Tem-se, ainda, que a diferença de
desvios entre os modelos com retas paralelas e retas concorrentes com 2 graus de liberdade,
não é, estatisticamente, significante. Utilizando de parcimônia e facilidade de interpretação
opta-se pelo modelo de retas paralelas cuja análise de desvios está descrita na Tabela 7.10.
A partir do
( modelo ) escolhido obtêm-se, então, as equações:
pˆi
DDT: log = −3, 8425 + 2, 6958 log(dosei )
1 − pˆi
( )
pˆi
γ-BHC: log = −4, 5553 + 2, 6958 log(dosei )
1 − pˆi
( )
pˆi
DDT + γ-BHC: log = −1, 4248 + 2, 6958 log(dosei );
1 − pˆi
ˆ 50 ) = 4, 5553 = 1, 69 ⇒ LD50 = 5, 42
γ-BHC: log(LD
2, 6958
ˆ 50 ) = 1, 4248 = 0, 53 ⇒ LD50 = 1, 70
DDT + γ-BHC: log(LD
2, 6958
e as potências relativas
4, 16
da mistura em relação ao DDT: = 2, 45
1, 696
5, 417
da mistura em relação ao γ-BHC: = 3, 19,
1, 696
mostrando evidência de sinergismo, isto é, a mistura dos inseticidas potencializa o efeito.
Necessária se faz ainda uma análise de resı́duos e diagnósticos. A Figura 7.2 mostra o
gráfico das curvas ajustadas e os valores observados.
1.0
−
− − − −
−
3
− +
0.8
+
2
−
+ + *
Logit(proporçoes)
−
0.6
1
proporçoes
* − +
− + *
0
*
0.4
+
* +
*
* *
+
−1
+
0.2
−2
*
*
* *
+
0.0
−3
2 3 4 5 6 7 8 2 3 4 5 6 7 8
dose dose
experimento era constituı́da de um recipiente em que era colocado o meio de cultura (de
acordo com a combinação dos nı́veis dos 3 fatores) e o explante. O objetivo desse expe-
rimento é verificar a influência dos fatores sobre a regeneracão e se existe interação entre
eles.
A variável resposta, Y , é binária, isto é,
1 o explante regenerou após 4 semanas
Y =
0 em caso contrário
η = δl + αi + γk + αγik
e os resultados estão na Tabela 7.14. Necessária se faz, ainda, uma análise de resı́duos e
diagnósticos.
Modelos Lineares Generalizados 217
Na Tabela 7.18, tem-se a análise de desvios para o modelo de retas paralelas. Observa-se
que existem evidências para o efeito de variedades e para o efeito de regressão linear.
(a) (b)
1.0
1.0
0.8
0.8
Proporçoes de gemas florais
0.6
* *
* *
0.4
0.4
* *
+ * + *
− * − *
− −
0.2
0.2
+ − − + − −
+ +
+ + + +
− −
0.0
0.0
0 1 2 3 4 0 1 2 3 4
Tempo 0 1 2 6 12
Contagem 31 26 19 15 20
1
µi ∝
(tempo)γ
e, portanto,
log(µi ) = β0 + β1 log(tempoi + 0, 1),
sendo a constante 0, 1 adicionada para evitar problemas com o tempo 0. A Tabela 7.21
apresenta os desvios e as estatı́sticas X 2 residuais e seus respectivos números de graus de
liberdade (g.l.). A Tabela 7.22 apresenta a análise de desvios, considerando-se o modelo
log-linear com preditores lineares ηi = β0 (modelo M1 ) e ηi = β0 + β1 log(tempoi + 0, 1)
(modelo M2 ).
Observa-se que existem evidências de que o modelo M2 ajusta-se bem aos dados,
enquanto que o modelo nulo M1 , não. Pela Tabela 7.22, confirma-se que há evidências do
30
*
25
Counts
20
*
*
15
*
0 2 4 6 8 10 12
Time in months
Figura 7.4: Concentrações de bactérias por área fixa: valores observados e curva
ajustada
que pode ser observada na Figura 7.4 juntamente com os valores observados.
O gráfico dos resı́duos versus valores ajustados e o gráfico normal de probabili-
dades (Figura 7.5) confirmam o bom ajuste do modelo M2 .
0.5
0.5
Resíduos
Residuos
0.0
0.0
−0.5
−0.5
Figura 7.5: Concentrações de bactérias por área fixa: gráfico dos resı́duos versus
valores ajustados e gráfico normal de probabilidades
η = αi + βj + αβij + ξk .
Verifica-se que a diferença entre os desvios obtidos para Entre recipientes e Entre
plantas dentro de recipientes não é significativa. Adotou-se, então, como preditor linear
η = αi + βj + αβij , obtendo-se os resultados da Tabela 7.25.
O desvio residual mostra que existem evidências de que o modelo usado está se
ajustando relativamente bem aos dados. Há necessidade, porém, de se utilizarem outras
técnicas de diagnósticos como complementação. Observa-se, ainda, que a interação entre
meios de cultura e nı́veis de hormônio é significativa. Ao se observar o quadro de médias
apresentado na Tabela 7.26, verifica-se que a interação está sendo significativa devido
ao meio de cultura C. O exame da Tabela 7.23, indica duas parcelas em destaque cuja
Modelos Lineares Generalizados 225
influência na análise mereceria ser melhor estudada.
e
ηi = β1j + β2j biomassai , j = 1, 2, 3 (Modelo 2).
O desvio residual para o modelo de retas paralelas é 99, 2 com 86 graus de liber-
dade, enquanto que para o modelo de retas concorrentes é 83, 2 (p = 0, 50) com 84 graus
de liberdade, sendo 16, 0 a diferença de desvios com 2 graus de liberdade, mostrando
evidência significativa (p = 0, 00033) em favor do modelo de retas concorrentes. Além
disso, existe evidência de efeito significativo do fator pH (desvio 187 com 2 graus de liber-
dade, p < 0, 001) e de regressão linear de biomassa dentro de pH (desvio 182 com 3 graus de
liberdade, p < 0, 001). Por outro lado, o modelo de retas concorrentes está bem ajustado
226 Gauss M. Cordeiro & Clarice G.B. Demétrio
3
2
2
1
1
Resíduos
Residuos
0
0
−1
−1
−2
−2
10 20 30 40 −2 −1 0 1 2
Figura 7.6: Números de espécies de plantas: gráfico dos resı́duos versus valores
ajustados e gráfico normal de probabilidades.
aos dados conforme mostram o gráfico dos resı́duos versus valores ajustados e o gráfico
normal de probabilidades (Figura 7.6).
B
A 1 2
1 y11 y12 y1.
2 y21 y22 y2.
y.1 y.2 y..
Modelos Lineares Generalizados 227
40
Alto
Médio
Baixo
30
Número de espécies
20
10
0
0 2 4 6 8 10
Biomassa
y11 × y22
Razão de chances observada = ψ̂ = .
y12 × y21
ou ainda,
log(µij ) = λ + λA B
i + λj i, j = 1, 2
228 Gauss M. Cordeiro & Clarice G.B. Demétrio
com λA B
1 = λ1 = 0, isto é, com preditor linear log(µij ) conforme o quadro que se
segue.
B
A 1 2
1 λ λ+ λB
2
2 λ + λA
2 λ+ λA
2 + λB
2
A B A B A B
y.. = µ̂.. = eλ̂ + eλ̂+λ̂2 + eλ̂+λ̂2 + eλ̂+λ̂2 +λ̂2 = eλ̂ (1 + eλ̂2 )(1 + eλ̂2 ) (7.5)
A A B A B
y2. = µ̂2. = eλ̂+λ̂2 + eλ̂+λ̂2 +λ̂2 = eλ̂+λ̂2 (1 + eλ̂2 ) (7.6)
B A B B A
y.2 = µ̂.2 = eλ̂+λ̂2 + eλ̂+λ̂2 +λ̂2 = eλ̂+λ̂2 (1 + eλ̂2 ). (7.7)
Dividindo-se (7.5) por (7.7), (7.5) por (7.6) e (7.5) pelo produto de (7.6) e
(7.7), após algumas operações algébricas, obtêm-se
( ) ( ) ( )
y1. y.1 A y2. B y.2
λ̂ = log , λ̂2 = log e λ̂2 = log .
y.. y1. y.1
log(µij ) = λ + λA B AB
i + λj + λij , i, j = 1, 2,
com λA B AB AB
1 = λ1 = λ1j = λi1 = 0, isto é, o preditor linear log(µij ) conforme quadro
que se segue
B
A 1 2
1 λ λ + λB
2
2 λ + λA
2 λ + λA B AB
2 + λ2 + λ22
246 × 32
Razão de chances observada = ψ̂ = = 1, 01.
458 × 17
7.3 Exercı́cios
1. Use o método delta para estimar as doses efetivas θp de uma droga correspondente
ao valor 100p% da taxa de mortalidade para os modelos probito e complemento-log-
log.
para λeβ0 +β1 x > 1. (a) Estimar os parâmetros β0 , β1 e λ por máxima verossimilhança.
(b) Usar o método delta para construir os intervalos de confiança para a dose efetiva
θp .
completar com mais exemplos
232 Gauss M. Cordeiro & Clarice G.B. Demétrio
APÊNDICE A
Tabela 7.29: Medidas de diâmetro a 4,5 pés acima do solo (D, polegadas) e altura
(H, pés) de 21 cerejeiras (black cherry) em pé e de volume (V , pés cúbicos) de árvores
derrubadas (Ryan et al., 1976, p. 329).
Amostra D H V Amostra D H V
1 8,3 70 10,3 17 12,9 85 33,8
2 8,6 65 10,3 18 13,3 86 27,4
3 8,8 63 10,2 19 13,7 71 25,7
4 10,5 72 16,4 20 13,8 64 24,9
5 10,7 81 18,8 21 14,0 78 34,5
6 10,8 83 19,7 22 14,2 80 31,7
7 11,0 66 15,6 23 14,5 74 36,3
8 11,0 75 18,2 24 16,0 72 38,3
9 11,1 80 22,6 25 16,3 77 42,6
10 11,2 75 19,9 26 17,3 81 55,4
11 11,3 79 24,2 27 17,5 82 55,7
12 11,4 76 21,0 28 17,9 80 58,3
13 11,4 76 21,4 29 18,0 80 51,5
14 11,7 69 21,3 30 18,0 80 51,0
15 12,0 75 19,1 31 20,6 87 77,0
16 12,9 74 22,2
Tabela 7.30: Importações brasileiras (IM) em milhões de dólares, taxa de câmbio
(TCI) e o Produto Interno Bruto representando a renda nacional (RN), no perı́odo
de 1980 a 1998.
IM TCI RN IM TCI RN
5482 1.629 82.17 4046 1.423 109.40
5749 1.517 88.80 5495 1.356 111.36
6043 1.331 87.94 5173 1.244 105.50
5679 1.181 85.28 4576 1.046 97.60
5605 1.315 82.06 4265 1.091 96.39
5565 1.217 86.49 5474 1.091 106.01
5610 1.177 82.62 6345 1.300 100.01
5309 1.135 78.30 4330 1.380 91.70
4804 1.434 78.34 5034 1.354 104.02
4872 1.306 87.11 5614 1.314 108.26
5071 1.209 85.77 6015 1.452 101.05
4646 1.156 80.91 4630 1.499 97.02
3824 1.740 75.88 4725 1.626 101.71
3651 2.004 83.65 5221 1.467 103.80
3907 1.957 82.80 5976 1.441 101.30
4044 1.959 80.10 5230 1.421 99.90
3155 1.971 79.10 6007 1.388 106.90
3406 2.015 87.59 7328 1.340 108.92
3730 2.024 87.19 6914 1.305 106.01
3623 2.027 85.94 6049 1.283 104.01
3094 2.036 84.55 7087 1.279 109.66
3016 2.219 92.47 8023 1.075 115.30
3132 2.201 95.23 11814 0.957 116.45
3925 2.131 94.44 12065 0.942 113.92
3352 2.013 90.69 13651 0.955 116.09
2760 2.023 99.48 11917 0.951 115.67
3661 1.991 102.87 12030 0.970 114.93
4270 1.924 101.15 10738 0.980 111.63
3565 1.832 97.65 12478 0.995 118.06
3610 1.792 106.21 14235 1.012 122.90
3987 1.914 103.45 15837 1.030 120.69
3888 1.789 101.10 13150 1.049 116.90
3516 1.692 97.72 15405 1.067 123.85
3349 1.657 105.78 16930 1.086 126.37
3776 1.643 105.84 15873 1.106 122.55
3963 1.607 98.87 13415 1.126 118.11
3548 1.557 95.01 14591 1.147 125.74
Tabela 7.31: Número de assinantes (em milhares) de TV a Cabo (y) em 40 áreas
metropolitanas, número de domicı́lios (em milhares) na área (x1 ), renda per capita
(em US$) por domicı́lio com TV a cabo (x2 ), taxa de instalação (x3 ), custo médio
mensal de manutenção (x4 ), número de canais a cabo disponı́veis na área (x5 ) e
número de canais não pagos com sinal de boa qualidade disponı́veis na área (x6 ),
(Ramanathan, 1993).
y x1 x2 x3 x4 x5 x6
105,000 350,000 9839 14,95 10,00 16 13
90,000 255,631 10606 15,00 7,50 15 11
14,000 31,000 10455 15,00 7,00 11 9
11,700 34,840 8958 10,00 7,00 22 10
46,000 153,434 11741 25,00 10,00 20 12
11,217 26,621 9378 15,00 7,66 18 8
12,000 18,000 10433 15,00 7,50 12 8
6,428 9,324 10167 15,00 7,00 17 7
20,100 32,000 9218 10,00 5,60 10 8
8,500 28,000 10519 15,00 6,50 6 6
1,600 8,000 10025 17,50 7,50 8 6
1,100 5,000 9714 15,00 8,95 9 9
4,355 15,204 9294 10,00 7,00 7 7
78,910 97,889 9784 24,95 9,49 12 7
19,600 93,000 8173 20,00 7,50 9 7
1,000 3,000 8967 9,95 10,00 13 6
1,650 2,600 10133 25,00 7,55 6 5
13,400 18,284 9361 15,50 6,30 11 5
18,708 55,000 9085 15,00 7,00 16 6
1,352 1,700 10067 20,00 5,60 6 6
170,000 270,000 8908 15,00 8,75 15 5
15,388 46,540 9632 15,00 8,73 9 6
6,555 20,417 8995 5,95 5,95 10 6
40,000 120,000 7787 25,00 6,50 10 5
19,900 46,390 8890 15,00 7,50 9 7
2,450 14,500 8041 9,95 6,25 6 4
3,762 9,500 8605 20,00 6,50 6 5
24,882 81,980 8639 18,00 7,50 8 4
21,187 39,700 8781 20,00 6,00 9 4
3,487 4,113 8551 10,00 6,85 11 4
3,000 8,000 9306 10,00 7,95 9 6
42,100 99,750 8346 9,95 5,73 8 5
20,350 33,379 8803 15,00 7,50 8 4
23,150 35,500 8942 17,50 6,50 8 5
9,866 34,775 8591 15,00 8,25 11 4
42,608 64,840 9163 10,00 6,00 11 6
10,371 30,556 7683 20,00 7,50 8 6
5,164 16,500 7924 14,95 6,95 8 5
31,150 70,515 8454 9,95 7,00 10 4
18,350 42,040 8429 20,00 7,00 6 4
Tabela 7.32: Demanda de eletricidade agregada per capita para o setor residencial
(ELAR), como função das variáveis preço médio da eletricidade para o setor residencial
(PER), preço do gás natural para o setor residencial (PGR) e renda per capita (RECA).
As variáveis binárias D1, D2, D3 e D4 representam os trimestres, enquanto que a variável
Tri representa o fator trimestre. Os dados foram coletados no primeiro trimestre de 1961
até o quarto trimestre de 1983, com o total de 92 observações.
ANO Tri ELAR PER PGR RECA D1 D2 D3 D4
1 1 0.30800536 7.64518690 2.77420998 0.00914456 1 0 0 0
1 2 0.26834363 7.95841503 3.10906148 0.00923471 0 1 0 0
1 3 0.27840772 7.92997503 4.04409552 0.00932230 0 0 1 0
1 4 0.28370830 7.82164145 3.05730581 0.00950548 0 0 0 1
2 1 0.33067492 7.35322905 2.71285081 0.00960076 1 0 0 0
2 2 0.28388155 7.71690655 3.14473939 0.00966927 0 1 0 0
2 3 0.30097651 7.64894676 3.47958493 0.00972013 0 0 1 0
2 4 0.29878822 7.53726721 3.01232100 0.00964969 0 0 0 1
3 1 0.35450837 7.04945183 2.66247821 0.00974009 1 0 0 0
3 2 0.29236847 7.52932024 3.09602141 0.00984403 0 1 0 0
3 3 0.32083428 7.37974453 3.95054865 0.00998568 0 0 1 0
3 4 0.30998397 7.31903124 3.03680444 0.01003013 0 0 0 1
4 1 0.36952662 6.81957054 2.62996173 0.01020502 1 0 0 0
4 2 0.31365973 7.20112085 3.01820755 0.01028083 0 1 0 0
4 3 0.35007703 7.02109432 3.96968317 0.01034642 0 0 1 0
4 4 0.33276981 7.02124262 2.90021181 0.01034942 0 0 0 1
5 1 0.38749585 6.54028463 2.74633431 0.01053808 1 0 0 0
5 2 0.33387709 6.86014271 3.09525871 0.01066791 0 1 0 0
5 3 0.36804986 6.66966391 3.92323565 0.01077701 0 0 1 0
5 4 0.35709164 6.63340855 3.02050757 0.01099775 0 0 0 1
6 1 0.41694346 6.15353727 2.66674948 0.01118029 1 0 0 0
6 2 0.35326710 6.51159859 3.01723003 0.01119937 0 1 0 0
6 3 0.40777826 6.27930784 3.81770802 0.01126028 0 0 1 0
6 4 0.38217804 6.20854807 2.84517026 0.01128659 0 0 0 1
7 1 0.44221917 5.87383795 2.57694674 0.01131980 1 0 0 0
7 2 0.38583204 6.20719862 2.94127989 0.01137994 0 1 0 0
7 3 0.42855132 6.06665373 3.66671538 0.01149168 0 0 1 0
7 4 0.41222385 5.98085690 2.74726343 0.01152810 0 0 0 1
8 1 0.49082169 5.49876261 2.47987032 0.01163357 1 0 0 0
8 2 0.40941107 5.83722544 2.79997373 0.01180093 0 1 0 0
8 3 0.48547110 5.61731529 3.45636535 0.01186746 0 0 1 0
8 4 0.44673607 5.56372929 2.64927459 0.01182800 0 0 0 1
9 1 0.53332543 5.13844633 2.35906005 0.01195509 1 0 0 0
9 2 0.44059545 5.48616648 2.68346119 0.01195672 0 1 0 0
9 3 0.54803473 5.21186781 3.31664300 0.01198937 0 0 1 0
9 4 0.49101120 5.22422218 2.56152606 0.01190421 0 0 0 1
10 1 0.57242423 4.84008980 2.32434344 0.01180006 1 0 0 0
10 2 0.48410484 5.13360834 2.64912558 0.01176797 0 1 0 0
10 3 0.60302770 4.98096657 3.27019763 0.01186475 0 0 1 0
10 4 0.52503026 5.08426189 2.55258965 0.01171888 0 0 0 1
11 1 0.60602528 4.76719999 2.32727671 0.01198772 1 0 0 0
11 2 0.51891249 5.01803827 2.62444520 0.01194521 0 1 0 0
11 3 0.62209785 4.94619703 3.33343983 0.01198712 0 0 1 0
11 4 0.56083840 4.99554968 2.58277440 0.01193268 0 0 0 1
12 1 0.62708759 4.79266357 2.37980080 0.01218264 1 0 0 0
12 2 0.54876824 5.09319210 2.68980694 0.01239293 0 1 0 0
12 3 0.65694511 4.95712137 3.23334769 0.01247493 0 0 1 0
12 4 0.60439968 4.91112804 2.51575303 0.01268085 0 0 0 1
ANO Tri ELAR PER PGR RECA D1 D2 D3 D4
13 1 0.68328059 4.67283297 2.33333063 0.01294289 1 0 0 0
13 2 0.57989609 4.94276857 2.67354584 0.01295302 0 1 0 0
13 3 0.72811598 4.79395962 3.13997459 0.01291298 0 0 1 0
13 4 0.62451297 4.83387899 2.55854464 0.01298187 0 0 0 1
14 1 0.66959435 4.83421087 2.40839648 0.01289692 1 0 0 0
14 2 0.59413171 5.32074070 2.75469518 0.01289350 0 1 0 0
14 3 0.70640928 5.39235258 3.19338322 0.01269503 0 0 1 0
14 4 0.62540507 5.39791536 2.73541474 0.01255311 0 0 0 1
15 1 0.70960039 5.22349358 2.61702061 0.01228601 1 0 0 0
15 2 0.62260377 5.44529819 2.95232224 0.01237817 0 1 0 0
15 3 0.74306965 5.50917530 3.47252870 0.01256718 0 0 1 0
15 4 0.63985091 5.46223164 3.01631594 0.01269196 0 0 0 1
16 1 0.74697447 5.23494911 2.91738129 0.01291349 1 0 0 0
16 2 0.61285406 5.55359745 3.27993631 0.01294898 0 1 0 0
16 3 0.75429350 5.64516401 3.91158652 0.01297108 0 0 1 0
16 4 0.69813275 5.46667147 4.27899122 0.01306254 0 0 0 1
17 1 0.81564754 5.30334044 3.27748561 0.01319841 1 0 0 0
17 2 0.63987577 5.68160534 3.70696568 0.01338583 0 1 0 0
17 3 0.81182355 5.90110493 4.23934031 0.01361182 0 0 1 0
17 4 0.69549668 5.62990713 3.48335361 0.01353800 0 0 0 1
18 1 0.84910756 5.35183573 3.37630939 0.01362886 1 0 0 0
18 2 0.66610706 5.73035097 3.68710351 0.01401979 0 1 0 0
18 3 0.82361311 5.77223778 4.21130323 0.01409499 0 0 1 0
18 4 0.71349722 5.51756096 3.52143955 0.01423942 0 0 0 1
19 1 0.87685442 5.17210197 4.39531507 0.01419568 1 0 0 0
19 2 0.67969620 5.58356667 3.75331378 0.01415907 0 1 0 0
19 3 0.81007040 5.78466034 4.43317604 0.01423306 0 0 1 0
19 4 0.71948880 5.53953552 3.98764658 0.01415617 0 0 0 1
20 1 0.84437078 5.37417889 3.97319126 0.01426184 1 0 0 0
20 2 0.68406653 5.80723810 4.34946060 0.01389695 0 1 0 0
20 3 0.89883024 6.06001234 5.06670094 0.01386312 0 0 1 0
20 4 0.73912853 5.74602461 4.36355448 0.01399696 0 0 0 1
21 1 0.85256535 5.66703844 4.19112778 0.01423567 1 0 0 0
21 2 0.69459844 6.27355528 4.63667440 0.01415394 0 1 0 0
21 3 0.88925880 6.57580376 5.15262365 0.01417765 0 0 1 0
21 4 0.73861104 6.19287395 4.57044888 0.01394008 0 0 0 1
22 1 0.86724007 6.18621683 4.59979963 0.01368745 1 0 0 0
22 2 0.69785839 6.52221394 5.05689907 0.01369381 0 1 0 0
22 3 0.84755844 6.66881037 5.81978750 0.01355230 0 0 1 0
22 4 0.73958969 6.39538670 5.41910744 0.01353536 0 0 0 1
23 1 0.82811236 6.25222349 5.49710894 0.01362200 1 0 0 0
23 2 0.68105930 6.60154247 5.79531860 0.01390618 0 1 0 0
23 3 0.94196534 6.87017965 6.52311754 0.01406361 0 0 1 0
23 4 0.74517667 6.52699089 5.60170937 0.01427785 0 0 0 1
Referências Bibliográficas
Agresti, A. (2002). Categorical Data Analysis. John Wiley & Sons, New York, second
edition.
Aitkin, M.; Francis, B.; Hinde, J.; Darnell, R. (2009). Statistical modelling in R. Oxford
University Press, Oxford.
Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. Auto
Cntl AC-19, 6, 716–723.
Andrews, D. F.; Pregibon, D. (1978). Finding the outliers that matter. Journal of the
Royal Statistical Society B, 40, 87–93.
Anscombe, F. J. (1964). Normal likelihood functions. Ann. Inst. Statist. Math., 16, 1–19.
Ashton, W. D. (1972). The Logit Transformation with Special Reference to its Uses in
Bioassay. Griffin, London.
Atkinson, A. C. (1981). Robustness, transformations and two graphical displays for outly-
ing and influential observations in regression. Biometrika, 68, 13–20.
241
242 Gauss M. Cordeiro & Clarice G.B. Demétrio
Atkinson, A. C.; Davison, A. C.; Nelder, J. A.; O’Brien, C. M. (1989). Model Checking.
Imperial College, London.
Belsley, D. A.; Kuh, E.; Welsch, R. E. (1980). Regression diagnostics: identifying influential
data and sources of collinearity. John Wiley, New York.
Bliss, C. I. (1935). The calculator of the dosage-mortality curve. Ann. Appl. Biol., 22,
134–167.
Buse, A. (1982). The likelihood ratio, wald and lagrange multiplier tests: An expository
note. The American Statistician, 36, 153–157.
Collet, D. (2002). Modelling binary data. Chapman and Hall, London, second edition.
Cook, R. D.; Weisberg, S. (1982). Residuals and influence in regression. Chapman and
Hall, London.
Cordeiro, G. M. (1983). Improved likelihood ratio statistics for generalized linear models.
J. Roy. Statist. Soc. B, 45, 401–413.
Cordeiro, G. M. (1993). Bartlett corrections and bias correction for two heteroscedastic
regression models. Communications in Statistics, Theory and Methods, 22, 169–188.
Cordeiro, G. M.; Cribari-Neto, F.; Aubin, E. Q.; Ferrari, S. L. P. (1995). Bartlett correc-
tions for one-parameter exponential family models. Journal of Statistical Computation
and Simulation, 53, 211–231.
Cox, D. R. (1972). Regression models and life tables (with discussion). J. R. Statist. Soc.
B, 74, 187–220.
Dey, D. K.; Gelfand, A. E.; Peng, F. (1997). Overdispersion generalized linear models.
Journal of Statistical Planning and Inference, 68, 93–107.
Dyke, G.; Patterson, H. (1952). Analysis of factorial arrangements when the data are
proportions. Biometrics, 8, 1–12.
Fahrmeir, L.; Kaufmann, H. (1985). Consistency and asymptotic normality of the max-
imum likelihood estimator in generalized linear models. The Annals of Statistics, 13,
342–368.
Feigl, P.; Zelen, M. (1965). Estimation of exponential survival probabilities with concomi-
tant information. Biometrics, 21, 826–838.
Finney, D. (1971). Probit Analysis. Cambridge University Press, London, third edition.
Firth, D. (1991). Generalized linear models. In Hinkley, D.; Reid, N.; Snell, E., editors,
Statistical Theory and Modelling, pages 55–82. Chapman & Hall.
Fisher, R. (1925). Statistical methods for research workers. Oliver and Boyd, Edinburgh.
Fisher, R. (1935). The case of zero survivors (appendix to bliss, c.i. (1935)). Ann. Appl.
Biol., 22, 164–165.
Modelos Lineares Generalizados 245
Fisher, R.; Yates, F. (1970). Statistical Tables for Biological, Agricultural and Medical
Research. Oliver and Boyd, Edinburgh.
Folks, J.; Chhikara, R. (1978). The inverse gaussian distribution and its statistical appli-
cation, a review. J. R. Statist. Soc. B, 40, 263–289.
Francis, B.; Green, M.; Payne, C. (1993). The GLIM system generalized linear iteractive
modelling. Oxford University Press, Oxford.
Gasser, M. (1967). Exponential survival with covariance. Journal of the American Statis-
tical Association, 62, 561–568.
Haberman, S. (1970). The general log-linear model. PhD dissertation. Univ. of Chicago
Press, Chicago, Illinois.
Haberman, S. (1974). The analysis of frequence data. Univ. of Chicago Press, Chicago,
Illinois.
Haberman, S. (1978). Analysis of quantitative data, volume 1. Academic Press, New York.
Hardin, J. W.; Hilbe, J. M. (2007). Generalized Linear Models and Extensions. Stata,
Texas, 2 edition.
Larsen, W. A.; McCleary, S. J. (1972). The use of partial residual plots in regression
analysis. Technometrics, 14, 781–790.
Lee, Y.; Nelder, J. A.; Pawitan, Y. (2006). Generalized Linear Models with Random Effects.
Unified Analysis via H-likelihood. Chapman & Hall/CRC, London.
Mantel, N.; Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospec-
tive studies of disease. J. Nat. Cancer Inst., 22, 719–748.
Martin, J. T. (1942). The problem of the evaluation of rotenone-containing plants. vi: The
toxicity of 1-elliptone and of poisons applied jointly, with further observations on the
rotenone equivalent method of assessing the toxicity of derris root. Annals of Applied
Biology, 29, 69–81.
McCullagh, P.; Nelder, J. A. (1989). Generalized Linear Models. Chapman and Hall,
London, second edition.
McCulloch, C. E.; Searle, S. R. (2000). Generalized, Linear, and Mixed Models. John
Wiley & Sons, New York.
Molenberghs, G.; Verbeke, G. (2005). Models for discrete longitudinal data. Springer-
Verlag, New York.
Myers, R. H.; Montgomery, D. C.; Vining, G. G. (2002). Generalized Linear Models: With
Applications in Engineering and the Sciences. John Willey, New York.
Modelos Lineares Generalizados 247
Nelder, J. A. (1966). Inverse polynomials, a useful group of multifactor response functions.
Biometrics, 22, 128–141.
Phelps, K. (1982). Use of the complementary log-log function to describe dose response
relationship in inseticide evaluation field trials. In GLIM 82: Proceedings of the Interna-
tional Conference on Generalized Linear Models. Lecture notes in Statistics, volume 14,
pages 155–163. Springer-Verlag, New York.
Pregibon, D. (1979). Data analytic methods for generalized linear models. PhD Thesis.
University of Toronto, Toronto.
Pregibon, D. (1980). Goodness of link tests for generalized linear models. Appl. Statist.,
29, 15–24.
R Development Core Team (2008). R: A Language and Environment for Statistical Com-
puting. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
Rao, C. R. (1973). Linear statistical inference and its applications. John Wiley, New York.
Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Dan-
marks Paedogogiske Institut, Copenhagen.
Ridout, M. S. (1990). Using Generalized Linear Models to Analyze Data from Agricul-
tural, and Horticultural Experiments. Departamento de Matemática e Estatı́stica da
ESALQ/USP, Piracicaba (não publicado).
Ridout, M. S.; Demétrio, C. G. B. (1992). Generalized linear models for positive count
data. Revista de Matemática e Estatı́stica, 10, 139–148.
248 Gauss M. Cordeiro & Clarice G.B. Demétrio
Ridout, M. S.; Demétrio, C. G. B.; Hinde, J. (1998). Models for count data with many
zeros. Proceedings of XIXth International Biometrics Conference, Cape Town, Invited
Papers, pages . 179–192.
Ridout, M. S.; Hinde, J.; Demétrio, C. G. B. (2001). A score test for testing a zero-
inflated poisson regression model against zero-inflated negative binomial alternatives.
Biometrics, 57, 219–223.
Ryan, B. F.; Joiner, B. L.; Ryan Jr., T. A. (1976). Minitab Student Handbook. Duxbury
Press, New York.
Silveira Neto, S.; Nakano, O.; Barbin, D.; Villa Nova, N. (1976). Manual de Ecologia dos
Insetos. Ed. Agronômica ’Ceres’, São Paulo.
Silvey, S. (1975). Statistical Inference. Chapman and Hall’, London, second edition.
Smyth, G. (1989). Generalized linear models with varying dispersion. Journal of the Royal
Statistical Society B, 51, 47–60.
Vieira, A.; Hinde, J.; Demétrio, C. (2000). Zero-inflated proportion data models applied
to a biological control assay. Journal of Applied Statistics, 27, 373–389.
Wald, A. (1943). Tests of statistical hypotheses concerning several parameters when the
number of observations is large. Trans. Amer. Math. Soc., 54, 426–482.
Modelos Lineares Generalizados 249
Wang, P. (1985). Adding a variable in generalized linear models. Technometrics, 27,
273–276.
Wang, P. (1987). Residual plots for detecting nonlinearity in generalized linear models.
Technometrics, 29, 435–438.
Weisberg, S. (2005). Applied linear regression. John Wiley, New York, third edition.
Wilks, S. (1937). The large sample distribution of the likelihood ratio for testing composite
hypotheses. Ann. Math. Statist., 9, 60–62.
Zippin, C.; Armitage, P. (1966). Use of concomitant variables and incomplete survival
information in the estimation of an exponential survival parameter. Biometrics, 22,
665–672.