Clarice

Modelos Lineares Generalizados e
Extensões
Gauss Moutinho Cordeiro

Departamento de Estatı́stica e Informática, UFRPE,
Rua Dom Manoel de Medeiros, s/n
50171-900, Recife, PE
Email: gauss@deinfo.ufrpe.br
Clarice G.B. Demétrio

Departamento de Ciências Exatas, ESALQ, USP
Caixa Postal 9
13418-900, Piracicaba, SP
Email: clarice@esalq.usp.br
18 de outubro de 2010
ii Gauss M. Cordeiro & Clarice G.B. Demétrio
Prefácio
Este livro é resultante de vários anos de ensino de cursos e minicursos sobre

modelos lineares generalizados e tem como objetivo apresentar noções gerais desses
modelos, algumas de suas extensões e aplicações. Enumerar as pessoas a quem deve-
mos agradecimentos é uma tarefa difı́cil, pois são muitos aqueles que contribuı́ram de
forma direta ou indireta para a elaboração deste material. Agradecemos a Eduardo
Bonilha, funcionário do Departamento de Ciências Exatas da ESALQ/USP, o auxı́lio
na digitação, e a todos que nos ajudaram lendo versões anteriores, cuidadosamente,
e dando sugestões muito proveitosas. Agradecemos, também, ao CNPq, à CAPES e
à FAPESP por financiamentos de projetos que trouxeram contribuições importantes
para a elaboração deste livro.
Finalmente, assumimos total responsabilidade pelas imperfeições e solicita-
mos aos leitores que nos apresentem crı́ticas e sugestões para uma futura edição
revisada.
Gauss Moutinho Cordeiro
Clarice Garcia Borges Demétrio
Piracicaba, agosto de 2010
Sumário
1 Famı́lia exponencial de distribuições 1

1.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Famı́lia exponencial uniparamétrica . . . . . . . . . . . . . . . . . . . 2
1.3 Componente aleatório . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Função geradora de momentos . . . . . . . . . . . . . . . . . . . . . . 8
1.5 Estatı́stica suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.6 Famı́lia exponencial multiparamétrica . . . . . . . . . . . . . . . . . . 13
1.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Modelo Linear Generalizado 23

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Exemplos de motivação . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Definição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
2.4 Modelos especiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.1 Modelo clássico de regressão . . . . . . . . . . . . . . . . . . . 44
2.4.2 Modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 46
2.4.3 Modelo binomial . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4.3.1 Dados na forma de proporções . . . . . . . . . . . . . 49
2.4.3.2 Dados binários agrupados . . . . . . . . . . . . . . . 51
2.4.4 Modelo gama . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.4.5 Modelo normal inverso . . . . . . . . . . . . . . . . . . . . . . 54
2.4.6 Modelo binomial negativo . . . . . . . . . . . . . . . . . . . . 55
iii
iv Gauss M. Cordeiro & Clarice G.B. Demétrio
2.4.7 Modelo secante hiperbólico generalizado . . . . . . . . . . . . 56
2.4.8 Modelos definidos por transformações . . . . . . . . . . . . . . 57
2.5 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.5.1 Formulação de modelos . . . . . . . . . . . . . . . . . . . . . . 58
2.5.2 Ajuste dos modelos . . . . . . . . . . . . . . . . . . . . . . . . 63
2.5.3 Inferência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3 Estimação 69
3.1 Estatı́sticas suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.2 O algoritmo de estimação . . . . . . . . . . . . . . . . . . . . . . . . 71
3.3 Estimação em modelos especiais . . . . . . . . . . . . . . . . . . . . . 77
3.4 Resultados adicionais na estimação . . . . . . . . . . . . . . . . . . . 79
3.5 Seleção do modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.6 Considerações sobre a função de verossimilhança . . . . . . . . . . . . 85
3.7 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4 Métodos de Inferência 93
4.1 Distribuição dos estimadores dos parâmetros . . . . . . . . . . . . . . 93
4.2 Função desvio e estatı́stica de Pearson generalizada . . . . . . . . . . 99
4.3 Análise do desvio e seleção de modelos . . . . . . . . . . . . . . . . . 109
4.4 Estimação do parâmetro de dispersão . . . . . . . . . . . . . . . . . . 113
4.5 Comparação dos três métodos de estimação do parâmetro de dispersão
no modelo gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
4.6 Testes de hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
4.6.1 Teste de uma hipótese nula simples . . . . . . . . . . . . . . . 117
4.6.2 Teste de uma hipótese nula composta . . . . . . . . . . . . . . 119
4.7 Regiões de confiança . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
4.8 Seleção de variáveis explanatórias . . . . . . . . . . . . . . . . . . . . 123
4.9 Método das variáveis explanatórias adicionais . . . . . . . . . . . . . 125
Modelos Lineares Generalizados v
4.10 Seleção da função de ligação . . . . . . . . . . . . . . . . . . . . . . . 127
4.11 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5 Resı́duos e Diagnósticos 135

5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
5.2 Técnicas para verificar o ajuste de um modelo . . . . . . . . . . . . . 136
5.3 Análise de resı́duos e diagnóstico para o modelo clássico de regressão 137
5.3.1 Tipos de resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.3.2 Estatı́sticas para diagnósticos . . . . . . . . . . . . . . . . . . 140
5.3.3 Tipos de gráficos . . . . . . . . . . . . . . . . . . . . . . . . . 144
5.4 Análise de resı́duos e diagnóstico para modelos lineares generalizados 150
5.4.1 Tipos de resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . 151
5.4.2 Tipos de gráficos . . . . . . . . . . . . . . . . . . . . . . . . . 156
5.4.3 Resı́duos de Pearson estudentizados . . . . . . . . . . . . . . . 159
5.5 Verificação da função de ligação . . . . . . . . . . . . . . . . . . . . . 161
5.6 Verificação da função de variância . . . . . . . . . . . . . . . . . . . . 164
5.7 Verificação das escalas das variáveis explanatórias . . . . . . . . . . . 165
5.8 Verificação de anomalias no componente sistemático, usando-se
análise dos resı́duos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.9 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
6 Aplicações a Dados Contı́nuos 177

6.1 Dados de volume de árvores . . . . . . . . . . . . . . . . . . . . . . . 177
6.2 Dados de gordura no leite . . . . . . . . . . . . . . . . . . . . . . . . 180
6.3 Dados de importação Brasileira . . . . . . . . . . . . . . . . . . . . . 185
6.4 Dados de tempos de sobrevivência de ratos . . . . . . . . . . . . . . . 190
6.5 Dados de assinaturas de TV a cabo . . . . . . . . . . . . . . . . . . . 194
6.6 Dados de demanda de energia elétrica . . . . . . . . . . . . . . . . . . 197
vi Gauss M. Cordeiro & Clarice G.B. Demétrio
7 Aplicações a Dados Discretos 201
7.1 Dados binários e proporções . . . . . . . . . . . . . . . . . . . . . . . 201
7.1.1 Estimação da dose efetiva e seu intervalo de confiança . . . . . 201
7.1.2 Probabilidade de resposta a uma dose especificada . . . . . . . 206
7.1.3 Paralelismo entre retas no modelo logı́stico linear . . . . . . . 207
7.1.4 Outros exemplos . . . . . . . . . . . . . . . . . . . . . . . . . 214
7.2 Dados de contagem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
7.2.1 Modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . . . 220
7.2.2 Modelos log-lineares para tabelas 2 × 2 . . . . . . . . . . . . . 226
7.3 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
Capı́tulo 1
Famı́lia exponencial de
distribuições
1.1 Introdução
Muitas das distribuições conhecidas podem ser colocadas em uma famı́lia

paramétrica denominada famı́lia exponencial de distribuições. Assim, por exemplo,
pertencem à essa famı́lia as distribuições normal, binomial, binomial negativa, gama,
Poisson, normal inversa, multinomial, beta, logarı́tmica, entre outras. Essa classe de
distribuições foi proposta independentemente por Koopman, Pitman e Darmois ao
estudarem as propriedades de suficiência estatı́stica. Posteriormente, muitos outros
aspectos dessa famı́lia foram estudados e tornaram-se importantes na teoria moderna
de Estatı́stica. O conceito de famı́lia exponencial foi introduzido na Estatı́stica por
Fisher, mas os modelos da famı́lia exponencial surgiram na Mecânica Estatı́stica
no final do século XIX e foram desenvolvidos por Maxwell, Boltzmann e Gibbs. A
importância da famı́lia exponencial de distribuições teve maior destaque, na área
dos modelos de regressão, a partir do trabalho pioneiro de Nelder e Wedderburn
(1972) que definiram os modelos lineares generalizados (MLG). Na década de 80,
esses modelos popularizaram-se, inicialmente, no Reino Unido, e, posteriormente,
nos Estados Unidos e na Europa.
1
2 Gauss M. Cordeiro & Clarice G.B. Demétrio
1.2 Famı́lia exponencial uniparamétrica

A famı́lia exponencial uniparamétrica é caracterizada por uma função (de
probabilidade ou densidade) especificada na forma
f (x; θ) = h(x) exp [ η(θ) t(x) − b(θ) ], (1.1)
em que as funções η(θ), b(θ), t(x) e h(x) têm valores em subconjuntos dos reais. As
funções η(θ), b(θ) e t(x) não são únicas. Por exemplo, η(θ) pode ser multiplicada
por uma constante k e t(x) pode ser dividida pela mesma constante.
Várias distribuições importantes podem ser expressas na forma (1.1), tais
como: Poisson, binomial, Rayleigh, normal, gama e normal inversa (as três últimas
com a suposição de que um dos parâmetros é conhecido). Cordeiro et al. (1995)
apresentam 24 distribuições na forma (1.1). O suporte da famı́lia exponencial (1.1),
isto é, {x; f (x; θ) > 0}, não pode depender de θ. Assim, a distribuição uniforme
em (0, θ) não é um modelo da famı́lia exponencial. Pelo teorema da fatoração de
Neyman-Fisher, a estatı́stica t(X) é suficiente para θ.
É fácil comprovar se uma distribuição pertence, ou não, à famı́lia exponen-
cial (1.1), como é demonstrado nos três exemplos que se seguem.
Exemplo 1.1: A distribuição de Poisson P(θ) de parâmetro θ > 0, usada para

análise de dados na forma de contagens, tem função de probabilidade
e−θ θx 1
f (x; θ) = = exp[x log(θ) − θ]
x! x!
e, portanto, é um membro da famı́lia exponencial (1.1) com η(θ) = log(θ), b(θ) = θ,
t(x) = x e h(x) = 1/x!.
Exemplo 1.2: A distribuição binomial B(m, θ), com 0 < θ < 1 e m, o número
conhecido de ensaios independentes, é usada para análise de dados na forma de
proporções e tem função de probabilidade
( ) ( ) [ ( ) ]
m x m θ
f (x; θ) = θ (1 − θ) m−x
= exp x log + m log(1 − θ)
x x 1−θ
Modelos Lineares Generalizados 3
( )
m
com η(θ) = log[θ/(1 − θ)], b(θ) = −m log(1 − θ), t(x) = x e h(x) = , sendo,
x
portanto, um membro da famı́lia exponencial (1.1).
Exemplo 1.3: A distribuição de Rayleigh, usada para análise de dados contı́nuos

positivos, tem função densidade (x > 0, θ > 0)
( ) [ ]
x x2 1 2
f (x; θ) = 2 exp − 2 = x exp − 2 x − 2 log(θ) ,
θ 2θ 2θ
e, portanto, pertence à famı́lia exponencial (1.1) com η(θ) = −1/(2θ2 ),
b(θ) = 2 log(θ), t(x) = x2 e h(x) = x.
A famı́lia exponencial na forma canônica é definida por (1.1), considerando

que as funções η(θ) e t(x) são iguais à função identidade, de forma que
f (x; θ) = h(x) exp[θx − b(θ)]. (1.2)
Na parametrização (1.2), θ é denominado de parâmetro canônico. O logaritmo da

função de verossimilhança correspondente a uma única observação no modelo (1.2)
é expresso como
ℓ(θ) = θx − b(θ) + log[h(x)]
e, portanto, a função escore U = U (θ) = dℓ(θ)/dθ resulta em U = x − b′ (θ).

É fácil verificar das propriedades da função escore, E(U ) = 0 e Var(U ) =
[ 2 ]
−E d ℓ(θ)/dθ2 (a última igualdade é a informação de Fisher), que
E(X) = b′ (θ) e Var(X) = b′′ (θ). (1.3)
O simples fato de se calcularem momentos da famı́lia exponencial (1.2) em

termos de derivadas da função b(θ) (denominada de função geradora de cumulantes)
em relação ao parâmetro canônico θ é muito importante na teoria dos modelos linea-
res generalizados, principalmente, no contexto assintótico.
Suponha que X1 , . . . , Xn sejam n variáveis aleatórias independentes e iden-
ticamente distribuı́das (i.i.d.) seguindo (1.1). A distribuição conjunta de X1 , . . . , Xn
é expressa por
[ ] [ ]
∏
n ∑
n
f (x1 , . . . , xn ; θ) = h(xi ) exp η(θ) t(xi ) − nb(θ) . (1.4)
i=1 i=1
A equação (1.4) implica que a distribuição conjunta de X1 , . . . , Xn é,

∑
n
também, um modelo da famı́lia exponencial. A estatı́stica suficiente T (Xi ) tem
i=1
dimensão um, qualquer que seja n.
É, geralmente, verdadeiro que a estatı́stica suficiente de um modelo da
famı́lia exponencial segue, também, a famı́lia exponencial. Por exemplo, se
X1 , . . . , Xn são variáveis aleatórias i.i.d. com distribuição de Poisson P(θ), então
∑n
a estatı́stica suficiente T (Xi ) tem, também, distribuição de Poisson P(nθ) e, as-
i=1
sim, é um modelo exponencial uniparamétrico.
1.3 Componente aleatório

Como será visto, na Seção 2.3, o componente aleatório de um MLG é definido
a partir da famı́lia exponencial uniparamétrica na forma canônica (1.2) com a in-
trodução de um parâmetro ϕ > 0 de perturbação, que é uma medida de dispersão
da distribuição. Nelder e Wedderburn (1972) ao proporem essa modelagem, con-
seguiram incorporar distribuições biparaméticas no componente aleatório do modelo.
Tem-se,
{ }
f (y; θ, ϕ) = exp ϕ−1 [yθ − b(θ)] + c(y, ϕ) , (1.5)
em que b(·) e c(·) são funções conhecidas. Quando ϕ é conhecido, a famı́lia de

distribuições (1.5) é idêntica à famı́lia exponencial na forma canônica (1.2). Na Seção
1.4, será demonstrado que o valor esperado e a variância de Y com distribuição na
famı́lia (1.5) são
E(Y ) = µ = b′ (θ) e Var(Y ) = ϕ b′′ (θ).
Observa-se, a partir da expressão da variância, que ϕ é um parâmetro de

dispersão do modelo e seu inverso ϕ−1 , uma medida de precisão. A função que
relaciona o parâmetro canônico θ com a média µ é denotada por θ = q(µ) (inversa
da função b′ (·)). A função da média µ na variância é representada por b′′ (θ) = V (µ).
Denomina-se V (µ) de função de variância. Observe-se que o parâmetro canônico
∫
pode ser obtido de θ = V −1 (µ)dµ, pois V (µ) = dµ/dθ. A Tabela 1.1 apresenta
várias distribuições importantes na famı́lia (1.5), caracterizando as funções b(θ),
c(y, ϕ), a média µ em termos do parâmetro canônico θ e a função de variância
∫∞
V (µ). Nessa tabela, Γ(·) é a função gama, isto é, Γ(α) = 0 xα−1 e−x dx, α > 0. A
famı́lia de distribuições (1.5) permite incorporar distribuições que exibem assimetria
e de natureza discreta ou contı́nua e com suportes que são restritos a intervalos do
conjunto dos reais, conforme bem exemplificam as distribuições da Tabela 1.1. Essas
distribuições serão estudadas no Capı́tulo 2.
Convém salientar que se ϕ não for conhecido, a famı́lia (1.5) pode, ou não,
pertencer à famı́lia exponencial biparamétrica (Seção 1.6). Para (1.5) pertencer à
famı́lia exponencial biparamétrica quando ϕ é desconhecido, a função c(y, ϕ) deve
ser decomposta, segundo Cordeiro e McCullagh (1991), como c(y, ϕ) = ϕ−1 d(y) +
d1 (y) + d2 (ϕ). Esse é o caso das distribuições normal, gama e normal inversa.
Morris (1982) demonstra que existem apenas seis distribuições na famı́lia

(1.5) cuja função de variância é uma função, no máximo, quadrática da média. Essas
distribuições são normal (V = 1), gama (V = µ2 ), binomial (V = µ(1 − µ)), Poisson
(V = µ), binomial negativa (V = µ + µ2 /k) e a sexta, chamada secante hiperbólica
generalizada (V = 1 + µ2 ), cuja função densidade é igual a
1 ( πy )
f (y; θ) = exp[θy + log(cos θ)] cosh , y ∈ R, θ > 0. (1.6)
2 2
A distribuição secante hiperbólica generalizada (1.6) compete com a

distribuição normal na análise de observações contı́nuas irrestritas. A seguir,
apresentam-se duas distribuições que são membros da famı́lia (1.5).
Exemplo 1.4: A distribuição normal N(µ, σ 2 ), de média µ ∈ R e variância σ 2 > 0,

6
Distribuição ϕ θ b(θ) c(y, ϕ) µ(θ) V (µ)

[ ]
2 2 θ2 1 y2 2
Normal: N(µ, σ ) σ µ − + log(2πσ ) θ 1
2 2 σ2
Poisson: P(µ) 1 log(µ) eθ − log(y!) eθ µ

( ) ( )
µ θ m meθ µ
Binomial: B(m, π) 1 log m log(1 + e ) log (m − µ)
m−µ y 1 + eθ m
( ) [ ] )
µ Γ(k + y) keθ (µ
Binomial Negativa: BN(µ, k) 1 log −k log(1 − eθ ) log µ +1
µ+k Γ(k)y! 1 − eθ k
1 1
Gama: G(µ, ν) ν −1 − − log(−θ) ν log(νy) − log(y) − log Γ(ν) − µ2
µ θ
[ ]
1 1 2 3 1
Normal Inversa: IG(µ, σ 2 ) σ2 − 2 −(−2θ)1/2 − log(2πσ y ) + 2 (−2θ)−1/2 µ3
2µ 2 σ y
Tabela 1.1: Algumas distribuições importantes na famı́lia (1.5).
Gauss M. Cordeiro & Clarice G.B. Demétrio
tem função densidade de probabilidade (f.d.p.) expressa como
[ ]
1 (y − µ)2
f (y; µ, σ ) = √
2
exp − .
2πσ 2 2σ 2
Tem-se, então,
[ ]
(y − µ)2 1
f (y; µ, σ ) = exp −
2
− log(2πσ )
2
2σ 2 2
[ ( 2
) ]
1 µ 1 y2
= exp 2 yµ − − log(2πσ ) − 2 ,
2
σ 2 2 2σ
obtendo-se os elementos da primeira linha da Tabela 1.1, isto é,

[ ]
µ2 θ2 1 y2
2
θ = µ, ϕ = σ , b(θ) = = e c(y, ϕ) = − 2
+ log(2πσ ) ,
2 2 2 σ2
o que mostra que a distribuição N(µ, σ 2 ) pertence à famı́lia (1.5).
Exemplo 1.5: A distribuição binomial tem função de probabilidade

( )
m y
f (y; π) = π (1 − π)m−y , π ∈ [0, 1], y = 0, 1, . . . , m.
y
Tem-se, então,
[ ( ) ]
m
f (y; π) = exp log + y log(π) + (m − y) log(1 − π)
y
[ ( ) ( )]
π m
= exp y log + m log(1 − π) + log ,
1−π y
obtendo-se os elementos da terceira linha da Tabela 1.1, isto é,

( ) ( )
π µ meθ
ϕ = 1, θ = log = log ,
, o que implica em µ =
1−π m−µ (1 + eθ )
( )
m
b(θ) = −m log(1 − π) = m log (1 + e ) e c(y, ϕ) = log
θ
y
e, portanto, a distribuição binomial pertence à famı́lia exponencial (1.5).

Outras distribuições importantes podem ser expressas na forma (1.5) como
os modelos exponenciais de dispersão descritos na Seção ??.
1.4 Função geradora de momentos

A função geradora de momentos (f.g.m.) da famı́lia (1.5) é igual a
( ) { }
M (t; θ, ϕ) = E etY = exp ϕ−1 [b(ϕt + θ) − b(θ)] . (1.7)
Prova: A prova será feita apenas para o caso de variáveis aleatórias contı́nuas. No
caso discreto, basta substituir a integral pelo somatório. Sabe-se que
∫
f (y; θ, ϕ)dy = 1,
e, portanto, ∫
{ }
exp ϕ−1 [θy − b(θ)] + c(y, ϕ) dy = 1,
obtendo-se
∫
[ ] [ ]
exp ϕ−1 θy + c(y, ϕ) dy = exp ϕ−1 b(θ) . (1.8)
Logo,
∫
( tY
)
M (t; θ, ϕ) = E e = exp(ty)f (y)dy
∫
{ }
= exp ϕ−1 [(ϕt + θ)y − b(θ)] + c(y, ϕ) dy
∫
1 [ −1 ]
= exp ϕ (ϕt + θ)y + c(y, ϕ) dy
exp [ϕ−1 b(θ)]
e, usando-se a equação (1.8), tem-se
{ }
M (t; θ, ϕ) = exp ϕ−1 [b(ϕt + θ) − b(θ)] .
A função geradora de cumulantes (f.g.c.) correspondente é, então,
φ(t; θ, ϕ) = log[M (t; θ, ϕ)] = ϕ−1 [b(ϕt + θ) − b(θ)]. (1.9)
A f.g.c. desempenha um papel muito mais importante do que a f.g.m. na Es-

tatı́stica, pois uma grande parte da teoria assintótica depende de suas propriedades.
Derivando-se (1.9), sucessivamente, em relação a t, tem-se
φ(r) (t; θ, ϕ) = ϕr−1 b(r) (ϕt + θ),

em que b(r) (·) indica a derivada de r-ésima ordem de b(·) em relação a t. Para t = 0,
obtém-se o r-ésimo cumulante da famı́lia (1.5) como
κr = ϕr−1 b(r) (θ). (1.10)
Como enfatizado anteriormente, podem-se deduzir, a partir da equação

(1.10), o valor esperado κ1 e a variância κ2 da famı́lia (1.5) para r = 1 e 2, res-
pectivamente. Tem-se que κ1 = µ = b′ (θ) e κ2 = ϕ b′′ (θ) = ϕ dµ/dθ.
A expressão (1.10) mostra que existe uma relação interessante de recorrência
entre os cumulantes da famı́lia (1.5), isto é, κr+1 = ϕ dκr /dθ para r = 1, 2, . . . Esse
fato é fundamental para a obtenção de propriedades assintóticas dos estimadores de
máxima verossimilhança nos MLG.
Podem-se, alternativamente, deduzir essas expressões, usando-se as pro-
priedades da função escore. Seja ℓ = ℓ(θ, ϕ) = log[f (y; θ, ϕ)] o logaritmo da função
de verossimilhança correspondente a uma única observação em (1.5). Tem-se
dℓ d2 ℓ
U= = ϕ−1 [y − b′ (θ)] e U ′ = 2 = −ϕ−1 b′′ (θ).
dθ dθ
Logo,
E(U ) = ϕ−1 [E(Y ) − b′ (θ)] = 0 que implica em E(Y ) = b′ (θ)
e, assim,
Var(U ) = −E(U ′ ) = ϕ−1 b′′ (θ) e Var(U ) = E(U 2 ) = ϕ−2 Var(Y ).
Então,
Var(Y ) = ϕ b′′ (θ).
Exemplo 1.6: Considerando-se o Exemplo 1.4 da distribuição normal, tem-se que

ϕ = σ 2 , θ = µ e b(θ) = θ2 /2. Da equação (1.9), obtém-se a f.g.c.
[ ]
1 (σ 2 t + θ)2 θ2
φ(t) = −
σ2 2 2
1( 2 2 ) σ 2 t2
= σ t + 2tθ = tµ + .
2 2
Note que, derivando-se φ(t) e fazendo-se t = 0, tem-se que κ1 = µ, κ2 = σ 2 e κr = 0,
r ≥ 3. Assim, todos os cumulantes da distribuição normal de ordem maior do que
dois são nulos.
Logo, a f.g.m. é igual a
( )
σ 2 t2
M (t) = exp tµ + .
2
Exemplo 1.7: Considere o Exemplo 1.5 da distribuição binomial. Tem-se que

ϕ = 1, θ = log[µ/(m − µ)] e b(θ) = −m log(1 − π) = m log(1 + eθ ).
Logo, usando-se a f.g.c. (1.9), tem-se
[ ]
φ(t) = m log(1 + et+θ ) − log(1 + eθ )
( )m ( )m
1 + et+θ m−µ µ t
= log = log + e .
1 + eθ m m
Assim, a f.g.m. é
( )m
φ(t) m−µ µ
M (t) = e = + et .
m m
A Tabela 1.2 apresenta as funções geradoras de momentos para as dis-

tribuições especificadas na Tabela 1.1.
Pode-se demonstrar, que especificando a forma da função µ = q −1 (θ),
a distribuição em (1.5) é univocamente determinada. Assim, uma relação fun-
cional variância-média caracteriza a distribuição na famı́lia (1.5). Entretanto,
essa relação não caracteriza a distribuição na famı́lia exponencial não-linear
π(y; θ, ϕ) = exp {ϕ−1 [t(y)θ − b(θ)] + c(y, ϕ)}. Esse fato é comprovado com os três
exemplos que se seguem.
Exemplo 1.8: Se Y tem distribuição beta com parâmetros ϕ−1 µ e ϕ−1 (1 − µ) e

f.d.p. expressa por
−1 −1
y ϕ µ−1 (1 − y)ϕ (1−µ)−1
f (y; µ, ϕ) = ,
B[ϕ−1 µ, ϕ−1 (1 − µ)]
Tabela 1.2: Funções geradoras de momentos para algumas distribuições.
Distribuição Função geradora de momentos M (t; θ, ϕ)

( )
σ 2 t2
Normal: N(µ, σ 2 ) exp tµ +
2
[ ]
Poisson: P(µ) exp µ(et − 1)
( )
m−µ µ t m
Binomial: B(m, π) + e
m m
[ µ ]−k
Bin. Negativa: BN(µ, k) 1 + (1 − et )
k
( )
tµ −ν ν
Gama: G(µ, ν) 1− , t<
ν µ
{ [ ( )1/2 ]}
1 1 1 1
Normal Inversa: IG(µ, σ 2 ) exp 2
− 2
− 2tσ 2 , t< 2 2
σ µ µ 2σ µ
∫∞
em que B(a, b) = 0
xa−1 (1 − x)b−1 dx é a função beta completa, tem-se que
t(y) = log[y/(1 − y)], θ = µ e Var(Y ) = ϕµ(1 − µ)/(1 + ϕ), obtendo-se uma função
de variância do mesmo tipo que a do modelo binomial.
Exemplo 1.9: Se Y tem distribuição de Euler com média µ e f.d.p.
f (y; µ) = exp{µ log(y) − µ − log[Γ(µ)]},
tem-se que t(y) = log(y), θ = µ e Var(Y ) = µ que é do mesmo tipo que a função de
variância do modelo de Poisson.
Exemplo 1.10: Se Y tem distribuição log normal de parâmetros α e σ 2 e f.d.p.

{ }
1 [log(y) − α]2
f (y; α, σ ) = √ exp −
2
,
yσ 2π 2σ 2
então, podem-se obter E(Y ) = µ = exp(α + σ 2 /2), t(y) = log(y), θ = α/σ 2 e
Var(Y ) = µ2 [exp(σ 2 ) − 1], que é do mesmo tipo que a função de variância do modelo
gama.
1.5 Estatı́stica suficiente

Uma estatı́stica T = T (Y) é suficiente para um parâmetro θ (que pode ser
um vetor) quando resume toda informação sobre esse parâmetro contida na amostra
Y. Se T é suficiente para θ, então, a distribuição condicional de Y dada a estatı́stica
T (Y) é independente de θ, isto é,
P(Y = y|T = t, θ) = P(Y = y|T = t).
O critério da fatoração é uma forma conveniente de caracterizar uma es-

tatı́stica suficiente. Uma condição necessária e suficiente para T ser suficiente para
um parâmetro θ é que a função (densidade ou de probabilidade) fY (y; θ) possa ser
decomposta como
fY (y; θ) = h(y)g(t, θ),
em que t = T (y) e h(y) não dependem de θ. Esse resultado é valido para os casos
discreto e contı́nuo.
Seja Y1 , . . . , Yn uma amostra aleatória (a.a.) de uma distribuição que per-
tence à famı́lia (1.5). A distribuição conjunta de Y1 , . . . , Yn é expressa por
∏
n ∏
n
{ }
f (y; θ, ϕ) = f (yi ; θ, ϕ) = exp ϕ−1 [yi θ − b(θ)] + c(yi , ϕ)
i=1
{ [ i=1
]} [ ]
∑
n ∑
n
= exp ϕ−1 θ yi − n b(θ) exp c(yi , ϕ) .
i=1 i=1
Pelo teorema da fatoração de Neyman-Fisher e supondo ϕ conhecido, tem-se

∑
n
que T = Yi é uma estatı́stica suficiente para θ, pois
i=1
f (y; θ, ϕ) = g(t, θ) h(y1 , . . . , yn ),
sendo que g(t, θ) depende de θ e dos y’s apenas por meio de t e h(y1 , . . . , yn ) independe
de θ.
Esse fato revela que, se uma distribuição pertence à famı́lia exponencial
uniparamétrica, então, existe uma estatı́stica suficiente. Na realidade, usando-se o
∑
n
Teorema de Lehmann-Scheffé (Mendenhall et al., 1981) mostra-se que T = Yi é
i=1
uma estatı́stica suficiente minimal.
1.6 Famı́lia exponencial multiparamétrica

A famı́lia exponencial multiparamétrica de dimensão k é caracterizada por
uma função (de probabilidade ou densidade) da forma
[ k ]
∑
f (x; θ) = h(x) exp ηi (θ)ti (x) − b(θ) , (1.11)
i=1
em que θ é um vetor de parâmetros, usualmente, de dimensão k, e as funções

ηi (θ), b(θ), ti (x) e h(x) têm valores em subconjuntos dos reais. Obviamente,
a forma (1.1) é um caso especial de (1.11). Pelo teorema da fatoração, o ve-
tor T = [T1 (X), · · · , Tk (X)]T é suficiente para o vetor de parâmetros θ. Quando
ηi (θ) = θi , i = 1, · · · , k, obtém-se de (1.11) a famı́lia exponencial na forma canônica
com parâmetros canônicos θ1 , · · · , θk e estatı́sticas canônicas T1 (X), · · · , Tk (X).
Tem-se,
[ ]
∑
k
f (x; θ) = h(x) exp θi ti (x) − b(θ) . (1.12)
i=1
É fácil verificar (Exercı́cio 12) que as distribuições normal, gama, normal

inversa e beta pertencem à famı́lia exponencial biparamétrica canônica (1.12) com
k = 2.
Gelfand e Dalal (1990) estudaram a famı́lia exponencial biparamétrica
f (x; θ, τ ) = h(x) exp[θx + τ t(x) − b(θ, τ )], que é um caso especial de (1.11), com
k = 2. Essa famı́lia tem despertado interesse, recentemente, como o componente
aleatório dos MLG superdispersos (Dey et al., 1997). Dois casos especiais impor-
tantes dessa famı́lia são diretamente obtidos:
a. a famı́lia exponencial canônica uniparamétrica (1.2) surge, naturalmente, quando

τ = 0;
b. o componente aleatório (1.5) dos MLG é obtido incorporando o parâmetro de
dispersão ϕ.
Exemplo 1.11: Considere a distribuição multinomial com função de probabilidade
n!
f (x; π) = π x1 . . . πkxk ,
x1 ! . . . x k ! 1
∑
k ∑
k
em que xi = n e πi = 1. Essa distribuição pertence, obviamente, à famı́lia
i=1 i=1
exponencial canônica (1.12) com parâmetro canônico θ = [log(π1 ), . . . , log(πk )]T e
∑
k
T
estatı́stica canônica T = (X1 , . . . , Xk ) . Entretanto, devido à restrição πi =
i=1
1, a representação mı́nima da famı́lia exponencial é obtida considerando θ =
[log(π1 /πk ), . . . , log(πk−1 /πk )]T e t = (x1 , . . . , xk−1 )T , ambos vetores de dimensão
k − 1, resultando na famı́lia exponencial multiparamétrica de dimensão k − 1
[ k−1 ]
n! ∑
f (x; θ) = exp θi xi − b(θ) , (1.13)
x1 ! . . . xk ! i=1
( )
∑
k−1
com θi = log(πi /πk ), i = 1, . . . , k − 1, e b(θ) = n log 1 + θi
e .
i=1
Pode-se demonstrar que os dois primeiros momentos da estatı́stica suficiente

T = [T1 (X), · · · , Tk (X)]T na famı́lia exponencial canônica (1.12) são iguais a
∂b(θ) ∂ 2 b(θ)
E(T) = , Cov(T) = . (1.14)
∂θ ∂θ∂θ T
As expressões (1.14) generalizam (1.3). Nas equações (1.14), o vetor
∂b(θ)/∂θ de dimensão k tem um componente tı́pico E[Ti (X)] = ∂b(θ)/∂θi e a
matriz ∂ 2 b(θ)/∂θ∂θ T de ordem k tem como elemento tı́pico Cov(Ti (X), Tj (X)) =
∂ 2 b(θ)/∂θi ∂θj . Assim, os valores esperados e as covariâncias das estatı́sticas
suficientes do modelo (1.12) são facilmente obtidos por simples diferenciação. A
demonstração das equações (1.14) é proposta como Exercı́cio 19.
Exemplo 1.11 (cont.): Para o modelo multinominal (1.13), usando as equações
(1.14), têm-se
( )
∂ ∑
k−1
E(Xi ) = n log 1 + eθi
∂θi i=1
neθi n ππki
= ∑k−1 = ∑k−1 πi
= nπi
1+ i=1 eθi 1+ i=1 πk
e para i ̸= j
( )
∂2 ∑
k−1
Cov(Xi , Xj ) = n log 1 + eθi
∂θi ∂θj i=1
−neθi eθj
= ( ∑ )2 = −nπi πj
1 + k−1
i=1 e θi
e para i = j
( )
∂2 ∑
k−1
Var(Xi ) = n 2 log 1 + eθi
∂θi i=1
= nπi (1 − πi ).
Finalmente, apresenta-se mais uma distribuição na famı́lia exponencial

canônica (1.12) com k = 2.
Exemplo 1.12: Considere a distribuição Gaussiana inversa reparametrizada por

(α, β > 0)
√ [ ]
α √αβ −3/2 1 −1
f (x; α, β) = e x exp − (αx + βx) , x > 0.
2π 2
( )T
1 −1 1
Pode-se escrever essa f.d.p. na forma (1.12) com t = − x , − x , θ = (α, β)T
√ 2 2
e b(θ) = − 2 log(α) − αβ. Usando-se as equações (1.14), obtêm-se, por simples
1
diferenciação,
√ √
α β
E(X) = , E(X −1 ) = α−1 +
β α
e
 
α1/2 β −3/2 −(αβ)−1/2
Cov(X, X −1 ) =  .
−1/2 −2 −3/2 1/2
−(αβ) 2α +α β
1.7 Exercı́cios
1. Verifique se as distribuições que se seguem pertencem à famı́lia (1.5). Obtenha
φ(t), M (t), E(Y ), Var(Y ) e V(µ).
a) Poisson: Y ∼ P(µ), µ > 0
e−µ µy
f (y; µ) = , y = 0, 1, 2, . . . ;
y!
b) Binomial negativa (k fixo): Y ∼ BN(µ,k), k > 0, µ > 0
Γ(k + y) µy k k
f (y; µ, k) = , y = 0, 1, 2, . . . ;
Γ(k)y! (µ + k)k+y
c) Gama: Y ∼ G(µ, ν), ν > 0, µ > 0

( )ν
ν ( )
µ yν
f (y; µ, ν) = y ν−1
exp − , y > 0;
Γ(ν) µ
d) Normal inversa (ou inversa Gaussiana): Y ∼ IG(µ, σ 2 ), σ 2 > 0, µ > 0

( )1/2 [ ]
1 (y − µ)2
2
f (y; µ, σ ) = exp − 2 2 , y > 0.
2πσ 2 y 3 2µ σ y
2. Seja X uma v.a. com distribuição gama G(ν) de um parâmetro ν > 0, com f.d.p.
xν−1 e−x
f (x; ν) = , x > 0.
Γ(ν)
X
Sendo E(X) = ν, mostre que usando-se a transformação Y = µ, obtém-se a f.d.p.
ν
usada no item c) do Exercı́cio 1.
3. Seja Y uma v.a. com distribuição de Poisson truncada (Ridout e Demétrio, 1992)
com parâmetro λ > 0, isto é, com função de probabilidade expressa por
e−λ λy λy
f (y; λ) = = , y = 1, 2, . . .
y!(1 − e−λ ) y!(eλ − 1)
Mostre que:
a) essa distribuição é um membro da famı́lia exponencial na forma canônica;
λ
b) E(Y ) = µ = ;
1 − e−λ
( )
λ λe−λ
c) Var(Y ) = 1− = µ(1 + λ − µ);
1 − e−λ 1 − e−λ
exp (λet ) − 1
d) M (t) = .
eλ − 1
4. Seja Y uma v.a. com distribuição binomial truncada (Vieira et al., 2000) com
probabilidade de sucesso 0 < π < 1 e com função de probabilidade expressa por
(m)
y
π y (1 − π)(m−y)
f (y; π) = , y = 1, . . . , m.
1 − (1 − π)m
Mostre que:
a) essa distribuição é um membro da famı́lia exponencial na forma canônica;
mπ
b) E(Y ) = µ = ;
1 − (1 − π)m
c) Var(Y ) = µ[1 + π(m − 1) − µ];

m
(1 − π + πet ) − (1 − π)m
d) M (t) = .
1 − (1 − π)m
5. De acordo com Smyth (1989), uma distribuição contı́nua pertence à famı́lia ex-
ponencial se sua f.d.p. está expressa na forma
{ }
w
f (y; θ, ϕ) = exp [yθ − b(θ)] + c(y, ϕ) , (1.15)
ϕ
sendo b(·) e c(·) funções conhecidas, ϕ > 0, denominado parâmetro de dispersão, e w,

um peso a priori. Se a constante ϕ é desconhecida, então, a expressão (1.15) define
uma famı́lia exponencial com dois parâmetros apenas se
( )
w 1 w
c(y, ϕ) = − g(y) − s − + t(y),
ϕ 2 ϕ
sendo g(·), s(·) e t(·) funções conhecidas e, nesse caso, g ′ (·) deve ser a inversa de
b′ (·) tal que θ = g ′ (µ). Mostre que isso ocorre para as distribuições normal, normal
inversa e gama.
6. Seja Y | P ∼ B(m, P ) e P ∼ Beta(α, β), α > 0, β > 0, 0 < p < 1, isto é,
( )
m y pα−1 (1 − p)β−1
f (y | p) = p (1 − p)m−y e f (p) = ,
y B(α, β)
Γ(α)Γ(β)
sendo B(α, β) = (Hinde e Demétrio, 1998a). Mostre que:
Γ(α + β)
a) incondicionalmente, Y tem distribuição beta-binomial com f.d.p. expressa por
( )
m B(α + y, m + β − y)
f (y) = ;
y B(α, β)
α
b) E(Y ) = m = mπ e Var(Y ) = mπ(1 − π)[1 + ρ(m − 1)], sendo ρ =
α+β
1
;
α+β+1
c) a distribuição beta-binomial não pertence à famı́lia (1.5).
7. Seja Yi | Zi = zi ∼ P(zi ), i = 1, . . . , n, isto é,
e−zi ziyi
P(Yi = yi | Zi = zi ) = , yi = 0, 1, 2, . . .
yi !
Então, se:
a) Zi ∼ G(k, λi ), zi > 0, isto é, com f.d.p. expressa por

( λ )λi ( )
i
zi λ i
f (zi ; k, λi ) = k
ziλi −1 exp − ,
Γ(λi ) k
mostre que para k fixo, incondicionalmente, Yi tem distribuição binomial

negativa, que pertence à famı́lia exponencial, com E(Yi ) = kλ−1
i = µi e
Var(Yi ) = µi + k −1 µ2i ;
b) Zi ∼ G(ki , λ), zi > 0, isto é, com f.d.p. expressa por

( )λ
λ ( )
ki zi λ
f (zi ; ki , λ) = ziλ−1 exp − ,
Γ(λ) ki
mostre que para λ fixo, incondicionalmente, Yi tem distribuição binomial ne-
gativa, que não pertence à famı́lia exponencial, com E(Yi ) = ki λ−1 = µi e
Var(Yi ) = µi + λ−1 µi = ϕµi , sendo ϕ = 1 + λ−1 .
8. Uma forma geral para representar a função de probabilidade da distribuição

binomial negativa (Ridout et al., 2001) é expressa por
( )
µc
Γ y+ ( )
c−1 −y (
µc
ν µ ) −
P(Y = y) = ( c) 1+ 1 + νµ1−c ν , y = 0, 1, 2, . . .
µ ν
Γ y!
ν
a) mostre que E(Y ) = µ e Var(Y ) = µ + νµ2−c . Obtenha E(Y ) e Var(Y ) para os
casos mais comuns (c = 0 e c = 1) da distribuição binomial negativa;
b) mostre que P(Y = y) pertence à famı́lia (1.5) apenas se c = 0.
9. Uma distribuição para explicar o excesso de zeros em dados de contagem é a

distribuição de Poisson inflacionada de zeros, com função de probabilidade igual a


 ω + (1 − ω)e−λ y=0
P(Y = y) = −λ y
 e λ
 (1 − ω) y = 1, 2, . . .
y!
( )
ω
Mostre que E(Y ) = (1 − ω)λ = µ e Var(Y ) = µ + µ2 (Ridout et al., 1998).
1−ω
10. Uma distribuição alternativa para explicar o excesso de zeros em dados na forma
de contagens é a distribuição binomial negativa inflacionada de zeros (Ridout et al.,
1998), com função de probabilidade expressa por


 λ1−c

 −

 ω + (1 − ω) (1 + αλc ) α , y = 0



 ( )
P(Y = y) = λ1−c

 Γ y+ λ1−c ( )−y

 α − λ−c

 (1 − ω) ( 1−c ) (1 + αλ ) α
c
1+ , y = 1, 2, . . .

 λ α

 y!Γ
α
Mostre que E(Y ) = (1 − ω)λ e Var(Y ) = (1 − ω)λ(1 + ωλ + αλc ).
11. Obtenha as funções geradoras de momentos e de cumulantes da distribuição

secante hiperbólica generalizada definida pela f.d.p. (1.6).
12. Mostre que as distribuições normal, gama, normal inversa e beta pertencem
à famı́lia exponencial canônica biparamétrica (1.12) com k = 2 e identifique t1 (x),
t2 (x), h(x) e b(θ).
13. No Exercı́cio 12, use as equações (1.14) para calcular E(T) e Cov(T), sendo
T = [T1 (x), T2 (x)]T .
14. Usando as equações (1.14), obtenha E[T (X)] e Var[T (X)] para as 24 distribuições
apresentadas por Cordeiro et al. (1995) na famı́lia exponencial uniparamétrica (1.1).
15. Demonstre as fórmulas de E(X), E(X−1 ) e Cov(X, X−1 ) citadas no Exemplo

1.12.
16. Seja f (x; θ) = h(x) exp[g(x; θ)] uma distribuição uniparamétrica arbitrária.
Demonstre que uma condição necessária para ela não pertencer à famı́lia expo-
nencial (1.1) é que, dados quatro pontos amostrais x1 , x2 , x3 e x4 , o quociente
g(x1 , θ) − g(x2 , θ)
seja uma função que depende de θ.
g(x3 , θ) − g(x4 , θ)
17. Usando o Exercı́cio 16, mostre que a distribuição de Cauchy f (x; θ) =

1
não é um membro da famı́lia exponencial uniparamétrica (1.1).
π [1 + (x − θ)2 ]
18. Demonstre que para a famı́lia exponencial biparamétrica f (x; θ, τ ) =

h(x) exp [θx + τ t(x) − b(θ, τ )], tem-se: E(X) = b(1,0) , Var(X) = b(2,0) , E [T (X)] =
∂ (r+s) b(θ, τ )
b(0,1) e Cov [X, T (X)] = b(1,1) , sendo que b(r,s) = .
∂θr ∂τ s
19. Considere a famı́lia exponencial multiparamétrica na forma canônica (1.12).

Demonstre que os dois primeiros momentos do vetor T de estatı́sticas suficientes são
expressos pelas equações (1.14).
20. Suponha que Y1 e Y2 têm distribuições de Poisson independentes com médias µ

e ρµ, respectivamente. Mostre que
a) Y+ = Y1 + Y2 tem distribuição de Poisson com média µ(1 + ρ);
b) Y1 |Y+ = m tem distribuição binomial B(m, (1 + ρ)−1 ).
21. Seja X uma variável aleatória binomial B(m, θ).
a) Se m → ∞ e θ → 0 de modo que mθ = µ permanece constante, mostre que

P(X = k) → e−µ µk /k!. Esse limite é a base da aproximação de Poisson para a
distribuição binomial.
b) Demonstre, ainda, que que pela aproximação normal

[ ]
1 (k − mθ)2
P(X = k) ≈ √ exp − .
2πmθ(1 − θ) 2mθ(1 − θ)
22. Obtenha uma expressão geral para o momento central de ordem r da famı́lia de
distribuições (1.5) a partir da expressão geral (1.10) dos cumulantes.
23. Seja uma distribuição na famı́lia exponencial natural com f.d.p. (y > 0)
f (y; θ) = c(y) exp[θy − b(θ)]
e média µ = τ (θ). Mostre que g(y; θ) = yf (y; θ)/τ (θ) é uma nova f.d.p. e calcule
suas funções geratrizes de momentos e de cumulantes.
24. A distribuição logarı́tmica é definida pela função de probabilidade
ρy
f (y; ρ) = −
y log(1 − ρ)
para y = 1, 2, . . . e 0 < ρ < 1. Mostre que essa distribuição pertence à famı́lia
exponencial e que
ρ ρ[1 − b(ρ)
ρ
]
E(Y ) = e Var(Y ) = ,
b(ρ)(1 − ρ) b(ρ)(1 − ρ)2
em que b(ρ) = − log(1 − ρ).
25. Demonstrar as fórmulas de recorrência para os momentos ordinários (µ′r ) e

centrais (µr ) da distribuição binomial:
[ ] [ ]
dµr ′ mµ′r dµ′r
µr+1 = µ(1 − µ) mrµr−1 + e µr+1 = µ(1 − µ) + .
dµ (1 − µ) dµ
26. Se Y tem distribuição exponencial de média unitária, mostre que a função

geratriz de momentos de Y = log(X) é igual a M (t) = Γ(1 + t) e que a sua f.d.p. é
f (y) = exp(y − ey ).
27. Use a expansão de Taylor para verificar que se E(X) = µ e Var(X) = σ 2 ,

então, para qualquer função bem comportada G(X), tem-se, para σ suficientemente
pequeno, Var[G(X)] = G′ (µ)2 σ 2 . Deduzir, que se X ∼ B(m, π), pode-se estimar
Var{log[X/(m − X)]} por 1/x + 1/(m − x), em que x é o valor observado de X.
28. Mostre que os cumulantes de uma variável aleatória X satisfazem κ1 (a + bX) =

a + bκ1 (X) e κr (a + bX) = br κr (X) para r ≥ 2, sendo a e b constantes.
Capı́tulo 2
Modelo Linear Generalizado

2.1 Introdução
A seleção de modelos é uma parte importante de toda pesquisa em mode-
lagem estatı́stica e envolve a procura de um modelo que seja o mais simples possı́vel e
que descreva bem o processo gerador dos valores observados que surgem em diversas
áreas do conhecimento como agricultura, demografia, ecologia, economia, engenharia,
geologia, medicina, ciência polı́tica, sociologia e zootecnia, entre outras.
Nelder e Wedderburn (1972) mostraram que um conjunto de técnicas es-
tatı́sticas, comumente estudadas separadamente, podem ser formuladas, de uma
maneira unificada, como uma classe de modelos de regressão. A essa teoria unifi-
cadora de modelagem estatı́stica, uma extensão dos modelos clássicos de regressão,
denominaram de modelos lineares generalizados, de agora em diante escrito pela
sigla MLG. Esses modelos envolvem uma variável resposta univariada, variáveis ex-
planatórias e uma amostra aleatória de n observações independentes, sendo que
i) a variável resposta, componente aleatório do modelo, tem uma distribuição

pertencente à famı́lia de distribuições (1.5) que engloba as distribuições normal,
gama e normal inversa para dados contı́nuos; binomial para proporções; Poisson
e binomial negativa para contagens;
ii) as variáveis explanatórias entram na forma de uma estrutura linear, consti-

tuindo o componente sistemático do modelo;
23
iii) a ligação entre os componentes aleatório e sistemático é feita por meio de uma
função adequada como, por exemplo, logarı́tmica para os modelos log-lineares,
denominada função de ligação.
O componente sistemático é estabelecido durante o planejamento (funda-

mental para a obtenção de conclusões confiáveis) do experimento, resultando em
modelos de regressão (linear simples, múltipla, etc.), de análise de variância (de-
lineamentos inteiramente casualizados, casualizados em blocos, quadrados latinos
com estrutura de tratamentos fatorial, parcelas subdivididas, etc.) e de análise de
covariância. O componente aleatório é especificado assim que são definidas as me-
didas a serem realizadas, que podem ser contı́nuas ou discretas, exigindo o ajuste
de diferentes distribuições. A partir de um mesmo experimento podem ser obtidas
medidas de diferentes tipos, como por exemplo, dados de altura de plantas, número
de lesões por planta e proporção de plantas doentes.
No modelo clássico de regressão, tem-se
Y = µ + ϵ,
sendo Y o vetor, de dimensões n × 1, da variável resposta, µ = E(Y) = Xβ, o com-

ponente sistemático, X a matriz do modelo, de dimensões n×p, β = (β1 , · · · , βp )T , o
vetor dos parâmetros desconhecidos, ϵ = (ϵ1 , · · · , ϵn )T , o componente aleatório com
ϵi ∼ N(0, σ 2 ), i = 1, . . . , n. Nesse caso, tem-se que a distribuição normal N(µ, σ 2 I)
de Y define o componente aleatório e o vetor de médias µ da distribuição normal
é igual ao preditor linear que representa o componente sistemático. Essa é a forma
mais simples de ligação entre esses dois componentes, sendo denominada de função
de ligação identidade.
Em muitos casos, porém, essa estrutura aditiva entre o componente sis-
temático e o componente aleatório não é verificada. Além disso, não há razão para
se restringir à estrutura simples especificada pela função de ligação identidade, nem
à distribuição normal para o componente aleatório e à suposição de homogeneidade
de variâncias.
Outros modelos foram surgindo e os desenvolvimentos que conduziram a
essa visão geral da modelagem estatı́stica, remontam a quase dois séculos. Assim,
um MLG é definido por uma distribuição de probabilidade, membro da famı́lia (1.5)
de distribuições, para a variável resposta, um conjunto de variáveis explanatórias
descrevendo a estrutura linear do modelo e uma função de ligação entre a média da
variável resposta e a estrutura linear. Entre os métodos estatı́sticos para a análise
de dados univariados, que são casos especiais dos MLG, citam-se:
(a) modelo clássico de regressão múltipla (Legendre, Gauss, inı́cio do século XIX)
e modelo de análise de variância para experimentos planejados (Fisher, 1920 a
1935) com o erro aleatório tendo distribuição normal;
(b) modelo complemento log-log para ensaios de diluição, envolvendo a distribuição

binomial (Fisher, 1922);
(c) modelo probito (Bliss, 1935) para o estudo de proporções, envolvendo a dis-
tribuição binomial;
(d) modelo logı́stico (Berkson, 1944; Dyke e Patterson, 1952; Rasch, 1960; Cox,
1970) para o estudo de proporções, envolvendo a distribuição binomial;
(e) modelos log-lineares para análise de dados na forma de contagens em tabelas

de contingência, envolvendo as distribuições de Poisson e multinomial (Birch,
1963; Haberman, 1970);
(f) modelo logı́stico para tabelas multidimensionais de proporções;
(g) os modelos de testes de vida, envolvendo a distribuição exponencial (Feigl e

Zelen, 1965; Zippin e Armitage, 1966; Gasser, 1967);
(h) polinômios inversos para ensaios de adubação, envolvendo a distribuição normal

na escala logarı́tmica e linearidade na escala inversa (Nelder, 1966);
(i) modelo de análise de variância com efeitos aleatórios;

(j) modelo estrutural para dados com distribuição gama;
(l) modelo de regressão não-simétrica.
Além dessas técnicas usuais, outros modelos podem ser definidos no contexto
dos MLG como, por exemplo, os modelos de Box e Cox (1964) e alguns modelos de
séries temporais. Devido ao grande número de métodos estatı́sticos que engloba, a
teoria dos MLG vem desempenhando um papel importante na Estatı́stica moder-
na, tanto para especialistas, quanto para não-especialistas. Esses modelos podem
ainda representar um meio unificado de ensino da Estatı́stica, em qualquer curso de
graduação ou pós-graduação.
Algumas referências para o estudo dos MLG e extensões são: Cordeiro
(1986), McCullagh e Nelder (1989), Firth (1991), Francis et al. (1993), Fahrmeir
e Tutz (1994), McCulloch e Searle (2000), Demétrio (2001), Dobson (2001), Collet
(2002), Myers et al. (2002), Paula (2004), Molenberghs e Verbeke (2005), Lee et al.
(2006), Hardin e Hilbe (2007) e Aitkin et al. (2009).
2.2 Exemplos de motivação

A seguir, serão apresentados alguns dos modelos que apareceram na litera-
tura, independentemente, e que, conforme será mostrado, podem ser agrupados de
acordo com algumas propriedades comuns, o que permite um método unificado para
a estimação dos parâmetros.
a) Ensaios do tipo dose-resposta
Ensaios do tipo dose-resposta são aqueles em que uma determinada droga
é administrada em k diferentes doses, d1 , . . . , dk , respectivamente, a m1 , . . . , mk in-
divı́duos. Suponha que cada indivı́duo responde, ou não, à droga, tal que a resposta
é quantal (tudo ou nada, isto é, 1 ou 0). Após um perı́odo especificado de tempo,
y1 , . . . , yk indivı́duos respondem à droga. Por exemplo, quando um inseticida é apli-
cado a um determinado número de insetos, eles respondem (morrem), ou não (sobre-
vivem), à dose aplicada. Quando uma droga benéfica é administrada a um grupo de
pacientes, eles podem melhorar (sucesso), ou não (fracasso). Dados resultantes desse
tipo de ensaio podem ser considerados como provenientes de uma distribuição bino-
mial com probabilidade πi , que é a probabilidade de ocorrência (sucesso) do evento
sob estudo, ou seja, o número de sucessos Yi tem distribuição binomial B(mi , πi ).
Os objetivos desse tipo de experimento são, em geral, modelar a probabili-
dade de sucesso πi como função de variáveis explanatórias e, então, determinar doses
efetivas (DLp , doses que causam mudança de estado em 100p% dos indivı́duos, por
exemplo, DL50 , DL90 ), comparar potências de diferentes produtos etc.
Exemplo 2.1: Os dados da Tabela 2.1 referem-se a um ensaio de toxicidade de

rotenone (Martin, 1942), no delineamento completamente casualizado, em que doses
(di ) do inseticida foram aplicadas a mi insetos (Macrosiphoniella sanborni, pulgão
do crisântemo) e, após um certo tempo, foram observados os números (yi ) de insetos
mortos.
Tabela 2.1: Número de insetos mortos (yi ) de (mi ) insetos que receberam a dose di
de rotenone.
Dose (di ) mi yi pi
0,0 49 0 0,00
2,6 50 6 0,12
3,8 48 16 0,33
5,1 46 24 0,52
7,7 49 42 0,86
10,2 50 44 0,88
O interesse do pesquisador estava na determinação das doses letais que

matam 50% (DL50 ) e 90% (DL90 ) dos insetos, para recomendação de aplicação
do inseticida no campo. Pode-se observar que o gráfico (Figura 2.1) de dispersão
das proporções (pi = yi /mi ) de insetos mortos versus as doses (di ) tem um aspecto
sigmóide o que orienta a escolha do modelo para πi .
* *
0.8
0.6
Proporções observadas
*
0.4
*
0.2
*
0.0
*
0 2 4 6 8 10
Dose
Figura 2.1: Gráfico de dispersão das proporções (pi ) versus doses (di ) de rotenone,
referentes à Tabela 2.1.
Dois aspectos devem ser considerados nos ensaios de dose-resposta. Um é

a intensidade do estı́mulo que pode ser a dose de uma droga (inseticida, fungicida,
herbicida, medicamento) e o outro é o indivı́duo (um inseto, um esporo, uma planta,
um paciente). O estı́mulo é aplicado a uma intensidade especificada em unidades
de concentração e como resultado uma resposta do indivı́duo é obtida. Quando
a resposta é binária (0 ou 1), sua ocorrência, ou não, dependerá da intensidade
do estı́mulo aplicado. Para todo indivı́duo haverá um certo nı́vel de intensidade
abaixo do qual a resposta não ocorre e acima do qual ela ocorre; na terminologia
farmacológica e toxicológica, esse valor é denominado tolerância (Ashton, 1972).
Essa tolerância varia de um indivı́duo para outro da população e, então, há uma
distribuição de tolerâncias à qual pode-se associar uma variável aleatória U com
f.d.p. representada por curvas, simétricas ou assimétricas, dos tipos apresentados na
Figura 2.2.
0.4
0.10
0.3
0.08
0.06
f(dose)
f(dose)
0.2
0.04
0.1
0.02
0.00
0.0
5 10 15 20 25 30 35 5 10 15 20 25 30 35
dose dose
Figura 2.2: Dois tipos de curvas para distribuições de tolerância.
Se a dose d é dada para a população toda e f (u) é a função densidade

para a distribuição das tolerâncias, todo indivı́duo cuja tolerância é menor do que
d responderá à droga, e a probabilidade de que um indivı́duo escolhido ao acaso
responda à dose, conforme a Figura 2.3, é expressa por
∫ d
π = P(U ≤ d) = F(d) = f (u)du. (2.1)
−∞
0.4
1.0
0.8
0.3
Proporção de insetos mortos
0.6
f(dose)
π
0.2
0.4
0.1
0.2
0.0
0.0
DL50
5 10 15 20 25 30 35 5 10 15 20 25 30 35
dose dose
Figura 2.3: Área sob a curva de tolerância e correspondente distribuição acumulada.

A probabilidade de ocorrer uma resposta (sucesso) é tipicamente nula para
valores pequenos de d, unitária para valores grandes de d (pois, então, um sucesso é
certo) e é uma função estritamente crescente de d. Essa curva tem as propriedades
matemáticas de uma função de distribuição contı́nua acumulada e exibe a forma
sigmóide tı́pica da Figura 2.3.
Observe-se que nenhum indivı́duo responde se a dose é muito pequena e
que todos os indivı́duos respondem se a dose é muito grande. Essas suposições nem
sempre são razoáveis. Pode haver indivı́duos que respondem, naturalmente, sem
a droga (morte natural) e outros que são imunes à droga, o que pode causar um
excesso de zeros (Ridout et al., 1998) e uma variabilidade maior do que a esperada
(superdispersão) (Hinde e Demétrio, 1998a,b).
0.4
1.0
Normal Probito
Logística Logito
Gumbel Cloglog
0.8
0.3
F(Proporções de insetos mortos)
Proporções de insetos mortos
0.6
0.2
0.4
0.1
0.2
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
dose dose
Figura 2.4: Curvas para distribuições de tolerância e correspondentes sigmóides.
O problema, então, consiste em encontrar uma curva sigmóide que se

ajuste bem aos dados e a partir dela calcular DL50 e DL90 . Esse objetivo pode
ser alcançado por modelos não-lineares nos parâmetros. Então, a ideia é se fazer
uma transformação tal que essa curva sigmóide se transforme em uma reta e,
assim, procedimentos comuns de regressão podem ser usados para se estimarem os
parâmetros. A Figura 2.4 mostra as distribuições, e suas correspondentes curvas
sigmóides, mais comumente usadas, cujas expressões e respectivas transformações
lineares são apresentadas, a seguir.
i) Modelo probito (“Probability unit”)

Nesse caso, considera-se que U tem distribuição normal de média µ ∈ R e
variância σ 2 > 0, isto é,
[ ]
1 (u − µ)2
fU (u; µ, σ ) = √
2
exp − ,
2πσ 2 2σ 2
U −µ
e, portanto, com Z = ∼ N(0, 1). Então,
σ
( )
µ 1
πi = P(U ≤ di ) = P Z ≤ − + di = P(Z ≤ β1 + β2 di )
σ σ
para β1 = −µ/σ e β2 = 1/σ. Logo,
πi = Φ(β1 + β2 di ),
é uma função não-linear em um conjunto linear de parâmetros, em que Φ(·) repre-

senta a função de distribuição normal padrão. É linearizada por
probit(πi ) = Φ−1 (πi ) = β1 + β2 di .
ii) Modelo logı́stico (“Logistic unit”)

Nesse caso, considera-se que U tem distribuição logı́stica com parâmetros
µ ∈ R e τ > 0, que é similar à distribuição normal em forma, com caudas um pouco
mais longas e tem f.d.p. expressa por
)(
u−µ
exp
1 τ
fU (u; µ, τ ) = [ ( )]2 ,
τ u−µ
1 + exp
τ
com média E(U ) = µ e variância σ 2 = Var(U ) = π 2 τ 2 /3. Fazendo-se, β1 = −µ/τ e
β2 = 1/τ , tem-se
β2 eβ1 +β2 u
fU (u; β1 , β2 ) = .
(1 + eβ1 +β2 u )2
Logo,
eβ1 +β2 di
πi = P(U ≤ di ) = F(di ) =
1 + eβ1 +β2 di
é uma função não-linear em um conjunto linear de parâmetros, sendo linearizada por
( )
πi
logit(πi ) = log = β1 + β2 di .
1 − πi
iii) Modelo complemento log-log
Nesse caso, considera-se que U tem distribuição de Gumbel (de valor ex-
tremo) com parâmetros α e τ , que é uma distribuição assimétrica ao contrário das
duas anteriores que são simétricas, e tem f.d.p. expressa por
( ) [ ( )]
1 u−α u−α
fU (u; α, τ ) = exp exp − exp , α ∈ R, τ > 0,
τ τ τ
com média E(U ) = α + γτ e variância σ 2 = Var(U ) = π 2 τ 2 /6, sendo γ ≈ 0, 577216
∑
o número de Euler definido por γ = −ψ(1) = limn→∞ ( ni=1 i−1 − log n), em que
ψ(p) = d log Γ(p)/dp é a função digama. Fazendo-se, β1 = −α/τ e β2 = 1/τ , tem-se
( )
fU (u; β1 , β2 ) = β2 exp β1 + β2 u − eβ1 +β2 u .
Logo,
πi = P(U ≤ di ) = F(di ) = 1 − exp [− exp(β1 + β2 di )]
é uma função não-linear em um conjunto linear de parâmetros, sendo linearizada por
log[− log(1 − πi )] = β1 + β2 di .
Então, esses três exemplos têm em comum
i) a distribuição dos Yi (binomial) é um membro da famı́lia exponencial, com

E(Yi ) = µi = mi πi ;
ii) as variáveis explanatórias entram na forma de uma soma linear de seus efeitos
sistemáticos, ou seja,
∑
2
ηi = xij βj = xTi β,
j=1
sendo xTi T
= (1, di ), β = (β1 , β2 ) e ηi o preditor linear.
iii) a média µi é funcionalmente relacionada ao preditor linear, isto é,
( )
µi
ηi = g = g(πi ),
mi
que nos casos analisados são:
modelo probito: ηi = g(πi ) = Φ−1 (πi );

( )
πi
modelo logı́stico: ηi = g(πi ) = log ;
1 − πi
modelo complemento log-log: ηi = g(πi ) = log[− log(1 − πi )].
Portanto, esses modelos são baseados na famı́lia exponencial uniparamétrica

(1.2) com médias que são não-lineares em um conjunto de parâmetros lineares, isto
é,
modelo probito: µi = mi Φ(β1 + β2 di );

eβ1 +β2 di
modelo logı́stico: µi = mi ;
1 + eβ1 +β2 di
modelo complemento log-log: µi = mi {1 − exp[− exp(β1 + β2 di )]}.
b) Ensaios de diluição
O uso dos ensaios de diluição é uma prática comum para se estimar a con-
centração λ de um organismo (número por unidade de volume, de área, de peso
etc.) em uma amostra. Quando a contagem direta não é possı́vel, mas a presença
ou ausência do organismo em sub-amostras pode ser detectada (Ridout e Fenlon,
1998) pode-se, também, estimar λ. Em geral, registrar a presença, ou ausência, é
mais econômico do que fazer a contagem. Por exemplo, pode-se detectar se uma
determinada bactéria está presente, ou não, em um lı́quido por um teste de cor, ou
se um fungo está presente, ou não, em uma amostra de solo, plantando-se uma planta
susceptı́vel nesse solo e verificando se a planta apresenta sintomas da doença. Esse
método está baseado na suposição de que o número de indivı́duos presentes segue
uma distribuição de Poisson, o que é uma suposição forte e torna-se importante ve-
rificar se é verdadeira. Por exemplo, a distribuição espacial de um fungo no solo está
longe de ser aleatória e pode ser que o número de indivı́duos em diferentes amostras
desse solo não tenha a distribuição de Poisson.
Nos ensaios de diluição, a solução original é diluı́da progressivamente e na
i-ésima diluição são realizadas as contagens (Exemplo 2.2) ou, então, são testadas
mi sub-amostras das quais Yi apresentam resultado positivo para a presença do
organismo (Exemplo 2.3). Seja νi o volume da amostra original que está presente
em cada uma das sub-amostras na i-ésima diluição. Em geral, mas nem sempre, são
usadas diluições iguais, de modo que os νi′ s ficam em progressão geométrica.
Exemplo 2.2: A Tabela 2.2 apresenta os dados referentes a contagens de partı́culas

de vı́rus para cinco diluições diferentes, sendo que foram usadas quatro repetições
para as quatro primeiras diluições e cinco repetições para a última diluição. O
objetivo do experimento é estimar o número de partı́culas de vı́rus por unidade de
volume.
Tabela 2.2: Números de partı́culas de vı́rus para cinco diluições diferentes.
Diluição Contagens
0,3162 13 14 17 22
0,1778 9 14 6 14
0,1000 4 4 3 5
0,0562 3 2 1 3
0,0316 2 1 3 2 2
Fonte: Ridout (1990), notas de aula
Exemplo 2.3: A Tabela 2.3 mostra os dados de um ensaio de diluição realizado para
determinar o número de esporos de Bacillus mesentericus por grama (g) de farinha
de batata (Fisher e Yates, 1970). Uma suspensão lı́quida foi preparada e sujeita a
sucessivas diluições para que resultassem soluções com 4, 2, ..., 1/128g de farinha
por 100ml de solução. Para cada diluição consideraram-se cinco amostras de 1ml e
foi contado o número de amostras com esporos.
Tabela 2.3: Números de amostras (Y ) que contêm esporos em cinco amostras para
diferentes quantidades (g) de farinha de batata em cada diluição.
g/100 ml 4 2 1 1/2 1/4 1/8 1/16 1/32 1/64 1/128

y 5 5 5 5 4 3 2 2 0 0
O parâmetro de interesse é λ, a concentração de organismos por unidade

de volume (νi ). Se os organismos estão aleatoriamente distribuı́dos, o número de
organismos em uma sub-amostra da i-ésima diluição segue a distribuição de Poisson
com média λνi , isto é,
µi = λνi .
Assim, se forem realizadas contagens dos indivı́duos após a diluição, tem-se

que essa expressão, pode ser linearizada, usando-se a função logarı́tmica, ou seja,
ηi = log (µi ) = log (λ) + log (νi ) = β1 + offset, (2.2)
em que log(νi ) entra na regressão como variável offset, que é um valor conhecido no
componente sistemático do modelo.
Quando se observa o número de amostras em que o indivı́duo está presente
tem-se Yi ∼ B(mi , πi ), desde que as sub-amostras de cada diluição sejam indepen-
dentes, sendo que a probabilidade πi de que o organismo esteja presente na sub-
amostra i é expressa como
πi = P(pelo menos um organismo presente) = 1 − exp(−λνi ).
Logo,
ηi = log [− log (1 − πi )] = log (λ) + log (νi ) = β1 + offset. (2.3)

Tem-se, em (2.2) e (2.3), que β1 = log (λ) e log (νi ) é a variável offset. Além
disso, para (2.2) tem-se a função de ligação logarı́tmica para o modelo de Poisson
enquanto que para (2.3) tem-se a função de ligação complemento log-log para o
modelo binomial.
Esse método de diluição em série é muito utilizado em diversas áreas da
Biologia. Podem ser tratados de forma semelhante os problemas de estimação de:
a) proporção de sementes doentes em um lote de sementes, em que n é o tamanho

da amostra de sementes, θ é a probabilidade de uma semente infectada e
π = P(pelo menos uma semente doente) = 1 − (1 − θ)n = 1 − en log(1−θ) ;
b) proporção de um determinado tipo de célula em uma população em estudos de

imunologia;
c) probabilidade de uma partı́cula de vı́rus matar um inseto, nos ensaios de con-

trole biológico;
d) taxa média de falha de um determinado componente quando os tempos de falha

são distribuı́dos exponencialmente.
Nesse exemplo, verifica-se, novamente, que:
i) a distribuição dos Yi (Poisson ou binomial) é um membro da famı́lia exponen-

cial uniparamétrica (1.2), com E(Yi ) = µi (Poisson) ou E(Yi ) = µi = mi πi
(binomial);
ii) as variáveis explanatórias entram na forma de uma soma linear de seus efeitos,
ou seja,
∑
2
ηi = xij βj = xTi β,
j=1
sendo xi = (1, di )T , β = (β1 , β2 )T e ηi o preditor linear.

iii) a média µi é funcionalmente relacionada ao preditor linear, isto é,
( )
µi
ηi = g(µi ) ou ηi = g = g(πi )
mi
que nos casos analisados foram:

modelo log-linear: ηi = g(µi ) = log(µi );
modelo complemento log-log: ηi = g(πi ) = log[− log(1 − πi )].
Portanto, esses modelos são baseados na famı́lia exponencial uniparamétrica

(1.2), cujas médias são não-lineares em um conjunto de parâmetros lineares, isto é,
modelo log-linear: µi = eβ1 +offset ;
modelo complemento log-log: µi = mi {1 − exp[− exp(β1 + offset)]},
sendo β2 = 1 e log(νi ) = offset.
c) Tabelas de contingência
Dados na forma de contagens são provenientes da simples contagem de
eventos (por exemplo, número de brotos por explante), ou então, da frequência de
ocorrências em várias categorias que originam as tabelas de contingência. Sejam os
exemplos que se seguem.
Exemplo 2.4: Os dados da Tabela 2.4 referem-se a coletas de insetos em armadilhas

adesivas de duas cores, em que os indivı́duos coletados de uma determinada espécie
foram sexados, tendo como objetivo verificar se havia influência da cor da armadilha
sobre a atração de machos e fêmeas dessa espécie.
Tem-se que o número de insetos que chegam às armadilhas, seja do
sexo feminino ou do sexo masculino, é um número aleatório, caracterizando uma
observação de uma variável com distribuição de Poisson. A hipótese de interesse é
a hipótese de independência, isto é, o sexo do inseto não afeta a escolha pela cor da
armadilha.
Tabela 2.4: Números de insetos coletados em armadilhas adesivas e sexados.

Armadilha Machos Fêmeas Totais
Alaranjada 246 17 263
Amarela 458 32 490
Totais 704 49 753
Fonte: Silveira Neto et al. (1976)
Exemplo 2.5: Os dados da Tabela 2.5 referem-se a um ensaio de controle de brocas

do fruto do tomateiro, usando-se quatro tratamentos. Tem-se aqui, também, um
Tabela 2.5: Números de frutos de tomateiro sadios e com broca.

Inseticidas Frutos Totais
Sadios Com broca
Diazinon 1690 115 1805
Phosdrin 1578 73 1651
Sevin 2061 53 2114
Testemunha 1691 224 1915
Totais 7020 465 7485
Fonte: Silveira Neto et al. (1976)
caso em que o número total de frutos com broca é uma variável aleatória e, por-
tanto, pode ser estudada pela distribuição de Poisson. A hipótese a ser testada é
a da homogeneidade, isto é, a proporção de frutos sadios é a mesma para todos os
inseticidas.
A distribuição de Poisson é especialmente útil na análise de tabelas de con-
tingência em que as observações consistem de contagens ou freqüências nas caselas
pelo cruzamento das variáveis resposta e explanatórias.
Considerando-se uma tabela de contingência bidimensional e a hipótese de
independência, se yij representa o número de observações numa classificação cruzada
de dois fatores i e j com I e J nı́veis, respectivamente, para i = 1, . . . , I e j = 1, . . . , J,
então,
µij = E(Yij ) = mπi+ π+j ,
∑ ∑ ∑ ∑
em que m = Ii=1 Jj=1 yij e πi+ = Jj=1 πij e π+j = Ii=1 πij são as probabilidades
marginais de uma observação pertencer às classes i e j, respectivamente. Pode-se,
então, supor que Yij tem distribuição de Poisson com média µij .
Verifica-se, então, que uma função logarı́tmica lineariza esse modelo, isto é,
ηij= log(µij ) = log(m) + log(πi+ ) + log(π+j ) = µ + αi + βj .
Novamente, tem-se:
i) a distribuição de Yij (Poisson) é um membro da famı́lia exponencial, com

E(Yij ) = µij ;
ii) as variáveis explanatórias entram na forma de uma soma linear de seus efeitos,
ou seja,
η = Xβ,
sendo η = (η11 , . . . , η1J , . . . , ηI1 , . . . , ηIJ )T o preditor linear, X uma ma-

triz, de dimensões IJ × (I + J + 1), de variáveis “dummy” e β =
(µ, α1 , . . . , αI , β1 , . . . , βJ )T ;
iii) a média é funcionalmente relacionada ao preditor linear, isto é,
ηij = g(µij ) = log(µij ).
Portanto, tem-se que esses modelos são baseados na famı́lia exponencial

uniparamétrica (1.2), cujas médias são não-lineares em um conjunto de parâmetros
lineares, ou seja, µ = exp (η) = exp(XT β).
De forma semelhante, pode ser verificado que, em geral, para dados dispostos
em tabelas de contingência, as hipóteses mais comuns podem ser expressas como mo-
delos multiplicativos para as freqüências esperadas das caselas (McCullagh e Nelder,
1989; Agresti, 2002; Paulino e Singer, 2006). Verifica-se, então, que na análise de
dados categorizados, de uma forma geral, a média µ é obtida como um produto de
outras médias marginais. Esse fato sugere que uma transformação logarı́tmica do
valor esperado lineariza essa parte do modelo.
2.3 Definição
Os MLG podem ser usados quando se tem uma única variável aleatória Y
associada a um conjunto de variáveis explanatórias x1 , . . . , xp . Para uma amostra
de n observações (yi , xi ), em que xi = (xi1 , . . . , xip )T é o vetor coluna de variáveis
explanatórias, o MLG envolve os três componentes:
i) Componente aleatório: representado por um conjunto de variáveis aleatórias

independentes Y1 , . . . , Yn obtidas de uma mesma distribuição que faz parte da
famı́lia de distribuições (1.5) com médias µ1 , . . . , µn , ou seja,
E(Yi ) = µi , i = 1, . . . , n,
sendo ϕ > 0 um parâmetro de dispersão e θi o parâmetro denominado canônico.

Então, a função densidade ou de probabilidade de Yi é expressa por
{ }
f (yi ; θi , ϕ) = exp ϕ−1 [yi θi − b(θi )] + c(yi , ϕ) , (2.4)
sendo b(.) e c(.) funções conhecidas. Conforme foi explicado na Seção 1.4,
E(Yi ) = µi = b′ (θi ) e Var(Yi ) = ϕb′′ (θi ) = ϕVi ,
em que Vi = V (µi ) = dµi /dθi é denominada de função de variância que depende

unicamente da média µi . O parâmetro natural θi pode ser expresso como
∫
θi = Vi−1 dµi = q(µi ), (2.5)
sendo q(µi ) uma função conhecida da média µi . Supondo uma relação funcional
para a função de variância V (µ), o parâmetro canônico é obtido da equação
(2.5) e a distribuição é univocamente determinada na famı́lia exponencial (2.4).
A importância da famı́lia (2.4) na teoria dos MLG é que ela permite incorporar
dados que exibem assimetria, dados de natureza discreta ou contı́nua e dados
que são restritos a um intervalo do conjunto dos reais, como o intervalo (0,1).
ii) Componente sistemático: as variáveis explanatórias entram na forma de

uma soma linear de seus efeitos
∑
p
ηi = xir βr = xTi β ou η = Xβ, (2.6)
r=1
sendo X = (x1 , . . . , xn )T a matriz do modelo, β = (β1 , . . . , βp )T o vetor

de parâmetros desconhecidos e η = (η1 , . . . , ηn )T o preditor linear. Se um
parâmetro tem valor conhecido, o termo correspondente na estrutura linear é
chamado offset, como verificado nos ensaios de diluição (Seção 2.2).
iii) Função de ligação: uma função que relaciona o componente aleatório ao

componente sistemático, ou seja, vincula a média ao preditor linear, isto é,
ηi = g(µi ), (2.7)
sendo g(.) uma função monótona e diferenciável.
Assim, verifica-se que para a especificação do modelo, os parâmetros θi da

famı́lia de distribuições (2.4) não são de interesse direto (pois há um para cada
observação) mas sim um conjunto menor de parâmetros β1 , . . . , βp tais que uma
combinação linear dos β ′ s seja igual à alguma função do valor esperado de Yi . Como
o parâmetro natural θi é uma função unı́voca da média µi , pode-se expressar a função
de ligação em termos desse parâmetro, isto é, ηi = g(q −1 (θi )).
Portanto, uma decisão importante na escolha do MLG é definir os termos
do trinômio: (i) distribuição da variável resposta; (ii) matriz do modelo e (iii) função
de ligação. Nesses termos, um MLG é definido por uma distribuição da famı́lia (2.4),
uma estrutura linear (2.6) e uma função de ligação (2.7). Por exemplo, quando θ = µ
e a função de ligação é linear, obtém-se o modelo clássico de regressão como um caso
particular. Os modelos log-lineares são deduzidos supondo θ = log(µ) com função
de ligação logarı́tmica log(µ) = η. Torna-se clara, agora, a palavra “generalizado”,
significando uma distribuição mais ampla do que a normal para a variável resposta,
e uma função não-linear em um conjunto linear de parâmetros conectando a média
dessa variável com a parte determinı́stica do modelo.
Observe-se que na definição de um MLG por (2.4), (2.6) e (2.7) não existe,
em geral, aditividade entre a média µ e o erro aleatório ϵ inerente ao experimento,
como ocorre no modelo clássico de regressão descrito na Seção 2.1. Define-se no
MLG uma distribuição para a variável resposta que representa as observações e não
uma distribuição para o erro aleatório ϵ.
A escolha da distribuição em (2.4) depende, usualmente, da natureza dos
dados (discreta ou contı́nua) e do seu intervalo de variação (conjunto dos reais, reais
positivos ou um intervalo como (0,1)). Na escolha da matriz do modelo X = {xir },
de dimensões n × p e suposta de posto completo, xir pode representar a presença
ou ausência de um nı́vel de um fator classificado em categorias, ou pode ser o valor
de uma covariável. A forma da matriz do modelo representa, matematicamente, o
desenho do experimento. A escolha da função de ligação depende do problema em
particular e, pelo menos em teoria, cada observação pode ter uma função de ligação
diferente.
As funções de ligação usuais são: potência η = µλ em que λ é um número
real, logı́stica η = log[µ/(m − µ)], probito η = Φ−1 (µ/m) sendo Φ(.) a função de
distribuição acumulada (f.d.a.) da distribuição normal padrão e a complemento
log-log η = log[− log (1 − µ/m)], em que m é o número de ensaios independentes.
As três últimas funções de ligação são apropriadas para o modelo binomial, pois
transformam o intervalo (0, 1) em (−∞, +∞) (Exercı́cio 1.1). Casos importantes da
função de ligação potência são identidade, recı́proca, raiz quadrada e logarı́tmica,
correspondentes, a λ = 1, −1, 1/2 e 0, respectivamente.
Se a função de ligação é escolhida de modo que g(µi ) = θi = ηi , o preditor
linear modela diretamente o parâmetro canônico θi , sendo denominada função de
ligação canônica. Os modelos correspondentes são denominados canônicos. Isso re-
sulta, freqüentemente, em uma escala adequada para a modelagem com interpretação
prática para os parâmetros de regressão, além de vantagens teóricas em termos da
existência de um conjunto de estatı́sticas suficientes para o vetor de parâmetros β
e alguma simplificação no algoritmo de estimação. A estatı́stica suficiente para β é
∑
T = XT Y, com componentes Tr = ni=1 xir Yi , r = 1, . . . , p. As funções de ligação
canônicas para as principais distribuições estão apresentadas na Tabela 2.6.
Tabela 2.6: Funções de ligação canônicas.
Distribuição Função de ligação canônica

Normal Identidade: η = µ
Poisson Logarı́tmica: η = log(µ)
( ) ( )
π µ
Binomial Logı́stica: η = log = log
1−π m−µ
1
Gama Recı́proca: η =
µ
1
Normal Inversa Recı́proca do quadrado: η = 2
µ
Deve ser enfatizado que as funções de ligação canônicas conduzem a pro-

priedades estatı́sticas desejáveis para o modelo, principalmente, no caso de amostras
pequenas. Entretanto, não há nenhuma razão a priori para que os efeitos sistemáticos
do modelo sejam aditivos na escala especificada por tais funções. Para o modelo
clássico de regressão, a função de ligação canônica é a identidade, pois o preditor
linear é igual à média. Essa função de ligação é adequada no sentido em que am-
bos, η e µ, têm valores na reta real. Entretanto, certas restrições surgem quando se
trabalha, por exemplo, com a distribuição de Poisson em que µ > 0 e, portanto, a
função de ligação identidade não deve ser usada, pois µ̂ poderá ter valores negativos,
dependendo dos valores obtidos para β̂. Além disso, dados de contagem dispostos
em tabelas de contingência, sob a suposição de independência, conduzem, natural-
mente, a efeitos multiplicativos cuja linearização pode ser obtida por meio da função
de ligação logarı́tmica, isto é, η = log(µ) e, portanto, µ = eη (conforme descrito nos
ensaios de diluição da Seção 2.2).
Aranda-Ordaz (1981) propôs a famı́lia de funções de ligação para análise de
dados na forma de proporções expressa por
[ ]
(1 − π)−λ − 1
η = log ,
λ
sendo λ uma constante desconhecida que tem como casos especiais as funções de
ligação logı́stica para λ = 1 e complemento log-log quando λ → 0.
Uma famı́lia importante de funções de ligação, principalmente para dados
com média positiva, é a famı́lia potência (Exercı́cio 2), especificada por


 µ − 1 λ ̸= 0
λ
λ

 log µ λ=0
ou então, 
 µλ λ ̸= 0
 log µ λ = 0
sendo λ uma constante desconhecida.
2.4 Modelos especiais

2.4.1 Modelo clássico de regressão
A distribuição normal foi, primeiramente, introduzida por Abraham de
Moivre em 1733 como limite da distribuição binomial. A distribuição normal foi,
também, deduzida por Laplace em 1774 como uma aproximação para a distribuição
∫x
hipergeométrica. Em 1778, Laplace tabulou a f.d.a. Φ(x) = (2π)−1/2 −∞ e−t /2 dt da
2
distribuição normal padronizada. Gauss, em dois artigos publicados em 1809 e 1816,

estabeleceu técnicas baseadas na distribuição normal que se tornaram métodos cor-
riqueiros durante o século XIX. No seu artigo de 1816, Gauss deduziu a distribuição
normal como a distribuição limite da soma de um número muito grande de erros
independentes, podendo assim ser considerado um dos resultados mais antigos do
teorema do limite central. Na Seção 1.3 (Exemplo 1.4) é apresentada a f.d.p. da
distribuição normal.
A função geratriz de momentos da distribuição normal é M (t; µ, σ 2 ) =

exp(µt + σ 2 t2 /2), sendo, então, seus cumulantes κr = 0, para r > 2. Entre ou-
tras caracterı́sticas, citam-se: média, moda e mediana iguais a µ, coeficientes de
assimetria e curtose iguais a 0 e 3, respectivamente, r-ésimo momento central igual
σ r r! ( r )
a 0 se r é ı́mpar, e r/2 !, se r é par.
2 2
Existem várias aproximações para calcular a f.d.a. Φ(x) da distribuição
normal padronizada, vide, por exemplo, Johnson et al. (2004).
As origens do modelo clássico de regressão estão nos trabalhos de astrono-

mia de Gauss em 1809 e 1821. O método de mı́nimos quadrados foi desenvolvido
por Legendre em 1805 e por Gauss em 1809 para determinar a órbita do asteróide
Ceres. As ideias de obtenção da matriz modelo nos planejamentos dos experimentos
surgiram na Estação Experimental de Rothamsted, Inglaterra, com Fisher (1920 a
1935).
O modelo normal N(Xβ, σ 2 I) para o vetor Y da variável resposta, em que I

é a matriz identidade, é usado na análise de variância com efeitos fixos, como modelo
amostral e, mais comumente, como um modelo aproximado para uma distribuição
desconhecida. É o caso mais simples do MLG correspondendo a η = θ = µ.
Embora a estimação por máxima verossimilhança seja estudada na Seção

3.2, convém salientar que no modelo clássico de regressão, o estimador de máxima
verossimilhança de β, que coincide com o de mı́nimos quadrados, é obtido em forma
explı́cita por β̂ = (XT X)−1 XT y. A função de verossimilhança só depende dos dados
por meio de β̂ e da soma de quadrados dos resı́duos SQR = (y − Xβ̂)T (y − Xβ̂).
Mostra-se que β̂ ∼ N(β, σ 2 (XT X)−1 ) e SQR ∼ σ 2 χ2n−p . Os testes para os compo-
nentes de β são realizados, exatamente, usando-se estatı́sticas com distribuições χ2
e F.
2.4.2 Modelo de Poisson

Em 1837, Poisson publicou a distribuição que tem seu nome, obtendo-a como
uma distribuição limite da distribuição binomial. Se a variável aleatória Y tem dis-
tribuição de Poisson, P(µ), com parâmetro µ > 0, então sua função de probabilidade
é expressa por
e−µ µy
f (y; µ) = , para y = 0, 1, 2, . . .
y!
A função geratriz de momentos é igual a M (t; µ) = exp{µ[exp(t)−1]}, sendo todos os
cumulantes iguais a µ e o r-ésimo momento central µr (r ≥ 2) pode ser calculado pela
∑ (r−1)
fórmula de recorrência µr = µ r−1i=0 i
µi , com µ0 = 1. A moda corresponde ao
maior inteiro menor do que µ, e para µ inteiro, tem valores µ e µ − 1. Os coeficientes
de assimetria e curtose são iguais a µ−1/2 e 3 + µ−1 , respectivamente. O r-ésimo
momento fatorial é igual a E[Y (Y − 1) . . . (Y − r + 1)] = µr .
Quando µ → ∞, tem-se (Y − µ)µ−1/2 ∼ N(0, 1) + Op (µ−1/2 ). Em geral,
para µ > 9, a aproximação da distribuição de Poisson P(µ) pela distribuição nor-
mal N(µ, µ) é satisfatória. Probabilidades individuais podem ser computadas pela
expressão aproximada P(Y = y) = Φ(y2 ) − Φ(y1 ), sendo Φ(.) a f.d.a. da distribuição
normal padronizada, y2 = (y − µ + 0.5)µ−1/2 e y1 = (y − µ − 0.5)µ−1/2 . O resultado
bastante conhecido P(Y ≤ y) = P(χ22(1+y) > 2µ) é, muitas vezes, útil no cálculo da
função de distribuição acumulada de Poisson.
Uma fórmula alternativa aproximada para calcular a distribuição acumulada
de Poisson, baseada na f.d.a. da distribuição normal padrão, é P(Y ≤ y) ≈ Φ[g(y −
0.5)], em que 
 3y 1/2 − 3y 1/6 µ1/3 + µ−1/2 /6, y ̸= 0;
g(y) =
 −(2µ)1/2 + µ−1/2 /6, y = 0.
O modelo de Poisson tem um importante papel na análise de dados em forma

de contagens. Suas caracterı́sticas principais são:
a) proporciona, em geral, uma descrição satisfatória de dados experimentais cuja

variância é proporcional à média;
b) pode ser deduzido teoricamente de princı́pios elementares com um número
mı́nimo de restrições;
c) se eventos ocorrem independente e aleatoriamente no tempo, com taxa média

de ocorrência constante, o modelo determina o número de eventos em um
intervalo de tempo especificado.
O modelo de regressão de Poisson desempenha na análise de dados catego-

rizados, o mesmo papel do modelo normal, na análise de dados contı́nuos. A diferença
fundamental é que a estrutura multiplicativa para as médias do modelo de Poisson
é mais apropriada do que a estrutura aditiva das médias do modelo normal. Tem-se
constatado, na análise de dados categorizados, que a média µ é, geralmente, obtida
como um produto de outras médias marginais que se tornam os parâmetros lineares
do modelo. A estrutura linear adotada é expressa, na escala do parâmetro canônico
da distribuição, por log(µ) = η, com os parâmetros β ′ s medindo efeitos sobre a escala
logarı́tmica das frequências esperadas. Por exemplo, independência de dois fatores
numa tabela de contingência r × s equivale ao modelo µij = µi+ µ+j /µ++ , com a
notação usual para a soma, e isso implica, que o logaritmo de µij é expresso como
uma estrutura linear formada pelos efeitos principais dos fatores sem a interação.
O modelo log-linear é definido pela distribuição de Poisson, P(µ), com
log(µ) = η = Xβ, sendo um dos casos especiais dos MLG de maior importância, pelo
seu papel na análise de dados categorizados dispostos em tabelas de contingência.
Pode-se supor que a tabela de contingência é proveniente de um modelo de Poisson,
multinomial ou produto-multinomial, dependendo do planejamento adotado. Para os
dois últimos modelos, demonstra-se que isso equivale a um conjunto de distribuições
condicionadas de Poisson com a suposição do total das frequências observadas ser
fixo (Seção 7.2.2).
Pode-se transformar Y na forma de contagens e, a seguir, definir modelos
alternativos para os dados transformados. Geralmente, usa-se a transformação Y 1/2
que estabiliza a variância supondo µ grande, ou trata-se Y 2/3 como, aproximada-
mente, normal. Entretanto, nesses casos, ignora-se a natureza discreta dos dados.
2.4.3 Modelo binomial

A distribuição binomial foi deduzida por James Bernoulli em 1713, embora
tenha sido encontrada anteriormente em trabalhos de Pascal.
Suponha que Y = mP tenha distribuição binomial B(m, π), com função
de probabilidade especificada no Exemplo 1.2, sendo que P representa a proporção
de sucessos em m ensaios independentes com probabilidade de sucesso π. A função
geratriz de momentos de Y é expressa por M (t; π, m) = {π[exp(t)−1]+1}m e os seus
momentos centrais, µ2r e µ2r+1 , são de ordem O(mr ), para r = 1, 2, . . . O r-ésimo
momento central de P é, simplesmente, m−r µr . Todos os cumulantes de Y são de
ordem O(m) e, portanto,
Y − mπ
∼ N(0, 1) + Op (m−1/2 ),
[mπ(1 − π)] 1/2
sendo a taxa de convergência expressa pelo terceiro cumulante padronizado. A moda

de Y pertence ao intervalo [(m+1)π −1, (m+1)π], e os seus coeficientes de assimetria
e curtose são, respectivamente,
(1 − 2π) 6 1
e 3− + .
[mπ(1 − π)]1/2 m mπ(1 − π)
Quando mπ > 5 e 0, 1 ≤ π ≤ 0, 9, ou mπ > 25, sendo π qualquer, o modelo

binomial B(m, π) pode ser aproximado pelo modelo normal N(mπ, mπ(1 − π)). Uma
melhor aproximação é obtida de P(Y ≤ y) = Φ(y1 ) + ϕ(y1 )/{2[mπ(1 − π)]1/2 }, em
que y1 = (y − mπ)/[mπ(1 − π)] e ϕ(.) é a f.d.p. da distribuição normal padrão, cujo
erro é inferior a (0, 2 + 0, 25 | 1 − 2π |)/[mπ(1 − π)] + exp{−1, 5[mπ(1 − π)]−1/2 },
se mπ(1 − π) ≥ 25. A aproximação normal com correção de continuidade P(Y ≤
y) = Φ(y2 ), em que y2 = (y + 0, 5 − mπ)/[mπ(1 − π)]1/2 , tem erro menor do que
0, 140[mπ(1 − π)]−1/2 (Cordeiro, 1986).
Se y = mp é inteiro, um número de aproximações para as probabilidades
binomiais são baseadas na equação
m ( )
∑ m
P(Y ≥ y) = π i (1 − π)m−i
i=y
i
∫ π
−1
= B(y, m − y + 1) ty−1 (1 − t)m−y dt = Iπ (y, m − y + 1),
0
em que Iπ (y, m − y + 1) representa a função razão beta incompleta.

Pode-se ainda usar a aproximação da distribuição binomial pela distribuição
de Poisson P(mπ) quando π < 0, 1, o erro da aproximação sendo O(m−1 ), ou, então,
a fórmula P(Y ≤ y) = 1 − P{F[2(y + 1), 2(m − y)] < π(m − y)/[(1 + y)(1 − π)]},
em que F[2(y + 1), 2(m − y)] representa a distribuição F de Snedecor com 2(y + 1) e
2(m − y) graus de liberdade. ( )
m y e−µ µy
Para finalizar, sejam B(y) = π (1 − π)m−y e P(y) = , as proba-
y y!
bilidades pontuais das distribuições binomial e de Poisson, respectivamente. Con-
siderando µ = mπ e supondo µ fixo, pode-se mostrar, com base na aproximação de
Stirling para o fatorial, que quando m − y → ∞,
( )1/2
B(y) m
≈ .
P(y) m−y
Esse resultado pode ser, também, facilmente, comprovado numericamente.

O modelo binomial é usado, principalmente, no estudo de dados na forma de
proporções, como nos casos da análise probito (Finney, 1971), logı́stica (ou “logit”)
(Ashton, 1972) e complemento log-log (Fisher, 1922) (Seção 2.2), e na análise de
dados binários, como na regressão logı́stica linear (Cox, 1970).
2.4.3.1 Dados na forma de proporções
Considera-se o modelo binomial para o estudo de dados na forma de pro-

porções em que são aplicadas doses de uma droga a n conjuntos de indivı́duos, sendo
mi o número de indivı́duos testados no conjunto i, i = 1, . . . , n. Conforme descrito
na Seção 2.2, o sucesso de um teste é determinado por uma variável latente U , de-
nominada tolerância, com f.d.a. especificada como F(.). Os indivı́duos do conjunto
i recebem uma dose fixa xi da droga e a probabilidade de sucesso correspondente
é expressa como πi = P(U ≤ xi ) = F(α + βxi ), em que α e β são parâmetros
desconhecidos que dependem dos parâmetros da distribuição proposta para U .
Sejam P1 , . . . , Pn as proporções de sucessos, supostas independentes, nos
conjuntos 1, . . . , n. O modelo para o estudo dessas proporções, no contexto dos
MLG, tem variável resposta Yi = mi Pi com distribuição binomial, função de ligação
F−1 (.) e estrutura linear ηi = α + βxi . Convém salientar, que é postulada uma
relação linear entre alguma função de µ e x, ao invés de uma função de P e x. A
variância da variável resposta não é constante, como no modelo clássico de regressão,
e depende do valor da média.
Vários casos especiais desse modelo binomial são obtidos pela definição da
distribuição da tolerância conforme explicado na Seção 2.2. Se se supõe que a
tolerância tem distribuição normal, o modelo correspondente πi = Φ(α + βxi ) é
denominado probito (Finney, 1971). Se se supõe que tem distribuição logı́stica, o
modelo πi = exp(α + βxi )/[1 + exp(α + βxi )] é denominado logı́stico (Berkson, 1944),
e quando tem distribuição de valor extremo, a função de ligação F−1 (.) corresponde
ao modelo complemento log-log. O modelo logı́stico, postulando uma regressão li-
near para log[π/(1 − π)] (“log odds”), tem sido muito usado na área de Medicina,
pois tem uma interpretação simples, enquanto que o probito é o mais usado na área
de Entomologia, por influência do artigo de Bliss (1935).
Existe pouca diferença entre as distribuições normal e logı́stica para a
tolerância, e, quando essas são re-escaladas adequadamente, por exemplo, para
terem as médias e os desvios-padrão iguais, tornam-se bastante similares no inter-
valo [0, 1; 0, 9]. Por essa razão, é, geralmente, difı́cil diferenciá-las com base no ajuste
do modelo. As funções de ligação logı́stica e probito são simétricas em relação ao
ponto de inflexão, isto é, F−1 (π) = −F−1 (1 − π), o que não ocorre com a função de
ligação complemento log-log. Essa última função de ligação é mais apropriada para
análise de dados sobre incidência de doenças. Para valores de µ próximos de zero,
as funções de ligação complemento log-log e logı́stica são equivalentes. A famı́lia
de funções de ligação de Aranda-Ordaz (1981) com um parâmetro especificada por
g(µ; λ) = log{[(1 − µ)−λ − 1]/λ} contém a função de ligação logı́stica (λ = 1) e a
complemento log-log (λ = 0).
2.4.3.2 Dados binários agrupados
Apresenta-se, agora, o estudo de variáveis binárias agrupadas. Sejam n

variáveis aleatórias binárias, R1 , . . . , Rn , tendo somente os valores 0 e 1, classificadas
em t grupos, o grupo i com mi variáveis independentes com probabilidade de sucesso
∑
t
(resposta igual a 1) associada πi , i = 1, . . . , t, sendo mi = n. Definem-se Yi
i=1
e Pi como o número e a proporção de sucessos no grupo i, respectivamente, em
que Yi = mi Pi tem distribuição binomial B(mi , πi ), i = 1, . . . , t. O modelo para
experimentos com respostas binárias não-agrupadas corresponde ao caso especial
mi = 1 e n = t.
O modelo para mi Pi com distribuição binomial B(mi , πi ) e função de ligação

∑
g(πi ) = g(µi /mi ) = ηi = pr=1 xir βr pertence à classe dos MLG devendo a função
de ligação ser uma função do intervalo (0, 1) na reta real. O modelo logı́stico linear
é obtido definindo g(πi ) = g(µi /mi ) = log[πi /(1 − πi )] = log[µi /(mi − µi )].
Um modelo alternativo para análise de dados binários agrupados é formulado

por variáveis aleatórias independentes Zi = g(Yi /mi ), i = 1, . . . , t. A variável Zi
tem, aproximadamente, distribuição normal de média g(πi ) e variância g ′ (πi )2 πi (1 −
πi )/mi , desde que mi → ∞ e que πi não seja próximo de 0 ou 1. Essa variância é,
consistentemente, estimada por vi = g ′ (pi )2 pi (1 − pi )/mi , substituindo πi pelo valor
amostral pi de Pi .
Considera-se z = (z1 , . . . , zt )T , em que zi = g(pi ), como realizações de

variáveis aleatórias com médias E(Z) = Xβ e estrutura de covariância aproxi-
mada V = diag{v1 , . . . , vt }, sendo X a matriz do modelo de dimensões t × p e
β = (β1 , . . . , βp )T . Se não ocorrerem proporções de sucessos iguais a 0 ou 1, o método
de mı́nimos quadrados ponderados, que equivale a minimizar (z−Xβ)T V−1 (z−Xβ)
em relação a β, produzirá o estimador β̂ = (XT V−1 X)−1 XT V−1 z. Esse estimador é

diferente do estimador de máxima verossimilhança de β. Nesse modelo alternativo,
testes e regiões de confiança para os parâmetros são obtidos como no contexto do
modelo clássico de regressão.
Escolhendo a função de ligação g(.) como a logı́stica, tem-se Zi =
log[Yi /(mi − Yi )], denominada transformação logı́stica empı́rica de Yi /mi , sendo
Var(Zi ) estimada por mi /[Yi (mi − Yi )]. Uma transformação mais adequada é obtida
acrescentando-se 0, 5 ao numerador e ao denominador, implicando em
( )
Yi + 0, 5
Zi = log ,
mi − Yi + 0, 5
pois E(Zi ) = log[πi /(1 − πi )] + O(m−2

i ), além de ser definida para proporções de
sucessos iguais a zero e um. Um estimador não-viesado de Var(Zi ) é igual a
(mi + 1)(mi + 2)
vi = .
mi (Yi + 1)(mi − Yi + 1)
√
Escolhendo a função de ligação arco seno, tem-se Zi = arcsen( Yi /mi ), denominada
“transformação angular empı́rica” que, aproximadamente, estabiliza a variância para
√
mi grande. A média e a variância de Zi são, aproximadamente, iguais a arcsen( πi )
e 1/(4mi ), respectivamente.
2.4.4 Modelo gama

Suponha que Y tem distribuição gama, G(µ, ϕ), com parâmetros positivos
µ e ϕ, isto é, com f.d.p. expressa por
( )ϕ
ϕ ( )
µ ϕy
f (y; µ, ϕ) = y ϕ−1
exp − , y > 0,
Γ(ϕ) µ
√
sendo a média µ e o coeficiente de variação igual a ϕ. Tem-se, então, a função
−ϕ−1
geratriz de momentos M (t; µ, ϕ) = (1 − µϕt) , se t > (ϕµ)−1 , r-ésimo momento
∏
r−1
central (µϕ)r
(j+ϕ−1 ), r-ésimo cumulante (r−1)!µr ϕr−1 , coeficientes de assimetria
j=o
√
e curtose iguais a 2 ϕ e 3 + 6ϕ, respectivamente. Logo, o modelo gama G(µ, ϕ) tem
o modelo normal como limite quando o parâmetro de dispersão ϕ → 0. A moda
da distribuição é igual a µ(1 − ϕ) para ϕ ≤ 1 e, se ϕ > 1, a função densidade da
distribuição gama decresce quando y cresce.
Se a variável aleatória Y tem distribuição gama G(µ, ϕ), a sua f.d.a. pode
ser calculada por
γ(ϕ, ϕµ−1 x)
P(Y ≤ x) = ,
Γ(ϕ)
∫ y
em que a função gama incompleta é γ(ϕ, y) = tϕ−1 e−t dt. A função Γ(ϕ) =
∫ ∞ 0
ϕ−1 −t
t e dt é a função gama. Essas funções estão disponı́veis nos principais soft-
0
ware estatı́sticos e podem ser vistas, também, em http://mathworld.wolfram.com.
O modelo gama é usado na análise de dados contı́nuos não-negativos que
apresentam uma variância crescente com a média e mais, fundamentalmente, quando
o coeficiente de variação dos dados for, aproximadamente, constante. É, também,
aplicado na estimação de componentes de variância de modelos com efeitos aleatórios,
e como uma distribuição aproximada de medições fı́sicas, tempos de sobrevivência,
etc.
Uma aplicação do modelo gama é na análise de variância com efeitos
aleatórios, em que as somas de quadrados, supondo que a variável resposta tem
distribuição normal, são proporcionais a variáveis qui-quadrados. Sejam k somas de
quadrados SQ1 , . . . , SQk independentes, tais que SQi ∼ ηi χ2νi , em que νi é o número
∑p
de graus de liberdade associado a SQi e ηi = xij σj2 é uma constante de pro-
j=1
porcionalidade, expressa como uma combinação linear de p variâncias desconhecidas
σ12 , . . . , σp2 . Como os quadrados médios QMi = SQi /νi têm distribuição (ηi /νi )χ2νi ,
pode-se considerar QMi , i = 1, . . . , k, representando a variável resposta, no contexto
dos MLG, seguindo o modelo G(ηi , (νi /2)−1 ) com função de ligação identidade.
Suponha, agora, que a variável aleatória Y tem distribuição gama G(µ, ϕ)
√
com coeficiente de variação ϕ bastante pequeno. Obtêm-se as aproximações
ϕ
E[log(Y )] ≈ log(µ) − e Var[log(Y )] ≈ ϕ.
2
Assim, ao invés de analisar os dados y, usando-se o modelo gama G(µ, ϕ) com função
de ligação g(.), pode-se construir um modelo normal alternativo de variância cons-
tante ϕ e função de ligação g(exp(.)) ajustado aos logaritmos dos dados. Além disso,
a variância da variável transformada, isto é, ϕ = Var[log(Y )], pode ser estimada,
após o ajuste do modelo normal, por exemplo, pelo quadrado médio dos resı́duos.
Finalmente, pode-se demonstrar que o logaritmo da função de verossimi-
lhança do modelo gama G(µ, ϕ) é, aproximadamente, quadrático, na escala µ−1/3 ,
e que a diferença entre o seu máximo e o valor num ponto arbitrário µ, é igual a
9y 2/3 (y −1/3 − µ−1/3 )2 /2 (McCullagh e Nelder, 1989, Seção 7.2). Ainda, tem-se que a
variável transformada 3[(Y /µ)1/3 − 1] é, aproximadamente, normal.
2.4.5 Modelo normal inverso

A distribuição normal inversa (ou Gaussiana inversa) foi deduzida por Wald
e Tweedie em dois artigos publicados, independentemente, em 1947. A f.d.p. da dis-
tribuição normal inversa IG(µ, ϕ) com média µ > 0 e parâmetro ϕ > 0, representando
uma medida de dispersão, é expressa por
[ ]
3 −1/2 −(y − µ)2
π(y; µ, ϕ) = (2πϕy ) exp , y > 0.
2µ2 ϕy
O parâmetro µ é, portanto, uma medida de locação e o parâmetro ϕ, uma

medida de dispersão igual à razão entre a variância e o cubo da média.
As caracterı́sticas da distribuição IG(µ, ϕ) são: função geratriz de momentos
M (t; µ, ϕ) = exp {(ϕµ)−1 [1 − (1 + 2µ2 ϕt)1/2 ]}, cumulantes para r ≥ 2 obtidos de
√
κr = 1.3.5 . . . (2r − 1)µ2r−1 ϕr−1 , coeficientes de assimetria e curtose iguais a 3 µϕ
e 3 + 15µϕ, respectivamente, e moda µ[(1 + 9µ2 ϕ2 /4)1/2 − 3µϕ/2]. A distribuição
é unimodal e sua forma depende apenas do valor do produto ϕµ. Uma relação
importante entre os momentos positivos e negativos é E(Y −r ) = E(Y r+1 )/µ2r+1 .
A f.d.a. da distribuição normal inversa IG(µ, ϕ) pode ser obtida a partir da
distribuição acumulada da normal N(0, 1) por P(Y ≤ y) = Φ(y1 )+exp[2/(ϕµ)]Φ(y2 ),
em que y1 = (ϕy)−1/2 (−1 + y/µ) e y2 = −(ϕy)−1/2 (1 + y/µ).
A distribuição normal inversa tem distribuição assintótica normal, da mesma
forma que a gama, a log normal e outras distribuições assimétricas. Quando ϕ → 0,
a distribuição normal inversa IG(µ, ϕ) é, assintoticamente, normal N(µ, µ3 ϕ).
As aplicações do modelo normal inverso IG(µ, ϕ) concentram-se no estudo
do movimento Browniano de partı́culas, análise de regressão com dados conside-
ravelmente assimétricos, testes de confiabilidade, análise seqüencial e análogo de
análise de variância para classificações encaixadas. Outras aplicações incluem análise
de tempos, como: duração de greves, tempo de primeira passagem nos passeios
aleatórios, tempos de sobrevivência, tempo gasto para injetar uma substância no
sistema biológico, etc.
Existem muitas analogias entre os modelos normal e normal inverso. Por
exemplo, o dobro do termo do expoente com sinal negativo nas funções densidades
normal e normal inversa, tem distribuição χ21 . Um estudo completo do modelo normal
inverso IG(µ, ϕ) é apresentado por Folks e Chhikara (1978).
2.4.6 Modelo binomial negativo

A distribuição binomial negativa com parâmetros k > 0 e 0 < p < 1 é
definida por
( )( )y
k+y−1 p 1
P(Y = y) =
k−1 p+1 (p + 1)k
para y = 0, 1, 2, . . . O parâmetro µ = kp é igual à média e pode ser usado no lugar

de p (Tabela 1.1 e Exercı́cio 1b do Capı́tulo 1). Quando k é inteiro, essa distribuição
é, também, denominada de distribuição de Pascal. Um caso especial importante é
a distribuição geométrica quando k = 1. Formas especiais da distribuição binomial
negativa surgiram, em 1679, com Pascal e Fermat. Gosset (“Student”), em 1907,
usou a distribuição binomial negativa para analisar dados na forma de contagens no
lugar da distribuição de Poisson.
A função geratriz de momentos é M (t) = [1+p(1−et )]−k . A variância é igual
√
a Var(Y ) = kp(1+p) e os coeficientes de assimetria e curtose são (2p+1)/ kp(p + 1)
e 3 + [1 + 6p(1 + p)]/[kp(1 + p)], respectivamente. Observe-se que a variância pode
ser especificada em termos da média como Var(Y ) = µ(1 + µ/k), o que caracteriza o
modelo binomial negativo como um dos modelos adequados para estudar superdis-
persão, isto é, quando Var(Y ) > E(Y ) (Hinde e Demétrio, 1998a,b).
Pode-se verificar que P(Y = y + 1) > P(Y = y) quando y < µ(1 − k −1 ) − 1
e P(Y = y + 1) < P(Y = y) quando y > µ(1 − k −1 ) − 1.
A f.d.a. da distribuição binomial negativa P(Y ≤ y) para y inteiro pode
ser determinada a partir da distribuição acumulada da variável aleatória X tendo
distribuição binomial com parâmetros k + y e (1 + p)−1 por P(Y ≤ y) = P(X ≥ k).
Alternativamente, a distribuição acumulada da binomial negativa pode ser calculada
de forma aproximada por
∑
y
µi (y − µ) k e−µ µy
−µ
P(Y ≤ y) ≈ e − .
i=0
i! 2 (µ + k) y!
2.4.7 Modelo secante hiperbólico generalizado

A distribuição secante hiperbólica generalizada (SHG) foi estudada por Mor-
ris (1982) no contexto da função de variância da famı́lia exponencial, sendo uma
função quadrática da média. A f.d.p. é expressa por (y ∈ R)
{ }
1 1
f (y; µ, ϕ) = exp [y arctanµ − log(1 + µ )] + c(y, ϕ) ,
2
ϕ 2
sendo
{ } ∑
∞ { }
2(1−2ϕ)/ϕ y2
c(y, ϕ) = log − log 1 + .
πϕΓ(ϕ−1 ) j=0
(1 + 2jϕ)2
Em relação a outras distribuições na famı́lia exponencial, a forma de sua

função c(y, ϕ) é bastante complicada. Entretanto, a distribuição SHG pode ser ade-
quada para análise de dados contı́nuos reais como distribuição alternativa à dis-
tribuição normal. A sua função de variância é obtida de θ = arctan(µ) como
V = dµ/dθ = 1 + µ2 . Morris (1982) demonstrou que existem, exatamente,
na famı́lia exponencial (2.4) seis distribuições com função de variância quadrática
V (µ) = c0 + c1 µ + c2 µ2 , a saber: binomial (c0 = 0, c1 = 1, c2 = −1), Poisson
(c0 = c2 = 0, c1 = 1), normal (c0 = 1, c1 = c2 = 0), gama (c0 = c1 = 0, c2 = 1),
binomial negativa (c0 = 0, c1 = 1, c2 > 0) e SHG (c0 = c2 = 1, c1 = 0).
2.4.8 Modelos definidos por transformações

Sejam Y1 , . . . , Yn variáveis aleatórias tais que, após alguma transformação
h(.), as variáveis resultantes Z1 , . . . , Zn , em que Zi = h(Yi ), têm distribuições normais
de médias µ1 , . . . , µn e variância constante σ 2 , e que existe uma outra transformação
g(.) produzindo linearidade dos efeitos sistemáticos, isto é, g[E(Y)] = η = Xβ.
Usando-se expansão de Taylor ao redor de µ até primeira ordem, tem-se g(h−1 (µ)) =
η e, portanto, esses modelos pertencem, de forma aproximada, à classe dos MLG, com
distribuição normal e função de ligação g(h−1 (·)). A variância da variável resposta
original pode ser obtida, aproximadamente, de Var(Y ) = σ 2 /{h′ [g −1 (η)]2 }.
Usando-se a transformação potência de Box e Cox (1964), pode-se definir
uma subclasse de modelos por
Z = h(Y ) = ϕ−1 (Y ϕ − 1) ∼ N(µ, σ 2 )
e
g[E(Y )] = ϕ−1 {[E(Y )]θ − 1},
em que g[E(Y)] = η = Xβ. Aqui, ϕ = 0 e θ = 0 correspondem à transformação

logarı́tmica. Logo, essa subclasse é representada, no contexto dos MLG, por uma
distribuição normal com função de ligação ϕ−1 [(1 + ϕµ)θ/ϕ − 1] = η, supondo θ ̸= 0 e
ϕ ̸= 0. A demonstração segue por expansão em série de Taylor até primeira ordem.
Quando θ = ϕ = 1, tem-se o modelo clássico de regressão. Um caso im-
portante, denominado polinômios inversos (Nelder, 1966), é definido por ϕ = 0 e
θ = −1 e, portanto, considera erros normais na escala logarı́tmica e linearidade na
escala inversa, sendo equivalente ao modelo normal N(µ, σ 2 ) com função de ligação
η = 1 − exp(−µ).
2.5 Metodologia
O processo de ajuste dos MLG pode ser dividido em três etapas: (i) for-
mulação dos modelos; (ii) ajuste dos modelos e (iii) inferência.
Os MLG formam um ferramental de grande utilidade prática, pois apresen-
tam grande flexibilidade na etapa (i), computação simples em (ii) e critérios razoáveis
em (iii). Essas etapas são realizadas seqüencialmente. Na análise de dados com-
plexos, após a conclusão da etapa de inferência, pode-se voltar à etapa (i) e escolher
outros modelos, a partir de informações mais detalhadas oriundas do estudo feito em
(iii).
Uma caracterı́stica importante dos MLG é que se supõe independência das
variáveis respostas (ou, pelo menos, não-correlação) e, portanto, dados exibindo au-
toregressões como as séries temporais, em princı́pio, podem ser excluı́dos. Uma
segunda caracterı́stica é que a estrutura da variável resposta é suposta única em-
bora, usualmente, existam várias variáveis explanatórias na estrutura linear desses
modelos. Assim, outras técnicas estatı́sticas devem ser consideradas para analisar
dados que ocorrem em planejamentos de experimentos com mais de uma fonte de
erro. Ainda, variáveis respostas com distribuições que não pertencem à famı́lia (2.4),
∑
como a distribuição de Cauchy, e estruturas não-lineares do tipo η = βj exp(αj xj ),
a menos que os αj sejam conhecidos, devem, também, ser excluı́dos.
Apresentam-se, agora, as caracterı́sticas principais das etapas que formam a
metodologia de trabalho com os MLG.
2.5.1 Formulação de modelos

A etapa de formulação dos modelos compreende a escolha de opções para
a distribuição de probabilidade da variável resposta, variáveis explanatórias (ma-
triz modelo) e função de ligação. Essas opções visam a descrever as caracterı́sticas
principais da variável resposta.
Para se escolher razoavelmente a distribuição em (2.4), devem-se exami-
nar cuidadosamente os dados, principalmente quanto aos seguintes pontos básicos:
assimetria, natureza contı́nua ou discreta (por exemplo, contagens) e intervalo de
variação.
As distribuições gama e normal inversa são associadas a dados contı́nuos
assimétricos. Se os dados exibem simetria e o intervalo de variação é o conjunto dos
reais, a distribuição normal deve ser escolhida. Entretanto, se os dados têm intervalo
de variação em (0, ∞), a suposição de normalidade pode ser mais apropriada para
alguma transformação dos dados, por exemplo, a logarı́tmica. Alternativamente,
podem-se supor as distribuições normal inversa e gama, cujos intervalos de variação
são positivos. Quando os dados apresentam coeficientes de variação constante, o
modelo gama deve ser o preferido.
A distribuição de Poisson aplica-se a observações na forma de contagens, mas
pode, também, ser usada na análise de dados contı́nuos que apresentam variância,
aproximadamente, igual à média. Quando a variância dos dados é maior do que
a média (ao invés de igual), pode-se trabalhar com as distribuições gama, normal
inversa e binomial negativa. Esse fenômeno é denominado superdispersão para
distribuições discretas (Hinde e Demétrio, 1998a,b). A escolha entre essas três dis-
tribuições pode depender, exclusivamente, da dispersão dos dados. A variância da
binomial negativa (V (µ) = µ+µ2 /r) pode ser aproximada, para um intervalo razoável
de variação de µ, por V (µ) = λµ, em que a função de variância contém um parâmetro
multiplicador λ > 1, desconhecido. Portanto, a distribuição de Poisson pode ser em-
pregada para análise de dados que apresentam superdispersão, desde que seja obtida
uma estimativa para λ. O fenômeno de subdispersão, em que a variância dos dados
é menor do que a média, pode ser tratado usando-se o modelo de Poisson com λ < 1,
mas é muito incomum na prática. Nesse caso, o modelo binomial pode ser mais
adequado.
A distribuição binomial serve para análise de dados na forma de proporções,
podendo ainda ser útil na análise de dados contı́nuos ou discretos apresentando
subdispersão. A superdispersão pode ser analisada usando-se a distribuição binomial
é possı́vel, com um parâmetro multiplicador na função de variância, porém não é
frequente na prática.
A escolha de uma função de ligação compatı́vel com a distribuição proposta
para os dados deve resultar de considerações a priori, exame intensivo dos dados,
facilidade de interpretação do modelo e, mais usualmente, uma mistura de tudo isso.
No modelo clássico de regressão, a função de ligação é a identidade no sen-
tido de que valores esperados e preditores lineares podem ter qualquer valor real.
Entretanto, quando os dados estão na forma de contagens e a distribuição é de
Poisson, a função de ligação identidade, como observado anteriormente, é menos
atrativa, pois não restringe os valores esperados ao intervalo (0, ∞). Quando efeitos
sistemáticos multiplicativos contribuem para as médias dos dados, uma função de
ligação logarı́tmica torna os efeitos aditivos contribuindo para os preditores lineares
e, portanto, pode ser a mais apropriada. Analogamente, as funções de ligação ade-
quadas para dados na forma de proporções, devem ser funções de (0, 1) no conjunto
dos reais, como probito, logı́stica, complemento log-log e arco seno. As funções de
ligação compatı́veis com os modelos gama, normal inverso e binomial negativo devem
restringir as médias dos dados ao intervalo (0, ∞).
A Tabela 2.7 apresenta a combinação distribuição da variável respos-
ta/função de ligação para os casos especiais dos MLG (a), (b), . . . , (l), descritos na
Seção 2.1.
Existem funções de ligação que produzem propriedades estatı́sticas de-
sejáveis para o modelo, particularmente, em pequenas amostras. Essas funções são
definidas visando aos seguintes efeitos de forma separada: constância da informação
de Fisher e da curvatura do logaritmo da função de verossimilhança, estatı́sticas su-
ficientes de dimensão mı́nima, normalização aproximada das estimativas de máxima
verossimilhança dos parâmetros lineares e simetria do logaritmo da função de veros-
similhança. Nenhuma função de ligação pode produzir todos estes efeitos desejados
e, muitas vezes, se existe uma função de ligação superior às demais, ela pode conduzir
a dificuldades de interpretação.
Tabela 2.7: Combinação da distribuição da variável resposta e da função de ligação

para os casos especiais de MLG descritos na Seção 2.1.
Função Distribuição
de ligação Normal Poisson Binomial Gama Normal Inversa
Identidade (a) – – (i) –
Logarı́tmica – (e) – – –
Inversa (h) – – (g)(j) –
Inversa do quadrado – – – – (l)
Logı́stica – – (d)(f) – –
Probito – – (c) – –
Complemento log-log – – (b) – –
Observação: Para os casos (g), (j) e (l) foram escolhidas as funções de ligação mais
usuais (canônicas) que correspondem a θ = η.
A terceira escolha na formulação do modelo é a do conjunto de variáveis ex-

planatórias para representar a estrutura linear do MLG, ou seja, a formação da
matriz modelo. Em geral, as variáveis explanatórias escolhidas devem ser não-
correlacionadas. Os termos da estrutura linear podem ser contı́nuos, qualitativos
e mistos.
Uma variável explanatória quantitativa (covariável) x, geralmente, corres-

ponde a um único parâmetro β, contribuindo com o termo βx para o modelo, en-
quanto uma variável explanatória qualitativa A, denominada frequentemente de fa-
tor, inclui na estrutura linear um conjunto de parâmetros αi , em que i é o ı́ndice que
representa os nı́veis do fator. Assim, na estrutura linear ηi = αi + βx, representando
grupos distintos de um fator A mais uma covariável x, a ordenada varia com o nı́vel
do fator, mas a declividade é a mesma. Entretanto, em alguns casos, a declividade
deve variar com o nı́vel do fator e, portanto, o termo βx deve ser substituı́do pelo
mais geral βi x, produzindo η = αi + βi x. O termo βi x é denominado misto, pois a
declividade associada à variável explanatória é suposta diferente para cada nı́vel do
fator.
Freqüentemente, as observações são classificadas por dois ou mais fatores

simultaneamente e, então, termos representando interações entre os fatores devem
ser incluı́dos no modelo. Uma covariável x pode ser transformada por uma função
não-linear h(x), sem prejudicar a linearidade do modelo, desde que h(.) não con-
tenha parâmetros desconhecidos. Assim, a estrutura linear do modelo pode conter
polinômios em x. Transformações simples nas variáveis explanatórias podem im-
plicar num grande aperfeiçoamento do componente sistemático do modelo. O caso
de funções não-lineares das variáveis explanatórias com parâmetros desconhecidos
será discutido na Seção 5.7. Em muitas aplicações, a combinação linear das variáveis
explanatórias x1 , . . . , xp depende, fortemente, das caracterı́sticas do experimento e
deve propiciar uma contribuição útil na explicação do comportamento da variável
resposta associada às observações y.
Um MLG é considerado como uma boa representação dos dados se conseguir

explicar a relação variância/média satisfatoriamente, e se produzir efeitos aditivos
na escala definida pela função de ligação. Um modelo parcimonioso é, também,
uma exigência, no sentido de que o número de parâmetros seja tão pequeno quanto
possı́vel. Por exemplo, se os dados são classificados por dois ou mais fatores, um
modelo parcimonioso deve minimizar o número de interações entre os fatores.
Um ponto fundamental no processo de escolha de um MLG é que não se

deve ficar restrito a um único modelo, achando-o mais importante e excluir outros
modelos alternativos. É prudente considerar a escolha restrita a um conjunto am-
plo de modelos estabelecidos por princı́pios como: facilidade de interpretação, boas
previsões anteriores e conhecimento profundo da estrutura dos dados. Algumas ca-
racterı́sticas nos dados podem não ser descobertas, mesmo por um modelo muito bom
e, portanto, um conjunto razoável de modelos adequados aumenta a possibilidade de
se detectarem essas caracterı́sticas.
2.5.2 Ajuste dos modelos
A etapa de ajuste representa o processo de estimação dos parâmetros li-

neares dos modelos e de determinadas funções das estimativas desses parâmetros,
que representam medidas de adequação dos valores estimados. Vários métodos po-
dem ser usados para estimar os parâmetros dos MLG. Nesse ponto, convém recordar
a citação “nada é tão fácil quanto inventar métodos de estimação” de Sir Ronald
Fisher (1925). Como o método de máxima verossimilhança nos MLG conduz a um
procedimento de estimação bastante simples, esse método é o mais usado.
O algoritmo para a solução das equações de máxima verossimilhança nos

MLG foi desenvolvido por Nelder e Wedderburn (1972) e equivale ao cálculo repetido
de uma regressão linear ponderada, como será descrito na Seção 3.2. O algoritmo é
similar a um processo iterativo de Newton-Raphson, mas a caracterı́stica principal
é o uso da matriz de valores esperados das derivadas parciais de segunda ordem do
logaritmo da função de verossimilhança (informação), em relação aos β ′ s, no lugar da
matriz correspondente de valores observados. Essa caracterı́stica foi, primeiramente,
desenvolvida por Fisher (1935), para o caso da distribuição binomial com função
de ligação probito e o processo é denominado “método escore para estimação de
parâmetros”.
O algoritmo de Nelder e Wedderburn (1972) tem como casos especiais os

algoritmos de Finney (1971) para o cálculo de curvas ajustadas de resposta a um
conjunto de doses de um medicamento, e de Haberman (1970) para o cálculo das
estimativas nos modelos log-lineares.
Vários software estatı́sticos como R, SAS, S-PLUS, STATA e MATLAB

apresentam, para cada ajuste, as estimativas dos parâmetros β, η e µ do modelo,
resı́duos, estruturas de covariância e correlação entre as estimativas e outras funções
de interesse.
O algoritmo de estimação nos MLG é bastante robusto, convergindo rapi-

damente. Entretanto, pode falhar em convergir de duas maneiras distintas:
(a) as estimativas dos parâmetros tendem para valores infinitos, embora o máximo
do logaritmo da função de verossimilhança esteja convergindo para o valor
correto;
(b) o logaritmo da função de verossimilhança, ao invés de sempre crescer no pro-

cesso iterativo, começa a decrescer ou oscilar, constituindo uma divergência
real.
Quando θ = η, implicando um modelo com p estatı́sticas suficientes mini-

mais, tem-se constatado que exemplos de divergência são muito raros.
Ao ocorrer falha do algoritmo, torna-se necessário repetir o procedimento
de estimação, a partir dos valores ajustados correntes, usando um modelo diferente,
pois a convergência pode ser alcançada (Cordeiro, 1986).
2.5.3 Inferência
A etapa de inferência tem como objetivo principal verificar a adequação
do modelo como um todo e realizar um estudo detalhado quanto a discrepâncias
locais. Essas discrepâncias, quando significativas, podem implicar na escolha de
outro modelo, ou em aceitar a existência de observações aberrantes. Em qualquer
caso, toda a metodologia de trabalho deverá ser repetida.
Deve-se, nessa etapa, verificar a precisão e a interdependência das estimati-
vas, construir regiões de confiança e testes sobre os parâmetros de interesse, analisar
estatisticamente os resı́duos e realizar previsões.
A precisão das previsões depende basicamente do modelo selecionado e, por-
tanto, um critério de adequação do ajuste é verificar se a precisão de uma previsão
em particular é maximizada. Muitas vezes, é possı́vel otimizar a precisão por simples
alteração do componente sistemático do modelo.
Um gráfico dos resı́duos padronizados versus valores ajustados, sem nenhuma
tendência, é um indicativo de que a relação funcional variância/média proposta para
os dados é satisfatória. Gráficos dos resı́duos versus variáveis explanatórias que não
estão no modelo são bastante úteis. Se nenhuma variável explanatória adicional for
necessária, então não se deverá encontrar qualquer tendência nesses gráficos. Ob-
servações com erros grosseiros podem ser detectadas como tendo resı́duos grandes e
leverages pequenos ou resı́duos pequenos e leverages (h) grandes, ou o modelo ajus-
tado deve requerer mais variáveis explanatórias, por exemplo, interações de ordem
superior. A inspeção gráfica é um meio poderoso de inferência nos MLG.
Para verificar o ajuste do MLG, pode-se adotar o critério da razão da veros-

similhanças em relação ao modelo saturado e a estatı́stica de Pearson generalizada
(Seção 4.2). Quase toda a parte de inferência nos MLG é baseada em resulta-
dos assintóticos, e pouco tem sido estudado sobre a validade desses resultados em
amostras muito pequenas.
Um modelo mal ajustado aos dados pode apresentar uma ou mais das
seguintes condições: (a) inclusão de um grande número de variáveis explanatórias
no modelo, muitas das quais são redundantes e algumas explicando somente um pe-
queno percentual das observações; (b) formulação de um modelo bastante pobre em
variáveis explanatórias, que não revela e nem reflete as caracterı́sticas do mecanismo
gerador dos dados; (c) as observações mostram-se insuficientes para que falhas do
modelo sejam detectadas.
A condição (a) representa uma superparametrização do modelo implicando

numa imprecisão das estimativas e (b) é a situação oposta de (a): uma sub-
parametrização que implica em previsões ruins. A terceira condição é um tipo de
falha difı́cil de se detectar, e é devida à combinação inadequada distribuição/função
de ligação, que nada tem a ver com as observações em questão.
2.6 Exercı́cios
1. Para o modelo binomial as funções de ligação mais comuns são: logı́stica, probito
e complemento log-log. Comparar os valores do preditor linear para essas funções de
ligação no intervalo (0, 1).
2. Mostre que
µλ − 1
lim = log(µ).
λ→0 λ
3. Considere a famı́lia de funções de ligação definida por Aranda-Ordaz (1981)

[ ]
(1 − π)−λ − 1
η = log , 0 < π < 1 e λ uma constante.
λ
Mostre que a função de ligação logı́stica é obtida para λ = 1 e que quando λ → 0,
tem-se a função de ligação complemento log-log.
[ ]
(1 − µ)−λ − 1
4. Comparar os gráficos de η = log versus µ para λ = −1, −0.5, 0,
λ
0.5, 1 e 2.
5. Explicar como um modelo de Box-Cox poderia ser formulado no contexto dos

MLG.
6. Demonstrar que se Y tem uma distribuição binomial B(m, π), então para m
√
grande Var(arcsen Y /m) é, aproximadamente, 1/(4m), com o ângulo expresso em
radianos. Em que situações uma estrutura linear associada a essa transformação
poderá ser adequada?
7. Suponha que Y tem distribuição binomial B(m, π) e que g(Y /m) é uma função
arbitrária. Calcular o coeficiente de assimetria assintótico de g(Y /m). Demonstrar
∫π
que se anula quando g(π) = 0 t−1/3 (1 − t)−1/3 dt e, portanto, a variável aleatória
definida por [g(Y /m) − g(α)]/[π 1/6 (1 − π)1/6 m−1/2 ], em que α = π − (1 − 2π)/(6m),
tem distribuição próxima da normal reduzida (Cox e Snell, 1968).
8. Sejam Y1 e Y2 variáveis aleatórias binomiais de parâmetros π1 e π2 em dois

grupos de tamanhos m1 e m2 , respectivamente. O número de sucessos Y1 no primeiro
grupo, dado que o número total de sucessos nos dois grupos é r, tem distribuição
hipergeométrica generalizada de parâmetros π1 , π2 , m1 , m2 e r. Demonstrar que essa
distribuição é um membro da famı́lia (2.4) com parâmetro θ = log{π1 (1−π2 )/[π2 (1−
∑ i (m1 )( m2 )
π1 )]}, ϕ = 1 e π = D1 (θ)/D0 (θ), em que Di (θ) = xx x r−x
exp(θx) para
i = 0, 1. Calcular a expressão do r-ésimo cumulante dessa distribuição.
9. Se Y tem distribuição de Poisson P(µ), demonstrar:
(a) que o coeficiente de assimetria Y 2/3 é de ordem µ−1 enquanto que aqueles de
Y e Y 1/2 são de ordem µ−1/2 ;
(b) que o logaritmo da função de verossimilhança para uma única observação é,
aproximadamente, quadrático na escala µ1/3 ;
(c) a fórmula do r-ésimo momento fatorial E[Y (Y − 1) . . . (Y − r + 1)] = µr ;
(d) a fórmula de recorrência entre os momentos centrais µr+1 = rµµr−1 + µdµr /dµ;
√
(e) que 2 Y tem, aproximadamente, distribuição normal N(0, 1).
10. Se Y tem distribuição gama G(µ, ϕ), demonstrar que:
(a) quando ϕ < 1, a função densidade é zero na origem e tem uma única moda no
ponto µ(1 − ϕ);
(b) o logaritmo da função de verossimilhança para uma única observação é, apro-
ximadamente, quadrático na escala µ−1/3 ;
(c) a variável transformada 3[(Y /µ)1/3 − 1] é, aproximadamente, normal.
11. Se Y tem distribuição binomial B(m, π), demonstrar que a média e a

variância de log[(Y + 0, 5)/(m − Y + 0, 5)] são iguais a log[π/(1 − π)] + O(m−2 )
[ ]
e E (Y + 0, 5)−1 + (m − Y + 0, 5)−1 + O(m−3 ), respectivamente.
12. Se Y tem distribuição de Poisson P(µ), obter uma expansão para Var[(Y + c)1/2 ]
em potências de µ−1 , e mostrar que o coeficiente de µ−1 é zero quando c = 3/8.
Achar uma expansão similar para Var[Y 1/2 + (Y + 1)1/2 ].
√
13. Qual é a distribuição da tolerância correspondente à função de ligação arcsen ?
14. Se Y tem distribuição binomial B(m, π), demonstrar que os momentos da es-
tatı́stica Z = ±{2Y log(Y /µ)+2(m−Y ) log[(m−Y )/(m−µ)]}1/2 +{(1−2π)/[mπ(1−
π)]}1/2 /6 diferem dos correspondentes da distribuição normal reduzida N(0, 1) com
erro O(m−1 ). Essa transformação induz simetria e estabiliza a variância simultanea-
mente (McCullagh e Nelder, 1989).
15. Se Y tem distribuição binomial B(m, π), demonstrar a expressão aproximada

P(Y ≤ y) = Φ(y1 ), em que y1 = 2m1/2 {arcsen[(y+3/8)/(m+3/4)]1/2 −arcsen(π 1/2 )}.
16. Suponha que Y ∼ B(m, π), sendo π = eλ (1 + eλ )−1 . Mostre que m − Y tem
distribuição binomial com parâmetro induzido correspondente λ′ = −λ.
17. Demonstrar que para a variável aleatória Y com distribuição de Poisson, tem-se:
1
(a) E(Y 1/2 ) ≈ µ1/2 e Var(Y 1/2 ) ≈ ;
4
( ) ( )
1 1 3
1/2
(b) E(Y ) = µ 1/2
1− + O(µ −3/2 1/2
) e Var(Y ) = 1+ + O(µ−3/2 );
8µ 4 8µ
( ) 1/3
( )
1 4µ 1
(c) E(Y 2/3 ) ≈ µ2/3 1 − e Var(Y 2/3 ) ≈ 1+ .
9µ 9 6µ
18. Se Y tem distribuição de Poisson com média µ, mostre que:
(a) P(Y ≤ y) = P(χ22(y+1) > 2µ);

( 2 )
z − 1 z 5 − 7z 3 + 3z
(b) P(Y ≤ y) = Φ(z) − ϕ(z) √ + + O(µ−3/2 ), em que z =
6 µ 72µ
(y + 0.5 − µ)µ−1/2 e Φ(.) e ϕ(.) são, respectivamente, a f.d.a. e a f.d.p. da
distribuição normal reduzida.
Capı́tulo 3
Estimação
3.1 Estatı́sticas suficientes
Seja um MLG definido pelas expressões (2.4), (2.6) e (2.7) e suponha que as
observações a serem analisadas sejam representadas pelo vetor y = (y1 , . . . , yn )T . O
logaritmo da função de verossimilhança como função apenas de β (considerando-se
o parâmetro de dispersão ϕ conhecido), especificado y, é definido por ℓ(β) = ℓ(β; y)
e usando-se a expressão (2.4), tem-se
∑
n ∑
n ∑
n
ℓ(β) = ℓi (θi , ϕ; yi ) = ϕ−1 [yi θi − b(θi )] + c(yi , ϕ), (3.1)
i=1 i=1 i=1
∑
p
em que θi = q(µi ), µi = g −1 (ηi ) e ηi = xir βr .
r=1
A estimação do parâmetro de dispersão ϕ será objeto de estudo na Seção 4.4.
Existem n parâmetros canônicos θ1 , . . . , θn e n médias µ1 , . . . , µn que são desconhe-
cidos, mas que são funções de p parâmetros lineares β1 , . . . , βp do modelo. Deve-se,
primeiramente, estimar o vetor de parâmetros β para depois calcular as estimati-
vas do vetor das médias µ e do vetor dos parâmetros θ pelas relações funcionais
µi = g −1 (xTi β) e θi = q(µi ).
Se o intervalo de variação dos dados não depende de parâmetros, pode-
se demonstrar para os ∫modelos contı́nuos (Cox e Hinkley, 1986, Capı́tulo 9), que
todas as derivadas de exp[ℓ(β)]dy = 1 podem ser computadas dentro do sinal
de integração e que o ponto β̂ correspondente ao máximo do logaritmo da função
69
de verossimilhança (3.1) está próximo do vetor β de parâmetros verdadeiros com
probabilidade próxima de 1. Para os modelos discretos, a integração é substituı́da
pelo somatório. Esse fato ocorre em problemas denominados regulares.
Um caso importante dos MLG surge quando o vetor de parâmetros canônicos
θ da famı́lia (2.4) e o vetor de preditores lineares η em (2.6) são iguais, conduzindo
∑
às funções de ligação canônicas. Tem-se, θi = ηi = pr=1 xir βr para i = 1, . . . , n.
∑
As estatı́sticas Sr = ni=1 xir Yi para r = 1, . . . , p são suficientes para os parâmetros
∑
β1 , . . . , βp e têm dimensão mı́nima p. Sejam sr = ni=1 xir yi as realizações de Sr ,
r = 1, . . . , p. Então, a equação (3.1) pode ser escrita na forma
[∑ p
∑
n ] ∑ n
−1
ℓ(β) = ϕ sr βr − b(θi ) + c(yi , ϕ)
r=1 i=1 i=1
e, portanto, ℓ(β) tem a seguinte decomposição
ℓ(β) = ℓ1 (s, β) + ℓ2 (y),

∑p ∑n ∑p ∑n
em que ℓ1 (s, β) = ϕ−1 r=1 sr βr − ϕ
−1
i=1 b ( r=1 xir βr ) e ℓ2 (y) = i=1 c(yi , ϕ).
Pelo teorema da fatoração, S = (S1 , . . . , Sp )T é suficiente de dimensão
mı́nima p para β = (β1 , . . . , βp )T e, portanto, ocorre uma redução na dimensão
das estatı́sticas suficientes de n (o número de observações) para p (o número de
parâmetros a serem estimados). As estatı́sticas S1 , . . . , Sp correspondem à maior
redução que os dados podem ter, sem qualquer perda de informação relevante para
se fazer inferência sobre o vetor β de parâmetros desconhecidos.
Conforme descrito na Seção 2.3, as funções de ligação que produzem es-
tatı́sticas suficientes de dimensão mı́nima p para as diversas distribuições são de-
nominadas canônicas. A Tabela 2.6 mostra que essas funções de ligação para os
modelos normal, Poisson, binomial, gama e normal inverso são η = µ, η = log(µ),
η = log[µ/(m − µ)], η = µ−1 e η = µ−2 , respectivamente.
As funções de ligação canônicas produzem propriedades estatı́sticas de in-
teresse para o modelo, tais como, suficiência, facilidade de cálculo, unicidade das
estimativas de máxima verossimilhança e, em alguns casos, interpretação simples.
Em princı́pio, pode-se trabalhar com as funções de ligação canônicas quando não
existirem indicativos de outra preferı́vel. Entretanto, não existe razão para se con-
siderarem sempre os efeitos sistemáticos como aditivos na escala especificada pela
função de ligação canônica. A escolha da função de ligação será descrita, com mais
detalhes, na Seção 4.10.
3.2 O algoritmo de estimação

A decisão importante na aplicação do MLG é a escolha do trinômio: dis-
tribuição da variável resposta × matriz modelo × função de ligação. A seleção pode
resultar de simples exame dos dados ou de alguma experiência anterior. Inicialmente,
considera-se esse trinômio fixo para se obter uma descrição adequada dos dados por
meio das estimativas dos parâmetros do modelo. Muitos métodos podem ser usados
para estimar os parâmetros β ′ s, inclusive o qui-quadrado mı́nimo, o Bayesiano e a
estimação-M. O último inclui o método de máxima verossimilhança (MV) que tem
muitas propriedades ótimas, tais como, consistência e eficiência assintótica.
Neste livro, considera-se apenas o método de MV para estimar os parâmetros
lineares β1 , . . . , βp do modelo. O vetor escore é formado pelas derivadas parciais de
primeira ordem do logaritmo da função de verossimilhança. Da expressão (3.1) pode-
se calcular, pela regra da cadeia, o vetor escore U(β) = ∂ℓ(β)/∂β de dimensão p,
∂ℓ(β) ∑ dℓi dθi dµi ∂ηi
n
com elemento tı́pico Ur = = , pois
∂βr i=1
dθ i dµ i dη i ∂β r
ℓ(β) = f (θ1 , . . . , θi , . . . , θn )
↓
∫
θi = Vi−1 dµi = q(µi )
↓
µi = g −1 (ηi ) = h(ηi )
↓
∑p
ηi = r=1 xir βr
e, sabendo-se que µi = b′ (θi ) e dµi /dθi = Vi , tem-se
∑
n
1 dµi
−1
Ur = ϕ (yi − µi ) xir (3.2)
i=1
Vi dηi
para r = 1, . . . , p.
A estimativa de máxima verossimilhança (EMV) β̂ do vetor de parâmetros
β é calculada igualando-se Ur a zero para r = 1, . . . , p. Em geral, as equações Ur = 0,
r = 1, . . . , p, não são lineares e têm que ser resolvidas numericamente por processos
iterativos do tipo Newton-Raphson.
O método iterativo de Newton-Raphson para a solução de uma equação
f (x) = 0 é baseado na aproximação de Taylor para a função f (x) na vizinhança do
ponto x0 , ou seja,
f (x) = f (x0 ) + (x − x0 )f ′ (x0 ) = 0,
obtendo-se
f (x0 )
x = x0 −
f ′ (x0 )
ou, de uma forma mais geral,
f (x(m) )
x(m+1) = x(m) − ,
f ′ (x(m) )
sendo x(m+1) o valor de x no passo (m + 1), x(m) o valor de x no passo m, f (x(m) ) a

função f (x) avaliada em x(m) e f ′ (x(m) ) a derivada da função f (x) avaliada em x(m) .
Considerando-se que se deseja obter a solução do sistema de equações U =
U(β) = ∂ℓ(β)/∂β = 0 e, usando-se a versão multivariada do método de Newton-
Raphson, tem-se
β (m+1) = β (m) + (J(m) )−1 U(m) ,
sendo β (m) e β (m+1) os vetores de parâmetros estimados nos passos m e (m + 1),

respectivamente, U(m) o vetor escore avaliado no passo m, e (J(m) )−1 a inversa da
negativa da matriz de derivadas parciais de segunda ordem de ℓ(β), com elementos
−∂ 2 ℓ(β)/∂βr ∂βs , avaliada no passo m.
Quando as derivadas parciais de segunda ordem são avaliadas facilmente,
o método de Newton-Raphson é bastante útil. Entretanto, isso nem sempre ocorre
e no caso dos MLG usa-se o método escore de Fisher que, em geral, é mais sim-
ples (coincidindo com o método de Newton-Raphson no caso das funções de ligação
canônicas). Esse método envolve a substituição da matriz de derivadas parciais de
segunda ordem pela matriz de valores esperados das derivadas parciais, isto é, a subs-
tituição da matriz de informação observada, J, pela matriz de informação esperada
de Fisher, K. Logo,
β (m+1) = β (m) + (K(m) )−1 U(m) , (3.3)
sendo que K tem elementos tı́picos expressos por

[ 2 ] [ ]
∂ ℓ(β) ∂ℓ(β) ∂ℓ(β)
κr,s = −E =E ,
∂βr ∂βs ∂βr ∂βs
que é a matriz de covariâncias dos Ur′ s.
Multiplicando-se ambos os membros de (3.3) por K(m) , tem-se
K(m) β (m+1) = K(m) β (m) + U(m) . (3.4)
O elemento tı́pico κr,s de K é determinado de (3.2), sendo expresso por

∑n ( )2
−2 2 1 dµi
κr,s = E(Ur Us ) = ϕ E(Yi − µi ) 2 xir xis
i=1
Vi dη i
e como Var(Yi ) = E(Yi − µi )2 = ϕVi , obtém-se

∑
n
κr,s = ϕ−1 wi xir xis ,
i=1
sendo wi = Vi−1 (dµi /dηi )2 denominada função peso. Logo, a matriz de informação
de Fisher para β tem a forma
K = ϕ−1 XT WX,
sendo W = diag{w1 , . . . , wn } uma matriz diagonal de pesos que capta a informação

sobre a distribuição e a função de ligação usadas e poderá incluir, também, uma
matriz de pesos a priori. No caso das funções de ligação canônicas tem-se wi = Vi ,
pois Vi = V (µi ) = dµi /dηi . Note-se que a informação é inversamente proporcional ao
parâmetro de dispersão.
O vetor escore U = U(β) com componentes em (3.2) pode, então, ser ex-
presso na forma
U = ϕ−1 XT WG(y − µ),
em que G = diag {dη1 /dµ1 , . . . , dηn /dµn } = diag{g ′ (µ1 ), . . . , g ′ (µn )}. Assim, a ma-
triz diagonal G é formada pelas derivadas de primeira ordem da função de ligação.
Substituindo K e U em (3.4) e eliminando ϕ, tem-se
XT W(m) Xβ (m+1) = XT W(m) Xβ (m) + XT W(m) G(m) (y − µ(m) ),
ou, ainda,
XT W(m) Xβ (m+1) = XT W(m) [η (m) + G(m) (y − µ(m) )].
Define-se a variável dependente ajustada z = η + G(y − µ). Logo,
XT W(m) Xβ (m+1) = XT W(m) z(m)
ou
β (m+1) = (XT W(m) X)−1 XT W(m) z(m) . (3.5)
A equação matricial (3.5) é válida para qualquer MLG e mostra que a solução
das equações de MV equivale a calcular repetidamente uma regressão linear ponde-
rada de uma variável dependente ajustada z sobre a matriz X usando uma matriz
de pesos W que se modifica no processo iterativo. As funções de variância e de
ligação entram no processo iterativo por meio de W e z. Note-se que Cov(z) =
GCov(Y)G = ϕW−1 , isto é, os zi não são correlacionados. É importante enfatizar
que a equação iterativa (3.5) não depende do parâmetro de dispersão ϕ.
A demonstração da equação (3.5), em generalidade, foi desenvolvida por
Nelder e Wedderburn (1972). Eles generalizaram procedimentos iterativos obtidos
para casos especiais dos MLG: probito (Fisher, 1935), log-lineares (Haberman, 1970)
e logı́stico-lineares (Cox, 1972).
A variável dependente ajustada depende da derivada de primeira ordem da
função de ligação. Quando a função de ligação é linear (η = µ), isto é, a identidade,
tem-se W = V−1 sendo V = diag{V1 , . . . , Vn }, G = I e z = y, ou seja, a variável
dependente ajustada reduz-se ao vetor de observações. Para o modelo normal linear
(V = I, µ = η), W é igual à matriz identidade de dimensão n, z = y e verifica-se
da equação (3.5) que a estimativa β̂ reduz-se à fórmula esperada β̂ = (XT X)−1 XT y.
Esse é o único modelo em que β̂ é calculado de forma exata sem ser necessário um
procedimento iterativo.
O método usual para iniciar o processo iterativo é especificar uma estimativa
inicial e, sucessivamente, alterá-la até que a convergência seja alcançada e, portanto,
β (m+1) aproxime-se de β̂ quando m cresce. Note, contudo, que cada observação pode
(1)
ser considerada como uma estimativa do seu valor médio, isto é, µi = yi e, assim,
calcula-se
(1) (1) (1) 1

ηi = g(µi ) = g(yi ) e wi = .
V (yi )[g ′ (yi )]2
Usando-se η (1) como variável resposta, X, a matriz do modelo, e W(1) , a

(1)
matriz diagonal de pesos com elementos wi , obtém-se o vetor
β (2) = (XT W(1) X)−1 XT W(1) η (1) .
O algoritmo de estimação, para m = 2, . . . , k, sendo k−1 o número necessário

de iterações para atingir a convergência, pode ser resumido nos seguintes passos:
(1) calcular as estimativas
∑
p
= g −1 (ηi
(m) (m) (m)
ηi = xir βr(m) e µi );
r=1
(2) calcular a variável dependente ajustada
+ (yi − µi )g ′ (µi )
(m) (m) (m) (m)
zi = ηi
e os pesos
(m) 1
wi = (m) (m)
;
V (µi )[g ′ (µi )]2
(3) calcular
β (m+1) = (XT W(m) X)−1 XT W(m) z(m) ,
voltar ao passo (1) com β (m) = β (m+1) e repetir o processo até atingir a convergência,
definindo-se, então, β̂ = β (m+1) .
Dentre os muitos existentes, um critério para verificar a convergência do
algoritmo iterativo poderia ser
( )
∑p (m+1) (m) 2
βr − βr
(m)
< ξ,
r=1 βr
considerando-se que ξ é um número positivo suficientemente pequeno. Em geral, esse
algoritmo é robusto e converge rapidamente (menos de 10 iterações são suficientes).
Entretanto, o critério do desvio é o mais usado e consiste em verificar se |desvio(m+1) −
desvio(m) | < ξ, sendo desvio definido na Seção 4.2.
Deve-se ser cauteloso se a função g(.) não é definida para alguns valores yi .
Por exemplo, se a função de ligação for especificada por
η = g(µ) = log(µ)
e forem observados valores yi = 0, o processo não pode ser iniciado. Um método

geral para contornar esse problema é substituir y por y + c tal que E[g(y + c)]
seja o mais próxima possı́vel de g(µ). Para o modelo de Poisson com função de
ligação logarı́tmica, usa-se c = 1/2. Para o modelo logı́stico, usa-se c = (1 − 2π)/2
e π = µ/m, sendo m o ı́ndice da distribuição binomial. De uma forma geral, da
expansão de Taylor até segunda ordem para g(y + c) em relação a g(µ), tem-se
g ′′ (µ)
g(y + c) ≈ g(µ) + (y + c − µ)g ′ (µ) + (y + c − µ)2 ,
2
cujo valor esperado é igual a
g ′′ (µ)
E[g(Y + c)] ≈ g(µ) + cg ′ (µ) + Var(Y )
2
que implica em
1 g ′′ (µ)
c ≈ − Var(Y ) ′ .
2 g (µ)
Para pequenas amostras, a equação (3.5) pode divergir. O número de ite-
rações até a convergência depende inteiramente do valor inicial arbitrado para β̂,
embora, geralmente, o algoritmo convirja rapidamente. A desvantagem do método
tradicional de Newton-Raphson com o uso da matriz observada de derivadas de
segunda ordem é que, normalmente, não converge para determinados valores iniciais.
Vários software estatı́sticos utilizam o algoritmo iterativo (3.5) para calcular
as EMV β̂1 , . . . , β̂p dos parâmetros lineares do MLG, entre os quais, R, S-PLUS, SAS,
GENSTAT e MATLAB.
3.3 Estimação em modelos especiais

Para as funções de ligação canônicas (w = V = dµ/dη) que produzem os
modelos denominados canônicos, as equações de MV têm a seguinte forma, facilmente
deduzidas de (3.2),
∑
n ∑
n
xir yi = xir µ̂i
i=1 i=1
para r = 1, . . . , p. Em notação matricial, tem-se
XT y = XT µ̂. (3.6)
Nesse caso, as estimativas de MV dos β ′ s são únicas. Sendo S = (S1 , . . . , Sp )T o

∑
vetor de estatı́sticas suficientes definidas por Sr = ni=1 xir Yi , conforme descrito na
Seção 3.1, e s = (s1 , . . . , sp )T os seus valores amostrais, as equações (3.6) podem ser
expressas por
E(S; µ̂) = s,
mostrando que as EMV das médias µ1 , . . . , µn nos modelos canônicos são calculadas
igualando-se as estatı́sticas suficientes minimais aos seus valores esperados.
Se a matriz modelo corresponde a uma estrutura fatorial, consistindo so-
mente de zeros e uns, o modelo pode ser especificado pelas margens que são as
estatı́sticas minimais, cujos valores esperados devem igualar aos totais marginais.
As equações (3.6) são válidas para os seguintes modelos canônicos: modelo
clássico de regressão, modelo log-linear, modelo logı́stico linear, modelo gama com
função de ligação recı́proca e modelo normal inverso com função de ligação recı́proca
ao quadrado. Para os modelos canônicos, o ajuste é realizado pelo algoritmo (3.5)
com W = diag{Vi }, G = diag{Vi−1 } e variável dependente ajustada com componente
tı́pica expressa por zi = ηi + (yi − µi )/Vi .
Nos modelos com respostas binárias, a variável resposta tem distribuição
binomial B(mi , πi ), e o logaritmo da função de verossimilhança em (3.1) pode ser
reescrito como
n [
∑ ( ) ( )] ∑
n ( )
µi mi − µ i mi
ℓ(β) = yi log + mi log + log ,
i=1
mi − µi mi i=1
yi
em que µi = mi πi . É importante notar que se yi = 0, tem-se como componente

tı́pico dessa função ℓi (β) = mi log[(mi − µi )/mi ] e se yi = mi , ℓi (β) = mi log(µi /mi ).
Para o modelo logı́stico linear, obtém-se ηi = g(µi ) = log[µi /(mi − µi )]. As
iterações em (3.5) são realizadas com matriz de pesos W = diag {µi (mi − µi )/mi },
G = diag {mi /[µi (mi − µi )]} e variável dependente ajustada z com componentes
iguais a zi = ηi + [mi (yi − µi )]/[µi (mi − µi )]. O algoritmo (3.5), em geral, converge,
exceto quando ocorrem médias ajustadas próximas a zero ou ao ı́ndice mi .
Nos modelos log-lineares para análise de observações na forma de conta-
gens, a variável resposta tem distribuição de Poisson P (µi ) com função de ligação
logarı́tmica e, portanto, ηi = log(µi ) = xTi β, i = 1, . . . , n. Nesse caso, as iterações em
(3.5) são realizadas com matriz de pesos W = diag{µi }, G = diag{µ−1
i } e variável
dependente ajustada z com componentes iguais a zi = ηi + (yi − µi )/µi . Esse caso

especial do algoritmo (3.5) foi apresentado, primeiramente, por Haberman (1978).
Para analisar dados contı́nuos, três modelos são, usualmente, adotados com
função de variância potência V (µ) = µδ para δ = 0 (normal), δ = 2 (gama) e
δ = 3 (normal inversa). Para a função de variância potência, a matriz W entra no
{ }
algoritmo (3.5) com expressão tı́pica W = diag µ−δ i (dµi /dηi )
2
sendo δ qualquer
real especificado. Outras funções de variância podem ser adotadas no algoritmo
(3.5) como aquelas dos modelos de quase-verossimilhança que serão estudados na
Seção ??. Por exemplo, V (µ) = µ2 (1 − µ)2 , V (µ) = µ + δµ2 (binomial negativo) ou
V (µ) = 1 + µ2 (secante hiperbólica generalizada, Seção 1.3).
O algoritmo (3.5) pode ser usado para ajustar inúmeros outros modelos,
como aqueles baseados na famı́lia exponencial (1.1) que estão descritos em Cordeiro
et al. (1995), bastando identificar as funções de variância e de ligação.
3.4 Resultados adicionais na estimação

A partir da obtenção da EMV β̂ em (3.5), podem-se calcular as EMV dos
preditores lineares η̂ = Xβ̂ e das médias µ̂ = g −1 (η̂). A EMV do vetor θ de
parâmetros canônicos é, simplesmente, igual a θ̂ = q(µ̂).
A inversa da matriz de informação estimada em β̂ representa a estrutura de
covariância assintótica de β̂, isto é, a matriz de covariância de β̂ quando n → ∞.
Logo, a matriz de covariância de β̂ é estimada por
Cov( c −1 ,
d β̂) = ϕ(XT WX) (3.7)
c é a matriz de pesos W avaliada em β̂.

em que W
Intervalos de confiança assintóticos para os parâmetros β ′ s podem ser de-
duzidos da aproximação (3.7). Observa-se que o parâmetro de dispersão ϕ é um
d β̂r ) é
fator multiplicativo na matriz de covariância assintótica de β̂. Assim, se Var(
c −1 , um intervalo de 95% de confiança para βr
o elemento (r, r) da matriz ϕ(XT WX)
pode ser calculado pelos limites (inferior corresponde a - e superior a +)
d β̂r )1/2 .
β̂r ∓ 1, 96Var(
Na prática, uma estimativa consistente de ϕ deve ser usada para o cálculo desse
intervalo.
A estrutura da covariância assintótica das EMV dos preditores lineares em
η̂ é obtida diretamente de Cov(η̂) = XCov(β̂)XT . Logo,
d
Cov(η̂) c −1 XT .
= ϕX(XT WX) (3.8)
A matriz Z = {zij } = X(XT WX)−1 XT da expressão (3.8) desempenha

um papel importante na teoria assintótica dos MLG (Cordeiro, 1983; Cordeiro e
McCullagh, 1991). Essa matriz surge no cálculo do valor esperado da função desvio
(Seção 4.2) até termos de ordem O(n−1 ) e no valor esperado da estimativa η̂ até essa
ordem.
A estrutura de covariância assintótica das EMV das médias em µ̂ pode ser
calculada expandindo µ̂ = g −1 (η̂) em série de Taylor. Tem-se,
dg −1 (η)
µ̂ = g −1 (η) + (η̂ − η)
dη
e, portanto,
Cov(µ̂) = G−1 Cov(η̂)G−1 , (3.9)
enfatizando que a matriz diagonal G = diag {dηi /dµi } foi introduzida na Seção 3.2.
Essa matriz é estimada por
b −1 X(XT WX)
d µ̂) = ϕG
Cov( c −1 XT G
b −1 .
As matrizes Cov(η̂) e Cov(µ̂) em (3.8) e (3.9) são de ordem O(n−1 ).

1/2
Os erros-padrão estimados ẑii de η̂i e os coeficientes de correlação estimados
d i , η̂j ) = ẑij
Corr(η̂ ,
(ẑii ẑjj )1/2
das EMV dos preditores lineares η1 , . . . , ηn são resultados aproximados que depen-
dem fortemente do tamanho da amostra. Entretanto, são guias úteis de informação
sobre a confiabilidade e a interdependência das estimativas dos preditores lineares,
e podem, também, ser usados para obter intervalos de confiança aproximados para
esses parâmetros. Para alguns MLG, é possı́vel achar uma forma fechada para a in-
versa da matriz de informação e, consequentemente, para as estruturas de covariância
assintótica das estimativas β̂, η̂ e µ̂.
Frequentemente, nos modelos de análise de variância, considera-se que os
dados são originados de populações com variâncias iguais. Em termos de MLG, isso
implica no uso de uma função de ligação g(.), tal que W, não depende da média
µ e, portanto, que a matriz de informação seja constante. Nesse caso, pelo menos,
assintoticamente, a matriz de covariância das estimativas dos parâmetros lineares é
estabilizada.
Essa função de ligação é denominada estabilizadora e implica na constância
da matriz de pesos do algoritmo de estimação. A função de ligação estabilizadora
será vista (como o caso δ = 1/2) na Seção ??, mas pode ser obtida como solução da
equação diferencial dµ/dη = kdη/dθ, sendo k uma constante arbitrária. Por exemplo,
para os modelos gama e Poisson, as soluções dessa equação são o logaritmo e a raiz
quadrada, respectivamente. Para as funções de ligação estabilizadoras, é mais fácil
obter uma forma fechada para a matriz de informação, que depende inteiramente da
matriz modelo, isto é, do delineamento do experimento.
Em muitas situações, os parâmetros de interesse não são aqueles básicos dos
MLG. Seja γ = (γ1 , . . . , γq )T um vetor de parâmetros, em que γi = hi (β), sendo as
funções hi (.), i = 1, . . . , q, conhecidas. Supõe-se que essas funções, em geral, não-
lineares, são suficientemente bem comportadas. Seja a matriz q × p de derivadas
D = {∂hi /∂βj }. As estimativas γ̂1 , . . . , γ̂q podem ser calculadas diretamente de
γ̂i = hi (β̂), para i = 1, . . . , q. A matriz de covariância assintótica de γ̂ é igual a
ϕ D(XT WX)−1 DT e deve ser estimada no ponto β̂. Uma aplicação será descrita na
Seção ??.
Considere, por exemplo, que após o ajuste de um MLG, tenha-se interesse
em estudar as estimativas dos parâmetros γ’s definidos por um modelo de regressão
assintótico em três parâmetros β0 , β1 e β2
γr = β0 − β1 β2zr , r = 1, . . . , q.
A matriz D de dimensões q × 3 é, portanto, igual a
 
1 −β2z1 −β1 β2z1 log β2
 
 
D =  ··· ··· ··· .
 
z z
1 −β2 q −β1 β2 q log β2
3.5 Seleção do modelo

É difı́cil propor uma estratégia geral para o processo de escolha de um MLG
a ser ajustado ao vetor de observações. O processo está intimamente relacionado ao
problema fundamental da estatı́stica que, segundo Fisher, é “o que se deve fazer com
os dados?”.
Em geral, o algoritmo de ajuste deve ser aplicado não a um MLG isolado,
mas a vários modelos de um conjunto bem amplo que deve ser, realmente, relevante
para a natureza das observações que se pretende analisar. Se o processo é aplicado
a um único modelo, não levando em conta possı́veis modelos alternativos, existe o
risco de não se obter um dos modelos mais adequados aos dados. Esse conjunto de
modelos pode ser formulado de várias maneiras:
(a) definindo uma famı́lia de funções de ligação;
(b) considerando diferentes opções para a escala de medição;
(c) adicionando (ou retirando) vetores colunas independentes a partir de uma ma-
triz básica original.
Pode-se propor um conjunto de modelos para dados estritamente positivos,

usando-se a famı́lia potência de funções de ligação η = g(µ; λ) = (µλ − 1)λ−1 , em que
λ é um parâmetro que indexa o conjunto. Para dados reais positivos ou negativos,
outras famı́lias podem ser definidas como g(µ; λ) = [exp(λµ) − 1]λ−1 . A EMV de
λ, em geral, define um modelo bastante adequado, porém, muitas vezes, de difı́cil
interpretação.
Nos MLG, o fator escala não é tão crucial como no modelo clássico de
regressão, pois constância da variância e normalidade não são essenciais para a dis-
tribuição da variável resposta e, ainda, pode-se achar uma estrutura aditiva apro-
ximada de termos para representar a média da distribuição, usando uma função de
ligação apropriada, diferente da escala de medição dos dados. Entretanto, não são
raros os casos em que os dados devem ser primeiramente transformados para se obter
um MLG produzindo um bom ajuste.
Devem-se analisar não somente os dados brutos mas procurar modelos alter-
nativos aplicados aos dados transformados z = h(y). O problema crucial é a escolha
da função de escala h(.). No modelo clássico de regressão, essa escolha visa a combi-
nar, aproximadamente, normalidade e constância da variância do erro aleatório, bem
como, aditividade dos efeitos sistemáticos. Entretanto, não existe nenhuma garan-
tia que tal escala h(.) exista, nem mesmo que produza algumas das propriedades
desejadas.
Como uma ilustração, suponha que as observações y representam contagens,
com estrutura de Poisson de média µ e que os efeitos sistemáticos dos fatores que
√
classificam os dados sejam multiplicativos. A transformação y produz, para valo-
√ . √ √ .
res grandes de µ, E( Y ) = µ e Var( Y ) = 1/4, sendo os erros de ordem µ−1/2 .
Portanto, a escala raiz quadrada implica na constância da variância dos dados trans-
formados. Entretanto, se o objetivo é obter uma normalidade aproximada, uma
√
escala preferida deve ser h(y) = 3 y 2 , pois o coeficiente de assimetria padronizado
de Y 2/3 é de ordem µ−1 , ao invés de ordem µ−1/2 para Y ou Y 1/2 . Ainda, a escala
h(y) = log(y) é bem melhor para obtenção da aditividade dos efeitos sistemáticos.
Não existe nenhuma escala que produza os três efeitos desejados, embora a
escala definida por h(y) = (3y 1/2 − 3y 1/6 µ1/3 + µ1/2 )/6, se y ̸= 0 e h(y) = [−(2µ)1/2 +
µ−1/2 ]/6, se y = 0, conduza à simetria e constância da variância (McCullagh e Nelder,
1989, Capı́tulo 6). As probabilidades nas extremidades da distribuição de Poisson
.
podem ser calculadas por P(Y ≥ y) = 1 − Φ[h(y − 1/2)], com erro de ordem µ−1 , em
que Φ(.) é a f.d.a. da distribuição normal reduzida.
A terceira parte na seleção do modelo consiste em definir o conjunto de
variáveis explanatórias a serem incluı́das na estrutura linear. Considere um certo
número de possı́veis variáveis explanatórias x(1) , . . . , x(m) , em que cada vetor coluna
x(r) é de dimensão n, definindo um conjunto amplo de 2m modelos. O objetivo
é selecionar um modelo de p ≤ m variáveis explanatórias, cujos valores ajustados
expliquem adequadamente os dados. Se m for muito grande, torna-se impraticável
o exame de todos esses 2m modelos, mesmo considerando os avanços da tecnologia
computacional.
Um processo simples de seleção é de natureza sequencial, adicionando (ou
eliminando) variáveis explanatórias (uma de cada vez) a partir de um modelo original
até se obterem modelos adequados. Esse método sequencial tem várias desvantagens,
tais como:
(a) modelos potencialmente úteis podem não ser descobertos, se o procedi-
mento é finalizado numa etapa anterior, para o qual nenhuma variável explanatória
isolada mostrou-se razoável de ser explorada;
(b) modelos similares (ou mesmo melhores) baseados em subconjuntos de
variáveis explanatórias, distantes das variáveis em exame, podem não ser considera-
dos.
Devido aos avanços recentes da estatı́stica computacional, os métodos
seqüenciais (“stepwise methods”) foram substituı́dos por procedimentos ótimos de
busca de modelos. O procedimento de busca examina, sistematicamente, somente os
modelos mais promissores de determinada dimensão k e, baseado em algum critério,
exibe os resultados de ajuste dos melhores modelos de k variáveis explanatórias,
com k variando no processo de 1 até o tamanho p do subconjunto final de modelos
considerados bons.
Deve-se sempre tentar eliminar a priori modelos medı́ocres, observando a
estrutura dos dados, por meio de análises exploratórias gráficas. Na seleção do
modelo, sempre será feito um balanço entre o grau de complexidade e a qualidade
de ajuste do modelo.
3.6 Considerações sobre a função de verossimi-

lhança
Expandindo a função suporte ℓ = ℓ(β), descrita na Seção 3.2, em série
multivariada de Taylor ao redor de β̂ e notando que U(β̂) = 0, obtém-se, aproxi-
madamente,
. 1
ℓ̂ − ℓ = (β − β̂)T Ĵ(β − β̂), (3.10)
2
em que ℓ̂ = ℓ(β̂) e Ĵ é a informação observada (Seção 3.2) em β̂. Essa equação

aproximada revela que a diferença entre o suporte máximo e o suporte num ponto
arbitrário, que pode ser considerada como a quantidade de informação dos dados
sobre β, é proporcional a Ĵ (isto é, à informação observada no ponto β̂). O de-
terminante de Ĵ (|Ĵ|) pode ser interpretado, geometricamente, como a curvatura
esférica da superfı́cie suporte no seu máximo. A forma quadrática do lado direito de
(3.10) aproxima a superfı́cie suporte por um parabolóide, passando pelo seu ponto
de máximo, com a mesma curvatura esférica da superfı́cie nesse ponto. O recı́proco
de |Ĵ| mede a variabilidade de β ao redor da EMV β̂. E, como esperado, quanto
maior a informação sobre β menor será a dispersão de β ao redor de β̂.
A interpretação geométrica desses conceitos é melhor compreendida no caso
.
uniparamétrico, pois (3.10) reduz-se à equação de uma parábola ℓ = ℓ̂ − 12 (β −
ˆ Uma inspeção gráfica mostrará que essa parábola aproxima a curva suporte,
β̂)2 J.
coincidindo no ponto máximo e tendo a mesma curvatura dessa curva em β̂, revelando
ainda que quanto maior a curvatura, menor a variação de β em torno de β̂.
A equação (3.10) implica que a função de verossimilhança L = L(β) num
ponto qualquer β segue, aproximadamente, a expressão
[ ]
. 1
L = L̂ exp − (β − β̂) Ĵ(β − β̂) ,
T
(3.11)
2
em que L̂ é a função de verossimilhança avaliada em β̂, que representa a forma

da curva normal multivariada com média β̂ e estrutura de covariância igual a Ĵ−1 .
Usando-se essa aproximação, pode-se, então, considerar o vetor de parâmetros como
se fosse um vetor de variáveis aleatórias tendo distribuição normal multivariada com
média igual à EMV β̂ e estrutura de covariância Ĵ−1 . Quando a função suporte
for quadrática, a função de verossimilhança L terá a forma da distribuição normal
multivariada. A forma de L se aproximará mais da distribuição normal quando n
tender para infinito.
O lado direito de (3.11) é bem interpretado no contexto Bayesiano. Con-
sidere qualquer função densidade a priori não-nula para β, por exemplo, π(β). Pelo
teorema de Bayes, pode-se escrever a função densidade a posteriori de β como pro-
porcional a Lπ(β). Quando n → ∞, pois π(β) não depende de n, a função densidade
a posteriori de β segue da equação (3.11) com uma constante de proporcionalidade a-
dequada, e, então, converge para a distribuição normal multivariada N(β̂, Ĵ−1 ). Uma
demonstração matemática dessa convergência não se insere nos objetivos desse texto.
No caso uniparamétrico, a variabilidade de β fica restrita ao intervalo |β−β̂| ≤ 3Jˆ−1/2
com probabilidade próxima de um.
A fórmula (3.11) mostra a decomposição da função de verossimilhança, pelo
menos para n grande, revelando, pelo teorema da fatoração, a suficiência assintótica
da EMV. Conclui-se que, embora as EMV não sejam necessariamente suficientes
para os parâmetros do modelo, essa suficiência será alcançada quando a dimensão
do vetor de observações tender para infinito.
Citam-se, aqui, algumas propriedades da matriz de informação. Seja Ky (β)
a informação sobre um vetor paramétrico β contida nos dados y obtidos de certo
experimento. A informação é aditiva para amostras y e z independentes, isto é,
Ky+z (β) = Ky (β) + Kz (β). Como Û = U(β̂) = 0, segue-se a relação aproximada
(por expansão multivariada de Taylor)
.
β̂ − β = J−1 U (3.12)
entre a EMV β̂, a função escore U = U(β) e a informação observada J = J(β)

avaliadas no ponto β próximo de β̂.
O método de Newton-Raphson, introduzido na Seção 3.2, de cálculo da EMV
consiste em usar a equação (3.12) iterativamente. Obtém-se uma nova estimativa
β (m+1) a partir de uma estimativa anterior β (m) por meio de
−1
β (m+1) = β (m) + J(m) U(m) , (3.13)
em que quantidades avaliadas na m-ésima iteração do procedimento iterativo são

indicadas com o superescrito (m). O processo é, então, repetido a partir de β (m+1) até
a distância entre β (m+1) e β (m) se tornar desprezı́vel ou menor do que uma quantidade
pequena especificada. Geometricamente, uma iteração do método equivale a ajustar
um parabolóide à superfı́cie suporte em β (m) , tendo o mesmo gradiente e curvatura
da superfı́cie nesse ponto, e, então, obter o ponto máximo do parabolóide que corres-
ponderá à estimativa atualizada β (m+1) . Quando β é um escalar, a equação (3.13)
reduz-se a β (m+1) = β (m) − U (m) /U ′(m) , sendo U ′ = dU/dβ, que representa o método
das tangentes bastante usado para calcular a solução de uma equação não-linear
Û = 0.
A sequência {β (m) ; m ≥ 1} gerada depende, fundamentalmente, do vetor ini-

cial β (1) , dos valores amostrais e do modelo estatı́stico e, em determinadas situações,
em que n é pequeno, pode revelar irregularidades especı́ficas aos valores amostrais
obtidos do experimento e, portanto, pode não convergir e mesmo divergir da EMV
β̂. Mesmo quando há convergência, se a função de verossimilhança tem múltiplas
raı́zes, não há garantia de que o procedimento converge para a raiz correspondente
ao maior valor absoluto da função de verossimilhança. No caso uniparamétrico, se
a estimativa inicial β (1) for escolhida próxima de β̂ e se J (m) para m ≥ 1 for limi-
tada por um número real positivo, existirá uma chance apreciável que essa sequência
convirja para β̂.
A expressão (3.12) tem uma forma alternativa equivalente, assintoticamente,

pois pela lei dos grandes números J deve convergir para K quando n → ∞. Assim,
substituindo a informação observada em (3.12) pela esperada, obtém-se a aproxima-
ção de primeira ordem
.
β̂ − β = K−1 U. (3.14)
O procedimento iterativo baseado em (3.14) é denominado método escore de Fisher

−1
para parâmetros, isto é, β (m+1) = β (m) +K(m) U(m) , como foi explicitado na equação
(3.3). O aspecto mais trabalhoso dos dois esquemas iterativos é a inversão das ma-
trizes J e K. Ambos os procedimentos são muito sensı́veis em relação à estimativa
inicial β (1) . Se o vetor β (1) for uma estimativa consistente, ambos os métodos con-
vergirão em apenas um passo para uma estimativa eficiente, assintoticamente.
Existe evidência empı́rica que o método de Fisher é melhor em termos de
convergência do que o método de Newton-Raphson. Ainda, tem a vantagem de in-
corporar (por meio da matriz de informação) as caracterı́sticas especı́ficas do modelo
estatı́stico. Ademais, em muitas situações, é mais fácil determinar a inversa de K em
forma fechada do que a inversa de J, sendo a primeira menos sensı́vel às variações
de β do que a segunda. Nesse sentido, K pode ser considerada em alguns mode-
los, aproximadamente, constante em todo o processo iterativo, requerendo que a
inversão seja realizada apenas uma vez. Uma vantagem adicional do método escore
é que K−1 é usada para calcular aproximações de primeira ordem para as variâncias
e covariâncias das estimativas β̂1 , . . . , β̂p .
Os procedimentos iterativos descritos são casos especiais de uma classe de
algoritmos iterativos para maximizar o logaritmo da função de verossimilhança ℓ(β).
Essa classe tem a forma
β (m+1) = β (m) − s(m) Q(m) U(m) , (3.15)
em que s(m) é um escalar, Q(m) é uma matriz quadrada que determina a direção da
mudança de β (m) para β (m+1) e U(m) é o vetor gradiente do logaritmo da função de
verossimilhança ℓ(β), com todas essas quantidades variando no processo iterativo.
Os algoritmos iniciam num ponto β (1) e procedem, por meio da equação (3.15), para
calcular aproximações sucessivas para a EMV β̂. Vários algoritmos nessa classe são
discutidos por Judge et al. (1985). Nos procedimentos iterativos de Newton-Raphson
e escore de Fisher, s(m) é igual a um, e a matriz de direção Q(m) é igual à inversa da
matriz Hessiana e à inversa do valor esperado dessa matriz, respectivamente. Esses
dois procedimentos devem ser iniciados a partir de uma estimativa consistente com
o objetivo de se garantir convergência para β̂. A escolha do melhor algoritmo em
(3.15) é função da geometria do modelo em consideração e, em geral, não existe
um algoritmo superior aos demais em qualquer espectro amplo de problemas de
estimação.
3.7 Exercı́cios
1. Definir o algoritmo de estimação especificado em (3.5) para os modelos canônicos

relativos às distribuições estudadas na Seção 1.3 (Tabela 1.1), calculando W, G e z.
2. Definir o algoritmo de estimação especificado em (3.5), calculando W, G e z para

os modelos normal, gama, normal inverso e Poisson com função de ligação potência
η = µλ , λ conhecido (Cordeiro, 1986). Para o modelo normal, considere, ainda, o
caso da função de ligação logarı́tmica η = log(µ).
3. Definir o algoritmo (3.5), calculando W, G e z, para o modelo binomial com

função de ligação η = log{[(1 − µ)−λ − 1]λ−1 }, λ conhecido. Deduzir, ainda, as
formas do algoritmo para os modelos (c) e (d), definidos na Tabela 2.7 da Seção
2.5.1.
4. Considere a estrutura linear ηi = βxi , i = 1, . . . , n, com um único parâmetro β

desconhecido e função de ligação η = (µλ − 1)λ−1 , λ conhecido. Calcular a EMV de
β para os modelos normal, Poisson, gama, normal inverso e binomial negativo. Fazer
o mesmo para o modelo binomial com função de ligação especificada no Exercı́cio 3.
Deduzir ainda as estimativas no caso de x1 = x2 = . . . = xn .
5. Para os modelos e funções de ligação citados no Exercı́cio 4, calcular as estimativas

de MV de α e β, considerando a estrutura linear ηi = α + βxi , i = 1, . . . , n. Deduzir,
ainda, a estrutura de covariância aproximada dessas estimativas.
6. Caracterizar as distribuições log-normal e log-gama no contexto dos MLG,

definindo o algoritmo de ajuste desses modelos com a função de ligação potência
η = µλ , λ conhecido.
7. Formular o procedimento iterativo de cálculo das estimativas de mı́nimos quadra-

dos dos parâmetros β ′ s nos MLG, que equivale a minimizar (y − µ)T V−1 (y − µ), em
que V = diag{V1 , . . . , Vn }, com relação a β. Como aplicação, obter essas estimativas
nos Exercı́cios 4 e 5.
8. Deduzir a forma da matriz de informação para o modelo log-linear associado a

uma tabela de contingência com dois fatores sem interação, sendo uma observação
por cela. Fazer o mesmo para o modelo de Poisson com função de ligação raiz
quadrada. Qual a grande vantagem desse último modelo?
9. Calcular a forma da matriz de informação para os parâmetros β ′ s no modelo

de classificação de um fator A com p nı́veis g(µi ) = ηi = β + βiA , com β+A = 0,
considerando a variável resposta como normal, gama, normal inversa e Poisson. De-
terminar as matrizes de covariância assintótica das estimativas β̂, η̂ e µ̂. Calcular
as expressões dessas estimativas.
10. Como o modelo binomial do Exercı́cio 3 poderia ser ajustado se λ fosse desco-
nhecido? E os modelos do Exercı́cio 4, ainda λ desconhecido?
11. Sejam variáveis aleatórias Yi com distribuições de Poisson P(µi ), i = 1, . . . , n,

supostas independentes. Define-se f (.) como uma função diferenciável tal que [f (µ +
xµ1/2 ) − f (µ)]/µ1/2 f ′ (µ) = x + O(µ−1/2 ), para todo x com µ → ∞. Demonstrar

que a variável aleatória [f (Yi ) − f (µi )]/[µi f ′ (µi )] converge em distribuição para a
1/2
distribuição normal N(0, 1) quando µi → ∞. Provar, ainda, que a parte do logaritmo

da função de verossimilhança que só depende dos µ′i s tende, assintoticamente, para
∑
−2−1 ni=1 [f (yi )−f (µi )]2 /[yi f ′ (yi )]2 quando µi → ∞, i = 1, . . . , n, em que y1 , · · · , yn
são as realizações dos Y ’s.
12. A probabilidade de sucesso π = µ/m de uma distribuição binomial B(m, π)

depende de uma variável x de acordo com a relação π = F(α + βx), em que F(.) é
uma função de distribuição acumulada especificada. Considera-se que para os valores
x1 , . . . , xn de x, m1 , . . . , mn ensaios independentes foram realizados, sendo obtidas
as proporções de sucessos p1 , . . . , pn , respectivamente. Comparar as estimativas α̂ e
√
β̂ para as escolhas de F(.): probito, logı́stica, arcsen e complemento log-log.
∑
r
13. Considere a f.d.p. f (y) = exp(− αi y i ) com parâmetros α1 , . . . , αr desco-
i=1
nhecidos. Demonstrar que as estimativas de MV e dos momentos desses parâmetros
coincidem.
14. Considere um modelo log-gama com componente sistemático log(µi ) = α + xTi β

e parâmetro de dispersão ϕ. Mostre que
E[log(Yi )] = α∗ + xTi β
Var[log(Yi )] = ψ ′ (ϕ−1 ),
em que α∗ = α + ψ(ϕ−1 ) + log(ϕ). Seja β̃ o estimador de mı́nimos quadrados de

β calculado do ajuste de um modelo de regressão linear aos dados transformados
log(yi ), i = 1, . . . , n. Mostre que β̃ é um estimador consistente de β.
15. Demonstre que a covariância assintótica do EMV β̂ de um modelo log-linear é

igual a Cov(β̂) = (XWX)−1 , sendo W = diag{µ1 , . . . , µn }.
16. Propor um algoritmo iterativo para calcular a EMV do parâmetro α(> 0)

na função de variância V = µ + αµ2 de um modelo binomial negativo, supondo
log(µ) = η = Xβ.
17. Mostre que no modelo binomial negativo definido no exercı́cio 16:

(a) os parâmetros α e β são ortogonais;
( ∑n µi )
T −1
(b) Cov(β̂) = i=1 x i xi em que xi , i = 1, . . . , n, são as linhas
1 + αµi
da matriz X do modelo;
{∑ n [ yi −1
∑ ]2 ∑ n }−1
−4 1 µi
(c) Var(α̂) = α log(1 + αµi ) − −1
+ 2 (1 + αµ )
.
i=1 j=0
j + α i=1
α i
18. O estimador de mı́nimos quadrados não-lineares de um MLG com função de

∑
n
[ ]2
ligação logarı́tmica minimiza yi − exp(xTi β) . (a) Mostre como calcular esse
i=1
estimador iterativamente. (b) Calcule a variância assintótica desse estimador.
Capı́tulo 4
Métodos de Inferência
4.1 Distribuição dos estimadores dos parâmetros
No modelo clássico de regressão, em que a variável resposta tem distribuição
normal e a função de ligação é a identidade, as distribuições dos estimadores dos
parâmetros e das estatı́sticas usadas para verificar a qualidade do ajuste do mode-
lo aos dados podem ser determinadas exatamente. Em geral, porém, a obtenção
de distribuições exatas nos MLG é muito complicada e resultados assintóticos são,
rotineiramente, usados. Esses resultados, porém, dependem de algumas condições
de regularidade e do número de observações independentes mas, em particular, para
os MLG essas condições são verificadas (Fahrmeir e Kaufmann, 1985).
A ideia básica é que se θ̂ é um estimador consistente para um parâmetro θ
e Var(θ̂) é a variância desse estimador, então, para amostras grandes, tem-se:
i) θ̂ é assintoticamente imparcial;
ii) a estatı́stica
θ̂ − θ
Zn = √ → Z quando n → ∞, sendo que Z ∼ N(0, 1)
Var(θ̂)
ou, de forma equivalente,
(θ̂ − θ)2
Zn2 = → Z 2 quando n → ∞, sendo que Z 2 ∼ χ21 .
Var(θ̂)
93
Se θ̂ é um estimador consistente de um vetor θ de p parâmetros, tem-se,

assintoticamente, que
(θ̂ − θ)T V−1 (θ̂ − θ) ∼ χ2p ,
sendo V a matriz de variâncias e covariâncias de θ̂, suposta não-singular. Se V é

singular, usa-se uma matriz inversa generalizada ou, então, uma reparametrização
de forma a se obter uma nova matriz de variâncias e covariâncias não-singular.
Considere-se um MLG definido por uma distribuição em (2.4), uma estrutura
linear (2.6) e uma função de ligação (2.7). As propriedades do estimador β̂ dos
parâmetros lineares do modelo em relação à existência, finitude e unicidade serão
apresentadas na Seção ??. Em geral, não é possı́vel obter distribuições exatas para
os estimadores de MV e para as estatı́sticas de testes usadas nos MLG e, então,
trabalha-se com resultados assintóticos. As condições de regularidade que garantem
esses resultados são verificadas para os MLG. É fato conhecido que os EMV têm
poucas propriedades que são satisfeitas para todos os tamanhos de amostras, como,
por exemplo, suficiência e invariância. As propriedades assintóticas de segunda-
ordem de β̂, como o viés de ordem O(n−1 ) e a sua matriz de covariância de ordem
O(n−2 ), foram estudadas por Cordeiro e McCullagh (1991) e Cordeiro (2004a,b,c),
respectivamente.
Define-se o vetor escore U(β) = ∂ℓ(β)/∂β como na Seção 3.2. Como, em
problemas regulares (Cox e Hinkley, 1986, Capı́tulo 9), o vetor escore tem valor
esperado zero e estrutura de covariância igual à matriz de informação K, tem-se da
equação (3.2) que E[U(β)] = 0 e
[ ]
−∂ 2 ℓ(β)
T
Cov[U(β)] = E[U(β)U(β) ] = E = K. (4.1)
∂β T ∂β
Conforme demonstrado na Seção 3.2, a matriz de informação para β nos MLG é
expressa por K = ϕ−1 XT WX.
O teorema central do limite aplicado a U(β) (que equivale a uma soma de
variáveis aleatórias independentes) implica que a distribuição assintótica de U(β)
é normal p-variada, isto é, Np (0, K). Para amostras grandes, a estatı́stica escore
definida pela forma quadrática SR = U(β)T K−1 U(β) tem, aproximadamente, dis-
tribuição χ2p supondo o modelo, com o vetor de parâmetros β especificado, verdadeiro.
De forma resumida têm-se, a seguir, algumas propriedades do estimador β̂:
i) O estimador β̂ é assintoticamente não-viesado, isto é, para amostras
grandes E(β̂) = β. Suponha que o logaritmo da função de verossimilhança tem
um único máximo em β̂ que está próximo do verdadeiro valor de β. A expansão
em série multivariada de Taylor do vetor escore U(β̂) em relação a β, até termos
de primeira ordem, substituindo-se a matriz de derivadas parciais de segunda ordem
por −K, implica em
U(β̂) = U(β) − K(β̂ − β) = 0,
pois β̂ é a solução do sistema de equações U(β̂) = 0. As variáveis aleatórias U(β)

e K(β̂ − β) diferem por quantidades estocásticas de ordem Op (1). Portanto, tem-se
até ordem n−1/2 em probabilidade
β̂ − β = K−1 U(β), (4.2)
desde que K seja não-singular.

A expressão aproximada (4.2) é de grande importância para a determinação
de propriedades do EMV β̂. As variáveis aleatórias β̂ − β e K−1 U(β) diferem por
variáveis aleatórias de ordem n−1 em probabilidade. Tem-se, então, que
E(β̂ − β) = K−1 E[U(β)] = 0 ⇒ E(β̂) = β,
pois E[U(β)] = 0 e, portanto, β̂ é um estimador imparcial para β (pelo menos

assintoticamente). Na realidade, E(β̂) = β + O(n−1 ), sendo que o termo de ordem
O(n−1 ) foi calculado por Cordeiro e McCullagh (1991). Mais recentemente, Cordeiro
e Barroso (2007) obtiveram o termo de ordem O(n−2 ) da expansão de E(β̂).
ii) Denotando-se U = U(β) e usando (4.1) e (4.2) tem-se que a matriz de
variâncias e covariâncias de β̂, para amostras grandes, é expressa por
Cov(β̂) = E[(β̂ − β)(β̂ − β)T ] = K−1 E(UUT )K−1 = K−1 KK−1 = K−1 ,
T
pois K−1 é simétrica. Na realidade, Cov(β̂) = K−1 + O(n−2 ), sendo que o termo
matricial de ordem O(n−2 ) foi calculado por Cordeiro (2004a).
iii) Para amostras grandes, tem-se a aproximação
(β̂ − β)T K(β̂ − β) ∼ χ2p (4.3)
ou, de forma equivalente,
β̂ ∼ Np (β, K−1 ), (4.4)
ou seja, β̂ tem distribuição assintótica normal multivariada, que é a base para a

construção de testes e intervalos de confiança para os parâmetros lineares de um
MLG. Para modelos lineares com a variável resposta seguindo a distribuição nor-
mal, as equações (4.3) e (4.4) são resultados exatos. Fahrmeir e Kaufmann (1985),
em um artigo bastante matemático, desenvolvem condições gerais que garantem a
consistência e a normalidade assintótica do EMV β̂ nos MLG.
Para amostras pequenas, como citado em i), o estimador β̂ é viesado e torna-
se necessário computar o viés de ordem n−1 , que pode ser apreciável. Também,
para n não muito grande, como citado em ii), a estrutura de covariância dos EMV
dos parâmetros lineares difere de K−1 . Uma demonstração rigorosa dos resultados
assintóticos (4.3) e (4.4) exige argumentos do teorema central do limite adaptado ao
vetor escore U(β) e da lei fraca dos grandes números aplicada à matriz de informação
K. Pode-se, então, demonstrar, com mais rigor, a normalidade assintótica de β̂, com
média igual ao parâmetro verdadeiro β desconhecido, e com matriz de covariância
b −1 = ϕ(XT WX)
consistentemente estimada por K c −1 , em que W
c é a matriz de pesos
W avaliada em β̂.
Para as distribuições binomial e de Poisson, ϕ = 1. Se o parâmetro de
dispersão ϕ for constante para todas as observações e desconhecido afetará a matriz
b −1 de β̂ mas não o valor de β̂. Na prática, se ϕ for
de covariância assintótica K
desconhecido, deverá ser substituı́do por alguma estimativa consistente (Seção 4.4).
A distribuição assintótica normal multivariada Np (β, K−1 ) de β̂ é a base
da construção de testes e intervalos de confiança, em amostras grandes, para os
parâmetros lineares dos MLG. O erro dessa aproximação para a distribuição de β̂

é de ordem n−1 em probabilidade, significando que os cálculos de probabilidade
baseados na função de distribuição acumulada da distribuição normal assintótica
Np (β, K−1 ), apresentam erros de ordem de magnitude n−1 .
A distribuição assintótica normal multivariada Np (β, K−1 ) será uma boa
aproximação para a distribuição de β̂, se o logaritmo da função de verossimilhança
for razoavelmente uma função quadrática. Pelo menos, assintoticamente, todos os
logaritmos das funções de verossimilhança têm essa forma. Para amostras peque-
nas, esse fato pode não ocorrer para β, embora possa existir uma reparametrização
γ = h(β), que conduza o logaritmo da função de verossimilhança a uma função,
aproximadamente, quadrática. Assim, testes e regiões de confiança mais precisos
poderão ser baseados na distribuição assintótica de γ̂ = h(β̂).
Anscombe (1964), no caso de um único parâmetro β, obtém uma
parametrização geral que elimina a assimetria do logaritmo da função de verossi-
milhança. A solução geral é da forma
∫ [ ∫ ]
1
γ = h(β) = exp v(β)dβ dβ, (4.5)
3
[ ]−1
em que v(β) = d3 ℓ(β)/dβ 3 d2 ℓ(β)/dβ 2 . Essa transformação tem a propriedade
de anular a derivada de terceira ordem do logaritmo da função de verossimilhança,
em relação a γ, e, portanto, eliminar a principal contribuição da assimetria.
Para os MLG, a assimetria do logaritmo da função de verossimilhança
pode ser eliminada usando uma função de ligação apropriada, como será explicado
na Seção ?? (caso δ = 1/3). Usando-se a expressão (4.5), obtém-se, diretamente,
∫ {∫ ′′′ } ∫
η = exp b (θ)/[3b′′ (θ)]dθ dθ = b′′ (θ)1/3 dθ, a função de ligação que simetriza
ℓ(β). Quando a função de ligação é diferente desse caso, e se β, tem dimensão
maior do que 1, em geral, não é possı́vel anular a assimetria. Em particular,
reparametrizações componente a componente γi = h(βi ), i = 1, . . . , p, não apresen-
tam um bom aperfeiçoamento na forma do logaritmo da função de verossimilhança,
a menos que as variáveis explanatórias sejam, mutuamente, ortogonais (Pregibon,
1979).
Exemplo 4.1: Seja Y1 , . . . , Yn uma amostra aleatória de uma distribuição normal

N(µi , σ 2 ), sendo que µi = xTi β. Considerando a função de ligação identidade ηi = µi ,
tem-se que g ′ (µi ) = 1. Além disso, Vi = 1 e, portanto, wi = 1. Logo, a matriz de
informação é igual a
K = ϕ−1 XT WX = σ −2 XT X
e a variável dependente ajustada é zi = yi .

Portanto, o algoritmo de estimação (3.5) reduz-se a
XT Xβ = XT y
e, desde que XT X tenha inversa,
β̂ = (XT X)−1 XT y, (4.6)
que é a solução usual de mı́nimos quadrados para o modelo clássico de regressão.

Tem-se, então,
E(β̂) = (XT X)−1 XT E(Y) = (XT X)−1 XT Xβ = β
Cov(β̂) = E[(β̂ − β)(β̂ − β)T ] = (XT X)−1 XT E[(Y − Xβ)(Y − Xβ)T ]X(XT X)−1
= σ 2 (XT X)−1 ,
pois E[(Y − Xβ)(Y − Xβ)T ] = σ 2 I.

Como Y ∼ Nn (Xβ, σ 2 I) e o vetor β̂ dos EMV é uma transformação linear
do vetor y em (4.6), conclui-se que o vetor β̂ tem distribuição normal multivariada
Np (Xβ, σ 2 I) exatamente. Logo, tem-se, exatamente, que
(β̂ − β)T K(β̂ − β) ∼ χ2p ,

sendo K = σ −2 XT X a matriz de informação.

Os erros-padrão dos EMV β̂1 , . . . , β̂p são iguais às raı́zes quadradas dos ele-
b −1 e podem apresentar informações valiosas sobre a exatidão
mentos da diagonal de K
desses estimadores. Usa-se aqui a notação K−1 = {κr,s } para a inversa da matriz
de informação em que, aproximadamente, Cov(β̂r , β̂s ) = κr,s . Então, com nı́vel de
confiança de 95%, intervalos de confiança para os parâmetros βr′ s são calculados por
√
β̂r ∓ 1, 96 κ̂r,r ,
d β̂r ) é o valor de κr,r em β̂. Nas Seções 4.6 e 4.7, serão apresentados
em que κ̂r,r = Var(
testes e regiões de confiança construı́dos com base na função desvio.
A correlação estimada ρ̂rs entre as estimativas β̂r e β̂s segue como
r,s
d β̂r , β̂s ) = √ κ̂
ρ̂rs = Corr( ,
κ̂r,r κ̂s,s
deduzida a partir da inversa da matriz de informação K avaliada em β̂. Essas cor-

relações permitem verificar, pelo menos aproximadamente, a interdependência dos
β̂r′ s.
4.2 Função desvio e estatı́stica de Pearson gene-

ralizada
O ajuste de um modelo a um conjunto de observações y pode ser considerado
como uma maneira de substituir y por um conjunto de valores estimados µ̂ para um
modelo com um número, relativamente pequeno, de parâmetros. Logicamente, os
µ̂′ s não serão exatamente iguais aos y’s, e a questão, então, que aparece é em quanto
eles diferem. Isso porque, uma discrepância pequena pode ser tolerável enquanto que
uma discrepância grande, não.
Assim, admitindo-se uma combinação satisfatória da distribuição da variável
resposta e da função de ligação, o objetivo é determinar quantos termos são
necessários na estrutura linear para uma descrição razoável dos dados. Um número
grande de variáveis explanatórias pode conduzir a um modelo que explique bem os
dados mas com um aumento de complexidade na interpretação. Por outro lado,
um número pequeno de variáveis explanatórias pode implicar em um modelo de
interpretação fácil, porém, que se ajuste pobremente aos dados. O que se deseja
na realidade é um modelo intermediário, entre um modelo muito complicado e um
modelo pobre em ajuste.
A n observações podem ser ajustados modelos contendo até n parâmetros.

O modelo mais simples é o modelo nulo que tem um único parâmetro, representado
por um valor µ comum a todos os dados. A matriz do modelo, então, reduz-se a
um vetor coluna, formado de 1’s. Esse modelo atribui toda a variação entre os y ′ s
ao componente aleatório. No modelo nulo, o valor comum para todas as médias
∑
dos dados é igual à média amostral, isto é, ȳ = ni=1 yi /n, mas não representa a
estrutura dos dados. No outro extremo, está o modelo saturado ou completo que
tem n parâmetros especificados pelas médias µ1 , . . . , µn linearmente independentes,
ou seja, correspondendo a uma matriz modelo igual à matriz identidade de ordem n.
O modelo saturado tem n parâmetros, um para cada observação, e as estimativas de
MV das médias são µ̃i = yi , para i = 1, . . . , n. O til é colocado para diferir das EMV
do MLG com matriz modelo X, de dimensões n × p, com p < n. O modelo saturado
atribui toda a variação dos dados ao componente sistemático e, assim, ajusta-se
perfeitamente, reproduzindo os próprios dados.
Na prática, o modelo nulo é muito simples e o saturado é não-informativo,

pois não sumariza os dados, mas, simplesmente, os repete. Existem dois outros
modelos, não tão extremos, quanto os modelos nulo e saturado: o modelo mini-
mal que contém o menor número de termos necessários para o ajuste, e o modelo
maximal que inclui o maior número de termos que podem ser considerados. Os
termos desses modelos extremos são, geralmente, obtidos por interpretações a priori
da estrutura dos dados. Em geral, trabalha-se com modelos encaixados, e o conjunto
de matrizes dos modelos pode, então, ser formado pela inclusão sucessiva de ter-
mos ao modelo minimal até se chegar ao modelo maximal. Qualquer modelo com p
parâmetros linearmente independentes, situado entre os modelos minimal e maximal,
é denominado de modelo sob pesquisa ou modelo corrente.
Determinados parâmetros têm que estar no modelo como é o caso, por exem-
plo, de efeitos de blocos em planejamento de experimentos ou então, totais marginais
fixados em tabelas de contingência para análise de observações na forma de contagens.
Assim, considerando-se um experimento casualizado em blocos, com tratamentos no
esquema fatorial com dois fatores, têm-se os modelos:
nulo: ηi = µ
minimal: ηi = µ + βℓ
maximal: ηi = µ + βℓ + αj + γk + (αγ)jk
saturado: ηi = µ + βℓ + αj + γk + (αγ)jk + (βα)ℓj + (βγ)ℓk + (βαγ)ℓjk ,
sendo µ o efeito associado à média geral; βℓ o efeito associado ao bloco ℓ, ℓ = 1, . . . , b;

αj o efeito associado ao j-ésimo nı́vel do fator A; γk o efeito associado ao k-ésimo
nı́vel do fator B; (αγ)jk , (βα)ℓj , (βγ)ℓk , (βαγ)ℓjk os efeitos associados às interações.
O modelo saturado inclui, nesse caso, todas as interações com blocos que não são de
interesse prático.
O problema principal de seleção de variáveis explanatórias é determinar a u-

tilidade de um parâmetro extra no modelo corrente (sob pesquisa) ou, então, verificar
a falta de ajuste induzida pela sua omissão. Com o objetivo de discriminar entre
modelos alternativos, medidas de discrepância devem ser introduzidas para medir o
ajuste de um modelo. Nelder e Wedderburn (1972) propuseram, como medida de
discrepância, a “deviance” (traduzida como desvio escalonado por Cordeiro (1986)),
cuja expressão é
Sp = 2(ℓ̂n − ℓ̂p ),
sendo ℓ̂n e ℓ̂p os máximos do logaritmo da função de verossimilhança para os modelos

saturado e corrente (sob pesquisa), respectivamente. Verifica-se que o modelo satu-
rado é usado como base de medida do ajuste de um modelo sob pesquisa (modelo
corrente). Do logaritmo da função de verossimilhança (3.1), obtém-se
∑
n ∑
n
ℓ̂n = ϕ−1 [yi θ̃i − b(θ̃i )] + c(yi , ϕ)
i=1 i=1
e
∑
n ∑
n
−1
ℓ̂p = ϕ [yi θ̂i − b(θ̂i )] + c(yi , ϕ),
i=1 i=1
sendo θ̃i = q(yi ) e θ̂i = q(µ̂i ) as EMV do parâmetro canônico sob os modelos saturado
e corrente, respectivamente.
Então, tem-se,
∑
n
Sp = ϕ−1 Dp = 2ϕ−1 [yi (θ̃i − θ̂i ) + b(θ̂i ) − b(θ̃i )], (4.7)
i=1
em que Sp e Dp são denominados de desvio escalonado e desvio, respectivamente. O

desvio Dp é função apenas dos dados y e das médias ajustadas µ̂. O desvio escalonado
Sp depende de Dp e do parâmetro de dispersão ϕ. Pode-se, ainda, escrever
∑
n
−1
Sp = ϕ d2i ,
i=1
sendo que d2i mede a diferença dos logaritmos das funções de verossimilhança obser-
vada e ajustada, para a observação i correspondente, e é denominado componente
do desvio. A soma deles mede a discrepância total entre os dois modelos na escala
logarı́tmica da verossimilhança. É, portanto, uma medida da distância dos valores
ajustados µ̂′ s em relação às observações y ′ s, ou de forma equivalente, do modelo
corrente em relação ao modelo saturado. Verifica-se que o desvio equivale a uma
constante menos duas vezes o máximo do logaritmo da função de verossimilhança
para o modelo corrente, isto é,
Sp = 2ℓ̂n − 2ℓ̂p = constante − 2ℓ̂p .
Assim, um modelo bem (mal) ajustado aos dados, com uma verossimilhança máxima
grande (pequena), tem um pequeno (grande) desvio. Entretanto, um grande número
de variáveis explanatórias, visando reduzir o desvio, significa um grau de comple-
xidade na interpretação do modelo. Procuram-se, na prática, modelos simples com
desvios moderados, situados entre os modelos mais complicados e os que não se
ajustam bem aos dados.
O desvio é computado facilmente para qualquer MLG a partir da EMV

µ̂ = g −1 (Xβ̂) de µ. O desvio é sempre maior do que ou igual a zero, e à medida que
variáveis explanatórias entram no componente sistemático, o desvio decresce até se
tornar zero para o modelo saturado. Para o teste, define-se o número de graus de
liberdade do desvio do modelo por ν = n − p, isto é, como o número de observações
menos o posto da matriz do modelo sob pesquisa. Em alguns casos especiais, como
nos modelos normal e log-linear, o desvio iguala-se a estatı́sticas comumente usadas
nos testes de ajuste.

θ2 µ2
N(µi , σ 2 ), sendo que µi = xTi β. Tem-se, ϕ = σ 2 , θi = µi e b(θi ) = i = i . Logo,
2 2
[ ]
1 ∑ 1 ∑ 2
n n
yi2 µ̂2i
Sp = 2 yi (yi − µ̂i ) − + = 2 (2y − 2µ̂i yi − yi2 + µ̂2i )
σ 2 i=1 2 2 σ i=1 i
1 ∑
n
SQRes
= 2
(yi − µ̂i )2 = ,
σ i=1 σ2
∑
que coincide com a estatı́stica clássica SQRes = i (yi − µ̂i )2 com (n − p) graus de
liberdade dividida por σ 2 .
Exemplo 4.3: Sejam Y1 , . . . , Yn variáveis aleatórias representando contagens de

sucessos em amostras
( independentes
) de tamanhos mi . Suponha ( que Yi ∼ ) B(mi , πi ),
µi m i − µi
ϕ = 1, θi = log e b(θi ) = mi log(1 + eθi ) = −mi log .
mi − µi mi
Logo,
n { [
∑ ( ) ( )]}
yi µ̂i
Sp = 2 yi log − log
i=1
mi − yi mi − µ̂i
∑n { ( ) ( )}
mi − yi mi − µ̂i
+ 2 mi log − mi log
i=1
mi mi
ou ainda,
∑n [ ( ) ( )]
yi mi − yi
Sp = 2 yi log + (mi − yi ) log .
i=1
µ̂i mi − µ̂i
Essa expressão é válida para 0 < yi < mi . Se yi = 0 ou yi = mi , o i-ésimo

termo de Sp deve ser substituı́do por 2mi log[mi /(mi − µ̂i )] ou 2mi log(mi /µ̂i ), respec-
tivamente (Paula, 2004). Se mi = 1, isto é, Yi ∼ Bernoulli(πi ) e a função de ligação
considerada é a logı́stica, a função desvio é apenas uma função das observações e,
portanto, não é informativa com relação ao ajuste do modelo aos dados. O mesmo
é válido para as funções de ligação probito e complemento log-log.
Para o modelo de Poisson, o desvio tem a forma
[ n ( ) ∑ ]
∑ yi
n
Sp = 2 yi log + (µ̂i − yi )
i=1
µ̂i i=1
e, em particular, para os modelos log-lineares a segunda soma é igual a zero, desde que
a matriz X tenha uma coluna de 1’s (Exercı́cio 5 da Seção 4.11). Nesse caso, o desvio é
igual à razão de verossimilhanças (denotada por G2 ou Y 2 ), que é, geralmente, usada
nos testes de hipóteses em tabelas de contingência.
Para o modelo gama (θ = −µ−1 ) com média µ e parâmetro de dispersão ϕ
(= Var(Y )/E(Y )2 ), a expressão do desvio é
∑n [ ( ) ]
−1 µ̂i (yi − µ̂i )
Sp = 2ϕ log + ,
i=1
yi µ̂i
que pode ainda ser simplificada em alguns casos especiais (Exercı́cio 6 da Seção 4.11).
Se algum componente é igual a zero, segundo Paula (2004), pode-se substituir Dp
por
∑n [ ]
yi
Dp = 2c(y) + 2 log(µ̂i ) + ,
i=1
µ̂i
sendo c(y) uma função arbitrária, porém limitada. Pode ser usada, por exemplo, a
∑n
yi
expressão c(y) = . Na Tabela 4.1 apresentam-se as funções desvios para os
i=1
1 + y i
principais modelos.
Tabela 4.1: Funções desvios para alguns modelos.
Modelo Desvio
∑
n
Normal Dp = (yi − µ̂i )2
i=1
∑ n [ ( ) ( )]
yi mi − yi
Binomial Dp = 2 yi log + (mi − yi ) log
i=1
µ̂i mi − µ̂i
∑n [ ( ) ]
yi
Poisson Dp = 2 yi log + (µ̂i − yi )
i=1
µ̂i
∑n [ ( ) ( )]
yi µ̂i + k
Binomial negativo Dp = 2 yi log + (yi + k) log
i=1
µ̂i yi + k
∑n [ ( ) ]
µ̂i yi − µ̂i
Gama Dp = 2 log +
i=1
yi µ̂i
∑
n
(yi − µ̂i )2
Normal inverso Dp =
i=1
yi µ̂2i
Quanto melhor for o ajuste do MLG aos dados tanto menor será o valor do
desvio Dp . Assim, um modelo bem ajustado aos dados, terá uma métrica ||y − µ̂||
pequena, sendo essa métrica definida na escala do logaritmo da função de verossimi-
lhança.
Uma maneira de se conseguir a diminuição do desvio é aumentar o número
de parâmetros, o que, porém, significa um aumento do grau de complexidade na
interpretação do modelo. Na prática, procuram-se modelos simples com desvios
moderados, situados entre os modelos mais complicados e os que se ajustam mal às
observações. Para testar a adequação de um MLG, o valor calculado do desvio com
n − p graus de liberdade, sendo p o posto da matriz do modelo, deve ser comparado
com o percentil de alguma distribuição de probabilidade de referência. Para o mo-
delo normal com função de ligação identidade, assumindo-se que o modelo usado é
verdadeiro e que σ 2 é conhecido, tem-se o resultado exato
Dp
Sp = ∼ χ2n−p .
σ2
Entretanto, para modelos normais com outras funções de ligação, esse resul-
tado é apenas uma aproximação. Em alguns casos especiais da matriz modelo, com
delineamentos experimentais simples, considerando-se as distribuições exponencial
(caso especial da gama) e normal inversa, também, podem ser obtidos resultados
exatos. No geral, porém, apenas alguns resultados assintóticos estão disponı́veis e,
em alguns casos, o desvio, não tem distribuição χ2n−p , nem mesmo assintoticamente.
O desvio corrigido por uma correção de Bartlett proposta para os MLG por Cordeiro
(1983, 1987, 1995) tem sido usado para melhorar a sua aproximação pela distribuição
b p ), em que
χ2n−p de referência. Com efeito, o desvio modificado Sp = (n − p)Sp /E(S
b p ) quando E(Sp ) é determinada
a correção de Bartlett é expressa por (n − p)/E(S
b p ) o valor de E(Sp ) avaliada em µ̂, é me-
até termos de ordem O(n−1 ), sendo E(S
lhor aproximado pela distribuição χ2n−p de referência do que o desvio Sp , conforme
comprovam os estudos de simulação de Cordeiro (1993).
Considerando-se que o modelo corrente é verdadeiro, para o modelo bino-

mial, quando n é fixo e mi → ∞, ∀i (não vale quando mi πi (1 − πi ) permanece
limitado) e para o modelo de Poisson, quando µi → ∞, ∀i, tem-se que (lembre-se
que ϕ = 1): Sp = Dp é, aproximadamente, distribuı́do como χ2n−p .
Nos modelos em que Sp depende do parâmetro de dispersão ϕ, Jørgensen

D
(1987) mostra que Sp → χ2n−p quando ϕ → 0, isto é, quando o parâmetro de dispersão
é pequeno, a aproximação χ2n−p para Sp é satisfatória. Para o modelo gama, a
aproximação da distribuição de Sp por χ2n−p será tanto melhor quanto mais próximo
de um estiver o parâmetro de dispersão. Em geral, porém, não se conhece ϕ, que
precisa ser substituı́do por uma estimativa consistente (Seções 4.4 e 4.5).
Na prática, contenta-se em testar um MLG comparando-se o valor de Sp

com os percentis da distribuição χ2n−p . Assim, quando
Sp = ϕ−1 Dp ≤ χ2n−p;α ,
ou seja, Sp é inferior ao valor crı́tico χ2n−p;α da distribuição χ2n−p , pode-se considerar

que existem evidências, a um nı́vel aproximado de 100α% de significância, que o
modelo proposto está bem ajustado aos dados. Ou ainda, se o valor de Dp for
próximo do valor esperado n − p de uma distribuição χ2n−p , pode ser um indicativo
de que o modelo ajustado aos dados é adequado.
O desvio Dp pode funcionar como um critério de parada do algoritmo de
ajuste descrito em (3.5) e, após a convergência, o seu valor com o correspondente
número de graus de liberdade podem ser computados.
Uma outra medida da discrepância do ajuste de um modelo a um conjunto
de dados é a estatı́stica de Pearson generalizada Xp2 cuja expressão é
∑
n
(yi − µ̂i )2
Xp2 = , (4.8)
i=1
V (µ̂i )
sendo V (µ̂i ) a função de variância estimada sob o modelo que está sendo ajustado
aos dados. A fórmula (4.8) da estatı́stica de Pearson generalizada tem uma forma
equivalente expressa em termos da variável dependente ajustada do algoritmo (3.5)
c − η̂).
Xp2 = (z − η̂)T W(z
Para respostas com distribuição normal, σ −2 Xp2 = σ −2 SQRes e, então,
Xp2 ∼ σ 2 χ2n−p ,
sendo esse resultado exato somente se a função de ligação for a identidade e σ 2

conhecido.
Para dados provenientes das distribuições binomial e de Poisson, em que
ϕ = 1, Xp2 é a estatı́stica original de Pearson, comumente usada na análise dos
modelos logı́stico e log-linear em tabelas multidimensionais, e que tem a forma
∑
n
(oi − ei )2
Xp2 = ,
i=1
ei
sendo oi a freqüência observada e ei a freqüência esperada.
Para as distribuições não-normais, têm-se apenas resultados assintóticos

para Xp2 , isto é, a distribuição χ2n−p pode ser usada, somente, como uma aproxi-
mação para a distribuição de Xp2 , que em muitos casos pode ser inadequada. Além
disso, Xp2 tem como desvantagem o fato de tratar as observações simetricamente.
Note-se que para o modelo normal Xp2 = Dp .
A fórmula (4.8) da estatı́stica de Pearson generalizada tem uma forma equi-

valente expressa em termos da variável dependente ajustada do algoritmo (3.5) para
o modelo canônico. Tem-se,
Xp2 = (z − η̂)T (z − η̂).
O desvio Sp tem a grande vantagem como medida de discrepância por ser

aditivo para um conjunto de modelos encaixados, enquanto Xp2 , em geral, não tem
essa propriedade, apesar de ser preferido em relação ao desvio, em muitos casos, por
facilidade de interpretação.
Exemplo 4.4: Considere os dados do Exemplo 2.1 da Seção 2.2. A variável resposta
tem distribuição binomial, isto é, Yi ∼ B(mi , πi ). Adotando-se a função de ligação
logı́stica (canônica) e o preditor linear como uma regressão linear simples, isto é,
( )
µi
ηi = log = β0 + β1 di ,
mi − µi
tem-se Sp = Dp = 10, 26 e Xp2 = 9, 70 com 4 graus de liberdade. Da tabela da

distribuição χ2 , tem-se χ24;0,05 = 9, 49 e χ24;0,01 = 13, 29, indicando que existem
evidências, a um nı́vel de significância entre 0,05 e 0,01 de probabilidade, que o mo-
delo logı́stico linear ajusta-se, razoavelmente, a esse conjunto de dados. Necessita-se,
porém, adicionalmente, do teste da hipótese H0 : β1 = 0, de uma análise de resı́duos
e de medidas de diagnóstico.
4.3 Análise do desvio e seleção de modelos

A análise do desvio (“Analysis of the Deviance” - ANODEV) é uma generali-
zação da análise de variância para os MLG, visando obter, a partir de uma sequência
de modelos encaixados, cada modelo incluindo mais termos do que os anteriores,
os efeitos de variáveis explanatórias, fatores e suas interações. Utiliza-se o desvio
como uma medida de discrepância do modelo e forma-se uma tabela de diferenças
de desvios.
Seja Mp1 , Mp2 , . . . , Mpr uma seqüência de modelos encaixados de dimensões
respectivas p1 < p2 < . . . < pr , matrizes dos modelos Xp1 , Xp2 , . . . , Xpr e desvios
Dp1 > Dp2 > . . . > Dpr , tendo os modelos a mesma distribuição e a mesma função
de ligação. Essas desigualdades entre os desvios, em geral, não se verificam para a
estatı́stica de Pearson Xp2 generalizada e, por essa razão, a comparação de modelos
encaixados é feita, principalmente, usando-se a função desvio. Assim, para o caso
de um ensaio inteiramente casualizado, com r repetições e tratamentos no esquema
fatorial, com a nı́veis para o fator A e b nı́veis para o fator B, obtêm-se os resultados
mostrados na Tabela 4.2.
Dois termos A e B são ortogonais se a redução que A (ou B) causa no desvio
Dp é a mesma, esteja B (ou A) incluı́do, ou não, em Mp . Em geral, para os MLG
ocorre a não-ortogonalidade dos termos e a interpretação da tabela ANODEV é mais
complicada do que a ANOVA usual.
Sejam os modelos encaixados Mq e Mp (Mq ⊂ Mp , q < p), com q e p
parâmetros, respectivamente. A estatı́stica Dq − Dp com (p − q) graus de liberdade
é interpretada como uma medida de variação dos dados, explicada pelos termos que
estão em Mp e não estão em Mq , incluı́dos os efeitos dos termos em Mq e ignorando
quaisquer efeitos dos termos que não estão em Mp . Tem-se, assintoticamente, para
ϕ conhecido
Sq − Sp = ϕ−1 (Dq − Dp ) ∼ χ2p−q ,
em que Sq − Sp é igual à estatı́stica da razão de verossimilhanças (Seção 4.6).

Tabela 4.2: Um exemplo de construção de uma tabela de Análise de Desvio.
Modelo gl desvio Dif. de desvios Dif. de gl Significado

Nulo rab − 1 D1
D1 − DA a−1 A ignorando B
A a(rb − 1) DA
DA − DA+B b−1 B incluı́do A
A+B a(rb − 1) − (b − 1) DA+B
DA+B − DA∗B (a − 1)(b − 1) Interação AB
incluı́dos A e B
A+B+A.B ab(r − 1) DA∗B
DA∗B ab(r − 1) Resı́duo
Saturado 0 0
Nesses termos, quando o modelo com menor número de parâmetros (q) é

verdadeiro, Sq −Sp tem distribuição assintótica χ2p−q . Entretanto, cada desvio isolado
não é distribuı́do, assintoticamente, como qui-quadrado. O teorema de Wilks (1937)
requer que os espaços de parâmetros, segundo os modelos nulo e alternativo, sejam
de dimensão fixa, enquanto n cresce e, portanto, não se aplica ao desvio isolado, cujo
modelo alternativo é o saturado de dimensão n.
Se ϕ é desconhecido, deve-se obter uma estimativa ϕ̂ consistente, de pre-
ferência baseada no modelo maximal (com m parâmetros), e a inferência pode ser
baseada na estatı́stica F , expressa por
(Dq − Dp )/(p − q)
F = ∼ Fp−q,n−m .
ϕ̂
Para modelo normal linear, tem-se que
(SQResq − SQResp )/(p − q)

∼ Fp−q,n−m ,
SQResm /(n − m)
sendo a distribuição F exata.

Exemplo 4.5: Considere os dados do Exemplo 2.1 da Seção 2.2. A variável resposta
tem distribuição binomial, isto é, Yi ∼ B(mi , πi ). Adotando-se a função de ligação
logı́stica (canônica) e o preditor linear expresso como uma regressão linear simples,
isto é,
( )
µi
ηi = log = β0 + β1 di ,
mi − µi
dois modelos encaixados podem ser propostos para a análise desses dados, a saber:
a) o modelo nulo: ηi = β0 e
b) o modelo de regressão linear: ηi = β0 + β1 di .
Tabela 4.3: Desvios e X 2 residuais obtidos para dois modelos encaixados ajustados
aos dados da Tabela 2.1.
Modelo g.l. Desvios X2
ηi = β0 5 163,74 135,70
ηi = β0 + β1 di 4 10,26 9,70
A Tabela 4.3 apresenta os desvios e os valores da estatı́stica de Pearson

generalizada e seus respectivos números de graus de liberdade (g.l.), e a Tabela 4.4,
a análise do desvio correspondente.
Tabela 4.4: Análise do Desvio, considerando o modelo logı́stico linear ajustado aos
dados da Tabela 2.1.
Causa de Variação g.l. Desvios Valor p
Regressão linear 1 153,48 < 0, 0001
Resı́duo 4 10,26
Total 5 163,74
O exame da Tabela 4.3, confirmando o que foi descrito no Exemplo 4.4,
mostra que existem evidências, a um nı́vel de significância entre 0,05 e 0,01 de pro-
babilidade, que o modelo logı́stico linear ajusta-se razoavelmente a esse conjunto de
dados, mas rejeita-se o modelo nulo. Pelo exame da Tabela 4.4, rejeita-se a hipótese
nula H0 : β1 = 0, confirmando a adequação do modelo logı́stico linear. Necessita-se,
porém, adicionalmente, de uma análise de resı́duos e de diagnósticos.
Tem-se, ainda, que β̂0 = −3, 226 [s(β̂0 ) = 0, 3699] e β̂1 = 0, 6051 [s(β̂1 ) =
0, 0678]. O número esperado de insetos mortos µ̂i para a dose di é expresso por
exp(−3, 226 + 0, 6051di )

µ̂i = mi .
1 + exp(−3, 226 + 0, 6051di )
Na Figura 4.1 estão representados a curva do modelo ajustado e os valores

observados. Um programa simples em linguagem R (R Development Core Team,
2008) para a obtenção desses resultados é apresentado no Apêndice B.
1.0
*
*
0.8
0.6
Proporção
*
0.4
*
0.2
*
0.0
0 2 4 6 8 10
Dose
Figura 4.1: Valores observados e curva ajustada pelo modelo logı́stico linear aos
dados da Tabela 2.1.
4.4 Estimação do parâmetro de dispersão

Para as distribuições binomial e Poisson tem-se que o parâmetro de dis-
persão ϕ = 1. Quando ϕ é desconhecido (distribuições normal, normal inversa e
gama), considera-se que seja o mesmo para todas as observações, isto é, constante.
Necessária se faz sua estimação para obter (conforme descrito na Seção 3.4) os erros-
padrão dos β̂ ′ s, intervalos de confiança e testes de hipóteses para os β ′ s etc. Os
métodos mais usados para a estimação de ϕ são: método do desvio, método de
Pearson e método de máxima verossimilhança.
O método do desvio é baseado na aproximação χ2n−p para o desvio esca-
lonado (4.7). Para um modelo bem ajustado às observações, espera-se, portanto,
que o desvio escalonado Sp tenha valor esperado igual a n − p. Assim, obtém-se a
estimativa do parâmetro ϕ
Dp
ϕ̂d = , (4.9)
n−p
em que o desvio Dp é calculado de (4.7) como função das observações y e dos valores
ajustados µ̂. O estimador ϕ̂d é, aproximadamente, não viesado para os modelos
∑
normal e normal inverso. Para o modelo normal linear, ϕ̂d = (yi − µ̂i )2 /(n − p)
é o estimador usual não-viesado de σ 2 . Para os modelos gama e normal inverso,
as expressões correspondentes dos desvios Dp estão na Tabela 4.1, possibilitando
calcular ϕ̂d de (4.9).
O método de Pearson é baseado na aproximação da distribuição da es-
tatı́stica de Pearson Xp2 generalizada (4.8), dividida por ϕ, pela distribuição χ2n−p .
Obtém-se, assim, a estimativa de Pearson de ϕ
1 ∑ (yi − µ̂i )2
n
ϕ̂P = . (4.10)
n − p i=1 V (µ̂i )
Para o modelo normal, ϕ̂d = ϕ̂P . Para os demais modelos contı́nuos, esses
estimadores diferem em valor. Os estimadores ϕ̂P para os modelos gama e normal
inverso são deduzidos de (4.10) fazendo-se V (µ) = µ2 e V (µ) = µ3 , respectivamente.
O método de máxima verossimilhança é sempre possı́vel em teoria, mas pode
tornar-se complicado computacionalmente quando não existir solução explı́cita para
a EMV. Se ϕ é o mesmo para todas as observações, a EMV de β independe de ϕ.
Entretanto, a matriz de variâncias e covariâncias dos β̂ ′ s envolve esse parâmetro.
Interpretando o logaritmo da função de verossimilhança ℓ(β, ϕ) como função de β e
de ϕ, supondo conhecido y, pode-se escrever da equação (3.1)
∑
n ∑
n
−1
ℓ(β, ϕ) = ϕ [yi θi − b(θi )] + c(yi , ϕ). (4.11)
i=1 i=1
A função escore relativa ao parâmetro ϕ é expressa por
∂ℓ(β, ϕ) ∑ n ∑ dc(yi , ϕ) n
Uϕ = = −ϕ−2 [yi θi − b(θi )] + .
∂ϕ i=1 i=1
dϕ
Observe-se que Uϕ é função de β por meio de θ (ou µ) e de ϕ, supondo y

conhecido. A EMV ϕ̂ de ϕ é calculada igualando-se ∂ℓ(β̂, ϕ)/∂ϕ a zero. Claro que a
EMV ϕ̂ é função das médias ajustadas µ̂ e dos dados y. Da forma da função c(y, ϕ)
especificada na Seção 1.3 (Tabela 1.1), verifica-se facilmente que ϕ̂ = Dp /n para os
modelos normal e normal inverso. Para o modelo gama, obtém-se a EMV ϕ̂ de ϕ
como solução da equação não-linear
( ) ( ) D
log ϕ̂−1 − ψ ϕ̂−1 =
p
, (4.12)
2n
em que o desvio Dp é apresentado na Tabela 4.1 e ψ(r) = d log Γ(r)/dr é a função

digama (função psi). Uma aproximação para ϕ̂ obtida de (4.12) foi deduzida por
Cordeiro e McCullagh (1991) para valores pequenos de ϕ
2Dp
ϕ̂ ≈ [ ( )1/2 ] .
2Dp
n 1 + 1 + 3n
Derivando-se Uϕ em relação a βr , tem-se
∂ 2 ℓ(β, ϕ) ∑ (yi − µi ) dµi

n
Uϕr = = −ϕ−2 xir .
∂ϕ∂βr i=1
Vi dη i
Logo, E(Uϕr ) = 0, o que mostra que os parâmetros ϕ e β são ortogonais.
Esse fato implica que os EMV de β e ϕ são, assintoticamente, independentes.
Como Uϕ é função de ϕ e µ, escreve-se Uϕ = Uϕ (ϕ, µ). Pode-se mostrar que
2Uϕ (ϕ̂, y) = Dp , isto é, duas vezes a função escore relativa a ϕ avaliada no ponto
(ϕ̂, y) é igual ao desvio do modelo.
4.5 Comparação dos três métodos de estimação

do parâmetro de dispersão no modelo gama
Nesta seção, comparam-se as três estimativas ϕ̂d , ϕ̂P e ϕ̂ de ϕ no modelo
1 1
gama. Cordeiro e McCullagh (1991) usaram a desigualdade < log x − ψ(x) < ,
2x x
em que ψ(.) é a função digama, para mostrar que
Dp Dp
< ϕ̂ <
2n n
e, portanto,
ϕ̂d (n − p) ϕ̂d (n − p)
< ϕ̂ < .
2n n
Logo, para n grande, a EMV de ϕ deve ficar entre ϕ̂d /2 e ϕ̂d , ou seja, será
menor do que ϕ̂d .
Para comparar ϕ̂d e ϕ̂P , admite-se que a matriz modelo X tenha uma
coluna de uns relativa ao intercepto. Nesse caso, o desvio Dp reduz-se a Dp =
∑ ∑
2 ni=1 log(µ̂i /yi ), pois ni=1 (yi − µ̂i )/µ̂i = 0. Considere a expansão em série de Tay-
lor
f ′′ (a) f ′′′ (a)

f (x) = f (a) + f ′ (a)(x − a) + (x − a)2 + (x − a)3 + · · ·
2! 3!
e a função f (yi ) = log(µ̂i /yi ) com x = yi e a = µ̂i . Então, f ′ (yi ) = −yi−1 , f ′′ (yi ) = yi−2
e f ′′′ (yi ) = −2yi−3 e
( )
µ̂i (yi − µ̂i ) (yi − µ̂i )2 (yi − µ̂i )3
f (yi ) = log ≈− + − .
yi µ̂i 2µ̂2i 3µ̂3i
Logo,
∑ ( ) ∑ ∑ 2 ∑ (yi − µ̂i )3
n n n n
µ̂i (yi − µ̂i ) (yi − µ̂i )2
Dp = 2 log ≈ −2 + − . (4.13)
i=1
yi i=1
µ̂i i=1
µ̂2i 3 i=1 µ̂3i
O primeiro termo dessa expansão é nulo, pois o MLG tem por hipótese uma coluna
de uns. Dividindo a equação (4.13) por n − p e usando (4.9) e (4.10), tem-se
2 ∑ (yi − µ̂i )3
n
ϕ̂d ≈ ϕ̂P − .
3(n − p) i=1 µ̂3i
Como a última soma pode ser positiva ou negativa, conclui-se que ϕ̂d pode
ser maior do que, menor do que ou igual a ϕ̂P . Se o MLG tiver um bom ajuste, as
.
médias ajustadas e as observações serão próximas e, assim, ϕ̂d = ϕ̂P .
4.6 Testes de hipóteses

Os métodos de inferência nos MLG baseiam-se, fundamentalmente, na teo-
ria de máxima verossimilhança. De acordo com essa teoria, três estatı́sticas são,
usualmente, utilizadas para testar hipóteses relativas aos parâmetros β ′ s, sendo de-
duzidas de distribuições assintóticas de funções adequadas dos EMV dos β ′ s. São
elas: i) razão de verossimilhanças, ii) Wald e iii) escore, que são assintoticamente
equivalentes.
Sob a hipótese nula H0 e supondo que o parâmetro de dispersão ϕ é co-
nhecido, as três estatı́sticas convergem para uma variável aleatória com distribuição
χ2p , sendo, porém, a razão de verossimilhanças, o critério que define um teste uni-
formemente mais poderoso. Um estudo comparativo dessas estatı́sticas pode ser
encontrado em Buse (1982) para o caso de hipóteses simples. Dentre outras, re-
ferências importantes são Silvey (1975), Cordeiro (1986), Dobson (2001), McCulloch
e Searle (2000) e Paula (2004).
A razão de verossimilhanças para testar componentes do vetor β pode ser
obtida como uma diferença de desvios entre modelos encaixados. A estatı́stica de
Wald (1943), também chamada de “máxima verossimilhança” por alguns autores, é
baseada na distribuição normal assintótica de β̂. A estatı́stica escore (Rao, 1973,

Seção 6e) é obtida da função escore introduzida na Seção 3.2.
Dependendo da hipótese a ser testada, em particular, qualquer uma dessas
três estatı́sticas pode ser a mais apropriada. Para hipóteses relativas a um único
coeficiente βr , a estatı́stica de Wald é a mais usada. Para hipóteses relativas a vários
coeficientes, a razão de verossimilhanças é, geralmente, preferida. A estatı́stica escore
tem sido usada na Bioestatı́stica, com a finalidade de realizar testes como os do tipo
de Mantel e Haenszel (1959).
4.6.1 Teste de uma hipótese nula simples

Considere o teste da hipótese nula simples H0 : β = β 0 em um MLG supondo
ϕ conhecido, em que β 0 é um vetor especificado para o vetor β de parâmetros
desconhecidos, versus a hipótese alternativa H : β ̸= β 0 . Esse teste não é muito
usado, pois, na prática, o interesse é especificar um subconjunto de componentes de
β. As três estatı́sticas para testar H0 têm as seguintes formas
razão de verossimilhanças: w = 2[ℓ(β̂) − ℓ(β 0 )],
b β̂ − β 0 ), e
estatı́stica de Wald: W = (β̂ − β 0 )T K(
estatı́stica escore: SR = U(β 0 )T K−1
0 U(β 0 ),
em que ℓ(β̂) e ℓ(β 0 ) são os valores do logaritmo da função de verossimilhança (3.1)

em β̂ e β 0 , respectivamente, U(β 0 ) e K0 são o vetor escore e a matriz de informação
b a matriz de informação avaliada na EMV β̂. Na estatı́stica de
avaliadas em β 0 , e K
b pode ser substituı́da por K0 para definir uma estatı́stica de Wald modifi-
Wald, K
cada assintoticamente equivalente. Uma vantagem da estatı́stica escore é que não é
necessário calcular a EMV de β segundo H, embora na prática essa estatı́stica seja
importante.
As três estatı́sticas descritas são, assintoticamente, equivalentes e, segundo
a hipótese nula H0 , convergem em distribuição para a variável χ2p . Entretanto, a
razão de verossimilhanças, nesse caso, é geralmente preferida, pois, se existe um
teste uniformemente mais poderoso, esse critério o define. Se o modelo tem um
√ √
único parâmetro, usando-se as estatı́sticas SR e W , com um sinal adequado, no
lugar de SR e W , obtêm-se testes de mais fácil interpretação.
A estatı́stica escore é definida pela forma quadrática SR = UT K−1 U e
pode ser deduzida da maneira que se segue. O vetor escore U tem as seguintes
propriedades descritas na Seção 4.1: E(U) = 0 e Cov(U) = E(UUT ) = K. Supondo
observações independentes, o vetor escore é definido por uma soma de variáveis
aleatórias independentes que, pelo teorema central do limite, tem distribuição
assintótica normal p-dimensional Np (0, K). Logo, para amostras grandes, a es-
tatı́stica escore SR = UT K−1 U converge, assintoticamente, para uma distribuição
χ2p supondo que o modelo com os parâmetros especificados na hipótese nula seja
verdadeiro.

N(µ, σ 2 ) com µ desconhecido e σ 2 conhecido. No contexto do MLG, tem-se:
i) somente um parâmetro de interesse, µ;
ii) não há variáveis explanatórias e,
iii) a função de ligação é a identidade η = µ.
O logaritmo da função de verossimilhança é
1 ∑
n
n
ℓ = ℓ(µ) = − 2 (yi − µ)2 − log(2πσ 2 ),
2σ i=1 2
a partir do qual se obtêm:
1 ∑
n
dℓ n
U= = 2 (yi − µ) = 2 (ȳ − µ),
dµ σ i=1 σ
n [ ]
E(U ) = E( Ȳ ) − µ =0
σ2
e
n2 n
K = Var(U ) = 4
Var(Ȳ ) = 2 .
σ σ
Portanto,
n2 (Ȳ − µ)2 σ 2 (Ȳ − µ)2

SR = U T K −1 U = = σ2
∼ χ21 ,
σ4 n n
resultado que pode ser usado para a obtenção de intervalos de confiança para µ.
Exemplo 4.7: Suponha que Y tem distribuição binomial B(m, π). Então, o loga-
ritmo da função de verossimilhança para uma única observação é
( )
m
ℓ(π) = log + y log(π) + (m − y) log(1 − π)
y
e, portanto,
dℓ(π) y (m − y) y − mπ
U= = − = .
dπ π 1−π π(1 − π)
µ
Mas, E(Y ) = µ = mπ e Var(Y ) = mπ(1 − π) = (m − µ). Logo,
m
Var(Y ) m
E(U ) = 0 e K = Var(U ) = = .
− π)
π 2 (1 2 π(1 − π)
Assim,
(Y − mπ)2 π(1 − π) (Y − mπ)2 [Y − E(Y )]2

SR = U T K −1 U = = =
π 2 (1 − π)2 m mπ(1 − π) Var(Y )
que, pelo teorema central do limite, tem distribuição χ21 , ou, equivalentemente,
√
Y − E(Y ) m(Y − µ) D
√ =√ → N(0, 1),
Var(Y ) µ(m − µ)
resultado que pode ser usado para se fazer inferência sobre µ.
4.6.2 Teste de uma hipótese nula composta

Quando se tem um vetor de parâmetros β em um MLG, muitas vezes há
interesse em testar apenas um subconjunto de β. Supõe-se que o parâmetro de
dispersão ϕ é conhecido. Seja, então, uma partição do vetor de parâmetros β expressa
por β = (β T1 β T2 )T , em que β 1 , de dimensão q, é o vetor de interesse e β 2 , de dimensão
(p − q), o vetor de parâmetros de perturbação. De forma semelhante, tem-se a
partição da matriz modelo X = (X1 X2 ), do vetor escore U = ϕ−1 XT WH(y −µ) =
−1 T −1 T
1 U2 ) com U1 = ϕ X1 WH(y − µ) e U2 = ϕ X2 WH(y − µ) e da matriz
(UT T T
de informação de Fisher para β

 
K11 K12
K = ϕ−1 XT WX =  ,
K21 K22
sendo que K12 = KT21 .

Usando-se resultados conhecidos de álgebra linear, que envolvem partição
de matrizes (Searle, 1982), tem-se, para amostras grandes, a variância assintótica de
β̂ 1 :
Cov(β̂ 1 ) = (K11 − K12 K−1
22 K21 )
−1
= ϕ[XT1 W1/2 (I − P2 )W1/2 X1 ]−1 ,
−1 T
sendo P2 = W1/2 X2 (XT
2 WX2 ) X2 W
1/2
a matriz projeção segundo o modelo com
matriz X2 .
Sejam as hipóteses
H0 : β 1 = β 1,0 versus H : β 1 ̸= β 1,0 ,

T T
sendo β 1,0 um vetor especificado para β 1 . Seja β̂ = (β̂ 1 β̂ 2 )T a EMV de β sem
T
restrição e β̃ = (β T1,0 β̃ 2 )T a EMV restrita de β, em que β˜2 é a EMV de β 2 sob
H0 . A seguir, são definidos os três testes mais usados para testar a hipótese H0 .
(a) Teste da razão de verossimilhanças

Envolve a comparação dos valores do logaritmo da função de verossimilhança
maximizada sem restrição (ℓ(β̂ 1 , β̂ 2 )) e sob H0 (ℓ(β 1,0 , β˜2 )), ou, em termos do desvio,
a comparação de D(y; µ̂) e D(y; µ̃) em que µ̃ = g −1 (η̃) e η̃ = Xβ̃. Esse teste é,
geralmente, preferido no caso de hipóteses relativas a vários coeficientes β ′ s. Se as
diferenças são grandes, então, a hipótese H0 é rejeitada. A estatı́stica da razão de
verossimilhanças para esse teste pode ser expressa como uma diferença de desvios
w = 2[ℓ(β̂ 1 , β̂ 2 ) − ℓ(β 1,0 , β̃ 2 )] = ϕ−1 [D(y; µ̃) − D(y; µ̂)]. (4.14)

Para amostras grandes, rejeita-se H0 , a um nı́vel de 100α% de significância, se
w > χ2q,1−α .
(b) Teste de Wald

É baseado na distribuição normal assintótica de β̂, sendo uma generalização
da estatı́stica t de Student (Wald, 1943). É, geralmente, o mais usado no caso de
hipóteses relativas a um único coeficiente βr . Tem como vantagem, em relação ao
teste da razão de verossimilhanças, o fato de não haver necessidade de se calcular
a EMV restrita β˜2 . Como visto na Seção 4.1, assintoticamente, β̂ ∼ Np (β, K−1 ).
Assim, a estatı́stica para esse teste é
d β̂ 1 )−1 (β̂ 1 − β 1,0 ),

W = (β̂ 1 − β 1,0 )T Cov( (4.15)
d β̂ 1 ) a matriz Cov(β̂ 1 ) avaliada em β̂ = (β̂ T

sendo Cov(
T
β̂ 2 )T . Para amostras
1
grandes, rejeita-se H0 , a um nı́vel de 100α% de significância, se W > χ2q,1−α .
(c) Teste escore

A estatı́stica para esse teste é calculada a partir da função escore como
g β̂ 1 )U1 (β̃),
SR = UT1 (β̃)Cov( (4.16)
g β̂ 1 ) a matriz Cov(β̂ 1 ) avaliada em β̃ = (β T β̃ T )T . Para amostras

sendo Cov( 1,0 2
grandes, rejeita-se H0 , a um nı́vel de 100α% de significância, se SR > χ2q,1−α .

As três estatı́sticas (4.14), (4.15) e (4.16) diferem por termos de ordem
Op (n−1 ). As expansões assintóticas das distribuições dessas três estatı́sticas são
descritas no livro de Cordeiro (1999, Seção 5.7).
Para o cálculo das estatı́sticas Wald e escore, deve-se obter Cov(β̂1 ) da in-
versa da matriz de informação subdividida como K, ou seja,
 
11 12
K K
Cov(β̂) = K−1 = ϕ(XT WX)−1 =  ,
K21 K22
T
sendo que K12 = K21 , Cov(β̂ 1 ) = K11 , Cov(β̂ 2 ) = K22 e Cov(β̂ 1 , β̂ 2 ) = K12 .
4.7 Regiões de confiança

Regiões de confiança assintóticas para β 1 podem ser construı́das usando-
se qualquer uma das três estatı́sticas de teste. A partir da estatı́stica da razão de
verossimilhanças, uma região de confiança para β 1 , com um coeficiente de confiança
de 100(1 − α)%, inclui todos os valores de β 1 tais que:
2[ℓ(β̂ 1 , β̂ 2 ) − ℓ(β 1 , β˜2 )] < χ2q,1−α ,
em que β˜2 é a EMV de β 2 para cada valor de β 1 que é testado ser pertencente, ou
não, ao intervalo, e χ2q,1−α é o percentil da distribuição χ2 com q graus de liberdade,
correspondente a um nı́vel de significância igual a 100α%.
Usando-se a estatı́stica de Wald, uma região de confiança para β 1 , com um
coeficiente de confiança de 100(1 − α)%, inclui todos os valores de β 1 tais que:
d β̂ 1 )−1 (β̂ 1 − β 1 ) < χ2

(β̂ 1 − β 1 )T Cov( q,1−α .
Alternativamente, regiões de confiança para os parâmetros lineares β1 , . . . , βp

de um MLG podem ser construı́dos, usando-se a função desvio. Deseja-se uma região
de confiança aproximada para um conjunto particular de parâmetros β1 , . . . , βq de
interesse. Sejam Sp o desvio do modelo Mp com todos os p parâmetros e Sp−q o
desvio do modelo Mp−q com p − q parâmetros linearmente independentes, e os q
parâmetros de interesse tendo valores fixados: βr = βr∗ , r = 1, . . . , q. No ajuste
∑q
do modelo Mp−q , a quantidade βr∗ x(r) funciona como offset (isto é, uma parte
r=1
conhecida na estrutura linear do modelo), sendo x(r) a r-ésima coluna da matriz
modelo X correspondente a βr .
Uma região aproximada de 100(1 − α)% de confiança para β1 , . . . , βq é
definida pelo conjunto de pontos βr∗ , r = 1, . . . , q, não rejeitados pela estatı́stica
Sp−q − Sp , isto é, por
{βr∗ , r = 1, . . . , q; Sp−q − Sp < χ2q,1−α }. (4.17)

Embora, na prática, o cálculo dessas regiões de confiança apresente um trabalho
considerável, os software R, S-Plus, SAS e MATLAB têm as facilidades necessárias
incluindo o uso de gráficos.
No caso do intervalo de confiança para um único parâmetro βr , tem-se
{βr∗ ; Sp−1 − Sp < χ21,1−α }, (4.18)
em que Sp−1 é o desvio do modelo com os parâmetros β1 , . . . , βr−1 , βr+1 , . . . , βp e

offset βr∗ x(r) . Um outro intervalo aproximado para βr , simétrico e assintoticamente
equivalente a (4.18), pode ser obtido de
[β̂r − aα/2 (−κ̂rr )1/2 , β̂r + aα/2 (−κ̂rr )1/2 ], (4.19)
b −1 e Φ(−aα/2 ) = α/2, sendo Φ(.) a f.d.a. da

em que −κ̂rr é o elemento (r, r) de K
distribuição normal N(0, 1).
A construção de (4.19) é muito mais simples do que (4.18), pois é necessário
apenas o ajuste do modelo Mp . A grande vantagem do uso da equação (4.18), ao
invés de (4.19), é de ser independente da parametrização adotada. Por exemplo,
com uma parametrização diferente para o parâmetro de interesse γr = h(βr ), o inter-
valo baseado na distribuição normal assintótica de γ̂r não corresponde exatamente a
(4.19). Entretanto, usando (4.18), o intervalo para γr pode ser calculado por simples
transformação {h(βr∗ ); Sp−1 − Sp < χ21,1−α }.
4.8 Seleção de variáveis explanatórias

Na prática, é difı́cil selecionar um conjunto de variáveis explanatórias para
formar um modelo parcimonioso, devido aos problemas de ordem combinatória e
estatı́stica. O problema de cunho combinatório é selecionar todas as combinações
possı́veis de variáveis explanatórias que deverão ser testadas para inclusão no modelo.
O problema estatı́stico é definir, com a inclusão de um novo termo no preditor linear,
o balanço entre o efeito de reduzir a discrepância entre µ̂ e y e o fato de se ter um
modelo mais complexo.
Outras estatı́sticas que servem como medidas de comparação da qualidade
de ajuste do modelo e o seu grau de complexidade são os critérios de informação
de Akaike AICp = −2ℓ̂p + 2p (Akaike, 1974) e de Bayes BICp = −2ℓ̂p + p log(n)
(Schwarz, 1978) que para os MLG podem ser expressos, respectivamente, como
AICp = Sp + 2p − 2ℓ̂n . (4.20)
BICp = Sp + p log(n) − 2ℓ̂n . (4.21)
Se o modelo envolver um parâmetro de dispersão ϕ, esse deve ser estimado,

como descrito na Seção 4.4, para calcular um valor numérico em (4.20) e (4.21).
O critério de Akaike foi desenvolvido para estender o método de máxima
verossimilhança para a situação de ajustes de vários modelos com diferentes números
de parâmetros e para decidir quando parar o ajuste. A estatı́stica (4.20) pode ajudar
na seleção de modelos complexos e tem demonstrado produzir soluções razoáveis para
muitos problemas de seleção de modelos que não podem ser abordados pela teoria
convencional de máxima verossimilhança. Um valor baixo para AICp é considerado
como representativo de um melhor ajuste e os modelos são selecionados visando a se
obter um mı́nimo AICp . De forma semelhante interpreta-se BICp .
Uma outra medida de comparação equivalente ao critério de Akaike é
Cp∗ = Sp + 2p − n = AICp + 2ℓ̂n − n. (4.22)
Para um MLG isolado é, usualmente, mais simples trabalhar com Cp∗ do
que AICp . Para o modelo normal linear com variância constante σ 2 , Cp∗ reduz-se à
∑
estatı́stica Cp = SQRp /σ̃ 2 + 2p − n (Mallows, 1966), em que SQRp = nℓ=1 (yℓ − µ̂ℓ )2
e σ̃ 2 = SQRm /(n − m) é, a menos de um coeficiente multiplicador, o resı́duo
quadrático médio baseado no modelo maximal com m parâmetros. Nesse caso,
AICp = SQRp /σ̃ 2 + 2p + n log(2πσ̃ 2 ). Note-se que Cm = m.
Em geral, E(Cp∗ ) ̸= p. Para o modelo normal linear com variância conhecida
tem-se E(Cp∗ ) = p, supondo que o modelo é verdadeiro. Se a variância for des-
conhecida, o valor esperado de Cp∗ (= Cp ) será muito maior do que p, quando o
modelo não se ajustar bem aos dados. Um gráfico de Cp∗ (ou AICp ) versus p fornece
uma boa indicação para comparar modelos alternativos. Considerando dois modelos
encaixados Mq ⊂ Mp , p > q, tem-se AICp − AICq = Cp∗ − Cq∗ = Sp − Sq + 2(p − q)
e, portanto, supondo Mq verdadeiro, E(AICp − AICq ) = p − q + O(n−1 ).
Na comparação de modelos, sucessivamente, mais ricos, a declividade espe-
rada do segmento de reta unindo AICp com AICq (ou Cp∗ com Cq∗ ) deve ser próxima
de um, supondo o modelo mais pobre Mq verdadeiro. Pares de modelos com de-
clividade observada maior do que um, indicam que o modelo maior (Mp ) não é,
significantemente, melhor do que o modelo menor (Mq ).
Uma outra tentativa para seleção de variáveis explanatórias é minimizar a
expressão (Atkinson, 1981)
pα
Ap = Dp + , (4.23)
ϕ
em que Dp é o desvio do modelo Mp sem o parâmetro de dispersão ϕ e α é uma
constante ou função de n. Para o cálculo de (4.23), ϕ é estimado como descrito na
Seção 4.4. Tem-se Ap = [Cp∗ + p(α − 2) + n]/p e para α = 2, Ap é equivalente a Cp∗
(ou AICp ).
4.9 Método das variáveis explanatórias adicionais

O método das variáveis explanatórias adicionais (Pregibon, 1979, Capı́tulo
3), consiste em aumentar a estrutura linear do modelo, usando-se variáveis ex-
planatórias bastante adequadas para representar anomalias especı́ficas no MLG
usual. A forma mais comum do método tem origem no trabalho de Box e Tidwell
(1962), que consideraram uma regressão com parâmetros não-lineares nas variáveis
explanatórias. No preditor se existir uma função h(x; γ), em que γ é não-linear
em x, expande-se a função em série de Taylor ao redor de um valor próximo
conhecido γ (o) tornando γ um parâmetro linear na variável explanatória adicional

∂h(x; γ)/∂γ γ=γ (o) .
No método, a estrutura linear do modelo aumentado é do tipo
g(µ) = Xβ + Zγ, (4.24)
em que Z = (z1 , . . . , zq ), sendo zr um vetor coluna de dimensão n conhecido e

γ = (γ1 , . . . , γq )T . Em casos especiais, as colunas zr podem ser funções do ajuste do
modelo usual, isto é, Z = Z(Xβ̂), ou funções especı́ficas das variáveis explanatórias
originais zr = zr (x(r) ).
A importância das variáveis explanatórias adicionais é expressa pela
diferença dos desvios dos modelos g(µ) = Xβ e (4.24). Se a adição das variáveis
explanatórias Zγ altera substancialmente o ajuste, as anomalias em questão afetam,
seriamente, o modelo original. Em geral, quando isso ocorre, as formas das variáveis
explanatórias adicionais produzem uma ação corretiva.
Um bom exemplo do uso de uma variável explanatória adicional está no
teste de Tukey (1949) de um grau de liberdade para verificar a não-aditividade
de um modelo. Em termos de MLG, considera-se (Xβ̂) ⊗ (Xβ̂), em que ⊗ é o
produto direto, como uma variável adicional e, se no ajuste do modelo aumentado, o
coeficiente dessa variável explanatória for significantemente diferente de zero, aceita-
se a não-aditividade no modelo original. Uma transformação do tipo potência da
variável resposta, pode ser uma medida corretiva para eliminar a não-aditividade.
Para verificar se a escala de uma variável explanatória isolada x(r) está cor-
reta, o teste de Tukey considera β̂r2 (x(r) ⊗ x(r) ), em que β̂r é o coeficiente estimado
de x(r) , como uma variável adicional. Quando o coeficiente associado a essa variável
explanatória, no ajuste do modelo aumentado, for estatisticamente zero, aceita-se a
linearidade de η em x(r) .
Pregibon (1979) recomenda um método gráfico, alternativo, baseado na es-
tatı́stica vr = β̂r x(r) + ẑ − η̂ = β̂r x(r) + Ĥ(y − µ̂), que representa uma medida
da linearidade da variável explanatória x(r) . A estatı́stica vr é, simplesmente, um
resı́duo parcial generalizado para a variável explanatória x(r) , expresso na escala da

variável dependente modificada z. A escala de x(r) é considerada correta, se o gráfico
de vr versus x(r) é, aproximadamente, linear. Caso contrário, a forma do gráfico deve
sugerir a ação corretiva.
A inferência sobre γ pode ser realizada a partir da redução do desvio do
modelo com a inclusão de Zγ, ou por meio da distribuição normal assintótica de γ̂,
de média igual ao parâmetro verdadeiro γ e matriz de covariância expressa por
(ZT WZ)−1 + L(XT WX − XT WZL)−1 LT ,
em que L = (ZT WZ)−1 ZT WX. O método das variáveis explanatórias adicionais é

bastante usado para estimar a função de ligação e para identificar observações que
não são importantes para o modelo.
4.10 Seleção da função de ligação

Na Seção ??, serão apresentadas várias funções de ligação com objetivos
diferentes. Muitas vezes, para um conjunto particular de observações, pode ser
difı́cil decidir qual a melhor função de ligação e, ainda, essa pode não pertencer
à uma famı́lia especificada.
Uma estratégia frequente para verificar se uma função de ligação é adequada,
seria computar a redução no desvio após a inclusão da variável explanatória η̂⊗ η̂. Se
isso causar uma redução significativa no desvio, a função de ligação não é satisfatória.
Um método alternativo é traçar o gráfico da variável dependente modificada estimada
b − µ̂) versus η̂. Se o gráfico for, aproximadamente, linear, a função de
ẑ = η̂ + G(y
ligação estará correta.
Apresenta-se, agora, um método de estimação da função de ligação, desen-
volvido por Pregibon (1980), usando variáveis explanatórias adicionais, obtidas de
uma linearização da função de ligação. Seja a função de ligação g(µ; λ) = η = Xβ
dependendo de um conjunto de parâmetros λ = (λ1 , . . . , λr )T , supostos desconheci-
dos. Uma famı́lia de funções de ligação com um único parâmetro é a famı́lia potência
g(µ; λ) = (µλ − 1)/λ ou µλ .
Um teste aproximado da hipótese nula composta H0 : λ = λ(0) , em que λ(0)
é um valor especificado para λ, versus H : λ ̸= λ(0) , pode ser deduzido expandindo
g(µ; λ) = η em série de Taylor ao redor de λ(0) até primeira ordem. Tem-se,
g(µ; λ) = g(µ; λ(0) ) + D(µ; λ(0) )(λ − λ(0) ), (4.25)

∂g(µ; λ)
em que D(µ; λ) = é uma matriz de dimensões n × r que depende de
∂λ
β e λ. Seja β̂ 0 a EMV de β calculada do ajuste do modelo g(µ; λ(0) ) = Xβ e
b (0) = D(µ̂0 ; λ(0) ).
µ̂0 = g −1 (Xβ̂ 0 ; λ(0) ). Estima-se D(µ; λ(0) ) por D
Se a expansão (4.25) for adequada, pode-se considerar a estrutura linear
( ) (β )
g(µ; λ ) = X − D
(0) b (0) b (0) λ(0)
+D (4.26)
λ
como uma aproximação de g(µ; λ) = Xβ com λ desconhecido.
Na estrutura (4.26), o vetor de parâmetros λ aparece como linear nas
b (0) e o preditor linear envolve D
variáveis adicionais −D b (0) λ(0) como offset. Es-
sas variáveis adicionais representam uma medida da distância da função de ligação

definida por λ(0) à função de ligação verdadeira. A inferência sobre λ pode ser
realizada de maneira análoga a β, como descrito na Seção 4.6.2.
Logo, testar H0 : λ = λ(0) versus H : λ ̸= λ(0) corresponde, aproximada-
b (0) ), ambos tendo a mesma função de
mente, a comparar os modelos X e (X − D
ligação g(µ; λ(0) ) = η. Se a diferença de desvios entre esses modelos é maior do que
χ2r (α), rejeita-se a hipótese nula H0 .
A aproximação do teste depende fortemente da linearização (4.25). Quando
o λ verdadeiro estiver distante de λ(0) , não existirá garantia de convergência no
ajuste de (4.26) e, mesmo convergindo, a estimativa de λ obtida pode diferir subs-
tancialmente do valor correto de sua EMV. Para calcular uma melhor aproximação
dessa estimativa, o processo (4.26) deverá ser repetido com as variáveis explanatórias
adicionais sendo reestimadas a cada etapa, a partir das estimativas correspondentes
de β e λ.
Um processo alternativo para obter uma boa estimativa de λ, é conside-
rar λ fixado e pertencendo a um conjunto amplo de valores arbitrários e, então,
computar o desvio Sp (λ) como função de λ. Traça-se o gráfico da superfı́cie Sp (λ)
versus λ, escolhendo a estimativa λ̃ correspondente ao valor mı́nimo de Sp (λ) nesse
conjunto. Se λ é unidimensional, o processo é bastante simples, caso contrário, pode
ser impraticável. Uma região de 100(1 − α)% de confiança para λ é determinada
no gráfico por {λ; Sp (λ) − Sp (λ̃) ≤ χ2r (α)}, sendo independente da parametrização
adotada. Um teste de H0 : λ = λ(0) pode ser baseado nessa região. Pode-se calcular,
numericamente, a EMV de λ, embora com uma maior complexidade computacional.
4.11 Exercı́cios
1. Para os modelos normal, gama, normal inverso e Poisson com componentes sis-
temáticos ηi = µλi = β0 + β1 xi , e para o modelo binomial com ηi = log{[(1 − µi )−λ −
1]λ−1 } = β0 + β1 xi , sendo λ conhecido, calcular: a) as estruturas de covariância
assintótica de β̂ e µ̂; b) as estatı́sticas escore, de Wald e da razão de verossimi-
lhanças nos testes: H1 : β1 = 0 versus H1′ : β1 ̸= 0 e H2 : β0 = 0 versus H2′ : β0 ̸= 0;
c) intervalos de confiança para os parâmetros β0 e β1 .
2. Sejam Y1 , . . . , Yn variáveis binárias independentes e identicamente distribuı́das

com P(Yi = 1) = 1 − P(Yi = 0) = µ, 0 < µ < 1. A distribuição de Yi pertence à
famı́lia (1.5) com parâmetro natural θ. Demonstrar que a estatı́stica de Wald para
testar H0 : θ = 0 versus H : θ ̸= 0 é W = [nθ̂2 exp(θ̂)]/[1 + exp(θ̂)]2 , sendo os valores
possı́veis de θ̂ iguais a log[t/(n − t)], t = 1, . . . , n − 1. Quais as formas das estatı́sticas
escore e da razão de verossimilhanças?
3. Obtenha as expressões das estatı́sticas desvio Dp e Xp2 de Pearson generalizada

para as distribuições estudadas no Capı́tulo 1.
4. a) Mostre que para os modelos log-lineares com a matriz do modelo tendo uma
∑
coluna de 1’s, o desvio reduz-se a Sp = 2 ni=1 yi log(yi /µ̂i ); b) Mostre que para o
modelo gama com ı́ndice ν e função de ligação potência η = µλ ou η = log(µ),
nesse último caso a matriz X tendo uma coluna de 1’s, o desvio reduz-se a Sp =
∑
2ν ni=1 log(µ̂i /yi ).
5. Mostre que aos dois modelos do exercı́cio 4. se aplica o resultado mais geral
∑n −1
i=1 (yi − µ̂i )µ̂i V (µ̂i ) = 0 quando o modelo tem função de ligação η = µλ (λ ̸= 0)
ou η = log(µ), nesse último caso, X com uma coluna de 1’s.
6. a) Mostre que para o modelo gama simples com ı́ndice ν, em que todas as médias
são iguais, o desvio reduz-se à estatı́stica clássica S1 = 2nν log(ȳ/ỹ), em que ȳ e ỹ são
as médias aritmética e geométrica dos dados, respectivamente. b) Mostre que, para
um MLG, sendo ℓ o logaritmo da função de verossimilhança total, E(∂ 2 ℓ/∂ϕ∂βj ) = 0
e, portanto, os parâmetros ϕ e β são ortogonais.
7. Demonstre que a EMV do parâmetro de dispersão ϕ é calculada por
a) ϕ̂ = Dp /n (modelos normal e normal inverso);

( √ )−1
Dp 2Dp
b) ϕ̂ = 1+ 1+ (modelo gama, expressão aproximada para ϕ pe-
n 3n
queno) (Cordeiro e McCullagh, 1991).
8. Considere uma única resposta Y ∼ B(m, π).

b − π), em que π̂
a) deduza a expressão para a estatı́stica de Wald W = (π̂ − π)T K(π̂
b é a informação de Fisher estimada em π̂;
é a EMV de π e K
eT K
b) deduza a expressão para a estatı́stica escore SR = U e −1 U
e e verifique que é igual
à estatı́stica de Wald;
c) deduza a expressão para a estatı́stica da razão de verossimilhanças w = 2[ℓ(µ̂) −

ℓ(µ)];
d) para amostras grandes, as estatı́sticas escore, de Wald e da razão de verossimi-

lhanças têm distribuição assintótica χ21 . Sejam m = 10 e y = 3. Compare essas
estatı́sticas usando π = 0, 1, π = 0, 3 e π = 0, 5. Quais as conclusões obtidas?
9. Seja Y1 , . . . , Yn uma amostra aleatória de uma distribuição exponencial de média

µ. Sejam as hipóteses
[ H(0 : µ)= µ0 versus ] H : µ ̸= µ0 . Demonstre que:
µ0 ȳ − µ0
a) w = 2n log + (teste da razão de verossimilhanças);
ȳ µ0
n(ȳ − µ0 )2
b) W = (teste de Wald);
ȳ 2
n(ȳ − µ0 )2
c) SR = (teste escore).
µ20
10. Sejam Y1 , . . . , Yn variáveis independentes com distribuição de Poisson com média

µi = µρi−1 (i = 1, . . . , n). Deduzir as estatı́sticas escore, de Wald e da razão de
verossimilhanças para os testes das hipóteses que se seguem:
a) H0 : µ = µ0 versus H : µ ̸= µ0 , quando ρ é conhecido;
b) H0 : ρ = ρ0 versus H : ρ ̸= ρ0 , quando µ é conhecido.
11. Considere a estrutura linear ηi = βxi , i = 1, . . . , n, com um único parâmetro β

desconhecido e função de ligação η = (µλ − 1)λ−1 , λ conhecido. Calcular a EMV
de β, considerando-se os modelos normal, Poisson, gama, normal inverso e binomial
negativo. Fazer o mesmo para o modelo binomial com função de ligação η = log{[(1−
µ)−λ − 1]λ−1 }, λ conhecido. Calcular, ainda, as estimativas quando x1 = . . . = xn .
12. No exercı́cio anterior, considere o teste de H0 : β = β0 versus H : β ̸= β0 , sendo

β0 um valor especificado para o parâmetro desconhecido. Calcular: a) a variância
assintótica de β̂; b) as estatı́sticas para os testes da razão de verossimilhanças, Wald e
escore; c) um intervalo de confiança, com um coeficiente de confiança de 100(1−α)%,
para β; d) um intervalo de confiança, com um coeficiente de confiança de 100(1−α)%,
para uma função g(β) com g(·) conhecido.
13. Seja Y1 , . . . , Yn uma amostra aleatória de uma distribuição gama G(µ, ϕ) com
média µ e parâmetro de dispersão ϕ. Demonstrar que: a) a EMV de ϕ satisfaz
log(ϕ̂)+ψ(ϕ̂−1 ) = log(ỹ/ȳ), sendo ȳ e ỹ as médias aritmética e geométrica dos dados,
respectivamente, e ψ(·) a função digama; b) uma solução aproximada é expressa como
ϕ̂ = 2(ȳ − ỹ)/ȳ.
14. Sejam Yi ∼ N(µi , σ 2 ) e os Yi′ s independentes, i = 1, . . . , n, com variância cons-

tante desconhecida e µi = exp(βxi ). Calcular: a) a matriz de informação para β e
σ 2 ; b) as estatı́sticas escore, de Wald e da razão de verossimilhanças nos seguintes
testes: H1 : β = β (0) versus H1′ : β ̸= β (0) e H2 : σ 2 = σ (0)2 versus H2′ : σ 2 ̸= σ (0)2 ;
c) intervalos de confiança para β e σ 2 .
15. Sejam Yi ∼ P(µi ) com µi = µρi−1 , i = 1, . . . , n. Calcular as estatı́sticas

escore, de Wald e da razão de verossimilhanças nos seguintes testes: a) de H0 :
µ = µ(0) versus H : µ ̸= µ(0) para os casos de ρ conhecido e desconhecido; b) de
H0 : ρ = ρ(0) versus H : ρ ̸= ρ(0) para os casos de µ conhecido e desconhecido.
16. Sejam Y1 , . . . , Yn variáveis aleatórias independentes com distribuição gama

G(µi , ϕ), sendo ϕ o parâmetro de dispersão, com µi = ϕ−1 exp(−α − βxi ), em que ϕ,
α e β são parâmetros desconhecidos, e os x′i s são valores especificados, i = 1, . . . , n.
Calcular estatı́sticas adequadas para os seguintes testes: a) H1 : β = 0 versus H1′ :
β ̸= 0; b) H2 : ϕ = ϕ(0) versus H2′ : ϕ ̸= ϕ(0) ; c) H3 : α = 0 versus H3′ : α ̸= 0.
17. Sejam Y1 , . . . , Yn variáveis aleatórias normais N(µi , σ 2 ), com σ 2 conhecido, e

µi = α+β exp(−γxi ), i = 1, . . . , n, em que α, β e γ são parâmetros desconhecidos. a)
Calcular intervalos de confiança para α, β e γ; b) Testar H0 : γ = 0 versus H : γ ̸= 0
por meio das estatı́sticas escore, de Wald e da razão de verossimilhanças; c) Como
proceder em a) e b) se σ 2 for desconhecido?
18. Sejam Y1 , . . . , Yn variáveis aleatórias independentes e identicamente distribuı́das

como normal N(µ, σ 2 ). Define-se Zi = |Yi |, i = 1, . . . , n. Demonstrar que a razão
de verossimilhanças no teste de H0 : µ = 0 versus H : µ ̸= 0, σ 2 desconhecido,
é, assintoticamente, equivalente ao teste baseado em valores grandes da estatı́stica
∑
n ∑
n
T = Zi4 / Zi2 , que é uma estimativa do coeficiente de curtose de Z.
i=1 i=1
19. Considere o teste do exercı́cio anterior. Demonstrar as expressões das es-

tatı́sticas escore SR = nȳ 2 /σ̃ 2 e de Wald W = nȳ 2 /σ̂ 2 , em que ȳ é a média dos
∑
y ′ s, σ̂ 2 = ni=1 (yi − ȳ)2 /n e σ̃ 2 = σ̂ 2 + ȳ 2 são as estimativas de σ 2 , segundo H e H0 ,
respectivamente, e que, segundo H0 , E(W ) = (n − 1)/(n − 3) e E(SR ) = 1 + O(n−2 ).
20. Sejam k amostras independentes de tamanhos ni (i = 1, . . . , k; ni ≥ 2) retiradas

de populações normais diferentes de médias µi e variâncias σi2 , i = 1, . . . , k. Formular
o critério da razão de verossimilhanças para o teste de homogeneidade de variâncias,
H0 : σ12 = . . . = σk2 versus H : σi2 não é constante. Como realizar esse teste na
prática?
21. Seja um MLG com estrutura linear ηi = β1 + β2 xi + β3 x2i e função de ligação

g(.) conhecida. Determinar as estatı́sticas nos testes da razão de verossimilhanças,
de Wald e escore, para as hipóteses: a) H0 : β2 = β3 = 0 versus H : H0 é falsa; b)
H0 : β2 = 0 versus H : β2 ̸= 0; c) H0 : β3 = 0 versus H : β3 ̸= 0.
22. Considere uma tabela de contingência r × s, em que Yij tem distribuição de

Poisson P(µij ), i = 1, . . . , r, j = 1, . . . , s. Para o teste da hipótese de independência
linha-coluna versus uma alternativa geral, calcular a forma das estatı́sticas escore,
de Wald e da razão de verossimilhanças.
23. Considere o problema de testar H0 : µ = 0 versus H : µ ̸= 0 numa distribuição

normal N(µ, σ 2 ) com σ 2 desconhecido. Comparar as estatı́sticas dos testes escore, de
Wald e da razão de verossimilhanças entre si e com a distribuição χ2 assintótica.
24. Seja uma distribuição multinomial com probabilidades π1 , . . . , πm dependendo

de um parâmetro θ desconhecido. Considere uma amostra de tamanho n. Calcular
a forma das estatı́sticas dos testes da razão de verossimilhanças, escore e de Wald
para testar as hipóteses H0 : θ = θ(0) versus H : θ ̸= θ(0) , sendo θ(0) um valor

especificado.
25. A estatı́stica escore pode ser usada para escolher um entre dois modelos separa-
dos. Sejam Y1 , . . . , Yn variáveis aleatórias independentes com Yi tendo distribuição
normal N(µi , σ 2 ), com µi = βxi ou µi = γzi , i = 1, . . . , n, sendo todos os parâmetros
desconhecidos e os x′i s e os zi′ s conhecidos. Propor um teste baseado na estatı́stica
escore para escolher entre uma dessas estruturas.
26. Sejam Y1 , . . . , Yn variáveis aleatórias independentes sendo que Yi , i = 1, . . . , n,

tem distribuição binomial negativa inflacionada de zeros (BNIZ) com P(Yi = yi )
especificada no Exercı́cio 10 do Capı́tulo 1, em que log(λ) = Xβ, log[(ω/(1 − ω)] =
Zγ, X e Z são matrizes de variáveis explanatórias e β e γ vetores de parâmetros.
a) Mostre que a estatı́stica escore para testar a hipótese H0 : PIZ versus
√
H : BNIZ, isto é, H0 : α = 0 versus H1 : α > 0 é expressa como T = S κ̂αα , em
∑ {[ ] }
que S = 1
2
c−1
i λ̂i (yi − λ̂i )2 − yi − I(yi =0) λ̂2i ω̂i /p̂0,i , κ̂αα é o elemento superior
esquerdo da inversa da matriz de informação de Fisher
 
κ Kαβ Kαγ
 αα 
 
K =  Kαβ Kββ Kβγ 
 
Kαγ Kβγ Kγγ
avaliada na EMV sob H0 . Note que καα é um escalar, e que os outros elementos
são, em geral, matrizes com dimensões determinadas pelas dimensões dos vetores de
parametros β e γ. No limite, quando α → ∞, os elementos tı́picos da matriz de
informação são deduzidos por Ridout et al. (2001).
b) Mostre que o caso particular em que não há variáveis explanatórias para
λ e ω, o teste escore simplifica-se para
∑ [ ]
i (y i − λ̂)2
− y i − nλ̂ ω̂
2
T = v ( ).
u
u λ̂ 2
λ̂tn(1 − ω̂) 2 −
eλ̂ − 1 − λ̂
Capı́tulo 5
Resı́duos e Diagnósticos
5.1 Introdução
A escolha de um MLG envolve três passos principais: i) definição da dis-
tribuição (que determina a função de variância); ii) definição da função de ligação;
iii) definição da matriz do modelo.
Na prática, porém, pode ocorrer que após uma escolha cuidadosa de um
modelo e subsequente ajuste a um conjunto de observações, o resultado obtido seja in-
satisfatório. Isso decorre em função de algum desvio sistemático entre as observações
e os valores ajustados ou, então, porque uma ou mais observações são discrepantes
em relação às demais.
Desvios sistemáticos podem surgir pela escolha inadequada da função de
variância, da função de ligação e da matriz do modelo, ou ainda pela definição er-
rada da escala da variável dependente ou das variáveis explanatórias. Discrepâncias
isoladas podem ocorrer ou porque os pontos estão nos extremos da amplitude de vali-
dade da variável explanatória, ou porque eles estão realmente errados como resultado
de uma leitura incorreta ou uma transcrição mal feita, ou ainda porque algum fator
não controlado influenciou a sua obtenção.
Na prática, em geral, há uma combinação dos diferentes tipos de falhas.
Assim, por exemplo, a detecção de uma escolha incorreta da função de ligação
pode ocorrer porque ela está realmente errada ou porque uma ou mais variáveis
explanatórias estão na escala errada ou devido à presença de alguns pontos dis-
135
crepantes. Esse fato faz com que a verificação da adequação de um modelo para um
determinado conjunto de observações seja um processo realmente difı́cil.
Maiores detalhes podem ser encontrados em Atkinson (1985), Cordeiro
(1986), Atkinson et al. (1989), McCullagh e Nelder (1989), Francis et al. (1993)
e Paula (2004).
5.2 Técnicas para verificar o ajuste de um modelo

As técnicas usadas com esse objetivo podem ser formais ou informais. As
informais baseiam-se em exames visuais de gráficos para a detecção de padrões, ou
então, de pontos discrepantes. As formais envolvem colocar o modelo sob pesquisa
em uma classe mais ampla pela inclusão de um parâmetro (ou vetor de parâmetros)
extra γ. As mais usadas são baseadas nos testes da razão de verossimilhanças e
escore. Parâmetros extras podem aparecer devido a:
- inclusão de uma variável explanatória adicional;
- inclusão de uma variável explanatória x em uma famı́lia h(x, γ) indexada por

um parâmetro γ, sendo um exemplo a famı́lia de Box-Cox;
- inclusão de uma função de ligação g(µ) em uma famı́lia mais ampla g(µ, γ),
sendo um exemplo a famı́lia de Aranda-Ordaz (1981), especificada no Exercı́cio
3 do Capı́tulo 2;
- inclusão de uma variável construı́da, por exemplo η̂ 2 , a partir do ajuste original,

para o teste de adequação da função de ligação;
- inclusão de uma variável dummy assumindo o valor 1 (um) para a unidade

discrepante e 0 (zero) para as demais. Isso é equivalente a eliminar essa ob-
servação do conjunto de dados, fazer a análise com a observação discrepante e
sem ela e verificar, então, se a mudança no valor do desvio é significativa, ou
não. Ambos, porém, dependem da localização do(s) ponto(s) discrepante(s).
5.3 Análise de resı́duos e diagnóstico para o mo-

delo clássico de regressão
No modelo clássico de regressão y = Xβ + ϵ, os elementos ϵi do vetor ϵ
são as diferenças entre os valores observados yi ’s e aqueles esperados µi ’s pelo mo-
delo. Esses elementos são denominados de erros aleatórios (ou ruı́dos brancos) e
considera-se que os ϵi ’s são independentes e, além disso, que ϵi tem distribuição nor-
mal N(0, σ 2 ). Esses termos representam a variação natural dos dados, mas, também,
podem ser interpretados como o efeito cumulativo de fatores que não foram conside-
rados no modelo. Se as pressuposições do modelo são violadas, a análise resultante
pode conduzir a resultados duvidosos. Esse tipo de violação do modelo dá origem
às chamadas falhas sistemáticas (não linearidade, não-normalidade, heterocedastici-
dade, não-independência, etc). Outro fato bastante comum é a presença de pontos
atı́picos (falhas isoladas), que podem influenciar, ou não, no ajuste do modelo. Eles
podem surgir de várias maneiras. Algumas possibilidades são:
- devido a erros grosseiros na variável resposta ou nas variáveis explanatórias,

por medidas erradas ou registro da observação, ou ainda, erros de transcrição;
- observação proveniente de uma condição distinta das demais;
- modelo mal especificado (falta de uma ou mais variáveis explanatórias, modelo

inadequado, etc);
- escala usada de forma errada, talvez os dados sejam melhor descritos após uma
transformação, do tipo logarı́tmica ou raiz quadrada;
- a parte sistemática do modelo e a escala estão corretas, mas a distribuição da

resposta tem uma cauda mais longa do que a distribuição normal.
A partir de um conjunto de observações e ajustando-se um determinado

modelo com p parâmetros linearmente independentes, para verificar as pressuposições
devem ser considerados como elementos básicos:
- os valores estimados (ou ajustados) µ̂i ;
- os resı́duos ordinários ri = yi − µ̂i ;
- a variância residual estimada (ou quadrado médio residual), σ̂ 2 = s2 =

∑
QMRes = ni=1 (yi − µ̂i )2 /(n − p);
- os elementos da diagonal (leverage) da matriz de projeção H = X(XT X)−1 XT ,

isto é,
hii = xTi (XT X)−1 xi ,
sendo xTi = (xi1 , . . . , xip ).
Uma ideia importante, também, é a da deleção (deletion), isto é, a com-

paração do ajuste do modelo escolhido, considerando-se todos os pontos, com o ajuste
do mesmo modelo sem os pontos atı́picos. As estatı́sticas obtidas pela omissão de
um certo ponto i são denotadas com um ı́ndice entre parênteses. Assim, por exem-
plo, s2(i) representa a variância residual estimada para o modelo ajustado, excluı́do o
ponto i.
5.3.1 Tipos de resı́duos

Vale destacar que os resı́duos têm papel fundamental na verificação do ajuste
de um modelo. Vários tipos de resı́duos foram propostos na literatura (Cook e
Weisberg, 1982; Atkinson, 1985).
a) Resı́duos ordinários
Os resı́duos do processo de ajuste por mı́nimos quadrados são definidos por
ri = yi − µ̂i .
Enquanto os erros ϵi ’s são independentes e têm a mesma variância, o mesmo

não ocorre com os resı́duos obtidos a partir do ajuste do modelo, usando-se mı́nimos
quadrados. Tem-se,
Var(r) = Var[(I − H)Y] = σ 2 (I − H).

Em particular, a variância do i-ésimo resı́duo é igual a Var(ri ) = σ 2 (1 − hii ),
e a covariância dos resı́duos relativos às observações i e j é Cov(ri , rj ) = −σ 2 hij .
Assim, o uso dos resı́duos ordinários pode não ser adequado devido à
heterogeneidade das variâncias. Então, foram propostas diferentes padronizações
para minimizar esse problema.
b) Resı́duos estudentizados internamente (Studentized residuals)

Considerando-se s2 = QMRes como a estimativa de σ 2 , tem-se que um
estimador não tendencioso para Var(ri ) é expresso por
d i ) = (1 − hii )s2 = (1 − hii )QMRes

Var(r
e como E(ri ) = E(Yi − µ̂i ) = 0, então, o resı́duo estudentizado internamente é igual

a
ri yi − µ̂i
rsii = √ =√ .
s (1 − hii ) (1 − hii )QMRes
Esses resı́duos são mais sensı́veis do que os anteriores por considerarem
variâncias distintas. Entretanto, um valor discrepante pode alterar profundamente
a variância residual dependendo do modo como se afasta do grupo maior das
observações. Além disso, o numerador e o denominador dessa expressão são
variáveis dependentes, isto é, Cov(ri , QMRes) ̸= 0.
c) Resı́duos estudentizados externamente (jackknifed residuals, dele-

tion residuals, externally Studentized residuals, RStudent)
Para garantir a independência entre o numerador e o denominador na
padronização dos resı́duos, define-se o resı́duo estudentizado externamente, como
ri
rse(i) = √ ,
s(i) (1 − hii )
sendo s2(i) o quadrado médio residual livre da influência da observação i, ou seja, a
estimativa de σ 2 , omitindo-se a observação i. Pode-se demonstrar que
√
n−p−1
rse(i) = rsii ,
n − p − rsi2i
sendo p o número de parâmetros independentes do modelo e rsii definido no item
b).
A vantagem de usar o resı́duo rse(i) é que, sob normalidade, tem distribuição
t de Student com (n − p − 1) graus de liberdade. Embora não seja recomendada a
prática de testes de significância na análise de resı́duos, sugere-se que a i-ésima
observação seja merecedora de atenção especial se |rse(i) | for maior do que o 100[1 −
α/(2n)]-ésimo percentil da distribuição t com (n − p − 1) graus de liberdade, sendo
que o nı́vel de significância α é dividido por n por ser esse o número de observações
sob análise.
5.3.2 Estatı́sticas para diagnósticos

Discrepâncias isoladas (pontos atı́picos) podem ser caracterizadas por terem
hii e/ou resı́duos grandes, serem inconsistentes e/ou influentes (McCullagh e Nelder,
1989, p. 404). Uma observação inconsistente é aquela que se destoa da tendência geral
das demais. Quando uma observação está distante das outras em termos das variáveis
explanatórias, ela pode ser, ou não, influente. Uma observação influente é aquela cuja
omissão do conjunto de dados resulta em mudanças substanciais nas estatı́sticas de
diagnóstico do modelo. Essa observação pode ser um outlier (observação aberrante),
ou não. Uma observação pode ser influente de diversas maneiras, isto é,
- no ajuste geral do modelo;
- no conjunto das estimativas dos parâmetros;
- na estimativa de um determinado parâmetro;
- na escolha de uma transformação da variável resposta ou de uma variável
explanatória.
As estatı́sticas mais utilizadas para verificar pontos atı́picos são:
- Medida de leverage: hii ;
- Medida de inconsistência: rse(i) ;
- Medida de influência sobre o parâmetro βj : DFBetaS(i) para βj ;
- Medidas de influência geral: DFFitS(i) , D(i) ou C(i) .
De uma forma geral, pode-se classificar uma observação como:
- Ponto inconsistente: ponto com rse(i) grande, isto é, tal que |rse(i) | ≥
tα/(2n);n−p−1 , com nı́vel de significância igual a α;
- Ponto de alavanca: ponto com hii grande, isto é, tal que hii ≥ 2p/n. Pode
ser classificado como bom, quando consistente, ou ruim, quando inconsistente;
- Outlier: ponto inconsistente com leverage pequeno, ou seja, com rse(i)
grande e hii pequeno;
- Ponto influente: ponto com DFFitS(i) , C(i) , D(i) ou DFBetaS(i) grande,
como explicado a seguir. A primeira medida é considerada grande se DFFitS(i) ≥
√
2 p/n.
A i-ésima observação é considerada influente se |DFBetaS(i) | > 1, se
√
|DFFitS(i) | > 3 p/(n − p), se |1 − COVRATIO| > 3p/(n − p), se D(i) > F0,5;p,n−p ,
ou se hii > 3p/n, em que COVRATIO = [E(i) /E]2 com E ∝ [s2p /|XT X|]1/2 ,
E(i) ∝ [s2p T
(i) /|X X|]
1/2
e s2 = QMRes .
A seguir, são descritas as estatı́sticas citadas.
a) Elementos da diagonal da matriz de projeção H (hii , leverage)

A distância de uma observação em relação às demais é medida por hii (me-
dida de leverage). No caso particular da regressão linear simples, usando-se a variável
centrada xi = Xi − X̄, tem-se:
 
1 x1
  1  
 
 x2 
0

1 1 ... 1 1
H=  n 
 
1 
x1 x2 . . . xn 0 ∑n 2  · · · · · · 
i=1 xi  
1 xn
e, portanto,
1 x2 1 (Xi − X̄)2
hii = + ∑n i 2 = + ∑n 2 , elementos da diagonal de H e
n i=1 xi n i=1 xi
1 x i xj 1 (Xi − X̄)(Xj − X̄)

hij = + ∑n 2 = + ∑n 2 , elementos fora da diagonal de H,
n i=1 xi n i=1 xi
o que mostra que à medida que Xi se afasta de X̄, o valor de hii aumenta e que seu
valor mı́nimo é 1/n. Esse valor mı́nimo ocorre para todos os modelos que incluem
uma constante. No caso em que o modelo de regressão passa pela origem, o valor
mı́nimo de hii é 0 para uma observação Xi = 0. O valor máximo de hii é 1, ocorrendo
quando o modelo ajustado é irrelevante para a predição em Xi e o resı́duo é igual a
0. Sendo H uma matriz de projeção, tem-se H = H2 e, portanto,
∑
n ∑
hii = h2ij = h2ii + h2ij
j=1 j̸=i
∑n
concluindo-se que 0 ≤ hii ≤ 1 e j=1 hij = 1. Além disso,
∑
n
T −1 T T −1 T
r(H) = tr[X(X X) X ] = tr[(X X) X X] = tr(Ip ) = hii = p,
i=1
e, então, o valor médio de hii é p/n.

No processo de ajuste, como µ̂ = Hy, tem-se
∑
n
µ̂i = hij yj = hi1 y1 + . . . + hii yi + . . . + hin yn com 1 ≤ i ≤ n.
j=1
Verifica-se, portanto, que o valor ajustado µ̂i é uma média ponderada dos
valores observados e que o peso de ponderação é o valor de hij . Assim, o elemento da
diagonal de H é o peso com que a observação yi participa do processo de obtenção
do valor ajustado µ̂i . Valores de hii ≥ 2p/n indicam observações que merecem uma
análise mais apurada (Belsley et al., 1980, p. 17).
b) DFBeta e DFBetaS
Essas estatı́sticas são importantes quando o coeficiente de regressão tem um
significado prático. A estatı́stica DFBeta(i) mede a alteração no vetor estimado β̂ ao
se retirar a i-ésima observação da análise, isto é,
ri
DFBeta(i) = β̂ − β̂ (i) = (XT X)−1 xi .
(1 − hii )
ou ainda, considerando que β̂ = (XT X)−1 XT y = Cy, em que C = (XT X)−1 XT é

uma matriz p × n, tem-se
ri
DFBeta(i) = cTi , i = 1, . . . n,
(1 − hii )
sendo cTi a i-ésima linha de C. Então,
ri
DFBetaj(i) = cji , i = 1, . . . n, j = 0, . . . , p − 1.
(1 − hii )
Cook e Weisberg (1982) propuseram curvas empı́ricas para o estudo dessa

medida. Como Cov(β̂) = CVar(Y)CT , a versão estudentizada de DFBetaj(i) reduz-
se a
cji ri
DFBetaSj(i) = ∑ 2 .
( cji )s(i) (1 − hii )
c) DFFit e DFFitS
A estatı́stica DFFit e sua versão estudentizada DFFitS medem a alteração
decorrente no valor ajustado pela eliminação da observação i. São expressas como
DFFit(i) = xTi (β̂ − β̂ (i) ) = µ̂i − µ̂(i)
e
DFFit(i) xTi (β̂ − β̂ (i) ) 1 ri
DFFitS(i) = √ = √ =√ xTi (XT X)−1 xi
2 2 2 (1 − hii )
hii s(i) hii s(i) hii s(i)
ou, ainda,
( ) 12 ( ) 12
hii ri hii
DFFitS(i) = = rse(i) ,
1 − hii 1
s(i) (1 − hii ) 2 1 − hii
sendo o quociente hii /(1 − hii ), chamado potencial de influência, uma medida da
distância do ponto xi em relação às demais observações. Nota-se que DFFitS pode
ser grande quando hii é grande ou quando o resı́duo estudentizado externamente
√
é grande. Valores absolutos, excedendo 2 p/n, podem identificar observações
influentes (Belsley et al., 1980, p. 28).
d) Distância de Cook
Uma medida de afastamento do vetor de estimativas resultante da elimina-
ção da observação i é a distância de Cook. Tem uma expressão muito semelhante
ao DFFitS mas que usa como estimativa da variância residual aquela obtida com
todas as n observações, ou ainda, considera o resı́duo estudentizado internamente. É
expressa por
[ ]2
(β̂ − β̂ (i) )T (XT X)(β̂ − β̂ (i) ) hii ri2 ri hii
D(i) = = =
ps2 (1 − hii )2 ps2 (1 − hii ) 2 s p(1 − hii )
1
ou, ainda,
hii rsi2i
D(i) = .
p (1 − hii )
e) Distância de Cook modificada

Atkinson (1981, p.25) sugere uma modificação para a distância de Cook
[ ] 12 ( )1
(n − p) hii n−p 2
C(i) = |rse(i) | = DFFitS(i) .
p (1 − hii ) p
5.3.3 Tipos de gráficos

a) Valores observados (y) versus variáveis explanatórias (xj )
Esse tipo de gráfico indica a relação que pode existir entre a variável
dependente e as diversas variáveis explanatórias. Pode indicar, também, a presença
de heterocedasticidade. Pode, porém, conduzir a uma ideia falsa no caso de muitas
variáveis explanatórias (a não ser que haja ortogonalidade entre todas).
b) Variável explanatória xj versus variável explanatória xj ′

Esse tipo de gráfico pode indicar a estrutura que pode existir entre duas
variáveis explanatórias. Pode indicar, também, a presença de heterocedasticidade.
Pode, porém, conduzir a uma ideia falsa no caso de muitas variáveis explanatórias
(a não ser que haja ortogonalidade entre todas).
c) Resı́duos versus variáveis explanatórias não incluı́das (xf ora )
Pode revelar se existe uma relação entre os resı́duos do modelo ajustado e
uma variável ainda não incluı́da no modelo. Pode conduzir, também, a evidência de
heterocedasticidade. Pode implicar, porém, no mesmo tipo de problema apontado
nos itens a) e b). Uma alternativa melhor para esse tipo de gráfico é o gráfico da
variável adicionada (added variable plot).
d) Resı́duos versus variáveis explanatórias incluı́das (xdentro )

Pode mostrar se ainda existe uma relação sistemática entre os resı́duos e
a variável xj que está incluı́da no modelo, isto é, por exemplo se x2dentro deve ser
incluı́da. Esse tipo de gráfico apresenta o mesmo tipo de problema que o citado nos
itens a), b) e c). Uma alternativa melhor para isso é o gráfico dos resı́duos parciais
(partial residual plot). O padrão para esse tipo de gráfico é uma distribuição aleatória
de média zero e amplitude constante. Desvios sistemáticos podem indicar:
- escolha errada da variável explanatória,
- falta de termo quadrático (ou de ordem superior),
- escala errada da variável explanatória.
e) Resı́duos versus valores ajustados

O padrão para esse tipo de gráfico é uma distribuição aleatória de média
zero e amplitude constante. Pode mostrar heterogeneidade de variâncias e pontos
discrepantes.
f) Gráficos de ı́ndices
Servem para localizar observações com resı́duos, hii (leverage), distância de
Cook modificada etc, grandes.
g) Gráfico da variável adicionada ou da regressão parcial (added

variable plot)
Embora os gráficos dos resı́duos versus variáveis não incluı́das no modelo
possam indicar a necessidade de variáveis extras no modelo, a interpretação exata
deles não é clara. A dificuldade reside em que, a menos que a variável explanatória,
considerada para inclusão, seja ortogonal a todas as variáveis que estão incluı́das no
modelo, o coeficiente angular do gráfico dos resı́duos não é o mesmo que o coeficiente
angular no modelo ajustado, incluindo a variável em questão.
Esse tipo de gráfico pode ser usado para detectar a relação de y com uma
variável explanatória u, ainda não incluı́da no modelo, livre do efeito de outras
variáveis, e como isso é influenciado por observações individuais. Note que u pode ser,
também, uma variável construı́da para verificar a necessidade de uma transformação
para a variável resposta e/ou para as variáveis explanatórias. No caso do modelo
linear geral, tem-se
E(Y) = Xβ + γu,
sendo u uma variável a ser adicionada e γ, o parâmetro escalar adicional. O interesse

está em se saber se γ = 0, isto é, se não há necessidade de se incluir a variável u no
modelo. A partir do sistema de equações normais, tem-se
      
T [ ] T 
 XT Xβ̂ + XT uγ̂ = XT y
X β̂ X y
  X u  = ⇒
u T
γ̂ u yT 
 uT Xβ̂ + uT uγ̂ = uT y
e, portanto,
β̂ = (XT X)−1 XT (y − uγ̂)
e
uT (I − H)y uT (I − H)(I − H)y u∗T r
γ̂ = = = ,
uT (I − H)u uT (I − H)(I − H)u u∗T u∗
que é o coeficiente angular de uma reta que passa pela origem, sendo r = y − Xβ̂ =
(I − H)y o vetor dos resı́duos de y ajustado para X e u∗ = (I − H)u o vetor dos
resı́duos de u ajustado para X.
O gráfico da variável adicionada de r versus u∗ , portanto, tem coeficiente
angular γ̂ (diferente do gráfico de r versus u) e é calculado a partir dos resı́duos
ordinários da regressão de y como função de todas as variáveis explanatórias, exceto
u = xj , versus os resı́duos ordinários da regressão de u = xj como função das mesmas
variáveis explanatórias usadas para analisar y. Assim, por exemplo, para um modelo
com três variáveis explanatórias, o gráfico da variável adicionada para x3 é obtido a
partir de duas regressões lineares
µ̂ = β̂0 + β̂1 x1 + β̂2 x2 ⇒ r = y − µ̂
e
xˆ3 = β̂0′ + β̂1′ x1 + β̂2′ x2 ⇒ u∗ = x3 − xˆ3 .
O padrão nulo do gráfico de r versus u∗ indicará a não necessidade de

inclusão da variável u.
h) Gráfico de resı́duos parciais ou gráfico de resı́duos mais compo-

nente (partial residual plot)
Se o interesse está em se detectar uma estrutura omitida, tal como uma
forma diferente de dependência em u, um gráfico usando u pode ser de maior
utilidade. Esse gráfico, também, tem coeficiente angular γ̂. Consiste em se plotarem
os resı́duos do modelo E(Y) = Xβ + γu mais γ̂u versus u, isto é, no gráfico dos
resı́duos aumentados r̃ = r + γ̂u versus u. Por isso, também, esse gráfico é chamado
de gráfico do resı́duo mais componente.
i) Gráficos normal e semi-normal de probabilidades (normal plots e

half normal plots)
O gráfico normal de probabilidades destaca-se por dois aspectos (Weisberg,
2005):
- identificação da distribuição originária dos dados e
- identificação de valores que se destacam no conjunto.
Seja uma amostra aleatória de tamanho n. As estatı́sticas de ordem cor-
respondentes aos resı́duos padronizados obtidos a partir do ajuste de um determi-
nado modelo são d(1) , . . . , d(i) , . . . , d(n) . O fundamento geral para a construção do
gráfico normal de probabilidades é que se os valores de uma dada amostra provêm
de uma distribuição normal, então os valores das estatı́sticas de ordem e os zi cor-
respondentes, obtidos da distribuição normal padrão, são linearmente relacionados.
Portanto, o gráfico de d(i) versus zi deve ser, aproximadamente, uma reta. Formatos
aproximados comuns que indicam ausência de normalidade são:
S - indica distribuições com caudas muito curtas, isto é, distribuições cujos
valores estão muito próximos da média;
S invertido - indica distribuições com caudas muito longas e, portanto,
presença de muitos valores extremos;
J e J invertido - indicam distribuições assimétricas, positivas e negativas,
respectivamente.
Esses gráficos, na realidade são muito dependentes do número de ob-
servações, atingindo a estabilidade quando o número de observações é grande (em
torno de 300). Para a construção desse gráfico, seguem-se os passos:
a) ajuste um determinado modelo a um conjunto de dados e obtenha d(i) ,
os valores ordenados de uma certa estatı́stica de diagnóstico (resı́duos, distância de
Cook, hii etc);
b) a partir da estatı́stica de ordem na posição (i), calcule a respectiva pro-
babilidade acumulada pi e o respectivo quantil, ou seja, o inverso da função de
distribuição normal Φ(.) no ponto pi . Essa probabilidade pi é, em geral, aproximada
por
i−c
pi =
n − 2c + 1
sendo 0 < c < 1. Diversos valores têm sido propostos para a constante c. Vários
autores recomendam a utilização de c = 3/8, ficando, então,
( )
−1 i − 0, 375
zi = Φ , para i = 1, . . . , n.
n + 0, 25
c) coloque, em um gráfico, d(i) versus zi .
Esse gráfico tem, também, o nome de Q-Q plot, por relacionar os valores de
um quantil amostral (d(i) ) versus os valores do quantil correspondente da distribuição
normal (zi ).
A construção do gráfico semi-normal de probabilidades é o resultado do
conjunto de pontos obtidos pelo gráfico dos valores |d(i) | versus zi , em que zi =
Φ−1 (i + n − 0, 125)/(2n + 0, 5).
McCullagh e Nelder (1989) sugerem o uso do gráfico normal de probabilida-
des para os resı́duos e o gráfico semi-normal de probabilidades para medidas positivas
como é o caso de hii e da distância de Cook modificada. No caso do gráfico normal de
probabilidades para os resı́duos, espera-se que na ausência de pontos discrepantes, o
aspecto seja linear, mas não há razão para se esperar que o mesmo ocorra quando são
usados hii ou a distância de Cook modificada. Os valores extremos aparecerão nos
extremos do gráfico, possivelmente com valores que desviam da tendência indicada
pelos demais.
Para auxiliar na interpretação do gráfico semi-normal de probabilidades,
Atkinson (1985) propôs a adição de um envelope simulado. Esse gráfico é obtido,
seguindo-se os passos:
a) ajuste um determinado modelo a um conjunto de dados e obtenha d(i) ,
os valores absolutos ordenados de uma certa estatı́stica de diagnóstico (resı́duos,
distância de Cook, hii , etc);
b) simule 19 amostras da variável resposta, usando as estimativas obtidas
após um determinado modelo ser ajustado aos dados e os mesmos valores para as
variáveis explanatórias;
c) ajuste o mesmo modelo a cada uma das 19 amostras e calcule os valores
absolutos ordenados da estatı́stica de diagnóstico de interesse, d∗j(i) , j = 1, . . . , 19,
i = 1, . . . , n;
d) para cada i, calcule a média, o mı́nimo e o máximo dos d∗j(i) ;
e) coloque em um gráfico as quantidades calculadas no item anterior e d(i)
versus zi .
Esse envelope é tal que, sob o modelo correto, as estatı́sticas (resı́duos,

leverage, distância de Cook, etc) obtidas a partir das observações ficam inseridas no
envelope.
j) Valores observados (y) ou Resı́duos versus tempo

Mesmo que o tempo não seja uma variável incluı́da no modelo, gráficos
de respostas (y) ou de resı́duos versus tempo devem ser apresentados sempre que
possı́vel. Esse tipo de gráfico pode conduzir à detecção de padrões não suspeitados,
devido ao tempo ou, então, a alguma variável muito correlacionada com o tempo.
5.4 Análise de resı́duos e diagnóstico para mode-

los lineares generalizados
As técnicas usadas para análise de resı́duos e diagnóstico para os MLG
são semelhantes àquelas usadas para o modelo clássico de regressão, com algumas
adaptações. Assim, por exemplo, na verificação da pressuposição de linearidade para
o modelo clássico de regressão, usam-se os vetores y e µ̂, enquanto que para o MLG
devem ser usados ẑ, a variável dependente ajustada estimada, e η̂, o preditor linear
estimado. A variância residual s2 é substituı́da por uma estimativa consistente do
parâmetro de dispersão ϕ e a matriz de projeção H é definida por
H = W1/2 X(XT WX)−1 XT W1/2 , (5.1)
o que é equivalente a substituir X por W1/2 X. Note-se que H, agora, depende das
variáveis explanatórias, da função de ligação e da função de variância, tornando mais
difı́cil a interpretação da medida de leverage. Demonstra-se que
V−1/2 (µ̂ − µ) ∼
= HV−1/2 (Y − µ), (5.2)
sendo V = diag{V (µi )}. A equação (5.2) mostra que H mede a influência em
unidades estudentizadas de y sobre µ̂.
5.4.1 Tipos de resı́duos

Os resı́duos são importantes para detectar a presença de observações aber-
rantes que devem ser estudadas detalhadamente. O resı́duo Ri deve expressar uma
discrepância (distância) entre a observação yi e o seu valor ajustado µ̂i
Ri = hi (yi , µ̂i ), (5.3)
em que hi é uma função adequada de fácil interpretação, usualmente escolhida para

estabilizar a variância e/ou induzir simetria na distribuição amostral de Ri . A
definição (5.3) foi proposta por Cox e Snell (1968). A mesma função hi (·) = h(·)
pode ser usada para as diversas observações. A matriz H em (5.1) desempenha
um papel importante na análise dos resı́duos nos MLG e tem as propriedades
tr(H) = p e 0 ≤ hii ≤ 1, descritas na Seção 5.3.2 no contexto do mode-
lo clássico de regressão. Outra matriz importante de projeção é definida como
I − H = I − W1/2 X(XT WX)−1 XT W1/2 . As escolhas mais comuns de hi são
Ri = (yi − µ̂i )/[Var(Yi )]1/2 e Ri = (yi − µ̂i )/[Var(yi − µ̂i )]1/2 , a primeira forma
sendo a mais usual, sendo que as expressões da variância nos denominadores são
estimadas segundo o modelo sob pesquisa. Em algumas aplicações, esses resı́duos
não são apropriados para detectar anomalias no ajuste do modelo estatı́stico.
Em geral, a definição da função hi depende, basicamente, do tipo de anoma-
lia que se deseja detectar no modelo. Entre as anomalias mais frequentes, citam-se:
i) uma falsa distribuição populacional para a variável resposta;
ii) uma ou mais observações não pertencendo à distribuição proposta para
a variável resposta;
iii) algumas observações que se mostram dependentes ou exibindo alguma
forma de correlação serial;
iv) um parâmetro importante que está sendo omitido no modelo.
Escolhendo hi , adequadamente, essas anomalias podem ser encontradas,
usando-se os gráficos respectivos:
i’) resı́duos ordenados R(i) versus pontos percentuais de alguma distribuição

de probabilidade de referência F(.); esses pontos podem ser definidos por F−1 [(i −
α)/(n − 2α + 1)] para 0 ≤ α ≤ 0, 5;
ii’) Ri versus µ̂i ;
iii’) Ri versus i;
iv’) Ri versus os nı́veis da variável ou fator correspondente ao parâmetro

omitido.
Geralmente, esses gráficos representam o método mais importante de análise

dos resı́duos. A definição dos resı́duos pela expressão (5.3) deve satisfazer, aproxima-
damente, propriedades de segunda ordem, tais como, E(Ri ) = 0, Var(Ri ) = constante
e Cov(Ri , Rj ) = 0, i ̸= j, pois, em muitos casos, essas condições são suficientes para
especificar a forma da distribuição de Ri .
O resı́duo verdadeiro é definido por ϵi = hi (yi , µi ). A quantidade de

observações para estimar os parâmetros β ′ s do modelo e dar informações sobre a
distribuição de probabilidade dos resı́duos deve ser grande. Frequentemente, p é
pequeno comparado com n e as combinações de parâmetros são estimadas com erro
padrão de ordem n−1/2 . Nesse caso, o resı́duo Ri difere de ϵi de uma quantidade
de ordem n−1/2 em probabilidade, e muitas propriedades estatı́sticas dos Ri′ s são
equivalentes às propriedades respectivas dos ϵ′i s.
Em geral, a distribuição exata de Ri não é conhecida e trabalha-se com

resultados assintóticos, tais como, valor esperado E(Ri ) e variância Var(Ri ) até ordem
n−1 . Theil (1965) sugere usar uma combinação linear dos resı́duos R∗ = CR, no
lugar de R = (R1 , . . . , Rn )T , para testes e gráficos, em que C é uma matriz (n −
p) × n, escolhida de modo que R∗ tenha, aproximadamente, uma distribuição normal
multivariada N(0, σ 2 I). Apresentam-se, a seguir, os tipos de resı́duos mais comuns
nos MLG.
a) Resı́duos ordinários
ri = yi − µ̂i .
Esses resı́duos não têm maior interesse para os MLG.
b) Resı́duos de Pearson
O resı́duo mais simples é o de Pearson definido por
yi − µ̂i
riP = 1/2
. (5.4)
V̂i
Esta quantidade é um componente da estatı́stica de Pearson generalizada

∑
n
2
Xp2 = riP especificada em (4.8). Para os modelos log-lineares tem-se que
i=1
−1/2
riP = (yi − µ̂i )µ̂i e Haberman (1974) sugere a correção riP ∗ = riP /(1 − µ̂i ẑii )1/2 , em
que Z = {zij } = X(XT WX)−1 XT com W = diag{µi }, para tornar a distribuição
do resı́duo riP ∗ , aproximadamente, normal N(0, 1). A variância média dos riP ∗ é
1 − (1 + p)/n. Podem-se incorporar pesos a priori na fórmula (5.4). A desvantagem
do resı́duo de Pearson é que sua distribuição é, geralmente, bastante assimétrica
para modelos não-normais. Cordeiro (2004b) apresenta expressões para a média e a
variância de riP válidas até ordem n−1 .
c) Resı́duos de Anscombe
Anscombe (1953) apresenta uma definição geral de resı́duos, usando uma
transformação N (yi ) da observação yi , escolhida visando tornar a sua distribuição o
mais próxima possı́vel da distribuição normal. Barndorff-Nielsen (1978) demonstra
∫
que, para os MLG, N (.) é calculada por N (µ) = V −1/3 dµ. Como N ′ (µ)(V /ϕ)1/2 é
a aproximação de primeira ordem do desvio padrão de N (y), o resı́duo de Anscombe,
visando à normalização e à estabilização da variância, é expresso por
N (yi ) − N (µ̂i )
Ai = 1/2
. (5.5)
N ′ (µ̂i )V̂i
Da definição do resı́duo de Anscombe, conclui-se que a transformação apli-
cada aos dados para normalizar os resı́duos é a mesma que aplicada às médias das
observações normaliza a distribuição de β̂ (vide equação (??), caso δ = 2/3).
Para os modelos de Poisson, gama e normal inverso, os resı́duos de
Anscombe são, facilmente, calculados da equação (5.5) como 3(y 2/3 − µ̂2/3 )/(2µ̂1/6 ),
3(y 1/3 − µ̂1/3 )/µ̂1/3 e (log y − log µ̂)/µ̂1/2 , respectivamente. Para o modelo binomial
1/2
B(m, µ), a equação (5.5) reduz-se a Ai = mi [N (yi ) − N (µ̂i )]/[µ̂i (1 − µ̂i )]1/6 , em
∫
que N (µ) = [µ(1 − µ)]−1/3 dµ. Cox e Snell (1968) calculam esse resı́duo, usando a
função beta incompleta.
d) Resı́duos de Pearson estudentizados

′ yi − µ̂i
riP = √ , (5.6)
V (µ̂i )(1 − ĥii )
sendo hii o i-ésimo elemento da diagonal da matriz definida em (5.1). Os resı́duos

estudentizados (5.6) têm, aproximadamente, variância igual a um quando o
parâmetro de dispersão ϕ → 0.
e) Componentes do desvio
Os resı́duos podem, também, ser definidos como iguais às raı́zes quadradas
dos componentes do desvio com o sinal igual ao sinal de yi − µ̂i . Tem-se,
√
riD = sinal(yi − µ̂i ) 2[v(yi ) − v(µ̂i ) + q(µ̂i )(µ̂i − yi )]1/2 , (5.7)
em que a função v(x) = xq(x) − b(q(x)) é expressa em termos das funções b(.) e q(.)
definidas na Seção 1.3.
O resı́duo riD representa uma distância da observação yi ao seu valor ajus-
tado µ̂i , medida na escala do logaritmo da função de verossimilhança. Tem-se
∑ n
2
Dp = riD . Um valor grande para riD indica que a i-ésima observação é mal ajus-
i=1
tada pelo modelo. Pregibon (1979) demonstra que, se existe uma transformação hi
que normaliza a distribuição do resı́duo Ri = hi (yi , µ̂i ), então as raı́zes quadradas dos
componentes do desvio são resı́duos que exibem as mesmas propriedades induzidas
por essa transformação. Assim, os resı́duos riD podem ser considerados, aproximada-
2
mente, como variáveis aleatórias normais reduzidas e, consequentemente, riD como
tendo, aproximadamente, uma distribuição χ21 .
Para os modelos de Poisson, gama, binomial e normal inverso, os
resı́duos definidos como as raı́zes quadradas dos componentes do desvio, têm
as formas respectivas: δ {2 [y log(y/µ̂) + µ̂ − y]}1/2 , δ {2[log(µ̂/y) + (y − µ̂)/µ̂]}1/2 ,
δ (2m{y log(y/µ̂) + (1 − y) log[(1 − y)/(1 − µ̂)]})1/2 e (y − µ̂)/(y 1/2 µ̂), em que δ re-
presenta o sinal de (y − µ̂).
As vantagens dos resı́duos (5.7) são: a) não requerem o conhecimento
da função normalizadora; b) computação simples após o ajuste do MLG; c) são
definidos para todas as observações e, mesmo para observações censuradas, desde
que essas contribuam para o logaritmo da função de verossimilhança.
f) Componentes do desvio estudentizados
′ rD
riD = √ i .
1 − ĥii
′
Os resı́duos riD são definidos a partir da equação (5.7). Os resı́duos de
Pearson, de Anscombe e componentes do desvio, expressos em (5.4), (5.5) e (5.7),
respectivamente, são os mais importantes nas aplicações dos MLG.
No modelo normal, nenhuma distinção é feita entre esses três tipos de
resı́duos. Para modelos bem ajustados, as diferenças entre riD e riP devem ser pe-
quenas. Entretanto, para os modelos mal-ajustados e/ou para observações aber-
rantes, podem ocorrer diferenças consideráveis entre esses resı́duos. Embora os
resı́duos, definidos por (5.5) e (5.7), apresentem formas bem diferentes para mo-
delos não-normais, os seus valores, especificados y e µ̂, são similares. Admite-se que
µ̂ = cy, em que c é um real qualquer. Seja A/D o quociente entre o resı́duo de
Anscombe (A) e aquele definido como a raiz quadrada do componente do desvio
(D). Para os modelos de Poisson, gama e normal inverso, esse quociente é igual
√ √
a 3δ(1 − c2/3 )/(2 2)c1/6 (c − 1 − log c)1/2 , 3δ(1 − c1/3 )c1/6 / 2(c log c + 1 − c)1/2 e
c1/2 log c/(c − 1), respectivamente, em que δ = +1(−1) quando c < 1(> 1).
A Tabela 5.1 apresenta valores do quociente A/D para esses três modelos.
Dessa tabela, conclui-se que esses dois resı́duos são, aproximadamente, equivalentes.
Essa equivalência poderia ainda ser determinada por expansões em série de Taylor.
McCullagh e Nelder (1989) comparam os resı́duos de Pearson, de Anscombe e como
componentes do desvio para o modelo de Poisson.
Tabela 5.1: Relação A/D entre o resı́duo de Anscombe e o definido como a raiz
quadrada do componente do desvio, para três modelos.
c Poisson gama normal inverso

0,1 1,0314 0,9462 0,8090
0,2 1,0145 0,9741 0,8997
0,4 1,0043 0,9918 0,9658
0,6 1,0014 0,9977 0,9892
0,8 1,0010 0,9994 0,9979
2,0 1,0019 0,9958 0,9802
3,0 1,0048 0,9896 0,9514
5,0 1,0093 0,9790 0,8997
10,0 1,0169 0,9598 0,8090
Definindo-se uma distribuição teórica conveniente para os resı́duos, podem-

se aplicar as diversas técnicas analı́ticas e gráficas para detectar desvios do modelo
sob pesquisa.
5.4.2 Tipos de gráficos

São basicamente os mesmos gráficos apresentados na Seção 5.3.3 com algu-
mas modificações e com interpretações semelhantes.
a) Resı́duos versus alguma função dos valores ajustados
′
É recomendado o gráfico de algum tipo de resı́duo estudentizado (riP ou
′
riD ) versus η̂i , ou então, versus os valores ajustados transformados de tal forma
a se ter variância constante para a distribuição em uso. Assim, usar, no eixo das
√ √
abscissas, µ̂i para a distribuição normal, 2 µ̂i para a Poisson, 2arcsen µ̂i /mi para
−1/2
a binomial, 2 log(µ̂i ) para a gama e −2µ̂i para a normal inversa. O padrão
nulo desse gráfico é uma distribuição dos resı́duos em torno de zero com amplitude
constante. Desvios sistemáticos podem apresentar algum tipo de curvatura ou,
então, mudança sistemática da amplitude com o valor ajustado.
b) Resı́duos versus variáveis explanatórias não incluı́das

Esse gráfico pode mostrar se existe uma relação entre os resı́duos do modelo
ajustado e uma variável ainda não incluı́da no modelo. Uma alternativa melhor
para esse tipo de gráfico é o gráfico da variável adicionada (added variable plot). O
padrão nulo desse gráfico é uma distribuição dos resı́duos em torno de zero com
amplitude constante.
c) Resı́duos versus variáveis explanatórias já incluı́das

Esse gráfico pode mostrar se ainda existe uma relação sistemática entre
os resı́duos e uma variável que está incluı́da no modelo. Uma alternativa me-
lhor é o gráfico de resı́duos parciais (partial residual plot). O padrão nulo para
esse tipo de gráfico é uma distribuição aleatória de média zero e amplitude constante.
d) Gráfico da variável adicionada ou da regressão parcial (added

variable plot)
Inicialmente, ajusta-se o modelo com preditor linear η = Xβ. Em seguida,
c −1/2 s versus (I − H)
faz-se o gráfico de W b Wc 1/2 u, sendo s o vetor com elementos
estimados por
(yi − µ̂i ) d
dµi
si =
V (µ̂i ) dηi
e u o vetor com os valores da variável a ser adicionada (Wang, 1985). Aqui
c −1/2 s representa o vetor de elementos (yi − µ̂i )V (µ̂i )−1/2 (resı́duo de Pear-
W
son generalizado da regressão ponderada de y em relação a X com matriz de
c e (I − H)
pesos estimada W) b Wc 1/2 u representa os resı́duos da regressão ponder-
c O padrão nulo para
ada de u em relação a X com matriz de pesos estimada W.
esse tipo de gráfico é uma distribuição aleatória de média zero e amplitude constante.
e) Gráfico de resı́duos parciais ou gráfico de resı́duos mais compo-

nente (partial residual plot)
Inicialmente, ajusta-se o MLG com preditor linear η = Xβ +γu, obtendo-se
c −1 s e γ̂. Em seguida, faz-se o gráfico de W
W c −1 s + γ̂u versus u (Wang, 1987). O
padrão nulo desse gráfico é linear com coeficiente angular γ̂ se a escala da variável
u está adequada. A forma desse gráfico pode sugerir uma escala alternativa para u.
f) Gráficos de ı́ndices
Servem para localizar observações com resı́duo, leverage (hii ), distância de
Cook modificada, etc, grandes.
g) Gráficos normal e semi-normal de probabilidades (normal plots e

half normal plots)
Esses gráficos são construı́dos da mesma maneira que para o modelo clássico
de regressão, usando-se, porém, a distribuição pertinente.
h) Valores observados ou resı́duos versus tempo

Mesmo que o tempo não seja uma variável incluı́da no modelo, gráficos de
valores observados (y) ou de resı́duos versus tempo devem ser construı́dos sempre
que possı́vel. Esse tipo de gráfico pode conduzir à detecção de padrões concebidos
a priori, devido ao tempo ou, então, a alguma variável muito correlacionada com o
tempo.
5.4.3 Resı́duos de Pearson estudentizados

Na expressão geral dos resı́duos Ri = hi (yi , µ̂i ), em (5.3), a função hi deve
ser escolhida visando a satisfazer as propriedades de segunda ordem: E(Ri ) = 0 e
Var(Ri ) = constante. Cox e Snell (1968) apresentam fórmulas gerais para E(Ri ),
Cov(Ri , Rj ) e Var(Ri ) até termos de ordem n−1 , válidas para qualquer função hi
especificada. Essas fórmulas possibilitam calcular resı́duos modificados cujas dis-
tribuições são melhor aproximadas pelas distribuições de probabilidade de referência.
Cordeiro (2004b) segue os resultados de Cox e Snell para calcular expressões
matriciais aproximadas, até ordem n−1 , para os valores esperados, variâncias e co-
variâncias dos resı́duos de Pearson, válidas para qualquer MLG. Essas expressões
dependem das funções de ligação e de variância e de suas duas primeiras derivadas.
Demonstra-se, a seguir, que os resı́duos de Pearson têm estrutura de co-
variância igual, aproximadamente, à matriz de projeção do MLG, introduzida na
Seção 5.4.1, I − H = I − W1/2 ZW1/2 , em que Z = X(XT WX)−1 XT é a covariância
assintótica de η̂. Essa aproximação não está correta até termos de ordem O(n−1 )
(Cordeiro, 2004b).
O algoritmo (3.5) de ajuste do MLG avaliado na EMV β̂ implica em
c −1 XT Wẑ,
β̂ = (XT WX) c
b − µ̂). Logo, da definição da matriz Z, tem-se

sendo ẑ = η̂ + G(y
b W)ẑ.
ẑ − η̂ = (I − Z c
Supondo que Z e W são tais que, aproximadamente, pelo menos o produto

bW
Z c é constante, pode-se escrever
Cov(ẑ − η̂) ≈ (I − ZW)Cov(ẑ)(I − ZW)T
e como Cov(ẑ) = W−1 , tem-se
Cov(ẑ − η̂) ≈ W−1/2 (I − H)W−1/2 ,

em que H2 = I − W1/2 ZW1/2 . Logo,
c 1/2 (ẑ − η̂)] ≈ H2 .

Cov[W
c 1/2 (ẑ − η̂) é igual a V

A expressão W b −1/2 (y − µ̂), em que V =
diag{V1 , . . . , Vn }, e representa o vetor cujos componentes são iguais aos resı́duos

de Pearson (5.4) e, então, a demonstração está concluı́da. Convém enfatizar que os
c 1/2 (ẑ − η̂)] está
resultados de Cordeiro (2004b) mostram que a expressão de Cov[W
correta até ordem n−1 para os elementos fora da diagonal, mas não para os elementos
da diagonal.
A conclusão prática importante é que para uma análise mais cuidadosa dos
gráficos i’), i”), i”’) e iv’), descritos na Seção 5.4.1, devem-se usar os resı́duos de
′
Pearson estudentizados riP definidos na equação (5.6), em que o denominador é
[V (µ̂i )(1 − ĥii )]1/2 ao invés de V (µ̂i )1/2 .
Nos casos em que as variáveis explanatórias apresentam configurações irregu-

′
lares, o uso dos resı́duos riP é fundamental. Essa correção, também, será importante
′
para identificar observações aberrantes. Em geral, no gráfico de riP versus 1 − hii
observam-se, facilmente, observações com grandes resı́duos e/ou variâncias pequenas
e, portanto, esse gráfico pode ajudar na identificação de dados aberrantes.
′
Os resı́duos riP apresentam propriedades razoáveis de segunda ordem mas
podem ter distribuições bem diferentes da distribuição normal. Por essa razão, os
resı́duos definidos em (5.6) como as raı́zes quadradas dos componentes do desvio po-
dem ser preferidos nos gráficos de resı́duos versus pontos percentuais da distribuição
normal padrão. Pregibon (1979) propõe, também, o uso do mesmo fator de correção
(1 − ĥii )1/2 para os resı́duos riD , isto é, sugere trabalhar com as raı́zes quadradas dos
componentes do desvio divididas por (1 − ĥii )1/2 , ou seja, com os componentes do
desvio estudentizados definidos na Seção 5.4.1 (item e). Entretanto, a adequação da
′
distribuição normal para aproximar a distribuição de riD ainda é um problema a ser
pesquisado.
5.5 Verificação da função de ligação
Um método informal para verificar a adequação da função de ligação usada

é o gráfico da variável dependente ajustada estimada ẑ versus o preditor linear es-
timado η̂. O padrão nulo é uma reta. O gráfico da variável adicionada, também,
pode ser usado, considerando-se u = η̂ ⊗ η̂, sendo que o padrão nulo indicará que a
função de ligação usada é adequada.
Para funções de ligação na famı́lia potência, uma curvatura para cima no

gráfico indica que deve ser usada uma função de ligação com expoente maior, en-
quanto que uma curvatura para baixo indica um expoente menor. Esse tipo de
gráfico não é adequado para dados binários.
Existem dois métodos formais para verificar a adequacidade da função de

ligação utilizada:
i) o mais simples consiste em se adicionar u = η̂ ⊗ η̂ como uma variável

explanatória extra e examinar a mudança ocorrida no desvio, o que equivale ao teste
da razão de verossimilhanças. Se ocorrer uma diminuição drástica há evidência de
que a função de ligação é insatisfatória. Pode-se usar, também, o teste escore;
ii) outro método formal consiste em indexar a famı́lia de funções de ligação

por um parâmetro λ e fazer um teste da hipótese H0 : λ = λ0 , usando-se os testes
da razão de verossimilhanças e escore. Incerteza sobre a função de ligação é mais
comum com dados contı́nuos que têm distribuição gama e com proporções cujo
número de sucessos segue a distribuição binomial. Assim, por exemplo, para obser-
vações com distribuição gama, pode-se usar a famı́lia de funções de ligação η = µλ .
Para dados com distribuição binomial, pode-se usar a famı́lia de funções de ligação
η = log [(1 − π)−λ − 1]/λ de Aranda-Ordaz (1981) que tem como casos especiais a
função de ligação logı́stica para λ = 1 e a complemento log-log quando λ → 0. Em
geral, usa-se o método do logaritmo da função de verossimilhança perfilada para se
estimar λ. Para o modelo clássico de regressão, esse teste equivale ao teste proposto
por Tukey (1949) para não-aditividade.
A verificação da adequação da função de ligação é, inevitavelmente, afetada
pela falha em estabelecer escalas corretas para as variáveis explanatórias no preditor
linear. Em particular, se o teste formal construı́do pela adição de η̂ ⊗ η̂ ao preditor
linear produz uma redução significativa no desvio do modelo, isso pode indicar
uma função de ligação errada ou escalas erradas para as variáveis explanatórias ou
ambas. Observações atı́picas, também, podem afetar a escolha da função de ligação.
Exemplo 5.1: Seja a função de ligação g0 (µ) = g(µ, λ0 ) = Xβ, incluı́da em uma
famı́lia paramétrica g(µ, λ), indexada pelo parâmetro escalar λ, por exemplo,


 µ −1
λ
λ ̸= 0
g(µ, λ) = λ (5.8)

 log(µ) λ=0
que inclui as funções de ligação identidade, logarı́tmica etc, ou então, a famı́lia de

Aranda-Ordaz, 
 1 − (1 + λeη )− λ1 λeη > −1
µ=
 1 c.c.
que inclui as funções de ligação logı́stica, complemento log-log etc.
A expansão de Taylor para g(µ, λ) ao redor de um valor conhecido λ0 , produz
g(µ, λ) ≃ g(µ, λ0 ) + (λ − λ0 )u(λ0 ) = Xβ + γu(λ0 ),

∂g(µ, λ)
em que u(λ0 ) = .
∂λ λ=λ0
De uma forma geral, usa-se u = η̂ ⊗ η̂, cuja justificativa é mostrada a seguir,

como variável adicionada ao preditor linear do modelo para o teste de adequação da
função de ligação de um MLG.
Suponha que a função de ligação considerada é η = g(µ) e que a função de
ligação verdadeira seja g ∗ (µ). Então,
g(µ) = g[g ∗ −1 (η)] = h(η).
A hipótese nula é H0 : h(η) = η e a alternativa é H : h(η) = não linear.

Fazendo-se a expansão de g(µ) em série de Taylor, tem-se
′ h′′ (0)
g(µ) ≃ h(0) + h (0)η + η⊗η
2
e, então, a variável adicionada é η̂ ⊗ η̂, desde que o modelo tenha termos para o
qual a média geral seja marginal.
Exemplo 5.2: Considere os dados do Exemplo 2.1. A variável resposta tem dis-
tribuição binomial, isto é, Yi ∼ B(mi , πi ). Adotando-se a função de ligação logı́stica
(canônica) e os preditores lineares expressos por
( )
µi
ηi = log = β1 + β2 di ,
mi − µ i
e
( )
µi
ηi = log = β1 + β2 di + γui ,
mi − µi
sendo ui = η̂i2 , usa-se a diferença de desvios para testar a adequação da função de
ligação, obtendo-se os resultados da Tabela 5.2. Verifica-se que se rejeita a hipótese
nula H0 : γ = 0, ao nı́vel de 5% de significância, indicando que a função de ligação
logı́stica não é adequada. A estimativa para γ é γ̂ = −0, 2087 com erro padrão
0,0757.
Tabela 5.2: Análise de desvio e teste da função de ligação para os dados do Exemplo
2.1.
Causa de variação g.l. Desvio Valor de p

Função de ligação 1 9,185 0,0024
Novo Resı́duo 3 1,073
(Resı́duo) 4 10,260 0,0527
Total 5 163,740
Fazendo-se uma análise de resı́duos, verifica-se que a primeira observação é
discrepante. Eliminando-a e refazendo-se o teste para a função de ligação, a hipótese
nula H0 : γ = 0 não é rejeitada, indicando a adequação da função de ligação logı́stica.
Tem-se, então, γ̂ = 0, 0757 com erro padrão 0,086 e,
( )
µ̂i
ηi = log = −3, 5823 + 0, 7506di .
mi − µ̂i
5.6 Verificação da função de variância
Um método informal para verificar a adequação da função de variância (que

é definida ao se escolher uma determinada distribuição) é o gráfico dos resı́duos
absolutos versus os valores ajustados transformados em uma escala com variância
constante, vide Seção 5.4.2, item a. O padrão nulo para esse tipo de gráfico é uma
distribuição aleatória de média zero e amplitude constante. A escolha errada da
função de variância mostrará uma tendência na média. Em geral, a não adequação
da função de variância será considerada como superdispersão (Hinde e Demétrio,
1998a,b).
Um método formal para verificar a adequação da função de variância consiste

em indexar essa função por um parâmetro λ e fazer um teste de hipótese H0 : λ = λ0 ,
usando-se os testes da razão de verossimilhanças e escore. Assim, por exemplo, pode-
se usar V (µ) = µλ e observar como o ajuste varia em função de λ. Em geral, usa-se
o logaritmo da função de verossimilhança perfilada para se estimar λ.
Para se compararem ajustes de modelos com diferentes funções de variância,

o desvio não pode ser usado, e há necessidade de se usar a teoria de quase verossi-
milhança estendida, que será discutida na Seção ??.
A verificação da adequação da função de variância é, inevitavelmente, afe-

tada pela falha em estabelecer escalas corretas para as variáveis explanatórias no
preditor linear, escolha errada da função de ligação e observações atı́picas.
5.7 Verificação das escalas das variáveis ex-

planatórias
O gráfico de resı́duos parciais é uma ferramenta importante para saber se um
termo βx no preditor linear pode ser melhor expresso como βh(x; λ) para alguma
função monótona h(.; λ). Nos MLG, o vetor de resı́duos parciais (ou resı́duos +
componente) é especificado por
r̃ = ẑ − η̂ + γ̂x,
sendo ẑ a variável dependente ajustada estimada, η̂ o preditor linear estimado e γ̂ a

estimativa do parâmetro referente à variável explanatória x.
O gráfico de r̃ versus x conduz a um método informal. Se a escala de x é
satisfatória, o gráfico deve ser, aproximadamente, linear. Se não, sua forma pode
sugerir um modelo alternativo. Poderão, entretanto, ocorrer distorções se as escalas
das outras variáveis explanatórias estiverem erradas e, então, pode ser necessário
analisar gráficos de resı́duos parciais para diversos x’s.
Um método formal consiste em colocar x em uma famı́lia h(.; λ) indexada
por λ; calcular, então, o logaritmo da função de verossimilhança maximizada para um
conjunto de valores de λ e determinar λ̂ como aquele valor que conduz a um logaritmo
da função de verossimilhança maximal (método da verossimilhança perfilada). O
ajuste para λ̂ será, então, comparado com o ajuste para a escolha inicial λ0 que,
em geral, é um. Esse procedimento pode ser usado para vários x’s simultaneamente
e é, particularmente, útil quando se têm as mesmas dimensões fı́sicas, tal que seja
necessária uma transformação comum. A famı́lia mais comum de transformações
é a famı́lia de Box e Cox (1964) expressa por h(x; λ) = (xλ − 1)/λ, se λ ̸= 0, e
h(x; λ) = log(x), se λ = 0.
Um método informal para o estudo de uma única variável explanatória

implica na forma u(λ0 ) = dh(µ, λ)/dλλ=λ0 que é, então, usada como variável
adicional para o teste de adequação da escala usada para a variável explanatória
de interesse. Pode-se, então, fazer o gráfico de resı́duos parciais, como descrito na
Seção 5.4.2, item e). Essa mesma variável u construı́da pode ser usada como uma
variável adicional no modelo para o teste da hipótese H0 : λ = λ0 (o que equivale ao
teste de H0 : γ = 0) que, se não rejeitada, indicará a adequação da escala escolhida
para a variável explanatória de interesse.
Exemplo 5.3: Transformação para a variável dependente

Seja a famı́lia de transformações de Box-Cox normalizada
 λ
 y −1 +ϵ

λ ̸= 0
z(λ) = Xβ + ϵ = λẏ λ−1

 ẏ log(y) + ϵ λ = 0,
sendo ẏ a média geométrica das observações. A expansão de z(λ) em série de Taylor

em relação a λ0 , suposto conhecido, é
z(λ) ≈ z(λ0 ) + (λ − λ0 )u(λ0 ),

dz(λ)
sendo u(λ0 ) = . Então, o modelo linear aproximado é
dλ λ=λ0
z(λ0 ) = z(λ) − (λ − λ0 )u(λ0 ) = Xβ + γu + ϵ.

yλ − 1
Mas z(λ) = + ϵ e, portanto,
λẏ λ−1
dz(λ) yλ log(y) − (yλ − 1)[λ−1 + log (ẏ)]

u(λ) = = .
dλ λẏ λ−1
O interesse, em geral, está em testar alguns valores de λ, tais como λ0 = 1
(sem transformação) e λ0 = 0 (transformação logarı́tmica). Desde que são necessários
apenas os resı́duos de u(λ), então, constantes podem ser ignoradas se β contém uma
constante. Então,[ ( ) ]
y
u(1) = y log − 1 , variável construı́da para testar se λ0 = 1
ẏ
e [ ]
log(y)
u(0) = ẏ log(y) − log(ẏ) , variável construı́da para testar se λ0 = 0.
2
Como −γ = λ − λ0 , tem-se que uma estimativa para λ pode ser obtida
como λ̂ = λ0 − γ̂. Usa-se, em geral, um valor para λ próximo de λ̂ que tenha uma
interpretação prática.
Exemplo 5.4: Transformação para as variáveis explanatórias

Se em lugar de transformar y houver necessidade de transformar xk , tem-se
que o componente sistemático mais amplo é especificado por
∑
E(Y) = β0 + βj xj + βk xλk .
j̸=k
A expansão de z(λ) em série de Taylor em relação a λ0 , suposto conhecido, é

dz(λ)
z(λ) ≈ z(λ0 ) + (λ − λ0 ) .
dλ λ=λ0
Então,
∑ ∑
z(λ) ≈ β0 + βj xj +βk xλk 0 +βk (λ−λ0 )xλk 0 log(xk ) = β0 + βj xj +βk xλk 0 +γu(λ0 ),
j̸=k j̸=k
pois dz(λ)/dλ = βk xλk log(xk ). Portanto, testar λ = λ0 é equivalente a testar γ = 0

para a regressão com a variável construı́da ux (λ0 ) = xλk 0 log(xk ) com xλk 0 incluı́da no
modelo. Para λ0 = 1, tem-se
∑
E(Y) = β0 + βj xj + βk xk + βk (λ − 1)xk log(xk ) = Xβ + γux ,
j̸=k
sendo ux = xk log(xk ) e γ = βk (λ − 1). Portanto, faz-se a regressão de Y em

relação a todos os xj , j = 1, . . . , p − 1, e a ux = xk log(xk ). Rejeita-se H0 : λ = 1
se t = γ̂/se(γ̂) > tn−p−1,γ/2 e, nesse caso, mostra-se que a escala das observações
não está adequada. A contribuição de observações individuais pode ser examinada,
usando-se o gráfico da variável adicionada.
Exemplo 5.5: Transformação simultânea para as variáveis resposta e ex-

planatórias
Para a transformação simultânea da variável resposta e das p − 1 variáveis
explanatórias (exceto a constante 1λ = 1), o modelo para um vetor de p parâmetros
λ = (λ1 , . . . , λp )T é
∑
p−1
λ
z(λp ) = β0 + βj xj j + ϵ. (5.9)
j=1
Na equação (5.9) cada variável, incluindo a variável resposta, pode ter um parâmetro
de transformação diferente. De forma semelhante aos Exemplos 5.3 e 5.4, a expansão
de Taylor desse modelo ao redor de um λ0 comum, suposto conhecido, é
∑
p−1
∑
p−1
z(λ0 ) = β0 − (λp − λ0 )u(λ0 ) + βj xλj 0 + (λj − λ0 )βj xλj 0 log(xj ) + ϵ.
j=1 j=1
Para o caso de λ0 = 1, tem-se

[ p−1 ]
∑
p−1
∑
z(λ0 ) = β0 + βj xj + γ βj xj log(xj ) − u(1) + ϵ,
j=1 j=1
sendo γ = λ − 1 e definindo a variável construı́da por
∑
p−1 [ ( ) ]
y
uxy (1) = β0 + β̂j xj log(xj ) − y log −1
j=1
ẏ
usando-se as estimativas β̂j de mı́nimos quadrados do modelo sem transformação no

lugar dos βj . Rejeita-se H0 : λ = 1 se t = γ̂/se(γ̂) > tn−p−1,γ/2 e, nesse caso, mostra-
se que a escala das observações e das variáveis explanatórias não está adequada. A
contribuição de observações individuais pode ser examinada, usando-se o gráfico da
variável adicionada.
5.8 Verificação de anomalias no componente sis-

temático, usando-se análise dos resı́duos
Considera-se um MLG com distribuição na famı́lia (1.5) e componente sis-
temático g(µ) = Xβ. As possı́veis anomalias no componente aleatório do modelo
podem ser descobertas pelos gráficos i’), ii’) e iii’) descritos na Seção 5.4.1, desde que
os resı́duos sejam definidos apropriadamente. Nesta seção, apresenta-se uma técnica
geral para verificar anomalias no componente sistemático do modelo definido pelas
equações (2.5) e (2.6).
Considera-se que o componente sistemático correto contém uma variável
explanatória z adicional (Seção 4.9) e um parâmetro escalar γ, isto é,
g(µ) = Xβ + h(z; γ), (5.10)
em que h(z; γ) pode representar:
a) um termo adicional em uma ou mais variáveis explanatórias originais, por

exemplo: h(z; γ) = γx2j ou h(z; γ) = γxj xk ;
b) uma contribuição linear ou não-linear de alguma variável explanatória omitida,

por exemplo: h(z; γ) = γz ou h(z; γ) = zγ .
O objetivo é definir resı́duos modificados R̃ para o modelo ajustado g(µ) =

Xβ tais que E(R̃) = h(z; γ). Se isso acontecer, um gráfico de R̃ versus z, desprezando
a variação aleatória, exibirá a função h(z; γ).
Para fixar ideias, considere o modelo normal linear e os resı́duos ordinários
usuais: R = y − µ̂ = [I − X(XT X)−1 XT ]y = (I − H)y. Supondo que o componente
sistemático correto é (5.10), tem-se R = (I − H)[Xβ + h(z; γ) + ε], em que ε é um
ruı́do branco. Como X é ortogonal a I−H, tem-se R = (I−H)h(z; γ)+ε e, portanto,
E(R) = (I − H)h(z; γ). Assim, um gráfico de R versus z não apresentará nenhuma
semelhança com h(z; γ). Entretanto, se h(z; γ) for, aproximadamente, linear, um
gráfico de R versus (I − H)z poderá ser usado. A declividade da reta de mı́nimos
quadrados ajustada aos pontos desse gráfico proporcionará uma estimativa de γ no
modelo (5.10). Se a declividade for próxima de zero, o modelo g(µ) = Xβ poderá
ser aceito ao invés de (5.10).
Para o modelo normal linear, supondo h(z; γ), aproximadamente, linear,
Larsen e McCleary (1972) definem resı́duos parciais por
e = y − µ̂ + γ̂Hz = (I − H)y + γ̂Hz,

R (5.11)
em que γ̂ é a estimativa de mı́nimos quadrados de γ baseada na regressão de y − µ̂

sobre a matriz (I − H)z, isto é, γ̂ = [zT (I − H)z]−1 zT (I − H)(y − µ̂), com z =
(z1 , . . . , zn )T .
Pode-se demonstrar que os resı́duos parciais (5.11) podem ser expressos como
combinações lineares dos resı́duos y − µ̂ e, também, como combinações lineares das
observações y.
Ainda, no modelo normal linear, a noção de resı́duos parciais pode ser es-
tendida para determinar se variáveis explanatórias, com contribuições não-lineares,
estão omissas no componente sistemático do modelo. Suponha, agora, que γ
seja um vetor de parâmetros. Isso é possı́vel, desde que a função h(z; γ) possa
ser aproximada por um polinômio de grau baixo, isto é, h(z; γ) ≈ Tγ, em que
T = T(z) = (z, z(2) , z(3) . . .) com z(i) = (z1i , . . . , zni )T .
Com essa aproximação, definem-se os resı́duos aumentados de Andrews e
Pregibon (1978), por uma expressão análoga a (5.11),
e = y − µ̂ + HTγ̂ = (I − H)y + HTγ̂,

R (5.12)
em que γ̂ é a estimativa de mı́nimos quadrados de γ na regressão linear de y − µ̂

sobre (I − H)T, isto é, γ̂ = [TT (I − H)T]−1 TT (I − H)(y − µ̂).
e = Tγ ≈ h(z; γ) e, portanto, exceto por variações aleatórias,
Tem-se E(R)
e versus z poderá exibir a forma da função h(z; γ).
um gráfico de R
Para os MLG os resı́duos aumentados podem ser definidos a partir de
resı́duos medidos na escala linear
b W)ẑ.
R = ẑ − η̂ = (I − Z c (5.13)
Essa expressão foi introduzida na Seção 5.4.3. Aqui, estima-se γ ajustando o modelo
aumentado g(µ) = Xβ + Tγ aos dados. Isso determinará opções de aperfeiçoamento
da estrutura linear do modelo. O ajuste de polinômios de graus elevados é, numeri-
camente, bastante instável, sendo melhor considerar no máximo T = (z, z(2) , z(3) ).
b W)(X
Tem-se R = (I − Z c b W)(Tγ̂
β̂ + Tγ̂ + ε) = (I − Z c + ε) e, portanto, os
resı́duos aumentados nos MLG são expressos por
e =R+Z
R b WTγ̂
c (5.14)
e têm valores esperados próximos de h(z; γ). Na fórmula (5.14) as estimativas de Z

e W são segundo o modelo reduzido g(µ) = Xβ.
A expressão (5.12) é um caso especial de (5.14) quando W é igual à matriz
e versus z poderá indicar se essa variável explanatória
identidade. Um gráfico de R
deve estar incluı́da no modelo e, se isso acontecer, poderá ainda sugerir a forma de
inclusão. Não se devem comparar os resı́duos aumentados em (5.14) com os resı́duos
ordinários R, pois os primeiros são baseados no ajuste do modelo aumentado.
A análise gráfica dos resı́duos aumentados pode ser bastante útil nos estágios
preliminares de seleção de variáveis explanatórias, quando se têm muitas dessas
variáveis para serem consideradas. A formação do componente sistemático pode
ser feita, passo a passo, com a introdução de uma única variável explanatória, a cada
passo, pelo método descrito.
Para determinar a contribuição de uma variável explanatória xi =
(xi1 , . . . , xin )T da própria matrix X no ajuste do modelo reduzido g(µ) = Xβ aos
dados, pode-se trabalhar com os resı́duos parciais generalizados
vi = ẑi − η̂i + β̂j xij . (5.15)
Os resı́duos (5.15), descritos na Seção 5.7, são muito mais simples de serem
computados do que os resı́duos aumentados definidos em (5.14).
5.9 Exercı́cios
1. Comparar os resı́duos de Anscombe, Pearson e como raiz quadrada do componente
do desvio, para o modelo de Poisson. Como sugestão supor µ̂ = cy e variar c, por
exemplo, 0(0.2)2(0.5)10. Fazer o mesmo para os modelos binomial, gama e normal
inverso.
2. Definir os resı́duos de Anscombe, Pearson e como raiz quadrada do componente

do desvio para o modelo binomial negativo, comparando-os em algum modelo.
3. Seja um MLG com estrutura linear ηi = α + βxi + xγi e função de ligação g(.)
conhecida.
(a) Formular, por meio da função desvio, critérios para os seguintes testes: H1 : γ =
γ (0) versus H1′ : γ ̸= γ (0) ; H2 : β = β (0) , γ = γ (0) versus H2′ : β ̸= β (0) , γ = γ (0) e
versus H2′′ : β ̸= β (0) , γ ̸= γ (0) ; H3 : β = β (0) versus H3 : β ̸= β (0) ;
(b) como obter um intervalo de confiança para γ usando a função desvio?
(c) se a função de ligação dependesse de um parâmetro λ desconhecido, como deter-
minar critérios para os testes citados?
4. Os dados da Tabela 7.29 (Ryan et al., 1976, p. 329) do Apêndice A.1 referem-se a
medidas de diâmetro a 4,5 pés acima do solo (D, polegadas) e altura (H, pés) de 21
cerejeiras (black cherry) em pé e de volume (V , pés cúbicos) de árvores derrubadas.
O objetivo desse tipo de experimento é verificar de que forma essas variáveis estão
relacionadas para poder predizer o volume de madeira em uma área de floresta
(Allegheny National Forest), usando medidas nas árvores em pé. Pede-se:
a) fazer os gráficos de variáveis adicionadas para H e D;
b) fazer os gráficos de resı́duos parciais para H e D;
c) fazer as transformações LV = log(V ), LH = log(H) e LD = log(D) e repetir os

gráficos dos itens (a) e (b);
d) verificar se existem pontos discrepantes em ambas as escalas;

e) usando
∑
p [ ( ) ]
y
u(1) = β̂j xj log(xj ) − y log −1 ,
j=2
ẏ
obtido como no Exemplo 5.5 da Seção 5.7, como variável adicionada, verifique que
há necessidade da transformação simultânea de V , H e D.
5. Os dados da Tabela 5.3 referem-se à mortalidade de escaravelhos após 5 h de

exposição a diferentes doses de bissulfeto de carbono (CS 2 ). Pede-se:
Tabela 5.3: Número de insetos mortos (yi ) de mi insetos após 5 h de exposição a

diferentes doses de CS 2 .
log(Dose) (di ) mi yi
1,6907 59 6
1,7242 60 13
1,7552 62 18
1,7842 56 28
1,8113 63 52
1,8369 59 53
1,8610 62 61
1,8839 60 60
a) ajuste o modelo logı́stico linear e faça o teste para a função de ligação;

b) ajuste o modelo complemento log-log e faça o teste para a função de ligação;
c) faça o gráfico da variável adicionada para os itens a) e b);
d) verifique se há necessidade de transformação para a variável dose usando o gráfico
de resı́duos parciais.
6. Os dados da Tabela 5.4 (Phelps, 1982) são provenientes de um experimento

casualizado em três blocos em que foram usadas como tratamentos oito doses de um
inseticida fosforado e foram contadas quantas (y) cenouras estavam danificadas de
totais de m cenouras.
Tabela 5.4: Número de cenouras danificadas (yi ) de mi cenouras (Phelps, 1982).

log(Dose) Bloco I Bloco II Bloco III
di mi yi mi yi mi yi
1,52 10 35 17 38 10 34
1,64 16 42 10 40 10 38
1,76 8 50 8 33 5 36
1,88 6 42 8 39 3 35
2,00 9 35 5 47 2 49
2,12 9 42 17 42 1 40
2,24 1 32 6 35 3 22
2,36 2 28 4 35 2 31
a) ajuste o modelo logı́stico linear e faça o teste para a função de ligação;

b) ajuste o modelo complemento log-log e faça o teste para a função de ligação;
c) faça o gráfico da variável adicionada para os itens (a) e (b);
d) usando a famı́lia de funções de ligação de Aranda-Ordaz, obtenha a variável
construı́da e estime λ;
e) ajuste o modelo logı́stico com preditor linear quadrático e faça o teste para a
função de ligação.
7. Considere a famı́lia (5.8) de funções de ligação. Mostre que a variável construı́da

para o teste da hipótese H0 : λ = 0 é expressa por (Atkinson, 1985, p. 238)

dh(µ, λ) log(µ̂) ⊙ log(µ̂) η̂ ⊙ η̂
u(λ0 ) = =− =− ,
dλ λ=0 2 2
em que ⊙ representa o produto termo a termo.
8. Seja Yi ∼ B(mi , µi ) com a notação usual µ = g −1 (Xβ), β = (β1 , . . . , βp )T , etc.

Demonstrar que os resı́duos podem ser definidos por
[ ]1/2
[G(Yi /mi ) − G′ (µ̂i )] µ̂i (1 − µ̂i )
.
G′ (µ̂i ) mi
Quais as vantagens das escolhas G(µ) = µ, G(µ) = log[µ/(1 − µ)] e G(µ) =

∫ µ −1/3
0
x (1 − x)−1/3 dx?
9. No modelo normal linear com estrutura para a média especificada por µ =

E(Y) = Xβ + g(z; γ), sendo a função g(z; γ) aproximadamente linear, demonstrar
b = (I − H)y + Hzγ̂, em que H = X(XT X)−1 XT é a matriz
que os resı́duos parciais R
de projeção, podem ser expressos como combinações lineares dos resı́duos ordinários
y − µ̂ e, também, como combinações lineares dos dados y.
10. Demonstrar as fórmulas aproximadas apresentadas em (??) para se fazer o

diagnóstico global de influência de uma única observação sobre o ajuste do MLG.
′
11. Os resı́duos riP definidos em (5.6) são, também, denominados resı́duos de Stu-
(1)
dent (W.S. Gosset). Calcular expressões para a0 , bi e ci em função desses resı́duos.
12. Seja um modelo normal, ou gama ou normal inverso com componente usual
g(µ) = η = Xβ e que o parâmetro ϕ seja constante para todas as observações,
embora desconhecido. Determinar, usando a função desvio, critérios para os seguintes
testes:
(a) ϕ = ϕ(0) versus ϕ ̸= ϕ(0) ; (b) β = β (0) versus β ̸= β (0) (Cordeiro, 1986).
Capı́tulo 6
Aplicações a Dados Contı́nuos

Neste capı́tulo, apresentam-se análises dos seguintes conjuntos de dados
contı́nuos: volume de árvores, gordura no leite, importação Brasileira, tempos de
sobrevivência de ratos, assinaturas de TV a cabo, demanda de energia elétrica e
tempo de funcionamento de um transformador.
6.1 Dados de volume de árvores

Os dados da Tabela 7.29 referem-se a medidas de diâmetro a 4,5 pés acima
do solo (D, polegadas) e altura (H, pés) de 21 cerejeiras (“black cherry”) em pé
e de volume (V , pés cúbicos) de árvores derrubadas (Ryan et al., 1976) em uma
área da floresta (Allegheny National Forest). O objetivo desse tipo de experimento é
verificar de que forma essas variáveis estão relacionadas para poder predizer o volume
de madeira a ser extraı́da, usando-se medidas nas árvores em pé.
A Figura 6.1 mostra os gráficos de dispersão das variáveis duas a duas para
os dados observados sem transformação e com transformação logarı́tmica. Pode-se
verificar que existe alguma relação funcional mais forte entre volume e diâmetro
à altura do peito do que entre volume e altura. Além disso, as observações da
variável altura têm variabilidade maior do que as observações da variável diâmetro à
altura do peito. Nota-se, também, heterogeneidade de variâncias para os dados não
transformados.
Como um primeiro modelo (M1 ) para a análise desses dados, supõe-se que
177
65 70 75 80 85 4.15 4.25 4.35 4.45
3.0
20
18
2.8
16
2.6
D logD
14
2.4
12
10
2.2
8
4.45
85
80
4.35
H logH
75
4.25
70
65
4.15
70
4.0
60
50
3.5
V logV
40
3.0
30
20
2.5
10
8 10 12 14 16 18 20 10 20 30 40 50 60 70 2.2 2.4 2.6 2.8 3.0 2.5 3.0 3.5 4.0
Figura 6.1: Gráfico de dispersão - valores observados e transformados na escala

logarı́tmica.
a variável resposta Y = µ + ε1 , em que Y = V e ε1 ∼ N(0, σ12 ) e, portanto, Y ∼

N(µ, σ12 ), que a função de ligação é a identidade, η = µ, e que o preditor linear é
expresso por
η = β0 + β1 x1 + β2 x2 , (6.1)
em que x1 = D e x2 = H.
Um segundo modelo (M2 ) baseia-se no fato de que o volume é proporcional
ao produto do diâmetro à altura do peito pela altura, isto é, V ≈ γ0 Dβ1 H β2 e,
portanto, log(V ) ≈ β0 + β1 log(D) + β2 log(H). Então, pode-se supor que a variável
resposta transformada Y = µ + ε2 , em que Y = log(V ) e ε2 ∼ N(0, σ22 ) e, portanto,
Y ∼ N(µ, σ22 ), que a função de ligação é a identidade, η = µ, e que o preditor linear
é expresso por (6.1) com x1 = log(D) e x2 = log(H).
Como um terceiro modelo (M3 ), supõe-se que a variável resposta Y = µ+ε3 ,
em que Y = V , µ = γ0 Dβ1 H β2 e ε3 ∼ N(0, σ32 ) e, portanto, Y ∼ N(µ, σ32 ), que a
função de ligação é a logarı́tmica, η = log(µ), e que o preditor linear é expresso por
(6.1) com x1 = log(D) e x2 = log(H).
A Tabelas 6.1 e 6.2 mostram os resultados obtidos, considerando-se diversos
submodelos para o preditor linear, para a análise dos dados sem transformação (M1 )
e com transformação logarı́tmica (M2 ). Verifica-se que existem evidências, ao nı́vel de
1% de significância, que os efeitos tanto do diâmetro à altura do peito como da altura
são significativos, sendo que o efeito do diâmetro à altura do peito é maior do que o
da altura, tanto para o caso de dados não transformados como para transformados.
Entretanto, é muito mais forte no caso de dados transformados. É importante, lem-
brar, também, que o teste para o modelo com ambas as variáveis (regressão parcial)
simultaneamente tem um nı́vel de significância conjunto, enquanto que na análise
seqüencial não se sabe o nı́vel conjunto de significância dos testes. Há evidências,
portanto, de que ambas as variáveis explanatórias altura e diâmetro são necessárias
para explicar o volume e que o melhor ajuste é obtido com os dados transformados.
Testes t (equivalentes aos testes F ) e intervalos de confiança para os parâmetros e
intervalos de previsão para Y podem, então, ser calculados. Há necessidade, porém,
de um estudo mais detalhado, fazendo-se uma análise dos resı́duos e de diagnóstico,
para a escolha do modelo final.
Conforme pode-se verificar na Figura 6.2, há indicação de que o modelo M1

não se ajusta bem às observações. No gráfico dos valores ajustados versus valores
observados, destacam-se como pontos extremos as observações 1, 2, 3 e 31, enquanto
que no gráfico dos valores absolutos de DFFitS versus ı́ndices, destaca-se a observação
31. No gráfico normal de probabilidades, com envelope de simulação, destacam-se
as observações 18 e 31. O gráfico para a escolha de uma transformação na famı́lia
Box-Cox mostra um intervalo de confiança para o parâmetro λ que não inclui o valor
λ = 1, indicando escala inadequada para a variável resposta. É interessante notar
que as árvores 1, 2 e 3 são aquelas de menores volumes, enquanto que a árvore 31 é
a de maior volume.
Conforme, pode-se verificar na Figura 6.3, há indicação de que o modelo

M2 ajusta-se bem às observações. No gráfico de valores ajustados versus valores
observados, continuam destacando-se como pontos extremos as observações 1, 2, 3 e
31, enquanto que no gráfico de valores absolutos de DFFitS versus ı́ndices, destaca-se
a observação 18. No gráfico normal de probabilidades com envelope de simulação,
destacam-se as observações 11 e 18. O gráfico para a escolha de uma transformação
1.5
80
60
Valores absolutos de DFFits
1.0
Valores ajustados
40
0.5
20
0.0
0
0 20 40 60 80 0 5 10 15 20 25 30
Valores observados de volumes Índices
95%
−80
2
−90
Log(função de verossimilhança)
Resíduos estudentizados
−100
1
−110
0
−120
−1
−130
−2
−2 −1 0 1 2 −2 −1 0 1 2
Quantis(t) λ
Figura 6.2: Gráficos de valores ajustados (modelo M1 ) versus valores observados,

valores absolutos de DFFits versus ı́ndices, gráfico normal de probabilidades com
envelope de simulação e gráfico para escolha de transformação na famı́lia Box-Cox.
na famı́lia Box-Cox mostra um intervalo de confiança para o parâmetro λ que inclui

o valor λ = 1, indicando escala adequada para a variável resposta. O programa para
as análises foi desenvolvido em R e encontra-se no Apêndice B.1.
6.2 Dados de gordura no leite

A Tabela 6.3 refere-se a produções médias diárias de gordura (kg/dia) no leite de
uma única vaca durante 35 semanas (McCulloch, 2001). É comum supor que a produção
média de gordura Yi tem distribuição com média
µi = αtβi eγti ,
em que t representa a semana e α, β e γ são parâmetros desconhecidos.

Tabela 6.1: Análise de variância, teste F e estimativas - Dados sem transformação

(M1 ).
η = β0 + β1 D
Causas de variação G.L. S.Q. Q.M. F
DAP 1 7.581, 8 7.581, 8 419, 4 ∗ ∗
Resı́duo 29 524, 3 18, 1
Total 30 8.106, 1
V̂ = −36, 94 + 5, 066D R2 = 0, 935 R̄2 = 0, 933
s(β̂0 ) = 3, 36 e s(β̂1 ) = 0, 247
η = β0 + β2 H
Altura 1 2.901, 2 2.901, 2 16, 2 ∗ ∗
Resı́duo 29 5.204, 9 179, 5
Total 30 8.106, 1
V̂ = −87, 12 + 1, 543H R2 = 0, 358 R̄2 = 0, 336
s(β̂0 ) = 29, 27 e s(β̂2 ) = 0, 384
η = β0 + β1 D + β2 H - Parcial
DAP e Altura 2 7.684, 4 3.842, 2 255, 0 ∗ ∗
Resı́duo 28 421, 9 15, 1
Total 30 8.106, 1
V̂ = −57, 99 + 4, 708D + 0, 339H R2 = 0, 948 R̄2 = 0, 944
s(β̂0 ) = 8, 64, s(β̂1 ) = 0, 264 e s(β̂2 ) = 0, 130
η = β0 + β1 D + β2 H - Seqüencial
DAP 1 7.581, 8 7.581, 8 503, 1 ∗ ∗
Altura|DAP 1 102, 4 102, 4 6, 8∗
Resı́duo 28 421, 9 15, 1
Total 30 8.106, 1
η = β0 + β1 D + β2 H - Seqüencial
Altura 1 2.901, 2 2.901, 2 192, 5 ∗ ∗
DAP|Altura 1 4.783, 0 4.783, 0 317, 4 ∗ ∗
Resı́duo 28 421, 9 15, 1
Total 30 8.106, 1
F1,29;0,05 = 4, 18, F2,28;0,05 = 3, 34 e F1,28;0,05 = 4, 20
F1,29;0,01 = 7, 60, F2,28;0,01 = 5, 45 e F1,28;0,01 = 7, 64
Tabela 6.2: Análise de variância, teste F e estimativas - Dados transformados (M2 ).

η = β0 + β1 log(D)
DAP 1 7, 9254 7, 9254 599, 7 ∗ ∗
Resı́duo 29 0, 3832 0, 0132
Total 30 8, 3087
\) = −2, 353 + 2, 2 log(D) R2 = 0, 954 R̄2 = 0, 952
log(V
s(β̂0 ) = 0, 231 e s(β̂1 ) = 0, 089
η = β0 + β2 log(H)
Altura 1 3, 496 3, 496 21, 06 ∗ ∗
Resı́duo 29 4, 8130 0, 166
Total 30 8, 3087
\
log(V ) = −13, 96 + 3, 982 log(H) R2 = 0, 421 R̄2 = 0, 401
s(β̂0 ) = 3, 76 e s(β̂2 ) = 0, 868
η = β0 + β1 log(D) + β2 log(H) - Parcial

DAP e Altura 2 8, 1228 4, 0614 615, 36 ∗ ∗
Resı́duo 28 0, 1855 0, 0066
Total 30 8, 3087
\) = −6, 632 + 1, 983 log(D) + 1, 117 log(H) R2 = 0, 978
log(V
R̄2 = 0, 976 s(β̂0 ) = 0, 799, s(β̂1 ) = 0, 0, 075 e s(β̂2 ) = 0, 204
η = β0 + β1 log(D) + β2 log(H) - Seqüencial

DAP 1 7, 9254 7, 9254 1196, 5 ∗ ∗
Altura|DAP 1 0, 1978 0, 1978 29, 9 ∗ ∗
Resı́duo 28 0, 1855 0, 0066
Total 30 8, 3087
η = β0 + β1 log(D) + β2 log(H) - Seqüencial

Altura 1 3, 4957 3, 4957 527, 8 ∗ ∗
DAP|Altura 1 4, 6275 4, 6275 698, 6 ∗ ∗
Resı́duo 28 0, 1855 0, 0066
Total 30 8, 3087
F1,29;0,05 = 4, 18, F2,28;0,05 = 3, 34 e F1,28;0,05 = 4, 20
F1,29;0,01 = 7, 60, F2,28;0,01 = 5, 45 e F1,28;0,01 = 7, 64
0.8
4.0
Valores absolutos de DFFits
0.6
3.5
Valores ajustados
0.4
3.0
0.2
2.5
2.0
0.0
2.0 2.5 3.0 3.5 4.0 0 5 10 15 20 25 30
Log(Valores observados de volumes) Índices
25
95%
1
20
Resíduos estudentizados
15
10
−1
5
−2
−2 −1 0 1 2 −2 −1 0 1 2
Quantis(t) λ
Figura 6.3: Gráficos de valores ajustados (modelo M2 ) versus log(valores observados),

valores absolutos de DFFits versus ı́ndices, gráfico normal de probabilidades com
envelope de simulação e gráfico para escolha de transformação na famı́lia Box-Cox.
Portanto, usando-se a função de ligação logarı́tmica, tem-se
log(µi ) = log(α) + β log(ti ) + γi ti .
Pode-se supor ainda que Yi ∼ N(µi , τ 2 ), isto é,
Yi = µi + δi = αtβi eγti + δi ,
em que δi ∼ N(0, τ 2 ). Isso equivale ao MLG em que a variável resposta Y tem distribuição
normal com função de ligação logarı́tmica, ηi = log(µi ), e preditor linear que é igual a
log(α) + β log(ti ) + γi ti .
Entretanto, na prática é comum supor que log(Yi ) ∼ N(log(µi ), σ 2 ), isto é,
log(Yi ) = log(µi ) + ϵi = log(α) + β log(ti ) + γti + ϵi ,

Tabela 6.3: Produções médias diárias de gordura (kg/dia) do leite de uma vaca.
0.31 0.39 0.50 0.58 0.59 0.64 0.68
0.66 0.67 0.70 0.72 0.68 0.65 0.64
0.57 0.48 0.46 0.45 0.31 0.33 0.36
0.30 0.26 0.34 0.29 0.31 0.29 0.20
0.15 0.18 0.11 0.07 0.06 0.01 0.01
em que ϵi ∼ N(0, σ 2 ). Isso equivale ao MLG em que a variável resposta log(Y ) tem
distribuição normal com função de ligação identidade, ηi = µi , e mesmo preditor linear
log(α) + β log(ti ) + γi ti .
* Observado
Transformação log
Ligação log
0.8
*
*
* *
* *
Produção de gordura (kg/dia)
* * *
0.6
* * *
*
*
* *
0.4
*
*
* *
* * * *
* *
*
0.2
*
*
*
*
* *
0.0
* *
0 5 10 15 20 25 30 35
Semanas
Figura 6.4: Valores observados e curvas ajustadas (Dados da Tabela 6.3).
A Figura 6.4 mostra que a distribuição normal com função de ligação logarı́tmica
produz um melhor ajuste do que adotar uma transformação logarı́tmica dos dados e supor
uma distribuição normal com função de ligação identidade. Isso é confirmado nos gráficos
de valores ajustados versus valores observados apresentado na Figura 6.5. O programa
para as análises foi desenvolvido em R e encontra-se no Apêndice B.2.
0.7
−1
0.6
0.5
Log(Valores ajustados)
Valores ajustados
−2
0.4
0.3
−3
0.2
−4
0.1
0.0
−3.0 −2.5 −2.0 −1.5 −1.0 −0.5 0.1 0.2 0.3 0.4 0.5 0.6 0.7
Log(Valores observados) Valores observados
Figura 6.5: Gráficos de valores ajustados versus valores observados obtidos para o
modelo normal para log(Y ) com função de ligação identidade e para o modelo normal
para Y com função de ligação logarı́tmica (Dados da Tabela 6.3).
6.3 Dados de importação Brasileira

O impacto das variáveis explanatórias que influenciam a balança comercial tem
sido amplamente discutido após a abertura econômica diante do processo de inserção da
economia brasileira na globalização dos anos 90. Do ponto de vista da polı́tica econômica, é
importante identificar esses impactos, bem como, o efeito dinâmico de polı́ticas monetárias
e cambiais frente aos setores que se relacionam com o comércio internacional. Dentro
desse contexto, há um interesse particular em examinar, detalhadamente, a dinâmica da
desvalorização e/ou valorização cambial sobre as importações, face à evidência empı́rica no
sentido de que esse efeito possa ser negativo.
Os dados da Tabela 7.30 do Apêndice A.1 referem-se a importações brasileiras
(IM) em milhões de dólares, taxa de câmbio (TCI) e o Produto Interno Bruto representando
a renda nacional (RN). Os dados são trimestrais das contas externas do Brasil no perı́odo
de 1980 a 1998 (Banco Central). A taxa de câmbio representa a relação entre reais e
dólar, isto é, quantos reais são gastos para comprar um dólar americano e, por fim, a renda
nacional em número ı́ndice (dez90=100).
A Figura 6.6 mostra os gráficos de dispersão das variáveis duas a duas para os
dados observados brutos e transformados por logaritmo e pelo seu inverso. Verifica-se
que existe uma relação não-linear entre IM e as variáveis explanatórias TCI e RN. Essa
relação não-linear diminui, porém, não desaparece quando se usa o logaritmo da variável
8.0 8.5 9.0 9.5 1.0 1.4 1.8 2.2
10000 16000
IM
4000
8.0 8.5 9.0 9.5
logIM
0.00025
invIM
0.00005
2.2
1.8
TCI
1.4
1.0
120
RN
100
80
4000 10000 16000 0.00005 0.00025 80 100 120
Figura 6.6: Gráficos de dispersão - valores observados e transformados e variáveis

explanatórias (Dados da Tabela 7.30).
resposta. Entretanto, a transfomação 1/IM parece linearizar a relação com as variáveis

explanatórias. Nota-se, contudo, a presença de heterogeneidade de variâncias em todos
os casos, principalmente, relacionada à variável RN. Portanto, espera-se de antemão uma
falta de ajuste do modelo com a distribuição normal. A relação entre TCI e RN não parece
muito forte e mostra uma variabilidade acentuada.
Como um primeiro modelo (M1 ), supõe-se que a variável resposta IM = µ + ε1 ,
em que ε1 ∼ N(0, σ12 ) e, portanto, IM ∼ N(µ, σ12 ), que a função de ligação é a identidade,
η = µ, e que o preditor linear é expresso por
ηi = β0 + β1 T CIi + β2 RNi , i = 1, . . . , 74. (6.2)
Como esperado, a Figura 6.7 mostra a falta de ajuste desse modelo, por meio dos
gráficos dos valores observados versus valores ajustados, resı́duos estudentizados versus
valores ajustados e resı́duos estudentizados versus TCI e RN. Verifica-se que as suposições
de homocedasticidade e independência dos erros aleatórios são violadas, além de indicar a
necessidade de um componente não-linear. Como um segundo modelo (M2 ), adiciona-se
TCI2 e RN2 ao preditor linear da equação (6.2), obtendo-se
ηi = β0 + β1 T CIi + β2 RNi + β3 T CI 2 + β4 RN 2 , i = 1, . . . , 74. (6.3)

O problema de não-linearidade desaparece, mas permanece a heterogeneidade das
variâncias, como indicado por gráficos de resı́duos (não mostrados).
Normal(identidade) Normal(identidade)
12000
2
10000
1
8000
Valor ajustado
Resíduos
6000
0
4000
−1
2000
−2
4000 6000 8000 10000 12000 14000 16000 2000 4000 6000 8000 10000 12000
Valor observado Valor ajustado
Normal(identidade) Normal(identidade)
2
2
1
1
Resíduos
Resíduos
0
0
−1
−1
−2
−2
1.0 1.2 1.4 1.6 1.8 2.0 2.2 80 90 100 110 120
TCI RN
Figura 6.7: Gráficos para verificação do ajuste do modelo M1 (Dados da Tabela

7.30).
Como um terceiro modelo (M3 ), supõe-se que log(IM ) = µ + ε2 , em que ε2 ∼

N(0, σ22 ) e, portanto, log(IM ) ∼ N(µ, σ22 ), que a função de ligação é a identidade, η = µ,
e com preditor linear (6.2). Como um quarto modelo (M4 ), supõe-se que IM = µ + ε3 ,
em que ε3 ∼ N(0, σ32 ) e, portanto, IM ∼ N(µ, σ32 ), que a função de ligação é a logarı́tmica,
η = log(µ), e com preditor linear (6.2). Gráficos de resı́duos (não mostrados) indicam que
os modelos M3 e M4 não se ajustam bem aos dados. O gráfico normal de probabilidades
(Figura 6.8) confirma a falta de um ajuste dos modelos M1 , M3 e M4 .
É importante observar que o desvio para modelos com distribuições contı́nuas
depende da escala dos dados como mostra a Tabela 6.4, não servindo, portanto, como
estatı́stica para verificar o ajuste do modelo. No caso da distribuição normal, com função de
ligação identidade, os desvios residuais são denominados de somas de quadrados residuais.
Normal(identidade) logNormal(identidade) Normal(log)
0.4
4000
2000
0.2
1000
2000
0.0
Residuo
Residuo
Residuo
0
0
−1000
−0.2
−2000
−2000
−0.4
−3000
−4000
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Quantis teóricos Quantis teóricos Quantis teóricos
Figura 6.8: Gráficos normais de probabilidade, modelos M1 , M3 e M4 (Dados da

Tabela 7.30).
Verifica-se, também, que a estatı́stica AIC depende da escala da variável resposta (IM ou
log(IM)). Em geral, os valores do logaritmo da função de verossimilhança e, portanto, da
estatı́stica AIC, são calculados sem os termos constantes e para escalas diferentes não há
uma forma de normalizá-los de forma a serem comparáveis. Valores de AIC são apenas
comparáveis na mesma escala da variável resposta. O uso de diferentes funções de ligação
não altera o número de parâmetros mas muda o aspecto estrutural do modelo, modificando
a função de verossimilhança. Entretanto, é possı́vel normalizar a função de verossimilhança
tal que comparações para diferentes funções de ligação tenham sentido.
Tabela 6.4: Resumo do ajuste do modelo normal para diferentes funções de ligação.
Variável resposta Ligação Desvio Residual σ̂ AIC
IM µ 315765900 2108,9 1347,7
log(IM) µ 4,0 0,2382 2,6
IM log(µ) 146543227 1436,7 1290,9
Modelos alternativos podem ser usados, supondo-se que IMi ∼ G(µi , ϕ) com as
funções de ligação canônica (inversa, M5 ), logarı́tmica (M6 ) e identidade (M7 ) e preditor
linear (6.2). A Tabela 6.5 mostra um resumo, considerando o ajuste para esses três casos e
para o caso da distribuição gama e função de ligação canônica (inversa), acrescentando-se
RN2 no preditor linear (M8 ). Observa-se que os modelos com menores AIC são aqueles com
distribuição gama e função de ligação canônica (inversa). A Figura 6.9 apresenta os gráficos
Tabela 6.5: Resumo do ajuste do modelo gama para funções de ligação inversa (com
dois preditores lineares diferentes), logarı́tmica e identidade.
Ligação ϕ̂ Desvio AIC
1/µ 0,0307 2,294 1240,9
1/µ 0,0236 1,705 1220,9
log(µ) 0,0524 3,908 1280,6
µ 0,0892 6,191 1315,0
dos valores ajustados versus valores observados e os gráficos normais de probabilidade dos
modelos M5 , M6 e M7 .
Gamma(inversa) Gamma(identidade) Gamma(log)

10000
12000
14000
10000
12000
8000
10000
Valor ajustado
Valor ajustado
valor ajustado
8000
6000
8000
6000
6000
4000
4000
4000
4000 6000 8000 10000 12000 14000 16000 4000 6000 8000 10000 12000 14000 16000 4000 6000 8000 10000 12000 14000 16000
Valor observado Valor observado Valor observado
Gamma(inversa) Gamma(identidade) Gamma(log)

0.4
0.6
0.4
0.4
0.2
0.2
0.2
0.0
Residuo
Residuo
Residuo
0.0
0.0
−0.2
−0.2
−0.2
−0.4
−0.4
−0.4
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Figura 6.9: Gráficos dos valores ajustados versus valores observados, modelos M5 ,
M6 e M7 (Dados da Tabela 7.30).
A Figura 6.10 apresenta os gráficos dos valores ajustados versus valores observa-
dos, dos resı́duos versus valores ajustados e o normal de probabilidade para o modelo M8 .
Entretanto, seria interessante completar com estudos de simulação e testes “bootstrap”
para a escolha do melhor modelo. Outros estudos referentes a pontos discrepantes e/ou
influentes são necessários. Um resumo das estatı́sticas para o modelo escolhido encontra-se
na Tabela 6.5.
Gamma(inversa) Gamma(inversa) Gamma(inversa)

20000
0.3
0.3
0.2
0.2
15000
0.1
0.1
Valor ajustado
0.0
0.0
Resíduos
Residuo
10000
−0.1
−0.1
−0.2
−0.2
5000
−0.3
−0.3
4000 6000 8000 10000 12000 14000 16000 5000 10000 15000 20000 −2 −1 0 1 2
Valor observado Valor ajustado Quantis teóricos
Figura 6.10: Gráficos dos valores ajustados versus valores observados, dos valores
ajustados versus resı́duos e o normal de probabilidade para o modelo M8 (Dados da
Tabela 7.30).
Tabela 6.6: Resumo do ajuste do modelo gama com função de ligação inversa 1/µ.
Parâmetro Estimativa e.p. t Pr(>|t|)
(Intercepto) -1,188e-05 1,574e-05 -0,755 0,453
TCI 1,393e-04 1,162e-05 11,990 < 2e-16 ***
poly(RN,2)1 -2,383e-04 2,987e-05 -7,977 2,01e-11 ***
poly(RN,2)2 -1,076e-04 2,100e-05 -5,124 2,53e-06 ***
Note que para o teste das variáveis que entrarão no modelo são usados polinômios
ortogonais. Entretanto, para obtenção dos coeficientes, há necessidade de se usar o preditor
linear (6.2) sendo, portanto, estimado por
η̂i = µ̂−1
i = −0, 0004888 + 0, 0001393 T CI + 0, 00001180 RN − 0, 00000006903 RN .
2
O programa para as análises foi desenvolvido em R e encontra-se no Apêndice B.3.
6.4 Dados de tempos de sobrevivência de ratos

Tabela 6.7: Tempos de sobrevivência de ratos após envenenamento.

Tempo Tipo Trat. Tempo Tipo Trat. Tempo Tipo Trat. Tempo Tipo Trat.
0,31 1 1 0,45 1 1 0,46 1 1 0,43 1 1
0,82 1 2 1,10 1 2 0,88 1 2 0,72 1 2
0,43 1 3 0,45 1 3 0,63 1 3 0,76 1 3
0,45 1 4 0,71 1 4 0,66 1 4 0,62 1 4
0,36 2 1 0,29 2 1 0,4 2 1 0,23 2 1
0,92 2 2 0,61 2 2 0,49 2 2 1,24 2 2
0,44 2 3 0,35 2 3 0,31 2 3 0,40 2 3
0,56 2 4 1,02 2 4 0,71 2 4 0,38 2 4
0,22 3 1 0,21 3 1 0,18 3 1 0,23 3 1
0,30 3 2 0,37 3 2 0,38 3 2 0,29 3 2
0,23 3 3 0,25 3 3 0,24 3 3 0,22 3 3
0,30 3 4 0,36 3 4 0,31 3 4 0,33 3 4
Os dados da Tabela 6.7 referem-se a tempos de sobrevivência de ratos após enve-

nenamento com quatro tipos de venenos e três diferentes tratamentos (Box e Cox, 1964).
Como pode ser constatado na Figura 6.11, os dados sem transformação apresentam hetero-
geneidade de variâncias que é amenizada quando se usam os inversos dos valores observados
ou os valores observados elevados à potência -3/4.
Y 1/Y Y −3/4
1.2
3.5
(Tempo de sobrevivência)^(−3/4)
5
1/(Tempo de sobrevivência)
Tempo de sobrevivência
3.0
1.0
2.5
0.8
2.0
3
0.6
1.5
0.4
1.0
0.2
1.1 3.1 1.2 3.2 1.3 3.3 1.1 3.1 1.2 3.2 1.3 3.3
1.1 3.1 1.2 3.2 1.3 3.3
Tipos de venenos e tratamentos Tipos de venenos e tratamentos
Tipos de venenos e tratamentos
Figura 6.11: Box-plots para as observações da Tabela 6.7, com e sem transformação.
Seja, inicialmente, o modelo
Yij = αi + βj + αβij + εij ,
em que Yij representa o tempo de sobrevivência do rato que recebeu o veneno i e o trata-
mento j, αi representa o efeito do veneno i, βj representa o efeito do tratamento j, αβij
representa o efeito da interação do veneno i com o tratamento j, εij ∼ N(0, σ 2 ). O
gráfico para verificar a necessidade de uma transformação na famı́lia Box-Cox, indica que
λ̂ = −0, 75, conforme mostra a Figura 6.12. Entretanto, o valor λ̂ = −1 está no intervalo
de confiança e 1/Y tem uma melhor interpretação nesse caso, isto é, representa a taxa de
mortalidade.
Y 1/Y Y −3/4
30
−52
95%
−28
95%
28
−54
−29
26
−56
95%
24
−58
−30
22
−60
20
−31
−62
−2.0 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5 2.0

0.0 0.5 1.0 1.5 2.0
λ λ
λ
Figura 6.12: Gráficos para escolha de transformação na famı́lia Box-Cox (Dados da

Tabela 6.7).
Ajustando-se, também, os modelos
1
= αi + βj + αβij + ϵij
Yij
e
−3/4
Yij = αi + βj + αβij + εij + δij ,
em que ϵij ∼ N(0, τ 2 ) e δij ∼ N(0, ζ 2 ), obtêm-se os outros dois gráficos da Figura 6.12,
mostrando que o valor λ̂ = 1 está incluı́do no intervalo de confiança e que, portanto,
ambas as transformações tornam a escala da variável resposta adequada. A Figura 6.13
mostra os gráficos dos valores ajustados versus valores observados sem e com transformação,
dos valores ajustados versus resı́duos e gráficos normais de probabilidades. Esses gráficos
revelam, claramente, a falta de ajuste para o caso do modelo normal para a variável sem
transformação e que ambas as transformações resolvem o problema de heterogeneidade
de variâncias e da falta de normalidade da variável resposta. Outros modelos, supondo
distribuição normal com função de ligação inversa, distribuições gama e normal inversa,
foram usados e apresentaram resultados piores.
Y 1/Y Y −3/4
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
3.0
4
Valor ajustado
Valor ajustado
2.5
Valor ajustado
2.0
1.5
2
0.2 0.4 0.6 0.8 1.0 1.2 1.0 1.5 2.0 2.5 3.0 3.5
1 2 3 4 5
Valor observado (Valor observado)^(−3/4)
1/(Valor observado)
0.6
0.4
1.0
0.4
0.2
0.5
0.2
Resíduos
Resíduos
Resíduos
0.0
0.0
0.0
−0.4 −0.2
−0.2
−0.5
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 2 3 4 1.5 2.0 2.5 3.0
Valor ajustado Valor ajustado Valor ajustado
Normal Q−Q Plot Normal Q−Q Plot Normal Q−Q Plot
0.6
0.4
1.0
0.4
0.2
0.5
0.2
Residuo
Residuo
Residuo
0.0
0.0
0.0
−0.4 −0.2
−0.2
−0.5
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
Figura 6.13: Gráficos dos valores ajustados versus valores observados sem e com
transformação, dos resı́duos versus valores ajustados e gráficos normais de probabi-
lidades (Dados da Tabela 6.7).
Os resultados da Tabela 6.8 mostram que, em ambos os casos, existem evidências

do efeito significativo do tipo de veneno e do tratamento mas não da interação entre eles.
Entretanto, a evidência é muito mais forte para o caso em que foram feitas as trans-
formações 1/Y e Y −3/4 . O programa para as análises foi desenvolvido em R e encontra-se
no Apêndice B.4.
Tabela 6.8: Análise de variância para os tempos de sobrevivência de ratos após

envenenamento, sem e com transformação inversa, descritos na Tabela 6.7.
Tempo 1/Tempo Tempo−3/4
Fonte GL SQ QM F SQ QM F SQ QM F
Tipo 2 1,0330 0,5165 23,27** 34,877 17,439 72,46** 11,9261 5,9630 68,45**
Tratamento 3 0,9212 0,3071 16,71** 20,414 6,805 28,35** 7,1579 2,3860 27,39**
Interação 6 0,2501 0,0417 1,88 1,571 0,262 1,09 0,4859 0,0810 0,93
Resı́duo 36 0,8007 0,0222 8,643 0,240 3,1361 0,0871
6.5 Dados de assinaturas de TV a cabo

Os dados da Tabela 7.31 referem-se ao número de assinantes (em milhares) de
TV a Cabo (y) em 40 áreas metropolitanas (Ramanathan, 1993), número de domicı́lios
(em milhares) na área (x1 ), renda per capita (em US$) por domicı́lio com TV a cabo
(x2 ), taxa de instalação (x3 ), custo médio mensal de manutenção (x4 ), número de canais
a cabo disponı́veis na área (x5 ) e número de canais não pagos com sinal de boa qualidade
disponı́veis na área (x6 ). O interesse está em analisar o número de assinantes (variável
resposta) como função das demais variáveis explanatórias.
Sem transformação Com transformação logarı́tmica

0 150 350 10 20 10 20 1 3 5 1.8 2.4 3.0 1.8 2.4 3.0
150
4
y y
2
0 50
0
350
x1 x1
150
3
1
0
11000
9.2
x2 x2
8000
9.0
1.8 2.4 3.0
20
x3 x3
10
2.3
10
x4 x4
8
2.0
6
1.7
3.0
20
x5 x5
2.4
10
1.8
2.6
12
x6
2.0
x6
8
1.4
4
0 50 150 8000 11000 6 8 10 4 8 12 0 2 4 9.0 9.2 1.7 2.0 2.3 1.4 2.0 2.6
Figura 6.14: Gráfico de dispersão - valores observados e transformados na escala

logarı́tmica (Dados da Tabela 7.31).
−130
95%
−140
−150
−160
−170
−180
−190 −1.0 −0.5 0.0 0.5
Figura 6.15: Gráfico dos valores ajustados versus valores observados e gráfico para
a famı́lia de transformações Box-Cox, modelo (M1 ) (Dados da Tabela 7.31).
A Figura 6.14 mostra os gráficos de dispersão das variáveis duas a duas sem
transformação e com transformação logarı́tmica. Nota-se que existe uma relação linear
forte entre log(y) e log(x1 ) e mais fraca de y e x1 e de log(y) e log(x5 ), sem muita evidência
de relação entre y ou log(y) e as outras variáveis explanatórias. Há evidências, também,
de relação entre as variáveis x2 , x4 , x5 e x6 , o que pode mascarar a relação entre a variável
resposta Y e as variáveis explanatórias.
A variável resposta Y , embora discreta, assume valores muito grandes o que jus-
tifica o uso da distribuição normal para Y ou log(Y ). Supondo-se que as demais variáveis
sejam constantes, espera-se que o número de assinaturas de TV a cabo seja proporcional
ao número de domicı́lios na área (x1 ). Além disso, espera-se que outras variáveis afetem a
média de uma forma multiplicativa. Isso sugere um modelo linear para log(Y ) com pelo
menos log(x1 ) como um dos preditores com um coeficiente próximo de um, de acordo com
a Figura 6.14.
Ajustando-se, aos dados da Tabela 7.31, o modelo M1
Yi = β0 + β1 log(x1i ) + β2 log(x2i ) + β3 log(x3i ) + β4 log(x4i ) + β5 log(x5i ) + β6 log(x6i ) + εi ,
em que εi ∼ N(0, σ 2 ), o gráfico na Figura 6.15 para a famı́lia de transformações Box-Cox

evidencia a necessidade da transformação log(Y ), pois λ = 0 pertence ao intervalo de
confiança.
Considerando-se o modelo M2
log(Yi ) = β0 +β1 log(x1i )+β2 log(x2i )+β3 log(x3i )+β4 log(x4i )+β5 log(x5i )+β6 log(x6i )+ϵi ,
em que ϵi ∼ N(0, τ 2 ), verifica-se um melhor ajuste aos dados da Tabela 7.31. As estimativas
dos parâmetros para o modelo M2 com seus erros-padrão encontram-se na Tabela 6.9,
revelando a não significância de log(x3i ).
Tabela 6.9: Resumo do ajuste do modelo M2 com e sem log(x3 ) (Dados da Tabela
7.31).
Parâmetro Estimativa e.p. t Pr(>|t|) Estimativa e.p. t Pr(>|t|)
Intercepto -16,44 7,46 -2,20 0,03 * -18,27 7,45 -2,45 0,02 *
log(x1) 0,96 0,05 17,67 <0,001 *** 0,98 0,05 18,38 <0,001 ***
log(x2) 1,86 0,86 2,16 0,04 * 2,12 0,85 2,50 0,02 *
log(x3) 0,28 0,20 1,40 0,17 – – – –
log(x4) -1,10 0,45 -2,44 0,02 * -0,90 0,43 -2,08 0,04 *
log(x5) 0,61 0,23 2,61 0,01 * 0,51 0,23 2,26 0,03 *
log(x6) -0,70 0,28 -2,49 0,02 * -0,73 0,28 -2,59 0,01 *
Eliminando-se log(x3 ) do modelo M2 , as estimativas dos parâmetros com seus

erros-padrão encontram-se na Tabela 6.9. Os gráficos na Figura 6.16 dos valores ajusta-
dos versus log(y), dos resı́duos versus valores ajustados e dos quantis observados versus
quantis teóricos revelam o bom ajuste desse modelo. No gráfico dos resı́duos versus valores
ajustados, há três observações discrepantes, 11, 14 e 26.
Logo, o valor estimado de yi pode ser calculado por
µ̂i = exp[−18, 27+0, 98 log(x1i )+2, 12 log(x2i )−0, 90 log(x4i )+0, 51 log(x5i )−0, 73 log(x6i )].
Nota-se que o coeficiente de log(x1 ) está muito próximo de um, como previsto.
Tem-se, portanto, evidência de que aumentando-se o número de domicı́lios (em milhares)
na área (x1 ), a renda per capita (em US$) por domicı́lio com TV a cabo (x2 ) e o número
de canais a cabo disponı́veis na área (x5 ) há um aumento no número de assinantes e,
também, que o aumento no custo médio mensal de manutenção (x4 ) e o aumento do
número de canais não pagos com sinal de boa qualidade disponı́veis na área (x6 ) causam
um decréscimo no número de assinantes. Assim, para esse modelo, tem-se que para cada
14
2
4
0.5
14
1
3
Valor ajustado
Resíduo
Residuo
0.0
0
2
26
11
−1
1
−0.5
−2
11 26
0
0 1 2 3 4 5 0 1 2 3 4 −2 −1 0 1 2
Log(valor observado) Valor ajustado Quantis teóricos
Figura 6.16: Gráfico dos valores ajustados versus log(valores observados), dos
resı́duos versus valores ajustados e dos quantis observados versus quantis teóricos,
modelo M2 , sem log(x3 (Dados da Tabela 7.31).
aumento de uma unidade no número de domicı́lios em unidade logarı́tmica há um aumento

de 0,98 unidades no número de assinantes, mantidas constantes as demais covariáveis.
Entretanto, para cada aumento de uma unidade no número de canais não pagos com sinal
de boa qualidade disponı́veis na área (x6 ), corresponderá uma redução de 0,73 unidades no
número de assinantes. O programa para as análises foi desenvolvido em R e encontra-se
no Apêndice B.5.
6.6 Dados de demanda de energia elétrica

Os dados da Tabela 7.32 referem-se à variável resposta demanda de eletrici-
dade agregada per capita para o setor residencial (ELAR), como função das variáveis
explanatórias preço médio da eletricidade para o setor residencial (PER), preço do gás
natural para o setor residencial (PGR) e renda per capita (RECA). As variáveis binárias
D1, D2, D3 e D4 representam os trimestres, enquanto que a variável Tri representa o fator
trimestre. Os dados foram coletados no primeiro trimestre de 1961 até o quarto trimestre
de 1983, com o total de 92 observações.
A Figura 6.17 mostra a dispersão da variável resposta eletricidade agregada per
capita para o setor residencial (ELAR) versus as demais variáveis preço médio da eletrici-
dade para o setor residencial (PER), preço do gás natural para o setor residencial (PGR)
e renda per capita (RECA). Nota-se que existe uma relação forte entre ELAR e PER e
entre ELAR e RECA que depende do trimestre. Há evidência de uma demanda maior de
eletricidade nos trimestres 1 (verão) e 3 (inverno) e menor nos trimestres 2 (outono) e 4
(primavera). Além disso, há um crescimento de demanda de eletricidade ao longo dos anos
com aumento da variabilidade. Há evidências, também, de relação entre as variáveis PER e
RECA, o que pode mascarar a relação entre a variável resposta e as variáveis explanatórias.
0.9
0.9
Trimestre 1
Trimestre 2
0.8
0.8
Demanda de eletricidade
Trimestre 3
Trimestre 4
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
5 10 15 20 5.0 5.5 6.0 6.5 7.0 7.5 8.0
Ano Preço médio da eletricidade

0.9
0.9
0.8
0.8
0.7
0.7
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
3 4 5 6 0.009 0.010 0.011 0.012 0.013 0.014
Preço do gás natural Renda per capita
Figura 6.17: Gráficos de dispersão dos valores observados da demanda de eletricidade

versus valores observados do preço médio da eletricidade, do preço do gás natural e
da renda per capita (Dados da Tabela 7.32).
O ajuste do modelo será iniciado usando erro normal e as ligações identidade e

logarı́tmica, respectivamente. Abaixo temos o resultados do valor do desvio e graus de
liberdade do modelo. Observa-se através da Tabela 1 que o modelo que melhor ajusta os
dados é o com erro normal e ligação logarı́tmica (desvio = 0.17169).
Tabela 1 - Desvio e graus de liberdade dos

modelos ajustados erro normal.
Ligação Desvio DF
Identidade 0.21417 85
Logarı́tmica 0.17169 85
Abaixo temos as estimaticas do modelo com erro normal e ligação logarı́tmica.

Observe que todas as vairáveis foram significativas ao nı́vel de 5% de significãncia.
>fit2<-glm(elar~per+pgr+reca+DD1+DD2+DD3,
family = gaussian(link = "log"))
> summary(fit2)
Call: glm(formula = elar ~ per + pgr + reca + DD1 + DD2 + DD3,

family = gaussian(link = "log"))
Deviance Residuals:
Min 1Q Median 3Q Max
-8.904e-02 -3.255e-02 8.283e-05 2.854e-02 1.037e-01
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.22778 0.23949 -9.302 1.32e-14 *** per
-0.11247 0.02396 -4.694 1.02e-05 *** pgr 0.07300
0.02012 3.628 0.000486 *** reca 163.04261 14.15700
11.517 < 2e-16 *** DD1 0.12624 0.02217 5.693
1.74e-07 *** DD2 -0.04949 0.02409 -2.054 0.043050 *
DD3 0.11021 0.02369 4.652 1.20e-05 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
(Dispersion parameter for gaussian family taken to be 0.002019894)
Null deviance: 3.20412 on 91 degrees of freedom

Residual deviance: 0.17169 on 85 degrees of freedom AIC: -301.03
Valores ajustados X valores observados. Normal Q−Q Plot Resíduos de Pearson X valores ajustados
0.10
0.10
0.9
Resíduos de Pearson
0.05
0.05
Valores ajustados
Sample Quantiles
0.7
0.00
0.00
0.5
−0.05
−0.05
0.3
0.3 0.4 0.5 0.6 0.7 0.8 0.9 −2 −1 0 1 2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Valores observados Theoretical Quantiles Valores ajustados
Figura 6.18: Gráfico dos valores ajustados versus log(valores observados), dos
resı́duos versus valores ajustados e dos quantis observados versus quantis teóricos,
modelo log(yi ) = β0 + β1 log(x1 ) + β2 x2 + β3 x3 + β4 x4 + β5 x5 + β6 x6 + ϵi , Tabela 7.31.
Number of Fisher Scoring iterations: 4
Para verificar se o modelo ajustado é razoável, fazemos o gráfico de dispersão

dos valores observados versos os valore ajustados. Observa-se através da Figura 1 que
é razoavel o ajuste aplicado. Além disso, ainda na Figura 1, temos que a distribuição
normal para os erros ordenados de Anscombe é aceita; os resı́duos de Pearson apresenta
uma distribuição aleatória quando feita a sua dispersão versus os valores ajusto, indicando
assim, que os resı́duos são não correlacionados, ou seja, a hipótese de independência e
variância constante para os resı́duos são aceitas.
Assim, concluı́mos que o modelo para ajustar a demanda de energia elétrica é
dada por:
log(elar) = −2.228−0.1125per+0.073pgr+163reca+0.1262DD1−0.04949DD2+
0.1102DD3
Capı́tulo 7
Aplicações a Dados Discretos

Neste capı́tulo, serão apresentadas diversas aplicações com dados na forma de proporções
e na forma de contagens. Os programas em R estão no Apêndice.
7.1 Dados binários e proporções
7.1.1 Estimação da dose efetiva e seu intervalo de confiança

Como foi descrito no Capı́tulo 2, ensaios do tipo dose-resposta são muito usados
na área de toxicologia. Em geral, os dados resultantes são proporções e os modelos mais
usados são logı́stico, probit e complemento log-log, que no caso em que o preditor linear é
uma regressão linear simples, podem ser expressos por
F −1 (pi ) = β0 + β1 xi , (7.1)
em que pi é a probabilidade de sucesso do evento sob estudo, F (·) uma f.d.a. de interesse e xi
é a variável explanatória. Esses modelos, ajustados a conjuntos de dados, podem ser usados
para sumarizá-los nesse caso pelo par de estimativas (β̂0 , β̂1 ) dos parâmetros e formam a
base para comparação de diferentes conjuntos de dados (?). Assim, por exemplo, podem
ser usados para a comparação de potência de diferentes produtos (inseticidas, fungicidas,
herbicidas etc).
Em geral, porém, o interesse está na determinação de estimativas de doses efetivas,
θp (DE100p ), que são doses, as quais sob o modelo ajustado causam uma mudança de estado
em 100p% dos indivı́duos. Um exemplo muito comum é a determinação da DL50 (também
chamada dose mediana) que é a dose que causa 50% de mortalidade dos indivı́duos. De
201
(7.1) para um valor p especificado, tem-se
F −1 (p) = β0 + β1 θp ,
sendo que θp representa a dose efetiva. Portanto, de uma forma geral, a estimativa da dose
efetiva θp é calculada por
F −1 (p) − β̂0
θ̂p = = g(β̂0 , β̂1 ), (7.2)
β̂1
que para os modelos mais comumente usados transforma-se em
( ) [ ( ) ]
p 1 p
logit(p) = log = β̂0 + β̂1 θ̂p ⇒ θ̂p = log − β̂0 , logı́stico;
1−p β̂1 1−p
1
probit(p) = Φ−1 (p) = β̂0 + β̂1 θ̂p ⇒ θ̂p = [Φ−1 (p) − β̂0 ], probit;
β̂1
1
log[− log(1 − p)] = β̂0 + β̂1 θ̂p ⇒ θ̂p = {log[− log(1 − p)] − β̂0 }, clog-log e
β̂1
[ ] { [ ] }
1 − (1 − p)λ 1 1 − (1 − p)λ
log = β̂0 + β̂1 θ̂p ⇒ θ̂p = log − β̂0 , Aranda-Ordaz
λ(1 − p)λ β̂1 λ(1 − p)λ
(1981).
Se p = 0, 50, verifica-se que, para qualquer modelo simétrico, portanto, incluindo

os modelos logı́stico e probit, a dose efetiva é obtida por
β̂0
θ̂50 = −
β̂1
enquanto que para o modelo complemento log-log é expressa por
log(log 2) − β̂0
θ̂50 =
β̂1
e para o modelo de Aranda-Ordaz, como
[ ( λ ) ]
1 2 −1
θ̂50 = log − β̂0 .
β̂1 λ
É importante notar que se o modelo está como função do logaritmo, em uma base
b qualquer, da dose, então, θ̂p = logb (dˆp ) e, portanto, a dose efetiva é obtida fazendo-se
dˆp = bθ̂p .
Lembrando que, assintoticamente, β̂0 ∼ N(β0 , Var(β̂0 )), β̂1 ∼ N(β1 , Var(β̂1 )) e
Cov(β̂0 , β̂1 ) ̸= 0, isto é, β̂ ∼ N(β, V), em que V = Cov(β̂) é a matriz de variâncias e
covariâncias dos estimadores dos parâmetros (inversa da matriz de informação de Fisher),
os métodos mais comumente usados para a construção de intervalos de confiança para
doses efetivas são: o método Delta, o de Fieller e o da razão de verossimilhanças (perfil de
verossimilhanças) (?Collet, 2002).
Método Delta
O método delta calcula a variância assintótica de uma função escalar g(β) de um
vetor β, de dimensão p, de parâmetros desconhecidos, quando a matriz de covariância de β̂
é conhecida. O método é baseado na expansão de Taylor até primeira ordem e supõe que,
segundo condições gerais de regularidade, a distribuição assintótica do EMV β̂ é Np (β, V),
sendo V obtida pela inversa da matriz de informação.
Tem-se, supondo que as derivadas parciais ∂g/βr são contı́nuas e não todas nulas
em β̂,
D
g(β̂) → N(g(β), σ 2 ),
em que σ 2 = γ T Vβ γ e γ = (∂g/dβ1 , . . . , ∂g/dβp )T .

Na prática, g(β), V e γ são estimados em β̂, para que sejam realizados testes
de hipóteses e contruı́dos intervalos de confiança sobre g(β), baseando-se na aproximação
normal N(g(β), σ 2 ).
Ilustra-se o método delta para estimar a variância da dose efetiva de uma trata-
mento correspondente a uma taxa especificada 100p% de mortalidade em um experimento
de dose-resposta.
b −1 a
Suponha que a matriz de informação K de β̂ = (β̂0 , β̂1 )T é estimada. Seja K
sua inversa especificada por
[ ]
b −1 = V
bβ = κ̂β0 ,β0 κ̂β0 ,β1
K .
κ̂β0 ,β1 κ̂β1 ,β1
De acordo com o método delta, fazendo-se uma expansão de Taylor de primeira

ordem para a expressão (7.2) de g(β̂0 , β̂1 ) em torno de (β0 , β1 ), tem-se

∂g(β̂0 , β̂1 ) ∂g(β̂0 , β̂1 )
θ̂p = g(β̂0 , β̂1 ) ≈ g(β0 , β1 ) + (β̂0 − β0 ) + (β̂1 − β1 ) ,
∂ β̂0 (β0 ,β1 ) ∂ β̂1 (β0 ,β1 )
( ) ( )
∂g(β̂0 , β̂1 ) ∂g(β̂0 , β̂1 ) 1 F −1 (p) − β0
em que γT = , = − ,− .
∂ β̂ 0 (β0 ,β1 ) ∂ β̂ 1 (β0 ,β1 ) β1 β12
Logo, a estimativa de σ 2 = Var(θ̂p ) = γ T Vγ é expressa por
d θ̂p ) = γ̂ T V̂γ̂ = 1 (κ̂β0 ,β0 + 2θ̂κ̂β0 ,β1 + θ̂2 κ̂β1 ,β1 )

σ̂ 2 = Var(
β̂12
1 d d β̂0 , β̂1 )}.
d β̂1 ) + 2θ̂p Cov(
= {Var(β̂0 ) + θ̂p2 Var(
β̂12
Pelo método delta, tem-se que a distribuição assintótica de θ̂p = g(β̂) (expressão (7.2)), é
normal N(θp , σ 2 ), e, portanto, um intervalo de confiança 100(1 − γ)% aproximado para a
dose efetiva θp é expresso por
√
IC(θp ) : θ̂p ∓ zα/2 d θ̂p ),
Var(
em que zα/2 é o (1 − γ/2) percentil da distribuição normal reduzida.

Uma desvantagem desse método é que o intervalo de confiança é sempre simétrico,
o que pode ser desfavorável à estimação de doses-respostas extremas correspondentes a
valores de p próximos a zero ou um. Além disso, está baseado na distribuição normal
assintótica de g(β̂).
Método baseado no teorema de Fieller

O teorema de Fieller é um resultado geral que permite a obtenção de intervalos de
confiança para razões de duas variáveis aleatórias normalmente distribuı́das, que é o caso
da dose efetiva θp . Esse teorema especifica a distribuição da soma de variáveis aleatórias
que têm distribuição normal bivariada. A EMV β̂ = (β̂0 , β̂1 )T tem, assintoticamente,
distribuição normal bivariada de média β e matriz de covariância V = K−1 .
A partir da equação (7.2) pode-se construir a função ψ̂ = β̂0 − F −1 (p) + β̂1 θp .
Então, E(ψ̂) = β0 − F −1 (p) + β1 θp = 0 e Var(ψ̂) = κβ0 ,β0 + 2θp κβ0 ,β1 + θp2 κβ1 ,β1 = Var(β̂0 ) +
2θp Cov(β̂0 , β̂1 ) + θp2 Var(β̂1 ). Portanto, β̂1 θp + β̂0 − F −1 (p) ∼ N(0, Var(ψ̂)) e
[β̂1 θp + β̂0 − F −1 (p)]2

∼ N(0, 1).
Var(β̂0 ) + 2θp Cov(β̂0 , β̂1 ) + θp2 Var(β̂1 ))
Logo, um intervalo de confiança para θp , com um coeficiente de confiança 100(1 −

γ)%, pode ser expresso pelo conjunto de valores de θp que satisfazem a inequação
[β̂1 θp + β̂0 − F −1 (p)]2

≤ zα/2
2
,
Var(β̂0 ) + 2θp Cov(β̂0 , β̂1 ) + θp2 Var(β̂1 )
sendo que os limites do intervalo de confiança igualam às raı́zes da correspondente equação
de segundo grau. No caso de raı́zes complexas, o intervalo não existirá. Em geral, os
resultados são semelhantes aos calculados pelo método delta.
Método baseado na razão de verossimilhanças

Uma terceira forma de construir intervalos de confiança para uma dose efetiva θp
é baseada na estatı́stica da razão de verossimilhanças. O componente sistemático usual
(7.1) pode, especificado p, ser reparametrizado por
F −1 (pi ) = β0 + β1 xi = β0 + β1 θp − β1 θp + β1 xi = F −1 (p) + β1 (xi − θp ), (7.3)
pois a dose efetiva satisfaz a condição F −1 (p) = β0 + β1 θp . O componente sistemático

(7.3) permite tratar F −1 (p) como offset. Supondo que haja n amostras de tamanhos mi ,
o logaritmo da função de verossimilhança expresso em termos de β1 e θp é
∑
n
ℓ(β1 , θp ) = [yi log pi + (mi − yi ) log(1 − pi )],
i=1
em que yi = 0, 1, . . . , mi e pi = F [F −1 (p) + β1 (xi − θp )]. Pode-se, então, maximizar (7.3)

para obter as EMV β̂1 e θ̂p e seu valor máximo ℓ̂ = ℓ(β̂1 , θ̂p ). Um intervalo de confiança
para θp pode ser baseado na estatı́stica da razão de verossimilhanças
w(θp ) = 2[ℓ̂ − ℓ(β̃1 , θp )],
em que β̃1 é a EMV restrita de β1 fixado θp . Como, assintoticamente, w(θp ) tem distribuição
χ21 , tem-se que um intervalo de 100(1 − γ)% de confiança para θp é formado por todos os
valores de θp que verificam
ℓ(β̃1 , θp ) ≥ ℓ̂ − zγ2 /2,
em que zγ é o (1 − γ) percentil da distribuição normal reduzida.
Exemplo 7.1: Usando-se os dados do Exemplo 4.5, a dose letal que mata 50% dos
insetos e os intervalos de 90% de confiança, obtidos pelos três métodos, são
3, 226
i) dose letal: θ̂50 = = 5, 3,
0, 6051
ii) intervalos de confiança:

Método de Fieller: 4, 8 < θ50 < 5, 9,
Método Delta: 4, 8 < θ50 < 5, 9,
Método da razão de verossimilhanças: 5, 0 < θ50 < 5, 7.
7.1.2 Probabilidade de resposta a uma dose especificada

Considere que a dose d recebida por um indivı́duo i não é fixada, como descrito
na Seção 2.2, mas corresponde à soma de uma dose nominal x mais um erro aleatório
ϵ ∼ N(0, σ 2 ), isto é, d = x + ϵ. Se a distribuição da tolerância T (independe do erro
aleatório), tem a forma usual
P(T ≤ d) = F (d) = Φ(β0′ + β1′ d),
pode-se concluir que T ∼ N(−β0′ /β1′ , β1′2 ). Logo, T − ϵ tem distribuição normal de média
−β0′ /β1′ e variância aumentada
Var(T − ϵ) = β1′2 + σ 2 .
Então,
( )
T − ϵ + β0′ /β1′ x + β0′ /β1′
P(T ≤ d) = P(T − ϵ ≤ x) = P ≤ ′2
(β1′2 + σ 2 )1/2 (β1 + σ 2 )1/2
e, portanto,
( )
β0′ + β1′ x
F (d) = Φ . (7.4)
(β1′2 + σ 2 )1/2
A equação (7.4) revela uma forma computacional simples de calcular a proba-

bilidade de resposta a uma dose d. Na prática, procede-se à análise usual de ajuste do
modelo, considerando d fixo, para o cálculo das EMV de β0 e β1 . Para usar a equação
(7.4), obtêm-se as correções β0′ = β0 c e β1′ = β1 c, em que c = (1 − β12 σ 2 )−1/2 , supondo
β1 < σ −1 e σ 2 conhecido.
7.1.3 Paralelismo entre retas no modelo logı́stico linear

Na área de toxicologia é muito comum o interesse na comparação da eficiência
de produtos (fungicidas, inseticidas, herbicidas, medicamentos, etc) ou tratamentos.
Considerando-se o modelo logı́stico linear com uma variável quantitativa x (dose ou
log(dose)) e k produtos a serem testados, os preditores lineares a serem considerados são:
logit(pij ) = αj + βj log(dosei ) – retas concorrentes;
logit(pij ) = αj + β log(dosei ) – retas paralelas;
logit(pij ) = α + βj log(dosei ) – retas com intercepto comum;
logit(pij ) = α + β log(dosei ) – retas coincidentes;
para j = 1, . . . , k. O ajuste desses modelos aos dados é verificado usando-se as diferenças

dos desvios residuais. No caso em que existem evidências de que o modelo de retas paralelas
(p)
ajusta-se bem aos dados, tem-se, então, que a dose efetiva (θ̂j ) para 100p% dos indivı́duos
é obtida a partir de:
( )
p (p)
logit(p) = log = α̂j + β̂ θ̂j , j = 1, . . . , k.
1−p
Portanto, para j ̸= j ′ , tem-se

α̂j − α̂j ′ (p) (p)
= θ̂j ′ − θ̂j .
β̂
Se x = log(d), então,
( ˆ(p) ) (50)
α̂j − α̂j ′ dj α̂j − α̂j ′ DEj ′
= log (p)
= log ρ̂jj ′ ⇒ ρ̂jj ′ = = (50)
,
β̂ dˆj β̂ DEj
sendo ρ̂jj ′ a estimativa da eficiência relativa ρjj ′ do produto j em relação ao j ′ e

(p) (p)
log[dˆj ] − log[dˆj ], medindo a diferença horizontal entre as duas retas paralelas. Portanto,
ρjj ′ é a razão de duas doses igualmente efetivas. Intervalos de confiança para ρjj ′ podem
ser calculados pelos métodos Delta, de Fieller e da razão de verossimilhanças (perfil de
verossimilhanças) (?Collet, 2002).
Exemplo 7.2: Resistência a cypermethrin

Amostras de 20 insetos, Heliothis virescens (praga do algodão), resistentes
a cypermethrin, foram expostas a doses crescentes do inseticida, dois dias depois da
emergência da pupa (Collet, 2002). Após 72h foram contados os números de insetos
mortos e os resultados obtidos estão na Tabela 7.1.
Tabela 7.1: Números de insetos machos mortos em amostras de 20 insetos machos e

fêmeas expostos a doses (di ) crescentes de cypermethrin
Número de insetos mortos
Doses (di ) Machos Fêmeas
1,0 1 0
2,0 4 2
4,0 9 6
8,0 13 10
16,0 18 12
32,0 20 16
Considerações
Variável resposta: Yi – número de insetos mortos em amostras de tamanho mi = 20
Distribuição: Binomial
Parte sistemática: completamente casualizado, modelos de regressão.
Objetivo: determinação de doses letais.
A Tabela 7.2 apresenta os desvios residuais, estatı́sticas X 2 para os diversos mo-
delos e seus respectivos números de graus de liberdade (g.l.) e a Tabela 7.3, a análise de
desvios.
Tabela 7.2: Desvios residuais

Modelo g.l. Desvios Valor de p X 2 Valor de p
Constante 11 124,9 < 0, 0001 101,4 < 0, 0001
Sexo 10 118,8 < 0, 0001 97,4 < 0, 0001
Dose 6 15,2 0, 0191 12,9 0, 0446
Sexo + Dose 5 5,0 0, 4146 3,7 0, 5933
Verifica-se que existem evidências de que o modelo com preditor linear com dois
fatores aditivos, sexo (com dois nı́veis, j = 1, 2) e dose (com 6 nı́veis, k = 1, . . . , 6, em
princı́pio sem levar em consideração o fato de serem quantitativos), ajusta-se bem aos
dados, enquanto que os modelos mais simples, não. Não há, portanto, evidência de efeito
de interação entre os dois fatores.
Tabela 7.3: Análise de Desvios

Causas de Variação g.l. Desvios Valor de p
Sexo 1 6,1 0,0144
Sexo|Dose 1 10,1 0,0002
Dose 5 109,7 < 0, 0001
Dose|Sexo 5 113,8 < 0, 0001
Resı́duo 5 5,0 0,5841
Total 11 124,9
Pela Tabela 7.3 verifica-se que há evidências para efeito significativo de sexo e
de dose. Note-se, ainda, que os desvios para sexo ignorando dose e, para sexo ajustado
para dose, são diferentes devido à não ortogonalidade por se estar considerando a dis-
tribuição binomial. O mesmo ocorre para dose ignorando sexo e para dose ajustada por
sexo. Pode-se, ainda, tentar uma simplificação desse modelo, considerando que dose é um
fator quantitativo. Se for usado como preditor linear um polinômio com x = dose, verifica-
se que há necessidade de grau 3. Como, porém, as doses estão em progressão geométrica é
conveniente usar como variável regressora x = log2 (dose), considerando-se os modelos de
retas concorrentes, paralelas, com intercepto comum e coincidentes. Os resultados para o
desvio e a estatı́stica X 2 residuais estão apresentados na Tabela 7.4.

Constante 11 124,9 < 0.0001 101,4 < 0, 0001
Sexo + Sexo.log(dose) 8 4,99 0, 7586 3,51 0, 8991
Sexo + log(dose) 9 6,75 0, 6621 5,31 0, 8074
Const. + Sexo.log(Dose) 9 5,04 0, 8308 3,50 0, 9411
Const. + log(Dose) 10 16,98 0, 0748 14,76 0, 1395
Pela Tabela 7.4, nota-se que existem evidências que os modelos com retas concor-
rentes, paralelas e com intercepto comum ajustam-se bem aos dados. Tem-se, ainda, que as
diferenças de desvios entre os modelos com retas paralelas e retas concorrentes (6,76 - 4,99
= 1,77) e entre os modelos com intercepto comum e retas concorrentes (5,04 - 4,99 = 0,05),
ambas com um grau de liberdade, não são estatisticamente significativas. Utilizando de
parcimônia e facilidade de interpretação opta-se pelo modelo de retas paralelas. A Tabela
7.5 apresenta a análise de desvios para o modelo escolhido.

Sexo 1 6,1 0,0144
Regressão Linear 1 112,0 < 0, 0001
Resı́duo 9 6,8 0,7473
Total 11 124,9
A partir do modelo escolhido obtêm-se, então, respectivamente, para machos e

fêmeas, as equações:
( )
pî
log = −2, 372 + 1, 535 log2 (dosei ) - machos,
( 1 − pî )
pî
log = −3, 473 + 1, 535 log2 (dosei ) - fêmeas;
1 − pî
e as doses que matam 50% dos insetos

ˆ 50 ) = 2, 372 = 1, 54 ⇒ DL50 = 4, 68 - machos,
log2 (DL
1, 535
ˆ 50 ) = 3, 473 = 2, 26 ⇒ DL50 = 9, 61 - fêmeas.
log2 (DL
1, 535
Verifica-se que as fêmeas são mais resistentes, pois para matar 100p% das
fêmeas há necessidade de uma dose duas vezes maior do que para matar 100p% dos
machos. Pode-se verificar que a dose letal correspondente a p = 0, 9 para as fêmeas
está fora do intervalo estudado, o que é perigoso, pois acima da dose 32 não se sabe
se o comportamento será o mesmo. Se o interesse estiver na estimação dessa dose há
necessidade de se aumentar a amplitude de doses para fêmeas em um novo experimento.
Necessária se faz ainda uma análise de resı́duos e diagnósticos. A Figura 7.1 mostra o
gráfico das curvas ajustadas e os valores observados.
Exemplo 7.3: Potência relativa - Mortalidade do besouro da farinha

Grupos de insetos (Tribolium castaneum, praga da farinha) foram expostos a doses
(mg/l) crescentes de DDT, γ-BHC e mistura dos dois. Depois de 6 dias foram contados os
1.0
*
*
0.8
+
Proportions *
0.6
+
+
0.4 *
+
0.2
*
+
+*
0.0
1 2 5 10 20
log(dose)
Figura 7.1: Cypermetrin - Proporções observadas e curvas ajustadas
números de insetos mortos e os resultados obtidos estão na Tabela 7.6 (Collet, 2002).
Tabela 7.6: Proporções de insetos mortos quando expostos a doses crescentes de

DDT, γ-BHC e mistura dos dois.
Inseticida log(Doses)
2,00 2,64 3,48 4,59 6,06 8,00
DDT 3/50 5/49 19/47 19/50 24/49 35/50
γ-BHC 2/50 14/49 20/50 27/50 41/50 40/50
DDT + γ-BHC 28/50 37/50 46/50 48/50 48/50 50/50
Considerações
Variável resposta: Yi – número de insetos mortos em amostras de tamanho mi
Distribuição: Binomial
Parte sistemática: completamente casualizado, modelos de regressão.
Objetivo: determinação de doses letais e comparação de inseticidas.
A Tabela 7.7 apresenta os desvios e as estatı́sticas X 2 residuais e seus respectivos
números de graus de liberdade (g.l.) e a Tabela 7.8, a análise de desvios, considerando-se
o modelo logı́stico.

Modelo d.f. Desvios Valor de p X 2 Valor de p
Constante 17 413,6 < 0, 0001 347,1 < 0, 0001
Inseticida 15 234,7 < 0, 0001 215,0 < 0, 0001
Dose 12 242,6 < 0, 0001 218,9 < 0, 0001
Inseticida + Dose 10 12,8 0, 2316 11,8 0, 2989
Verifica-se que existem evidências de que o modelo com preditor linear com dois
fatores aditivos, inseticida (com três nı́veis, j = 1, 2, 3) e dose (com 6 nı́veis, k = 1, . . . , 6,
em princı́pio sem levar em consideração o fato de serem quantitativos), ajusta-se bem aos
dados, enquanto que os modelos mais simples, não. Não há, portanto, evidência de efeito
de interação entre os dois fatores.

Causas de variação g.l. Desvios Valor de p
Inseticida 2 178,9 < 0, 0001
Inseticida|Dose 2 229,8 < 0, 0001
Dose 5 171,0 < 0, 0001
Dose|Inseticida 5 221,8 < 0, 0001
Resı́duo 10 12,8 0,2316
Total 17 413,6
Pela Tabela 7.8 verifica-se que há evidências para efeito significativo de inseticida
e de dose. Note-se, ainda, que os desvios para inseticida ignorando dose e, para inseticida
ajustado para dose, são diferentes devido à não ortogonalidade por se estar considerando a
distribuição binomial. O mesmo ocorre para dose ignorando inseticida e para dose ajustada
para inseticida. Pode-se, ainda, tentar uma simplificação desse modelo, considerando que
dose é um fator quantitativo. Se for usado como preditor linear um polinômio com x =
log(dose), pode-se considerar os modelos de retas concorrentes, paralelas, com intercepto
comum e coincidentes. Os resultados para o desvio e a estatı́stica X 2 residuais estão
apresentados na Tabela 7.9.

Constante 17 413,6 < 0, 0001 347,1 < 0, 0001
Inseticida + Inseticida log(dose) 12 17,9 0, 1191 17,6 0, 1280
Inseticida + log(dose) 14 21,2 0, 0946 20,3 0, 1203
Const. + Inseticida log(dose) 14 24,7 0, 0375 28,0 0, 0141
Const. + log(dose) 16 246,8 < 0, 0001 219,8 < 0, 0001
Pela Tabela 7.9, observa-se que existem evidências que os modelos com retas
concorrentes e paralelas ajustam-se bem aos dados. Tem-se, ainda, que a diferença de
desvios entre os modelos com retas paralelas e retas concorrentes com 2 graus de liberdade,
não é, estatisticamente, significante. Utilizando de parcimônia e facilidade de interpretação
opta-se pelo modelo de retas paralelas cuja análise de desvios está descrita na Tabela 7.10.

Causas de variação d.f. Desvios Valor de p
Inseticida 2 178,9 < 0, 0001
Regressão Linear 1 213,4 < 0, 0001
Resı́duo 14 21,2 0, 0946
Total 17 413.6
A partir do
( modelo ) escolhido obtêm-se, então, as equações:
pî
DDT: log = −3, 8425 + 2, 6958 log(dosei )
1 − pî
( )
pî
γ-BHC: log = −4, 5553 + 2, 6958 log(dosei )
1 − pî
( )
pî
DDT + γ-BHC: log = −1, 4248 + 2, 6958 log(dosei );
1 − pî
as doses que matam 50% dos insetos são

ˆ 50 ) = 3, 8425 = 1, 42 ⇒ LD50 = 4, 16
DDT: log(LD
2, 6958
ˆ 50 ) = 4, 5553 = 1, 69 ⇒ LD50 = 5, 42
γ-BHC: log(LD
2, 6958
ˆ 50 ) = 1, 4248 = 0, 53 ⇒ LD50 = 1, 70
DDT + γ-BHC: log(LD
2, 6958
e as potências relativas
4, 16
da mistura em relação ao DDT: = 2, 45
1, 696
5, 417
da mistura em relação ao γ-BHC: = 3, 19,
1, 696
mostrando evidência de sinergismo, isto é, a mistura dos inseticidas potencializa o efeito.
Necessária se faz ainda uma análise de resı́duos e diagnósticos. A Figura 7.2 mostra o
gráfico das curvas ajustadas e os valores observados.
1.0
−
− − − −
−
3
− +
0.8
+
2
−
+ + *
Logit(proporçoes)
−
0.6
1
proporçoes
* − +
− + *
0
*
0.4
+
* +
*
* *
+
−1
+
0.2
−2
*
*
* *
+
0.0
−3
2 3 4 5 6 7 8 2 3 4 5 6 7 8
dose dose
Figura 7.2: Tribolium - Proporções observadas e curvas ajustadas
7.1.4 Outros exemplos

Exemplo 7.4: Cultura de tecidos de macieiras
Os dados apresentados na Tabela 7.11 referem-se a um experimento no delinea-
mento casualizado em blocos com cultura de tecidos de macieiras. Os tratamentos no
esquema fatorial 2 × 3 × 3 foram: A - 2 tipos de citocinina (BAP, TDZ); B - 3 nı́veis de
citocinina (5,0; 1,0 e 0,1) e C - 3 tipos de auxina (NAA, IBA, 2-4D). Cada parcela do
Tabela 7.11: Dados de um experimento com cultura de tecidos de macieiras.

Citocinina Blocos
Tipo Nı́vel Auxina 1 23456 7 8 9 10
NAA 1 10010 1 0 1 1
5,0 IBA 0 11111 0 1 1 1
2-4D 1 11111 1 0 0 1
NAA 0 00000 0 0 0 0
BAP 1,0 IBA 1 11001 1 0 1 1
2-4D 1 01101 1 1 1 1
NAA 0 01110 1 0 0 0
0,1 IBA 0 00111 1 0 1 0
2-4D 0 01111 1 0 1 1
NAA 1 11110 1 1 1 1
5,0 IBA 1 11111 1 1 1 1
2-4D 1 01111 1 1 1 1
NAA 1 11111 1 1 1 1
TDZ 1,0 IBA 1 11111 1 1 1 1
2-4D 1 11111 1 1 1 0
NAA 1 11111 1 0 1 1
0,1 IBA 1 11111 0 1 1 1
2-4D 0 01011 1 1 1 1
experimento era constituı́da de um recipiente em que era colocado o meio de cultura (de
acordo com a combinação dos nı́veis dos 3 fatores) e o explante. O objetivo desse expe-
rimento é verificar a influência dos fatores sobre a regeneracão e se existe interação entre
eles.
A variável resposta, Y , é binária, isto é,


1 o explante regenerou após 4 semanas
Y =

0 em caso contrário
e, portanto, a distribuição a ser considerada é a Bernoulli (caso particular da binomial).

Como função de ligação pode ser usada a logı́stica g(µ) = log[µ/(1 − µ)] e como parte
sistemática tem-se um delineamento casualizado em blocos com três fatores, isto é, com
preditor linear:
η = δl + αi + βj + γk + αβij + αγik + βγjk + αβγijk .

Tabela 7.12: Desvios e X 2 residuais.

Causas de Variação g.l. Desvios X 2
1 179 202,44 180,0
Bl 170 193,79 180,0
Bl+A 169 165,65 179,5
Bl+B 168 189,72 183,4
Bl+C 168 187,07 178,9
Bl+A+B 167 160,83 181,8
Bl+A+C 167 157,57 207,1
Bl+B+C 166 182,83 181,5
Bl+A*B 165 157,57 189,2
Bl+A*C 165 147,82 210,3
Bl+B*C 163 142,27 214,0
Bl+A*B+C 163 149,03 221,0
Bl+A*C+B 163 142,27 214,0
Bl+B*C+A 161 148,08 203,1
Bl+A*B+A*C 161 138,66 197,9
Bl+A*B+B*C 159 141,71 547,8
Bl+B*C+A*C 159 137,05 232,7
Bl+A*B*C 153 127,01 152,4
A Tabela 7.12 apresenta os desvios e X 2 residuais e seus respectivos números de

graus de liberdade (g.l.) e a Tabela 7.13, a análise de desvios, considerando-se o modelo
logı́stico.
O desvio residual não é informativo para a verificação da adequação dos modelos
para dados binários, pois é apenas uma função dos dados. A diferença entre desvios,
porém, pode ser utilizada e comparada com o percentil de uma distribuição χ2ν com ν
graus de liberdade. Verifica-se, então, que apenas o Tipo de Citocinina e o Tipo de Auxina
têm influência significativa na regeneração de tecidos de macieiras e, além do mais, existe
uma interação entre esses dois fatores, conforme mostra a Tabela 7.13, para os modelos
encaixados na seqüência. Foi, então, considerado o modelo reduzido com preditor linear:
η = δl + αi + γk + αγik
e os resultados estão na Tabela 7.14. Necessária se faz, ainda, uma análise de resı́duos e
diagnósticos.
Tabela 7.13: Análise de Desvios.

Blocos 9 8,6 0,470
Tipo de Citocinina (A) 1 28,1 < 0, 0001
Nı́vel de Citocinina (B|A) 2 4,8 0,090
Auxina (C|A,B) 2 8,4 0,015
AB|(A,B,C) 2 3,4 0,180
AC|(A*B,C) 2 10,4 0,006
BC|(A*B,A*C) 4 6,0 0,198
ABC 4 5,6 0,227
Resı́duo 153 127,0 0,938
Total 179 202,4

Blocos 9 8,6 0,470
Tipo de Citocinina (A) 1 28,1 < 0, 0001
Auxina (C|A) 2 8,1 0,018
AC|(A,C) 2 9,7 0,008
Resı́duo 165 147,8 0,827
Total 179 202,4
As médias, considerando-se os fatores tipo de citocinina e tipo de auxina, estão

apresentadas na Tabela 7.15.
Verifica-se que o dado da casela marcada é o responsável pela interação signi-
ficativa entre os dois fatores. Na realidade esse experimento foi repetido mais 4 vezes e a
interação não foi significativa.
Exemplo 7.5: Proporções de gemas florais de macieiras

Os dados da Tabela 7.16 referem-se a um experimento em que gemas de galhos
de três variedades de macieiras foram classificadas em florais ou vegetativas. Para cada
variedade os galhos foram agrupados de acordo com o número de frutos (de 0 a 4) produzi-
dos no ano anterior. O objetivo do experimento foi estudar a relação entre a proporção de
gemas florais e o número de frutos produzidos no ano anterior e verificar se essa relação
Tabela 7.15: Tabela de médias.

Auxina
Tipo de Citocinina NAA IBA 2-4D
BAP 0,33 0,67 0,77
TDZ 0,93 0,97 0,83
Tabela 7.16: Número de frutos produzidos no ano anterior e o número de gemas.

Número de frutos Número total Número de Proporção de
Variedades no ano anterior (X) de gemas (N) gemas florais (Y) gemas florais (P)
0 69 42 0,61
1 93 43 0,46
Crispin 2 147 59 0,40
3 149 57 0,38
4 151 43 0,28
0 34 12 0,35
1 92 15 0,16
Cox 2 133 18 0,14
3 146 14 0,10
4 111 9 0,08
0 21 6 0,29
1 89 20 0,22
Golden Delicious 2 118 20 0,17
3 124 21 0,10
4 81 4 0,00
era diferente para as variedades estudadas.

A variável resposta, Yi , é o número de gemas florais em totais de mi gemas, e,
portanto, a distribuição a ser considerada é a binomial. Como função de ligação pode
ser usada a logı́stica g(µi /mi ) = log[µi /(mi − µi )] e como parte sistemática tem-se um
delineamento inteiramente casualizado com fatores, variedades (qualitativo) e número de
frutos no ano anterior (quantitativo). Os preditores lineares a serem considerados são retas
que podem ser concorrentes, paralelas, com intercepto comum ou coincidentes, para as três
variedades.
A Tabela 7.17 apresenta os desvios e X 2 residuais e seus respectivos números de
graus de liberdade (g.l.).
Verifica-se que existem evidências de que os modelos com retas paralelas e com
retas concorrentes ajustam-se bem aos dados, enquanto que os outros modelos, não. Além
disso, ao se considerar a diferença de desvios para o modelo com retas paralelas e com
retas concorrentes (8,80 – 7,87 = 0,93) existem evidências de que ela não é significativa.
Tabela 7.17: Desvios e X 2 residuais.

Causas de Variação g.l. Desvios Valor de p X 2 Valor de p
η=α 14 182,16 < 0, 0001 181,10 < 0, 0001
η = α + βx 13 138,99 < 0, 0001 139,00 < 0, 0001
η = αj 12 53,04 < 0, 0001 54,51 < 0, 0001
η = α + βj x 11 31,08 0,0011 30,97 0,0011
η = αj + βx 11 8,80 0,6403 8,67 0,6523
η = αj + βj x 9 7,87 0,5473 7,76 0,5585
Na Tabela 7.18, tem-se a análise de desvios para o modelo de retas paralelas. Observa-se
que existem evidências para o efeito de variedades e para o efeito de regressão linear.

Variedades 2 129,12 < 0, 0001
Resı́duo 11 8,80 0,6403
Total 14 182,16
(a) (b)
1.0
1.0
0.8
0.8
Proporçoes de gemas florais
Proporçoes de gemas florais

0.6
0.6
* *
* *
0.4
0.4
* *
+ * + *
− * − *
− −
0.2
0.2
+ − − + − −
+ +
+ + + +
− −
0.0
0.0
0 1 2 3 4 0 1 2 3 4
Número de frutos no ano anterior Número de frutos no ano anterior
Figura 7.3: Curvas ajustadas e valores observados.
Na Figura 7.3(a) estão representadas as curvas para as proporções de gemas

florı́feras em relação ao número de frutos no ano anterior, usando-se o modelo logı́stico
tendo como preditor linear retas paralelas para as três variedades. Verifica-se que as retas
para as variedades Cox e Golden Delicious estão muito próximas e, portanto, é interessante
testar se elas diferem estatisticamente. Um novo modelo foi usado, considerando-se os da-
dos das variedades Cox e Golden Delicious como se fosse uma única variedade. A diferença
entre os desvios residuais, (10,64 - 8,80 = 1,84) indica que existem evidências de que as
variedades Cox e Golden Delicious comportam-se de forma semelhante. Os resultados
obtidos para a análise de desvio estão na Tabela 7.19.

Variedades 1 127,17 < 0, 0001
Resı́duo 12 10,64 0,556
Total 14 182,16
Logo, a proporção esperada de gemas florais pode ser calculada por



 e0,3605−0,3302x
 i = 1, . . . , 5
π̂i = 1 −−1,0285−0,3302x
e0,3605−0,3302x

 e
 i = 6, . . . , 15
1 − e−1,0285−0,3302x
e a curva de π̂i versus x está representada na Figura 7.3(b), conjuntamente com os valores
observados.
7.2 Dados de contagem
7.2.1 Modelo de Poisson

Exemplo 7.6: Armazenamento de microorganismos
A Tabela 7.20 mostra concentrações de bactérias (contagens por área fixa) feitas
no congelamento inicial (−70o C) e após 1, 2, 6 e 12 meses (Francis et al., 1993).
Pode-se supor, inicialmente, que Y , o número de bactérias por área fixa, segue a
distribuição de Poisson com média µ, isto é, Y ∼ P(µ). Além disso, em geral, espera-se
Tabela 7.20: Concentrações de bactérias por área fixa
Tempo 0 1 2 6 12
Contagem 31 26 19 15 20
que a contagem média decresça com o tempo, isto é,
1
µi ∝
(tempo)γ
e, portanto,
log(µi ) = β0 + β1 log(tempoi + 0, 1),
sendo a constante 0, 1 adicionada para evitar problemas com o tempo 0. A Tabela 7.21
apresenta os desvios e as estatı́sticas X 2 residuais e seus respectivos números de graus de
liberdade (g.l.). A Tabela 7.22 apresenta a análise de desvios, considerando-se o modelo
log-linear com preditores lineares ηi = β0 (modelo M1 ) e ηi = β0 + β1 log(tempoi + 0, 1)
(modelo M2 ).

Modelo g.l. Desvios X2
M1 4 7,0672 7,1532
M2 3 1,8338 1,8203
Observa-se que existem evidências de que o modelo M2 ajusta-se bem aos dados,
enquanto que o modelo nulo M1 , não. Pela Tabela 7.22, confirma-se que há evidências do

Causas de variação g.l. Desvios Valor de p
Linear Regression 1 5,2334 0, 0222
Error 3 1,8338
Total 4 7,0672
efeito significativo da regressão linear. A equação da curva ajustada é expressa por
log(µ̂i ) = 3, 149 − 0, 1261 log(tempoi )

30
*
25
Counts
20
*
*
15
*
0 2 4 6 8 10 12
Time in months
Figura 7.4: Concentrações de bactérias por área fixa: valores observados e curva
ajustada
que pode ser observada na Figura 7.4 juntamente com os valores observados.
O gráfico dos resı́duos versus valores ajustados e o gráfico normal de probabili-
dades (Figura 7.5) confirmam o bom ajuste do modelo M2 .
0.5
0.5
Resíduos
Residuos
0.0
0.0
−0.5
−0.5
18 20 22 24 26 28 30 −1.0 −0.5 0.0 0.5 1.0
Valor ajustado Quantis teóricos
Figura 7.5: Concentrações de bactérias por área fixa: gráfico dos resı́duos versus
valores ajustados e gráfico normal de probabilidades
Exemplo 7.7: Número de brotos em um estudo de micropropagação de ma-

cieiras
Tabela 7.23: Números de brotos por explante.

Meio de Cultura Hormônio Número de Brotos
A X1 45 2 1 2 5 22*
A X2 35 3 2 2 1 223 1 44 2 4 * 1**
2* *
B X1 41 4 5 4 5 543 3 44 2 3 2 101
04 2 6 2 2 33* 1 5*
B X2 22 1 2 4 4 2 3 0 0 0 4 12 0 4 104
08 2 2 4 * 3 1 * 10 * *
C X1 02 0 1 1 3 533 3 21 2 2 2 022
22 2 2 0 2
C X2 22 3 11 6 5 5 3 4 6 4 * 4 4 * 33*
Os dados apresentados na Tabela 7.23 referem-se ao número de brotos produzi-

dos por explante em um experimento de micropropagação. O delineamento experimental
utilizado foi o inteiramente casualizado com os tratamentos no esquema fatorial 3 × 2, isto
é, 3 meios de cultura aos quais era adicionada uma quantia de hormônio (2 nı́veis, X1:
quantia pequena e X2: quantia grande). As parcelas eram constituı́das de recipientes com
3 explantes e os dados estão apresentados em grupos de 3 para indicar os recipientes dife-
rentes. Inicialmente, havia 10 recipientes (portanto, 30 explantes) para cada tratamento,
porém, alguns explantes morreram. No caso em que morreram todos os explantes, o re-
cipiente foi eliminado do experimento, pois algumas dessas mortes podem ter sido devido
à contaminação com bactérias o que não está relacionado com o tratamento. No caso em
que houve uma ou duas mortes no recipiente, os dados foram considerados e, usou-se * no
lugar do dado faltante. O objetivo é verificar se existe interação entre meio de cultura e
quantidade de hormônio e se influenciam o número de brotos.
A variável resposta, Yi , é o número de de brotos, e, portanto, a distribuição

a ser considerada é a Poisson. Como função de ligação pode ser usada a logarı́tmica
g(µ) = log(µ) e como parte sistemática tem-se um delineamento inteiramente casualizado
com k (1,2,3) plantas por parcela e como fatores, meio de cultura e quantidade de hormônio.
O preditor linear inicial a ser considerado é
η = αi + βj + αβij + ξk .
A Tabela 7.24 apresenta a análise de desvios, considerando-se o modelo proposto.

Meio de cultura (M) 2 0,42 0,810
Nı́veis de hormônio (H) 1 5,20 0,023
Interação M x H 2 14,93 0,001
Entre recipientes 38 61,99 0,008
Entre pl. d. recipientes 73 94,70 0,044
Total 116 177,31
Verifica-se que a diferença entre os desvios obtidos para Entre recipientes e Entre
plantas dentro de recipientes não é significativa. Adotou-se, então, como preditor linear
η = αi + βj + αβij , obtendo-se os resultados da Tabela 7.25.

Meio de cultura (M) 2 0,42 0,810
Nı́veis de hormônio (H) 1 5,20 0,023
Interação M x H 2 14,93 0,001
Resı́duo 111 156,76 0,003
Total 116 177,31
O desvio residual mostra que existem evidências de que o modelo usado está se
ajustando relativamente bem aos dados. Há necessidade, porém, de se utilizarem outras
técnicas de diagnósticos como complementação. Observa-se, ainda, que a interação entre
meios de cultura e nı́veis de hormônio é significativa. Ao se observar o quadro de médias
apresentado na Tabela 7.26, verifica-se que a interação está sendo significativa devido
ao meio de cultura C. O exame da Tabela 7.23, indica duas parcelas em destaque cuja
influência na análise mereceria ser melhor estudada.
Tabela 7.26: Quadro de médias.

Meios de Nı́veis de Hormônio
Cultura Baixo Alto Médias
A 2,9 2,6 2,7
B 3,0 2,9 2,9
C 1,8 4,3 2,8
Médias 2,5 3,2
Exemplo 7.8: Números de espécies de plantas

Os dados da Tabela 7.27 (?) referem-se a números de espécies de plantas em
parcelas com diferentes quantidades de biomassa (variável contı́nua) e solos com diferentes
pH (fator com três nı́veis: alto, médio e baixo). O interesse desse estudo é verificar se
existe relação entre o número de espécies de plantas e a quantidade de biomassa e se essa
relação é diferente para os solos com diferentes nı́veis de pH.
A variável resposta, número de espécies de plantas, é uma contagem e, portanto, a
distribuição a ser usada é a de Poisson com função de ligação logarı́tmica. Para o preditor
linear adotam-se os modelos de retas paralelas e de retas concorrentes, isto é,
ηi = β1j + β2 biomassai , j = 1, 2, 3 (Modelo 1)
e
ηi = β1j + β2j biomassai , j = 1, 2, 3 (Modelo 2).
O desvio residual para o modelo de retas paralelas é 99, 2 com 86 graus de liber-
dade, enquanto que para o modelo de retas concorrentes é 83, 2 (p = 0, 50) com 84 graus
de liberdade, sendo 16, 0 a diferença de desvios com 2 graus de liberdade, mostrando
evidência significativa (p = 0, 00033) em favor do modelo de retas concorrentes. Além
disso, existe evidência de efeito significativo do fator pH (desvio 187 com 2 graus de liber-
dade, p < 0, 001) e de regressão linear de biomassa dentro de pH (desvio 182 com 3 graus de
liberdade, p < 0, 001). Por outro lado, o modelo de retas concorrentes está bem ajustado
3
2
2
1
1
Resíduos
Residuos
0
0
−1
−1
−2
−2
10 20 30 40 −2 −1 0 1 2
Valor ajustado Quantis teóricos
Figura 7.6: Números de espécies de plantas: gráfico dos resı́duos versus valores
ajustados e gráfico normal de probabilidades.
aos dados conforme mostram o gráfico dos resı́duos versus valores ajustados e o gráfico
normal de probabilidades (Figura 7.6).
A partir do modelo escolhido obtêm-se, então, respectivamente, as equações

das curvas ajustadas:
µ̂ = 0, 0615 − 0, 1071biomassai - solo de pH alto,
µ̂ = 3, 4367 − 0, 1390biomassai - solo de pH médio,
µ̂ = 2, 9526 − 0, 2622biomassai - solo de pH baixo,
que podem ser observadas na Figura 7.7 juntamente com os valores observados.
7.2.2 Modelos log-lineares para tabelas 2 × 2
Considere a tabela de contingência 2 × 2 que se segue, em que yij são contagens

associadas aos fatores A e B.
B
A 1 2
1 y11 y12 y1.
2 y21 y22 y2.
y.1 y.2 y..
40
Alto
Médio
Baixo
30
Número de espécies
20
10
0
0 2 4 6 8 10
Biomassa
Figura 7.7: Números de espécies de plantas: valores observados e curvas ajustadas
Uma forma de se medir a associação entre os fatores A e B é por meio da

razão das chances, expressa como
y11 × y22
Razão de chances observada = ψ̂ = .
y12 × y21
O interesse, em geral, está em se saber se o valor obtido não difere, estatisticamente,

de um, isto é, no teste da hipótese H0 : ψ = 1. Isso corresponde, ao teste de
independência para tabelas de contingência, como será mostrado a seguir.
Pode-se supor, inicialmente, que Yij são variáveis aleatórias com distribuição
de Poisson de média µij . Em geral, as distribuições marginais de A e B não são de
interesse. Os modelos de interesse, portanto, são: o modelo de independência e o
modelo saturado.
(i) Modelo de independência: A + B

Como descrito no Capı́tulo 2, o modelo sob independência dos fatores A e
B pode ser expresso por
log(µij ) = µ + αi + βj
ou ainda,
log(µij ) = λ + λA B
i + λj i, j = 1, 2
com λA B
1 = λ1 = 0, isto é, com preditor linear log(µij ) conforme o quadro que se
segue.
B
A 1 2
1 λ λ+ λB
2
2 λ + λA
2 λ+ λA
2 + λB
2
A partir desse preditor linear definem-se a matriz X e o vetor β por

 
1 0 0  
 1 0 1  λ
   A 
X=  , β =  λ2 
 1 1 0 
λB2
1 1 1
e verifica-se que o logaritmo da razão das chances é 0, isto é,
log(ψ) = log(µ11 )+log(µ22 )−log(µ12 )−log(µ21 ) = (λ+λA B B A

2 +λ2 )+λ−(λ+λ2 )−(λ+λ2 ) = 0,
e, portanto, a razão das chances ψ = 1.

Para calcular as estimativas de λ, λA B
2 e λ2 pode-se usar (3.6), resultando em
A B A B A B
y.. = µ̂.. = eλ̂ + eλ̂+λ̂2 + eλ̂+λ̂2 + eλ̂+λ̂2 +λ̂2 = eλ̂ (1 + eλ̂2 )(1 + eλ̂2 ) (7.5)
A A B A B
y2. = µ̂2. = eλ̂+λ̂2 + eλ̂+λ̂2 +λ̂2 = eλ̂+λ̂2 (1 + eλ̂2 ) (7.6)
B A B B A
y.2 = µ̂.2 = eλ̂+λ̂2 + eλ̂+λ̂2 +λ̂2 = eλ̂+λ̂2 (1 + eλ̂2 ). (7.7)
Dividindo-se (7.5) por (7.7), (7.5) por (7.6) e (7.5) pelo produto de (7.6) e
(7.7), após algumas operações algébricas, obtêm-se
( ) ( ) ( )
y1. y.1 A y2. B y.2
λ̂ = log , λ̂2 = log e λ̂2 = log .
y.. y1. y.1
Além disso, a partir de (7.5), tem-se

( ) ( ) ( ) ( )
y2. y.2 y.. y..
log y.. = λ̂ + log 1 + + log 1 + = λ̂ + log + log
y1. y.1 y1. y1.
implicando em ( ) ( )
y1. y.1 y1. y.1
λ̂ = log y.. = log ,
y.. y.. y..
isto é,
y1. y.1
eλ̂ = µ̂11 = y.. = y.. π̂1. π̂.1
y.. y..
confirmando a hipótese de independência. De forma semelhante, obtém-se
B B y1. y.1 y.2 y1. y.2

µ̂12 = eλ̂+λ̂2 = eλ̂ eλ̂2 = y.. = y.. = y.. π̂1. π̂.2 .
y.. y.. y.1 y.. y..
(ii) Modelo saturado ou de interação: A∗B ≡ A+B+A.B

O preditor linear, nesse caso, é expresso como
log(µij ) = λ + λA B AB
i + λj + λij , i, j = 1, 2,
com λA B AB AB
1 = λ1 = λ1j = λi1 = 0, isto é, o preditor linear log(µij ) conforme quadro
que se segue
B
A 1 2
1 λ λ + λB
2
2 λ + λA
2 λ + λA B AB
2 + λ2 + λ22
A partir desse preditor linear definem-se a matriz X e o vetor β por

   
1 0 0 0 λ
 1 0 1 1   λA 
   
X=  , β =  2B  .
 1 1 0 1   λ2 
1 1 1 1 λAB
22
Pode-se mostrar que

( ) ( ) ( )
y21 y12 y22 y11
λ̂ = log(m11 ), λ̂A
2 = log B
, λ̂2 = log AB
e λ̂22 = log = log(ψ̂).
y11 y11 y12 y21
Tem-se, portanto, que o logaritmo da razão de chances corresponde ao

parâmetro de interação e testar a hipótese H0 : ψ = 1 ⇒ log(ψ) = 0 é o mesmo que
testar o efeito da interação no modelo log-linear.
Exemplo 7.9: Coletas de insetos em armadilhas adesivas

Considere os dados descritos no Exemplo 2.4 em que os insetos, de uma
determinada espécie, coletados em armadilhas adesivas de duas cores são sexados,
tendo como objetivo verificar se há influência da cor da armadilha sobre a atração
de machos e fêmeas. Tem-se,
246 × 32
Razão de chances observada = ψ̂ = = 1, 01.
458 × 17
A Tabela 7.28 apresenta os desvios e as estatı́sticas X 2 residuais e seus res-

pectivos números de graus de liberdade (g.l.), considerando-se o modelo log-linear.
Observa-se que existem evidências que o modelo de independência ajusta-se

bem aos dados. Como esperado, o modelo de interação (saturado) tem desvio e
estatı́stica X 2 iguais a zero. As estimativas dos parâmetros do modelo saturado são:
estimativa e.p. parâmetro

1 5,505 0,0638 1
2 0,622 0,0790 armcor(2)
3 -2,672 0,2508 sexo(2)
4 0,011 0,3104 armcor(2).sexo(2)
É importante notar que o modelo saturado reproduz os dados e que o

logaritmo da razão de chances ajustada é log(ψ̂) = 0, 011 resultando em ψ̂ =
exp(0, 011) = 1, 01.
As estimativas para o modelo de efeitos principais (independência) são:
estimativa e.p. parâmetro

1 5,505 0,0624 1
2 0,622 0,0764 armcor(2)
3 -2,665 0,1478 sexo(2)
Nota-se, agora, que o logaritmo da razão de chances é zero. Pela Tabela
7.28 tem-se que a diferença de desvios é 0, 00125 (p = 0, 9117), não significativa, isto
é, existem evidências para não se rejeitar a hipótese que a razão de chances é igual a
1, isto é, não há associação entre sexo do inseto e preferência por cor de armadilha
adesiva.
7.3 Exercı́cios
1. Use o método delta para estimar as doses efetivas θp de uma droga correspondente
ao valor 100p% da taxa de mortalidade para os modelos probito e complemento-log-
log.
2. Calcule a matriz de covariância assintótica das estimativas de máxima verossi-

milhança de β0 e β1 no modelo (7.1), considerando para g(.) as funções de ligação:
logito, probito e complemento log-log. Apresente as equações de estimação dos mo-
delos descritos.
3. Apresente as fórmulas da razão de verossimilhanças para construir intervalos de

confiança para a dose efetiva θp nos modelos logito, probito e complemento log-log.
4. Aranda-Ordaz (1981) propôs o seguinte modelo para representar a probabilidade

de sucesso
π(x) = 1 − (1 + λeβ0 +β1 x )−1/λ
para λeβ0 +β1 x > 1. (a) Estimar os parâmetros β0 , β1 e λ por máxima verossimilhança.
(b) Usar o método delta para construir os intervalos de confiança para a dose efetiva
θp .
completar com mais exemplos
APÊNDICE A
A.1 Dados de cerejeiras

A.1 Dados de Importação Brasileira
A.2 Dados de assinaturas de TV a cabo
A.3 Dados de demanda de energia elétrica
Tabela 7.27: Números de espécies (Y ) de plantas em parcelas com diferentes quan-
tidades de biomassa e solos com diferentes pH.
pH Biomassa Y pH Biomassa Y pH Biomassa Y

high 0,469 30 mid 0,176 29 low 0,101 18
high 1,731 39 mid 1,377 30 low 0,139 19
high 2,090 44 mid 2,551 21 low 0,864 15
high 3,926 35 mid 3,000 18 low 1,293 19
high 4,367 25 mid 4,906 13 low 2,469 12
high 5,482 29 mid 5,343 13 low 2,367 11
high 6,685 23 mid 7,700 9 low 2,629 15
high 7,512 18 mid 0,554 24 low 3,252 9
high 8,132 19 mid 1,990 26 low 4,417 3
high 9,572 12 mid 2,913 26 low 4,781 2
high 0,087 39 mid 3,216 20 low 0,050 18
high 1,237 35 mid 4,980 21 low 0,483 19
high 2,532 30 mid 5,659 15 low 0,653 13
high 3,408 30 mid 8,100 8 low 1,555 9
high 4,605 33 mid 0,740 31 low 1,672 8
high 5,368 20 mid 1,527 28 low 2,870 14
high 6,561 26 mid 2,232 18 low 2,511 13
high 7,242 36 mid 3,885 16 low 3,498 4
high 8,504 18 mid 4,627 19 low 3,679 8
high 9,391 7 mid 5,121 20 low 4,832 2
high 0,765 39 mid 8,300 6 low 0,290 17
high 1,176 39 mid 0,511 25 low 0,078 14
high 2,325 34 mid 1,478 23 low 1,429 15
high 3,223 31 mid 2,935 25 low 1,121 17
high 4,136 24 mid 3,505 22 low 1,508 9
high 5,137 25 mid 4,618 15 low 2,326 8
high 6,422 20 mid 5,697 11 low 2,996 12
high 7,066 21 mid 6,093 17 low 3,538 14
high 8,746 12 mid 0,730 24 low 4,365 7
high 9,982 11 mid 1,158 27 low 4,871 3
Model d.f. Desvios X2
Cor da armadilha + sexo 1 0,001254 0,001252
Cor da armadilha * sexo 0 0
Tabela 7.29: Medidas de diâmetro a 4,5 pés acima do solo (D, polegadas) e altura
(H, pés) de 21 cerejeiras (black cherry) em pé e de volume (V , pés cúbicos) de árvores
derrubadas (Ryan et al., 1976, p. 329).
Amostra D H V Amostra D H V
1 8,3 70 10,3 17 12,9 85 33,8
2 8,6 65 10,3 18 13,3 86 27,4
3 8,8 63 10,2 19 13,7 71 25,7
4 10,5 72 16,4 20 13,8 64 24,9
5 10,7 81 18,8 21 14,0 78 34,5
6 10,8 83 19,7 22 14,2 80 31,7
7 11,0 66 15,6 23 14,5 74 36,3
8 11,0 75 18,2 24 16,0 72 38,3
9 11,1 80 22,6 25 16,3 77 42,6
10 11,2 75 19,9 26 17,3 81 55,4
11 11,3 79 24,2 27 17,5 82 55,7
12 11,4 76 21,0 28 17,9 80 58,3
13 11,4 76 21,4 29 18,0 80 51,5
14 11,7 69 21,3 30 18,0 80 51,0
15 12,0 75 19,1 31 20,6 87 77,0
16 12,9 74 22,2
Tabela 7.30: Importações brasileiras (IM) em milhões de dólares, taxa de câmbio
(TCI) e o Produto Interno Bruto representando a renda nacional (RN), no perı́odo
de 1980 a 1998.
IM TCI RN IM TCI RN
5482 1.629 82.17 4046 1.423 109.40
5749 1.517 88.80 5495 1.356 111.36
6043 1.331 87.94 5173 1.244 105.50
5679 1.181 85.28 4576 1.046 97.60
5605 1.315 82.06 4265 1.091 96.39
5565 1.217 86.49 5474 1.091 106.01
5610 1.177 82.62 6345 1.300 100.01
5309 1.135 78.30 4330 1.380 91.70
4804 1.434 78.34 5034 1.354 104.02
4872 1.306 87.11 5614 1.314 108.26
5071 1.209 85.77 6015 1.452 101.05
4646 1.156 80.91 4630 1.499 97.02
3824 1.740 75.88 4725 1.626 101.71
3651 2.004 83.65 5221 1.467 103.80
3907 1.957 82.80 5976 1.441 101.30
4044 1.959 80.10 5230 1.421 99.90
3155 1.971 79.10 6007 1.388 106.90
3406 2.015 87.59 7328 1.340 108.92
3730 2.024 87.19 6914 1.305 106.01
3623 2.027 85.94 6049 1.283 104.01
3094 2.036 84.55 7087 1.279 109.66
3016 2.219 92.47 8023 1.075 115.30
3132 2.201 95.23 11814 0.957 116.45
3925 2.131 94.44 12065 0.942 113.92
3352 2.013 90.69 13651 0.955 116.09
2760 2.023 99.48 11917 0.951 115.67
3661 1.991 102.87 12030 0.970 114.93
4270 1.924 101.15 10738 0.980 111.63
3565 1.832 97.65 12478 0.995 118.06
3610 1.792 106.21 14235 1.012 122.90
3987 1.914 103.45 15837 1.030 120.69
3888 1.789 101.10 13150 1.049 116.90
3516 1.692 97.72 15405 1.067 123.85
3349 1.657 105.78 16930 1.086 126.37
3776 1.643 105.84 15873 1.106 122.55
3963 1.607 98.87 13415 1.126 118.11
3548 1.557 95.01 14591 1.147 125.74
Tabela 7.31: Número de assinantes (em milhares) de TV a Cabo (y) em 40 áreas
metropolitanas, número de domicı́lios (em milhares) na área (x1 ), renda per capita
(em US$) por domicı́lio com TV a cabo (x2 ), taxa de instalação (x3 ), custo médio
mensal de manutenção (x4 ), número de canais a cabo disponı́veis na área (x5 ) e
número de canais não pagos com sinal de boa qualidade disponı́veis na área (x6 ),
(Ramanathan, 1993).
y x1 x2 x3 x4 x5 x6
105,000 350,000 9839 14,95 10,00 16 13
90,000 255,631 10606 15,00 7,50 15 11
14,000 31,000 10455 15,00 7,00 11 9
11,700 34,840 8958 10,00 7,00 22 10
46,000 153,434 11741 25,00 10,00 20 12
11,217 26,621 9378 15,00 7,66 18 8
12,000 18,000 10433 15,00 7,50 12 8
6,428 9,324 10167 15,00 7,00 17 7
20,100 32,000 9218 10,00 5,60 10 8
8,500 28,000 10519 15,00 6,50 6 6
1,600 8,000 10025 17,50 7,50 8 6
1,100 5,000 9714 15,00 8,95 9 9
4,355 15,204 9294 10,00 7,00 7 7
78,910 97,889 9784 24,95 9,49 12 7
19,600 93,000 8173 20,00 7,50 9 7
1,000 3,000 8967 9,95 10,00 13 6
1,650 2,600 10133 25,00 7,55 6 5
13,400 18,284 9361 15,50 6,30 11 5
18,708 55,000 9085 15,00 7,00 16 6
1,352 1,700 10067 20,00 5,60 6 6
170,000 270,000 8908 15,00 8,75 15 5
15,388 46,540 9632 15,00 8,73 9 6
6,555 20,417 8995 5,95 5,95 10 6
40,000 120,000 7787 25,00 6,50 10 5
19,900 46,390 8890 15,00 7,50 9 7
2,450 14,500 8041 9,95 6,25 6 4
3,762 9,500 8605 20,00 6,50 6 5
24,882 81,980 8639 18,00 7,50 8 4
21,187 39,700 8781 20,00 6,00 9 4
3,487 4,113 8551 10,00 6,85 11 4
3,000 8,000 9306 10,00 7,95 9 6
42,100 99,750 8346 9,95 5,73 8 5
20,350 33,379 8803 15,00 7,50 8 4
23,150 35,500 8942 17,50 6,50 8 5
9,866 34,775 8591 15,00 8,25 11 4
42,608 64,840 9163 10,00 6,00 11 6
10,371 30,556 7683 20,00 7,50 8 6
5,164 16,500 7924 14,95 6,95 8 5
31,150 70,515 8454 9,95 7,00 10 4
18,350 42,040 8429 20,00 7,00 6 4
Tabela 7.32: Demanda de eletricidade agregada per capita para o setor residencial
(ELAR), como função das variáveis preço médio da eletricidade para o setor residencial
(PER), preço do gás natural para o setor residencial (PGR) e renda per capita (RECA).
As variáveis binárias D1, D2, D3 e D4 representam os trimestres, enquanto que a variável
Tri representa o fator trimestre. Os dados foram coletados no primeiro trimestre de 1961
até o quarto trimestre de 1983, com o total de 92 observações.
ANO Tri ELAR PER PGR RECA D1 D2 D3 D4
1 1 0.30800536 7.64518690 2.77420998 0.00914456 1 0 0 0
1 2 0.26834363 7.95841503 3.10906148 0.00923471 0 1 0 0
1 3 0.27840772 7.92997503 4.04409552 0.00932230 0 0 1 0
1 4 0.28370830 7.82164145 3.05730581 0.00950548 0 0 0 1
2 1 0.33067492 7.35322905 2.71285081 0.00960076 1 0 0 0
2 2 0.28388155 7.71690655 3.14473939 0.00966927 0 1 0 0
2 3 0.30097651 7.64894676 3.47958493 0.00972013 0 0 1 0
2 4 0.29878822 7.53726721 3.01232100 0.00964969 0 0 0 1
3 1 0.35450837 7.04945183 2.66247821 0.00974009 1 0 0 0
3 2 0.29236847 7.52932024 3.09602141 0.00984403 0 1 0 0
3 3 0.32083428 7.37974453 3.95054865 0.00998568 0 0 1 0
3 4 0.30998397 7.31903124 3.03680444 0.01003013 0 0 0 1
4 1 0.36952662 6.81957054 2.62996173 0.01020502 1 0 0 0
4 2 0.31365973 7.20112085 3.01820755 0.01028083 0 1 0 0
4 3 0.35007703 7.02109432 3.96968317 0.01034642 0 0 1 0
4 4 0.33276981 7.02124262 2.90021181 0.01034942 0 0 0 1
5 1 0.38749585 6.54028463 2.74633431 0.01053808 1 0 0 0
5 2 0.33387709 6.86014271 3.09525871 0.01066791 0 1 0 0
5 3 0.36804986 6.66966391 3.92323565 0.01077701 0 0 1 0
5 4 0.35709164 6.63340855 3.02050757 0.01099775 0 0 0 1
6 1 0.41694346 6.15353727 2.66674948 0.01118029 1 0 0 0
6 2 0.35326710 6.51159859 3.01723003 0.01119937 0 1 0 0
6 3 0.40777826 6.27930784 3.81770802 0.01126028 0 0 1 0
6 4 0.38217804 6.20854807 2.84517026 0.01128659 0 0 0 1
7 1 0.44221917 5.87383795 2.57694674 0.01131980 1 0 0 0
7 2 0.38583204 6.20719862 2.94127989 0.01137994 0 1 0 0
7 3 0.42855132 6.06665373 3.66671538 0.01149168 0 0 1 0
7 4 0.41222385 5.98085690 2.74726343 0.01152810 0 0 0 1
8 1 0.49082169 5.49876261 2.47987032 0.01163357 1 0 0 0
8 2 0.40941107 5.83722544 2.79997373 0.01180093 0 1 0 0
8 3 0.48547110 5.61731529 3.45636535 0.01186746 0 0 1 0
8 4 0.44673607 5.56372929 2.64927459 0.01182800 0 0 0 1
9 1 0.53332543 5.13844633 2.35906005 0.01195509 1 0 0 0
9 2 0.44059545 5.48616648 2.68346119 0.01195672 0 1 0 0
9 3 0.54803473 5.21186781 3.31664300 0.01198937 0 0 1 0
9 4 0.49101120 5.22422218 2.56152606 0.01190421 0 0 0 1
10 1 0.57242423 4.84008980 2.32434344 0.01180006 1 0 0 0
10 2 0.48410484 5.13360834 2.64912558 0.01176797 0 1 0 0
10 3 0.60302770 4.98096657 3.27019763 0.01186475 0 0 1 0
10 4 0.52503026 5.08426189 2.55258965 0.01171888 0 0 0 1
11 1 0.60602528 4.76719999 2.32727671 0.01198772 1 0 0 0
11 2 0.51891249 5.01803827 2.62444520 0.01194521 0 1 0 0
11 3 0.62209785 4.94619703 3.33343983 0.01198712 0 0 1 0
11 4 0.56083840 4.99554968 2.58277440 0.01193268 0 0 0 1
12 1 0.62708759 4.79266357 2.37980080 0.01218264 1 0 0 0
12 2 0.54876824 5.09319210 2.68980694 0.01239293 0 1 0 0
12 3 0.65694511 4.95712137 3.23334769 0.01247493 0 0 1 0
12 4 0.60439968 4.91112804 2.51575303 0.01268085 0 0 0 1
ANO Tri ELAR PER PGR RECA D1 D2 D3 D4
13 1 0.68328059 4.67283297 2.33333063 0.01294289 1 0 0 0
13 2 0.57989609 4.94276857 2.67354584 0.01295302 0 1 0 0
13 3 0.72811598 4.79395962 3.13997459 0.01291298 0 0 1 0
13 4 0.62451297 4.83387899 2.55854464 0.01298187 0 0 0 1
14 1 0.66959435 4.83421087 2.40839648 0.01289692 1 0 0 0
14 2 0.59413171 5.32074070 2.75469518 0.01289350 0 1 0 0
14 3 0.70640928 5.39235258 3.19338322 0.01269503 0 0 1 0
14 4 0.62540507 5.39791536 2.73541474 0.01255311 0 0 0 1
15 1 0.70960039 5.22349358 2.61702061 0.01228601 1 0 0 0
15 2 0.62260377 5.44529819 2.95232224 0.01237817 0 1 0 0
15 3 0.74306965 5.50917530 3.47252870 0.01256718 0 0 1 0
15 4 0.63985091 5.46223164 3.01631594 0.01269196 0 0 0 1
16 1 0.74697447 5.23494911 2.91738129 0.01291349 1 0 0 0
16 2 0.61285406 5.55359745 3.27993631 0.01294898 0 1 0 0
16 3 0.75429350 5.64516401 3.91158652 0.01297108 0 0 1 0
16 4 0.69813275 5.46667147 4.27899122 0.01306254 0 0 0 1
17 1 0.81564754 5.30334044 3.27748561 0.01319841 1 0 0 0
17 2 0.63987577 5.68160534 3.70696568 0.01338583 0 1 0 0
17 3 0.81182355 5.90110493 4.23934031 0.01361182 0 0 1 0
17 4 0.69549668 5.62990713 3.48335361 0.01353800 0 0 0 1
18 1 0.84910756 5.35183573 3.37630939 0.01362886 1 0 0 0
18 2 0.66610706 5.73035097 3.68710351 0.01401979 0 1 0 0
18 3 0.82361311 5.77223778 4.21130323 0.01409499 0 0 1 0
18 4 0.71349722 5.51756096 3.52143955 0.01423942 0 0 0 1
19 1 0.87685442 5.17210197 4.39531507 0.01419568 1 0 0 0
19 2 0.67969620 5.58356667 3.75331378 0.01415907 0 1 0 0
19 3 0.81007040 5.78466034 4.43317604 0.01423306 0 0 1 0
19 4 0.71948880 5.53953552 3.98764658 0.01415617 0 0 0 1
20 1 0.84437078 5.37417889 3.97319126 0.01426184 1 0 0 0
20 2 0.68406653 5.80723810 4.34946060 0.01389695 0 1 0 0
20 3 0.89883024 6.06001234 5.06670094 0.01386312 0 0 1 0
20 4 0.73912853 5.74602461 4.36355448 0.01399696 0 0 0 1
21 1 0.85256535 5.66703844 4.19112778 0.01423567 1 0 0 0
21 2 0.69459844 6.27355528 4.63667440 0.01415394 0 1 0 0
21 3 0.88925880 6.57580376 5.15262365 0.01417765 0 0 1 0
21 4 0.73861104 6.19287395 4.57044888 0.01394008 0 0 0 1
22 1 0.86724007 6.18621683 4.59979963 0.01368745 1 0 0 0
22 2 0.69785839 6.52221394 5.05689907 0.01369381 0 1 0 0
22 3 0.84755844 6.66881037 5.81978750 0.01355230 0 0 1 0
22 4 0.73958969 6.39538670 5.41910744 0.01353536 0 0 0 1
23 1 0.82811236 6.25222349 5.49710894 0.01362200 1 0 0 0
23 2 0.68105930 6.60154247 5.79531860 0.01390618 0 1 0 0
23 3 0.94196534 6.87017965 6.52311754 0.01406361 0 0 1 0
23 4 0.74517667 6.52699089 5.60170937 0.01427785 0 0 0 1
Referências Bibliográficas
Agresti, A. (2002). Categorical Data Analysis. John Wiley & Sons, New York, second
edition.
Aitkin, M.; Francis, B.; Hinde, J.; Darnell, R. (2009). Statistical modelling in R. Oxford
University Press, Oxford.
Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. Auto
Cntl AC-19, 6, 716–723.
Andrews, D. F.; Pregibon, D. (1978). Finding the outliers that matter. Journal of the
Royal Statistical Society B, 40, 87–93.
Anscombe, F. J. (1953). Contribution to the discussion of h. hotelling’s paper. J. R.

Statist. Soc. B, 15, 229–230.
Anscombe, F. J. (1964). Normal likelihood functions. Ann. Inst. Statist. Math., 16, 1–19.
Aranda-Ordaz, F. (1981). On the families of transformations to additivity for binary

response data. Biometrika, 68, 357–363.
Ashton, W. D. (1972). The Logit Transformation with Special Reference to its Uses in
Bioassay. Griffin, London.
Atkinson, A. C. (1981). Robustness, transformations and two graphical displays for outly-
ing and influential observations in regression. Biometrika, 68, 13–20.
Atkinson, A. C. (1985). Transformations and Regression. Oxford University Press, Oxford.
241
Atkinson, A. C.; Davison, A. C.; Nelder, J. A.; O’Brien, C. M. (1989). Model Checking.
Imperial College, London.
Barndorff-Nielsen, O. E. (1978). Information and exponencial families in statistical theory.

John Wiley & Sons, New York.
Belsley, D. A.; Kuh, E.; Welsch, R. E. (1980). Regression diagnostics: identifying influential
data and sources of collinearity. John Wiley, New York.
Berkson, J. (1944). Application of the logistic function to bioassay. J. R. Statist. Soc. B,

39, 357–365.
Birch, M. W. (1963). Maximum likelihood in three-way contingency tables. J. R. Statist.

Soc. B, 25, 220–233.
Bliss, C. I. (1935). The calculator of the dosage-mortality curve. Ann. Appl. Biol., 22,
134–167.
Box, G. E. P.; Cox, D. R. (1964). An analysis of transformation. J. R. Statist. Soc. B, 26,

211–252.
Box, G. E. P.; Tidwell, P. W. (1962). Transformations of the independent variables.

Technometrics, 4, 531–550.
Buse, A. (1982). The likelihood ratio, wald and lagrange multiplier tests: An expository
note. The American Statistician, 36, 153–157.
Collet, D. (2002). Modelling binary data. Chapman and Hall, London, second edition.
Cook, R. D.; Weisberg, S. (1982). Residuals and influence in regression. Chapman and
Hall, London.
Cordeiro, G. M. (1983). Improved likelihood ratio statistics for generalized linear models.
J. Roy. Statist. Soc. B, 45, 401–413.
Cordeiro, G. M. (1986). Modelos lineares generalizados. VII SINAPE, UNICAMP.

Cordeiro, G. M. (1987). On the corrections to the likelihood ratio statistics. Biometrika,
74, 265–274.
Cordeiro, G. M. (1993). Bartlett corrections and bias correction for two heteroscedastic
regression models. Communications in Statistics, Theory and Methods, 22, 169–188.
Cordeiro, G. M. (1995). Performance of a bartlett-type modification for the deviance.

Journal of Statistical Computation and Simulation, 51, 385–403.
Cordeiro, G. M. (1999). Introdução à teoria assintótica. 22o Colóquio Brasileiro de

Matemática, IMPA.
Cordeiro, G. M. (2004a). Corrected likelihood ratio tests in symmetric nonlinear regression

models. Journal of Statistical Computation and Simulation, 74, 609–620.
Cordeiro, G. M. (2004b). On pearson´s residuals in generalized linear models. Statistics

and Probability Letters, 66, 213–219.
Cordeiro, G. M. (2004c). Second-order covariance matrix of maximum likelihood estimates

in generalized linear models. Statistics and Probability Letters, 66, 153–160.
Cordeiro, G. M.; Barroso, L. P. (2007). A third-order bias corrected estimate in generalized

linear models. Test, 16, 76–89.
Cordeiro, G. M.; Cribari-Neto, F.; Aubin, E. Q.; Ferrari, S. L. P. (1995). Bartlett correc-
tions for one-parameter exponential family models. Journal of Statistical Computation
and Simulation, 53, 211–231.
Cordeiro, G. M.; McCullagh, P. (1991). Bias correction in generalized linear models. J.

Roy. Statist. Soc. B, 53, 629–643.
Cox, D. R. (1970). Analysis of binary data. Chapman and Hall, London.
Cox, D. R. (1972). Regression models and life tables (with discussion). J. R. Statist. Soc.
B, 74, 187–220.
Cox, D. R.; Hinkley, D. V. (1986). Theoretical Statistics. University Press, Cambridge.

Cox, D. R.; Snell, E. J. (1968). A general definition of residual (with discussion). J. R.
Statist. Soc. B, 30, 248–275.
Demétrio, C. G. B. (2001). Modelos Lineares Generalizados em Experimentação

Agronômica. ESALQ/USP, Piracicaba.
Dey, D. K.; Gelfand, A. E.; Peng, F. (1997). Overdispersion generalized linear models.
Journal of Statistical Planning and Inference, 68, 93–107.
Dobson, A. J. (2001). An Introduction to Generalized Linear Models. Chapman &

Hall/CRC, London, second edition.
Dyke, G.; Patterson, H. (1952). Analysis of factorial arrangements when the data are
proportions. Biometrics, 8, 1–12.
Fahrmeir, L.; Kaufmann, H. (1985). Consistency and asymptotic normality of the max-
imum likelihood estimator in generalized linear models. The Annals of Statistics, 13,
342–368.
Fahrmeir, L.; Tutz, G. (1994). Multivariate Statistical Modelling based on Generalized

Linear Models. Springer-Verlag, New York.
Feigl, P.; Zelen, M. (1965). Estimation of exponential survival probabilities with concomi-
tant information. Biometrics, 21, 826–838.
Finney, D. (1971). Probit Analysis. Cambridge University Press, London, third edition.
Firth, D. (1991). Generalized linear models. In Hinkley, D.; Reid, N.; Snell, E., editors,
Statistical Theory and Modelling, pages 55–82. Chapman & Hall.
Fisher, R. (1922). On the mathematical foundations of theoretical statistics. Philosophical

Transactions of the Royal Society, 222, 309–368.
Fisher, R. (1925). Statistical methods for research workers. Oliver and Boyd, Edinburgh.
Fisher, R. (1935). The case of zero survivors (appendix to bliss, c.i. (1935)). Ann. Appl.
Biol., 22, 164–165.
Fisher, R.; Yates, F. (1970). Statistical Tables for Biological, Agricultural and Medical
Research. Oliver and Boyd, Edinburgh.
Folks, J.; Chhikara, R. (1978). The inverse gaussian distribution and its statistical appli-
cation, a review. J. R. Statist. Soc. B, 40, 263–289.
Francis, B.; Green, M.; Payne, C. (1993). The GLIM system generalized linear iteractive
modelling. Oxford University Press, Oxford.
Gasser, M. (1967). Exponential survival with covariance. Journal of the American Statis-
tical Association, 62, 561–568.
Gelfand, A.; Dalal, S. (1990). A note on overdispersed exponencial families. Biometrika,

77, 55–64.
Haberman, S. (1970). The general log-linear model. PhD dissertation. Univ. of Chicago
Press, Chicago, Illinois.
Haberman, S. (1974). The analysis of frequence data. Univ. of Chicago Press, Chicago,
Illinois.
Haberman, S. (1978). Analysis of quantitative data, volume 1. Academic Press, New York.
Hardin, J. W.; Hilbe, J. M. (2007). Generalized Linear Models and Extensions. Stata,
Texas, 2 edition.
Hinde, J.; Demétrio, C. G. B. (1998a). Overdispersion: Models and Estimation. XIII

SINAPE, São Paulo.
Hinde, J.; Demétrio, C. G. B. (1998b). Overdispersion: Models and estimation. Computa-

tional Statistics and Data Analysis, 27, 151–170.
Johnson, N. L.; Kotz, S.; Balakrishman, N. (2004). Continuous univariate distributions.

John Wiley & Sons, New York, second edition.
Jørgensen, B. (1987). Exponencial dispersion models (with discussion). J. R. Statist. Soc.

B, 49, 127–162.
Judge, G. G.; Griffiths, W. E.; Hill, R. C.; Lütkepohl, H.; Lee, T.-C. (1985). The theory
and practice of Econometrics. John Wiley & Sons, New York.
Larsen, W. A.; McCleary, S. J. (1972). The use of partial residual plots in regression
analysis. Technometrics, 14, 781–790.
Lee, Y.; Nelder, J. A.; Pawitan, Y. (2006). Generalized Linear Models with Random Effects.
Unified Analysis via H-likelihood. Chapman & Hall/CRC, London.
Mallows, C. L. (1966). Choosing a subset regression. Presented at Annual A.S.A. Meetings,

Los Angeles.
Mantel, N.; Haenszel, W. (1959). Statistical aspects of the analysis of data from retrospec-
tive studies of disease. J. Nat. Cancer Inst., 22, 719–748.
Martin, J. T. (1942). The problem of the evaluation of rotenone-containing plants. vi: The
toxicity of 1-elliptone and of poisons applied jointly, with further observations on the
rotenone equivalent method of assessing the toxicity of derris root. Annals of Applied
Biology, 29, 69–81.
McCullagh, P.; Nelder, J. A. (1989). Generalized Linear Models. Chapman and Hall,
London, second edition.
McCulloch, C. E.; Searle, S. R. (2000). Generalized, Linear, and Mixed Models. John
Wiley & Sons, New York.
Mendenhall, P.; Scheaffer, R. L.; Wackerly, D. D. (1981). Mathematical Statistics with

Applications. Duxbury, Boston.
Molenberghs, G.; Verbeke, G. (2005). Models for discrete longitudinal data. Springer-
Verlag, New York.
Morris, C. N. (1982). Natural exponential families with quadratic variance functions:

statistical theory. Annals of Statistics, 11, 515–529.
Myers, R. H.; Montgomery, D. C.; Vining, G. G. (2002). Generalized Linear Models: With
Applications in Engineering and the Sciences. John Willey, New York.
Nelder, J. A. (1966). Inverse polynomials, a useful group of multifactor response functions.
Biometrics, 22, 128–141.
Nelder, J. A.; Wedderburn, R. W. M. (1972). Generalized linear models. Journal of the

Royal Statistical Society, A, 135, 370–384.
Paula, G. A. (2004). Modelos de Regressão com Apoio Computacional. IME/USP, São

Paulo.
Paulino, C. D.; Singer, J. M. (2006). Análise de dados categorizados. Editora Edgard

Blücher, São Paulo.
Phelps, K. (1982). Use of the complementary log-log function to describe dose response
relationship in inseticide evaluation field trials. In GLIM 82: Proceedings of the Interna-
tional Conference on Generalized Linear Models. Lecture notes in Statistics, volume 14,
pages 155–163. Springer-Verlag, New York.
Pregibon, D. (1979). Data analytic methods for generalized linear models. PhD Thesis.
University of Toronto, Toronto.
Pregibon, D. (1980). Goodness of link tests for generalized linear models. Appl. Statist.,
29, 15–24.
R Development Core Team (2008). R: A Language and Environment for Statistical Com-
puting. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0.
Rao, C. R. (1973). Linear statistical inference and its applications. John Wiley, New York.
Rasch, G. (1960). Probabilistic Models for Some Intelligence and Attainment Tests. Dan-
marks Paedogogiske Institut, Copenhagen.
Ridout, M. S. (1990). Using Generalized Linear Models to Analyze Data from Agricul-
tural, and Horticultural Experiments. Departamento de Matemática e Estatı́stica da
ESALQ/USP, Piracicaba (não publicado).
Ridout, M. S.; Demétrio, C. G. B. (1992). Generalized linear models for positive count
data. Revista de Matemática e Estatı́stica, 10, 139–148.
Ridout, M. S.; Demétrio, C. G. B.; Hinde, J. (1998). Models for count data with many
zeros. Proceedings of XIXth International Biometrics Conference, Cape Town, Invited
Papers, pages . 179–192.
Ridout, M. S.; Fenlon, J. (1998). Statistics in Microbiology. Horticultural Station, East

Malling (Notes for workshop).
Ridout, M. S.; Hinde, J.; Demétrio, C. G. B. (2001). A score test for testing a zero-
inflated poisson regression model against zero-inflated negative binomial alternatives.
Biometrics, 57, 219–223.
Ryan, B. F.; Joiner, B. L.; Ryan Jr., T. A. (1976). Minitab Student Handbook. Duxbury
Press, New York.
Schwarz, G. (1978). Estimating the dimension of a model. Annals of Statistics, 6, 461–464.
Searle, S. (1982). Linear models. John Wiley, New York.
Silveira Neto, S.; Nakano, O.; Barbin, D.; Villa Nova, N. (1976). Manual de Ecologia dos
Insetos. Ed. Agronômica ’Ceres’, São Paulo.
Silvey, S. (1975). Statistical Inference. Chapman and Hall’, London, second edition.
Smyth, G. (1989). Generalized linear models with varying dispersion. Journal of the Royal
Statistical Society B, 51, 47–60.
Theil, H. (1965). The analysis of disturbances in regression analysis. Journal of the

American Statistical Association, 60, 1067–1079.
Tukey, J. (1949). One degree of freedom for non-additivity. Biometrics, 5, 232–242.
Vieira, A.; Hinde, J.; Demétrio, C. (2000). Zero-inflated proportion data models applied
to a biological control assay. Journal of Applied Statistics, 27, 373–389.
Wald, A. (1943). Tests of statistical hypotheses concerning several parameters when the
number of observations is large. Trans. Amer. Math. Soc., 54, 426–482.
Wang, P. (1985). Adding a variable in generalized linear models. Technometrics, 27,
273–276.
Wang, P. (1987). Residual plots for detecting nonlinearity in generalized linear models.
Technometrics, 29, 435–438.
Weisberg, S. (2005). Applied linear regression. John Wiley, New York, third edition.
Wilks, S. (1937). The large sample distribution of the likelihood ratio for testing composite
hypotheses. Ann. Math. Statist., 9, 60–62.
Zippin, C.; Armitage, P. (1966). Use of concomitant variables and incomplete survival
information in the estimation of an exponential survival parameter. Biometrics, 22,
665–672.

Clarice

Enviado por

Direitos autorais:

Formatos disponíveis

Clarice

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Clarice

Enviado por

Direitos autorais:

Formatos disponíveis

Modelos Lineares Generalizados e

Gauss Moutinho Cordeiro

Clarice G.B. Demétrio

Este livro é resultante de vários anos de ensino de cursos e minicursos sobre

1 Famı́lia exponencial de distribuições 1

2 Modelo Linear Generalizado 23

5 Resı́duos e Diagnósticos 135

6 Aplicações a Dados Contı́nuos 177

Muitas das distribuições conhecidas podem ser colocadas em uma famı́lia

1.2 Famı́lia exponencial uniparamétrica

f (x; θ) = h(x) exp [ η(θ) t(x) − b(θ) ], (1.1)

Exemplo 1.1: A distribuição de Poisson P(θ) de parâmetro θ > 0, usada para

Exemplo 1.3: A distribuição de Rayleigh, usada para análise de dados contı́nuos

A famı́lia exponencial na forma canônica é deﬁnida por (1.1), considerando

f (x; θ) = h(x) exp[θx − b(θ)]. (1.2)

Na parametrização (1.2), θ é denominado de parâmetro canônico. O logaritmo da

e, portanto, a função escore U = U (θ) = dℓ(θ)/dθ resulta em U = x − b′ (θ).

E(X) = b′ (θ) e Var(X) = b′′ (θ). (1.3)

O simples fato de se calcularem momentos da famı́lia exponencial (1.2) em

A equação (1.4) implica que a distribuição conjunta de X1 , . . . , Xn é,

1.3 Componente aleatório

em que b(·) e c(·) são funções conhecidas. Quando ϕ é conhecido, a famı́lia de

E(Y ) = µ = b′ (θ) e Var(Y ) = ϕ b′′ (θ).

Observa-se, a partir da expressão da variância, que ϕ é um parâmetro de

Morris (1982) demonstra que existem apenas seis distribuições na famı́lia

A distribuição secante hiperbólica generalizada (1.6) compete com a

Exemplo 1.4: A distribuição normal N(µ, σ 2 ), de média µ ∈ R e variância σ 2 > 0,

Distribuição ϕ θ b(θ) c(y, ϕ) µ(θ) V (µ)

Poisson: P(µ) 1 log(µ) eθ − log(y!) eθ µ

obtendo-se os elementos da primeira linha da Tabela 1.1, isto é,

o que mostra que a distribuição N(µ, σ 2 ) pertence à famı́lia (1.5).

Exemplo 1.5: A distribuição binomial tem função de probabilidade

obtendo-se os elementos da terceira linha da Tabela 1.1, isto é,

e, portanto, a distribuição binomial pertence à famı́lia exponencial (1.5).

1.4 Função geradora de momentos

A função geradora de cumulantes (f.g.c.) correspondente é, então,

φ(t; θ, ϕ) = log[M (t; θ, ϕ)] = ϕ−1 [b(ϕt + θ) − b(θ)]. (1.9)

A f.g.c. desempenha um papel muito mais importante do que a f.g.m. na Es-

φ(r) (t; θ, ϕ) = ϕr−1 b(r) (ϕt + θ),

κr = ϕr−1 b(r) (θ). (1.10)

Como enfatizado anteriormente, podem-se deduzir, a partir da equação

Var(U ) = −E(U ′ ) = ϕ−1 b′′ (θ) e Var(U ) = E(U 2 ) = ϕ−2 Var(Y ).

Exemplo 1.6: Considerando-se o Exemplo 1.4 da distribuição normal, tem-se que

Exemplo 1.7: Considere o Exemplo 1.5 da distribuição binomial. Tem-se que

A Tabela 1.2 apresenta as funções geradoras de momentos para as dis-

Exemplo 1.8: Se Y tem distribuição beta com parâmetros ϕ−1 µ e ϕ−1 (1 − µ) e

Tabela 1.2: Funções geradoras de momentos para algumas distribuições.

Distribuição Função geradora de momentos M (t; θ, ϕ)

Exemplo 1.9: Se Y tem distribuição de Euler com média µ e f.d.p.

f (y; µ) = exp{µ log(y) − µ − log[Γ(µ)]},

Exemplo 1.10: Se Y tem distribuição log normal de parâmetros α e σ 2 e f.d.p.

1.5 Estatı́stica suficiente

P(Y = y|T = t, θ) = P(Y = y|T = t).

O critério da fatoração é uma forma conveniente de caracterizar uma es-

Pelo teorema da fatoração de Neyman-Fisher e supondo ϕ conhecido, tem-se

f (y; θ, ϕ) = g(t, θ) h(y1 , . . . , yn ),

1.6 Famı́lia exponencial multiparamétrica

em que θ é um vetor de parâmetros, usualmente, de dimensão k, e as funções

É fácil veriﬁcar (Exercı́cio 12) que as distribuições normal, gama, normal

a. a famı́lia exponencial canônica uniparamétrica (1.2) surge, naturalmente, quando