Apostila Econometria

ECONOMETRIA
WBA0605_v1.0
© 2018 POR EDITORA E DISTRIBUIDORA EDUCACIONAL S.A.
Todos os direitos reservados. Nenhuma parte desta publicação poderá ser reproduzida ou transmitida
de qualquer modo ou por qualquer outro meio, eletrônico ou mecânico, incluindo fotocópia, gravação ou
qualquer outro tipo de sistema de armazenamento e transmissão de informação, sem prévia autorização,
por escrito, da Editora e Distribuidora Educacional S.A.
Presidente
Rodrigo Galindo
Vice-Presidente de Pós-Graduação e Educação Continuada
Paulo de Tarso Pires de Moraes
Conselho Acadêmico
Carlos Roberto Pagani Junior
Camila Braga de Oliveira Higa
Carolina Yaly
Danielle Leite de Lemos Oliveira
Juliana Caramigo Gennarini
Mariana Ricken Barbosa
Priscila Pereira Silva
Coordenador
Mariana Ricken Barbosa
Revisor
Flavio Kaue Fiuza de Moura
Editorial
Alessandra Cristina Fahl
Daniella Fernandes Haruze Manta
Flávia Mello Magrini
Hâmila Samai Franco dos Santos
Leonardo Ramos de Oliveira Campanini
Mariana de Campos Barroso
Paola Andressa Machado Leal
Dados Internacionais de Catalogação na Publicação (CIP)
Lima, Marcelo Tavares de

L732e Econometria/ Marcelo Tavares de Lima – Londrina:
Editora e Distribuidora Educacional S.A. 2018.
108 p.
ISBN 978-85-522-1050-4
1. Variáveis dummy. 2. Mercado financeiro.

I. Lima, Marcelo Tavares de. Título.
CDD 330
Responsável pela ficha catalográfica: Thamiris Mantovani CRB-8/9491
2018
Editora e Distribuidora Educacional S.A.
Avenida Paris, 675 – Parque Residencial João Piza
CEP: 86041-100 — Londrina — PR
e-mail: editora.educacional@kroton.com.br
Homepage: http://www.kroton.com.br/
ECONOMETRIA
SUMÁRIO
Apresentação da disciplina 04
Tema 01 – Modelos univariados 05
Tema 02 – Séries temporais 24
Tema 03 – Análise de modelos e relaxamento dos

pressupostos clássicos 43
Tema 04 – Regressão com variáveis Dummy 60
Tema 05 – Modelos multivariados 76
Tema 06 – Modelos com variável dependente discreta 90
Tema 07 – Tópicos especiais em econometria 105
Tema 08 – Econometria de mercados financeiros 120
Econometria3
Apresentação da disciplina
Este material apresenta aos usuários da teoria econômica e demais in-

teressados no assunto, métodos quantitativos de análises de dados. O
método quantitativo a ser desenvolvido neste conteúdo será a econome-
tria, cujo objetivo é levar o aluno a entender, desenvolver e aplicar seus
métodos de forma correta e eficiente.
A econometria segundo Malassise “é uma área e, ao mesmo tempo, um

método de estudo utilizado em diversas áreas do conhecimento, porém,
de maneira mais profunda nos estudos econômicos” (MALASSISE, 2015,
p.11). Em cursos de Economia, a econometria se caracteriza como disci-
plina fundamental para a fixação de bases quantitativas da teoria econô-
mica. Por isso, também é conhecida como “medição econômica”, sendo a
tradução literal de econometria.
A econometria é uma ciência social aplicada que se utiliza de conceitos e

ferramentas de áreas como matemática, estatística e teoria econômica.
Ela surgiu da necessidade de se trabalhar relações quantitativas, cujo in-
tuito é tornar possível a refutação ou a aceitação de uma conclusão en-
contrada por alguma ferramenta de análise de dados.
O termo econometria surgiu por volta de 1926 com base na palavra “bio-
metria”, a qual se refere à utilização de métodos estatísticos em pesquisas
biológicas. Sua apresentação para a comunidade acadêmica foi feita pelo
economista norueguês Ragnar Frisch.
A intenção desta disciplina é fazer com que você conheça os diversos mo-
delos econométricos existentes, apresentar aplicações práticas, com o
intuito de tornar clara a importância de sua utilização na análise de pro-
blemas econômicos para a tomada de decisão e para a realização de pre-
visões confiáveis.
4 Eficiência Energética
TEMA 01
MODELOS UNIVARIADOS
Objetivos
• Este texto tem como objetivo apresentar e desenvolver

os seguintes tópicos: (1) a natureza da análise econo-
métrica; (2) o modelo clássico e seus pressupostos e;
(3) modelos lineares e não lineares.
Introdução
A econometria faz uso da teoria econômica e de dados da economia, ne-
gócios, ciências sociais e estatística, com a intenção de solucionar proble-
mas associados a quantidades. Por exemplo, o estudo da quantidade de
vendas de um determinado produto em um mercado consumidor que
passa por uma situação específica de interesse.
O termo econometria surgiu em 1926 através de um economista norue-
guês, porém a implementação de seus conceitos surgiu bem antes, em
1838, com a teoria de Duopólio, de Agustin Cournot, o qual estabeleceu
por meio dessa teoria que “as quantidades ofertadas no mercado surgem
da ação e reação de dois vendedores, obedecendo algumas regras especí-
ficas” (MALASSISE, 2015, p.16). A demora no desenvolvimento de estudos
econométricos, mesmo depois das pesquisas de Cournot ocorreu por con-
ta da dificuldade e da escassez de obtenção de dados confiáveis que per-
mitissem o seu uso para a realização de estudos empíricos econométricos.
Segundo Matos “os propósitos da econometria são: (a) a mensuração de
variáveis; (b) a estimação de parâmetros e; (c) a formulação e teste de hi-
póteses” (1995 apud MALASSISE, 2015, p.18).
Dados os propósitos, ainda segundo o mesmo autor, os objetivos são: (a)
a verificação de teorias econômicas; (b) a avaliação de políticas econômi-
cas e, (c) a previsão de valores futuros de variáveis de natureza econômi-
ca. Os métodos desenvolvidos neste texto são os métodos de modelos
univariados, lineares e não lineares, os quais têm como principal caracte-
rística a existência de uma única variável dependente em seu processo de
modelagem e, uma ou mais variáveis independentes.
1. A natureza da análise econométrica
A afirmação de que em muitas situações o desenvolvimento e a avaliação

de uma pesquisa dependem do conhecimento que o pesquisador tem so-
bre econometria e análise de regressão, inclusive no que se refere a suas
potencialidades e a suas limitações, não é nenhum absurdo ou exagero.
A econometria é útil para ajudar o pesquisador a separar ideias coerentes
de ideias absurdas ou, hipóteses de pesquisa boas daquelas ruins. Por
exemplo, numa negociação na bolsa de valores, é melhor esperar a baixa
de preços de ações para realizar compra ou, é melhor fazer negociações
conforme a teoria do passeio aleatório (random walk)? Qual a melhor ati-
tude para ser tomada?
Como mencionado anteriormente, a econometria faz a integração da te-

oria econômica com a matemática e a estatística, com o propósito de for-
mular e testar hipóteses construídas a partir dos fenômenos de natureza
econômica através de medidas de variáveis e estimação de parâmetros.
Dados os propósitos apresentados, é possível identificar que a econome-

tria tem, segundo Malassise (2015), “o objetivo de realizar a verificação
de teorias econômicas através de estudos empíricos e as avaliações de
políticas econômicas pelo conhecimento de valores numéricos de parâ-
metros como elasticidade, multiplicadores, coeficientes técnicos, etc. e,
ainda, tem a intenção de realizar previsão de valores futuros de variáveis
de natureza econômica”.
A econometria pode ser subdividida em duas vertentes: teórica e apli-

cada. A teórica se refere ao estudo da estruturação dos modelos teóri-
cos existentes, no intuito de avançar com propostas de novos modelos
que possam ser mais adequados ou, que possam permitir a solução de
problemas, de forma mais eficaz. A econometria aplicada realiza aplica-
ções de modelos existentes, os quais são selecionados por informações
prévias dos problemas a serem estudados. Em economia, a aplicação da
econometria ocorre em problemas de microeconomia, que são estudos
que envolvem teoria da demanda, produção, investimento, consumo,
dentre outros.
Eficiência Energética7
ASSIMILE
“Econometria é a ciência que lida com a determinação, por
métodos estatísticos, das leis quantitativas concretas que
ocorrem na vida econômica [...] está ligada à teoria econô-
mica e à estatística econômica e tenta por métodos matemá-
ticos e estatísticos dar expressão concreta e quantitativa às
leis gerais e esquemáticas estabelecidas pela teoria econô-
mica” (LANGE, 1961 apud MALASSISE, 2015, p. 13).
A análise de regressão é um dos métodos mais importantes da econo-

metria aplicada. Com sua utilização, é possível conhecer os efeitos que
algumas variáveis exercem sobre outras. Mesmo que não haja relação
significativa de causa e efeito entre as variáveis analisadas, com a análi-
se de regressão é possível construir uma relação funcional expressa por
equações matemáticas.
Como pressuposto, a análise de regressão considera que devem existir,

no mínimo, duas variáveis para sua viabilidade de aplicação, em que, uma
delas é chamada dependente ou endógena (em geral denotada por Y) e,
a(s) outra(s), denominada(s) de independente(s) ou exógena(s) (em geral,
denotada(s) por X).
De forma geral, a análise de regressão pode representar a relação entre

as variáveis da seguinte maneira:
Y = f (X1, X2, ..., Xk) (1)
onde Y representa a variável dependente ou endógena e os Xh = (h = 1,2,

... , k) representam as variáveis explicativas ou exógenas. Considere como
aplicação os seguintes exemplos: (1) O estudo do crescimento popula-
cional (Y ) em função dos anos analisados (X); (2) Estudo da variação da
produção de um item (Y ) segundo o preço de venda (X1) e a renda dos
potenciais consumidores (X2).
Quando, na análise de regressão, tiver uma única variável independente,
tem-se o caso particular chamado análise de regressão simples e, quan-
do se tiver mais de uma variável independente, tem-se o caso de análise
de regressão múltipla. Em toda análise de regressão, a relação funcional
construída entre as variáveis dependentes e independentes considera
um termo residual ou de erro, o qual significa um ajuste para equilibrar
o modelo elaborado, ou seja, ele representa os fatores não considerados
no processo de modelagem e que podem ser influentes na relação entre
as variáveis analisadas, e por ter uma natureza aleatória, torna os mode-
los elaborados em probabilísticos, os quais sob esta condição recebem o
nome de modelos estatísticos ou econométricos.
2. O modelo clássico e seus pressupostos
No item anterior foi dito que a regressão linear é um dos métodos mais
utilizados em estudos econométricos. No entanto, para que possa ser uti-
lizada, faz-se necessário que alguns pressupostos sejam garantidos. Tais
pressupostos são originários da forma em que o modelo de regressão
linear é construído, o qual utiliza o método dos mínimos quadrados ordi-
nários (MQO) para sua construção. O seu uso permite que seja possível
realizar um processo de interpolação por previsão.
Para que o uso da regressão linear seja eficiente, é importante que exista
algum grau de correlação linear entre as variáveis analisadas. Portanto,
é interessante sempre fazer essa verificação antes de se iniciar qualquer
procedimento de construção de modelo, mesmo que seja por conheci-
mento a priori.
Considere que existam n pares de valores de duas variáveis em um es-

tudo econômico, as quais são representadas por Xi e Yi (i = 1,2, ... , n).
Considerando que Y seja função linear de X, é possível estabelecer uma
regressão linear simples através do seguinte modelo estatístico.
Yi = ß0 + ß1 Xi + ei (2)
onde ß0 e ß1 são parâmetros, Xi é a variável independente, Yi é a variável

dependente e ei é o termo erro aleatório.
Os parâmetros do modelo de regressão linear simples, ß0 e ß1 são os coefi-
cientes linear e angular da reta de regressão ajustada pelo modelo de re-
gressão linear simples, respectivamente. O coeficiente angular, também,
é conhecido por coeficiente de regressão e, o coeficiente linear por termo
constante da equação de regressão.
Quando estabelecido um modelo de regressão linear simples, os seguin-
tes pressupostos estão em consideração:
1. A relação funcional entre X e Y é linear.

2. Os valores de X são fixos, ou seja, X não é uma variável aleatória.
3. A média do termo erro aleatório é zero.
4. Para um dado valor de X, a variância do erro aleatório ei é sempre a
mesma, σ2, conhecida como variância residual.
5. Os erros aleatórios de observações distintas não são correlacionados.
6. Os erros aleatórios possuem distribuição Normal.
Ainda é necessário verificar se o número de observações disponíveis é

maior que o número de parâmetros do modelo ajustado. Por exemplo,
para o ajuste de um modelo de regressão linear simples, são necessárias,
no mínimo, três observações, pois, se estiverem disponíveis apenas duas
observações, não é possível realizar qualquer tipo de análise estatística.
3. Modelos lineares e não lineares
Considerando que o modelo de regressão a ser ajustado aos dados será

uma regressão linear simples, o passo inicial a ser realizado é buscar esti-
mativas dos parâmetros do modelo, os quais são obtidos a partir de uma
amostra de pares de valores para Xi e Yi, os quais correspondem a n pon-
tos num gráfico de dispersão.

A estimativa de um modelo de regressão linear simples é representada
pela seguinte equação.
onde é a estimativa do valor esperado para o modelo, e são as

estimativas dos parâmetros do modelo ajustado.
As estimativas dos parâmetros do modelo são obtidas por MQO, o qual

consiste em construir estimativas que minimizam a soma de quadrados
dos desvios do modelo, que são representados por ei = Yi – e, conse-
quentemente, são obtidos os seguintes estimadores dos parâmetros do
modelo de regressão linear simples:
ASSIMILE
As estimativas dos parâmetros da reta de regressão são ob-
tidas a partir de um sistema de equações conhecido como
sistema de equações normais, que são
A resolução do sistema leva para as equações conhecidas

que estimam os valores dos parâmetros.
EXEMPLIFICANDO
Para ver uma aplicação da teoria apresentada, considere o
exercício a seguir, disponível em Murolo e Bonetto (2013, p. 42),
descrevendo a situação de uma empresa de embalagens plásti-
cas. Esta empresa está preocupada com a demanda (Yi) do pro-
duto fabricado por ela. Então, resolveu fazer um estudo sobre
as variações dos preços de venda (Xi). Fez um levantamento de
dados e, obtiveram as informações da seguinte tabela.
Tabela 1. Demanda de embalagens plásticas por preço
Preço de venda (Xi) 16 18 20 23 26 28 30 33 35

Demanda (Yi) 1200 1150 950 830 800 760 700 690 670
Fonte: Adaptado de Murolo e Bonetti (2013, p. 42).
A partir dos dados será construído um modelo de regressão linear simples

e, como primeira verificação, será construído um gráfico de dispersão para
verificar se existe relação linear entre o preço e a demanda em estudo.
O gráfico de dispersão, construído em planilha Microsoft Excel®, indica que
há relação linear entre as duas variáveis. Essa verificação está sendo feita de
forma subjetiva pelo gráfico, porém é possível fazer uma comprovação da
existência de relação linear pelo coeficiente de correlação linear de Pearson.
PARA SABER MAIS

O coeficiente de correlação (linear) entre duas variáveis é uma
estatística que mede o grau de associação existente entre elas.
Essa medida varia num intervalo finito de valores, especifica-
mente, de –1 a +1. A correlação linear será tanto mais forte
entre as variáveis quanto mais próxima estiver de –1 ou +1
e será tanto mais fraca quanto mais próxima estiver de zero.
Essa medida pode ser calculada pela seguinte equação:

Figura 1. Gráfico de dispersão entre demanda e preço
Fonte: Elaboração do autor.
Agora, reescrevendo os dados, serão calculadas algumas medidas que

ajudarão a obter as estimativas dos parâmetros do modelo a ser ajustado
pelo método de mínimos quadrados ordinários. Os resultados para essa
etapa encontram-se na tabela 2.
Tabela 2. Dados auxiliares
Ordem Preço de venda (Xi) Demanda (Yi) Xi2 Yi2 Xi Yi
1 16 1200 256 1440000 19200

2 18 1150 324 1322500 20700
3 20 950 400 902500 19000
4 23 830 529 688900 19090
5 26 800 676 640000 20800
6 28 760 784 577600 21280
7 30 700 900 490000 21000
8 33 690 1089 476100 22770
9 35 670 1225 448900 23450
Total 229 7750 6183 6986500 187290
Fonte: Adaptado de Murolo e Bonetti (2013, p. 42).
Com os cálculos construídos na tabela auxiliar, pode-se calcular os valo-
res das estimativas dos parâmetros com maior facilidade, a partir da linha
dos totais, como mostrado a seguir.
Coeficiente linear:
Coeficiente angular:
Portanto, a equação de regressão ajustada será:
Se o modelo ajustado for desenhado em um gráfico através da reta ajus-

tada, colocada em um gráfico juntamente com os dados originais, com o
auxílio do Microsoft Excel®, será obtido o gráfico 2.
Gráfico 2. Dados originais com a reta ajustada

Suponha que a empresa deseja estimar a demanda para um determinado
preço do produto plástico, por exemplo x = $31. Então, utilizando a equa-
ção ajustada, será obtido o seguinte valor para a demanda (quantidade
de produto).
LINK
Como fazer uma regressão linear simples no Excel: Veja como
é fácil fazer uma regressão linear simples no Excel e anali-
sar se os resultados obtidos são coerentes. Disponível em:
<www.voitto.com.br/blog/artigo/regressao-linear-simples-
no-excel>. Acesso em: 01 junho 2018.
Em muitas situações, o pesquisador desconhece o tipo de relação funcio-

nal existente entre variáveis e, mesmo realizando uma análise explorató-
ria gráfica, fica difícil de perceber como elas se relacionam. Então, faz-se
necessário o uso de técnicas de regressão para explorar modelos conve-
nientes sugeridos pelos dados coletados (BUSSAB, 2017).
Muitos dos modelos utilizados são chamados não lineares devido ao fato
das variáveis envolvidas na modelagem se relacionarem de maneira não
linear, diferente do observado no exercício acima. Em outras palavras,
considerando um modelo que envolva duas variáveis, se uma reta não for
uma descrição adequada para a relação entre elas, certamente, o modelo
adequado é do tipo não linear. No entanto, a pergunta que vem é “qual o
modelo mais adequado?”.
Uma primeira sugestão para responder à pergunta, assim como realiza-
do no processo de ajuste de uma regressão linear, seria a construção de
um gráfico de dispersão, caso o problema envolva apenas duas variáveis.
A forma gráfica identificada com a elaboração do gráfico pode fornecer
alguma sugestão de um modelo não linear, por exemplo, um modelo qua-
drático, cúbico, exponencial etc.
Para exemplificar, considere os dados apresentados por Bussab e Morettin
(2017, p.491) e, adaptados aqui, onde dispuseram de informações da in-
flação brasileira para alguns anos. Os dados e o diagrama de dispersão
foram refeitos em Microsoft Excel® e, são apresentados a seguir.
Tabela 3. Taxa de inflação no Brasil de 1961 a 1979.
Ano (Xi) Inflação (Yi)
1961 9
1963 24
1965 72
1967 128
1969 192
1971 277
1973 373
1975 613
1977 1236
1979 2639
Fonte: Adaptado de Bussab e Morettin (2017, p. 491).
Gráfico 3. Diagrama de dispersão dos dados originais

Por conta da forma gráfica do diagrama de dispersão, os autores decidi-
ram ajustar um modelo exponencial para a relação entre a inflação e os
anos observados. Assim, temos a equação:
onde, ɛi representa o termo erro aleatório, e representa a constante de

Euler (e ≈ 2,7182 ...) e, neste caso, o erro aleatório aparece de forma multi-
plicativa no modelo e não aditiva, como no caso anterior.
As estimativas dos parâmetros para este caso, também obtidas pelo mé-
todo dos mínimos quadrados, não podem ser adquiridas analiticamente.
Então, sem entrar em maiores detalhes, os autores sugeriram o uso de
métodos numéricos, tais como, Newton-Raphson, Gauss-Newton, “sco-
ring” dentre outros.
Para o caso apresentando, por se tratar de um conjunto que envolve ape-

nas duas variáveis, uma dependente e a outra independente, é possível
realizar transformação nos dados de forma a tornar a equação numa
equação linear para se realizar o ajustamento por modelo de regressão
linear simples.
A transformação aplicada ao modelo sugerido inicialmente foi a logarítmi-

ca (na base e) em ambos os lados de (7) e, após sua aplicação, tornou os
membros do modelo da seguinte forma
Permitindo escrever o modelo na forma:
É possível perceber que o modelo transformado é linear. No entanto, é

necessário supor que o termo erro aleatório seja estritamente positivo,
pois, do contrário, não será possível tomar logaritmos dele. Agora, as de-
mais suposições feitas anteriormente para um modelo linear simples po-
dem ser aplicadas a este modelo transformado.
A estimativa dos parâmetros do modelo ajustado foi obtida a partir da
equação transformada, cujos dados são replicados na Tabela 4 com o
acréscimo de uma coluna contendo os valores transformados da inflação
e, com uma codificação conveniente para a variável independente, o ano
de observação.
Tabela 4. Taxa de inflação no Brasil de 1961 a 1979

Ano (Xi) Ano (Xi*) Inflação (Yi) Yi* = In Yi
1961 0 9 2,2
1963 1 24 3,2
1965 2 72 4,3
1967 3 128 4,8
1969 4 192 5,2
1971 5 277 5,6
1973 6 373 5,9
1975 7 613 6,4
1977 8 1236 7,1
1979 9 2639 7,9
Estando o modelo agora linearizado, pode-se utilizar das equações apre-

sentadas anteriormente para se obter as estimativas dos seus parâme-
tros. Sem entrar em detalhes e, com a ajuda de uma planilha eletrônica,
utilizando o ano codificado e os valores de inflação transformados por
logaritmo, as estimativas obtidas são iguais a:
Logo, a regressão linear ajustada será:
O diagrama de dispersão dos dados transformados e da reta ajustada é

mostrado na figura 4.

Gráfico 4. Dados transformados e reta ajustada
Para escrever o modelo original ajustado, é necessário aplicar uma nova

transformação, com a função inversa do logaritmo natural, ou seja, a fun-
ção exponencial, cujo resultado será:
pois, .
O diagrama com os dados originais plotados juntamente com os valores
ajustados obtidos pela reta de regressão (11) é mostrado na figura 5.
Gráfico 5. Dados originais e valores ajustados
Observa-se que os pontos originais e os estimados (ajustados) pela reta
de regressão construída pelo método de mínimos quadrados estão muito
próximos, em outras palavras, os gráficos praticamente se sobrepõem.
Isso é um indício de que o modelo está adequado à realidade descrita.
PARA SABER MAIS

Geralmente, quando se trabalha com regressão não linear,
uma primeira atitude a se tomar é tentar linearizar, através
de transformações matemáticas, a relação funcional entre
as variáveis. Existem algumas transformações que são mais
utilizadas pelos usuários de modelos de regressão, que são
mostradas no quadro a seguir.
Quadro – Transformações que geram retas.

TIPO EQUAÇÃO TRANSFORMAÇÃO VARIÁVEL X VARIÁVEL Y
Linear Y = a + bx Y = a + bx X y
Exponencial Y = a.ebx Ln(y) = ln(a) + bx X ln(Y)
Logarítmica Y = a + b.ln(x) Y = a + b.ln(x) ln(x) y
Potência Y = axb ln y = ln(a) + b.ln(x) ln(x) ln(y)
Fonte: FEA USP. Disponível em: <http://www.erudito.fea.usp.br/PortalFEA/Repositorio/445/
Documentos/Regress%C3%A3o%20n%C3%A3o%20linear.doc>. Acesso em: 01 junho 2018.
QUESTÃO PARA REFLEXÃO

Você consegue pensar em uma situação na qual possa fazer aplica-
ção de regressão linear? Pense em uma situação pessoal sua. Imagine
que você deseja escolher entre algumas aplicações bancárias e, para
a sua tomada de decisão, decide construir uma equação que posso
te ajudar a escolher a mais adequada para seus propósitos.

4. Considerações Finais
• A econometria é um método quantitativo de tomada de decisão que

faz uso da teoria econômica e de dados da área de economia.
• A análise de regressão é uma das principais técnicas quantitativas

utilizadas em estudos econométricos.
• A técnica de análise de regressão pode ser dividida em duas: linear

e não linear.
• Os modelos de regressão lineares são mais simples que os modelos

de regressão não linear. Apesar disso, problemas reais, em geral,
exigem, com maior frequência, o ajuste de modelos de regressão
não linear.
Glossário
• Constante de Euler: é um número irracional e positivo, cujo loga-

ritmo na sua base é chamado natural, logo: e = 2,7182818... .
• Duopólio: mercado no qual dois vendedores dividem entre si toda

uma produção.
• Mínimos quadrados ordinários: é uma técnica de otimização ma-

temática que procura encontrar o melhor ajuste para um conjunto
de dados tentando minimizar a soma dos quadrados das diferen-
ças entre o valor estimado e os dados observados (tais diferenças
são chamadas resíduos).
• Passeio aleatório: do inglês random walk. É um objeto matemá-

tico que descreve um caminho que consiste de uma sucessão de
passos aleatórios. Por exemplo, os preços de ativos financeiros se-
guem o comportamento de um passeio aleatório.
VERIFICAÇÃO DE LEITURA
TEMA 01
1. A principal área do conhecimento onde a econometria é
estudada com maior profundidade é:
a) Sociologia.
b) Biologia.
c) Estatística.
d) Estudos econômicos.
e) Antropologia.
2. Qual é o método matemático utilizado para estimar coe-
ficientes de regressão de um modelo de regressão linear?
a) Máximos quadrados ordinários.
b) Mínimos quadrados perfeitos.
c) Máxima verossimilhança.
d) Mínima verossimilhança.
e) Mínimos quadrados ordinários.
3. Medida estatística que avalia existência de associação en-
tre duas variáveis quantitativas. Estamos falando de:
a) Coeficiente de regressão.
b) Coeficiente de correlação.
c) Coeficiente linear.
d) Medida de dispersão.
e) Coeficiente de associação.
Referências Bibliográficas
BUSSAB, W.; MORETTIN, P. Estatística básica. 9. ed. São Paulo: Saraiva, 2017. 554p.
HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba: Portal
de livros abertos da USP, 2016. Disponível em <www.producao.usp.br/bitstream/handle/
BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y>. Acesso em: 27 de maio de 2018.

LANGE, O. Introdução à econometria. Rio de Janeiro: Fundo de Cultura, 1961.
MALASSISE, R. L. S. Econometria. 1. ed. Londrina: Editora e Distribuidora Educacional
S/A, 2015. v. 1. 192p. Disponível em: <http://anhanguera.bv3.digitalpages.com.br/
users/publications/9788584822065/pages/-2>. Acesso em: 26 maio 2018.
MATOS, O.C. Econometria básica: teoria e aplicações. São Paulo: Atlas, 1995.
MUROLO, A.F.; BONETTO, G. Matemática aplicada a administração, economia e
contabilidade. São Paulo: Cengage Learning, 2013. 506 p.
Gabarito – Tema 01
Questão 1 – Resposta: D
A principal área do conhecimento em que a econometria é estudada
com maior profundidade é a dos estudos econômicos.
Questão 2 – Resposta: E
O método matemático utilizado para estimar os coeficientes de
um modelo de regressão linear é o método de mínimos quadrados
ordinários.
Questão 3 – Resposta: B
A medida estatística que avalia existência de associação entre duas
variáveis quantitativas é o coeficiente de correlação.
TEMA 02
SÉRIES TEMPORAIS
Objetivos
• Apresentar conceitos básicos de séries temporais;
• Introduzir modelos estacionários e processos pura-

mente aleatórios;
• Introduzir modelos de volatilidade estocástica;
• Introduzir processos não estacionários;
• Introduzir modelos autorregressivos e de médias

móveis.
Introdução
Agora que você tem uma noção de conceitos básicos de econometria e

viu que a análise de regressão é um dos principais métodos estatísticos
utilizados para tratamento de dados, vamos apresentar um método que
permite construir modelos estatísticos que levam em conta a evolução
temporal dos fenômenos.
O procedimento de modelagem de dados que leva em conta a evolução

temporal de ocorrência dos fenômenos é conhecido como séries tempo-
rais. Hoffmann (2016, p.352) define séries temporais como “um conjunto
de valores de uma variável ordenados no tempo”. Como exemplo de sé-
ries temporais, pode-se citar o conjunto de dados de valores anuais do
produto interno bruto (PIB) brasileiro ou, uma série de valores de tempe-
raturas máximas de uma cidade, etc.
Uma série temporal é um caso particular de um processo estocástico,

ou seja, processos controlados por leis probabilísticas, onde, de manei-
ra mais formal, pode ser definida por uma família de variáveis X = {Xt, t Є
T }, tal que, para cada t Є T , Xt é uma variável aleatória. Em palavras, um
processo estocástico pode ser interpretado como uma família de todas
as realizações de um fenômeno ou experimento e, uma série temporal é
uma dessas realizações.
Quando se realiza uma pesquisa com planejamento de coleta de dados

em séries temporais, pode-se pensar em muitos objetivos, como por
exemplo, segundo Morettin e Toloi (1987, p. 4), “(1) fazer previsões de va-
lores futuros das séries; (2) descrever o comportamento das séries e; (3)
procurar periodicidades relevantes nos dados. Parte disto, será mostrado
neste texto”.
1. Modelos estacionários e processos puramente
aleatórios
O procedimento de análise de dados em séries temporais faz uso de da-

dos passados para quantificar as relações históricas. Se o futuro for igual
ao passado, tais relações podem ser usadas para realização de previsões
para o futuro. No entanto, se o futuro for diferente, as informações histó-
ricas podem não ser confiáveis para o futuro. Por isso, é estudada uma im-
portante característica das séries temporais, chamada estacionariedade.
Uma das suposições mais recorrentes em séries temporais é a de que
ela é estacionária, ou seja, de que ela se desenvolve no tempo aleatoria-
mente ao redor de uma média constante. Caso uma série temporal que
esteja sendo analisada não seja estacionária, será necessário transformá-
-la em estacionária ou fazer uso de análise adequada para modelos não
estacionários.
Uma das transformações mais comuns para tornar uma série temporal
em estacionária consiste na tomada das diferenças sucessivas da série
temporal original, até que seja obtida uma série estacionária. A primeira
diferença de X(t) é definida por:
a segunda diferença é:
ou seja,
De modo geral, a n-ésima diferença de X(t) é:
Em situações normais, é suficiente tomar uma ou duas diferenças para

tornar uma série em estacionária.

Stock e Watson (2004, p. 304) definem estacionariedade da seguinte
maneira:
Uma série temporal Xt é estacionária se a sua distribuição de probabilidade
não muda ao longo do tempo, isto é, se a distribuição conjunta (Xs + 1, Xs + 2, ... ,
Xs + T) não depender de s; caso contrário, diz-se que Xt é não estacionária. [...]
A estacionariedade requer que o futuro seja igual ao passado, pelo menos
em um sentido probabilístico.
Há várias situações em que se têm séries temporais não estacionárias,

no entanto, em duas situações, a ausência de estacionariedade torna re-
levante uma análise de regressão de séries temporais econômicas da se-
guinte maneira: (1) pode haver algum tipo de tendência nas séries; e (2) a
regressão pode ser instável ao longo do tempo, ou seja, pode ter quebras.
Em séries temporais, o valor da variável X de um determinado período
está, de certa maneira, correlacionado com seu valor no período seguinte.
A esta característica se dá o nome de autocorrelação ou correlação serial.
De forma análoga, a autocovariância é a covariância entre valores adja-
centes da série, como Xt e Xt – 1.
ASSIMILE
Autocorrelação (correlação serial) e autocovariância.
A j-ésima autocovariância de uma série temporal Xt é a covari-
ância entre Xt e a sua j-ésima defasagem, Xt–j. Já o j-ésimo coe-
ficiente de autocorrelação é a correlação entre Xt e Xt–j. Isto é,
j-ésima autocovariância = cov(Xt, Xt–j)
O j-ésimo coeficiente de autocorrelação, também, é conheci-

do como coeficiente de correlação serial (STOCK e WATSON,
2004). “A autocorrelação revela o grau de relação entre as
observações, já a função de autocovariância indica a depen-
dência entre as observações” (SANTOS, 2016, p. 6).
Para considerar uma série temporal como estacionária, tendências não
podem estar presentes nos dados, enquanto que variações sazonais, po-
dem ocorrer tanto em séries estacionárias quanto não estacionárias.
A técnica de médias móveis, ou método de suavização, é o método de
previsão para dados estacionários mais simples existentes. Com ela, o
valor a ser previsto no tempo t + 1 (denotado X^t + 1) é obtido pela média
aritmética das v observações mais recentes da série, ou seja:
O termo k da equação determina o número de observações da série que

serão utilizadas no cálculo das médias móveis. Não existe método para
determinar o melhor valor de k. Por isso, torna-se interessante testar vá-
rios valores de k para verificar qual fornecerá o melhor resultado.
Uma forma de saber qual o melhor modelo obtido é fazer uso de medidas
de acurácia (qualidade do ajuste) que podem fornecer essa informação.
As principais medidas existentes são o desvio absoluto médio (DAM), o
erro percentual absoluto médio (EPAM), o erro quadrático médio (EQM) e
a raiz do erro quadrático médio (REQM), os quais podem ser definidos da
seguinte maneira:
Uma desvantagem da técnica de médias móveis é que os dados passa-

dos têm o mesmo peso no cálculo da média. Para tentar superar isso,
é possível obter uma previsão mais precisa atribuindo pesos diferentes
aos dados.

Ao procedimento de atribuição de pesos aos dados para obtenção de uma
média é dado o nome de média móvel ponderada, que é uma variação da
técnica de médias móveis. Com este procedimento a função de previsão
é representada por:
em que e .
No método de médias móveis ponderadas, além de determinar um valor

para k, também é necessário determinar valores para os pesos wi, o que
torna a determinação da melhor previsão um pouco mais complicada.
Considere o exemplo extraído de Ragsdale (2014, p.449) o qual utiliza da-

dos de vendas de equipamentos de áudio e vídeo para residências e car-
ros. Na situação, o gerente da loja tenta prever as vendas mensais e faz
uso do método de médias móveis para obter os resultados desejados.
Após coletar dados sobre vendas mensais para construir uma série tem-
poral, o passo seguinte a ser feito é a construção de um gráfico para se
ter uma ideia visual da evolução das vendas e identificar características
que permitam a escolha de um modelo apropriado para a série tempo-
ral. Com a ajuda do Excel® é possível construir facilmente um gráfico de
linhas, como mostrado na figura a seguir.
Figura 1. Dados de vendas e gráfico de linha
É possível observar no gráfico 1 que o número de vendas mensais está

em torno de 30 a 40 unidades nos últimos dois anos (média) e que parece
não haver tendência clara de aumento ou redução das vendas, ou seja,
parece haver uma regularidade na série. Portanto, o uso de um método
de previsão para dados estacionários parece razoável.
O passo seguinte é o ajustamento dos dados para um modelo de médias

móveis simples, ou seja, com pesos iguais para as observações. Na situ-
ação, o autor utilizou dois valores para k, os valores 2 e 4. Ainda fazendo
uso do Excel®, o resultado obtido é mostrado na figura 2.

Tabela 1. Dados de vendas
Número Média Móvel Média Móvel

Mês
Vendas 2 meses 4 meses
1 33 – –
2 38 – –
3 31 35,50 –
4 35 34,50 –
5 30 33,00 34,25
6 36 32,50 33,50
7 34 33,00 33,00
8 39 35,00 33,75
9 39 36,50 34,75
10 36 39,00 37,00
11 40 37,50 37,00
12 38 38,00 38,50
13 37 39,00 38,25
14 39 37,50 37,75
15 32 38,00 38,50
16 38 35,50 36,50
17 37 35,00 36,50
18 39 37,50 36,50
19 37 38,00 36,50
20 35 38,00 37,75
21 37 36,00 37,00
22 34 36,00 37,00
23 35 35,50 35,75
24 36 34,50 35,25
EQM 6,60 7,66
Figura 2. Gráfico com médias móveis ajustadas
Fórmulas das principais células

Copiado
Célula Fórmula
para
C5 =MÉDIA(B3:B4) C6:C26
D7 =MÉDIA(B3:B6) D8:D26
C28 =SOMAXMY2($B$7:$B$26;C7:C26)/CONT.NUM(C7:C26) (*) D28
Fonte: Adaptado de Ragsdale (2014, p.450).
(*) A função SOMAXMY2 soma os quadrados das diferenças em dois intervalos ou matrizes correspondentes.
Pode-se observar que os dados previstos tendem a ser menos voláteis, ou

seja, mais suaves, que os dados reais, o que não é surpresa, pois, a técnica
de médias móveis tende a compensar os picos e os vales dos dados originais.
A precisão relativa das duas previsões feitas pode ser avaliada pelo EQM.
Quanto menor o EQM mais acurada é a previsão. Comparando os EQM
calculados para as médias móveis, pode-se concluir que as médias mó-
veis de dois meses dão previsões mais acuradas que as médias móveis de
quatro meses.

Uma série temporal pode ser descrita pela seguinte equação Xt = f (t) +
εt onde t = 1, ... , n e f (t) é chamado sinal e, εt é o ruído. De acordo com as
hipóteses feitas sobre f (t), pode-se ter duas classes de modelos: modelos
de erro e modelos ARIMA.
Nos modelos de erro, f (t) é uma função do tempo completamente deter-

minada (parte sistemática ou determinística) e, εt é uma sequência alea-
tória, independente de f (t). O termo εt, satisfazendo algumas suposições,
é chamado de ruído branco.
Os erros do modelo são supostamente não correlacionados, o que intro-

duzem grandes limitações na validade dos modelos.
Os modelos de erro foram inicialmente utilizados em astronomia e física.

No primeiro caso, o interesse era determinar a posição de um planeta em
um dado momento do tempo. Enquanto que, na física, são utilizados para
fazer medidas com algum grau de erro.
Os modelos de erro são clássicos para a análise de séries econômicas,

onde f (t) é composta da adição ou multiplicação de um polinômio em t
(tempo), de grau geralmente baixo, da forma , que re-
presentará a tendência e, um polinômio harmônico, sendo uma combi-
nação linear de senos e cossenos com coeficientes constantes da forma
, representando as flutuações cíclicas e as varia-
ções sazonais. Um último componente do modelo é um termo de erro,
significando as flutuações aleatórias.
Um modelo de erro clássico para séries temporais pode ser escrito como
a soma de três componentes com a seguinte equação:
onde, Tt é uma componente de ciclotendência, considerando as flutua-

ções cíclicas de longo período, que não podem ser identificadas facilmen-
te dos dados brutos. A componente St representa a sazonalidade.
PARA SABER MAIS
O modelo Xt = Tt + St + εt é dito aditivo e é adequado quando a
componente sazonal St não depende das outras componen-
tes do modelo. Se a componente sazonal variar com a ten-
dência, o modelo mais apropriado é o modelo multiplicativo,
dado por Xt = Tt · St · εt, o qual pode se tornar num modelo
aditivo com a aplicação de uma transformação logarítmica.
Também, é possível considerar modelos mistos, como Xt =
Tt St + εt ou modelos mais complexos.
Ao se utilizar técnicas que removam as componentes Tt e St de uma série

temporal, o que sobra é apenas a componente aleatória ou residual εt e,
como dito anteriormente, é suposto que esta componente seja um pro-
cesso estocástico puramente aleatório, ou seja, um ruído branco.
Para casos em que a suposição de erros não correlacionados não é ga-
rantida, os modelos ARIMA são mais úteis, pois trabalham melhor sob tal
condição.
Duas classes de processos podem ser descritas pelos modelos ARIMA: (1)
Processos lineares estacionários (processo autorregressivo (AR), proces-
so de médias móveis (MA) e, processos autorregressivo médias móveis
(ARMA)) e, (2) processos lineares não estacionários homogêneos (ARIMA).
2. Modelos de volatilidade estocástica
Uma característica presente em séries de ativos financeiros é o que ficou

conhecido como volatilidade, que é uma medida de risco e, pode ser de-
finida de muitas maneiras, porém não é diretamente observável. Aqui,
volatilidade será o desvio padrão condicional de uma variável financeira,
em geral, um retorno1.
1
Variação relativa de preços de ativos financeiros.

A volatilidade de uma série temporal é modelada apropriadamente pelos
modelos heterocedásticos condicionais. Nesses modelos, a volatilidade
de um retorno num dado instante de tempo, depende de retornos passa-
dos e de outras informações disponíveis até esse dado instante.
Um modelo típico para a volatilidade de retornos, segundo Morettin

(2016), é dado na forma , onde é a média condicional de
rt dada a informação até o instante t – 1, ht é a variância condicional, tam-
bém obtida até o instante t – 1 e εt é um ruído branco.
Os modelos apropriados para séries financeiras que apresentam a vari-

ância condicional evoluindo no tempo são os que melhor modelam a vo-
latilidade de retornos dos ativos financeiros. Os modelos de volatilidade
estocástica admitem que a volatilidade varie com o tempo.
Os modelos da família ARCH (modelos autorregressivos com heterosce-

dasticidade condicional) supõem que a volatilidade depende dos retornos
passados. Os modelos que foram propostos inicialmente não possuíam
essa suposição e foram criados por Taylor, um pesquisador da área de
modelagem financeira.
Morettin (2016) define que uma série de retornos rt segue um modelo de

volatilidade estocástica se , onde εt é uma sequência
estacionária, com média zero e ht, a variância condicional de rt, é uma se-
quência estacionária, com função densidade de probabilidade f (h).
Taylor construiu uma formulação mais simples para o modelo de volatili-

dade estocástica, a qual supõe que o logaritmo da volatilidade, ,
seja dado por ht = α0 + α1ht-1 + nt , na qual nt é uma sequência estacionária
gaussiana, ou seja, com distribuição normal, com média zero e variância
, independente de εt. Também existem outras formulações do modelo
de volatilidade estocástica na literatura. No entanto, elas não serão abor-
dadas neste texto.
PARA SABER MAIS
Outras formulações para o modelo de volatilidade estocás-
tica foram divulgadas na literatura, sendo que apresentare-
mos duas delas. Uma proposta por Kim et. al. no ano de 1998,
em que o pesquisador construiu a forma canônica para a vo-
latilidade estocástica e a outra formulação, construída por
Jaquier et al. no ano de 1994 em que o modelo para a volatili-
dade é trabalhado com distribuição log-qui-quadrada para o
quadrado do ruído branco (MORETTIN, 2016).
3. Processos não estacionários
Os modelos apresentados na primeira seção deste texto são apropriados

para descrever séries estacionárias, ou seja, séries que se desenvolvem
no tempo em torno de uma média constante. Muitas séries econômicas
e financeiras são não estacionárias, mas, tornam-se estacionárias quan-
do recebem uma aplicação do cálculo diferença ou, outra transformação,
como feito em (1).
O passeio aleatório é o modelo mais simples para uma série temporal

não estacionária. Diz-se que uma série temporal Xt segue um passeio ale-
atório se a variação em Xt for independente e identicamente distribuída
(iid), ou seja, se:
A ideia básica de um passeio aleatório é a de que o valor da série temporal

do dia seguinte será o valor do dia atual mais uma variação imprevisível.
A variância de um passeio aleatório aumenta ao longo do tempo, de for-

ma que, a distribuição de Xt varia ao longo do tempo. No caso de não esta-
cionariedade em variância, algumas transformações, como a logarítmica,
podem estabilizá-la e, tornar a série temporal em estacionária.

Segundo Morettin (2016) existem, basicamente, duas formas de ge-
rar processos não estacionários e que sejam não explosivos. O primei-
ro deles é obtido com a inclusão em um processo estacionário de se-
gunda ordem2 de uma tendência determinística
como , obtendo-se um processo trend-stationary.
O termo é denominado função de transferência e é uma função
de B, o operador translação para o passado, dada da seguinte forma:
. O operador translação para o passado B realiza
a operação de translação com uma série temporal do tipo e, de
forma geral, .
O segundo processo não estacionário não explosivo considera um pro-

cesso linear geral com raiz unitária3, da forma , com
. O processo é não estacionário porque .
É possível explorar outras características de processos não estacionários.

No entanto, elas estão além do objetivo deste texto, por isso, não serão
apresentadas. Aos interessados em aprofundar no assunto, orientamos a
consulta de Morettin e Toloi (2006).
4. Modelos autorregressivos e de médias móveis
A hipótese de erros não correlacionados traz uma série de limitações

na validação de modelos do tipo . Portanto, para situações
onde essa suposição não é garantida, os modelos ARIMA são apropriados
e utilizados.
A classe de modelos ARIMA foi apresentada para a comunidade científi-

ca em 1976 pelos pesquisadores ingleses George E. P. Box e Gwilym M.
Jenkins. Na situação, o método ficou conhecido como modelos de Box &
Jenkins.
2
Processo estocástico fracamente estacionário e que segue algumas condições estatísticas.
3
Condição necessária para que uma série temporal modelada por ARMA(p,q) se torne estacionária.
Morettin (2006) afirma que três classes de processos podem ser descri-
tas pelos modelos ARIMA: (1) processos lineares estacionários; (2) pro-
cessos lineares não estacionários homogêneos e; (3) processos de me-
mória longa.
Neste texto será abordado um caso particular de um processo linear es-
tacionário, um processo autorregressivo e de médias móveis de ordens
p e q: ARMA(p,q), os quais têm como principal propósito a realização de
previsão.
De maneira formal, tem-se que um processo linear geral é dado por:
em que µ é um parâmetro que determina o nível da série temporal e, εt é

um ruído de média 0 e variância σ2, ou seja, um ruído branco.
Os modelos ARMA(p,q) são dados da forma
onde, são os operadores autorregressivos e de

médias móveis, respectivamente. A parte autorregressiva do modelo con-
sidera na modelagem os valores passados e a parte de médias móveis
considera os termos de erro como uma combinação linear com termos
de erro passados.
O modelo (11) pode ser reescrito, de forma compacta, como:
onde,
Um caso particular de um modelo ARMA, muito utilizado é o ARMA(1,1),

com suposição de µ = 0 e p = q = 1, ou seja . Para
este modelo o operador autorregressivo é φ(B) e, o operador de médias
móveis θ(B) = 1 – θB.
Santos (2016, p.17) faz uma aplicação de modelos ARMA(2,1) para sé-
ries temporais sobre os dados de ativo financeiro da Usiminas, a maior

companhia siderúrgica do Brasil. A série temporal utilizada continha cerca
de 3899 observações e foi obtida do portal Yahoo Finance. Os dados são
referentes ao período que vai de 19/06/2000 a 22/03/2016.
LINK
Trabalho de conclusão de curso com conteúdo de aplica-
ções de modelos para séries temporais. Disponível em:
<http://bdm.unb.br/bitstream/10483/15683/1/2016_Samille
AmaralSantos.pdf>. Acesso em: 14 junho 2018.
Muitas outras características existem para modelos ARMA(p,q). No entan-

to, não serão apresentadas neste texto. Aos interessados em se aprofun-
dar neste tipo de modelagem e, especificamente, em modelagem para
séries financeiras, podem consultar Morettin (2016).

Você sabia que a metodologia estatística para séries temporais pode
ser utilizada em diversas áreas profissionais? Tente identificar um
conjunto de dados da sua área de atuação, em que apresente algum
tipo de informação/evolução ao longo de um determinado período
do tempo cronológico. Construa um gráfico desse conjunto de dados
e, tente encontrar algum tipo de comportamento, como tendência
crescente ou decrescente, sazonalidade, etc.
• Este texto apresentou conceitos básicos de séries temporais.
• Foram apresentados processos estacionários e uma modelagem

simples para séries com esta característica.
• Foram apresentados processos não estacionários e algumas de suas
características.
• Foi apresentada a modelagem ARMA(p,q) e algumas de suas supo-

sições necessárias para a aplicação adequada em séries temporais.
Glossário
• Autorregressivo: tipo de modelagem de dados para séries tem-

porais, o qual utiliza informações passadas da série para construir
um modelo.
• Sazonalidade: qualidade ou estado de sazonal. Sazonal é um ad-

jetivo que se refere ao que é temporário, ou seja, que é típico de
determinada estação ou período do ano.
• Tendência: o que leva alguém a seguir um determinado caminho

ou a agir de certa forma; predisposição, propensão.
• Trend-stationary: do inglês, significa tendência estacionária.
TEMA 02
1. Escolha a alternativa que mostra um exemplo de série
temporal.
a) O resultado de um lançamento de um dado.
b) Os resultados do lançamento de vários dados ao mes-
mo tempo.
c) Os resultados do lançamento diário de um dado.
d) A escolha de uma das faces do dado.
e) A escolha de duas faces de dois dados, uma face em
cada um deles.

2. A primeira coisa a se fazer quando deseja-se construir um
modelo para uma série temporal é um gráfico da série ori-
ginal. Assinale a alternativa que justifica a construção des-
se gráfico.
a) Identificação de características (tendência, sazonalida-
de etc.).
b) Tornar o relatório estatístico dos resultados mais
atrativo.
c) Fazer uso de um programa computacional.
d) Tornar o processo de modelagem subjetivo.
e) Identificar se os dados são séries temporais.
3. Caracteriza uma série temporal que varia em torno de um
nível constante ao longo do tempo. Assinale a alternativa
que contém essa característica de uma série temporal.
a) Sazonalidade.
b) Estacionariedade.
c) Tendência.
d) Gaussiana.
e) Autorregressivo.
HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba:

Portal de livros abertos da USP, 2016. Disponível em: < www.producao.usp.br/bitstream
/handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y>. Acesso em: 27 de
maio de 2018.
MORETTIN, P.A. Econometria financeira: um curso em séries temporais financeiras.
3 ed. São Paulo: Blucher, 2016, 403p.
MORETTIN, P.A.; TOLOI, C.M. C. Previsão de séries temporais. 2 ed. São Paulo: Atual,
1987. 450p.
. Análise de séries temporais. 2 ed. São Paulo: Edgard Blücher, 2006. 538p.
RAGSDALE, C.T. Modelagem de planilha e análise de decisão: uma introdução
prática a business analytics. São Paulo: Cengage Learning, 2014. 594p.
SANTOS, S. A. Aplicações dos modelos ARMA a dados financeiros. 2016. 32 f. Trabalho
de conclusão de curso (Bacharelado em estatística) – Departamento de Estatística,
Instituto de Ciências Exatas, Universidade de Brasília, Brasília, 2016. Disponível em:
<http://bdm.unb.br/bitstream/10483/15683/1/2016_SamilleAmaralSantos.pdf>.
Acesso em: 14 junho 2018.
STOCK, J. H.; WATSON, M. W. Econometria. São Paulo: Pearson Brasil, 2004.
Disponível em: <http://anhanguera.bv3.digitalpages.com.br/users/publications/9788
588639140/pages/-20>. Acesso em: 09 junho 2018.
Questão 1 – Resposta: C
Por se tratar de um lançamento diário do dado, é possível registrar a

informação da face observada após o lançamento e, guardar a infor-
mação por um determinado período.
Questão 2 – Resposta: A
A primeira coisa a se fazer ao dar início numa análise de séries tem-

porais é um gráfico, com o intuito de identificar padrões nos dados.
Quando uma série temporal oscila em torno de um nível constante,

pode-se afirmar que a série tem a característica de estacionariedade.

TEMA 03
ANÁLISE DE MODELOS E
RELAXAMENTO DOS PRESSUPOSTOS
CLÁSSICOS
Objetivos
• Apresentar como ocorre o relaxamento de pressupos-

tos clássicos;
• Apresentar como ocorre a heterocedasticidade;
• Apresentar como se verifica a normalidade dos erros;
• Descrever como identificar multicolinearidade;
• Descrever mecanismos de correção de erros.
Introdução
O conteúdo a ser apresentado neste texto descreverá sobre os principais

problemas que surgem da violação dos pressupostos do método de mí-
nimos quadrados, utilizado para ajustar modelos de regressão para con-
juntos de dados.
Com a garantia da validade dos pressupostos de mínimos quadrados do

modelo ajustado é possível dizer que os estimadores são os melhores,
são lineares, são não tendenciosos e fornecem as estimativas para a va-
riável dependente mais próximas dos valores reais. No caso contrário,
nada disso pode ser considerado.
Quando a violação de qualquer um dos pressupostos do modelo ajusta-

do é identificada, faz-se necessário tomar medidas de correção apropria-
das. Tais medidas são desde implementação de estratégias estatísticas
até mudanças de modelo, ou até mesmo, uma mudança do método de
estimação.
Para a verificação da qualidade do modelo ajustado, ou seja, se os pres-

supostos são garantidos, são utilizados os resíduos do modelo constru-
ído com os dados fornecidos. Muitas dessas verificações são feitas por
gráficos, mas também podem ser realizadas com testes estatísticos. Os
resíduos são dados pela diferença entre os dados reais e os ajustados
pelo modelo construído, ou seja, são dados por ei = Yi – Ŷi. Quando são pe-
quenos em valores, tem-se uma indicação de que o modelo ajustado está
produzindo bons resultados e que os pressupostos têm grandes chances
de estar ocorrendo.

1. Heteroscedasticidade
Um modelo estatístico é considerado com um bom ajuste aos dados quan-

do garante todos os pressupostos a ele associados. Com essa garantia,
tem-se, como consequência, estatísticas e parâmetros confiáveis. Caso
contrário, o modelo não terá boa qualidade e não gerará boas estimativas.
Um dos pressupostos de um modelo estatístico é o que se chama de ho-

mocedasticidade, ou seja, a variância do erro aleatório do modelo é cons-
tante e é a menor dentre as variâncias dos modelos que podem ser ajus-
tados aos dados.
Em notação matemática, é possível representar a homocedasticidade

como . Tal notação representa a suposição de que os erros
têm a mesma variabilidade em torno dos níveis da variável independente
X (BUSSAB e MORETTIN, 2017).
Quando a homocedasticidade não puder ser garantida pelo modelo ajus-

tado, ocorre uma violação de pressuposto, que é conhecido como hete-
roscedasticidade. Uma das consequências da heteroscedasticidade é a
perda de eficiência nos parâmetros estimados, ou seja, os estimadores
obtidos deixam de ser os melhores estimadores lineares não viesados.
Sandroni (1989 apud MALASSISE, 2015, p.127) define heteroscedasticida-

de como “conceito de estatística que designa uma distribuição de frequ-
ência em que todas as distribuições condicionadas têm desvios-padrão
(afastamentos) diferentes”.
A forma mais simples de se verificar a heteroscedasticidade é através de

visualização gráfica entre as estimativas do erro, ou seja, os resíduos con-
tra a(s) variável(is) independente(s). Outra forma de detectar heterosce-
dasticidade é com a utilização de testes estatísticos. Em econometria, os
mais utilizados são os testes propostos por Goldfeld-Quandt, Park, Glejser,
Pesaran e Pesaran. Muitos programas computacionais, específicos para
construção de modelos econométricos, possuem implementados esses
testes para sua aplicação aos dados utilizados.
A Figura 1 apresenta alguns gráficos de resíduos êi contra uma variável in-
dependente X. Vale lembrar que os valores dos resíduos são obtidos após
o ajuste do modelo de regressão aos dados.
Figura 1 – Gráficos de resíduos . (a) situação ideal; (b),

(c) modelo não linear; (d) elemento atípico; (e), (f),
(g) heteroscedasticidade; (h) não normalidade.
Fonte: Bussab e Morettin (2017, p. 484).
Após a construção do gráfico dos resíduos é preciso saber identificar

possíveis inadequações do ajuste do modelo. A Figura 1 apresenta al-
gumas das mais comuns. É claro que, esse tipo de análise é bastante
subjetivo, pois, cada analista pode ter a sua conclusão, a qual pode dife-
renciar de outros.
A Figura 1 (a) é a situação ideal, ou seja, a situação esperada quando se
constrói um modelo de regressão. Quando ela ocorre, é possível constatar
que o pressuposto de homocedasticidade está garantido para o modelo
ajustado. Visualmente, não é possível identificar padrões ou tendências
nos resíduos. Eles aparecem distribuídos aleatoriamente no gráfico.
Já nas Figuras 1 (b) e (c) percebe-se que existem padrões na distribui-
ção gráfica dos resíduos. Isso indica que o modelo linear ajustado não
está apropriado para os dados. Diante de uma situação dessas, faz-se

necessário aplicar transformações aos dados ou, buscar um modelo não
linear apropriado para o conjunto de dados.
A situação apresentada na Figura 1 (d) é referente à presença de um dado
atípico ou discrepante no conjunto de dados. Quando isso ocorre, faz-se
necessário uma investigação da razão de sua ocorrência, que pode ser di-
versa, como erro de medida ou a ocorrência de uma situação que gerou o
dado discrepante do restante do conjunto. Diante de ocorrência de dados
discrepantes, em vez de usar método de mínimos quadrados ordinários
(MQO) para estimar os parâmetros do modelo, recomenda-se a utilização
de métodos robustos (não serão tratados neste texto).
Os casos apresentados nas figuras 1(e), 1(f) e 1(g) indicam de maneira clara
que o pressuposto de homocedasticidade não pode ser garantido para o
modelo ajustado. É possível perceber que os resíduos não se distribuem de
maneira aleatória no gráfico segundo os valores da variável independente X.
E, por último, a Figura 1(h), também, apresenta distribuição não aleatória
dos resíduos, segundo os valores de X. No entanto, parece apresentar va-
lores de resíduos nos extremos superior e inferior do intervalo de valores
de sua ocorrência.
Os testes estatísticos citados que avaliam a existência de heteroscedas-
ticidade não serão apresentados com detalhes neste texto. Apenas no
exemplo de aplicação deste texto será apresentado resultado com o teste
de Goldfeld-Quandt. Maiores detalhes sobre os testes são possíveis en-
contrar em GUJARATI e PORTER (2008).
PARA SABER MAIS

Teste de Park: é um dos testes estatísticos existentes para
avaliar a existência de heteroscedasticidade em dados utili-
zados para ajustar modelos. Ele é construído considerando
que a variância do erro aleatório do modelo seja uma fun-
ção da variável independente Xi. Através dessa função é pos-
sível construir um modelo de regressão e, avaliar se existe ou
não heteroscedasticidade (MALASSISE, 2015, p. 131).
2. Normalidade dos erros
A distribuição normal é uma distribuição de probabilidade apropriada

para modelar variáveis contínuas, ou seja, variáveis que podem assu-
mir qualquer valor real dentre um determinado intervalo de valores. Por
exemplo, a altura das pessoas, o volume de água ingerida durante um dia,
a variação de um ativo financeiro, etc.
A origem da distribuição normal ocorreu através de Gauss, por volta

de 1810, em seus trabalhos de pesquisas astronômicas. É daí que tam-
bém surge outro nome dado para a distribuição normal, a distribuição
gaussiana.
Por definição, diz-se que uma variável aleatória X tem distribuição normal
com parâmetros µ e σ2, em que , representando a média e
a variância da distribuição, respectivamente, se sua função densidade de
probabilidade é dada por:
O modelo clássico de regressão linear supõe que os erros ei tenham dis-

tribuição normal com média 0 e variância σ2. Esse pressuposto pode ser
representado como .
Há uma série de motivos para que a normalidade dos erros seja um pres-
suposto necessário para se construir um modelo de regressão. A seguir,
serão apresentados alguns dos principais motivos, segundo Gujarati e
Porter (2008, p. 119):
1. O termo erro aleatório ei de um modelo de regressão linear represen-

ta a influência combinada de um grande número de variáveis não con-
sideradas de forma explícita na modelagem. O que se espera é que a
influência delas seja a menor possível e, na melhor das hipóteses, seja
aleatória. Se a distribuição do erro for normal, o teorema do limite
central pode garantir isso.

2. Se o termo de erro aleatório for normal é possível obter a distribuição
de probabilidade dos estimadores dos coeficientes do modelo de for-
ma fácil.
3. A distribuição normal é extremamente conhecida e, portanto, suas
propriedades teóricas já foram muito exploradas. Além disso, diver-
sos fenômenos seguem uma distribuição normal.
4. É possível utilizar testes estatísticos como os testes t, F e qui-quadrado
para realizar testes com os estimadores do modelo.
Por esses, dentre outros motivos, é de extrema importância, num proces-

so de modelagem de dados por regressão linear, garantir o pressuposto
de normalidade para o termo erro.
PARA SABER MAIS

Teste de Normalidade dos resíduos: O teste de Jarque-Bera
(JB) é apropriado para verificar se os resíduos do modelo ajus-
tado se aderem a uma distribuição normal. Como limitação,
pode-se dizer que se trata de um teste assintótico, ou seja,
que funciona bem apenas para grandes amostras. Outra li-
mitação, é que ele se baseia nos resíduos de mínimos qua-
drados. Maiores detalhes sobre o teste podem ser encontra-
dos em Malassise (2015, p. 133).
3. Multicolinearidade
O termo multicolinearidade foi apresentado por Ragnar Frisch, pesquisa-

dor da área de economia, em 1934, na Noruega, mais especificamente,
na cidade de Oslo, em um de seus artigos publicados sobre modelos de
regressão. A multicolinearidade em um conjunto de dados ocorre nas va-
riáveis explicativas ou independentes de um modelo econométrico. Por
exemplo, a renda, a renda per capita e o PIB são variáveis que medem
informações semelhantes. Portanto, é aconselhável, para que não ocorra
problemas de multicolinearidade, que seja utilizada apenas uma delas em
um ajuste de modelo.
No entanto, quando não se sabe se as variáveis de um conjunto de dados

que será utilizado para a construção de um modelo econométrico são
correlacionadas,o elaborador do modelo pode se deparar com um pro-
blema de multicolinearidade. Embora, segundo Gujarati e Porter (2008),
sempre existe um grau de correlação entre as variáveis independentes.
Em geral, problemas de multicolinearidade surgem quando existe forte

relação linear entre as variáveis independentes do modelo, ou seja, o que
é definido como colinearidade, pois, relação entre elas sempre existirá
em algum grau.
ASSIMILE
COLINEARIDADE: É um termo utilizado para dizer que existe
correlação linear entre duas variáveis, de tal forma que, não
é possível identificar o efeito de cada uma delas sobre a va-
riável dependente do modelo ajustado. O termo multicoline-
aridade se estende para o caso de colinearidade, que indica
existência de correlação linear entre mais de duas variáveis
independentes de um modelo econométrico.
Como dito anteriormente neste texto, Gujarati e Porter (2008) indicam

que sempre existe algum grau de correlação entre as variáveis indepen-
dentes de um modelo. Estes graus de correlação são apresentados na
figura 2, chamada diagrama de Ballentine.

Figura 2 – Visão da multicolinearidade segundo o diagrama de Ballentine
Y Y
X3
X2
X2 X3
(a) Ausência de colinearidade (b) Baixa colinearidade
Y
Y Y
X2 X3 X2 X2 X3
X3
(c) Colinearidade moderada (d) Alta colinearidade (e) Colinearidade muito alta
Fonte: Gujarati e Porter (2008, p. 331)
No diagrama de Ballentini, os círculos Y, X2 e X3 representam as variações da

variável dependente e das variáveis independentes, respectivamente. O grau
de colinearidade é dado pela extensão da área marcada com sombreamen-
to, formada com a sobreposição dos círculos. A situação ideal e, que atende
ao pressuposto de ausência de multicolinearidade, ocorre na Figura 2(a).
Muitas são as fontes de multicolinearidade. Algumas delas são descritas
por Gujarati e Porter (2008, p. 332), conforme listadas abaixo:
1. O método de coletado dos dados: realização de um procedimento de
amostragem com faixa delimitada de valores;
2. Restrições impostas ao modelo ou à população que será amostrada
para a coleta de dados. Uma situação onde isso ocorre, por exemplo,
em um modelo de regressão do consumo de energia elétrica (X2) e o
tamanho da residência (X3), existe uma restrição física na população,
onde as famílias com rendas maiores, em geral, possuem residências
maiores que aquelas famílias de rendas mais baixas;
3. Especificação do modelo: como exemplo, na inclusão de termos poli-
nomiais em um modelo de regressão, principalmente, quando o inter-
valo de valores de valores de variável independente é pequeno;
4. Sobredeterminação do modelo: ocorre quando o modelo possui mais
variáveis do que número de observações;
5. Tendência comum: ocorre em dados de séries temporais.
Uma forma de diagnosticar a existência de multicolinearidade é através

de uma medida de qualidade do modelo, chamada coeficiente de deter-
minação (R2). Quando esta medida apresentar um valor alto (ela varia en-
tre 0 e 1) e, nenhum coeficiente estimado apresentar valor estatistica-
mente significativo, há um forte indício de que o modelo construído esteja
apresentando multicolinearidade. Outra maneira de identificar a multico-
linearidade é pela matriz de correlação, em que, valores superiores a 0,8
em módulo, indicam a existência de forte correlação entre as variáveis.
Também, é possível identificar a existência de multicolinearidade através
do fator de inflação da variância (FIV). O ideal é que o FIV médio de um
conjunto de variáveis não seja maior que 10 ou que o maior FIV de uma
variável não seja superior a 10.
Malassise (2015, p.17) apresenta alguns procedimentos para reduzir as

consequências da multicolinearidade, que são: “(1) aumento do tamanho
amostral; (2) uso de informação a priori sobre os valores das estimativas
dos parâmetros; (3) transformação da relação funcional entre as variá-
veis dependente e independentes; (4) exclusão de variáveis colineares e;
(5) uso de razões ou primeiras diferenças, no caso de séries temporais”.
Vale ressaltar que a ocorrência de multicolinearidade no modelo ajustado
fere o princípio de eficiência do modelo ao não fornecer variância mínima
para os termos de erro, no entanto, não fere o princípio da sua consistên-
cia, ainda fornecendo estimadores não viesados.

LINK
Recomendamos que verifique o material aqui indicado, para
que você perceba, em detalhes, a descrição sobre multicoli-
nearidade e apresenta exemplo de aplicação. Disponível em:
<https://edisciplinas.usp.br/pluginfile.php/2340848/mod_
resource/content/0/Mayara_Multicolinearidade.pdf>.
Acesso em: 22 junho 2018.
4. Mecanismo de correção de erro
“A especificação do modelo nada mais é do que expressar a forma econo-

métrica de um modelo econômico” (MALASSISE, 2015, p. 37).
Para que um modelo seja bem especificado faz-se importante conhecer a

fundo todo o contexto que envolve o problema, assim como, os passos téc-
nicos para sua construção. Desta forma, erros são evitados e, também, a ne-
cessidade de mais esforço para a construção de um modelo econométrico.
A correta especificação de um modelo econométrico faz parte do conjunto

de pressupostos de um modelo de regressão linear clássico. Caso contrá-
rio, ocorrerá o problema de erro de especificação de modelo ou viés de
especificação de modelo.
São diversos os fatores que causam erro de especificação de um mode-

lo. Dentre eles, podem ser citados: a omissão de uma variável relevante,
a inclusão de variáveis desnecessárias no modelo, a forma funcional erra-
da, erro de medidas nas variáveis, a desconsideração da componente de
interação no modelo, a pressuposição de que o termo de erro tem distri-
buição normal, etc. Existem alguns testes estatísticos que ajudam a detec-
tar erros de especificação para alguns casos específicos, como os citados
anteriormente. Por exemplo, para verificar a existência de variáveis desne-
cessárias no modelo, pode-se recorrer à estratégia chamada “abordagem
de baixo para cima”, que significa construir vários modelos, a partir de um
modelo menor, com menos variáveis, até modelos maiores. Essa estratégia
também é conhecida como garimpagem de dados ou data mining.
O objetivo da garimpagem de dados é desenvolver o “melhor” modelo

após os diversos testes diagnósticos, no intuito de se obter o modelo fi-
nal mais apropriado, no sentido de que todos os coeficientes estimados
sejam estatisticamente significativos e possuam os seus sinais corretos.
Para exemplificar, o teste de Durbin-Watson faz parte dos testes estatísti-
cos utilizados neste processo.
Muitos outros procedimentos para verificação de erros e aplicação de cor-

reção existem na literatura, no entanto, não serão abordados neste texto.
Os interessados em aprofundar no assunto podem consultar Gujarati e
Porter (2008).
EXEMPLIFICANDO
Malassise (2015, p. 136) apresenta uma aplicação de verifica-
ção de heteroscedasticidade em um conjunto de dados, cor-
respondentes a salários (W) e anos de escolaridade (A). Parte
dos dados é mostrada na figura abaixo.
Figura 3 – Dados de salários e anos de escolaridade

(X) (X) (X1)
(Y) (Y) (Y1)
Anos de Anos de Anos de Y* X*
Salários estudo Salários estudo Salários estudo
120 0 120 0 0,099797 0 0,099797 0
507 2 130 0 0,421643 0,299439 0,108114 0
251 1 145 0 0,208742 0,14972 0,120588 0
467 2 220 0 0,388377 0,299439 0,182961 0
637 3 251 1 0,529756 0,449159 0,208742 0,14972

(X) (X) (X1)
(Y) (Y) (Y1)
Anos de Anos de Anos de Y* X*
Salários estudo Salários estudo Salários estudo
861 4 467 2 0,716044 0,598878 0,421643 0,222439
130 0 507 2 0,108114 0 0,388377 0,299439
145 0 637 3 0,120588 0 0,529756 0,449159
220 0 861 4 0,182961 0 0,716044 0,598878
1099 5 1099 5 0,913975 0,748598 0,913975 0,748598
1226 6 1160 8 1,019593 0,898317 1,019593 0,898317
1243 7 1226 6 1,033731 1,048037 1,033731 1,048037
1439 8 1243 7 1,196733 1,197756 1,196733 1,197756
[...]
3464 17 3223 16 2,880809 2,545232 2,346063 2,395513
3078 17 3259 15 2,559795 2,545232 2,880809 2,545232
2587 15 3464 17 2,151459 2,245793 2,559795 2,545232
3692 21 3692 21 3,070423 3,14411 3,070423 3,14411
3788 22 3788 22 3,150261 3,29383 3,150261 3,29383
4140 23 4140 23 3,442999 3,443549 3,58022 3,29383
4305 22 4305 22 3,58022 3,29383 3,442999 3,443549
Desvio padrão = 1202,044 (salários) e 6,679155 (anos de estudo).
Salários Y1 e Ano X1 = variáveis divididas pelos seus desvios padrões.
Y* e X* são a regressão dos valores de salário Y1 e anos de estudo X1.
Fonte: Malassise (2015, p.137)
Os resultados da regressão, obtidos no Excel, no suplemento ferramen-

tas de análise, são apresentados na figura a seguir, para salários (W) como
variável dependente e, anos de escolaridade (A) variável independente.
Figura 4 – Regressão: salários em função de anos de escolaridade
RESUMO DOS RESULTADOS
Estatísticas de regressão
R múltiplo 0,988576
R-Quadrado 0,977282
R-Quadrado ajustado 0,976633
Erro padrão 183,7493
Observações 37
RESUMO DOS RESULTADOS
ANOVA
F de
gl SQ MQ F
significação
Regressão 1 50835032 50835032 1505,607 2,33E-30
Resíduo 35 1181734 33763,82
Total 36 52016766
Erro 95%
Coeficiente padrão Stat t Valor-P 95% Inferior Superior
Interseção 124,0547 54,90802 2,259318 0,030195 12,58549 235,5239
Variável X 177,9134 4,585144 38,80215 2,33E-30 168,6051 187,2218
Fonte: Malassise (2015, p. 138).
Da tabela de regressão podem ser obtidos os valores estimados para

os coeficientes, que são:
O gráfico dos resíduos contra os valores da variável independente, anos

de escolaridade, é mostrado a seguir.
Figura 5 – Gráfico dos resíduos contra anos de escolaridade
Fonte: Malassise (2015, p. 139).

Com o gráfico da Figura 5 é possível perceber que, à medida que os anos
de escolaridade aumentam (crescente da esquerda para a direita), os
resíduos também aumentam de valor. Isto é um indicativo da existên-
cia de correlação entre resíduos e a variável independente do modelo
ajustado e, consequentemente, um indicativo de existência de heteros-
cedasticidade no modelo ajustado. A autora aplicou o teste de Goldfeld-
Quandt para confirmar a existência de heteroscedasticidade. Através de
um teste F foi possível confirmar que o modelo ajustado viola o pressu-
posto de homocedasticidade. Maiores detalhes sobre a implementação
do teste podem ser encontrados em Malassise (2015).

No processo de criação de um modelo econométrico há uma busca
incessante pela correta especificação dele. É como se o analista esti-
vesse numa caça ao tesouro perdido. Para isso, muitas questões são
levantadas com o propósito de se obter o caminho correto. Uma des-
tas perguntas seria “Como se faz para encontrar o modelo correto?”.
Pense sobre esta pergunta e descreva sua resposta em forma de itens.
• Abordamos sobre o relaxamento de pressupostos básicos de mode-

los de regressão linear clássicos.
• Apresentamos a definição de heteroscedasticidade e como ela pode

ocorrer em ajustamento de modelos econométricos.
• Foi apresentado como se verifica o pressuposto de normalidade dos

erros de um modelo e a importância que a distribuição normal tem
no contexto de modelagem de dados.
• Observamos a importância de se especificar corretamente os mode-

los e formas de verificar se estão bem construídos.
Glossário
• Atípico: que se afasta do normal, do característico; anômalo, inco-

mum, raro.
• Discrepante: que se destaca pela diferença; destoante.
• Robusto: resistente; poderoso.
TEMA 03
1. É a forma mais simples de identificar a existência de hete-
roscedasticidade em um modelo de regressão ajustado. A
afirmativa está se referindo a:
a) Gráfico.
b) Tabela.
c) Teste.
d) Intuição.
e) Dedução.
2. A distribuição normal possui quantos parâmetros?
a) Um.
b) Dois.
c) Três.
d) Quatro.
e) Nenhum.
3. Se o coeficiente de correlação linear entre duas variáveis
independentes de um conjunto de dados que será utiliza-
do para ajustar um modelo de regressão apresentar valor
de 0,85, o que é possível concluir em relação aos pressu-
postos do modelo?

a) Ausência de heteroscedasticidade.
b) Presença de heteroscedasticidade.
c) Ausência de colinearidade.
d) Presença de colinearidade.
e) Erro de especificação.
BUSSAB, W.; MORETTIN, P. Estatística básica. 9. ed. São Paulo: Saraiva, 2017. 554p.
GUJARATI, D.N.; PORTER, D.C. Econometria básica. 5. ed. São Paulo: AMGH, 2008. 924p.
MALASSISE, R. L. S. Econometria. 1. ed. Londrina: Editora e Distribuidora Educacional
S/A, 2015. v. 1. 192p. Disponível em: <http://anhanguera.bv3.digitalpages.com.br/
users/publications/9788584822065/pages/-2>. Acesso em: 26 maio 2018.
A forma mais simples de se verificar existência de heteroscedastici-

dade em um modelo de regressão ajustado é através de gráfico dos
resíduos contra os valores da(s) variável(is) independente(s).
A distribuição normal possui dois parâmetros que são a média e a

variância, representadas pelas letras gregas µ e σ2, respectivamente.
Se o coeficiente de correlação linear entre duas variáveis apresentar

valor de 0,85, há indícios de que elas estão fortemente correlaciona-
das e, se forem incluídas no mesmo modelo ajustado, possivelmen-
te, causarão colinearidade no ajuste.
TEMA 04
REGRESSÃO COM VARIÁVEIS DUMMY
Objetivos
• Apresentar variáveis dummy como constantes;
• Apresentar variáveis dummy como coeficientes

angulares;
• Apresentar modelos de diferenças em diferenças.
Introdução
Os modelos de regressão apresentados até aqui foram elaborados com

variáveis do tipo razão, também conhecida como proporcional ou cardi-
nal, ou seja, variáveis que permitem a utilização de todas as operações
matemáticas básicas. Por exemplo, a estatura, valores monetários, idade
e peso. No entanto, isso não deveria dar a impressão de que os modelos
de regressão só podem lidar com variáveis desse tipo, pois, podem ser
construídos com outros tipos de variáveis. Neste texto serão considera-
dos modelos de regressão que trabalham com variáveis independentes
que são conhecidas como variáveis indicadoras ou binárias.
Uma variável binária (também denominada variável dummy) é aquela que

só tem dois valores distintos, geralmente zero e um. Em um modelo de
regressão, a variável dependente também pode ser influenciada por va-
riáveis de natureza qualitativa, onde, em geral, significam a presença ou
ausência de uma “qualidade” ou atributo, como ser homem ou mulher,
ser católico ou não, etc.
A quantificação de atributos qualitativos em modelos de regressão nos

valores zero e um, para variáveis independentes, é realizada para cons-
truir uma classificação em categorias mutuamente exclusivas, sem possi-
bilidade de sobreposição.
Em um mesmo modelo podem haver variáveis quantitativas e qualitati-

vas, no entanto, neste texto, serão considerados os modelos que pos-
suem apenas variáveis independentes qualitativas.
1. Variáveis dummy como constantes
Os métodos estatísticos para comparação de médias de vários grupos que

relacionam a associação entre uma variável quantitativa e uma ou mais va-
riáveis qualitativas (categóricas), ou seja, a média da variável dependente
é comparada entre os grupos, os quais são categorias das variáveis inde-
pendentes. Este método recebe o nome de análise de variância (ANOVA),
desenvolvido pelo estatístico inglês Ronald A. Fisher por volta de 1920.
Uma variável dummy representa a influência de uma característica ou atri-

buto qualitativo. Como exemplo, suponha que haja o interesse em saber
se o sexo influencia no salário de uma determinada função. A inclusão de
uma variável dummy pode ser feita da maneira a seguir:
Da forma com está construída a variável, o coeficiente de X representará

o quanto as mulheres ganham, em média, a mais (ou a menos) que os
homens.
A ideia pode ser estendida para variáveis qualitativas que possuem mais
de duas categorias. Como por exemplo, o padrão de construção de um
determinado imóvel, que pode ser classificado como padrão alto, médio
ou baixo. Neste caso, são necessárias as elaborações de duas variáveis
dummy, que poderão ser definidas da seguinte maneira, considerando
imóvel padrão baixo como base:
Quando a variável independente possuir k categorias serão necessárias

k – 1 variáveis dummy para distinguir todas as categorias da variável origi-
nal. Isso ocorre para evitar ocorrência de colinearidade perfeita, ou seja,
para evitar relações lineares exatas entre as variáveis independentes do
modelo. Essa situação se estende para modelos que possuem mais de
uma variável qualitativa.
Como dito antes, a categoria para a qual nenhuma variável dummy é atri-
buída é conhecida como categoria-base, de controle, de comparação, de
referência ou categoria omitida. Todas as comparações são feitas em

relação à categoria de referência. A escolha desta base é arbitrária, ou
seja, depende da análise que se deseja fazer. O valor do termo intercepto
do modelo representa o valor médio da categoria de referência.
Vale lembrar que o modelo usual de regressão não permite que a variável
dependente seja binária. Isso é um tanto óbvio já que, ela é construída
com a inclusão de um termo de erro aleatório com distribuição normal.
PARA SABER MAIS

Variáveis dummies em outras análises. O uso de variáveis
dummies não se esgota em ajuste por ANOVA ou regressão
usual, elas também podem ser utilizadas em outros tipos de
análises, como análise de covariância, em análise de séries
temporais, em regressão segmentada e regressão com dados
em painel. É claro que a escolha de um método dependerá
do tipo de dado e de análise que se deseja realizar. Maiores
detalhes sobre o uso de variáveis dummies aplicadas com
essas metodologias podem ser encontradas em Gujarati e
Porter (2008).
Para modelos com uma única variável dummy, o procedimento ANOVA é

o mais utilizado desde que os pressupostos de um modelo de regressão
clássico sejam garantidos.
A situação geral pode ser descrita como a existência de uma população

de dados (indivíduos, animais, empresas etc.), para a qual se tem uma
variável aleatória contínua de interesse. Assumindo, agora, que seja pos-
sível classificar as unidades populacionais segundo níveis de uma variável
qualitativa ou fator. De forma geral, é possível ter I níveis para esse fator,
dividindo a população em subpopulações (ou estratos), P1, P2, ... , PI. Um
modelo conveniente para descrever essa situação é
onde, µi são as médias da variável aleatória Y para as suas subpopulações
e, eij é o termo erro aleatório.
O modelo em (3) é chamado modelo com efeitos fixos, no sentido de que

as subpopulações determinadas pelos níveis da variável independente ou
fator são aquelas de interesse. Para o modelo apresentado, consideran-
do que a variável independente possua dois níveis, a hipótese que está
sendo testada é H0 : µ1 = µ2, ou seja, é testado se as médias são iguais. As
operações realizadas podem ser resumidas em um quadro, no intuito de
facilitar a análise dos resultados.
Supondo que os pressupostos do modelo (3) são todos garantidos e que

a variável independente possua dois níveis, a quantidade de informação
perdida (devido aos resíduos) será dada por , que será
chamada de soma de quadrados total, abreviadamente, SQT.
Outra quantidade importante é a quantidade total de informação qua-

drática perdida pela adoção do modelo (3). Essa quantidade é uma soma
denominada soma de quadrados dos resíduos (SQRes), ou soma de qua-
drados dentro dos dois grupos (SQDen). Matematicamente, tem-se SQRes
=
A economia obtida ao se passar de um modelo para outro (níveis da va-

riável dummy) será dada por um termo chamado de soma de quadrados
entre grupos (SQEnt). Matematicamente, tem-se SQEnt .
Essa mesma quantidade pode ser obtida pela diferença entre SQT e SQRes.
Ela representa a variabilidade entre as médias amostrais, ou seja, uma
“distância” entre a média de cada grupo e a média global, que origina o
nome “soma de quadrados entre grupos”.
Todas essas informações podem ser agrupadas em uma tabela conhecida

por quadro ANOVA, que pode ser descrita como segue.

Quadro 1 – Tabela de análise de variância (ANOVA)
Fontes de Graus de Soma de Quadrado
F
variação liberdade quadrados médio
Entre 1 SQEnt QMEnt QMEnt/QMRes
Dentro n–2 SQRes QMRes (Se)
Total n–1 SQT QMT (S)
Fonte: Adaptado de Hoffmann (2016).
Na primeira coluna do quadro 1 estão as descrições das diferentes somas

de quadrados, denominada fontes de variação. Os graus de liberdade, na
segunda coluna, estão associados com as respectivas somas de quadra-
dos. A coluna de quadrados médios é obtida pelas seguintes quantidades:
A quantidade QMEnt será igual à SQEnt, pois estamos diante a um grau

de liberdade. A quantidade QMRes fornece estimativa do desvio padrão
do modelo completo (3), enquanto a quantidade QMT fornece estimativa
do modelo reduzido yi = µ + ei, i = 1, ... , ni. E, na última coluna da tabela
ANOVA, tem-se a estatística que testa a hipótese nula H0 : µ1 = µ2. Ela tem
distribuição F de Snedecor com (1, n – 2) graus de liberdade, cujos valores
podem ser obtidos em tabelas.
De forma mais rápida, é possível obter uma tabela ANOVA com o suple-
mento de análise de dados do Microsoft Excel®, conforme mostrado
exemplo a seguir adaptado de Fonseca e Martins (1996, p. 262).
EXEMPLIFICANDO
O resultado das vendas efetuadas por três vendedores de
uma loja durante certo período é dado a seguir. Deseja-se
saber, ao nível de 5% de significância, se há diferença de efi-
ciência entre os vendedores.
Tabela 1 – Dados de vendas
Vendedores
A B C
29 27 30
27 27 30
31 30 31
29 28 27
32 29 29
30 29 28
Fonte: Adaptado de Fonseca e Martins (1996)
É possível obter os resultados de duas maneiras com o suplemento de

análise de dados do Excel. Um com a ferramenta de análise “Anova:
fator único” e, o outro com a ferramenta “Regressão”. A diferença entre
as duas ferramentas é a forma de entrada de dados.
Para utilizar a ferramenta “Anova: fator único” basta inserir numa planilha
os dados da forma como está apresentado, ou seja, como mostra a Figura 1.
Figura 1. Inserção de dados em planilha para ANOVA
O modelo considerado é yij = µi + eij, i = A, B, e C e j = 1, 2, ... , 6, onde µi

são as médias de vendas de cada vendedor. A hipótese que está sen-
do testada é H0 : µA = µB = µC. Os resultados obtidos são mostrados na
Figura 2.

Figura 2 – Resultados da ANOVA fator único do Excel
Na tabela RESUMO são mostradas as médias e variâncias de cada ven-

dedor e, na tabela ANOVA o resultado do teste do modelo. Na coluna
“valor-P” é mostrada a probabilidade de a hipótese testada não ser re-
jeitada. Comparando essa probabilidade com o nível de significância
0,05, pode-se concluir que a hipótese é verdadeira, ou seja, as médias
não diferem significativamente.
No processo de construção de um modelo com variáveis dummy, a

equação considerada é . A hipótese de tes-
te associada é a mesma usada na ANOVA. A inserção dos dados na pla-
nilha é um tanto diferente, conforme mostra a Figura 3.
Figura 3 – Inserção de dados em planilha para
regressão com variáveis dummy
Fonte: elaboração do autor.
A escolha da categoria de referência é arbitrária. Para a realização deste

exemplo, a categoria de referência escolhida foi a de vendas do vende-
dor C. Portanto, os resultados serão comparados com os dados deste
vendedor. Os resultados parciais são mostrados na Figura 4.
Figura 4 – Resultados parciais da regressão com variáveis dummy
Fonte: elaboração do autor.

Os resultados mostrados são apresentados um tanto diferente daque-
les apresentados na ANOVA. Na coluna “Coeficientes” são mostradas
as estimativas dos coeficientes do modelo ajustado, onde na linha in-
tercepto está a estimativa do coeficiente β0, que nada mais é do que a
média amostral da categoria de referência, no caso, a média de vendas
do vendedor C. Nas linhas A e B, os valores estimados dos coeficientes
representam a diferença estimada da média de cada vendedor em rela-
ção à categoria de referência, no caso, a média de vendas do vendedor
C. Por exemplo, a média estimada de vendas do vendedor A é maior
que a média estimada de vendas do vendedor C em 0,50, ou seja, é
29,17 + 0,50 = 29,67, aproximadamente. Este resultado coincide com a
média apresentada na ANOVA da primeira análise e, a mesma inter-
pretação vale para o coeficiente da linha do vendedor B. Com relação
à hipótese testada, é possível concluir com o resultado da coluna “F de
significação” da tabela superior ANOVA, cujo valor é 0,3232, semelhante
àquele encontrado no “Valor-P” da primeira análise, que as médias de
vendas não diferem significativamente, pois, 0,3232 > 0,05, o nível de
significância do teste.
O exemplo apresentado é dito balanceado, ou seja, cada categoria ou nível

da variável independente possui a mesma quantidade de observações. No
entanto, é possível ajustar uma ANOVA ou um modelo de regressão com
variáveis dummy mesmo que ocorra um desbalanceamento de dados.
LINK
Aplicação de modelos de regressão com variáveis dummy no
Excel em dados reais. Disponível em: <www.redeitausocial
deavaliacao.org.br/wp-content/uploads/2016/09/Curso-de-
Gestores-slides-Aula5_20160929.pdf>.
Acesso em: 03 julho 2018.
2. Variáveis dummy como coeficientes angulares
Outra possibilidade de ajustamento de um modelo de regressão com va-

riáveis dummy sem cair na armadilha da variável binária, ou seja, sem
cometer um erro por colinearidade perfeita é, no momento do ajusta-
mento, não introduzir o termo do intercepto. Neste caso, a quantidade
de variáveis dummy a ser introduzida no modelo será exatamente igual
à quantidade de níveis que ela possui. Por exemplo, se a variável sexo
(masculino e feminino) for considerada como variável independente num
modelo, a quantidade de variáveis dummy a ser considerada serão duas,
pois a variável possui duas categorias/níveis.
A interpretação que se dá para os coeficientes estimados obtidos de uma

regressão sem intercepto é que, seus valores representam a estimativa
da média da respectiva categoria da variável independente.
Uma pergunta que pode surgir após a apresentação desses processos de

modelagem com variáveis dummy é “qual dos métodos é o melhor?” Em
se tratando de ANOVA, o ideal é que não sejam usadas muitas variáveis
independentes, pois, quantos mais delas forem consideradas no proces-
so, mais difícil será a interpretação dos resultados. Considerando a cons-
trução de modelos de regressão, Gujarati e Porter (2008, p. 293) descre-
vem que “a maioria dos pesquisadores acredita que a equação com um
intercepto seja mais conveniente, porque lhes permite tratar com mais
facilidade as questões em que geralmente têm mais interesse”.
Outra forma de modelagem com variáveis dummy possível de ser reali-

zada é o que se chama de análise de covariância (ANCOVA). Neste tipo, é
possível considerar tanto variáveis quantitativas, quanto variáveis dummy
na mesma equação de estimação. Maiores detalhes sobre este tipo de
modelagem podem ser encontrados em Gujarati e Porter (2008).

PARA SABER MAIS
Gujarati e Porter (2008, p. 294) descrevem sobre ANCOVA da
seguinte maneira:
“Os modelos ANOVA embora sejam comuns em áreas como
sociologia, psicologia, educação e pesquisa de mercado, não
são tão comuns em economia. Tipicamente, na maioria das
pesquisas econômicas, um modelo de regressão contém al-
gumas variáveis explanatórias quantitativas e algumas qua-
litativas. Os modelos de regressão com uma mistura de vari-
áveis quantitativas e qualitativas são chamados de modelos
de análise de covariância (ANCOVA). Eles são uma extensão
dos modelos ANOVA no sentido de que fornecem um méto-
do de controle estatístico dos efeitos de regressores quanti-
tativos, chamados covariáveis ou variáveis de controle, em
um modelo que inclui tanto regressores quantitativos quan-
to qualitativos ou binários”.
3. Modelos de diferenças em diferenças
Até aqui os modelos construídos com variáveis dummies não considera-

ram o termo de interação, ou seja, o efeito de cada variável independente
na variável dependente é considerado constante no nível das demais va-
riáveis independentes. Perceba que, um modelo de regressão ou ANOVA
só pode conter um termo de interação quando tem mais de uma variável
independente.
Considere o seguinte exemplo, adaptado de Gujarati e Porter (2008, p.

299), de um modelo de regressão com variável binária sem o termo de
interação.
em que Y = variável dependente; X1 = variável dummy e, X2 = outra variável

dummy.
Da forma como está elaborado, está implícito que o efeito diferencial de
X1 é constante no efeito diferencial de X2, e vice-versa. Em muitas aplica-
ções esse pressuposto pode não ser respeitado, o que leva a uma neces-
sidade de reformulação do modelo de regressão proposto inicialmente.
Em situações nas quais o pressuposto acima não é garantido há uma ne-
cessidade de inclusão de um novo termo no modelo, o termo de interação
entre as variáveis independentes. A inclusão deste termo torna o modelo
a ter a seguinte equação.
em que um dos efeitos das variáveis independentes sobre a variável de-

pendente é multiplicativo. Maiores detalhes sobre modelos de regressão
com variáveis dummies e efeitos de interação podem ser encontrados em
Gujarati e Porter (2008).
ASSIMILE
O efeito de interação entre variáveis independentes de um
modelo de regressão pode ocorrer em diversos tipos de mo-
delagem. No entanto, ao ser considerado em um procedi-
mento de estimação, é necessário ter cuidado na sua inter-
pretação, pois, em muitos casos, ele torna a interpretação
dos resultados muito complexa.

Muitas variáveis de natureza quantitativa podem ser transformadas
em variáveis qualitativas, a depender do interesse do pesquisador e da
forma como deseja realizar uma análise. Por exemplo, a escolaridade
registrada em anos de estudos, inicialmente quantitativa, pode ser ca-
tegorizada em ensino fundamental, médio e superior. Você consegue
apresentar um exemplo de variável quantitativa que pode ser trans-
formada em qualitativa? Como seria realizado esse procedimento?

• Apresentamos modelos de regressão com variáveis dummy na for-

ma de constantes.
• Abordamos modelos de regressão com variáveis dummy na forma

de modelos com coeficientes de variáveis binárias.
• Discorremos sobre modelos de regressão com variáveis dummy na

forma de diferença das diferenças.
• Verificamos a possibilidade em construir modelos mistos, no sentido

de que variáveis independentes podem ser quantitativas e qualitati-
vas e podem compor o mesmo modelo.
Glossário
• Graus de liberdade: em estatística, é o número de determinações

independentes (dimensão da amostra) menos o número de parâ-
metros estatísticos a serem avaliados na população. É um estima-
dor do número de categorias independentes num teste particular
ou experiência estatística.
• Interação: É um termo de um modelo estatístico em que o efeito

de duas ou mais variáveis não é simplesmente aditivo.
TEMA 04
1. Como é chamado um modelo de regressão que possui va-
riáveis independentes quantitativas e qualitativas?
a) Análise de variância.
b) Análise de covariância.
c) Variáveis dummy como constantes.
d) Variáveis dummy como coeficientes angulares.
e) Modelos de diferenças em diferenças.
2. Os pressupostos de um modelo de regressão com variá-
veis dummy como independentes são os mesmos de um
modelo de regressão usual. Portanto, qual deve ser a dis-
tribuição de probabilidade do termo erro aleatório?
a) Poisson.
b) Exponencial.
c) Normal.
d) Anormal.
e) Binomial.
3. Se em um modelo de regressão existir uma variável qua-
litativa como variável independente e ela possuir quatro
níveis, quantas variáveis dummy deverão ser criadas em
um modelo de variáveis dummy como coeficientes?
a) Quatro.
b) Cinco.
c) Seis.
d) Três.
e) Dois.
AGRESTI, A.; FINLAY, B. Métodos estatísticos para as ciências sociais. 4. ed. Porto
Alegre: Editora Penso, 2012. 664 p.
FONSECA, J.S.; MARTINS, G.A. Curso de estatística. 6. Ed. São Paulo: Atlas, 1996. 320p.
GUJARATI, D.N.; PORTER, D.C. Econometria básica. 5. ed. São Paulo: AMGH, 2008.
924p.

HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba: Portal
de livros abertos da USP, 2016. Disponível em: <www.producao.usp.br/bitstream/
handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y>. Acesso em: 27 de maio
de 2018.
SARTORIS, A. Estatística e introdução à econometria. 2. Ed. São Paulo: Saraiva,
2013.
Os modelos de regressão que envolvem os dois tipos de variáveis

independentes, quantitativas e qualitativas, são conhecidos como
análise de covariância.
O termo erro aleatório de um modelo de regressão com variável in-

dependente dummy deve ter distribuição normal, pois a variável de-
pendente é contínua.
Se uma variável qualitativa for incluída em um modelo de regressão

e ela possuir quatro níveis, será necessário convertê-la em três vari-
áveis dummy.
TEMA 05
MODELOS MULTIVARIADOS
Objetivos
• Introduzir os principais conceitos em análise multi-

variada;
• Definição de exogeneidade/causalidade;
• Apresentar aspectos de cointegração.
Introdução
A definição de análise multivariada considerada neste texto será aquela
apresentada por Hair et al. (2009, p. 23): “análise multivariada se refere
a todas as técnicas estatísticas que simultaneamente analisam múltiplas
medidas sobre indivíduos ou objetos sob investigação”. Portanto, qual-
quer análise que envolva um tratamento simultâneo de mais que duas
variáveis, pode ser considerada como uma análise multivariada.
No caso de um modelo de regressão linear, o modelo de regressão mul-
tivariado conterá duas ou mais variáveis independentes e uma variável
dependente, totalizando, assim, pelo menos, três variáveis. Também, há
casos em que, a variável dependente é um conjunto de variáveis ou, um
vetor de variáveis, como é feito em uma análise de variância multivariada.
Em modelos de regressão, também, é possível considerar como variável
independente os valores defasados (passados) das variáveis independen-
tes e, quando isto ocorre, são chamados de modelos de defasagens distri-
buídas. Destacamos que é possível incluir em uma regressão valores pas-
sados da variável dependente como variável independente. Este último é
um caso particular de modelo de séries temporais, denominado modelo
autorregressivo.
O modelo autorregressivo também é conhecido como modelo dinâmico,
por ter a característica de desenhar a trajetória da variável dependente ao
longo do tempo, com relação aos seus valores defasados.
Este texto apresentará algumas características de modelos multivariados
dinâmicos e suas aplicações.
1. Exogeneidade/causalidade
Em modelos multivariados, a variável estatística é uma combinação linear

de variáveis com pesos determinados. As variáveis são determinadas pelo
pesquisador e, a depender de seu propósito, os pesos são determinados
a partir da técnica estatística a ser utilizada. Em modelos de regressão
usuais, os pesos, em geral, são unitários.
PARA SABER MAIS
Tipos de técnicas multivariadas. Hair et al. (2009, p. 32) afir-
ma que “análise multivariada é um conjunto de técnicas para
análise de dados que está sempre em expansão e que en-
globa um vasto domínio de possíveis situações de pesquisa”.
Dentre as técnicas multivariadas existentes, as mais estabe-
lecidas são: (1) análise de componentes principais e análise
de fatores, (2) regressão múltipla e correlação múltipla, (3)
análise discriminante múltipla e regressão logística, (4) análi-
se de correlação canônica, (5) análise multivariada de variân-
cia e covariância, (6) análise conjunta, (7) análise de agrupa-
mentos, (8) escalonamento multidimensional, (9) análise de
correspondência, (10) modelo de equações estruturais e (11)
análise fatorial confirmatória. Maiores detalhes sobre estas
técnicas podem ser encontrados em Hair et. al. (2009).
A regressão múltipla é, dentre outras, uma técnica de análise multivariada

em que o problema de pesquisa envolve uma única variável dependente
quantitativa, do tipo razão, relacionada a duas ou mais variáveis indepen-
dentes quantitativas ou qualitativas. O seu uso tem o propósito de fazer
estimação/previsões de mudanças na variável dependente como resulta-
do de mudanças nas variáveis independentes.
Matematicamente, o modelo de regressão linear múltipla com k variáveis

independentes pode ser escrito conforme a equação abaixo.
Utilizando notação matricial, o modelo pode ser reescrito da seguinte

maneira:

onde,
ASSIMILE
A notação matricial em análise multivariada é utilizada para
simplificar a representação matemática dos modelos. No en-
tanto, é necessário levar em conta as regras de matrizes para
sua utilização, como por exemplo, a questão do produto en-
tre matrizes. Vale lembrar que só é possível realizar a ope-
ração produto entre matrizes se, o número de colunas da
primeira matriz do produto for igual ao número de linhas da
segunda matriz do produto.
Os pressupostos apresentados para o modelo de regressão linear simples

valem, com algumas modificações, para o modelo de regressão múltipla,
os quais não serão detalhados neste texto, porém, podem ser encontra-
dos em Gujarati e Porter (2008), ou no tema 01 desta disciplina.
Os modelos de regressão, incluindo os modelos multivariados, tratam a

dependência de uma variável sobre um conjunto de outras variáveis. No
entanto, essa dependência não necessariamente implica em causalidade,
ou seja, a existência de relação entre as variáveis analisadas não fornece
provas de causalidade, ou mesmo, da direção em que a influência da de-
pendência ocorre.
No caso de dados de séries temporais, a situação descrita no parágrafo
anterior pode ser um tanto diferente, pois depende diretamente do mo-
mento de ocorrência dos eventos. Por exemplo, se um evento A ocorre
antes de um evento B, pode ser possível que B esteja sendo causado por
A, mas A nunca será causado por B, por uma simples questão temporal.
Para dados de séries temporais, Granger apud Morettin (2016, p.266) de-
fine causalidade em termos de previsibilidade: “a variável X causa a variá-
vel Y, com respeito a um dado universo de informação”. Foi a partir dessa
definição que foi criado o teste da causalidade de Granger, o qual pres-
supõe que as informações relevantes para uma previsão estão contidas
unicamente nos dados de série temporal das variáveis envolvidas.
Para exemplificar uma situação onde possa ser aplicado o teste de Granger,
considere a seguinte pergunta: “Será o Produto interno bruto (PIB) que
causa a oferta de uma moeda (M)? Ou será a oferta de uma moeda que
causa o PIB? O teste de Granger envolve a estimação do seguinte par de
regressões” (GUJARATI e PORTER, 2008, p. 648):
A partir dessas regressões é possível definir causalidade segundo os qua-

tro casos a seguir:
1. Causalidade unidirecional de M para PIB: ocorrerá se os coeficientes

estimados das defasagens de M em (3) forem estatisticamente dife-
rentes de zero e, o caso contrário ocorra em (4) para os coeficientes
do estimados do PIB.
2. Causalidade unidirecional do PIB para M: ocorrerá se os coeficientes
estimados em (3) não forem estatisticamente diferentes de zero e, os
coeficientes do PIB em (4) forem diferentes de zero.

3. Causalidade bilateral: ocorrerá quando todos os coeficientes estima-
dos de (3) e (4) forem estatisticamente diferentes de zero.
4. Independência: Ocorrerá quando os coeficientes de M e PIB não fo-
rem estatisticamente significativos em (3) e (4).
De forma geral, sabendo-se que o futuro não pode prever o passado e, se
X anteceder Y e for a causa desta, as variações que ocorrem em X deve-
riam preceder as variações ocorridas em Y.
Em Gujarati e Porter (2008, p. 649) é possível encontrar um passo-a-passo
de implementação do teste de causalidade de Granger para as equações
de regressão similares a (3) e (4), os quais são replicados a seguir, consi-
derando o exemplo utilizado PIB-Moeda.
1. Calcular a regressão do PIB corrente contra os termos do PIB defasa-
dos e demais variáveis, se houver. No entanto, não incluir as defasa-
gens de M nessa regressão. Esta é a regressão “restrita” (R).
2. Calcular a regressão incluindo os termos defasados de M. Esta é co-
nhecida como regressão “irrestrita” (IR).
3. A hipótese de teste é , ou seja, os termos de M
defasados não pertencem à regressão.
4. Para testar a hipótese, calcula-se a estatística F dada pela equação a
seguir
a qual segue distribuição F com m e (n – k) graus de liberdade. Neste caso,

m é o número de defasagens da variável M e, k é o número de parâmetros
estimados na regressão irrestrita e, QMRes é o quadrado médio dos resí-
duos obtidos no quadro de análise de variância, apresentado no tema 04.
5. Se o valor calculado de F for maior que o valor tabelado de F1 ao nível
de significância escolhido rejeita-se a hipótese nula, e nesse caso os
termos de defasagens de M pertencerão à regressão. Essa é outra for-
ma de dizer que M causa o PIB.
1
Existem tabelas para a distribuição F para alguns valores dos graus de liberdade e nível de significância.
6. Para testar a causa do PIB em M, basta repetir as etapas do teste até
aqui apresentadas, considerando com variável dependente M e, o PIB
como independente.
LINK
Verifique como é possível realizar o teste de causalidade de
Granger no Excel: disponível em: <https://quantmacro.word
press.com/2015/06/26/granger-causality-in-excel/>.
Acesso em: 08 julho 2018.
Para que possa ser implementado, o teste de causalidade de Granger re-

quer uma série de condições, conforme listadas abaixo.
1. É suposto que as séries analisadas sejam estacionárias. A definição de
estacionariedade foi apresentada no tema 02 desta disciplina. Se as
séries não forem estacionárias será necessário aplicar transformação
do tipo diferença, também, definidas no tema 02.
2. Os termos de erro dos modelos não são correlacionados. Se forem,
será necessária a aplicação de transformação nos dados.
3. É preciso evitar a causalidade espúria, ou seja, evitar causalidades en-
tre duas variáveis analisadas que estejam acontecendo por conta de
uma terceira variável que não esteja sendo considerada na análise,
causando significância sem sentido prático.
EXEMPLIFICANDO
Para exemplificar, considere a aplicação apresentada em
Carneiro (1997, p. 13), o qual mostra o uso do teste de causa-
lidade de Granger nos dados de gastos do governo (G) e re-
ceitas tributárias (R) para Argentina, Brasil e Chile. Os dados
se referem ao período 1895 a 1985, coletados anualmente.
Na Figura 1 a seguir são exibidos os resultados para os três
países e, em seguida é feita uma interpretação dos mesmos.

Figura 1 – Resultados do teste de causalidade de Granger.
Direção de
Amostra – Valor F Decisão
Causalidade
Argentina 1913-1984
RG 6,93 Não Rejeitar
GR 13,35 Não Rejeitar
Brasil 1908-1985
GR 0,17 Rejeitar
México 1895-1984
GR 13,16 Não Rejeitar
Fonte: Adaptado de Carneiro (1997).
Somente no caso do Brasil foi observada causalidade unidi-

recional em que os aumentos na receita tributária parecem
preceder aumentos nos gastos do governo. Nos casos de
Argentina e do México, os resultados observados foram de
causalidade simultânea, ou seja, com o teste aplicado não
foi possível rejeitar a hipótese nula de que os coeficientes
das variáveis defasadas sejam estatisticamente diferentes de
zero na estimação das regressões em ambos os sentidos de
causalidade. É possível implementar o teste de Granger em
vários programas computacionais, porém este exemplo mos-
trou apenas o resultado do teste, extraído da referência, sem
mostrar como implementar em programas computacionais.
Em um modelo de regressão, as variáveis envolvidas no processo de mo-

delagem são, também, denominadas endógenas e exógenas, conforme
apresentado no Tema 01 desta disciplina. Ambas representam, respecti-
vamente, as variáveis dependente e independentes do modelo.
Suponha que um modelo seja elaborado com Y representando a variável
endógena ou dependente e, X a variável exógena ou independente e, no
processo de modelagem tenha sido aplicado o teste de causalidade de
Granger e, obtido o seguinte resultado: causalidade unilateral apenas de
X para Y. Com este resultado, é natural surgir a pergunta “é possível tratar
a variável X como exógena?”. Esta pergunta, na realidade, tem a intenção
de saber se é possível utilizar a causalidade definida por Granger ou não,
com o propósito de estabelecer a exogeneidade da variável X.
Para se chegar em uma resposta, faz-se necessário distinguir três tipos de
exogeneidade: (1) fraca, (2) forte e (3) super.
Para deixar claro como cada tipo de exogeneidade ocorre, serão conside-
radas apenas duas variáveis no processo, Xt e Yt. Para facilitar a compre-
ensão diz-se que Xt é fracamente exógena se Yt não explicar Xt. Diante de
uma situação dessas, o modelo de regressão deve ser elaborado condi-
cionado aos valores de Xt, a variável exógena.
Diz-se que Xt será fortemente exógena se os valores atual e defasado de
Y não o explicarem, ou seja, se não ocorrer a situação de causalidade bi-
lateral. Em outra situação, a variável Xt será superexógena se os parâme-
tros na regressão de Y contra X não mudarem mesmo que os valores de
X mudem.
A importância em fazer distinção entre tipos de exogeneidade se justifi-
ca porque, no geral, para realizar uma regressão basta que ocorra uma
exogeneidade fraca. No entanto, se a intenção for realizar previsões, é im-
portante garantir exogeneidade forte entre as variáveis envolvidas e, se a
intenção é realizar análise de políticas, torna-se importante ter a garantia
de superexogeneidade.
2. Cointegração linear
Uma série temporal Xt é dita integrada de ordem d se, em seus dados, for
realizada a transformação de diferença d vezes e ela se tornar estacioná-
ria. A operação de diferença foi abordada no tema 02 desta disciplina.

A notação utilizada para a aplicação de diferença de ordem d em uma
série temporal Xt é dada por ΔdXt e, para dizer que a série é integrada de
ordem d, utiliza-se a notação Xt ~ I(d). Um caso particular para uma série
temporal estacionária é quando a notação é I(0), o que significa que ela
não foi modificada com a transformação de diferença.
Se as séries consideradas num procedimento de modelagem por regres-

são forem I(1), ou seja, integradas de ordem 1, os resultados estatísticos
obtidos poderão não ser válidos. Essa situação é um possível caso de re-
gressão espúria. O que ocorre é que, poderão ocorrer resultados aparen-
temente significativos, porém, sem qualquer sentido real ou prático. Por
conta disso, houve a necessidade do desenvolvimento de técnicas para
analisar relações entre séries temporais não estacionárias.
Gujarati e Porter (2008, p. 756) definem cointegração entre duas vari-

áveis como “economicamente falando, as duas variáveis serão cointe-
gradas se tiverem uma relação de longo prazo, ou de equilíbrio, entre
elas”. Por exemplo, as séries de preços de ativos ou taxas de câmbio.
É comum ocorrer nestes tipos de séries uma tendência estocástica em
longo prazo. Diante de situações como esta, diz-se que as séries são
cointegradas.
Os preços e taxas (de câmbios, de juros etc.) são, em geral, integrados de

primeira ordem, ou seja, I(1). Por isso, é comum realizar a análise do loga-
ritmo das séries para investigar cointegração.
Depois de estabelecida uma relação de equilíbrio de longo prazo entre o

logaritmo das séries, por exemplo, de uma série do log-preços, um mo-
delo é ajustado para corrigir os desvios de curto prazo desta relação de
equilíbrio. Tal modelo é denominado de modelo de correção de erros
(MCE). Maiores detalhes podem ser obtidos em Gujarati e Porter (2008) e
Morettin (2016).
No geral, se os resíduos de regressões de séries temporais do tipo
forem estacionários, ou seja, I(0), a metodologia de
regressão usual considerada anteriormente também pode ser aplicada
para séries temporais não estacionárias.
A verificação de cointegração entre séries temporais ajuda a descobrir

se os resíduos são estacionários. Pode-se pensar que ela seja um pré-
teste no processo de modelagem, a fim de evitar situações de regressão
espúria.
É claro que, um processo de verificação de cointegração pode ser esten-

dido para um modelo de regressão com k variáveis, ou seja, um modelo
multivariado ou múltiplo. A este modelo é dada a denominação de regres-
são de cointegração e, aos parâmetros associados, o nome de parâme-
tros de cointegração.
A forma mais utilizada para testar a cointegração é através de um tes-

te chamado de teste de Dickey-Fuller aumentado. Na econometria, esse
mesmo teste é conhecido como teste de Engler-Granger (EG) e Engler-
Granger aumentado. O teste de cointegração está implementado em vá-
rios programas computacionais. Cabe a cada pesquisador, escolher o pro-
grama que mais lhe facilita a obtenção dos resultados procurados.
PARA SABER MAIS

O mecanismo de correção de erro, inicialmente utilizado por
pelo pesquisador J.D. Sargan e posteriormente populariza-
do por Engle e Granger, tem o propósito de corrigir o dese-
quilíbrio entre séries temporais. Um teorema importante,
conhecido como teorema de representação de Granger,
afirma que, se duas variáveis Y e X são cointegradas, a rela-
ção entre as duas pode ser expressa como um mecanismo
de correção de erro.

Existem vários exemplos clássicos de relação espúria entre conjuntos
de dados, por exemplo, a correlação entre gastos com ciência/tecno-
logia e suicídios por enforcamento, estrangulamento e sufocamento
nos Estados Unidos, em uma pesquisa realizada foi apresentado o
valor igual a 0.99. Este número indica forte associação entre esses
dois dados e, de forma positiva, ou seja, quando um cresce, o outro
também cresce. Perceba que uma coisa não tem relação alguma com
a outra na prática. No entanto, quando isso ocorre em resultados de
pesquisa quantitativa, é um caso de relação espúria entre informa-
ções. Você consegue exemplificar algo parecido? Pense sobre isso.
• Definimos análise multivariada e as principais técnicas existentes.
• Apresentamos análise de regressão múltipla e sua notação matricial.
• Discorremos sobre o problema de causalidade e a sua relação com

a exogeneidade.
• Foi apresentado o problema de cointegração entre séries temporais

e alguns procedimentos para solucioná-lo.
Glossário
• Nível de significância: probabilidade de rejeitar a hipótese do teste

estatístico quando na verdade não deve ser rejeitada (erro tipo I).
• Regressão espúria: relação estatística existente entre duas variá-

veis, porém, onde não existe nenhuma relação causa-efeito entre
elas. Essa relação pode ocorrer por causa de uma terceira variável.
TEMA 05
1. As variáveis dependente e independentes de um modelo

de regressão também são conhecidas por outra denomi-
nação. Assinale a alternativa que contém a denominação
correta para essas variáveis, respectivamente.
a) Exógena e endógena.
b) Covariável e variável.
c) Endógena e exógena.
d) Covariável e resposta.
e) Dependente e independente.
2. Se um problema de análise multivariada possuir três vari-

áveis independentes, quantos parâmetros deverão ser es-
timados para construir um modelo de regressão múltipla?
a) Quatro.
b) Três.
c) Cinco.
d) Seis.
e) Dois.
3. Quantos tipos de exogeneidade existem na literatura da

econometria?
a) Um.
b) Dois.
c) Três.
d) Quatro.
e) Cinco.

CARNEIRO, F. G. A metodologia dos testes de causalidade em economia. Brasília:

Universidade de Brasília (Departamento de Economia), 1997. Disponível em: <www.
angelfire.com/id/SergioDaSilva/causal.pdf>. Acesso em: 08 julho 2018.
924p.
HAIR, J.F. et al. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
688 p.
HOFFMANN, R. Análise de regressão: uma introdução à econometria. Piracicaba:
Portal de livros abertos da USP, 2016. Disponível em < www.producao.usp.br/bitstream/
handle/BDPI/48616/REGRESS.pdf?sequence=5&isAllowed=y>.
Acesso em: 27 de maio de 2018.
As variáveis dependente e independentes de um modelo de re-

gressão também são conhecidas como endógenas e exógenas,
respectivamente.
Se um problema de análise multivariada possuir três variáveis inde-

pendentes, deverão ser estimados quatro parâmetros em um mode-
lo de regressão múltipla.
Existem três tipos de exogeneidade na literatura da econometria:

fraca, forte e super.
TEMA 06
MODELOS COM VARIÁVEL
DEPENDENTE DISCRETA
Objetivos
• Introduzir os modelos com variável dependente dis-

creta (categórica).
• Apresentar o modelo LOGIT.
• Apresentar o modelo PROBIT.
Introdução
Os modelos de regressão apresentados até aqui têm em comum que a

variável dependente é quantitativa e as variáveis independentes podem
ser quantitativas ou qualitativas. No entanto, é possível ter variáveis de-
pendentes de outra natureza.
Uma variável categórica ou qualitativa pode ser medida em um determi-

nado número finito de categorias ou códigos, diferente de uma variável
quantitativa que pode ser medida como qualquer valor numérico dentro
de um determinado intervalo.
Variáveis como raça, gênero, situação ocupacional, status imigratório etc.

são consideradas variáveis categóricas ou qualitativas. Aquelas que pos-
suem apenas duas categorias, por exemplo, respostas do tipo sim ou não,
são classificadas como qualitativas dicotômicas ou binárias.
Ao longo da explanação deste conteúdo será mostrado que quando a va-

riável dependente de um modelo de regressão é categórica, muita coisa
muda. Será preciso rever os pressupostos dados ao modelo, dentre ou-
tras características. Tais mudanças ocorrem, também, dentro da classe
das variáveis categóricas, pois elas podem se subdividir em categóricas
nominais e ordinais e os métodos estatísticos utilizados são diferenciados
para cada tipo.
As variáveis independentes dos modelos de variáveis dependentes cate-

góricas podem ser tanto quantitativas quanto qualitativas. Tal situação
pode ocorrer desde os modelos mais simples, como os com variável de-
pendente binária, até aqueles com variáveis dependentes com mais de
duas categorias. É o que será abordado neste texto, assim como serão
apresentadas aplicações deles.
1. Modelo de probabilidade linear
Os modelos de regressão que possuem variável dependente qualitativa

tem o interesse em obter a probabilidade de algum fenômeno ocorrer,
como a chance de compra de um imóvel, a obtenção de um emprego etc.
Por isso, esses modelos, também, são conhecidos como modelos de pro-
babilidade (GUJARATI e PORTER, 2008).
O modelo de regressão com variável dependente categórica mais simples
que se tem é aquele em que a variável é binária ou dicotômica, ou seja,
possui apenas duas categorias. Por exemplo, a variável status de ocupa-
ção de trabalho, é possível considerar que ela possua os níveis “sim” e
“não” como categorias, para representar se algum indivíduo está empre-
gado ou não.
Considere o seguinte modelo de regressão, com variável dependente ca-
tegórica binária, extraído de Gujarati e Porter (2008, p. 540).
A partir deste modelo os autores, para exemplificar, supõem que Y = 1

representa uma variável que informa se uma família possui imóvel e Y = 0
caso contrário, e a variável independente representa uma variável quan-
titativa da renda familiar.
PARA SABER MAIS

São modelos que constituem uma grande classe de mode-
los, incluindo os modelos de regressão linear usual, mode-
los para variáveis contínuas que não possuem distribuição
normal, modelos para variáveis respostas discretas, incluin-
do variáveis categóricas. A esse grande conjunto de modelos
dá-se o nome de modelos lineares generalizados, em que,
também, estão incluídos os modelos logit e probit.

O modelo (1) aparenta ser um modelo usual de regressão linear, no en-
tanto, por ter a variável dependente binária ou dicotômica, é denominado
modelo de probabilidade linear (MPL). Ele recebe este nome porque o
valor esperado de Yi condicionado a Xi pode ser interpretado como a pro-
babilidade condicional de o evento ocorrer, isto é, .
O nome modelo de probabilidade linear pode ser justificado ao observar
que a equação (1) é uma função linear de X. Supondo que E(ui) = 0, como
se tem considerado como pressuposto básico, pode-se obter:
A variável Yi tem distribuição de bernoulli e, por definição, temos que E(Yi)

= Pi e comparando com (2) é possível obter a seguinte igualdade
ou seja, a esperança condicional do modelo (1) pode ser interpretada

como a probabilidade condicional de Yi.
Se Pi representa uma probabilidade, seus valores devem estar entre 0 e 1
e, consequentemente , ou seja, o valor esperado condicio-
nal do modelo também deve estar entre zero e um.
O modelo de probabilidade linear é um modelo razoavelmente simples,
no entanto, é geralmente inadequado, pois, em muitas situações as pro-
babilidades podem estar abaixo de zero ou acima de 1 para valores sufi-
cientemente pequenos ou grandes da variável independente. Por conta
disso, não é muito utilizado quando se tem várias variáveis independen-
tes. Maiores detalhes sobre o modelo de probabilidade linear podem ser
encontrados em Gujarati e Porter (2008).
2. Modelo logit
O modelo de probabilidade linear, apesar de sua simplicidade, apresen-

ta diversos problemas, em geral, superáveis quando se utiliza mínimos
quadrados ponderados em vez de mínimos quadrados ordinários para
estimar seus parâmetros. No entanto, o principal problema está no au-
mento linear com relação a X, ou seja, o efeito incremental da variável
independente permanece constante o tempo todo e, isso não é uma ca-
racterística interessante para um modelo de probabilidade.
Por conta do problema levantado, não detalhado neste texto, é que se

buscou por outro tipo de modelo para variáveis dependentes categóricas,
pois, o que se pretende neste tipo de modelagem é: (1) quando Xi aumen-
tar, aumentar também, mas nunca ficar fora do interva-
lo 0-1; e (2) uma relação não linear entre Pi e Xi, ou seja, aproximar-se dos
limites do intervalo 0-1 a taxas cada vez menores para não ultrapassar o
intervalo de valores definido para uma probabilidade.
Então, o modelo procurado, de forma geométrica, se assemelha com uma

curva sigmoide, ou forma de S, a qual é semelhante à função de distribui-
ção acumulada (FDA) de uma variável aleatória. A partir desta informação,
passou-se a utilizar para modelar regressões com variável dependente
categórica a FDA.
A figura 1, extraída de Gujarati e Porter (2008, p. 550), mostra uma curva

sigmoide, ou curva em forma de S.
Figura 1 – Curva sigmoide ou função distribuição acumulada (FDA)
Fonte: Gujarati e Porter (2008, p.550).

A questão que se levanta em seguida, depois de identificada a necessidade
do uso de uma FDA para modelar dados com variável dependente categó-
rica, é “qual FDA utilizar?”. Gujarati e Porter (2008) afirmam que, por ques-
tões históricas e práticas decidiu-se utilizar as FDAs logística e normal, em
que a primeira deu origem ao modelo logit e, a segunda ao modelo probit.
Com o uso da curva sigmoide é possível obter a probabilidade de sucesso
entre zero e um para todos os valores da variável independente de um
modelo de regressão estimado. A relação entre as variáveis do modelo é
dada por
para um modelo com uma variável independente. Para modelos de re-

gressão múltipla, ou seja, modelo com duas ou mais variáveis indepen-
dentes, a equação é análoga com alguns ajustes.
PARA SABER MAIS

Função de ligação para um modelo linear geral
O ajuste de um modelo de regressão fornece o valor espera-
do da variável dependente condicionada ao valor da(s) variá-
vel(is) independente(s), denotado por µ = E(Y X). No entanto,
um modelo linear geral permite uma função da média, deno-
tada g(µ), ao invés de apenas a média µ no modelo. De forma
geral, um modelo linear geral pode ser escrito como
A função g(µ) é chamada de função de ligação porque liga a

média da variável dependente às variáveis independentes.
A função de ligação mais simples é a chamada ligação de
identidade, utilizada, por exemplo, em modelos de regressão
com variável dependente quantitativa contínua. Para dados
binários, a função de ligação mais comum é a ligação logit,
utilizada em modelos de regressão logística.
Para a razão P(Y = 1) / [1 – P(Y = 1)] é dado o nome de chance, a qual define
a chance de sucesso por
Para exemplificar, considere que P(Y = 1) = 0,75, ou seja, a probabilidade

de sucesso em ocorrer algum determinado fenômeno é igual 0,75. Então,
a razão de chance será dada por , significando que um sucesso é
três vezes mais provável em ocorrer do que um fracasso.
O modelo ajustado em (4) utiliza o logaritmo natural, ou seja, com loga-

ritmo com base e (≈ 2,7182 ...) em sua equação para fornecer um modelo
linear nos parâmetros. Ao uso do logaritmo natural nesse processo de
modelagem dá-se o nome de transformação logística, ou, abreviadamen-
te, logit, daí o nome modelo logit ou modelo de regressão logística.
Quando o modelo logit segue um modelo linear, a probabilidade de su-

cesso, ou seja, P(Y = 1) tem a forma de uma curva em forma de S, ou, uma
curva sigmoide. O parâmetro do modelo indicará se a curva subirá ou
descerá à medida que a variável independente aumenta. Para um parâ-
metro β positivo, a probabilidade de sucesso P(Y = 1) aumenta à medida
que os valores da variável independente aumentam e o caso contrário
ocorre quando a estimativa de β é negativa.
Uma extensão do modelo de regressão logística apresentado até aqui é o

que se chama de modelo de regressão logística múltipla, que nada mais
é do que um modelo com mais de uma variável independente. Para este
modelo, tem-se a seguinte equação.

EXEMPLIFICANDO
O exemplo a ser mostrado foi extraído de Gujarati e Porter
(2008, p. 544). A figura 2 apresenta dados de renda familiar
(em milhares de dólares) e uma variável binária indicando
se uma família possui imóvel próprio, codificado como 1 se
possui e, 0 se não possui. A amostra utilizada é composta de
40 famílias.
Figura 2 – Dados fictícios sobre renda e posse de imóvel.
Família y x Família y x Família y x

1 0 8 15 0 6 29 0 11
2 1 16 16 1 19 30 0 10
3 1 18 17 1 16 31 1 17
4 0 11 18 0 10 32 0 13
5 0 12 19 0 8 33 1 21
6 1 19 20 1 18 34 1 20
7 1 20 21 1 22 35 0 11
8 0 13 22 1 16 36 0 8
9 0 9 23 0 12 37 1 17
10 0 10 24 0 11 38 1 16
11 1 17 25 1 16 39 0 7
12 1 18 26 0 11 40 1 17
13 0 14 27 1 20
14 1 20 28 1 18
Fonte: adaptado de Gujarati e Porter (2008, p. 544).
Os dados na forma como estão apresentados, são chamados

dados individuais, ou seja, são dados apresentados na forma
mais desagregada possível. Tais dados não podem receber o
tratamento de estimação pelo método de mínimos quadra-
dos. Então, o método de estimação utilizado é o chamado
método de máxima verossimilhança, o qual não será deta-
lhado neste texto, mas, pode ser encontrado maior detalha-
mento nos autores de onde este exemplo foi extraído.
Outra forma de apresentação dos dados para modelagem logit é a for-
ma de dados agrupados ou replicados. São dados apresentados como
na figura 3, ainda com o exemplo dos dados sobre renda e posse de
imóvel próprio.
Figura 3 – Dados agrupados fictícios.
X (em $ mil) Ni ni X (em $ mil) Ni ni
6 40 8 20 70 36
8 50 12 25 65 39
10 60 18 30 50 33
13 80 28 35 40 30
15 100 45 40 25 20
Fonte: Gujarati e Porter (2008, p. 553).
Os dados são apresentados de acordo com os níveis da variável inde-

pendente do modelo, ou seja, dos níveis de renda e o número de famí-
lias que possui imóvel próprio, no caso do exemplo. Em cada nível de
renda familiar (Xi) há Ni famílias onde ni delas possui imóvel próprio.
Necessariamente, . A partir dos dados, é possível calcular
, a frequência relativa que funcionará como estimativa da probabilidade
Pi para cada Xi. O interesse é utilizar a estimativa da probabilidade no
modelo
O método de estimação utilizado para dados agrupados é o método de

mínimos quadrados ponderados. O Microsoft Excel® não possui imple-
mentado este método de estimação. Portanto, é necessário a utilização de
outro programa computacional, como SPSS, STATA, SAS, R, dentre outros.
Gujarati e Porter (2008, p. 555) apresentam os resultados das estimati-
vas. Os autores apresentam com detalhes como obtiveram os valores e
sugerem o uso do programa STATA para implementação do modelo. O
modelo ajustado é , onde é a nota-
ção utilizada para representar o modelo logit. Maiores detalhes sobre
a interpretação dos resultados podem ser encontrados nos autores de
onde o exemplo foi retirado.

LINK
Apresentação dos conceitos e de exemplo no SPSS do uso
do modelo logit: <https://edisciplinas.usp.br/pluginfile.php
/3769787/mod_resource/content/1/09_RegressaoLogistica.
pdf>. Acesso em: 15 julho 2018.
3. Modelo probit
É um modelo obtido a partir do uso da função distribuição acumulada

normal, ao invés da função distribuição acumulada logística, e é conheci-
do como modelo probit ou normit. Para apresentar sua teoria, será utili-
zado o conceito de variável latente ou, índice de utilidade, conforme defi-
nido por Gujarati e Porter (2008).
Considere o exemplo apresentado anteriormente sobre renda familiar e

famílias com posse de imóvel próprio. O índice de utilidade dependerá da
variável independente que, no caso, é a renda familiar. Considerando tal
informação, pode-se construir um modelo para tal índice como:
A pergunta que se faz é: como este índice se relaciona com a real decisão
de posse de imóvel próprio? Considerando como anteriormente, Y = 1
para uma família com imóvel próprio e Y = 0 para uma família que não
possui imóvel próprio.
É razoável supor a existência de um nível crítico ou limiar do índice criado,

denotado por Ii*, onde, se o índice criado Ii ultrapassar Ii*, pode-se afirmar
que uma família possui imóvel próprio, caso contrário, a afirmação não
poderá ser confirmada.
Assim como a variável Ii não é diretamente observável, o nível crítico Ii*

também não o será. No entanto, a ele será atribuído o pressuposto de
seguir uma distribuição normal com média e variância constante. Tal
pressuposto permitirá a estimação dos parâmetros do modelo proposto
e, também, da variável Ii .
Considerando o pressuposto de normalidade, a probabilidade de Ii* ser

menor que Ii pode ser calculada pela função distribuição acumulada nor-
mal padrão1 por
ASSIMILE
A variável Zi é usualmente utilizada para representar uma va-
riável aleatória com distribuição normal padrão, ou seja, com
média zero e variância unitária.
Gujarati e Porter (2008, p. 564) mostram a curva da função distribuição

acumulada para um modelo probit, a qual é replicada abaixo.
Figura 4 – Modelo probit
Fonte: Gujarati e Porter (2008, 564).
(a) Dado Ii, lê-se Pi a partir da ordenada.

(b) Dado Pi, lê-se Ii a partir da abscissa.
1
Função probabilística normal com média zero e variância igual a 1.

O termo Pi representa a probabilidade de um evento ocorrer condiciona-
do a um valor de Xi, no caso do exemplo utilizado, representa a probabi-
lidade de uma família possuir um imóvel próprio, a qual é medida pela
área da curva normal padrão que se estende de –∞ até Ii segundo a sua
renda familiar, como mostra a Figura 4(a).
A obtenção de informação sobre o índice de utilidade Ii, assim como dos

parâmetros do modelo, os coeficientes β0 e β1, ocorre ao ser tomado o
inverso da equação dada em (9) para obter o seguinte.
em que, F –1 é o inverso da função distribuição acumulada normal.
A obtenção das estimativas dos parâmetros e do índice de utilidade Ii de-

penderá de como os dados estarão organizados, agrupados ou não e, as-
sim como para o modelo logit, faz-se necessário do uso de um programa
computacional apropriado para esta metodologia, tais como, já citados, o
SPSS, SAS, STATA, R, etc.
A escolha entre logit e probit é um tanto arbitrária, pois, ambos conse-

guem tratar dados de forma semelhante. No geral, os pesquisadores es-
colhem o modelo logit por ter um tratamento matemático mais simples
que o probit.

Modelagem de dados com variável dependente discreta é comum
em diversas áreas de pesquisa, desde área da saúde, economia, en-
genharias, etc. Você consegue pensar em um conjunto de dados que
poderia ser utilizado para construir um modelo de regressão cuja
variável dependente seja categórica?
• Foram introduzidos conceitos básicos de modelos de regressão com

variável dependente categórica.
• Foi apresentado o modelo de probabilidade linear. Apesar de ser de
fácil tratamento, esse modelo apresenta, em muitos casos, estimati-
vas de probabilidades fora do intervalo de definição de uma medida
de probabilidade (0 a 1). Por isso, acaba sendo pouco utilizado.
• Foi apresentado o modelo logit e um exemplo numérico. Esse mode-
lo supera o problema de estimar valores de probabilidade fora do
intervalo de definição (0 e 1) e tem um tratamento matemático razo-
avelmente simples.
• Foi apresentado o modelo probit. Assim como o modelo logit, supe-
ra a limitação de um modelo de probabilidade linear. A diferença
em relação ao logit é que faz uso da função distribuição acumulada
normal em vez da logística.
Glossário
• Dicotômica: algo que é dividido em dois.

• Sigmóide: que tem a forma do sigma grego ou da letra S.
TEMA 06
1. Qual a distribuição de probabilidade de uma variável depen-
dente dicotômica de um modelo de probabilidade linear?
a) Binomial.
b) Normal.
c) Poisson.
d) Bernoulli.
e) Logística.

2. Qual o nome da função utilizada para linearizar a relação
entre a variável dependente e os parâmetros de um mo-
delo de regressão categórica.
a) Função linear.
b) Função logística.
c) Função distribuição.
d) Função de probabilidade.
e) Função de ligação.
3. Que tipo de distribuição representa uma curva sigmoide?
a) Função distribuição acumulada.
b) Função de probabilidade.
c) Função binomial.
d) Função de regressão.
e) Função de Bernoulli.
924p.
HAIR, J.F. et al. Análise multivariada de dados. 6. ed. Porto Alegre: Bookman, 2009.
688 p.
A variável dependente dicotômica de um modelo de probabilidade

linear tem distribuição de Bernoulli.
A função que liga a variável dependente de um modelo de regressão

com as variáveis independentes e o torna linear nos parâmetros é
chamada de função de ligação.
A curva sigmoide representa uma função de distribuição acumulada
de uma variável aleatória.

TEMA 07
TÓPICOS ESPECIAIS EM
ECONOMETRIA
Objetivos
• Apresentar modelos de dados de contagem.
• Apresentar modelos com dados em painel – análise

longitudinal.
• Apresentar modelos de duração – survival analysis.
Introdução
Neste texto, serão apresentados alguns modelos especiais de regressão,

utilizados em situações específicas, as quais serão descritas através de
exemplos.
O primeiro tipo de modelo a ser descrito será um que trata de dados de

contagem para a variável dependente do modelo, a qual recebe influência
de outras variáveis, as chamadas variáveis independentes.
O segundo modelo a ser apresentado será aquele que une duas dimen-
sões importantes de bancos de dados, são os chamados dados em painel
e, os modelos apropriados para dados com essa estrutura são chamados
modelos de regressão de dados em painel. Nos dados organizados na for-
ma de painel, a mesma unidade amostral de corte transversal (uma famí-
lia, uma empresa, um estado, observada em um momento) é acompanha-
da ao longo do tempo. Ou seja, os dados em painel têm uma dimensão
espacial e outra temporal (GUJARATI e PORTER, 2008).
O terceiro tipo especial de modelo de regressão é denominado por mo-

delo de duração ou análise de sobrevida (survival analysis), o qual é uma
classe de modelos que estuda a duração de tempo até a ocorrência de
um evento de interesse qualquer. Inicialmente, estes modelos foram uti-
lizados para estudar mortes em geral, na área de bioestatística, por isso,
o nome inicial de “análise sobrevivência”. No entanto, esses modelos, atu-
almente, são úteis para analisar diversos tipos de eventos nas ciências
sociais, naturais, e dentre outras áreas de pesquisa.
A literatura é vasta sobre estes tipos de modelos, os quais, hoje em dia,

são classificados em uma grande classe de modelos de regressão, os mo-
delos lineares generalizados.

1. Modelos de dados de contagem
Os dados categóricos ou discretos em muitas situações são obtidos por

contagens e são distribuídos, conforme uma distribuição de Poisson.
Como exemplo, podemos citar o número de acessos ao ambiente virtual,
a quantidade de viagens feitas durante um ano, a quantidade de parcelas
de uma dívida em um determinado período e assim por diante.
Em muitos modelos de regressão a variável dependente, também, pode ser
do tipo contagem. Esta característica, como mostrado no parágrafo ante-
rior, delimita os possíveis valores da variável fazendo com que ela assuma
um número finito de valores e, em algumas situações, os modelos de dados
de contagem ainda lidam com casos de ocorrências raras como, por exem-
plo, ganhar na loteria mais de uma vez em um intervalo de duas semanas.
Como dito, a distribuição de probabilidade apropriada para modelar da-
dos de contagem é a distribuição de Poisson, cuja função é dada por:
em que, f (Y) representa a probabilidade da variável Y assumir algum valor

inteiro não negativo em específico e, Y ! representa o número fatorial de
Y, que é obtido por Y ! = Y · (Y – 1) · (Y – 2) · ... · 2 · 1.
Suponha que o valor esperado de uma variável dependente Yi com distri-

buição de Poisson seja igual a µi, então sua variância, também, será igual
µi (uma propriedade desta distribuição). Dado isto, o modelo de regres-
são de Poisson pode ser escrito da seguinte maneira.
onde, as variáveis Yi são independentemente distribuídas com distribui-

ção de Poisson de média µi para cada indivíduo da amostra, cujo mode-
lo de forma mais explícita, em termos de suas variáveis independentes,
pode ser expresso por:
considerando que as variáveis independentes Xi sejam influentes no va-
lor médio da variável dependente Yi. Como exemplo, suponha que uma
determinada quantidade de visitas técnicas realizadas por um grupo de
engenheiros a um determinado local dependa da quantidade de tempo
disponível da equipe, do recurso financeiro disponível e do número de
dias necessários de afastamento para a realização da visita.
Para realizar a estimação, o modelo de regressão é escrito como
sendo µi substituído pela equação (3). Com a explicitação do modelo, é

possível observar que será necessária uma estimação por um modelo não
linear. No entanto, é possível torná-lo em linear aplicando uma função de
ligação do tipo logarítmica em base natural (In).
EXEMPLIFICANDO
Para uma aplicação da teoria aqui apresentada considere o
exemplo extraído de Gujarati e Porter (2008, p. 574), os quais
utilizaram uma amostra de 100 indivíduos com 65 anos ou
mais. O interesse do estudo era verificar a frequência de
quedas (Y) em função do gênero (X2, 1 para mulher e 0 para
homem), um índice de equilíbrio (X3) e um índice de força
(X4). Quanto maior for o índice de equilíbrio, menos propen-
so a cair será o indivíduo e, quanto maior for o índice de for-
ça, mais forte ele será. Outra variável (X1), também incluída
no processo de modelagem, se refere a uma intervenção
com instruções educativas (valor 0) para evitar quedas ou,
uma intervenção com ações educativas mais a realização de
exercícios aeróbicos (valor 1). A amostra de sujeitos foi divi-
dida aleatoriamente entre os dois métodos de intervenção.

Gujarati e Porter (2008, p. 574) citam ter feito uso do progra-
ma Eviews para realizar o ajuste do modelo. Serão apresen-
tados apenas os resultados da modelagem. Os dados podem
ser obtidos no site do livro de referência, de onde o exemplo
foi retirado.
Por ser um procedimento com certa complexidade, a obten-
ção das estimativas dos parâmetros do modelo é conseguida
com uso de programa computacional apropriado, tais como
o já citado Eviews, SPSS, SAS, R Minitab, Statistica, etc. O mo-
delo ajustado encontrado é replicado na tabela 1.
Tabela 1 – Regressão de Poisson ajustada por Eviews.

Variável dependente: Y
Amostra: 1-100
Convergência obtida após 7 iterações
Coeficientes β Erro Padrão Estatística t Probabilidade

C(0) 0,37020 0,3459 1,0701 0,2873
C(1) -1,10036 0,1705 -6,4525 0,0000
C(2) -0,02194 0,1105 -0,1985 0,8430
C(3) 0,01066 0,0027 3,9483 0,0001
C(4) 0,00927 0,00414 2,2380 0,0275
R2 = 0,4857 R2 ajustado = 0,4640
Log-Verossimilhança = -197,2096 Estatística Durbin-Watson = 1,7358
Fonte: Gujarati e Porter (2008, p.575)
Com os resultados da Tabela 1, replicados de Gujarati e Porter

(2008, p. 575), podemos chegar às seguintes interpretações:
• A estimativa obtida se trata do valor médio µ̂i para

cada indivíduo da amostra, ou seja:
, a qual pode ser obtida a par-
tir da exponenciação da equação (3).
• Para encontrar o valor médio estimado para o i – ésimo
indivíduo, basta introduzir os valores das diversas variá-
veis da amostra correspondentes a cada um dos sujeitos.
• Como exemplo, para um indivíduo da amostra cujos

valores são: Y = 4,X1 = 0,X2 = 1,X3 = 50 e X4 = 56 ao subs-
tituir esses valores na equação µ̂i = e
, será obtido o valor 3,3538
como valor médio estimado.
• Se o interesse é estimar algum valor de probabilidade,

por exemplo, para o mesmo indivíduo do exemplo aci-
ma e se quisermos saber qual a probabilidade de ele
sofrer menos de cinco quedas em um ano, podemos
obter o resultado da seguinte maneira:
Portanto, para um sujeito com os valores na amostra de Y =

4,X1 = 0,X2 = 1,X3 = 50 e X4 = 56, tem probabilidade 0,7491 de
sofrer menos de cinco quedas em um ano, ou seja, quase
75% de chance de ocorrer.
LINK
Confirma outros modelos para Dados de contagem, visitando
o sítio indicado. Disponível em: <http://conteudo.icmc.usp.
br/pessoas/andretta/ensino/aulas/sme0281-2-17/estatistica.
pdf>. Acesso em: 24 de julho de 2018.

2. Modelos com dados em painel – análise longitudinal
Os modelos com dados em painel são construídos por dados organizados

em duas dimensões, a espacial e a temporal. Esses dados são ditos em
painel quando a mesma unidade amostral (uma família, uma empresa,
etc.) é acompanhada por dois períodos ou mais.
Outros nomes são atribuídos para dados em painel, como dados empi-
lhados (do inglês, pooled data, com o agrupamento das observações de
séries temporais e de corte transversal), combinação de séries temporais
e dados de corte transversal, painel de microdados (menor nível de desa-
gregação de dados), dados longitudinais (um estudo ao longo do tempo
de uma variável ou grupo de sujeitos), análise histórica de eventos (estu-
dar o movimento ao longo do tempo de indivíduos através de sucessivos
estados ou condições), e análise de corte (GUJARATI e PORTER, 2008). O
nome a ser utilizado neste texto será aquele adotado por Gujarati e Porter
(2008) “modelos de regressão com dados em painel”.
Os autores Gujarati e Porter (2008) enumeraram algumas vantagens do

uso de dados em painel, as quais são apresentadas a seguir.
1. Informado que dados em painel se referem a indivíduos, empresas,
estados, países, etc., com o passar do tempo, existe uma tendência
a haver heterogeneidade nessas unidades. As técnicas de estimação
dos dados em painel podem levar em consideração a heterogeneida-
de explicitamente, permitindo variáveis específicas ao sujeito.
2. Uma combinação de séries temporais com observações de corte trans-
versal torna os dados em painel mais informativos, com maior variabi-
lidade, menos colinearidade entre variáveis, mais graus de liberdade e
mais eficiência em seus resultados.
3. Com o estudo de repetidas observações em corte transversal, os da-
dos em painel tornam-se mais adequados para avaliar a dinâmica des-
ta mudança, como períodos de desemprego, rotatividade no emprego
e mobilidade da mão de obra.
4. Com dados em painel é possível detectar e medir melhor os efeitos
que não podem ser observados em um corte transversal puro ou em
uma série temporal pura. Por exemplo, os efeitos das leis de salário
mínimo sobre o emprego e ganhos, os quais poderão ser estudados
mais adequadamente com essa estrutura de dados.
5. Os dados em painel permitem estudar modelos de comportamento
mais complicados. Por exemplo, fenômenos como economias de es-
cala e mudança tecnológica podem ser mais bem analisados pelos
dados em painel do que apenas pelo corte transversal ou unicamente
por séries temporais.
Com as vantagens apresentadas, os modelos para dados em painel podem
trazer resultados muito enriquecedores nas pesquisas econômicas e em
pesquisas de outras áreas. É claro que este tipo de modelagem também tem
suas limitações, assim como qualquer metodologia de pesquisa existente.
ASSIMILE
Notação para dados de Painel. Os dados em painel consis-
tem na observação dos mesmos n sujeitos de uma pesquisa
em dois ou mais períodos de tempo T. Suponha que uma
amostra de dados contenha observações sobre as variáveis
X e Y, estes podem ser representados como (Xit, Yit), i = 1, ... n
e T = 1, ... T, onde o subscrito i refere-se à unidade amostral
em observação e o subscrito t refere-se ao período de tempo
em que foi observada.
A metodologia de dados em painel possui termos específicos para a situa-

ção de ausência de dados. Um painel é dito balanceado ou equilibrado se
contém todas as observações para cada variável da amostra, ou melhor,
se para cada unidade amostral contiver todos os dados para todo o perí-
odo coletado. Já um painel é chamado desbalanceado ou desequilibrado
quando não satisfaz essa condição, ou seja, quando há ausência de algum
dado para algum período.

Outros termos utilizados para dados em painel são painel curto e painel
longo, em que, um painel é dito curto quando o número de unidades
amostrais ou sujeitos n é maior que o número de períodos de tempo T. Já
um painel é dito longo quando o número de períodos T é maior que uni-
dades observacionais n.
As diversas técnicas de estimação de parâmetros para dados em painel

deverão ser escolhidas a partir do tipo de painel disponível para o ajuste
do modelo. A seguir serão apresentados os tipos de modelagem disponí-
veis, segundo Gujarati e Porter (2008):
1. Modelo de mínimos quadrados ordinários para dados empilhados
(pooled data). É construído quando se empilha todas as observações
desconsiderando a natureza de corte transversal (coleta em um perío-
do, como se fosse um retrato do momento) e de séries temporais. Ou
seja, é uma regressão construída como os modelos usuais, já vistos
em aulas anteriores.
2. Modelo de mínimos quadrados com variáveis dummies (binárias)
para efeitos fixos (MQVD). Todas as observações são empilhadas, no
entanto, é criada uma variável dummy para indicar o grupo ou fator
de estratificação da amostra. Como, por exemplo, uma amostra que
analisa as cinco regiões geográficas brasileiras, cria-se cinco colunas
na amostra com valores 0 e 1 para identificar cada uma das regiões
Norte, Nordeste, Sudeste, Sul e Centro-Oeste. Esta ação fará com que
cada grupo ou fator tenha seu próprio intercepto na equação de re-
gressão estimada.
3. Modelo de efeitos fixos dentro de um grupo (fixed effects within-group
model). As observações são combinadas, ou empilhadas, no entan-
to, para cada grupo ou fator considerado, as variáveis são expressas
como um desvio de seu valor médio e, a partir disto, é estimada uma
regressão de mínimos quadrados ordinários com esses valores.
4. Modelo de efeitos aleatórios (MEA). Um pouco semelhante ao modelo
MQVD, diferenciando que, em vez de considerar que cada grupo ou
fator tenha seu próprio intercepto, é pressuposto que os valores de
intercepto sejam coletados aleatoriamente de uma população maior
de grupos ou fatores. Vale ressaltar que, também, é possível conside-
rar modelos de efeitos fixos temporais no modelo.
As técnicas de estimação não serão detalhadas neste texto. No entan-
to, os interessados por maiores detalhes podem encontrar na referência
Gujarati e Porter (2008).
3. Modelos de duração – survival analysis
São modelos em que a duração de tempo até a ocorrência de um evento

de interesse é analisada. Na literatura, estes tipos de modelos recebem
diversos nomes, tais como modelos de eventos históricos, modelos de
confiabilidade ou taxa de falha, análise de sobrevida, etc. Eles são utiliza-
dos, por exemplo, para medir o tempo em que uma pessoa permanece
desempregada, o tempo de duração de um casamento ou o tempo em
que uma pessoa trabalhou até se aposentar.
Como nos demais modelos de regressão, a modelagem do tempo para a
ocorrência de algum evento específico inclui o efeito de variáveis indepen-
dentes. Considere o exemplo apresentado por Agresti e Finlay (2012, p. 578),
onde um modelo para o tempo antes de uma nova prisão, de um indivíduo
que já tinha sido preso antes, é elaborado. Como variáveis independentes
são considerados o número de prisões anteriores, se o sujeito está empre-
gado, o seu estado civil, a sua idade ao ser solto e o seu nível educacional.
PARA SABER MAIS

Os modelos de duração são apropriados para analisar dados
em painel. No entanto, a diferença para os modelos para da-
dos em painel é que, a variável dependente para os modelos
de duração é o tempo transcorrido até que um determina-
do evento ocorra, enquanto que, para modelos de dados em
painel, a variável dependente pode ser outra medida qual-
quer, tanto quantitativa quanto qualitativa.

Segundo Agresti e Finlay (2012), os primeiros modelos de duração foram
construídos por volta de 1980, na área de bioestatística, com o propósito
de modelar o tempo de sobrevivência de um paciente submetido a um
tratamento médico específico. Por isso, inicialmente, esses modelos rece-
beram o nome de análise de sobrevivência.
Existem duas situações complicadoras em modelos de duração que não
ocorrem em modelos de regressão usual:
1. Pode ser que o estudo se encerre sem que, para algum sujeito da
amostra, o evento tenha ocorrido, fazendo com que o tempo real para
sua ocorrência não tenha sido observado. Para exemplificar, conside-
re um estudo realizado para avaliar o efeito de algumas variáveis in-
dependentes na idade de aposentadoria, o qual poderia fazer uso de
uma amostra com pessoas de 65 anos ou mais. Mesmo assim, algu-
mas pessoas dessa amostra podem não estar aposentadas. Considere
como exemplo, o caso de uma pessoa de 68 anos que está na amos-
tra e, não está na situação de aposentada. Uma conclusão inicial que
pode ser feita é que, a idade mínima para esta pessoa se aposentar
será de 68 anos, sua atual idade. Situações desse tipo para dados de
modelos de duração são chamadas censuradas. Existe outro tipo de
censura, a qual ocorre quando ocorre uma descontinuação do indi-
víduo no estudo sem que tenha ocorrido o evento de interesse. Por
exemplo, a pessoa de 68 anos do exemplo pode ir a óbito antes de se
aposentar. Portanto, ela foi descontinuada do estudo sem que o even-
to “início da aposentadoria” tenha ocorrido.
2. Algumas variáveis independentes podem mudar ao longo do tempo do
estudo. Como exemplo, considere um estudo sobre reincidência crimi-
nal, apresentado em Agresti e Finlay (2012, p. 578). O modelo elaborado
tem como variável dependente o tempo até a prisão pela segunda vez
ou mais e pode utilizar como variáveis independentes se o indivíduo
está trabalhando, se está casado, etc. Para um indivíduo em particular
da amostra, algum valor dessas variáveis pode mudar ao longo de sua
realização. Em situações semelhantes a esta para variáveis indepen-
dentes, dá-se a denominação de variável dependente no tempo.
Os métodos estatísticos utilizados para construir modelos de duração
possuem procedimentos especiais para lidar com as duas situações aci-
ma apresentadas. Maiores detalhes sobre os procedimentos podem ser
encontrados em Agresti e Finlay (2012) e Gujarati (2011).
PARA SABER MAIS

Existem três métodos de análise de dados de duração: não
paramétrico, paramétrico e parcialmente paramétrico, tam-
bém conhecido como semiparamétrico. No método não pa-
ramétrico não se faz qualquer tipo de suposição sobre a dis-
tribuição de probabilidade do tempo de sobrevida, enquan-
to que, no método paramétrico faz-se necessário recorrer a
este pressuposto. O método não paramétrico é utilizado em
análise de tábuas de vida, as quais foram, e ainda são muito
utilizadas pelas ciências atuariais e demográficas. O método
paramétrico é muito utilizado para análise de dados de tem-
po contínuo, o qual vai depender da distribuição de proba-
bilidade assumida. Dentre as utilizadas estão, a distribuição
exponencial, Weibull, lognormal ou loglogística. Maiores de-
talhes podem ser encontrados em Gujarati (2011).

Os modelos de regressão podem ser aplicados em diversas áreas de
pesquisas. A depender das especificidades de cada uma e do deline-
amento feito pelo pesquisador ao planejar a pesquisa, um determi-
nado tipo de modelo é mais apropriado que outros. Em se tratando
da modelagem de dados de contagem, você consegue pensar em
um exemplo onde possa ser aplicada a regressão de Poisson? Pense
sobre isso!

• Foram apresentados casos especiais de modelos de regressão,

como os modelos para dados de contagem, modelos para dados
em painel e modelos de duração.
• Foram apresentados modelos de regressão para dados de conta-
gem, úteis quando a variável dependente é do tipo contagem e, por
isso, apropriada para ser ajustada por uma distribuição de probabi-
lidade Poisson.
• Foram apresentados modelos de regressão para dados em painel.
Estrutura de dados muito rica em informações, pois, apresenta
características temporais ou longitudinais e, em corte transversal,
ou seja, dados atemporais. É uma estrutura complexa de ser traba-
lhada, por isso, requer modelos mais elaborados.
• Foram apresentados modelos de regressão para dados de dura-
ção, úteis para modelar o tempo até a ocorrência de um evento de
interesse.
Glossário
• Microdados: Representa a menor fração de um dado qualquer. É

a partir de um microdado que é construída uma informação.
• Dado transversal: dado coletado em um único momento do tempo.
TEMA 07
1. Modelos para dados em painel são apropriados para da-
dos coletados em dimensões de medidas. Quantas dimen-
sões possuem os dados em painel?
a) Uma.
b) Duas.
c) Três.
d) Quatro.
e) Cinco.
2. Modelos para dados de contagem são apropriados para
dados com qual distribuição de probabilidade?
a) Binomial.
b) Normal.
c) Poisson.
d) Exponencial.
e) Logística.
3. A análise do tempo até a ocorrência de um evento de inte-
resse que é influenciado por alguns fatores deve ser feita
por qual modelo de regressão?
a) Usual.
b) Poisson.
c) Painel.
d) Normal.
e) Duração.
GUJARATI, D.N. Econometrics by example. New York: Palgrave Macmillan, 2011. 416p.
924p.
STOCK, J. H.; WATSON, M. W. Econometria. São Paulo: Pearson Brasil, 2004. Disponível
em: < http://anhanguera.bv3.digitalpages.com.br/users/publications/9788588639140
/pages/-20>. Acesso em: 21 julho 2018.

Os dados coletados em painel possuem duas dimensões: temporal
e espacial.
Modelos para dados de contagem são apropriados para dados com
distribuição de Poisson.
A análise do tempo até a ocorrência de um determinado evento que
é influenciado por alguns fatores deve ser realizada por modelos de
duração.
TEMA 08
ECONOMETRIA DE MERCADOS
FINANCEIROS
Objetivos
• Apresentar modelos de mensuração de risco.
• Apresentar modelos dinâmicos de estrutura a termo

de taxas de juros.
• Apresentar modelos em tempo contínuo.
• Descrever sobre volatilidade realizada e derivativos.
Introdução
Em qualquer atividade que façamos, em qualquer área de nossas vidas,

sempre existe algum tipo de risco associado a ela. Por exemplo, na esco-
lha de sua formação escolar, em algum momento da vida foi necessário
escolher, por exemplo, o curso superior que iria ser cursado para cons-
truir uma carreira profissional. Nesse momento, havia um risco associa-
do! Por exemplo, de não se adequar ao curso escolhido.
Portanto, não há como eliminar riscos da vida cotidiana! No entanto, é
possível fazer estimações de quanto risco se deseja ou se permite correr
ao tomar uma decisão ou outra, para que não sejamos prejudicados de
forma demasiada, pois o risco também tem seu lado positivo. Ele, de certa
forma, é um estimulante.
No mercado financeiro, os riscos são muito mais visíveis e notórios. Isso
tudo por conta da transparência que existe nesse ambiente. As tecnolo-
gias também são responsáveis por esse processo de transparência, por
ajudarem a refletir, quase que de forma imediata, a demanda e a oferta
de títulos financeiros.
Outro fator que torna os riscos mais visíveis no mercado financeiro é pelo
fato de os participantes do mercado operarem, em determinadas situa-
ções, “alavancados”, fazendo com que assumam posições de risco supe-
riores ao seu patrimônio.
Neste texto serão apresentados alguns métodos econométricos aplica-
dos no mercado financeiro, juntamente com aplicações e discussão de
resultados.
1. Modelos de mensuração de risco
Existem diversos tipos de risco no mercado financeiro, como o risco de

crédito, risco operacional e o risco financeiro ou de mercado, os quais
são os principais tipos estudados na literatura especializada. Neste texto,
especificamente, será estudado o risco de mercado financeiro, o qual é
medido pelo VaR (valor em risco).
Duarte Júnior (2005, p. 62) afirma que são necessárias algumas condições
para uma gestão de riscos de mercado, as quais são apresentadas a seguir:
(1) O completo entendimento dos instrumentos financeiros (ativos e passi-
vos) de interesse, da regulamentação e dos participantes do mercado; (2) A
organização de bancos de dados que cubram todos os fatores de mercado
requeridos para o apreçamento dos instrumentos financeiros em análise;
(3) A identificação de áreas de finanças, matemática/estatística/econome-
tria, que são importantes instrumentos financeiros sob consideração e; (4)
A montagem de um grupo de profissionais que tragam, em conjunto, um
equilíbrio entre prática (mercados financeiros locais e internacionais) e teo-
ria (finanças, estatística/econometria, etc.)”.
Os riscos financeiros, segundo Morettin (2016, p. 181) “estão ligados às

variações de variáveis financeiras (como juros e taxas de câmbio), que
podem implicar perdas financeiras”.
A medida VaR é uma estimativa do quanto uma empresa em situação de

risco pode cair em suas movimentações financeiras de mercado em deter-
minado período, como por exemplo, durante o intervalo de um dia. Sua
análise envolve o cálculo da volatilidade, conceito tratado neste curso no
tema sobre séries temporais (Tema 2). Sob o ponto de vista empresarial, o
VaR é uma medida de perda que se associa à ocorrência de eventos extre-
mos, dado que o mercado financeiro permanece sob condições normais.
Em termos probabilísticos, o VaR tem uma definição em que é suposto para

um determinado período de tempo t a existência de interesse na mensura-
ção do risco para h períodos no futuro, ou seja, “é uma medida da variação
potencial máxima do valor de um ativo (ou carteira de ativos), sobre um
período pré-fixado, com dada probabilidade” (MORETTIN, 2016, p. 182).
Um exemplo de aplicação do VaR, apresentado em Duarte Júnior (2005, p.

64), fala sobre “uma carteira cujo VaR era de R$ 10 milhões para um hori-
zonte de investimento de um dia, com um nível de significância de 95%, a
probabilidade de sofrer uma perda superior a R$ 10 milhões seria de 5%”.

Para uma definição mais formal do VaR, é necessário, também, definir os
dois tipos de posições financeiras existentes. Morettin (2016, p. 182) apre-
senta a definição dos dois tipos de posições como “uma posição finan-
ceira comprada (ou long) significa possuir determinado ativo (ou carteira
de ativos). Uma posição financeira vendida (ou short) envolve vender um
ativo que não se possui”.
Segundo Duarte Júnior (2005) existem duas abordagens para estimar o

VaR de uma carteira, as quais são apresentadas no quadro a seguir.
Quadro 1 – Tipos de abordagem para estimação do VaR

Abordagem analítica Abordagem de simulação
Baseada no modelo média-variância de
Baseada em simulação
Markowitz
O programa computacional RiskMetrics O programa computacional Raroc 2020
é baseado neste tipo de abordagem é baseado neste tipo de abordagem
Prós: Prós:
Baixo risco e de modelagem mais fácil
Fácil de implementar por ter baixa com-
para se analisar sensibilidade e realizar
plexidade computacional
teste de estresse
Contras: Contras:
Alto risco de modelagem; difícil de se
Difícil de implementar, pois utiliza alta
fazer análise de sensibilidade e teste de
complexidade computacional.
estresse
Fonte: Adaptado de: <https://edisciplinas.usp.br/pluginfile.php/183256/mod_resource/content/1/
Tema_02_03.Risco%20de%20Mercado%20e%20VaR_Slides.pdf>. Acesso em: 01 ago 2018.
Os especialistas da área sugerem que seja utilizada, preferencialmente, a

abordagem por simulação, principalmente em situações de carteiras com
não-linearidades. Ainda sugerem que a abordagem analítica seja utilizada
como uma solução inicial para a estimação do VaR de uma carteira.
Para a implementação de uma abordagem analítica, alguns passos de-

vem ser executados, como mostra a figura 1. A sua implementação, ba-
sicamente, ocorre através do uso da metodologia RiskMetricsTM, desen-
volvida pelo banco de investimentos J.P. Morgan, o qual faz uso de uma
técnica estatística conhecida como amortecimento exponencial.
Existem variantes da abordagem analítica em seu processo de implemen-
tação, como por exemplo, as variantes “delta equivalente” e “delta-gama
equivalente”, dentre outras.
Figura 1 – Passos básicos na abordagem analítica
Fonte: Duarte Júnior (2005, p.70).
A abordagem por simulação também tem variantes que podem ser uti-
lizadas no momento de sua implementação. São elas, a variante “histó-
rica” e a variante “Monte Carlo”. Assim como na abordagem analítica, a
abordagem por simulação também requer, para sua implementação, a
realização de uma série de passos básicos, os quais são mostrados nas
Figuras 2 e 3.
Figura 2 – Passos básicos na abordagem de simulação histórica

Figura 3 – Passos básicos na abordagem de simulação Monte Carlo
Para apresentar uma aplicação, considere um simples exemplo de cálculo

do VaR apresentado por Morettin (2016, p. 182).
EXEMPLIFICANDO
A abordagem analítica faz uso da metodologia RiskMetricsTM
para estimar valores de VaR. Tal metodologia estima a volatili-
dade de um ativo financeiro σt2 através de um modelo EWMA
(amortecimento exponencial). Maiores detalhes sobre o mo-
delo EWMA podem ser encontrados em Morettin (2016).
Suponha que exista uma chance de 95% de que a taxa de câm-
bio Real/USD (dólar americano) não caia em um dia. Suponha
ainda que, uma empresa tenha 100 milhões de reais aplicados
num fundo cambial. Calcule a perda potencial sobre esse va-
lor aplicado. Uma série temporal do desvio padrão (volatilida-
de) σt dos retornos da taxa câmbio Real/USD rt pode dar uma
indicação da sua variação. Admitindo que os retornos sejam
modelados por rt = σtεt, onde εt ~N(0,1), ou seja, está sendo su-
posto que os dados tenham distribuição normal. Admita que
uma estimativa do desvio padrão de um dia específico seja σt
= 0,46%. Então, o VaR pode ser calculado como
VaR = (1,65%) σt = (1,65%)(0,46%) = 0,759%.
Portanto, não se espera que a taxa de câmbio caia mais que
0,759% com 95% de chance. O valor 1,65 é o percentil de or-
dem 0,95 da distribuição normal padrão. Em valores monetá-
rios, o VaR é o valor de mercado da posição multiplicado pelo
valor obtido acima, ou seja,
Risco = (100 milhões)(0,759%) = 759.000,00 reais.
A conclusão é que em 95% das vezes, não se perderá mais do
que R$ 759.000,00 em um dia.
Para implementar dados com o intuito de obter o VaR é necessária a uti-

lização de programas computacionais apropriados. Por exemplo, o pro-
grama R com a utilização do pacote “PerformanceAnalytics” ou, o programa
EVIEWS ou, outro programa apropriado para tal análise.
LINK
Confira o material desenvolvido por Daniel Yudi Sasahara
Kondo, que trata sobre modelos de estimação de volatilidade.
Disponível em: <http://pro.poli.usp.br/wp-content/uploads
/2012/pubs/modelos-de-estimacao-das-volatilidades-e-o-
seu-impacto-no-calculo-do-valor-em-risco-de-uma-carteira-
de-ativos-financeiros.pdf>. Acesso em: 01 agosto de 2018.
ASSIMILE
A origem do VaR: O pesquisador Till Guldimann é considera-
do como o criador do termo “value at risk” ou valor em risco,
no final dos anos 80, enquanto liderava pesquisas no banco
J.P. Morgan.

2. Modelos dinâmicos de estrutura a termo de taxas
de juros
A taxa de juros é um coeficiente que determina o valor do juro, ou seja, é

a remuneração do fator capital que foi utilizado por determinado período
de tempo. Ela é uma das mais importantes variáveis econômicas de qual-
quer país.
Com o propósito de compreender o seu comportamento, tanto no merca-
do financeiro quanto na economia geral, os profissionais de economia bus-
cam com antecipação prever os movimentos das curvas das taxas de juros.
Carvalho (2013, p. 20) afirma que “modelos capazes de descrever o com-
portamento passado e inferir a trajetória futura da curva de juros são
partes essenciais de qualquer sistema de gestão de ativos e passivos”.
Há duas vertentes populares de modelos que descrevem a estrutura a ter-
mo da taxa de juros (ETTJ), segundo Bernz (2014, p. 15) o qual afirma que:
a primeira tem como objetivo principal o perfeito ajuste (fitting) da estrutu-
ra a termo das taxas, importante para a precificação de derivativos. [...] A
segunda abordagem tem como foco a modelagem da dinâmica da taxa de
juros instantânea, em geral, utilizando-se de modelos afins (affine models)
através dos quais as taxas para diferentes vencimentos podem ser estima-
das utilizando hipóteses sobre o prêmio de risco.
PARA SABER MAIS

A ETTJ não é diretamente observável, portanto, ela precisa
ser estimada a partir de cotações de mercado ou instrumen-
tos financeiros derivativos disponíveis (os “dados/pontos ob-
servados da curva”). A partir do conjunto de dados é possível
construir uma curva ou função/modelo “contínua” que apro-
ximadamente se adeque aos dados observados e, com a uti-
lização de técnicas de interpolação, estimar o valor da curva/
função em pontos fora da zona conhecida com o propósito
de fazer previsões.
Dentre os modelos existentes, acadêmicos da área têm direcionado suas
pesquisas para uma classe de modelos de estrutura a termo da taxa de
juros chamada “Nelson-Siegel”, a qual faz uso de componentes exponen-
ciais (fatores) para derivar pontos da curva de juros com estrutura tridi-
mensional paramétrica, cujos parâmetros são interpretados como nível,
inclinação e curvatura da curva de juros.
Outros modelos existentes para a ETTJ são modelo de Nelson e Siegel
com dinâmica temporal do vetor autorregressivo (VAR), modelo ampliado
de Nelson e Siegel, com quatro fatores e, modelo passeio aleatório etc.
Aplicações comparativas entre os modelos citados por ETTJ com outros
não citados neste texto poderão ser encontrados com maiores detalhes
em Bernz (2014) e Carvalho (2013). Nesses mesmos textos, também, são
indicados programas computacionais apropriados para construção de
modelos para taxa de juros.
3. Modelos em tempo contínuo
O preço de um ativo financeiro evolui ao longo do tempo e forma um pro-

cesso estocástico, conceito apresentado no Tema 2 sobre séries tempo-
rais, o qual é um termo da estatística utilizado para descrever a evolução
de uma variável aleatória no tempo. Os preços observados são realiza-
ções do processo estocástico associado.
Existem dois tipos de processos estocásticos para modelagem do preço de
um ativo. O primeiro tipo é chamado de processo estocástico em tempo dis-
creto, no qual o preço pode mudar em momentos pontuais, ditos em tempo
discreto. Por exemplo, os índices diários do IBOVESPA podem ser conside-
rados como processos estocásticos em tempo discreto se a observação de
seus valores for realizada apenas no momento do fechamento diário.
O segundo tipo de processo estocástico é o chamado processo em tem-
po contínuo, no qual, os preços mudam continuamente, embora sejam
observados em momentos de tempo discreto. Para exemplificar, pode-se
pensar no preço de um estoque de mercadorias como o “verdadeiro va-
lor” do estoque o qual varia ao longo do tempo continuamente.

Nos dois tipos de processos estocásticos apresentados o preço pode ser
tanto contínuo quanto discreto. Um preço contínuo pode assumir qual-
quer valor real não negativo, enquanto que, o preço discreto assume ape-
nas um determinado conjunto contável de valores possíveis.
Para estudar processos com tempo contínuo ou modelos econométricos

em tempo contínuo existe uma metodologia chamada processo de mo-
vimento Browniano, em homenagem ao botânico Robert Brown, o qual
descreve a evolução aleatória de um ativo, por exemplo, em cada instante
do tempo, em que essas mudanças ocorrem com pequenos incrementos
independentes da atual posição e do histórico passado do processo.
Outra característica de um processo de movimento Browniano é que a

mudança de posição em qualquer intervalo de tempo é uma variável ale-
atória com distribuição normal de média zero e variância Δt, ou seja, pro-
porcional ao intervalo de tempo decorrido.
PARA SABER MAIS

Um processo estocástico com movimento Browniano é um
processo realizado em tempo contínuo e valores contínuos,
por exemplo, com valores de ativos financeiros podendo as-
sumir qualquer valor real não negativo. Porém, de maneira
formal, define-se um processo em movimento Browniano da
seguinte maneira:
O processo W = (Wt : t ≥ 0) é um processo de movimento

Browniano se e somente se
(i) Wt é contínua e W0 = 0.
(ii) Wt é uma variável aleatória com distribuição normal N (0, t).
(iii) O incremento Ws+t – Ws é uma variável aleatória com dis-
tribuição normal N (0, Δt), o qual é independente do histó-
rico passado.
4. Volatilidade realizada e derivativos
Derivativos são instrumentos designados para gerenciar riscos financei-

ros de forma eficiente, ou seja, é um instrumento financeiro cujo valor
pode derivar de outras fontes como taxa de juros, preço de título, mer-
cadoria, taxa de câmbio, índice da bolsa de valores, índice de preço, etc.
Existem quatro tipos de derivativos: termo, futuro, swap e opções.
O conceito de volatilidade já foi tratando no Tema 2 desta disciplina, no
entanto, de forma resumida, é uma medida de variabilidade associada ao
tempo de observação de um ativo, por exemplo, com o intuito de avaliar o
risco associado com a execução de uma negociação. Ela tem importância
fundamental no apreçamento de ativos e de gestão de riscos.
A modelagem da volatilidade para dados de alta frequência intradiários,
ou seja, para dados obtidos em intervalos muito pequenos de tempo, é
chamada de volatilidade realizada. Sua ideia básica consiste considerar
a soma de quadrados dos retornos obtidos em intervalos de alguns mi-
nutos no período de um dia com o intuito de estimar a volatilidade desse
dia, para com isso, obter uma série de volatilidades diárias observadas, as
quais podem ser modeladas por modelos ARIMA ou ARFIMA, por exemplo.
Na impossibilidade de obter dados intradiários é possível considerar a ob-
tenção de dados de preços de abertura, fechamento, máximo e mínimo
de uma determinada ação, coletados diariamente para estimar a volati-
lidade desse dia específico através da volatilidade de Garman-Klass, por
exemplo. Ao interessado em obter maiores detalhes sobre volatilidade
realizada, podem procurar pela referência Morettin (2016).
SITUAÇÃO-PROBLEMA
Pedro é responsável por uma organização não governamental (ONG)
localizada na periferia da cidade chamada Felicidade. Ele tem uma
equipe responsável por ajudar os jovens da comunidade a se inseri-
rem no mercado de trabalho e se profissionalizarem com os cursos
oferecidos pela ONG. Para isso, ele e sua equipe fazem mensalmente

um levantamento de dados para alimentar o banco de dados que a
ONG tem sobre informações socioeconômicas dos moradores da co-
munidade e referentes à demanda por formação profissional.
As informações que o banco de dados possui recebem tratamento

estatístico para que seus resultados sejam colocados em relatórios e
informes que são distribuídos na comunidade e, também, para as ins-
tituições que são colaboradoras com os trabalhos realizados por ela.
Para a comunidade são divulgadas informações sobre os cursos ofe-

recidos e as vagas cadastradas em um banco de dados específico,
assim como, outras informações sobre como a ONG está investindo
seus recursos.
Para as instituições parceiras, a ONG tenta mostrar com um trata-

mento mais especifico e analítico, como os recursos fornecidos são
investidos e como são aplicados na compra de material necessário
para a oferta de formação profissional dos jovens residentes no seu
entorno.
Também são apresentados resultados dos tratamentos dos dados

feitos com métodos estatísticos mais complexos como análise de
regressão linear, para mostrar as relações de associação e causali-
dade que possam existir entre as informações do banco de dados,
tais como, a situação de empregado ou desempregado de um jovem
atendido pela ONG, depois de passar por um dos cursos oferecidos e
por orientação profissional.
Outro tipo de estatística utilizada é aquela relacionada com séries tem-

porais, pois, a ONG tenta mostrar através do uso dessa metodologia
como os recursos financeiros estão sendo acompanhados, se há al-
gum tipo de tendência, como redução ou aumento de gastos, redução
ou aumento de investimentos de um determinado colaborador etc.
O tratamento das informações com métodos estatísticos, também,
tem a intenção de realizar previsões para que a ONG possa fazer seus
planejamentos para o futuro. Um deles está relacionado exatamente
com a questão da demanda de tipo de profissional que o mercado de
trabalho está procurando, pois, é sabido que esse é um assunto dinâ-
mico, varia ao longo do tempo.
Por fim, tudo o que a ONG deseja com uso de métodos quantitativos
é, exatamente, mostrar, com números, que trabalha de forma eficien-
te e que sabe utilizar tantos seus recursos financeiros, quanto apre-
sentar bons resultados para comunidade e para as empresas parcei-
ras de seu trabalho.

Imagine que você seja funcionário de uma bolsa de valores, por exem-
plo, da BOVESPA e que você precisa acompanhar diariamente o com-
portamento dos índices de ativos de diversas empresas. Para realizar
um bom trabalho você precisa conhecer métodos apropriados para
lidar com essas informações, e precisa utilizá-las para obter um bom
resultado do tratamento que deu a elas. Portanto, pense em que mé-
todo quantitativo poderia auxiliar você a lidar com tanta informação!
• Este texto apresentou modelos de mensuração de risco e tratou

especificamente do VaR (valor em risco).
• Este texto apresentou os principais modelos de estrutura a termo

de taxas de juros.

• Este texto apresentou modelos de tempo contínuo e tratou, com
um pouco mais de detalhe, o movimento Browniano.
• Este texto apresentou o conceito de derivativos e introduziu volati-

lidade esperada.
Glossário
• ARIMA: processo autorregressivo integrado e de médias móveis; é

um dos modelos de séries temporais.
• ARFIMA: processo autorregressivo fracionário integrado de mé-

dias móveis; é um dos modelos de séries temporais.
TEMA 08
1. O VaR (valor em risco) é uma medida associada a qual tipo
de risco?
a) Risco operacional.
b) Risco de mercado.
c) Risco de crédito.
d) Risco de dívidas.
e) Risco técnico.
2. Quantos tipos de abordagens existem para a estimação do
VaR?
a) Três.
b) Quatro.
c) Um.
d) Dois.
e) Nenhum.
3. Em modelo de tempo contínuo, quais são os possíveis va-
lores permitidos para o tempo?
a) Valores reais não negativos.
b) Valores reais não positivos.
c) Valores inteiros não negativos.
d) Valores inteiros não positivos.
e) Valores racionais.
BAXTER, M.; RENNIE, A. Financial calculus: an introduction to derivative pricing.

Cambridge, Cambridge University Press, 2003, 233p.
BERNZ, B.M. Modelo Nelson-Siegel dinâmico da estrutura a termo da taxa de ju-

ros com fatores exógenos macroeconômicos: uma aplicação ao mercado brasilei-
ro. 2014. 67f. Dissertação (Mestrado profissional em Economia) – Escola de Economia
de São Paulo, Fundação Getúlio Vargas, São Paulo. Disponível em <https://biblioteca
digital.fgv.br/dspace/bitstream/handle/10438/12023/BrunoMullerBernz.pdf>.
Acesso em: 01 agosto 2018.
CARVALHO, J.P. Modelos de fatores dinâmicos: aplicação à estrutura a termo da taxa

de juros. 2013. 62f. Dissertação (Mestrado em Economia) – Centro Sócioeconômico,
Universidade Federal de Santa Catarina, Florianópolis. Disponível em: <https://reposi
torio.ufsc.br/xmlui/bitstream/handle/123456789/122762/322780.pdf?sequence
=1&isAllowed=y>. Acesso em: 01 agosto 2018.
DUARTE Júnior, A. M. Gestão de riscos para fundos de investimentos. São Paulo:

Prentice Hall, 2005.
LUTERMAN, R. N. Derivativos de volatilidade no mercado brasileiro de câmbio:

viabilidade e impactos de sua utilização. 2013. 66f. Dissertação (Mestrado profis-
sional em Economia) – Escola de Economia de São Paulo, Fundação Getúlio Vargas,
São Paulo. Disponível em: <http://bibliotecadigital.fgv.br/dspace/bitstream/handle/
10438/10581/Disserta%C3%A7%C3%A3o%20-%20Rodolfo%20Luterman%20-%20
MPFE%20-%20Final.PDF?sequence=1&isAllowed=y>. Acesso em: 01 agosto 2018.

TSAY, R.A. Analysis of financial time series. 3 ed. New Jersey: John Wiley & Sons,
2010, 677p.
O VaR é uma medida associada ao risco de mercado.
Existem dois tipos de abordagens para a estimação do VaR.
Em modelo de tempo contínuo os valores permitidos para o tempo

são os valores reais não negativos.

Apostila Econometria

Enviado por

Direitos autorais:

Formatos disponíveis

Apostila Econometria

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Econometria

Enviado por

Direitos autorais:

Formatos disponíveis

ECONOMETRIA

Dados Internacionais de Catalogação na Publicação (CIP)

Lima, Marcelo Tavares de

 1. Variáveis dummy. 2. Mercado financeiro.

Responsável pela ficha catalográfica: Thamiris Mantovani CRB-8/9491

Tema 01 – Modelos univariados 05

Tema 02 – Séries temporais 24

Tema 03 – Análise de modelos e relaxamento dos

Tema 04 – Regressão com variáveis Dummy 60

Tema 05 – Modelos multivariados 76

Tema 06 – Modelos com variável dependente discreta 90

Tema 07 – Tópicos especiais em econometria 105

Tema 08 – Econometria de mercados financeiros 120

Este material apresenta aos usuários da teoria econômica e demais in-

A econometria segundo Malassise “é uma área e, ao mesmo tempo, um

A econometria é uma ciência social aplicada que se utiliza de conceitos e

• Este texto tem como objetivo apresentar e desenvolver

1. A natureza da análise econométrica

A afirmação de que em muitas situações o desenvolvimento e a avaliação

Como mencionado anteriormente, a econometria faz a integração da te-

Dados os propósitos apresentados, é possível identificar que a econome-

A econometria pode ser subdividida em duas vertentes: teórica e apli-

A análise de regressão é um dos métodos mais importantes da econo-

Como pressuposto, a análise de regressão considera que devem existir,

De forma geral, a análise de regressão pode representar a relação entre

onde Y representa a variável dependente ou endógena e os Xh = (h = 1,2,

2. O modelo clássico e seus pressupostos

Considere que existam n pares de valores de duas variáveis em um es-

onde ß0 e ß1 são parâmetros, Xi é a variável independente, Yi é a variável

1. A relação funcional entre X e Y é linear.

Ainda é necessário verificar se o número de observações disponíveis é

3. Modelos lineares e não lineares

Considerando que o modelo de regressão a ser ajustado aos dados será

10 Eficiência Energética

onde é a estimativa do valor esperado para o modelo, e são as

As estimativas dos parâmetros do modelo são obtidas por MQO, o qual

A resolução do sistema leva para as equações conhecidas

Tabela 1. Demanda de embalagens plásticas por preço

Preço de venda (Xi) 16 18 20 23 26 28 30 33 35

A partir dos dados será construído um modelo de regressão linear simples

PARA SABER MAIS

12 Eficiência Energética

Fonte: Elaboração do autor.

Agora, reescrevendo os dados, serão calculadas algumas medidas que

Tabela 2. Dados auxiliares

Ordem Preço de venda (Xi) Demanda (Yi) Xi2 Yi2 Xi Yi

1 16 1200 256 1440000 19200

Portanto, a equação de regressão ajustada será:

Se o modelo ajustado for desenhado em um gráfico através da reta ajus-

Gráfico 2. Dados originais com a reta ajustada

Fonte: Elaboração do autor.

14 Eficiência Energética

Em muitas situações, o pesquisador desconhece o tipo de relação funcio-

Tabela 3. Taxa de inflação no Brasil de 1961 a 1979.

Ano (Xi) Inflação (Yi)

Gráfico 3. Diagrama de dispersão dos dados originais

Fonte: Adaptado de Bussab e Morettin (2017, p. 491).

16 Eficiência Energética

onde, ɛi representa o termo erro aleatório, e representa a constante de

Para o caso apresentando, por se tratar de um conjunto que envolve ape-

1. Variáveis dummy. 2. Mercado financeiro.

10 Eficiência Energética

12 Eficiência Energética

14 Eficiência Energética

16 Eficiência Energética

18 Eficiência Energética

20 Eficiência Energética

22 Eficiência Energética

26 Eficiência Energética

28 Eficiência Energética

30 Eficiência Energética

32 Eficiência Energética

34 Eficiência Energética