COMPLETO
COMPLETO
COMPLETO
TRABALHO: DE ESTATÍSTICA II
O Docente
_________________________
Prof. José Yeze
LUANDA, 2019
REPÚBLICA DE ANGOLA
MINISTÉRIO DO ENSINO SUPERIOR
UNIVERSIDADE AGOSTINHO NETO
FACULDADE DE ECONOMIA
Departamento De Métodos Quantitativos
TRABALHO: DE ESTATÍSTICA II
LUANDA, 2019
CONSTITUINTES DO GRUPO
Nomes Nº do Estudante
DEDICATÓRIA
Dedicamos este trabalho a todos os estudantes que acreditam num aprendizado qualificado, aos nossos
pais e aos professores que acreditam no nosso potencial e em particular aos amantes da tão
magnífica cadeira de Estatística, para que consigamos atingir os nossos objectivos, todos juntos é
possível.
AGRADECIMENTO
Queremos agradecer a Deus por ter-nos ajudado a superar as dificuldades e a tornar possível a
realização de um trabalho muito importante para nós.
Não podemos esquecer todo apoio dado através dos recursos disponíveis e de toda estrutura
que facilitou a grande harmonia entre todos os intervenientes.
Por fim, mas não menos importante, deixamos uma palavra de gratidão a todas as pessoas que
de alguma forma transmitiram força e confiança em nós.
RESUMO
Neste trabalho focalizaremos sobre os Números Índices as Teorias de Estimação Hipóteses e
Analises de variâncias, correlações e regressões, envolvendo também as séries temporais.
ÍNDICES
/3
/4
/5
/6
/7
/8
/9
4
1. INTRODUÇÃO
De modo bem geral, podemos dizer que a essência da ciência e a observação e que seu
objectivo básico e a inferência, que pode ser dedutiva (na qual se argumenta das premissas as
conclusões) ou indutiva (por meio da qual se vai do especifico ao geral).
Nos três temas deste trabalhou científico estaremos interessados na redução, análise e
interpretação dos dados sob consideração, dotando um enfoque de análise exploratória de
dados. Nessa abordagem tentaremos obter dos dados a maior quantidade possível de
informação, que indique modelos plausíveis a serem utilizados numa fase posterior, a análise
confirmatória de dados (ou inferência estatística).
2. NÚMEROS ÍNDICES
1
Muitos dos dados estatísticos sobre variados assuntos apresentam-se de uma forma peculiar,”
repetem-se ao longo de vários períodos de tempo” que podem ser anos, meses, semanas ou
mesmo dias. Estes conjuntos de dados constituem as chamadas séries ou sucessões
cronológicas
As sucessões muitas das vezes são apresentadas sob as formas de números índices.
Números Índices: É um quociente entre dois valores de uma mesma variável, referentes a
diferentes pontos no tempo e no espaço que normalmente é expresso em percentagem. Os
números índices podem ser:
It Vt
= ₓ 100
o Vo
Os números índices foram especialmente concebidos para medir modificações associadas com
as variáveis económicas e financeiras, como é o caso do exemplo seguinte.
Ano Preço
2003 6,00 ( Base)
2
2004 6,00
2005 6,50
2006 7,00
2007 7,5
Na sua forma mais simples um número índice, não é nada mais do que uma percentagem
(proporção relativa), indicando a relação entre dois valores referentes a diferentes períodos de
tempo ou regiões. Assim, para comparar os preços da série anterior basta:
Os valores da última coluna permitem - nos já fazer comparações entre os preços dos vários
anos. Por exemplo, verifica-se que de 2003- 2004 não houve alteração no preço; Mas em 2006
os preços aumentaram 16,7% relativamente aos verificados em 2003.
A utilização dos números índices proporcionam – nos inúmeras vantagens, dentre elas
destacam-se:
3
2.3 Tipos de Números Índices
1. Simples
2. Compostos
3. Compósitos ou Sintéticos
4. Territorial
Índice Territorial – Indica o grau de desenvolvimento que olha para a disparidade de acesso
de recurso territorial e as oportunidades da população, no acesso de recursos para a satisfação
das necessidades.
Os números índices podem ainda serem classificados de uma outra forma, podendo apresentar
diferenças entre:
1. Índices de Preços;
2. Índices de Quantidades;
3. Índices de Valores.
Dentro de cada tipo de índice podem aplicar-se diferentes métodos de cálculo, de modo a
obter índices simples, agregados ou compósitos.
Os índices de preços são calculados para medir” unicamente variações relativas de preços”
estando a sua utilização generalizada e sendo múltiplos os exemplos que deles se podem
apresentar.
4
Transitividade: Um índice para o período i cuja base é o período 0 (base), pode ser
calculado através do produto de dois índices. O do período i com base em k e o do
período k com base em 0.
Ii/k
∗Ik /0
Ii 100 Com i˃k˃0
= ∗100
0 100
Por exemplo
I 80 I 80 I 75
= ×
70 75 70
Ii /0 100
=
100 I 0/i
Por Exemplo
I 80/70 100
=
100 I 70/80
Encadeamento: Qualquer índice para o período i com base 0 pode ser decomposto no produto
dos índices para todos os períodos desde i até 0, cada um deles tendo como base o período
imediatamente anterior.
Devido a necessidade de comparar diferentes séries de números índices obriga a certo tipo de
manipulação como:
O cálculo das alterações percentuais para cada período de uma série de números índices
permite-nos saber de imediato, quais as alterações verificadas em cada período, mas
relativamente sempre ao período base. No entanto, poderá ser mais útil conhecer as alterações
verificadas em relação ao período anterior, o que já não é tão imediato. Para tal não é correcto
5
efectuar apenas a subtracção dos valores do índice entre cada dois períodos consecutivos. É
necessário também relacionar essa diferença com o valor inicial e a mudança percentual entre
os períodos i+i+1 é imediatamente obtida através d a seguinte fórmula:
Ii+ 1−Ii
Δ= x 100 Alteração percentual entre dois períodos i e i+1.
Ii
Exemplo:
Pretende – se calcular, para a seguinte série de índices de preços referentes aos anos 5 a 8, as
alterações percentuais verificadas em cada ano.
125
Apesar de as diferenças nos valores dos índices serem constantes, as alterações percentuais
mostram uma tendência decrescente para o aumento do nível de preços ao longo do período
considerado.
Quando se pretende comparar séries de índices com diferentes períodos base é, necessário
proceder a uma transformação das séries de modo que todas tenham uma base comum.
Tal mudança resume – se a uma alteração proporcional em todos os valore de uma ou todas as
séries. O 1º passo consiste em definir o novo período base, sendo necessário de seguida
dividir o valor da série para esse período por 100 no sentido de se encontrar o factor
proporcionalidade. Por último dividem – se todos os restantes índices da série pelo mesmo
factor de proporcionalidade, resultando disto uma nova série de números índices com um
novo período base.
It It /b
Fórmula: = .100
a Ia /b
Exemplo: O quadro a seguir mostra – nos como alterar uma série de índices com período base
no ano 1 para uma outra série em que a base é o ano 3.
6
Anos Série antiga Factor Nova série (base 3)
proporcionalidade
1 100 90,909
2 105 95,454
4 118 107,272
5 126 114,545
6 135 122,727
Nota: Ligações de diferentes séries de números índices publicadas durante períodos longos
são objectos de mudança de base de tempos a tempos para que os seus valores não se tornem
demasiados.
A maior parte das séries temporais relativas as actividades económicas e gestão empresarial,
são definidas em unidades monetárias e referem-se aos preços correntes, em cada período de
tempo.
Embora seja útil examinar o andamento destes valores a preços correntes, corre-se o risco de
não se detectar as verdadeiras mudanças ocorridas e que se encontram disfarçadas sobre o
efeito de inflação.
Este problema é facilmente resolvido através da deflação das séries temporais, isto é, através
da utilização de um índice de preços que permite retirar à série os efeitos da inflação e
transformar os preços correntes em preços constantes.
Exemplo: A empresa Vunge Lda, efectuou entre 1983 e 1987, vendas a preços correntes das
séries temporais por um IPC para o mesmo período.
7
correntes constantes (1983 -1987)
2.6 IPC
O único problema quando se pretende deflacionar uma série temporal é encontra um índice
fidedigno e que represente realmente o efeito da inflação sobre a série temporal.
8
População de Referência – É preciso determinar se o índice é para toda a população ou se é
apenas para uma subpopulação e, nessa caso defini-la de forma clara.
Também os bens e serviços que entram na definição do índice devem ser seleccionados e
claramente definidos com as respectivas unidades em que os mesmos são expressos.
No IPC, os bens são seleccionados a posterior com base no inquérito dos orçamentos
familiares que é realizado periodicamente pelo INE tendo em conta o peso percentual das
despesas dos agregados familiares. Desta forma chega-se a um cabaz de bens e serviços.
No IPC, os preços dos bens são observados sempre junto dos mesmos informadores, numa
determinada semana de cada mês. Esses preços referem – se aos preços das transacções a
retalho, a pronto pagamento. “ Não são considerados quaisquer preços de saldos, descontos,
promoções, preços de lançamentos ou de campanha.
Enviesamento de Substituição
Enviesamento de Qualidade
Enviesamento resultante do aparecimento de novos produtos
Enviesamento da abertura de novos estabelecimentos.
Como o IPC é calculado medindo o custo de um determinado cabaz fixo de bens, não são
consideradas as alterações do padrão de consumo em resposta as alterações dos preços
relativos. Assim o IPC sobreavalia a compensação de rendimento necessário para manter
constante o nível de bem-estar dos consumidores. Esta sobre avaliação constitui o
enviesamento de substituição do IPC.
Enviesamentos de Qualidade – Alguns dos bens incluídos no IPC, estão sujeitos a alterações
consideráveis das suas características, traduzindo variações de qualidade. A evolução dos
equipamentos informáticos, dos automóveis e da generalidade dos electrodomésticos têm um
efeito significativo na variação gradual na qualidade dos bens e serviços.
9
10
2.7 Teoria da Estimação
Um dos métodos para realizar inferências a respeito dos parâmetros é a estimação, que
determina estimativas dos parâmetros populacionais. Consiste em utilizar dados amostrais
para estimar (ou prever) os valores de parâmetros populacionais desconhecidos, tais como
média, desvio padrão, proporções, entre outros parâmetros.
A partir das observações, usando o estimador, procura-se encontrar um valor numérico único
(estimativa) que esteja bastante próximo do verdadeiro valor do parâmetro.
Este procedimento não permite julgar a magnitude do erro que podemos estar cometendo, mas
a distribuição por amostragem dos estimadores torna possível o estudo das qualidades do
estimador.
Essa estimativa consiste em uma amplitude (ou um intervalo) de valores, no qual se admite
esteja o parâmetro populacional.
Procura determinar um intervalo que contenha o valor do parâmetro populacional, com certa
margem de segurança. Este procedimento permite julgar a magnitude do erro que podemos
estar cometendo.
11
2.7.3 Intervalo de Confiança
Quando se constrói um intervalo de confiança são determinados dois limites entre os quais se
espera estar o parâmetro da população, de acordo com um risco conhecido de erro (ou nível
de confiança).
As informações sobre a precisão de uma estimativa de intervalo são transmitidas pela sua
extensão. Se o nível de confiança for alto e o intervalo resultante, bastante restrito, o
conhecimento do valor do parâmetro será razoavelmente preciso. Um intervalo de confiança
muito amplo passa a ideia de que há muita incerteza com relação ao valor que estamos a
estimar.
Com base na amostra, uma maneira de expressar a precisão da estimação é calcular os limites
de um intervalo, o Intervalo de Confiança (IC), tais que (1 – α) seja a probabilidade de que o
verdadeiro valor do parâmetro esteja contido nele.
Portanto:
α = Grau de desconfiança, nível de incerteza ou nível de significância.
1-α = Coeficiente de confiança ou nível de confiabilidade;
12
Para grandes amostras, utiliza-se a seguinte fórmula:
Estudaremos neste capítulo outros aspectos da inferência estatística: O teste de hipóteses, cujo
objectivo é decidir se uma afirmação, em geral, sobre parâmetros de uma ou mais populações
é, ou não, apoiado pela evidência obtida de dados amostrais. Tal afirmação é o que se chama
Hipótese Estatística e a regra usada para decidir se ela é verdadeira ou não, é o Teste de
Hipóteses. Iremos ilustrá-lo por meio de um exemplo.
Exemplo 1.Uma suinicultura usa uma ração A que garante, desde a desmama até a idade de
abate, um ganho em peso de 500 g/dia/suíno ( =25g). O fabricante de uma ração B afirma
que nas mesmas condições, sua ração propicia um ganho de 510 g/dia ( =25g). É evidente
que em termos financeiros, se for verídica a afirmação do fabricante da ração do tipo B, esta
deve ser usada em substituição à do tipo A.
13
Se o criador tem de decidir com base em uma amostra, se o ganho em peso dos suínos dando
a nova ração é 510 g/dia, o problema pode ser expresso na linguagem de teste estatístico de
hipóteses.
Hipótese nula (H0), cujo termo é aplicado para a hipótese a ser testada, e a
A hipótese nula (H0) é a hipótese de igualdade entre o novo e o produto padrão, ou seja, a
designação “hipótese nula” decorre da suposição que a diferença entre eles é nula ou zero.
A análise de cada situação indicará qual deve ser considerada a hipótese nula e qual a hipótese
alternativa. Uma especificação de H0 e H1 no exemplo seria:
H0: = 0
H1: = 1
Onde: 1>0e = 25
Se uma hipótese estatística especifica o valor do parâmetro, ela é referida como hipótese
simples; se não, é referida como composta. Assim, no exemplo, a hipótese alternativa = 510
é simples. Seria composta, por exemplo, se > 500, visto que não fixa um valor específico
para o parâmetro. Em H0, o valor do parâmetro tem de ser especificado.
14
2.8.2 Erros tipos I e II
Para a tomada de decisão, deve-se extrair uma amostra aleatória (por exemplo, n = 50) de
suínos, fornecendo à mesma, desde a desmama até a idade de abate, a ração B, e após o
término da prova, calcula-se a média amostral ( x̄ a) do ganho diário em peso no período,
que é, no caso, a estatística teste.
Estatística teste. A estatística teste é o valor amostral da estatística utilizada para testar um
parâmetro no teste de hipóteses. Parece razoável estabelecer que se x̄ a estiver próxima de
500g, não se deve rejeitar H0, e a conclusão é que a ração do tipo B é estatisticamente igual a
do tipo A.
Por outro lado, se x̄ a estiver próxima ou for superior à 510g, a tomada de decisão é que a
ração do tipo B é superior à do tipo A (rejeitar H0) e que a suinicultura passe a utilizá-la. A
média amostral ( x̄ ) é, no entanto, uma variável aleatória que pode assumir qualquer valor
a
entre 500 e 510g. Assim, deve-se estabelecer um critério de decisão para aceitar ou rejeitar
H0. Isto é feito determinando um valor k (ponto) entre 500 e 510g, chamado valor crítico
“Se a média amostral ( x̄ a) estiver à direita de k, rejeita-se H0, caso contrário não se rejeita”
15
Região de aceitação para H0 Região de rejeição para H0
500
k=
x̄ c 510
Uma região de aceitação e uma de rejeição para H0, o que pode levar a dois tipos de erros.
Por exemplo, se o verdadeiro valor do parâmetro é 500g e incorrectamente concluímos que
= 510g, cometeremos um erro referido como erro tipo I. Por outro lado, se o verdadeiro
valor de é 510g e incorrectamente concluímos que = 500 g, cometeremos uma segunda
espécie de erro, referido como erro tipo II.
O quadro abaixo resume a natureza dos erros envolvidos no processo de decisão, por meio dos testes
de significância:
Denota-se:
16
Assim, o tamanho da região crítica é exactamente a probabilidade de cometer
o erro tipo I . Essa probabilidade é também chamada de nível de significância
do teste. O nível de significância do teste ( ) é, portanto, a probabilidade com
que desejamos correr o risco de cometer o erro tipo I, ou seja, em % dos casos
de rejeição de H 0 , estaremos tomando decisão errada.
σ 2 (=625 g2 )
N [ μ(=500 ) ; ]
n (=50 ) Ou seja, N (500 g ; 12,5 g2 ) . Assim,
2
P(erro I )=P [ X̄ ≥ x̄ c / X̄ : N (500 g ; 12, 5 g )]=5 %
x̄ c− μ 0 x̄ c−500
P[ Z≥
σ
]=P[ Z≥
3,5
]=5 % x̄ c −500
=1 , 65
√n 3,5
17
Então, RC = { X̄ R/ X̄ 505,78 g} e a regra de decisão é:“se x̄ a RC, rejeita-se H0
e a conclusão é que a ração B é superior ao de A; se, não se rejeita H0, e a conclusão é que
as rações são estatisticamente iguais”.
Convém observar que a RC é sempre construída usando os valores hipotéticos por H 0 ou seja,
sob a hipótese H0 ser verdadeira.
505 ,78−510
= P [Z < 3,5 ] = P [Z <-1,21] = 11,31 %
Há uma relação inversa entre e, ou seja, se a probabilidade de um tipo de erro é reduzida,
aquela do outro tipo é aumentada (Verifique na Figura 1). No caso da escolha de um valor
para
x̄ c , por exemplo, 505kg (o ponto médio entre 500 e 510kg), podem-se reduzir as
probabilidades de ambos os tipos de erros, aumentando o tamanho da amostra (n). Este
resultado também pode ser facilmente verificado a partir da Figura 1, considerando que, da
x̄ c−μ
z c= σ
transformação para a normal reduzida, √n .
A probabilidade com que o teste de significância, com fixado, rejeita H0, quando o particular
valor alternativo do parâmetro é verdadeiro, é chamada poder do teste. O poder do teste é um
menos a probabilidade do erro tipo II ou seja, (1 -). No exemplo, o poder do teste é: 1 - = 1
– 0,1131 = 0,8869 (88,7%).
Frequentemente, no entanto, não são especificados valores fixos para o parâmetro em H1.
Então, sua caracterização dependerá do grau de conhecimento que se tem do problema. A
alternativa mais geral é:
sustentada se a média da amostra for muito grande ou muito pequena. Então, a estrutura
apropriada da região de rejeição ou crítica (RC) é:
18
“Rejeita-se H0se
X̄ ≤ x̄ c 1 ou X̄≥ x̄ c 2 ”
/2 /2
x c1 0 x c2
RC RC
Com esta regra de decisão, não podemos encontrar , consequentemente, não podemos controlar o
erro tipo II, pois o valor do parâmetro sob a hipótese alternativa não é especificado. Voltando ao
problema proposto, e testando:
x̄
P (erro I) = P[ X̄ c 1 ou X̄ x̄ c 2 / X̄ : N (500 g, 12,3 g2)] = 5%
x̄ c 1 −500
−1 , 96= x̄ c1 =493 , 1 g
3,5
x̄ c 2 −500
1 ,96= x̄ c 2 =506 , 9 g
3,5
Assim,
RC = { X̄ R/ X̄ 493,1g ou X̄ 506,9 g}
19
Exemplo 2. No caso da suinicultura, considerando a amostra de 50 leitões (n = 50),
aos quais foi fornecida a nova ração (B), deve-se ou não adoptar essa ração,
admitindo-se como resultado um ganho em peso médio diário de 504 g (
H0: = 500g
H1: = 510g
x̄ a =504 g n = 50 = 0,05 = 25 g
x̄ c−μ 0 x̄ c −500
z c=
σ /√n 1,65 = 25/ √ 50 x̄ c = 505,78 g
RC = { X̄ 505,78 g}
Conclusão:
Como
x̄ a RC, não se rejeita H ao nível de significância de 5%, ou seja, a ração B não é
0
X̄−μ0
Z=
σ /√n , Obtendo-se as regiões críticas na distribuição N (0,1).
Que será aplicada daqui em diante em testes de hipóteses. Assim procedendo na resolução do
Exemplo 2, o valor observado do estatístico teste (Zobs) é dado por:
20
x̄ a −μ 0 504−500
z obs=
σ /√ n = 25/ √ 50 = 1,14
= 5%
Z
0 zc = 1,65
RC
RC = {Z 1,65}
Nos itens anteriores foram introduzidos os conceitos básicos e as terminologias que são
aplicados em testes de hipóteses. Um resumo dos principais passos que podem ser usados
sistematicamente para qualquer teste de hipóteses apresentaremos aqui:
(b) Use a teoria estatística e as informações disponíveis para decidir qual estatística
(estimador) será usada para testar a hipótese H 0, obtendo-se suas propriedades
(distribuição, estimativa, erro padrão);
(c) Fixe a probabilidade de cometer o erro tipo I e use este valor para construir a RC
(região crítica). Lembrando-se sempre que a RC é construída para a estatística definida
no passo (a), usando os valores hipotéticos por H0;
(e) Se o valor da estatística calculado com os dados da amostra não pertencer à RC, não
rejeite H0; caso contrário, rejeite H0.
21
Descreveremos agora, de modo sucinto, os passos básicos definidos na secção anterior, para
testar a hipótese de que a média de uma população é igual a um número fixado 0, supondo
que a população tem distribuição normal, cuja variância (2), embora seja uma condição
irreal, é conhecida.
H0: = 0
H1: = 1 (1>0)
x
x x
0
x 0
Com fixado,
x̄ c−μ 0
z c=
RC = { X̄ R/ X̄ x̄ c}, onde: x̄ c é obtido a partir de σ /√n ,
Equivalentemente,
X̄−μ0
Z=
RC = {Z zc}, onde: σ /√n
H0: = 0
H1: = 1 (1<0)
22
-zc Z
RC = {Z - zc }
(i) H0: = 0
(ii) H0: = 0
(iii) H0: = 0
H1: 0
/2
1- /2
-zc zc Z
RC = {Z zc ou Z - zc}
Solução:
H0: = 500g
x̄ a =504 g = 5%
H1: 500 g
23
x̄ a −μ 0 504−500
z obs=
RC = {Z 1,96 ou Z - 1,96} σ /√ n = 25/ √ 50 = 1,14
Conclusão:
Como zobs RC, não se rejeita H0 ao nível de 5%, ou seja, a ração B não é estatisticamente
melhor do que A.
- Comparar, como descrito anteriormente, o valor da estatística teste com o valor obtido a
partir da distribuição teórica, específica para o teste, para um valor pré-fixado do nível de
significância (α ) ;
- Quantificar a chance do que foi observado ou resultados mais extremos, sob a hipótese nula
(H0) ser verdadeira. Essa opção baseia-se na probabilidade de ocorrência de valores iguais ou
superiores ao assumido pela estatística teste, dado que a hipótese H0 é verdadeira. Este número
é chamado de probabilidade de significância ou valor-p e frequentemente é indicado apenas
por p.
Obs. Valor-p e nível de significância (α ) não são sinónimos. O valor-p é sempre obtido de
uma amostra, enquanto o nível de significância é geralmente fixado antes da colecta dos
dados.
Definição: valor-p, também denotado como nível descritivo do teste, é o nome que se dá à
probabilidade de se observar um resultado tão ou mais extremo que o da amostra, supondo
que a hipótese nula seja verdadeira. No caso de um teste de hipóteses no qual o valor da
estatística teste é Zobs, o valor-p é dado por:
P = P(Z Zobs|H0).
Em outras palavras, o valor-p corresponde ao menor nível de significância que pode ser
assumido para rejeitar a hipótese nula. Dizemos então que há significância estatística quando
24
Para exemplificar a definição de valor-p, consideremos primeiro o caso de um teste de
hipóteses monocaudal para a média. Vide Exemplo 2, onde α=0,05 e Zobs = 1,14. Assim,
Portanto, podemos concluir que, para qualquer nível de significância maior que 0,12714,
temos evidências para rejeitar a hipótese nula. Observe que o valor-p é maior que o nível de
significância proposto ( p >α ) , assim como concluído, nós não rejeitamos a hipótese nula
(H0: = 500g). Além disso, quanto maior (ou menor) for o valor-p, mais “próximo” (ou
“distante”) estamos da hipótese nula (H0). Do que se deduz que o valor-p tem mais
informações sobre a evidência contra hipótese H 0 e deste modo o experimentador tem mais
informações para decidir sobre ela, com o nível de significância apropriado. Ao contrário, se o
valor-p for menor que o nível de significância proposto ( p <α ) , rejeita-se H0.
Considerando agora o teste para a média como bicaudal (vide Exemplo 3), segue que o valor-
p é dado por:
Donde podemos concluir que, para qualquer nível de significância menor que 0,2542, temos
evidências, como no caso do exemplo, para não rejeitar a hipótese nula.
Normalmente considera-se um valor-p de 0,05 como o patamar para avaliar a hipótese nula (H 0). Se o
valor-p for inferior a 0,05 podemos rejeitar H0. Em caso contrário, não temos evidência que nos
permita rejeitá-la (o que não significa automaticamente que seja verdadeira). Em situações de maior
exigência é usado um valor-p inferior a 0,05.
Na maioria dos softwares, a significância estatística é expressa pelo nível descritivo (valor-p).
Considere uma população e uma hipótese sobre uma proporção p dessa população:
25
H0 : p = p0
p^ − p
Z=
√ p(1− p )/n ~ N(0,1)
Sob H0 verdadeira,
p^ − p0
Z=
√ p0 (1− p0 )/ n ~ N(0,1)
^p −p 0
z obs=
√ p 0( 1− p 0)/ n ~ N (0,1)
Exemplo 4. Um laboratório de vacinas contra febre-amarela reivindicou que ela imuniza 90%
da população. Em uma amostra de 200 pessoas, nos quais foram aplicados a vacina, 160
foram imunizados. Verificar se a declaração do fabricante é verdadeira ao nível de 5%.
Solução:
26
H0: p = 0,90 (p0)
H1: p <0,90
160
^p=
n = 200 200 = 0,80 = 0,05
^p −p 0 0, 80−0, 90
z obs=
√ p 0( 1− p 0)/ n = √(0,90.0, 10)/200 = - 4,72
RC = {Z -1,65}
Decisão:
Conclusão:
Hipóteses
H0: = 0
Estatística teste: Neste caso, a exemplo do que foi feito na construção de intervalos de
confiança, a estatística a ser usada para testar a hipótese H0 é:
X̄−μ0
t= s/ √ n
27
Ou
RC : |t n−1|>tα /2 , n−1 .
Os valores de t/2, n-1 podem ser obtidos na Tabela 4, apresentada no capítulo anterior.
Resultado da amostra: Colhida uma amostra aleatória de tamanho n, calculada sua média
x̄ a −μ0
tobs =
s a / √n
Análise do resultado: Se tobs RC, rejeita-se H0; caso contrário, não se rejeita
Se n for grande (n 30), x̄ , como já visto, pode ser tratada como uma variável
σ2
N(μ, )
aproximadamente normal n , em virtude da aplicação do teorema limite central.
Além disso, pode ser substituído por s sem afectar consideravelmente a distribuição. Assim,
um teste aproximado de H0: = 0 pode ser executado usando-se a estatística Z, consultando a
tabela normal para a região de rejeição.
Exemplo 5. As especificações de uma dada droga veterinária exigem 23,2g de álcool etílico.
Uma amostra de 10 análises do produto apresentou um teor médio de álcool de 23,5g com
desvio padrão de 0,24g. Pode-se concluir ao nível de significância de 1% que o produto satisfaz
as condições exigidas ( 23,2g).
Solução:
H0: = 23,2g
H1: 23,2g
= 0,01
x̄ a =23 ,5 g s = 0,24 n = 10
a
28
x̄ a−μ 0 23 , 5 g−23 ,2 g
t obs= = 0 ,24
=3 , 95
sa
√10
√n
Conclusão: como tobs RC, rejeita-se H0 ao nível de 1%, ou seja, o teste indica que o produto
não satisfaz as condições exigidas.
Se a variabilidade entre as médias dos grupos for muito maior que a variabilidade dentro dos
grupos teremos que supor, que as médias dos grupos não são iguais. Logo a comparação das
variâncias são realizadas por meio da razão das variâncias que segue a distribuição F.
Variação ENTRE
E variação DENTRO
29
OU
t r
Variação Total = SQtotal =∑ ❑ ∑ ( Yij−Y ) ²=Y −¿ 2
∑ ¿
i=1 j=1 ¿
(∑ Y ) ² ¿¿
i
Variação Entre = SQTratamento = ∑ Trj² - C
i=1
Em que:
T= Total do tratamento i
∑ ❑∑ Y ᵢ
C= factor de correcção = ( t.r ) ²
30
Como já sabemos, a variação Total é igual a variação ENTRE mais variação
DENTRO. Portanto, o cálculo da variação DENTRO (efeito do acaso) ou a soma
de quadrado DENTRO é obtida por meio de seguinte diferença:
O valor de soma de quadrado DENTRO é obtido por diferença, devido a maior dificuldade da
sua obtenção, principalmente em esquemas de análise de variância mais complexos.
Este processo foi desenvolvido por Fisher com o objectivo de repetir a variância de uma
variável aleatória em partes ortogonais (independentes) correspondentes a tratamentos (factor)
e erros experimental (variações do acaso).
SQTrat
QMTrat =
G. L .Trat
SQResí duo
QM Resíduo =
G. LRes í duo
31
2.13 Graus de Liberdade
A forma pela qual obtemos os graus de liberdade é representada nas seguintes tabelas:
Exemplos
Vamos, exemplificar para melhor entendermos esta análise, com o objectivo de comparar um
determinado índice inflacionário em três regiões metropolitanas em um período de cinco
meses, consideramos os seguintes resultados.
Verificamos por meio de uma análise de variância, se as médias são estatisticamente iguais ou
não.
Regiões metropolitanas
Meses R1 R2 R3
H₁ : pelo menos uma das regiões difere das demais em média. As repetições, ou seja, os meses
são independentes, pois são considerados apenas repetições.
OBS: O teste F para análise de variância será sempre um teste unilateral a direita, em função
de tipo de hipótese alternativa.
i
T²
SQENTRE ¿ ∑ −C
i=1 rȷ
1
SQENTRE = ( 9,3 2+5,8 2+8,7 2 )− 23,8 ² =39,164−37,7626=1,401
( )
5 15
Y
SQ = ∑ Y ²−¿ (∑ )
rt
²¿
33
FV G.L SQ QM F Significância
Total 14 1,9173
Podemos verificar o quanto duas variáveis estão relacionada entre si seguindo uma função do
I grau (relação linear), podemos calcular um parâmetro que indica correlação linear entre duas
variáveis
Exemplo
xᵢ 0 1 2 3 4 5
yᵢ 0 3 6 9 12 15
34
Procedimento para o calculo de correlação.
xᵢ yᵢ xᵢ² yᵢ² xᵢ . yᵢ
0 0 ( 0 )² = 0 ( 0 )² = 0 (0).(0)=0
1 3 (1 )² = 1 ( 3 )² =9 ( 1 ) .( 3 ) = 3
2 6 ( 2)² =4 ( 6 )² = 36 ( 2 ) . ( 6 ) = 12
3 9 ( 3 )² = 9 ( 9 )² = 81 ( 3 ) . ( 9 ) = 27
4 12 ( 4 )² = 16 ( 12)² = 144 ( 4 ) . ( 12) =
48
5 15 ( 5 )² = 25 ( 15 )² = 225 ( 5 ) . ( 15 ) =
75
∑ x ᵢ=15 ∑ y ᵢ=45 ∑ x ᵢ²=55 ∑ y ᵢ ²=495 ∑ x ᵢ. y ᵢ=165
∑ x ᵢ=0+1+2+3+ 4+5+ ¿ 15
∑ y ᵢ=0+ 3+6+9+ 12+15=45
∑ x ᵢ²=0+1+ 4+ 9+16+25=55
∑ y ᵢ2=0+ 9+36+81+144 +225=495
∑ x ᵢ. y ᵢ=0+3+12+27+ 48+75=165
A medida para o grau de correlação entre duas variáveis e o coeficiente de correlação de
Pearson (também conhecido como correlação linear)
r = n . ∑ x ᵢ− y ᵢ−¿ ¿ ¿
6,165−( 15 ) .( 45)
r=
√¿ ¿ ¿
Um pesquisador indagou 7 pessoas (todas com 40 anos de idade) que aguardavam o trem em
uma paragem do metro as seguintes questões são consideradas:
35
O número de livros que já leram (yᵢ)
xᵢ 3 5 7 9 10 14 16
yᵢ 1 2 3 5 7 10 13
Obtendo assim:
Nota: Salientamos ainda que, quando (X) ¨ aumenta ¨(y) também aumenta, a dispersão
dos dados. Lembra-nos o comportamento de uma recta embora os dados não seguem
perfeitamente a lógica de uma recta.
A correlação não conclui a respeito de relação de causa e efeito entre duas variáveis, ou seja
um elevado grau de correlação entre dois conjuntos de dados, isso não quer dizer que um seja
causa e o outro seja o efeito.
36
A configuração geométrica do diagrama de dispersão pode estar associada a uma linha recta
(correlação linear), uma linha curva (correlação curvilínea) ou, ainda ter os pontos dispersos
de maneira que não definam nenhuma configuração linear, nesta ultima situação, não há
correlação.
37
cada elemento de amostra. A amostra consistirá então de pares de valores, um valor para cada
uma das variáveis designadas por (Xᵢ, Yᵢ).
O problema consiste em estabelecer a função matemática que melhor exprime a relação entre
as duas variáveis. Simbolicamente a relação é expressa por uma equação de regressão e
graficamente por uma curva de regressão.
Constitui uma tentativa de estabelecer uma equação matemática linear que descreva o
relacionamento entre duas variáveis (uma dependente a outra independente). A equação de
regressão tem por finalidade Estimar valores de uma variável, com base em valores
conhecidos da outra.
A correlação linear é uma correlação entre duas variáveis, cujo gráfico aproxima-se de uma
linha.
O gráfico cartesiano que representa essa linha é denominado diagrama de dispersão. Para
poder avaliar melhor a correlação entre as variáveis, interessa obter a equação de recta, “essa
recta é chamada de recta de regressão e a equação que a representa é a equação de regressão”.
O diagrama de dispersão é dado pela expressão:
Y = aX + b →Y = Ax + b
38
Y → Y ¨ é a variável dependente, na verdade correlacionada com a variável X e sobre a qual
se obtém um valor estimado.
Esse tipo de notação, de Y para Y, caracteriza que não se trata de uma relação funcional para
a determinação da recta, e sim de uma relação estatística, em que a distribuição está baseada
em estimativa de dados colhidos por amostragem.
Sendo a e b os parâmetros de equações das rectas, esses podem ser calculados por meio das
formulas:
a =n ∑ x ᵢ ²−¿ ¿ ¿
b = y – ax
Sabemos que:
y=
∑ yᵢ
n
x=
∑ xᵢ
n
Exemplo
Determine a equação da recta de regressão, que trata de uma pesquisa entre o peso total dos
resíduos descartados por dia, com o peso do papel contido nesse resíduo.
Para obtermos a equação da recta de regressão, elabora-se inicialmente uma tabela contendo
nas colunas as variáveis dependentes (yᵢ), as independentes (xᵢ) e os produtos (xᵢ.yᵢ) e xᵢ²
a=
39
Cálculo para o parâmetro de B da equação da recta
75,24 288,21
y= =7,53 e x= =28,82
10 10
y = 0,213x+1,39
Para nós traçarmos uma recta, basta que se conheça dois de seus pontos. Assim, com base na
equação da recta podemos estabelecer dois pontos para X e Y.
40
REGRESSÃO¨ dando suporte desta forma aos conceitos de correlação e regressão, sendo
desta forma indissociáveis.
Exemplos
xᵢ xᵢ -x (xᵢ - x)²
∑ x ᵢ=15
X=
∑ x ᵢ = 15 =2,5
n 6
Sᵢ =
√ ∑ ( x ᵢ−x ) ²
ᵢ=1
n−1
=
√ 17,50
5
=1.871
41
SQRegress ã o 1 QMRegress çã o
= ,
SQResidou n−2 QMResidou
Segue-se uma distribuição F de Snedecor com a e (n-2) grau de liberdade. Esse facto nos
permite empregar a distribuição F de Snedecor para testar a significância de regressão, através
de chamada análise de variância, sintetizada no quadrado abaixo:
Análise de Variância
Causas G.L SQ QM F
QMRegr essão QMRegressão
Regressão 1 SQRegressão
1 QMResidou
QMResidou
Residou n-2 SQResidou .....
n−2
Total n-1 SQTotal ..... .....
Exemplo prático
Ex: Vendas (x1000) X Lucros ( x 100 )
Obs. 1 2 3 4 5 6 7 8
Lucros 17 20 21 23 25 24 27 27
Para facilitar os cálculos da recta de regressão, acrescentamos três novas colunas na tabela
dada.
Obs. Venda Xᵢ Lucros Yᵢ Xᵢ² Yᵢ² Xᵢ .Yᵢ²
1 201 17 40401 289 3417
2 225 20 50625 400 4500
3 305 21 93025 441 6405
42
4 380 23 144400 529 8740
5 560 25 313600 625 14000
6 600 24 360000 576 14400
7 685 27 469225 729 18495
8 735 27 540225 729 19845
∑❑ 3691 184 2011501 4318 89802
Yᵢ = 0,0159xᵢ + 15,66
n n n
[
SQ Regressão = a n ∑ x ᵢ y ᵢ−∑ x ᵢ ∑ y ᵢ
i=1 i=1 i=1
]
SQ Regressão =0,0159[8(89802)-(3691)(184)] =624,42
n n
SQ Total = n∑ y ᵢ ²−¿
i=1
(∑ )
i=1
y ²¿
H₀ : β = 0 e H₁ : β‡0
43
n n n
VT = SQ Total =∑ ( y ᵢ− y ) =n ∑ y ᵢ ²−¿
i=1
2
i =1
(∑ )i=1
yᵢ ²¿
n
VNE = ∑ ( y ᵢ− y ᵢ ) ²
i=1
n n n
r² =
( n ∑ xy−∑ x ∑ y ²
i=1 i=1 i=1
) =
COV ᵪᵧ
n n n n S ᵪᵪ . S ᵧᵪ
[ n ∑ x ²−
i=1
( ) ][
∑ x ² n ∑ y ²−
i=1 i=1
(∑ ) ]
i=1
y ²
2.17.1 Definição
Séries Temporais são um conjunto de observações sobre uma variável, ordenado no tempo, e
registado em períodos regulares. Podemos enumerar os seguintes exemplos de séries
temporais:
O problema fundamental é utilizar um modelo que permite incluir os vários tipos de padrões,
possibilitando realizar previsões. O ponto de partida é realizar a decomposição da série em
padrões
44
1. Tendência – movimento subjacente de longo prazo que caracteriza a evolução do nível
médio da série.
2. Componente Sazonal – movimentos estritamente periódicos, ocorrendo em séries de
dados relativos a períodos infra-anuais, decorrentes das características meteorológicas
ou de factores culturais e institucionais.
3. Componente cíclica – movimentos oscilatórios de tipo recorrente, mas sem
periodicidade específica, ligados à evolução geral da actividade económica. Apesar de
historicamente reconhecíveis, em geral não apresentam regularidade suficiente para
serem deterministicamente previsíveis.
4. Componente errática/ irregular – movimentos aleatórios decorrentes de uma
multiplicidade de factores e de natureza imprevisível.
Nem todas as séries apresentam a totalidade de componentes, por definição, as séries de dados
anuais não apresentam componente sazonal. Mas também nem todas as séries de dados de
período infra-anual apresentam componente sazonal (a presença de uma componente sazonal
deve ser testada)
Na maior parte dos casos quando os objectivos são a previsão de curto prazo, não é habitual
separar a componente cíclica da tendência. Tal distinção é sempre artificial, integrando os
dois efeitos na tendência – ciclo.
A desconstrução conceptual de uma série nas suas componentes implica que consideremos
alguns modelos de articulação entre as componentes. Os modelos mais utilizados são:
Modelo Aditivo:
Yᵼ= aᵼ+sᵼ+Ɛᵼ
Com Ɛₜ
L
❑ ❑
∑ sₜ ₊ i=L
i=1
45
Modelo Multiplicativo
∑ s ₜ +¿❑ ᵢ=L¿
I=1
Avaliar o seu comportamento para utiliza-lo em provisões, removê-la da série para facilitar a
visualização das outras componentes, ou ainda identificar o nível da série (o valor ou faixa
típica de valores que a variável pode assumir, se não for observado comportamento crescente
ou decrescente no longo prazo). A obtenção da tendência pode ser feita de 3 formas:
3. CONCLUSÃO
46
dados numéricos para se tornar "O estudo de como se chegar a conclusão sobre uma
população, partindo da observação de partes dessa população (amostra)".
É uma parte da matemática aplicada que fornece métodos para colecta, organização,
descrição, análise e interpretação de dados e para a utilização dos mesmos na tomada de
decisões.
4. Bibliografia
CRESPO, A.. A. Estatística fácil. 18a ed. São Paulo: Saraiva: 2002.
47