RESUMÃO
RESUMÃO
RESUMÃO
Ementa
Descrição
Conteúdo Programático
1. Situando a Temática
A Estatística é considerada por alguns autores como Ciência no sentido do estudo de uma população.
É considerada como método quando utilizada como instrumento por outra Ciência.
A palavra estatística frequentemente está associada à imagem de aglomeração de números, dispostos
em uma imensa variedade de tabelas e gráficos, representando informações tão diversas quanto nascimentos,
mortes, taxas, populações, rendimentos, débitos, créditos, etc. Isto é devido ao uso comum da palavra
estatística como sinônimo de dados, como, por exemplo, quando falamos das estatísticas de uma eleição,
estatísticas da saúde, estatísticas de acidente de trânsito ou as estatísticas de acidentes de trabalho.
No sentido moderno da palavra, estatística lida com o desenvolvimento e aplicação de métodos para
coletar, organizar, analisar e interpretar dados de tal modo que a segurança das conclusões baseada nos dados
pode ser avaliada objetivamente por meio de proposições probabilísticas.
O propósito da estatística não é exclusivo de qualquer ciência isolada. Ao contrário, a estatística
fornece um conjunto de métodos úteis em toda área científica onde haja a necessidade de se coletar,
organizar, analisar e interpretar dados. Estes métodos podem ser usados tão eficazmente em farmacologia
como em engenharia, em ciências sociais ou em física.
2. Problematizando a Temática
3. Conhecendo a Temática
A estatística teve acelerado seu desenvolvimento a partir do século XVII, através dos estudos de
BERNOULLI, FERMAT, PASCAL, LAPLACE, GAUSS, GALTON, PEARSON, FISHER, POISSON e
outros que estabeleceram suas características essenciais.
A Estatística tem como OBJETIVO o estudo dos fenômenos coletivos.
Objetivando o estudo quantitativo e qualitativo dos dados (ou informações), obtidos nos vários campos
da atividade científica, a Estatística manipula dois conjuntos de dados fundamentais: a "população" e a
"amostra".
Exemplo 1.1:
No fenômeno coletivo eleição para reitor da UFPB, a população é o conjunto de todos os eleitores
habilitados na Universidade. Um parâmetro é a proporção de votos do candidato A. Uma amostra pode ser
um grupo de 300 eleitores selecionados em toda a UFPB. Um estimador é a proporção de votos do
candidato A obtida na amostra. O valor resultante do estimador, a proporção amostral, é a estimativa.
Dados Estatísticos
Normalmente, no trabalho estatístico, o pesquisador se vê obrigado a lidar com grande quantidade de
valores numéricos resultantes de um censo ou de uma amostragem. Estes valores numéricos são chamados
dados estatísticos.
No sentido da disciplina, a Estatística ensina métodos racionais para a obtenção de informações a
respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permitir
tomada de decisões, através dos dados estatísticos observados. Desta forma, a estatística pode ser dividida
em duas áreas: Estatística Descritiva e Estatística Inferencial.
Estatística Descritiva
É a parte da Estatística que tem por objetivo descrever os dados observados. A Estatística Descritiva,
na sua função de descrição dos dados, tem as seguintes atribuições:
• A obtenção dos dados estatísticos;
• A organização dos dados;
• A redução dos dados;
• A representação dos dados e
• A obtenção de algumas informações que auxiliam a descrição do fenômeno observado.
3
A obtenção ou coleta dos dados é normalmente feita através de um questionário ou de observação direta de
uma população ou amostra. A organização dos dados consiste na ordenação e crítica quanto à correção dos
valores observados, falhas humanas, omissões, abandono de dados duvidosos, etc. A redução dos dados
envolve o entendimento e a compreensão de grande quantidade de dados através de simples leitura de seus
valores individuais é uma tarefa extremamente árdua e difícil mesmo para o mais experimentado
pesquisador. A representação dos dados compreende de técnicas para uma melhor visualização dos dados
estatísticos, facilitando sua compreensão. Por exemplo, os gráficos, quando bem representativos, tornam-se
importantes instrumentos de trabalho. É ainda atributo da Estatística Descritiva a obtenção de algumas
informações que sumarizam os dados, facilitando a descrição dos fenômenos observados.
De modo geral, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis
discretas. Designamos estas variáveis por letras latinas, em geral, as últimas: X, Y, Z.
Em geral, uma mesma população pode ser caracterizada por mais de um tipo de variável. Assim, os inscritos
num vestibular, por exemplo, podem ser contados, medidos ou pesados, podem ser agrupados segundo o
sexo ou área de estudo e podem ainda ser classificados segundo as notas obtidas nas provas prestadas.
3.2.1 Planejamento
4
- "quem", "o que", "sempre", "por que", "para que", "para quando".
Imaginemos, por exemplo, que o Governo do Estado tenha necessidade de obter informações acerca
do desempenho em Matemática dos estudantes matriculados na rede pública de ensino.
O primeiro trabalho da equipe encarregada da pesquisa, será evidentemente, o de obter respostas para
aquelas perguntas. Seriam então:
1.
Por via direta - quando feita sobre elementos informativos de registro obrigatório (p. ex.: fichas no
serviço de ambulatório, nascimentos, casamentos, óbitos, matrículas de alunos etc.) ou, ainda, quando os
dados são coletados pelo próprio pesquisador através de entrevistas ou questionários. A coleta direta de
dados, com relação ao fator tempo, pode ser classificada em:
1.1.
Contínua - também denominada registro, é feita continuamente, tal como a de nascimentos e óbitos,
etc. Também são do tipo contínuo o registro de certas doenças, como câncer, hanseníase, tuberculose e
também algumas doenças infecciosas agudas com finalidade de controle.
1.2.
Periódica - quando feita em intervalos constantes de tempo, como os censos(de 10 em 10 anos), os
balanços de uma farmácia, etc.;
1.3.
Ocasional - quando feita extemporaneamente, a fim de atender a uma conjuntura ou a uma
emergência, como no caso de epidemias que assolam ou dizimam seres humanos
5
2.
Por via indireta - quando é inferida de elementos conhecidos (coleta direta) e/ou conhecimento de
outros fenômenos relacionados com o fenômeno estudado. Como exemplo, podemos citar a pesquisa sobre a
mortalidade infantil, que é feita através de dados colhidos via coleta direta.
Os dados colhidos por qualquer via ou forma e não previamente organizados são chamados de dados
brutos. Esses dados brutos, antes de serem submetidos ao processamento estatístico propriamente dito,
devem ser "criticados", visando eliminar valores impróprios e erros grosseiros que possam interferir nos
resultados finais do estudo.
A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má
interpretação das perguntas que lhe foram feitas; é interna quando se observa o material constituído pelos
dados coletados. É o caso, por exemplo, da verificação de somas de valores anotados.
Uma vez assegurado que os dados brutos são consistentes, devemos submetê-los ao processamento
adequado aos fins pretendidos. A apuração ou processamento dos dados pode ser manual, eletromecânica
ou eletrônica. Os processos e métodos estatísticos a que um conjunto de dados pode ser submetido serão
nosso objeto de estudo nas seções seguintes.
Por mais diversa que seja a finalidade que se tenha em vista, os dados devem ser apresentados sob
forma adequada (tabelas ou gráficos), tornando mais fácil o exame daquilo que está sendo objeto de
tratamento estatístico.
No caso particular da estatística descritiva, o objetivo do estudo se limita, na maioria dos casos, à
simples apresentação dos dados, assim entendida a exposição organizada e resumida das informações
coletadas através de tabelas ou quadros, bem como dos gráficos resultantes.
A Estatística Descritiva é a parte da estatística que se ocupa com a coleta, crítica, ordenação e
apresentação das informações fundamentais à caracterização e descrição do fenômeno que se deseja estudar
e interpretar. Aqui se trabalhará com alguma característica notável do objeto de estudo, a qual terá de ser
coletada de alguma forma e em algum lugar. Na coleta das informações deve-se considerar,
preferencialmente, toda a população; caso a obtenção de dados sobre toda a população (censo) seja difícil ou
até mesmo impossível (dado o grande número de elementos ou a sua dispersão no tempo ou no espaço), o
estudo poderá ser feito com base numa amostra representativa.
Os dados numéricos, após coletados, são colocados em série e apresentados em tabelas ou quadros.
Quando se estuda uma variável (qualitativa ou quantitativa), o maior interesse do pesquisador é conhecer a
distribuição dessa variável através das possíveis realizações (valores) da mesma. Iremos, pois, ver uma
maneira de se dispor um conjunto de valores, de modo a se ter uma boa ideia global sobre esses valores, ou
seja, de sua distribuição.
6
• Distribuição de Frequências por Valores (variável qualitativa ou quantitativa discreta): É
construída considerando-se todos os diferentes valores ou categorias, levando em consideração suas
respectivas repetições.
• Distribuição de Frequências por Intervalos ou Classes (variável quantitativa):
Constroem-se classes de valores, levando em consideração o número de valores que pertencem a cada classe
e quando a variabilidade dos dados é grande. A construção de tabelas de frequências para variáveis contínuas
necessita de certos cuidados.
Exemplo 1.1 - A tabela 01 apresenta a distribuição de frequência da variável PROCEDÊNCIA, a partir dos
dados do Quadro 1
Quadro 1- Informações sobre sexo, curso, idade (anos), procedência, renda familiar, número de disciplinas
matriculado(a), peso (kg) e altura (cm) de 46 alunos matriculados na disciplina CÁLCULO
DAS PROBABILIDADE E ESTATÍSTICA (CPE) - período 97.1 – turma 01
7
25 Masc Matem. 18 Interior Baixa 6 67,5 175
26 Masc Matem. 19 Outra Região Média 6 61 160
27 Masc Matem. 17 Interior Não Info. 6 68 169
28 Masc Matem. 21 Interior Média 5 75 178
29 Fem Matem. 18 Interior Média 5 58 154
30 Masc Matem. 21 Outra Região Média 6 65 165
31 Masc Matem. 21 Capital Média 6 67 178
32 Fem Matem. 18 Capital Alta 6 47 167
33 Masc Matem. 21 Capital Média 5 69 179
34 Fem Matem. 19 Outra Região Média 6 68 170
35 Masc Matem. 18 Capital Média 6 53 166
36 Fem Matem. 17 Capital Média 6 51 153
37 Fem Matem. 19 Capital Média 6 63 168
38 Masc Matem. 19 Capital Média 6 60 166
39 Masc Matem. 18 Capital Média 6 72 174
40 Masc Matem. 21 Interior Média 5 54 163
41 Masc Matem. 18 Interior Baixa 6 60 165
42 Masc Matem. 19 Interior Média 6 75 181
43 Fem Matem. 18 Capital Média 6 52 160
44 Masc Matem. 18 Outra Região Média 6 100 175
45 Masc Matem. 22 Interior Média 6 80 179
46 Masc Matem. 21 Interior Média 6 50 166
FONTE: Questionário aplicado - aula 24/03/97
Regras Básicas para Elaboração de uma Distribuição de Frequências por Classes ou Intervalos
(Dados Agrupados em Intervalos)
1. Colete n dados referentes à variável cuja distribuição será analisada. É aconselhável que n
seja superior a 50 para que possa ser obtido um padrão representativo da distribuição.
2. Efetua-se um ROL ESTATÍSTICO (ordenação crescente ou decrescente de grandeza) nos
Dados Brutos (aqueles ainda não organizados numericamente).
3. Identifique o menor valor ( X min ) e o maior valor ( X max ) da amostra.
4. Calcule a AMPLITUDE TOTAL dos dados ( AT ) :
AT = X max − X min
8
5. Escolhe-se convenientemente o número de classes k (inteiro); 5 ≤ k ≤ 15 , onde podemos
tomar:
n ou k ≅ 1 + 3,3 log( n ) , se n ≥ 50
k≅
6. Calcule o comprimento de cada classe dos dados ( h ) :
AT
h=
k
É aconselhável construir classes de mesma amplitude.
7. Efetua-se o AGRUPAMENTO EM CLASSES, calculando os limites de cada classe:
1ª Classe:
Limite Inferior: LI 1 = X min Limite Superior: LS1 = LI 1 + h
2ª Classe:
Limite Inferior: LI 2 = LS1 Limite Superior: LS 2 = LI 2 + h
⋮
i-ésima Classe:
Limite Inferior: LI i = LS i − 1 Limite Superior: LS i = LI i + h
Continue estes cálculos até que seja obtido um intervalo que contenha o maior valor da amostra
( X max ) entre seus limites.
8. Construa a tabela de distribuição de frequências.
Uma tabela de distribuição de frequências (por classes ou valores), deverá conter as seguintes colunas:
• Número de ordem de cada classe (i) ou valor;
• Limites de cada classe (no caso da distribuição de frequências por classes)
o As classes são fechadas à esquerda e abertas à direita.
o As observações iguais ao limite superior da classe i-1, o qual é igual ao limite inferior da
classe i, pertencem à classe i. NOTAÇÃO: |------.
LI i + LS i
• Ponto Médio pmi da i-ésima classe é denotado por: pmi =
2
• Tabulação: contagem dos dados pertencentes a cada classe ou a quantidade de vezes que o
valor se repete.
• Frequência simples ou absoluta ( Fi ) da i-ésima classe ou do i-ésimo valor
Fi = número de observações da i-ésima classe (ou do i-ésimo valor)
k
Observe que: ∑
i= 1
Fi = n
Multiplicando cada f i por 100 obtém-se o percentual da classe (ou valor) correspondente, isto é,
f i % = f i × 100 .
• Existem outros tipos de frequências que também podem ser calculadas:
• Frequência Simples Acumulada (do tipo “abaixo de”): frequência simples acumulada da i-
ésima classe ou valor
Faci = F1 + F2 + ⋯ + Fi
• Frequência Relativa Acumulada: frequência relativa acumulada da i-ésima classe ou valor.
faci = f 1 + f 2 + ⋯ + f i .
9
Normas Técnicas para Apresentação Tabular
De um modo geral tem-se a destacar em uma tabela (disposição escrita que se obtém referindo-se a
uma coleção de dados numéricos a uma determinada ordem de classificação) os seguintes elementos
essenciais (obrigatórios) e complementares (não-obrigatórios):
• Elementos essenciais:
• Título: Indicação que precede a tabela e que contém a designação do fato observado, o local e a
época em que foi registrado.
• Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas.
• Coluna Indicadora: Parte da tabela que especifica o conteúdo das linhas.
• Corpo da tabela: Conjunto de colunas e linhas que contêm as informações sobre a variável em
estudo.
• Fonte: Entidade responsável pela informação.
• Elementos complementares:
o Notas: Informações de natureza geral destinadas a conceituar ou esclarecer o conteúdo das
tabelas ou a indicar a metodologia adotada no levantamento ou na elaboração dos dados.
o Chamadas: Informações de natureza específica sobre determinada parte da tabela, destinada a
conceituar ou a esclarecer dados.
o Sinais Convencionais:Nenhuma casa da tabela deve ficar em branco, apresentando sempre um
símbolo, a saber:
– (hífen): quando o valor numérico é nulo;
(reticência): quando não se dispõe de dado;
? (ponto de interrogação): quando há dúvidas quanto à exatidão do valor numérico;
0,0: quando o valor numérico é muito pequeno para ser expresso pela unidade utilizada. Se
os valores são expressos em números decimais, acrescenta-se o mesmo número de casas decimais ao valor
zero;
x (letra x): quando o dado for omitido a fim de evitar individualização da informação.
Exemplo 1.3 – Elabore uma tabela de distribuição de frequências (dados agrupados em intervalos) da
variável ALTURA (em cm), dos 46 estudantes de CPE, turma 01 – Período 07.1, usando-se os dados do
Quadro 1.
Solução:
Passo 1: Estabelecer o número de classes: k ≅ 46 ≅ 7
Passo 2: Amplitude Total: AT = 183 − 153 = 30
AT 30
Passo 3: Amplitude das Classes: h= = ≅ 4,3
k 7
Passo 4: Construção da Tabela de Distribuição de Frequências
10
Exemplo 1.4 - Elabore uma tabela de distribuição de frequências (dados agrupados em intervalos) da
variável IDADE (em anos) de 33 estudantes de CPE, conforme Dados Brutos abaixo:
Solução:
Passo 1: Estabelecer o número de classes: k ≅ 33 ≅ 6
Passo 2: Amplitude Total: AT = 36 − 20 = 16
AT 16
Passo 3: Amplitude das Classes: h= = ≅ 2,7
k 6
Passo 4: Construção da Tabela de Distribuição de Frequências
A Tabela 5, a seguir, é um exemplo de como calcular os outros tipos de frequências a partir da Tabela 3
Exemplo 1.5
Solução:
O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é produzir,
no investigador ou no público em geral, uma impressão rápida e viva do fenômeno em estudo..
Para tornarmos possível uma representação gráfica, estabelecemos uma correspondência entre os
termos da série (Tabela) e determinada figura geométrica, de tal modo que cada elemento da série seja
representado por uma figura proporcional.
11
Requisitos
A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos primordiais:
• Simplicidade - indispensável devido à necessidade de levar a uma rápida apreensão do
sentido geral do fenômeno apresentado a fim de não nos perdermos na observação de minúcias de
importância secundária;
• Clareza - o gráfico deve possibilitar uma correta interpretação dos valores
representativos do fenômeno em estudo;
• Veracidade - indispensável qualquer comentário, posto que, se não representa uma
realidade, perde o gráfico sua finalidade.
Variáveis Qualitativas:
Para representarmos as variáveis qualitativas graficamente usamos os gráficos de Barras, Colunas,
Setores ou Linha.
20
15
10
an
e m
N
.Estd
u
0
Capital Interior Outra Região
Procedência
FONTE: Quadro 1
Outra Região
22% Capital
43%
Interior
35%
FONTE: Quadro 1
12
Variáveis Quantitativas
• Discretas:para representarmos as variáveis quantitativas discretas graficamente usamos
gráficos em Barras ou Colunas;
• Contínuas: para representarmos as variáveis quantitativas contínuas graficamente usamos o
Histograma ou o Polígono de Frequências.
Histograma
É a representação gráfica de uma distribuição de frequências de variável quantitativa contínua
(dados agrupados em intervalos) por meio de retângulos justapostos, centrados nos pontos médios das
classes e cujas áreas são proporcionais às frequências das classes.
10
4
ciaA
so
b n
u
q
Fre
2
lt
0
155.15 159.45 163.75 168.05 172.35 176.65 180.95
Altura (cm)
FONTE: Quadro 1
Polígono de Frequência
É a representação gráfica de uma distribuição de frequências de variável quantitativa contínua
(dados agrupados em intervalos) por meio de uma linha poligonal fechada ou polígono, cuja área total é
igual à do histograma.
10
2
ltciaA
so
b n
u
q
Fre
0
150.85 155.15 159.45 163.75 168.05 172.35 176.65 180.95 185.25
Altura (cm)
FONTE: Quadro 1
13
3.4 Medidas Estatísticas
Vimos anteriormente a sintetização dos dados sob a forma de tabelas, gráficos e distribuições de
frequências. Aqui, vamos aprender o cálculo de medidas que possibilitem representar um conjunto de dados
(valores de uma variável quantitativa, isto é, informações numéricas), relativos à observação de determinado
fenômeno de forma reduzida.
Estes índices estatísticos são as MEDIDAS DE POSIÇÃO e, dentre as mais importantes, citamos as
Medidas de Tendência Central, que recebem tal denominação pelo fato dos dados observados tenderem,
em geral, a se concentrar em torno de valores centrais. Dentre as medidas de tendência central, destacamos:
• Média aritmética ou Média;
• Moda;
• Mediana.
As outras medidas de posição são as SEPARATRIZES, que englobam:
• a mediana;
• os quartis;
• os percentis.
∑ xi × Fi k
X = i= 1
ou, simplesmente,
∑ xi × Fi
k
X = i= 1
∑ i= 1
Fi n
onde:
xi é o i-ésimo valor da variável de interesse;
Fi é a frequência absoluta do i-ésimo valor;
n é o tamanho da amostra.
Logo, X = ∑ Xi
=
3 + 7 + 8 + 10 + 11
= 7,8
n 5
14
4
∑ x i × Fi
90
4
X= i= 1
4
=
20
⇒ X = 4,5 e n= ∑ Fi = 20
∑ i= 1
Fi i= 1
∑ pmi × Fi k
X = i= 1
ou, simplesmente,
∑ pmi × Fi
k
X = i= 1
∑
i= 1
Fi n
onde:
pmi é o ponto médio da i-ésima classe;
Fi é a frequência absoluta da i-ésima classe;
n é o tamanho da amostra
É uma medida de tendência central que, por uniformizar os valores de um conjunto de dados, não
representa bem os conjuntos que revelam tendências extremas. Ou seja, é grandemente influenciada pelos
valores extremos (grandes) do conjunto. Além disso, não pode ser calculada para distribuições de
frequências com limites indeterminados (indefinidos).
Propriedades:
∑ (X )
n
1. A soma dos desvios tomados em relação à média é nula, isto é, i − X = 0.
i= 1
2. Somando-se ou subtraindo-se uma constante “c” a todos os valores de uma variável, a média do
conjunto fica aumentada ou diminuída dessa constante, isto é, Yi = X i ± c ⇒ Y = X ± c .
3. Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante “c”, a média
do conjunto fica multiplicada ou dividida por essa constante, isto é, Yi = X i × c ⇒ Y = X × c ou
Xi X
Yi = ⇒ Y= , para c ≠ 0 .
c c
Exemplo 1.13: Utilizando os dados apresentados na Tabela 5, determine a ALTURA MÉDIA dos 33
estudantes de Estatística Vital - 97.1 – turma 06
∑ pmi × Fi
7747,50
Então: X = = = 168,42 cm
i= 1
k
46
∑
i= 1
Fi
15
Moda
Notação: Mo
Dado um conjunto ordenado de valores. A moda é (são) o(s) valor(es) que ocorre(m) com maior
frequência no conjunto de dados, ou seja é(são) o(s) valor(es) mais frequente(s) do conjunto de dados.
Observação:
i) A moda de um conjunto de dados pode não existir (figura 1 (a) )
ii)
A moda de um conjunto de dados pode não ser única (figura 1 (c) )
Exemplo 1.15: Utilizando os dados apresentados na Tabela 5, apresentamos o cálculo determine a ALTURA
MODAL (Moda) para dados agrupados em intervalos, a partir da fórmula de Czuber apresentada na Figura
2.
Solução:
16
A Classe modal será o intervalo com maior frequencia absoluta (F i). Neste caso a classe modal (4a) será
165,9 |----- 170,2 Lmo = 165,9 , hmo = 4,3 , ∆ 1 = Fmod al − Fanterior = 10 − 7 = 3 e
∆ 2 = Fmod al − F posterior = 10 − 3 = 7 .
∆ 3
Daí, Mo = Lmo + × hmo = 165,9 + × 4,3 = 167,19 cm.
1
1 ∆
∆ + 2 3+ 7
Mediana
Notação: Me
Considere um conjunto de dados ordenado constituído de n valores. A mediana é o valor que divide
o conjunto em duas partes iguais (isto é, em duas partes de 50% cada).
1º Caso: n ímpar
Para a série de valores ordenados em ordem crescente de grandeza (isto é, um rol), a mediana é o
valor central, isto é,
n+ 1
Me = elemento que está na posição .
2
2º Caso: n par
Para a série de valores ordenados em ordem crescente de grandeza (isto é, um rol), a mediana é a
média aritmética dos valores centrais, isto é,
n n
Me = média aritmética entre os elementos das posições e + 1.
2 2
3o Caso: Cálculo da Medida em uma Distribuição de Frequências por Classes
No caso de dados agrupados, relembramos que uma distribuição de frequências pode ser
representada por meio de um Histograma. Dizemos então que a mediana será o valor de X (abscissa) cuja
ordenada divide a área total do Histograma em duas partes iguais.
Em uma distribuição de frequências com dados agrupados em classes, denominamos classe mediana
n
a classe que contém o elemento que está na posição e, consequentemente, será esta a classe que conterá a
2
mediana.
17
Assim, para dados agrupados em intervalos, a mediana é obtida através de interpolação de acordo com
a fórmula dada na figura 3.
Propriedades da Mediana
1. A mediana não é influenciada por valores extremos (grandes) de uma série ou conjunto de dados;
2. A mediana de uma série de dados agrupados de classes extremas indefinidas pode ser calculada.
Exemplo 1.16: Determinar a ALTURA MEDIANA dos 46 estudantes da turma de CPE, - Período: 97.1,
conforme os dados agrupados na tabela 5.
Classe mediana é a classe que contém o elemento que está na posição n 2 , ou seja, a classe mediana
é a classe que contém o elemento que está na 23ª posição. Logo, a classe mediana será a 4ª: 165,9 |----- 170,2
(Classe mediana: primeira classe que ultrapassar 50% (n/2) ou mais das observações)
Conjunto A ====> 7, 7, 7, 7, 7
Conjunto B ====> 5, 6, 7, 8, 9
Conjunto C ====> 4, 5, 7, 9, 10
Conjunto D ====> 0, 5, 10, 10, 10
Para representarmos cada conjunto, podemos calcular a sua respectiva média aritmética, encontrando
XA = XB = XC = XD = 7 .
Vemos assim que, apesar de constituídos de valores diferentes, os grupos revelam uma mesma média
aritmética. Observando-os mais detalhadamente, notamos que em cada grupo, isto é, conjunto de dados, os
valores se distribuem diferentemente em relação à média. Necessitamos assim de uma medida estatística
complementar para melhor caracterizar cada conjunto apresentado.
As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto de dados
são as medidas de dispersão ou de variabilidade, onde se destacam a amplitude total, a variância, o desvio
padrão e o coeficiente de variação. Em princípio, diremos que entre dois ou mais conjuntos de dados, o mais
disperso (ou menos homogêneo ) é aquele que tem a maior medida de dispersão.
Amplitude Total
Notação: AT
18
Variância
Notação: S 2 é a variância da amostra ou variância amostral
σ 2 é a variância da população ou variância populacional
n− 1
onde:
xi é o i-ésimo valor da variável de interesse;
Fi é a frequência absoluta do i-ésimo valor;
X é a média da amostra;
n é o tamanho da amostra.
Observação: A equação acima é utilizada quando nosso interesse não se restringe à descrição dos dados
mas, partindo da amostra, visamos tirar inferências válidas para uma respectiva população.
∑ ( pm − X ) × Fi
k
2
i
S2 = i= 1
n− 1
onde:
pmi é o ponto médio da i-ésima classe;
Fi é a frequência absoluta da i-ésima classe;
X é a média da amostra;
n é o tamanho da amostra.
Desvio-Padrão
Notação: S é o desvio-padrão da amostra ou desvio-padrão amostral
σ é o desvio-padrão da população ou desvio-padrão populacional
É uma outra medida de dispersão mais comumente empregada do que a variância, por ser expressa
na mesma unidade do conjunto de dados. Mede a "DISPERSÃO ABSOLUTA" de um conjunto de valores e
é obtida a partir da variância.
Desvio Padrão = Variância (Raiz quadrada da Variância ).
Assim,
S= S2
Coeficiente de Variação
19
S
CV = × 100% , sendo que X ≠ 0 .
X
Note que é importante expressar a variabilidade em termos relativos porque, por exemplo, um
desvio-padrão igual a 1 pode ser muito pequeno se a magnitude dos dados é da ordem de 1.000, mas pode ser
considerado muito elevado se esta magnitude for da ordem de 10.
Observe também que o coeficiente de variação é adimensional e por este motivo permite a
comparação das variabilidades de diferentes conjuntos de dados.
5 14 47 61 122 620
20
2
k
∑ pmi Fi
∑ ( pm − X ) × Fi
k k
∑ pmi2 Fi − i = 1
2
A expressão i
. Assim,
n
S =
2 i= 1
= i= 1
n− 1 n− 1
2
k
∑ pmi Fi
k
pmi2 Fi − i = 1 ( 7747,5) 2
∑ n
1308075,10 −
46 3210,83
.
S =2 i= 1
= = = 71,35 cm 2
n− 1 46 − 1 45
Logo,
S 8,44 cm
S= S2 = 71,35 cm 2 = 8,44 cm e CV = × 100% = × 100% = 5,01%
X 168,42 cm
Exemplo 1.18: Uma fábrica classifica operários de acordo com os graus obtidos em testes de aptidão. Os
dados são apresentados na distribuição de frequência abaixo:
Solução:
5
∑ ( pmi − X ) 2 Fi
306,276 .
S2 = i= 1
= = 5,373
n− 1 57
Logo o desvio padrão S = 2,318,
___
Desta forma X + 2 S = 9,808, portanto qualquer operário com nota maior que 9,808 receberá o premio.
c) A nota acima da qual estão 50% dos operários é chamada nota mediana, a qual é calculada para dados
agrupados em intervalos por:
n 58
( − Fac ant ) ( − 16)
26
M d = LMd + 2 hMd = 4 + 2 2 = 4+ = 4 + 1,13 = 5,13
.
FMd 23 23
21
Unidade II Probabilidade
1. Situando a Temática
A teoria das probabilidades é o fundamento para a inferência estatística. O objetivo desta parte é que
o aluno compreenda os conceitos mais importantes da probabilidade.
O conceito de probabilidade faz parte do dia-a-dia dos trabalhadores das área das ciências exatas,
ciências biológicas, engenharia, etc., uma vez que seu conceito é frequentemente usado na comunicação
diária. Por exemplo, podemos dizer que um aluno tem chance de 70% de ser aprovado em uma determinada
disciplina. Um professor está 90% seguro de que um novo método de ensino proporcione uma melhor
compreensão pelos alunos. Um engenheiro de produção afirma que uma nova máquina reduz em 20% o
tempo de produção de um bem. Tal como mostram os exemplos, as pessoas expressam a probabilidade em
porcentagem. Trabalhando com a probabilidade matemática é mais conveniente expressá-la como fração (as
porcentagens resultam da multiplicação das frações por 100).
2. Problematizando a Temática
3. Conhecendo a Temática
Experimento Aleatório
É o processo da coleta dos dados relativo a um fenômeno que acusa variabilidade em seus resultados.
Um experimento caracteriza-se como aleatório, em função de poder ser repetido indefinidamente sob
condições, essencialmente inalteradas, e embora não sejamos capazes de afirmar que resultado ″particular″
ocorrerá, seremos sempre capazes de descrever o conjunto de todos os possíveis resultados do mesmo.
Combinações de Eventos
22
• Evento Interseção A ∩ B (lê-se: A interseção B): o evento interseção de A e B equivale à
ocorrência de A e de B, simultaneamente. Contém os elementos do espaço amostral que estão em A e em
B.
UNIÃO INTERSEÇÃO
Definição 2.1: Uma função P : Ω→R é dita uma “probabilidade” se satisfaz os seguintes axiomas:
i) P( Ω ) = 1 ;
ii) 0 ≤ P( A) ≤ 1 ;
iii) Sejam A e B eventos em um mesmo espaço amostral. Se A e B forem mutuamente exclusivos,
então P( AU B) = P( A) + P( B ) .
Por enquanto, ainda não sabemos calcular a probabilidade de ocorrência de um evento A “P(A)”. No
entanto, vamos enunciar algumas propriedades relacionadas a P(A) que decorrem das condições acima e que
não dependem da maneira pela qual calculamos P(A).
23
3.2.2 Probabilidade em Espaços Amostrais Finitos
Exemplo 2.1: Em uma seleção para uma vaga de engenheiro mecânico de uma grande empresa verificou-se
que dos 100 candidatos 40 tinham experiência anterior e 30 possuíam curso de especialização. Vinte dos
candidatos possuíam tanto experiência profissional como também algum curso de especialização.
Escolhendo um candidato ao acaso, qual a probabilidade de que:
a) Ele tenha experiência ou algum curso de especialização?
b) Ele não tenha experiência anterior nem curso de especialização?
Solução
Vamos definir os seguintes eventos:
A = {O candidato possui experiência anterior}
B = {O candidato possui especialização}
Dados: p(A) = 0,4, p(B) = 0,3 p(A∩B) = 0,2 pede-se as seguintes probabilidades:
Dados dois eventos A e B contidos num espaço amostral Ω, muitas das vezes, estamos interessados
na ocorrência de A dado que o evento B tenha ocorrido.
Para dar consistência à ideia de uma probabilidade condicional, suponhamos que uma organização
de pesquisa junto a consumidores tenha estudado os serviços prestados dentro da garantia por 200
comerciantes de pneus em uma grande cidade, obtendo os resultados resumidos na tabela seguinte:
Dentro da Garantia
Vendedores de Pneus Total
Bom Serviço Serviço Deficiente
Com marca 64 16 80
Sem marca 42 78 120
Total 106 94 200
Selecionado aleatoriamente um desses vendedores de pneus (isto é, cada vendedor tem probabilidade de ser
selecionado), constatamos que as probabilidades de se escolher um vendedor de determinada marca (M), um
vendedor que presta bons serviços dentro da garantia (Bs), ou um vendedor de marca determinada e que
presta bons serviços dentro da garantia (M∩Bs) são:
80 106 64
P( M ) = = 0,40 , P( Bs) = = 0,53 e P( M ∩ Bs) = = 0,32 .
200 200 200
Todas essas probabilidades foram calculadas por meio da definição clássica de probabilidade. Como a
segunda dessas probabilidades P(Bs) é próxima a 0,50 (50%), vejamos o que acontece se limitamos a escolha
24
a vendedores de uma marca determinada. Isto reduz o espaço amostral às 80 escolhas, correspondentes à 1 a
linha da tabela. Temos então, que a probabilidade de se escolher um vendedor que presta bons serviços (Bs),
64
sabendo (ou dado) que a marca de pneu vendido pelo mesmo é determinada será de P( Bs | M ) = = 0,80 ,
80
tendo-se uma melhora em relação a P(Bs) = 0,53 . Note que a probabilidade condicional que obtivemos aqui,
P ( Bs | M ) = 0,80 pode escrever-se como:
64 P( M ∩ Bs )
P( Bs | M ) = 200
=
80
200 P( M )
Probabilidade Condicional
Teorema da Multiplicação
O resultado a seguir, obtido a partir da definição de probabilidade condicional, fornece a
probabilidade da ocorrência conjunta de dois eventos A e B, isto é, a probabilidade P(A∩B):
P ( A ∩ B) = P( A) ⋅ P( B | A) ou P( A ∩ B) = P( B) ⋅ P( A | B)
Independência de Eventos
Exemplo 2.2: Uma caixa contém 4 lâmpadas boas e 2 queimadas. Retiram-se, ao acaso, 3 lâmpadas sem
reposição. Calcule a probabilidade dessas 3 lâmpadas serem boas.
4 3 2 1
P(A1 ∩ A2 ∩ A3) = P (A1) × P(A2 | A1) × P(A3 | A1 ∩ A2) = × × =
6 5 4 5
Exemplo 2.3: Sejam A e B dois eventos tais que P(A) = 0,4 e P(A∪B) = 0,7. Seja P(B) = p. Para que valor
de p, A e B serão mutuamente exclusivos? Para que valor de p A e B serão independentes?
Solução:
25
3.2.4 Teorema de Bayes
k
Sejam B1, B2, ..., Bk uma partição do espaço amostral Ω, onde Bi ∩ Bj = ∅ ∀ i ≠ j e B i = Ω , ou
i= 1
seja, os eventos eventos B 1, B2, ..., Bk são mutuamente exclusivos. Seja A um evento qualquer associado a Ω,
então:
P ( Bi ∩ A) P ( A | Bi ).P ( Bi )
P ( Bi | A) = = , ∀ i = 1, , k .
P ( A) P ( A | B1 ).P ( B1 ) + + P ( A | Bk ).P( Bk )
A
B2
B3
S
Exemplo 2.3: Numa certa turma, 1% dos homens e 4% das mulheres tem menos que 1,60m de altura. Além
disso, 60% dos estudantes são homens. Considere que um estudante, selecionado aleatoriamente, tem menos
que 1,60m de altura. Qual a probabilidade do estudante ser homem?
Note que os eventos M e H são mutuamente excludentes e representam uma partição do espaço amostral Ω,
ou seja, M ∩ H = ∅ e M ∪ H = Ω. Além disso, sabemos que o evento A ocorreu, visto que é dito que o
estudante possui menos que 1,60m de altura.
26
Unidade III Variáveis Aleatórias e Distribuições de Probabilidade
1. Situando a Temática
Na unidade anterior estudamos alguns fenômenos probabilísticos por meio de espaços amostrais mais
simples. No entanto, em situações práticas mais gerais, é necessário ampliar esses conceitos para que
tenhamos modelos probabilísticos que atendam as necessidades do problema. A definição do conceito de
variável aleatória possibilitará uma maior flexibilidade e aplicabilidade dos conceitos de probabilidade em
problemas diversos.
2. Problematizando a Temática
Ao estudarmos fenômenos aleatórios tais como, a renda de uma população, o desempenho escolar de
um grupo de alunos, o impacto de uma dieta no peso de animais, etc., desejamos saber como controlar esses
experimentos e tentar extrair conclusões sobre as respostas obtidas. Neste caso, usaremos uma ferramenta
valiosa que são as variáveis aleatórias.
3. Conhecendo a Temática
Definição 3.1: Seja E um experimento e Ω um espaço amostral associado a E. Um função X, que associe a
cada elemento ω ∈ Ω um número real, X(ω), é denominada variável aleatória.
Observação:
1. Cada elemento ω de Ω corresponderá a exatamente um valor;
2. Diferentes valores ω ∈ Ω, podem levar a um mesmo valor de X;
3. Nenhum elemento ω ∈ Ω poderá ficar sem valor de X.
Definição 3.2: Seja E um experimento e Ω seu espaço amostral. Seja X uma variável aleatória definida em
Ω e seja Rx seu contradomínio. Seja B um evento definido em relação a R x, isto é, B ⊂ Rx. Então, define-se o
evento A como
A = {ω ∈ Ω | X (ω ) ∈ B} = X − 1 ( B ) .
Assim, o evento A será constituído por todos os resultados em Ω para os quais X(ω) ∈ B.
27
Exemplo 3.1: Suponha 2 moedas lançadas e observada a sequência de caras e coroas obtidas. Considere o
espaço amostral associado a este experimento:
Agora, defina uma variável aleatória X = número de caras obtidas no lançamento de 2 moedas. Assim, temos
que X = {0, 1, 2}, visto que X(Co,Co) = 0; X(Ca,Co) = X(Co,Ca) = 1 e X(Ca,Ca) = 2.
Definição 3.2: (Função de Probabilidade) - Seja X uma variável aleatória discreta. A cada possível
resultado xi de X está associado um número pi = P(X = xi), denominado probabilidade da variável aleatória
X assumir o valor xi, satisfazendo as seguintes condições:
a) pi ≥ 0 para todo xi ∈ RX
b) ∑ pi = p 1 + p 2 + ... + p n + ... = 1 (a soma das probabilidades é igual a 1).
Definição 3.3: (Função de Distribuição de Probabilidade) - Dada uma variável aleatória discreta X,
definimos F(x) a função de distribuição acumulada ou, simplesmente, função de distribuição (f.d) de X,
dada por:
n
F ( x i ) = P ( X ≤ xi ) ⇒ F ( xi ) = ∑
i= 1
P ( X = xi )
Exemplo 3.2: Considerando o exemplo 3.1, denote a função de probabilidade e a função de distribuição da
variável aleatória X.
Solução:
Seja X = número de caras obtidas no lançamento de 2 moedas, temos que a variável aleatória X assume os
seguintes valores, X = {0, 1, 2}.
Temos que,
P(Co,Co) = P(X = 0) = ¼ ;
P(Ca,Co) = P(Co,Ca) = P(X = 1) = ½ ;
P(Ca,Ca) = P(X = 2) = ¼ .
xi 0 1 2
P(X = xi) 1/4 1/2 1/4
xi 0 1 2
F(xi) = P(X ≤ xi) 1/4 3/4 1
Exemplo 3.3: Um par de dados é lançado. Seja X a variável aleatória que associa a cada ponto (d 1, d2) de Ω
a soma desses números, isto é, X(d1, d2) = d1 + d2. Determine a função de probabilidade de X.
Solução:
Então, a variável aleatória X = d1 + d2 assume os seguintes valores X = {2, 3, 4, ..., 12}. Por conseguinte, a
função de probabilidade de X obtida, calculando-se:
28
P (X = 2) = P(d1=1,d2=1) = 1/6 × 1/6 = 1/36
P (X = 3) = P(d1=1,d2=2) + P(d1=2,d2=1) = 1/36 + 1/36 = 2/36
…..
P (X = 12) = P(d1=6,d2=6) = 1/36
xi 2 3 4 5 6 7 8 9 10 11 12
P(X = xi) 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
Uma variável aleatória é dita contínua se o seu contradomínio for um intervalo ou uma união de sub-
intervalos.
Definição 3.4: Uma variável aleatória X é contínua se existir uma função f, denominada função densidade
de probabilidade (fdp) de X, que satisfaça as seguintes condições:
1. f ( x) ≥ 0, ∀ x ∈ R X ;
+∞
2. ∫ −∞
f ( x)dx = 1 ;
b
3. Sejam “a” e “b” quaisquer no intervalo − ∞ < a < b < + ∞ , temos que P (a ≤ X ≤ b) = ∫ a
f ( x)dx .
Observações
• P (a ≤ X ≤ b) representa a área sob a curva da função densidade de probabilidade f(x).
• Para qualquer valor específico de X, digamos x 0, P(X = x0) = 0, pois
x0
P( X = x 0 ) = ∫ x0
f ( x)dx = 0 .
Definição 3.5: A definição de função de distribuição para o caso contínuo é dada por
x
F ( x) = P( X ≤ x) = ∫ −∞
f ( x)dx .
Observação: Seja F(x) a função de distribuição acumulada de uma variável aleatória contínua X, com fdp
dF ( x)
f(x). Então, f ( x) = = F ' ( x) , para todo x no qual F(x) seja derivável.
dx
Exemplo 3.4: Suponha que X é uma variável aleatória contínua com a seguinte fdp:
2 x, 0< x< 1
f ( x) = .
0, caso contrario
Solução:
+∞ 1 1
a) Para que f(x) seja uma fdp basta verificar que ∫ −∞
f ( x)dx = ∫ 2 xdx =
0
x2
0
= 1.
29
1/ 2 1 1/ 2 1/ 2
b) P( X ≤ 1 / 2) = ∫ −∞
f ( x)dx =
4
. ∫ 0
2 xdx = x 2
0
=
c) Aplicando diretamente o conceito de probabilidade condicional, teremos
1/ 2
P( X ≤ 1 / 2 | 1 / 3 ≤ X ≤ 2 / 3) =
P(1 / 3 ≤ X ≤ 1 / 2)
=
∫ 1/ 3
2 xdx
=
5 / 36 5
= .
P(1 / 3 ≤ X ≤ 2 / 3) 2/3
1 / 3 12
∫ 1/ 3
2 xdx
Exemplo 3.5: Seja a variável aleatória X com f(x) definida no exemplo 3.4, calcule sua função de
distribuição acumulada.
Solução:
0, x< 0
x x
F ( x) = ∫ −∞
f ( s)ds = ∫ f ( s) ds = x 2 ,0 ≤ x < 1
0
1, x≥ 1
Nos modelos probabilísticos que temos considerado, parâmetros podem ser empregados para caracterizar
sua distribuição de probabilidade. Dada uma distribuição de probabilidade, é possível associar certos
parâmetros, os quais fornecem informações valiosas sobre tal distribuição.
Um dos parâmetros mais importantes é o valor esperado (esperança ou média) de uma variável aleatória
X, denotado por E(X) ou µ.
Definição 3.6: (Valor Esperado ou Média): Seja X uma variável aleatória discreta com possíveis valores
x1, x2, . . . ,xn , ... . Seja p(xi) = P (X = xi ), i = 1, 2, ..., n, ... Então, o valor esperado ou média da variável
aleatória X é definido por:
∞
µ = E( X ) = ∑i= 1 xi ⋅ p( xi ) ,
∞ ∞
se a série ∑i = 1 xi ⋅ p( xi ) convergir, ou seja, ∑i = 1 xi ⋅ p( xi ) < ∞ .
Seja X uma variável aleatória contínua com fdp f(x). O valor esperado de X será definido por
+∞
µ = E( X ) = ∫ −∞
xf ( x )dx .
Exemplo 3.6: Considere a variável aleatória definida no exemplo 3.2. Obtemos a E(X) por
3
1 1 1
E ( X ) = ∑ xi p( xi ) = 0 × + 1 × + 2 × = 1
i= 1 4 2 4
Isto representa que, ao lançarmos a moeda 2 vezes esperamos que, em média, em um dos lançamentos
apareça “Cara”.
Exemplo 3.7: Considere a variável aleatória contínua definida no exemplo 3.4. Obtemos a E(X) por
1 1 2
E ( X ) = ∫ x(2 x )dx = ∫ 2 x 2 dx =
0 0 3
30
Um outro parâmetro importante que caracteriza uma variável aleatória é a variância, denotada V(X)
ou σ 2 . A variância de uma variável aleatória é uma medida que dá a ideia de dispersão dos valores da
variável, em relação ao seu valor esperado (média).
Definição 3.7: (Variância): Seja uma variável aleatória X (discreta ou contínua) sua variância, denotada
V(X) ou σ2, é definida por:
σ 2 = V (X ) = E (X − µ )2 , [ ]
onde µ = E(X) é a média de X.
Observações:
• V(X) ≥ 0 e mede a variabilidade ou dispersão de X em torno da sua média µ;
• V(X) é expressa em unidades quadradas (o que torna difícil a sua interpretação);
• O Desvio Padrão σ X = V (X ) mede a dispersão absoluta de X, sendo expressa na mesma unidade da
variável aleatória X.
• A definição de variância de uma variável aleatória (v.a.) X, pode ser re-escrita por
= V ( X ) = E ( X 2 ) − [ E ( X )] ,
2
σ 2
∞
onde: E ( X ) =
2
∑i = 1 x 2
i p ( xi ) .
2. Multiplicando-se uma constante por uma variável aleatória X, sua média fica multiplicada
por esta constante:
E(c.X) = c. E(X)
3. Somando ou subtraindo uma constante de uma variável aleatória X, sua média fica somada
ou subtraída desta constante:
E(X ± c) = E(X) ± c
2. Multiplicando-se uma constante por uma variável aleatória X, sua variância fica multiplicada
pelo quadrado da constante:
V(c.X) = c2. V(X)
31
Exemplo 3.8: Encontre a variância da variável aleatória X, denotada por
1
,a < x < b
f ( x) = b − a
0, c.c
Além disso,
b 1 (b 3 − a 3 ) (b − a )(b 2 + a 2 + 2ab) (b 2 + a 2 + 2ab)
E( X 2 ) = ∫ a
x2
b− a
dx =
3(b − a )
=
3(b − a )
=
3
Logo,
(b 2 + a 2 + 2ab) (a + b) 2 (b − a) 2
Var ( X ) = E ( X 2 ) − [ E ( X )] =
2
− =
3 4 12
Para utilizar a teoria das probabilidades no estudo de um fenômeno concreto, devemos encontrar um
modelo probabilístico adequado a tal fenômeno. Endentemos por modelo probabilístico para uma v.a. X,
uma forma específica de função de distribuição de probabilidade que reflita o comportamento de X. As
propriedades básicas de um modelo probabilístico devem ser:
• Adequação: O modelo deve refletir adequadamente o mecanismo aleatório que ocasiona
variação nas observações;
• Simplicidade: Utilização, sempre que possível, de hipóteses simplificadoras, de modo que o
modelo se preste à análise estatística, sem sacrifício de adequação;
• Parcimônia de Parâmetros: Um número excessivo de parâmetros prejudicaria a análise
estatística. Entre 2 modelos que constituam aproximação adequada de um fenômeno, devemos preferir
aquele que apresente o menor número de parâmetros.
Distribuição de Bernoulli
Suponha que realizamos um experimento E, cujo resultado pode ser observado e classificado
como sucesso ou fracasso, caso o evento que nos interessa ocorra ou não, respectivamente. Associe
p, a probabilidade de sucesso, ao evento que nos interessa e 1 – p = q, a probabilidade de fracasso.
Definimos, então, a seguinte variável aleatória discreta:
0, se ocorrer fracasso
X= .
1, se ocorrer sucesso
xi 0 1
P(X = xi) 1–p p
Verifica-se facilmente que E(X) = p e V(X) = p(1 – p), que são as principais características da v.a.
X.
32
Experimentos Binomiais
Definição 3.8: Dizemos que uma variável aleatória discreta Y = X 1 + X2 + ... + Xn, onde cada Xi é um ensaio
de Bernoulli, apresenta distribuição binomial com n provas (ensaios ou tentativas) e probabilidade p de
sucesso, sendo sua função de probabilidade definida por:
n
P ( X = k ) = p k (1 − p ) n − k , k = 0,1, n ,
k
pois, para X = k teremos observado k sucessos, cada um com probabilidade p e consequentemente (n-k)
fracassos, cada um com probabilidade q = 1 – p.
Notação: X ~ B (n, p ) , equivalente a dizer que X tem distribuição Binomial com parâmetros n e p.
Propriedades
• E(X) = np
• V(X) = npq
Exemplo 3.9: Dois times de futebol, A e B, jogam entre si 6 vezes. Suponha que as probabilidades de A
ganhar, perder ou empatar sejam as mesmas e permaneçam constantes durante as 6 partidas. Encontre a
probabilidade do time A ganhar 4 vezes e calcule a esperança e a variância.
Solução
Seja X = {número de vezes que o time A ganha}
Note que p = 1/3 (vencer) e que q = 2/3 (perder ou empatar). Além disso, n = 6.
6 6− 4 20
Logo, P ( X = 4) = (1 / 3) (1 − 1 / 3) = 15 × (1 / 3) 4 × (2 / 3) 2 = ≅ 0,08 .
4
4 243
1
Temos também que a esperança (média) de vitórias será E ( X ) = np = 6 × = 2 e a variância
3
1 2 4
V ( X ) = npq = 6 × × = .
3 3 3
33
Uma distribuição normal caracteriza-se por uma função real f(x) denominada de função densidade de
probabilidade (f.d.p) da v.a X, dado pelo modelo probabilístico abaixo e gráfico correspondente:
1 (x − µ )2
f ( x) = exp − , - ∞ < x < + ∞ , - ∞ < µ < + ∞ ,σ > 0.
2
2π σ 2
2σ 2
1. É unimodal, isto é, f(x) tem um ponto de máximo cuja abscissa é x = µ. Esse ponto, situado no meio
da distribuição, é aquele em que coincidem os valores da média, moda e mediana;
2. f(x) é simétrica em relação à média µ;
3. f(x) tem dois pontos de inflexão, cujas abscissas são x = µ − σ e x = µ + σ;
4. O desvio-padrão é dado por σ ( a raiz quadrada positiva da variância σ2);
5. A área total sob a curva normal e acima do eixo horizontal equivale a 1 (o eixo das abscissas é o eixo
dos valores de v.a. X;
6. f(x) tem uma assíntota. A partir do topo, a curva cai gradativamente até formar as caudas que se
estendem indefinidamente, aproximando-se cada vez mais da linha base sem, entretanto, jamais tocá-la.
7. Fixando-se a média, verifica-se que o achatamento da curva está diretamente ligado ao valor do desvio
padrão σ, ou seja, quanto maior for o desvio padrão mais achatada é a curva, como pode ser vista na
figura abaixo.
Notação: X ∼ N (µ , σ2), ou seja, X tem distribuição normal com média µ e variância σ2. Ou ainda, X ∼
N (µ , σ) , isto é, X tem distribuição normal com média µ e desvio padrão σ.
34
X− µ
Z=
σ
Esta nova variável chama-se variável normal padronizada, ou reduzida, sendo sua média igual a
zero (µ = 0) e o seu desvio padrão é igual um (σ = 1).
X − µ E( X ) − µ µ − µ
E (Z ) = E = = = 0
σ σ σ
X − µ V (X ) − 0 σ
2
V (Z ) = V = = =1
σ σ 2 σ 2
A curva normal padrão conserva as mesmas propriedades listadas anteriormente. Mediante tal
transformação, basta construirmos uma única tabela, a da normal reduzida e, através dela, obtermos as
probabilidades associadas a todas as distribuições N (µ, σ).
A utilidade notável da tabulação pela variável normal padronizada é devida ao fato de que, se X
tiver qualquer distribuição normal N(µ, σ), a tabela da distribuição N(0; 1) pode ser empregada para calcular
probabilidades associadas a X, simplesmente aplicando a transformada para a variável Z.
Consequentemente, temos que
a− µ b− µ b− µ a− µ
P ( a ≤ X ≤ b) = P ≤ Z≤ = Φ − Φ ,
σ σ σ σ
Exemplo 3.9: Os salários médios diário dos operários de uma indústria são distribuídos segundo uma
distribuição normal com média de R$ 50,00 e desvio padrão de R$ 4,00. Encontre a probabilidade de um
operário ter um salário diário abaixo de R$ 52,00.
Solução
Seja X = o salário diário do operários, estamos interessados em encontrar P (X < 52). Assim,
52 − µ 52 − 50
P ( X < 52) = P Z < = P Z < = P ( Z < 0,50) = Φ (0,50) .
σ 4
Através da tabela da distribuição normal padrão, obtemos a probabilidade de interesse Φ (0,50) = 0,6915 .
Logo, pode-se afirmar que a probabilidade de um operário apresentar um salário inferior a R$ 52,00 é de
69,15%.
Dica
Três importantes informações que irão facilitar o cálculo de probabilidades envolvendo a
distribuição normal padrão: (i) a tabela que você está utilizando apresenta as probabilidades de
P(Z ≤ z0) = F(z0), ou seja, a função de distribuição acumulada. No entanto, esta tabela considera
apenas valores positivos para Z. (ii) a área total sob a curva equivale a 1. Logo, a metade da curva
representa probabilidade igual a 0,5; (iii) a curva da normal é simétrica. Essa propriedade será
bastante útil no cálculo de probabilidades onde os valores de Z são negativos, ou seja, P(X ≤ – x0)
= 1 – P(X ≤ + x0);.
35
Unidade IV Teoria Elementar da Amostragem
1. Situando a Temática
Amostragem é uma área da Estatística que estuda técnicas de planejamento de pesquisa para
possibilitar inferências sobre uma população a partir do estudo de uma pequena parte de seus componentes,
uma amostra.
2. Problematizando a Temática
Ao fazermos uma jarra de suco e adicionamos açúcar desejamos saber se a quantidade de açúcar foi
satisfatória. Para isto, não precisamos tomar toda a jarra de suco, uma colher basta. Da mesma forma, ao
estudarmos um fenômeno probabilístico em uma população não precisamos investigar toda a população, e
sim uma amostra dela. No entanto, algumas questões podem surgir: como obter essa amostra? qual deve ser
o tamanho dessa amostra? Esta unidade tem como objetivo responder esta e mais algumas questões
correlatas.
3. Desenvolvendo a Temática
Muitas vezes faz-se necessária a coleta de dados diretamente na origem. Entretanto, quando é
impossível se observar toda a população recorremos às técnicas de amostragem, onde nos limitamos a uma
amostra da população em estudo. Basicamente, nosso objetivo é coletar uma pequena fração da população de
modo que as informações observadas na amostra possam ser generalizadas para a população. Para que esta
generalização seja possível, os integrantes da amostra devem ser escolhidos adequadamente.
De acordo com a definição de amostragem probabilística, existe a suposição de um sorteio com regras bem
determinadas, cuja realização só será possível se a população for finita e totalmente acessível. Esse tipo de
amostragem é a melhor garantia para se obter uma representatividade da população pela amostra. Os
principais planos de amostragem probabilística são:
1. Amostragem Aleatória (ou Casual) Simples: Neste tipo de plano, supõe-se que todos os
elementos da população tem igual probabilidade de pertencer à amostra, ou alternativamente, se todas as
possíveis amostras, de mesmo tamanho, têm a mesma probabilidade de serem selecionadas. Normalmente,
consideramos esse tipo de plano amostral quando a população é homogênea. Esse processo de amostragem
pode ser feito com ou sem reposição do elemento amostrado. Uma técnica que garante esta igual
probabilidade é a seleção aleatória de elementos, por exemplo, através de sorteio.
36
2. Amostragem Sistemática: Inicia com uma escolha aleatória de um elemento da população
e, a partir deste, usa-se um sistema de seleção para compor o restante da amostra. Por exemplo, numa
listagem de elementos da população, sorteamos um entre os dez primeiros da lista – o 5 o elemento. A partir
do elemento sorteado, selecionamos um a cada quinze elementos (o 20 o, o 35o e assim por diante). Este
método de amostragem pode ser utilizado quando se quer planejar um período de tempo para execução da
coleta de dados ou quando se deseja cobrir um determinado período de tempo com a amostra estudada.
Também consideramos esse tipo de plano amostral quando a população é homogênea.
3. Amostragem Estratificada: Na amostragem estratificada a população é dividida em grupos
internamente homogêneos (estratos) e em seguida é selecionada uma amostra aleatória de cada estrato. Este
tipo de amostragem é usado quando o evento estudado numa população tem características distintas para
diferentes categorias que dividem esta população, ou seja, dentro de cada estrato os elementos são bastantes
semelhantes entre si e, entre os estratos eles são heterogêneos. Assim, a estratificação é apropriada para
agrupar os elementos por sexo, faixa etária, religião, escolaridade ou em populações heterogêneas como
rendas, produções agrícolas, produções industriais, etc.
4. Amostragem por Conglomerados: A população é dividida em pequenas subpopulações,
com elementos internamente heterogêneos, chamadas conglomerados (clusters). Seleciona-se uma amostra
aleatória simples desses conglomerados, e deles selecionam-se aleatoriamente os elementos que irão compor
a amostra. Assim, numa pesquisa sócio econômica pode-se dividir a cidade em bairros (conglomerados), em
seguida obter uma amostra aleatória de bairros e, então efetuar o levantamento estatístico nas residências
dos bairros selecionados. Observe que, no caso da estratificação, indivíduos serão selecionados em cada
estrato, enquanto no caso da divisão da população em conglomerados, selecionamos apenas parte dos
conglomerados.
5. Amostragem por Estágios Múltiplos: Esta estratégia de amostragem pode ser vista como
uma combinação de dois ou mais planos amostrais. Considere por exemplo uma população estratificada onde
o número de estratos é muito grande. Ao invés de obter uma amostra aleatória de cada estrato, o que poderia
ser inviável devido à quantidade de estratos, o pesquisador poderia optar por selecionar aleatoriamente
alguns estratos e em seguida selecionar uma amostra de cada estrato selecionado. Neste caso, teríamos uma
amostragem em dois estágios usando, nas duas vezes, a amostragem aleatória simples, sendo que no primeiro
estágio as unidades amostrais são os estratos e no segundo são as componentes da população.
É importante ressaltar que certos cuidados dever ser tomados no processo de obtenção de uma
amostra, ou seja, no processo de “amostragem”, pois muitas vezes erros grosseiros e conclusões falsas
ocorrem devido a falhas nesse processo.
Observe que a distribuição acima tem média (valor esperado) e variância dados por:
1+ 3+ 5 (1 − 3) 2 + ( 3 − 3) 2 + (5 − 3) 2 8
E(X) = µ = =3 e V(X) = σ =
2
= .
3 3 3
Se retirarmos todas as amostras aleatórias de tamanho n = 2, com reposição, dessa população
obtemos um total de Nn = 32 = 9 amostras com os seguintes resultados:
37
(1,1) (1,3) (1,5) (3,1) (3,3) (3,5) (5,1) (5,3) (5,5).
xi 1 2 3 4 5
P( X = xi ) 1/9 2/9 3/9 2/9 1/9
• a sua variância é igual à variância da população dividida pelo tamanho da amostra. Temos
2 1 2 2 2 3 2 2 2 1 93
[ 2
]
que: V ( X ) = E ( X 2 ) − E ( X ) . Logo, E ( X ) = 1 × + 2 × + 3 × + 4 × + 5 × =
2
9 9 9 9 9 9
.
8
Assim, V ( X ) = E ( X 2 ) − E ( X ) 2 = 93 − 3 2 = 93 − 9 = 93 − 81 = 12 = 4 = 3 = σ . Tais relações
[ ]
2
9 9 9 9 3 2 n
entre µ e µ , e σ2 e σ
2
X X , observadas no exemplo acima, podem ser generalizadas.
Usando a teoria das probabilidades é possível mostrar que os seguintes resultados gerais são válidos
com relação à distribuição amostral da média. Seja X uma variável aleatória com valor esperado E(X) = µ e
variância V(X) = σ2 finita, isto é, 0< σ2 < ∞ . Seja X a média desta variável aleatória, obtida de amostra
aleatória de tamanho n, selecionada com reposição. Então, temos que:
• E( X ) = µ X = µ ;
σ 2
V( X ) = σ X =
2
• .
n
Além disso, tem-se o resultado conhecido como Teorema Central do Limite: Seja X uma variável aleatória
com valor esperado E(X) = µ e variância V(X) = σ2. Para n suficientemente grande,
1 n
X = ∑ Xi
n i= 1
σ 2
apresenta, aproximadamente, uma distribuição normal com média µ e variância , Logo,
n
X− µ
σ 2 Z= ≈ N ( 0,1)
X ≈ N µ , e σ .
n
n
Observações
σ
1) O desvio padrão de X , denotado por σ =
, é chamado erro padrão da média e descreve a
X
n
variabilidade das médias amostrais em torno da verdadeira média populacional µ. Assim, quanto maior o
erro padrão da média, maior será a diferença entre parâmetro µ e sua estimativa X , calculada a partir da
σ 2
amostra . Quando n é grande decresce, significando que a média amostral fornecerá uma estimativa
n
mais segura para µ em grandes amostras.
38
2) Para amostras sem reposição, de população finita, temos a média µ = E( X ) = µ e variância σ
2
X X = V( X
σ 2
N− n
)= . , onde N é o total de elementos da população.
n N−1
3) Para valores grandes de n ( n ≥ 30) a aproximação da distribuição amostral da média X pela distribuição
Normal é considerada satisfatória.
Exemplo 4.1 - Os registros de uma agência de turismo mostram que um turista gastou, durante o último ano,
em média µ = US$800,00, sendo o desvio padrão dos gastos igual a σ = US$80,00. Ache a probabilidade de
que uma amostra de 64 turistas apresente um gasto médio entre US$770,00 e US$825,00.
Solução: Considere a variável X = gastos (em US$). Embora a distribuição de X não seja conhecida, como o
tamanho da amostra n = 64 é bastante grande, podemos admitir que a média amostral de X segue a
distribuição Normal com parâmetros
σ 80
µ X = µ = µ X = 800 e σ X = = = 10 .
n 64
Assim temos que
770 − 800 X− µ 825 − 800
P (770 ≤ X ≤ 825) = P ≤ ≤ = P (− 3,0 ≤ Z ≤ 2,5) =
10 σ 10
n
Se considerarmos um grande número de amostras, cada uma com 64 turistas, em aproximadamente 99,25%
delas o gasto médio estaria entre US$770,00 e US$825,00.
Se o parâmetro de interesse p representa uma proporção (ou percentagem) de elementos com certa
característica (atributo) na população, então chamamos a estatística correspondente na amostra de proporção
amostral, denotando-a por
x
pˆ = , onde x = no de elementos da amostra que possuem a característica de interesse.
n
No caso de uma população finita de tamanho N e uma amostra sem reposição, recomenda-se o uso do fator
de correção populacional no cálculo da variância de p̂ , sendo expressa por:
p.q N − n
V( p̂ ) = .
n N−1
Exemplo 4.2 Suponha que de um grande lote de produção, 10% dos itens produzidos apresentam algum tipo
de defeito. Em uma amostra aleatória de tamanho 60, obtida do lote para inspeção de qualidade, calcule a
probabilidade de ter mais de 15% dos itens defeituosos.
Solução:
39
pˆ − p 0,15 − 0,10
P ( pˆ > 0,15) = P > = P ( Z > 1,29) = 1 − 0,9015 = 0,0985 .
p.q 0,1 × 0,9
n 60
Se considerarmos um grande número de amostras, cada uma contendo 60 itens, em aproximadamente 9,85%
das amostras a proporção de itens defeituosos seria superior a 15%.
40
Unidade V Intervalos de Confiança e Teste de Hipótese
1. Situando a Temática
2. Problematizando a Temática
Qual a altura média do povo brasileiro? Qual a proporção de pessoas com nível superior em João
Pessoa? A resposta para essas perguntas não são tão fáceis, mas para respondê-las com exatidão teríamos que
medir todos os cidadãos brasileiros ou verificar quantos habitantes em João Pessoa possuem nível superior, o
que é impossível. No entanto se coletarmos uma amostra e calcularmos a média e a proporção,
respectivamente, será que essas estimativas estão próximas dos verdadeiros valores populacionais
(parâmetros)? Uma outra pergunta seria a seguinte: Se a quantidade média de água ingerida por um ser
humano é de 10 litros por semana, os brasileiros bebem muito ou pouca água? Como responderíamos a esta
questão? A resposta para essas questões veremos nessa unidade.
3. Conhecendo a Temática
Há inúmeras situações reais em que se procura determinar valores para quantidades desconhecidas
como médias e proporções. Certamente, é de interesse para muitos empresários saber a quantia média gasta
por um turista em sua cidade; um produtor de televisão procura sempre saber qual o índice de audiência de
determinados programas; um engenheiro de controle de qualidade procura determinar a proporção de itens
produzidos com defeito em uma linha de produção.
A estimação consiste em determinar um valor amostral que substitua o respectivo valor real do
parâmetro populacional desconhecido.
Para uma melhor compreensão dos temas mais importantes desta unidade, vamos definir alguns
conceitos fundamentais dentro da inferência estatística:
• Estimador - é uma função matemática que leva em consideração os dados amostrais. Como
tal função é calculada baseada em uma amostra, é considerada uma variável aleatória, caracterizada por uma
1 n
distribuição de probabilidade. Assim, X = ∑ xi , onde x1, x2, ... , xn são n valores amostrais, é um
n i= 1
estimador que representa a média populacional (parâmetro).
• Estimativa - é um valor particular do estimador para uma dada amostra coletada. Assim, por
exemplo, para uma dada amostram, X = 3,9kg pode ser uma estimativa para o verdadeiro peso médio,
desconhecido, de recém-nascidos do sexo feminino em certa localidade.
41
Quando achamos uma estimativa pontual, ela raramente coincide com o valor real do parâmetro.
Uma desvantagem do uso de estimadores pontuais é que, se nenhuma informação adicional for dada, não há
maneira de decidir o quão boa é a estimativa, pois não temos nenhuma ideia da sua precisão. Um
procedimento mais desejável para estimação é, então, calcular um intervalo que tenhá uma probabilidade
pré-estabelecida de conter o parâmetro desconhecido.
Um intervalo de confiança para uma média especifica um intervalo de valores dentro do qual o
parâmetro populacional desconhecido, neste caso a média, pode estar. Estes intervalos podem ser usados, por
exemplo, por um fabricante que deseja estimar sua produção média diária ou um pesquisador que deseja
estimar o tempo de resposta média, por paciente, a uma nova droga.
Suponha que temos uma amostra aleatória de tamanho n, X1, X2, ... , Xn, de uma população cuja
distribuição é normal com média µ e variância σ2. Então
X− µ
1 n σ 2 Z= ≈ N ( 0,1)
X = ∑
n i= 1
xi apresenta distribuição X ≈ N µ , e
n
σ
.
n
Sejam 1-α um nível de confiança qualquer, 0 < 1-α < 1. Temos que,
P( µ − ε 0 < X < µ + ε 0 ) = 1 − α
µ −ε0− µ µ +ε0− µ
P( < Z< ) = 1− α f(z)
σ / n σ / n
−ε0 ε0 α /2 α /2
P( < Z< ) = 1− α
σ / n σ / n
P ( − zα / 2 < Z < + z α / 2 ) = 1 − α
−ε0 ε0 -zα /2 zα /2
onde: − zα / 2 = e zα / 2 = .
σ / n σ / n
42
Logo,
σ
ε 0 = zα / 2 .
n
Assim, note que a partir da expressão acima podemos também estimar, por exemplo, o tamanho da amostra
(n) quando ε0, z e σ são conhecidos
2
σ
n = zα .
ε 0
/2
Exemplo 5.1: Para estimar gasto médio semanal no supermercado “A”, coletou-se uma amostra aleatória de
16 consumidores, obtendo-se um gasto médio amostral de X = US$30,00. Supondo uma distribuição
normal para a população, com desvio padrão σ = US$2,60, obtido de outros estudos similares, calcule um
intervalo de 95% de confiança para estimar o gasto médio semanal populacional no supermercado “A”.
α 1% 5% 10%
zα/2 2,57 1,96 1,64
∑ ( xi − x ) 2
.
S2 = i= 1
n− 1
Agora, a estatística
X− µ
T= ~ t ( n− 1) ,
S/ n
terá distribuição t-Student com “n-1” graus de liberdade, e não mais a distribuição normal padrão. No
entanto, podemos re-escrever a estatística T como função da distribuição normal padrão ( Z), da seguinte
forma:
43
X− µ σ X− µ σ σ
T= × = × = Z
S σ σ S S.
n n
Logo,
σ S
t ( n− 1,α / 2 ) = zα / 2 ⇒ zα / 2 = t ( n− 1,α / 2) .
S σ
S
Substituindo zα /2 = t ( n− 1,α / 2) no intervalo de confiança do caso 1 teremos, quando a variância
σ
populacional σ2 é desconhecida, o intervalo de confiança que contém o verdadeiro valor da média
populacional µ com probabilidade 1-α, expresso por
S S
[ X − t ( n − 1,α / 2) ; X + t ( n− 1,α / 2 ) ].
n n
Logo,
S
ε 0 = t( n − 1,α / 2) .
n
Assim, a partir da expressão acima podemos também estimar, por exemplo, o tamanho da amostra (n)
quando ε0, z e S são conhecidos.
Exemplo 5.2: Um fiscal de produtos alimentícios seleciona uma amostra aleatória de 16 pacotes de lanche
marca “M” nas prateleiras de um supermercado. Pesa o conteúdo de cada pacote, encontrando um peso
médio X = 170g e um desvio padrão S = 5g. O peso líquido indicado em cada pacote é 180g. Verifique se
um intervalo com 90% de confiança para o peso médio líquido verdadeiro abrange o peso líquido
especificado na embalagem. Suponha distribuição normal para a população.
Solução: Dados: n = 16, X = 170g e S = 5g. Para α = 10% e n = 16 ⇒ t n − 1,α / 2 = t n− 1,α 2 = t15;0,05 =1,753,
obtido da tabela da distribuição t-Student, pois a informação que dispomos no problema diz respeito ao
desvio padrão amostral.
Logo, o intervalo de confiança para o peso médio populacional será denotado por: IC(µ,90%) =
5
170 ± 1,753 = [170 ± 2,19] ou [167,81; 172,19]. Note que o IC não abrange o peso líquido indicado na
16
embalagem de 180g.
Solução: Seja X = quilômetros percorridos com 1 litro de gasolina. Temos que n = 9, X = 16km/l e S =
1,581 km/l. Para α = 1% e n = 9 ⇒ t n− 1,α 2 = t8; 0,005= 3,355, obtido da tabela da distribuição t-Student.
1,581
Logo, o intervalo de confiança será denotado por: IC(µ,99%) = 16 ± 3,355 = [16 ± 1,77] ou [14,23;
9
17,77] km/l de gasolina.
Assim, podemos afirmar que com 99% de confiança, o intervalo [14,23 km/l; 17,77km/l] contém o
verdadeiro valor para a distância percorrida pelo novo motor (em quilômetros) com um litro de gasolina.
44
Exemplo 5.4: Se um pesquisador sabe que uma população tem distribuição normal com desvio padrão σ =
12. Considerando um nível de confiança de 95%, encontre o tamanho de amostra necessário para que a
média amostral não se afaste em mais de 2 unidades do verdadeiro valor da média populacional.
Solução: Em nosso problema, observamos que o desvio padrão populacional é conhecido. Neste caso,
usamos a seguinte expressão para o cálculo do tamanho de amostra
2
σ
n = zα .
ε 0
/2
Estes intervalos podem ser usados para, por exemplo, informar sobre a proporção de alunos evadidos
na UFPB, a proporção de itens defeituosos em uma linha de produção ou a proporção de uma população que
é imune a certa enfermidade.
Seja X a variável aleatória representando o n o de sucessos em n repetições independentes de um
experimento com dois possíveis resultados (sucesso e fracasso), onde P(sucesso) = p e a P(fracasso) = q =1
-p, constantes. Então X ∼ B(n,p), onde µX = E(X) = np e σ2 = Var(X) = np(1-p). Para p não muito próximo
de 0 ou 1 e se n é suficientemente grande (um critério usado na prática, é usar a aproximação quando np e
n(1-p) forem maiores do que 5) temos, segundo o Teorema Central do Limite, que
X ~ N ( np, np (1 − p) ) .
x p (1 − p ) X 1
Logo, pˆ = ~ N p, , visto que E ( pˆ ) = E = np = p e
n n n n
pˆ − p
X 1 p(1 − p) Z= ≈ N ( 0,1)
Var ( pˆ ) = Var = 2 np(1 − p) = . Assim, p(1 − p ) .
n n n
n
O intervalo que estamos procurando, da forma [ pˆ ± ε 0 ] , será obtido por um caminho semelhante
ao adotado no caso da média populacional µ chegando-se, facilmente, a
p (1 − p )
ε 0 = zα /2
.
n
Note que a partir da expressão acima também podemos o tamanho da amostra (n) quando ε0, z e p são
conhecidos.
pˆ (1 − pˆ ) pˆ (1 − pˆ )
[ pˆ − zα /2 ; pˆ + zα /2 ]
n n
Exemplo 5.5: Para se avaliar a taxa de desemprego em uma cidade, coletou-se uma amostra aleatória de
1000 habitantes em idade de trabalho e observou-se que 87 eram desempregados. Estimar a percentagem de
desempregados em toda a cidade (população) através de um intervalo de 95% de confiança.
45
87
Solução: Temos que n = 1000 e que a proporção amostral de desempregados pˆ = = 0,087 . Logo, q =
1000
1 – p̂ = 0,913. Para α = 5% ⇒ Zα/2 = 1,96.
Exemplo 5.6: Numa pesquisa de mercado, 57 das 150 pessoas entrevistadas preliminarmente afirmaram que
seriam compradoras de certo produto a ser lançado. Essa amostra é suficiente para estimar a proporção real
de futuros compradores, com um erro de 4% e confiança de 95%?
57
Solução: pˆ = = 0,38 e q = 1 – p̂ = 0,62; ε0 = 0,04; Zα/2 = 1,96.
150
2 2
z 1,96
Logo, n = α / 2 p (1 − p ) = 0,38(0,62) ≅ 566 .
ε0 0,04
Como apenas 150 pessoas foram entrevistadas preliminarmente, a amostra não foi suficiente. Sendo
necessário entrevistar mais 566 - 150 = 416 pessoas.
Hipótese Nula (H0) - é uma afirmação sobre o parâmetro, supostamente verdadeira, que vai ser posta
à prova e na qual o teste é montado. Em geral, formula-se H 0 com o objetivo de rejeitá-la, isto é, formulamos
H0 contrária ao que suspeitamos que seja verdade. Por exemplo, se um cientista acha que uma nova droga é
eficaz para certo tipo de paciente, então, por contradição, formulamos a hipótese H 0 de que a nova droga não
é eficaz. Portanto, para provar que o cientista está certo, H 0 teria de ser rejeitada. Dessa forma, podemos
pensar que o que estamos interessados deve ser alocado em H 1 (Hipótese Alternativa).
Uma possível representação é: H0: θ = θ0 , onde θ é qualquer parâmetro.
Hipótese Alternativa (H1) - Hipótese que vai ser comparada à hipótese nula, isto é, uma afirmação
sobre o parâmetro que afirma “A hipótese nula H 0 é falsa”.
Se usamos H0: θ = θ0 para representar a hipótese nula, então podemos usar as seguintes
representações para as possíveis hipóteses alternativas:
• H1: θ ≠ θ0;
• H1: θ < θ0;
• H 1: θ > θ 0
46
3.3.2 Definição da Regra de Decisão, Erros e Nível de Significância
Quando testamos hipótese estatísticas, qualquer que seja a decisão tomada, estamos sujeitos a
cometer dois possíveis tipos de erros:
• Erro do Tipo I: quando se rejeita a hipótese nula H 0 e a mesma é verdadeira. Denotamos por
α a probabilidade de cometer este erro, isto é, α = P(erro tipo I) = P(rejeitar H 0 | H0 é verdadeira). O erro tipo
I (α) também é conhecido como nível de significância de um teste de hipóteses.
• Erro do Tipo II: não se rejeita a hipótese nula H 0, quando a mesma é falsa. Denotamos por
β a probabilidade de cometer este erro, isto é, β = P(erro tipo II) = P(não rejeitar H0 | H0 é falsa).
O quadro abaixo resume as possibilidades das decisões envolvidas em um teste de hipótese, com as
probabilidades de ocorrências dos erros tipo I (α) e II (β).
Devido as dificuldades de se conseguir minimizar os dois tipos de erros ao mesmo tempo, em geral,
nos preocupamos mais na possibilidade de rejeitar uma hipótese sendo ela verdadeira. Dessa forma, teremos
uma maior atenção no controle do erro do tipo I. Por exemplo, se definimos as hipóteses
A aceitação de H0, sendo esta hipótese falsa, possibilita a busca de outros meios de tratamentos, enquanto
que a rejeição de H0, sendo esta verdadeira, exclui a possibilidade de se prosseguir com outras opções para os
pacientes. Logo, é desejável exercer um controle sobre α e mantê-lo pequeno. Dessa forma, os testes de
hipótese podem ser montados de maneira que, fixado o erro do tipo I, o erro do tipo II seja minimizado
aumentando-se o tamanho da amostra.
Observação: O significado de α usado nos Testes de Hipóteses é totalmente diferente de seu significado na
Estimação por Intervalos. Nos Testes de Hipótese, α representa a probabilidade de rejeitar uma hipótese nula
suposta verdadeira, enquanto que na Estimação por Intervalos α representa a probabilidade de que os limites
de confiança construídos não contenham o verdadeiro valor do parâmetro.
Estatística do Teste
A decisão de rejeitar ou não a hipótese nula (H0) é baseada nos dados amostrais, que são usados para
calcular o valor da Estatística de Teste e que servirá de referência para a tomada da decisão. Para isso,
divide-se a curva da distribuição amostral da estatística em duas regiões, uma chamada Região Crítica (ou
Região de Rejeição de H0), e a outra Região de Não Rejeição de H 0. Temos, então, a seguinte Regra de
Decisão do teste: se o valor calculado da estatística do teste pertencer à região crítica, rejeita-se H 0 em
favor da hipótese alternativa; caso contrário, H0 não será rejeitada em relação à hipótese alternativa.
47
• Teste Unilateral: quando a região crítica do teste é localizada completamente em uma das
extremidades da curva da distribuição amostral da estatística do teste.
o Teste Unilateral à Esquerda: a região crítica (sombreada) localiza-se no extremo esquerdo
da distribuição.
Hipóteses: H0: θ = θ0 vs H1: θ < θ0
o Teste Unilateral à Direita: a região crítica (sombreada) localiza-se no extremo direito da
distribuição.
Hipóteses: H0: θ = θ0 vs H1: θ > θ
• Teste Bilateral: a região crítica (sombreada) localiza-se nas duas extremidades da
distribuição.
Hipóteses: H0: θ = θ0 vs H1: θ ≠ θ0
A escolha entre usar um teste unilateral e um teste bilateral é determinada pelos objetivos do problema, no
qual se deseja verificar uma afirmação a cerca do parâmetro populacional.
2 - Decidir qual estatística de teste será usada para julgar a hipótese nula;
O primeiro passo num Teste de Hipóteses consiste em formular a hipótese a ser testada. No quadro 1,
podemos observar que para cada possível hipótese existe uma região crítica e regra de decisão associada. No
caso do teste de hipóteses para média populacional, supondo a variância populacional conhecida, utilizamos
a seguinte estatística do teste:
X − μ0
ZC = .
σ n
Note que a estatística é calculada com base nas informações contidas na amostra.
O próximo passo consiste em fixar o nível de significância do teste (α). A seguir, apresentamos os valores
mais usados para Zα e Zα/2.
α 1% 5% 10%
Zα 2,33 1,64 1,28
Zα/2 2,57 1,96 1,64
48
Quadro 2: Resumo das Hipóteses, Regiões Críticas e Regras de Decisão para a Média Populacional,
considerando σ2 conhecido.
Hipótese Região Crítica Regra de Decisão
(sombreada) (Rejeitar H0)
H0: µ = µ0
H1: µ ≠ µ0 Zc ≤ -Zα/2 ou Zc ≥ Zα/2
H0: µ = µ0 (*)
H1: µ < µ0 Zc ≤ -Zα
H0: µ = µ0 (**)
H1: µ > µ0 Zc ≥ Zα
(*) Por simplicidade, excluiu-se a possibilidade µ ≥ µ0 na hipótese nula H0 , com base no conhecimento de que tal fato
levaria à mesma decisão que a aceitação simples de H0: µ = µ0.
(**) Por simplicidade, excluiu-se a possibilidade µ ≤ µ0 na hipótese nula H0 , com base no conhecimento de que tal fato
levaria à mesma decisão que a aceitação simples de H0: µ = µ0.
Exemplo 5.7: O gerente de uma indústria de carnes enlatadas tem estabelecido a seguinte especificação: um
novilho com 12 meses de vida resulta numa média de 250kg de carne. A experiência passada indica que,
mesmo com uma mudança na média, o desvio padrão permanece ligeiramente constante, em σ = 18kg. Para
determinar se a especificação está sendo observada, o gerente seleciona uma amostra aleatória com 100
novilhos e obteve uma média X =253kg de carne. Realize um teste de hipótese para verificar se houve
mudança na especificação, a um nível de significância de 5%.
Solução:
H0: µ = 250kg
H1: µ ≠ 250kg (a especificação não está sendo observada)
Decisão: Como – Zα/2 < Zc < Zα/2 ⇒ Não existem evidências para rejeitar H 0. Logo, com base nos dados
amostrais e com 5% de significância não podemos rejeitar a hipótese H 0, ou seja, não existem evidência para
afirmar que a especificação está sendo violada.
Quando a variância populacional (σ2) é desconhecida, precisamos estimá-la a partir das informações
contidas na amostra, através da expressão
49
n
∑ ( xi − x )
.
S =
2 i= 1
n− 1
Dessa forma, a estatística do teste para média populacional µ quando σ2 é desconhecida será expressa por
X − μ0
TC = ,
S n
que segue uma distribuição t-Student com n-1 graus de liberdade.
O próximo passo consiste em fixar o nível de significância do teste (α). A seguir, apresentamos as
regiões críticas e regras de decisão para as respectivas hipóteses.
Quadro 3: Resumo das Hipóteses, Regiões Críticas e Regras de Decisão para a Média Populacional,
considerando σ2 desconhecido.
Hipótese Região Crítica Regra de Decisão
(sombreada) (Rejeitar H0)
H0: µ = µ0
Tc ≤ -t(n-1,α/2) ou
H1: µ ≠ µ0
Tc ≥ t(n-1,α/2)
H0: µ = µ0 (*)
H1: µ < µ0 Tc ≤ -t(n-1,α)
H0: µ = µ0 (**)
H1: µ > µ0 Tc ≥ t(n-1,α)
(*) Por simplicidade, excluiu-se a possibilidade µ ≥ µ0 na hipótese nula H0 , com base no conhecimento de que tal fato
levaria à mesma decisão que a aceitação simples de H0: µ = µ0.
(**) Por simplicidade, excluiu-se a possibilidade µ ≤ µ0 na hipótese nula H0 , com base no conhecimento de que tal fato
levaria à mesma decisão que a aceitação simples de H0: µ = µ0.
Exemplo 5.8: O tempo médio necessário para completar uma tarefa era de 15 minutos. Obtém-se uma
amostra aleatória de nove indivíduos e, durante o período de teste, seus tempos (X) para concluir a tarefa
foram 11, 12, 15, 10, 12, 14, 15, 13 e 15. Assumindo que estes dados vêm de uma distribuição normal, teste
a hipótese de que houve alteração no tempo médio para completar a tarefa. Use um nível de 5% de
significância.
Solução:
H0: µ = 15min
H1: µ ≠ 15min (houve alteração no tempo médio)
Com base nas informações amostrais, temos que n = 9; X = 13min e S = 1,871 min.
50
13 − 15
Dessa forma, a estatística do teste será T c = 1,871 = – 3,207. Como o teste é bilateral , o valor crítico ao
9
nível α = 5%, sendo n = 9, será tn-1;α/2 = t8;0,025 = 2,306 (obtido da tabela da distribuição t-Student).
Decisão: Como Tc < – tn-1;α/2, existem evidências para rejeitar H 0. Logo, com base nos dados amostrais e com
5% de significância podemos rejeitar a hipótese H 0, ou seja, existem evidências para afirmar que os
indivíduos apresentaram um tempo médio para executar a tarefa diferente do que era observado
anteriormente.
Ao se fazer inferências sobre uma proporção populacional, p, tomamos nossas com base nas
evidências sobre seu valor amostral, p̂ , de elementos com a característica de interesse.
Pelo Teorema Central do Limite, sabe-se que, para n suficientemente grande, a proporção amostral,
x p(1 − p )
pˆ = segue, aproximadamente, uma distribuição pˆ ~ N p, .
n n
Dessa forma, sob a hipótese H0: p = p0, a estatística do teste para a proporção populacional p será
expressa por
pˆ − p0
ZC = ~ N ( 0,1)
p0 (1 − p 0 ) ,
n
que segue uma distribuição normal padrão.
Após fixar o nível de significância do teste (α), apresentamos a seguir as regiões críticas e regras de decisão
para as respectivas hipóteses.
Quadro 3: Resumo das Hipóteses, Regiões Críticas e Regras de Decisão para a Proporção
Populacional p.
Hipótese Região Crítica Regra de Decisão
(sombreada) (Rejeitar H0)
H0: p = p0
H1: p ≠ p0 Zc ≤ -Zα/2 ou Zc ≥ Zα/2
H0: p = p0 (*)
H1: p < p0 Zc ≤ -Zα
H0: p = p0 (**)
H1: p > p0 Zc ≥ Zα
(*) Por simplicidade, excluiu-se a possibilidade p ≥ p0 na hipótese nula H0 , com base no conhecimento de que tal fato
levaria à mesma decisão que a aceitação simples de H0: p = p0.
(**) Por simplicidade, excluiu-se a possibilidade p ≤ p0 na hipótese nula H0 , com base no conhecimento de que tal fato
levaria à mesma decisão que a aceitação simples de H0: p = p0.
51
Exemplo 5.9: Afirma-se que em um alqueire de maçãs, 10% estão estragadas. De uma amostra aleatória de
150 maçãs examinadas, 30 estavam estragadas. O que você conclui sobre a proporção de maçãs estragadas
em um alqueire a um nível de 5% de significância?
Solução:
H0: p = 0,1
H1: p ≠ 0,1
Com base nas informações amostrais, temos que n = 150 e p̂ = 30/150 = 0,2.
0,2 − 0,1
Dessa forma, a estatística do teste será Z C = ( 0,1).( 0,9 ) = 4,08. Como o teste é bilateral, o valor crítico ao
150
nível de significância de α = 5% será Zα/2 = 1,96.
Decisão: Como ZC > Zα/2 ⇒ Existem evidências para rejeitar H 0. Logo, com base nos dados amostrais e ao
nível de 5% de significância, podemos concluir que a porcentagem de maçãs estragadas é diferente de 10%.
Exemplo 5.10: De registros de vendas passadas sabe-se que 30% dos consumidores compram a pasta dental
C. Uma nova propaganda desse produto é feita e, para testar sua eficácia, de uma amostra aleatória de 1000
consumidores que viram a propaganda, 334 responderam que compram a pasta dental C. Isso indica que a
nova propaganda foi bem sucedida? Use um nível de 5% de significância para testar se a nova propaganda
aumentou a proporção de consumidores da pasta dental C.
Solução:
H0: p= 0,3
H1: p > 0,3 (a nova propaganda aumentou as vendas da pasta C)
Com base nas informações amostrais, temos que n = 1000 e p̂ = 334/1000 = 0,334.
0,334 − 0,300
Dessa forma, a estatística do teste será Z C = ( 0,3).( 0,7 ) = 2,35. De acordo com a hipóteses H 1, temos
1000
que o teste será unilateral e, portanto, o valor crítico ao nível α = 5% será Zα = 1,64.
Decisão: Como ZC > Zα ⇒ Existem evidências para rejeitar H 0. Logo, com base nos dados amostrais e ao
nível de 5% de significância, podemos concluir a nova propaganda aumentou a proporção de consumidores
que compram a pasta dental C.
52
Unidade VI Correlação e Regressão
1. Situando a Temática
Correlação e Regressão são duas técnicas estritamente relacionadas que envolvem uma forma de
estimação. A diferença entre essas duas técnicas e o tipo de estimação estudados anteriormente é que as
técnicas anteriores foram utilizadas para estimar um único parâmetro, enquanto que as técnicas que serão
estudadas nesta unidade se referem à estimação de uma relação que possa existir na população.
2. Problematizando a Temática
A correlação e regressão permite-nos investigar uma relação entre duas variáveis. O estudo de tal
relação pode ser a resposta a perguntas, tais como: “Qual o preço de venda para uma casa com 200m 2 ?” ou
“Pais mais altos tendem a ter filhos mais altos?” ou, ainda, “De cada unidade adicional de renda quanto, em
média, é gasto com despesas adicionais com vestuário?”. A noção de casualidade está implícita nestas
questões. Por exemplo, o tamanho de uma casa determina, ou contribui, para a definição do preço de venda,
mas não o contrário. Ao estudar a correlação entre variáveis, a determinação da direção da casualidade entre
tais variáveis deve ser o primeiro passo ao se analisar dados para o uso dessas técnicas inferenciais, que serão
melhor discutidas a seguir.
3. Conhecendo a Temática
3.1. Correlação
Diagrama de Dispersão
2,00
o
çã
u
rd
g
a
n
tsM
o
n
e
ia
d
é
10 1,75
1,50
0
0 2 4 6 8 10 12 14 16 18 20
300 350 400 450 500 550 600 650 700 750 800
Horas de treinamento Nota no vestibular
53
Correlação
Uma medida do grau e do sinal da correlação linear entre duas variáveis (X,Y) é dado pelo
Coeficiente de Correlação Linear de Pearson, definido por:
Cov ( X , Y )
r= ,
S X SY
∑ ( xi − x )( yi − y )
.
Cov ( X , Y ) = i= 1
n− 1
Portanto, após “alguma” álgebra, é possível denotar o coeficiente de correlação linear pela expressão
abaixo: n n n
n ∑ xi y i − ∑ x∑ i yi
r= i= 1 i= 1 i= 1
2 2
n
n n
n
n ∑ xi − ∑ xi n∑ yi − ∑ y i
2 2
i= 1 i= 1 i= 1 i= 1
o Este coeficiente é adimensional, logo não é afetado pelas unidades de medidas das variáveis
X e Y;
o O sinal positivo indica que as variáveis são diretamente proporcionais, enquanto que o
sinal negativo indica que a relação entre as variáveis é inversamente proporcional;
o O valor de “r” estará sempre no intervalo de -1 a 1. Teremos r = +1 se os pontos estiverem
exatamente sobre uma reta ascendente (correlação positiva perfeita). Por outro lado, teremos r = -1 se os
pontos estiverem sobre uma reta descendente (correlação negativa perfeita)
-1 0 1
ausência
Sentido: negativa negativa negativa positiva positiva positiva
Força: forte moderada fraca fraca moderada forte
Como o valor de r é calculado com base nos n elementos de uma amostra, este representa uma
estimativa do verdadeiro valor para o coeficiente de correlação populacional (ρ). Logo, faz-se necessário
alguma ferramenta de inferência estatística que permita saber se o valor de r, combinado com o respectivo
tamanho de amostra n, a um dado nível de significância α, é suficiente para afirmarmos que existe uma
correlação linear entre duas variáveis.
Dessa forma, sob a hipótese H0: ρ = 0, a estatística do teste para correlação linear populacional ρ será
expressa por
n− 2
TC = r ~ t ( n − 2 ),α /2
,
1− r2
54
Após fixar o nível de significância do teste (α), apresentamos a seguir a região crítica e a regra de decisão
para o teste bilateral.
Quadro 4: Hipóteses, Região Crítica e Regra de Decisão para a Correlação Linear Populacional ρ
Hipótese Região Crítica Regra de Decisão
(sombreada) (Rejeitar H0)
H0: ρ = 0
Tc ≤ -t(n-2,α/2) ou
H1: ρ ≠ 0
Tc ≥ t(n-2,α/2)
Exemplo 6.1: A tabela abaixo apresenta os preços médios das ações e títulos divulgados pela Bolsa de Nova
York entre 1950 e 1959. Calcule o coeficiente de correlação de Pearson, interprete o resultado e verifique sua
significância a nível de 5%.
Solução:
Para o cálculo do coeficiente de correlação r, necessitamos de alguns cálculos preliminares a partir da tabela
acima:
i= 1 i= 1 i= 1 i= 1
Concluímos que existe uma correlação negativa entre os preços médios das ações e de títulos, ou seja, existe
uma tendência de baixa nos preços das ações quando se verifica alta nos preços dos títulos e vice-versa,
embora tal relação não seja acentuada.
Para testar a significância da correlação, devemos realizar um teste de hipóteses para correlação
populacional. As hipóteses H0 e H1 são definidas por:
H0: ρ = ρ0
H1: ρ ≠ ρ0
Com base nas informações amostrais, temos que n = 9 e r = -0,4561. Dessa forma, a estatística do teste será
n− 2
TC = r = − 1,4496 . De acordo com a hipóteses H 1, temos que o teste será bilateral e, portanto, o
1− r2
valor crítico ao nível α = 5% será t(n-2,α/2) = t(7,0.025) = 2,37.
Decisão: Como –t(n-2,α/2) < TC < t(n-2,α/2) ⇒ Não existem evidências para rejeitar H 0. Logo, com base nos
dados amostrais e ao nível de 5% de significância, não podemos afirmar que exista uma correlação entre os
preços médios das ações e dos títulos entre 1950 e 1959.
3.2. Regressão
Quando analisamos dados que sugerem a existência de uma relação funcional entre duas variáveis,
surge então o problema de se determinar uma função matemática que exprima esse relacionamento, ou seja,
uma equação de regressão.
Portanto, ao imaginar uma relação funcional entre duas variáveis, digamos X e Y, estamos
interessados numa função que explique grande parte da variação de Y por X. Entretanto, uma parcela da
variabilidade de Y não explicada por X será atribuída ao acaso, ou seja, ao erro aleatório.
Admitimos que a variável X seja coletada sem erro, isto é, X não será aleatório. Enquanto que a
variável Y apresenta uma variação na qual, acreditamos, que possa ser explicada por X. Essa situação admite
a formulação do problema de modo que uma variável Y, chamada de variável resposta ou dependente, seja
apresentada em função de uma variável X, denominada de variável explicativa ou independente.
O nosso objetivo será estimar valores para α e β através dos dados fornecidos pela amostra. Além
disso, queremos encontrar a reta que passe o mais próximo possível dos pontos observados segundo um
critério pré-estabelecido.
56
O método de mínimos quadrados é usado para estimar os parâmetros do modelo (α e β), segundo um
critério, e consiste em fazer com que a soma dos erros quadráticos seja menor possível, ou seja, este método
consiste em obter os valores de α e β que minimizam a expressão:
SQE = ∑ ε i2 = ∑ (y i − α − βx i ) 2 = f (α , β ). .
n∑ x i y i − ∑ x∑
b=
i yi
a=
∑ y i − b∑ x i
.
n∑ x − (∑ x )
2 2
i i n
ŷ = a + bx ,
e para cada valor xi (i = 1, ..., n) temos, pela equação de regressão, o valor predito:
ŷ i = a + bx i .
O resíduo relativo à i-ésima observação (ei) pode ser considerado uma estimativa do erro aleatório (εi), como
ilustrado abaixo.
y ° °
i
57
O Coeficiente de Determinação (R2)
R2 =
∑ ( y i − y)
2
variação total
onde y = ∑ yi
.
n
Note que o coeficiente β representa a inclinação da reta de regressão. Dessa forma, um teste de
hipóteses sobre este parâmetro pode ser usado como uma maneira de verificar se a equação de regressão
ajustada com base em dados amostrais é estatisticamente significante. Para tanto, vamos definir as hipóteses
nula e alternativa por:
H0: β = 0
H1: β ≠ 0.
∑ ( y i − yˆ i ) 2
onde: S b =
2 i= 1
n e TC segue uma distribuição t-Student com n-2 graus de liberdade.
( n − 2) ∑ ( x i − x ) 2
i= 1
Após fixar o nível de significância do teste (α), apresentamos a seguir a região crítica e a regra de decisão
para o teste bilateral.
Quadro 5: Hipóteses, Região Crítica e Regra de Decisão para a Correlação Linear Populacional ρ
Hipótese Região Crítica Regra de Decisão
(sombreada) (Rejeitar H0)
H0: β = 0
Tc ≤ -t(n-2,α/2) ou
H1: β ≠ 0
Tc ≥ t(n-2,α/2)
58
Exemplo 6.2: A tabela abaixo apresenta os respectivos pesos X e Y de uma amostra de 12 pais e de seus
filhos mais velhos. Determine a reta de regressão e realize um teste de hipóteses ao nível de 5% de
significância para o coeficiente angular
Solução:
Para o cálculo dos coeficientes de um modelo de regressão, necessitamos de alguns cálculos preliminares a
partir da tabela acima:
Obtemos os as estimativas dos parâmetros do modelo de regressão linear através dos coeficientes
n∑ x i y i − ∑ x∑
i yi 12(54107) − (800 × 811)
b= = = 0,4764 e
n∑ x − (∑ x ) 12(53418) − (800) 2
2 2
i i
a=
∑ y i − b∑ x i
=
811 − (0,4767)800
= 35,82 .
n 12
Assim, a equação de regressão que relaciona os pesos dos pais e de seus filhos, pode ser denotada por
yˆ = 35,82 + 0,4764 x .
59
n
∑ ( y i − yˆ i ) 2
onde: S b =
2 i= 1
n . Assim, temos que
( n − 2) ∑ ( x i − x ) 2
i= 1
n
∑i= 1
( y i − yˆ i ) 2
(68 − 66.8) 2 + ⋯ + (70 − 69.6) 2
S b2 = = = 0,027934 .
n
( n − 2) ∑ ( x i − x ) 2
[
(12 − 2) (65 − 66.7) 2 + ⋯ + (70 − 66.7) 2 ]
i= 1
| 0,4764 |
Dessa forma, a estatística do teste será TC = = 2,85 . De acordo com a hipóteses H 1, temos que o
0,027934
teste será bilateral e, portanto, o valor crítico ao nível α = 5% será t(n-2,α/2) = t(10,0.025) = 2,23.
Decisão: Como T C > t(n-2,α/2) ⇒ Existem evidências para rejeitar H 0. Logo, com base nos dados amostrais
e ao nível de 5% de significância, podemos afirmar que existe uma relação funcional entre os pesos dos pais
e de seus filhos mais velhos.
Por último, o coeficiente de correlação múltiplo pode ser calculado a partir dos dados observados (y) e de
seus respectivos valores preditos ( ŷ ). A tabela abaixo apesenta os cálculos necessários para obter o R 2.
R2 =
∑ ( ŷ i − y)
2
=
19,22
= 0,4938 = 49,38% .
∑ (y i − y)
2
38,92
Isso significa que apenas 49,38% da variação dos pesos dos filhos pode ser explicada pela variação de peso
nos pais.
60
Referências Bibliográficas
FONSECA, J.S., MARTINS, G.A. & TOLEDO, G.L., Estatística Aplicada, São Paulo, Editora Atlas, 2ª
ed., 1985.
TRIOLA, M.F, Introdução à Estatística, Livros Técnicos e Científicos, 7ª ed,, Rio de Janeiro, 1999.
MEYER, P.L., Probabilidade: Aplicações à Estatística, Livros Técnicos e Científicos, Editora AS, Rio de
Janeiro, 1983.
61