Estatistica OK

Polícia Civil do Estado da Paraíba
Concurso Público 2021
AGENTE DE INVESTIGAÇÃO
Conteúdo
1 Estatística descritiva e análise exploratória de dados: gráficos, diagramas, tabelas, medidas descritivas
(posição, dispersão, assimetria e curtose). 2 Probabilidade. 2.1 Definições básicas e axiomas. 2.2
Probabilidade condicional e independência. 2.3 Variáveis aleatórias discretas e contínuas. 2.4 Distribuição de
probabilidades. 2.5 Função de probabilidade. 2.6 Função densidade de probabilidade. 2.7 Esperança e
momentos. 2.8 Distribuições especiais. 2.9 Distribuições condicionais e independência. 2.10 Transformação
de variáveis. 2.11 Leis dos grandes números. 2.12 Teorema central do limite. 2.13 Amostras aleatórias. 2.14
Distribuições amostrais. 3 Inferência estatística. 3.1 Estimação pontual: métodos de estimação, propriedades
dos estimadores, suficiência. 3.2 Estimação intervalar: intervalos de confiança, intervalos de credibilidade. 3.3
Testes de hipóteses: hipóteses simples e compostas, níveis de significância e potência de um teste, teste t de
Student, teste qui-quadrado. 4 Análise de regressão linear. 4.1 Critérios de mínimos quadrados e de máxima
verossimilhança. 4.2 Modelos de regressão linear. 4.3 Inferência sobre os parâmetros do modelo. 4.4 Análise
de variância. 4.5 Análise de resíduos. 5 Técnicas de amostragem: amostragem aleatória simples,
estratificada, sistemática e por conglomerados. 5.1 Tamanho amostral.
Coletâneas de Exercícios I e II
1
Estatística
Estatística descritiva e análise exploratória de dados: gráficos, diagramas, tabelas, medidas
descritivas (posição, dispersão, assimetria e curtose)
A ESTATÍSTICA é um ramo da Matemática que compreende o conjunto de técnicas empregadas para coleta
e análise de dados, além da interpretação dos resultados e conclusões a respeito da população de estudo.
Divisão da estatística
- Estatística Descritiva: coleta, organização e descrição dados.
Ela preocupa-se com a forma pela qual podemos apresentar um conjunto de dados em tabelas e gráficos, e
também resumir as informações contidas nestes dados mediante a utilização de medidas estatísticas.
- Estatística Indutiva ou Inferencial: análise e a interpretação desses dados.
A inferência estatística baseia-se na teoria das probabilidades para estabelecer conclusões sobre todo um
grupo (chamado população), quando se observou apenas uma parte (amostra) representativa desta população.
Método Estatístico
Atualmente quase todo acréscimo de conhecimento resulta da observação e do estudo. A verdade é que
desenvolvemos processos científicos para seu estudo e para adquirirmos tais conhecimentos, ou seja
desenvolvemos maneiras ou métodos para tais fins.
Método é um conjunto de meios dispostos convenientemente para se chegar a um fim que se deseja.
Podemos destacar dois métodos:
- Método experimental: consiste em manter constantes todas as causas (fatores), menos uma, e variar esta
causa de modo que o pesquisador possa descobrir seus efeitos, caso existam. Muito utilizado no estudo da
Física, da Química etc
- Método estatístico: diante da impossibilidade de manter as causas constantes, admite todas essas causas
presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências
cabem a cada uma delas.
Fases do método estatístico

- Coleta de dados: após cuidadoso planejamento e a devida determinação das características mensuráveis
do fenômeno que se quer pesquisar, damos início à coleta de dados numéricos necessários à sua descrição.
A coleta pode ser:
Direta: quando é feita sobre elementos informativos de registro obrigatório (nascimento, casamentos e óbitos,
importação e exportação de mercadorias), dados coletados pelo próprio pesquisador através de inquéritos e
questionários, como por exemplo o censo demográfico. A coleta direta de dados pode ser classificada em fator
do tempo:
(I) contínua (registro) – quando feita continuamente.
(II) periódica – quando feita em intervalos constantes de tempo (exemplo o censo de 10 em 10 anos, etc)
(III) ocasional – quando feita extemporaneamente, a fim de atender uma conjuntura ou a uma emergência
(caso de epidemias)
Indireta: quando é indeferida de elementos conhecidos (coleta direta) e/ou de conhecimento de outros
fenômenos relacionados com o fenômeno estudado. Exemplo: pesquisas de mortalidade infantil, que é feita
através de dados colhidos por uma coleta direta (número de nascimentos versus números de obtidos de
crianças)
- Crítica dos dados: depois de obtidos os dados, os mesmos devem ser cuidadosamente criticados, à procura
de possível falhas e imperfeições, a fim de não incorrermos em erros grosseiros ou de certo vulto, que possam
influir sensivelmente nos resultados.
A crítica é externa quando visa às causas dos erros por parte do informante, por distração ou má interpretação
das perguntas que lhe foram feitas.
A crítica é interna quando visa observar os elementos originais dos dados da coleta.
- Apuração dos dados: soma e processamento dos dados obtidos e a disposição mediante critérios de
classificação, que pode ser manual, eletromecânica ou eletrônica.
2
- Exposição ou apresentação de dados: os dados devem ser apresentados sob forma adequada (tabelas ou
gráficos), tornando mais fácil o exame daquilo que está sendo objeto de tratamento estatístico.
- Análise dos resultados: realizadas anteriores

(Estatística Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística
Indutiva ou Inferencial, que tem por base a indução ou inferência, e tiramos desses resultados conclusões e
previsões.
Mais alguns conceitos devem ser aprendidos para darmos continuidade ao nosso entendimento sobre
Estatística.
- Variáveis: conjunto de resultados possíveis de um fenômeno.

As variáveis podem ser:
1) Qualitativas – quando seus valores são expressos por atributos: sexo (masculino ou feminino), cor da pele,
entre outros. Dizemos que estamos qualificando.
2) Quantitativas – quando seus valores são expressos em números (salários dos operários, idade dos alunos,
etc). Uma variável quantitativa que pode assumir qualquer valor entre dois limites recebe o nome de variável
contínua; e uma variável que só pode assumir valores pertencentes a um conjunto enumerável recebe o nome
de variável discreta.
- População estatística ou universo estatístico: conjunto de entes portadores de, pelo menos, uma
característica comum.
Exemplos: estudantes (os que estudam), concurseiros (os que prestam concursos), ...
Podemos ainda pesquisar uma ou mais características dos elementos de alguma população, as quais devem
ser perfeitamente definidas. É necessário existir um critério de constituição da população, válido para qualquer
pessoa, no tempo ou no espaço.
- Amostra: é um subconjunto finito de uma população.
A Estatística Indutiva tem por objetivo tirar conclusões sobre as populações, com base em resultados
verificados em amostras retiradas dessa população. É preciso garantir que a amostra possua as mesmas
características da população, no que diz respeito ao fenômeno que desejamos pesquisar.
Censo: é uma avaliação direta de um parâmetro, utilizando-se todos os componentes da população.

Principais propriedades:
- Admite erros processual zero e tem 100% de confiabilidade;
- É caro;
- É lento;
- É quase sempre desatualizado (visto que se realizam em períodos de anos 10 em 10 anos);
- Nem sempre é viável.
Estimação: é uma avaliação indireta de um parâmetro, com base em um estimador através do cálculo de
probabilidades.
Principais da Estimação:
- Admite erro processual positivo e tem confiabilidade menor que 100%.
- É barata.
- É rápida.
- É atualizada.
- É sempre viável.
Dados brutos: quando observamos ou fazemos n perguntas as quais nos dão n dados ou respostas, obtemos
uma sequência de n valores numéricos. A toda sequência denominamos dados brutos.
Dados brutos é uma sequência de valores numéricos não organizados, obtidos diretamente da observação de
3
um fenômeno coletivo.
Rol: é uma sequência ordenada dos dados brutos.
Exemplo: Um aluno obteve as seguintes notas no ano letivo em Matemática: 5,5 ; 7 ; 6,5 ; 9
Os dados brutos é a sequência descrita acima
Rol: 5,5 – 6,5 – 7 – 9 (ordenação crescente das notas).
Medidas Descritivas
Tem por objetivo descrever um conjunto de dados de forma organizada e compacta que possibilita a
visualização do conjunto estudado por meio de suas estatísticas, o que não significa que estes cálculos e
conclusões possam ser levados para a população.
Podemos classificar as medidas de posição conforme o esquema abaixo:
Representativas (Médias)
São medidas descritivas que tem por finalidade representar um conjunto de dados.
Média Aritmética
Considere um conjunto numérico A = { x1; x2; x3; ...; xn } e efetue uma certa operação com todos os elementos
de A.
Se for possível substituir cada um dos elementos do conjunto A por um número x de modo que o resultado da
operação citada seja o mesmo diz – se, por definição, que x será a média dos elementos de A relativa a essa
operação.
Média Aritmética Simples

A média dos elementos do conjunto numérico A relativa à adição é chamada média aritmética.
Cálculo da média aritmética
Se x for a média aritmética dos elementos do conjunto numérico A = {x1; x2; x3; ...; xn}, então, por definição:
A média aritmética(x) dos n elementos do conjunto numérico A é a soma de todos os seus elementos,
dividida pelo número de elementos n.
Exemplos:
1) Calcular a média aritmética entre os números 3, 4, 6, 9, e 13.
Se x for a média aritmética dos elementos do conjunto (3, 4, 6, 9, 13), então x será a soma dos 5 elementos,
dividida por 5. Assim:
A média aritmética é 7.
2) Os gastos (em reais) de 15 turistas em Porto Seguro estão indicados a seguir:

65 – 80 – 45 – 40 – 65 – 80 – 85 – 90
75 – 75 – 70 – 75 – 75 – 90 – 65
4
Se somarmos todos os valores teremos:
Assim podemos concluir que o gasto médio do grupo de turistas foi de R$ 71,70.
Média Aritmética Ponderada
A média dos elementos do conjunto numérico A relativa à adição e na qual cada elemento tem um “determinado
peso” é chamada média aritmética ponderada.
Cálculo da média aritmética ponderada

Se x for a média aritmética ponderada dos elementos do conjunto numérico A = {x1; x2; x3; ...; xn} com “pesos”
P1; P2; P3;...; Pn, respectivamente, então, por definição: P1 . x + P2 . x + P3 . x + ... + Pn . x =
= P1 . x1 + P2 . x2 + P3 . x3 + ... + Pn . xn ↔ (P1 + P2 + P3 + ... + Pn) . x =
= P1 . x1 + P2 . x2 + P3 . x3 + ... + Pn . xn e, portanto,
Observe que se P1 = P2 = P3 = ... = Pn = 1, então 𝑥 = : que é a média aritmética simples.
A média aritmética ponderada dos n elementos do conjunto numérico A é a soma dos produtos de cada
elemento multiplicado pelo respectivo peso, dividida pela soma dos pesos.
Exemplos:
1) Calcular a média aritmética ponderada dos números 35, 20 e 10 com pesos 2, 3, e 5, respectivamente.
Se x for a média aritmética ponderada, então:
A média aritmética ponderada é 18.
2) Em um dia de pesca nos rios do pantanal, uma equipe de pescadores anotou a quantidade de peixes
capturada de cada espécie e o preço pelo qual eram vendidos a um supermercado em Campo Grande.
Vamos determinar o preço médio do quilograma do peixe vendido pelos pescadores ao supermercado.
Considerando que a variável em estudo é o preço do quilo do peixe e fazendo a leitura da tabela, concluímos
que foram pescados 18 kg de peixe ao valor unitário de R$ 3,00, 10 kg de peixe ao valor unitário de R$ 5,00 e
6 kg de peixe ao valor de R$ 9,00.
Vamos chamar o preço médio de p:
Neste caso o fator de ponderação foi a quantidade de peixes capturadas de cada espécie.
A palavra média, sem especificações (aritmética ou ponderada), deve ser entendida como média aritmética.
Média Geométrica
Este tipo de média é calculado multiplicando-se todos os n valores e extraindo-se a raiz de índice n deste
produto. (n≥2)
5
Em uma fórmula: a média geométrica de a1, a2, ..., an é
A média geométrica de um conjunto de números é sempre menor ou igual à média aritmética dos membros
desse conjunto (as duas médias são iguais se e somente se todos os membros do conjunto são iguais). Isso
permite a definição da média aritmética geométrica, uma mistura das duas que sempre tem um valor
intermediário às duas.
A média geométrica é também a média aritmética harmônica no sentido que, se duas sequências (an) e (hn)
são definidas:
Então an e hn convergem para a média geométrica de x e y.
Exemplo:
Digamos que tenhamos os números 4, 6 e 9, para obtermos o valor médio aritmético deste conjunto,
multiplicamos os elementos e obtemos o produto 216.
Pegamos então este produto e extraímos a sua raiz cúbica, chegando ao valor médio 6.
Extraímos a raiz cúbica, pois o conjunto é composto de 3 elementos. Se fossem n elementos, extrairíamos a
raiz de índice n.
Neste exemplo teríamos a seguinte solução:
Utilidades da Média Geométrica

Progressão Geométrica
Uma das utilizações deste tipo de média é na definição de uma progressão geométrica que diz que em toda
PG., qualquer termo é média geométrica entre o seu antecedente e o seu consequente:
Tomemos como exemplo três termos consecutivos de uma PG.: 7, 21 e 63.

Temos então que o termo 21 é média geométrica dos termos 7 e 63.
Vejamos:
Variações Percentuais em Sequência

Outra utilização para este tipo de média é quando estamos trabalhando com variações percentuais em
sequência.
Exemplo:
Digamos que uma categoria de operários tenha um aumento salarial de 20% após um mês, 12% após dois
meses e 7% após três meses. Qual o percentual médio mensal de aumento desta categoria?
Sabemos que para acumularmos um aumento de 20%, 12% e 7% sobre o valor de um salário, devemos
multiplicá-lo sucessivamente por 1,2, ; 1,12 e 1,07 que são os fatores correspondentes a tais percentuais.
A partir daí podemos calcular a média geométrica destes fatores:
Como sabemos, um fator de 1, 128741 corresponde a 12, 8741% de aumento.
6
Este é o valor percentual médio mensal do aumento salarial, ou seja, se aplicarmos três vezes consecutivas o
percentual 12, 8741%, no final teremos o mesmo resultado que se tivéssemos aplicado os percentuais 20%,
12% e 7%.
Digamos que o salário desta categoria de operários seja de R$ 1.000,00, aplicando-se os sucessivos aumentos
temos:
Observe que o resultado final de R$ 1.438,08 é o mesmo nos dois casos. Se tivéssemos utilizado a média
aritmética no lugar da média geométrica, os valores finais seriam distintos, pois a média aritmética de 13%
resultaria em um salário final de R$ 1.442,90, ligeiramente maior como já era esperado, já que o percentual de
13% utilizado é ligeiramente maior que os 12, 8417% da média geométrica.
Cálculo da Média Geométrica Triangular

Bom... primeiro observamos o mapa e somamos as áreas dos quadrados catetos e dividimos pela hipotenusa
e no final pegamos a soma dos ângulos subtraindo o que está entre os catetos e dividimos por PI (3,1415...)
assim descobrimos a média geométrica dos triângulos.
Exemplo:
A média geométrica entre os números 12, 64, 126 e 345, é dada por:
G = R4[12 ×64×126×345] = 76,013
Aplicação Prática:
Dentre todos os retângulos com a área igual a 64 cm², qual é o retângulo cujo perímetro é o menor possível,
isto é, o mais econômico? A resposta a este tipo de questão é dada pela média geométrica entre as medidas
do comprimento a e da largura b, uma vez que a.b = 64.
A média geométrica G entre a e b fornece a medida desejada.
G = R[a × b] = R[64] = 8
Resposta:
É o retângulo cujo comprimento mede 8 cm e é lógico que a altura também mede 8 cm, logo só pode ser um
quadrado! O perímetro neste caso é p = 32 cm. Em qualquer outra situação em que as medidas dos
comprimentos forem diferentes das alturas, teremos perímetros maiores do que 32 cm.
Interpretação gráfica
A média geométrica entre dois segmentos de reta pode ser obtida geometricamente de uma forma bastante
simples.
Sejam AB e BC segmentos de reta. Trace um segmento de reta que contenha a junção dos segmentos AB e
BC, de forma que eles formem segmentos consecutivos sobre a mesma reta.
7
Dessa junção aparecerá um novo segmento AC. Obtenha o ponto médio O deste segmento e com um
compasso centrado em O e raio OA, trace uma semicircunferência começando em
A e terminando em C. O segmento vertical traçado para cima a partir de B encontrará o ponto D na
semicircunferência. A medida do segmento BD corresponde à média geométrica das medidas dos segmentos
AB e BC.
Média Harmônica
A média harmônica é o inverso da Média Geométrica dada pela fórmula:
Exemplo:
Calcular a média entre os números 3 e 4
A média entre seus inversos é:
Questão
Na figura abaixo os segmentos AB e DA são tangentes à circunferência determinada pelos pontos B, C e D.

Sabendo-se que os segmentos AB e CD são paralelos, pode-se afirmar que o lado BC é:
A) a média aritmética entre AB e CD.

B) a média geométrica entre AB e CD.
C) a média harmônica entre AB e CD.
D) o inverso da média aritmética entre AB e CD.
E) o inverso da média harmônica entre AB e CD.
Resolução
Sendo AB paralela a CD, se traçarmos uma reta perpendicular a AB, esta será perpendicular a CD também.
Traçamos então uma reta perpendicular a AB, passando por B e outra perpendicular a AB passando por D:
Sendo BE perpendicular a AB temos que BE irá passar pelo centro da circunferência, ou seja, podemos concluir
que o ponto E é ponto médio de CD.
Agora que ED é metade de CD, podemos dizer que o comprimento AF vale AB-CD/2.
8
Aplicamos Pitágoras no triângulo ADF:
Aplicamos agora no triângulo ECB:
Agora diminuímos a equação (1) da equação (2):
Note, no desenho, que os segmentos AD e AB possuem o mesmo comprimento, pois são tangentes à
circunferência.
Vamos então substituir na expressão acima AD = AB:
Ou seja, BC é a média geométrica entre AB e CD.
Resposta: B.
Separatrizes (Mediana, Quartis, Decis e Centis ou Percentis)
São medidas de posição que divide o conjunto de dados em partes proporcionais, quando os mesmos são
ordenados.
a) Dados não tabelados
Antes de determinarmos as separatrizes devemos em primeiro lugar encontrar a posição da mesma.
- Se o número de elementos for par ou ímpar, as separatrizes seguem a seguinte ordem:
Dados Tabelados
b) Distribuição de freqüências pontual: segue a mesma regra usada para dados
não tabelados
c) Distribuição de freqüências intervalar
Onde:
9
Mediana e Moda
A moda e a mediana são utilizados para resumirem um conjunto de valores dado uma série estatística. Vamos
ver os conceitos de cada uma delas:
A mediana, é uma medida de localização do centro da distribuição dos dados.
A moda, é o valor que aparece com maior frequência, ou seja, podemos dizer que é o termo que está na
“moda”.
Exemplo:
Em um time de futebol temos as seguintes altura dos atletas:
(Fonte: http://geniodamatematica.com.br)
Ache o valor da mediana e da moda.
Resolução:
Primeiramente precisamos colocar os dados de forma ordenada, ou seja, montar o rol:
Para acharmos a mediana precisamos ver se a quantidade de valores, se for ímpar a mediana é o valor que
ocupa a posição central, se for par a mediana corresponde à média aritmética dos dois valores centrais.
No nosso caso temos que é ímpar:
10
Então a mediana é o valor que está na 5ª linha: 1,62 E a moda é 1,66, que é o valor que aparece com maior
frequência.
Emprego da moda
1) Quando se deseja obter uma medida rápida e aproximada de posição;

2) Quando a medida de posição deve ser o valor mais típico da distribuição.
Posição relativa da média, mediana e moda

Quando uma distribuição é simétrica, as três medidas coincidem. Porém, a assimetria torna-as diferentes e
essa diferença é tanto maior quanto maior é a assimetria. Assim, em uma distribuição temos:
Distribuição de Frequência
Usamos a distribuição de frequência3 para organizarmos os dados estatísticos resultantes de variáveis
quantitativas (as que usam os números para expressar-se) e fazemos a tabulação dos dados, ou seja, a
colocação dos dados de forma ordenada em uma tabela, para assim melhor interpreta-los.
Distribuição de frequência sem intervalo de classe
Quando temos variáveis discretas (possuem número finito de valores entre quaisquer dois valores) a sua
11
variação é relativamente pequena, cada valor pode ser tomado como um intervalo de classe.
Exemplo:
Uma professora organizou as notas que seus 25 alunos obtiveram em uma de suas provas, da seguinte forma:
1,0 3,0 4,0 6,0 8,0

1,0 3,0 5,0 7,0 8,0
2,0 3,0 5,0 7,0 9,0
2,0 3,0 5,0 7,0 9,0
2,0 4,0 5,0 8,0 9,0
Observe que ela já ordenou os dados brutos (rol) o que ajuda a fazermos a tabulação dos dados. Tabulando
teremos:
Nota Número de alunos
1,0 2
2,0 3
3,0 4
4,0 2
5,0 4
6,0 1
7,0 3
8,0 3
9,0 3
Total 25
O número de vezes que um dado aparece é chamado de FREQUÊNCIA ABSOLUTA representado por f ou fi
(varia de acordo com a bibliografia estudada). Também podemos representar a frequência em forma de
porcentagem, a esta damos o nome de FREQUÊNCIA RELATIVA (fr). Ela é o quociente entre a frequência
absoluta e o número de elementos da população total.
Nota f fr
1,0 2 8%
2,0 3 12%
3,0 4 16%
4,0 2 8%
5,0 4 16%
6,0 1 4%
7,0 3 12%
8,0 3 12%
9,0 3 12%
Total 25 100%
Podemos ainda através desta tabulação encontrar a
FREQUÊNCIA ABSOLUTA ACUMULADA (fa, Fa ou Fi), na qual é a soma da frequência absoluta com a do
anterior.
12
Observe que a última linha da Frequência Absoluta Acumulada é SEMPRE IGUAL ao somatório total dos
dados.
Temos ainda a FREQUÊNCIA RELATIVA ACUMULADA (fra), que é a razão entre a frequência absoluta
acumulada e a frequência absoluta acumulada total de dados, é a forma percentual de representarmos esses
dados.
O exemplo acima mostra a distribuição de frequência para dados não agrupados. Quando trabalhamos com
uma quantidade grande de dados, a melhor forma é agrupa-los, afim de ganharmos simplicidade, mesmo que
perdemos os pormenores.
Nota:
Muitas bibliografias tendem a definir os termos de seus elementos estatísticos de formas variadas, dando nome
aos seus elementos de formas diferentes. Porém devemos levar em consideração o princípio de cada um, o
seu uso e relevância dentro do tratamento dos dados.
Colocamos aqui algumas dessas definições para o mesmo elemento para que você possa estar
contextualizado sobre o assunto.
Distribuição de frequência para dados agrupados

Para melhor entendimento vamos acompanhar um exemplo e assim destacaremos os elementos desse tipo
de distribuição e os meios de montarmos sua tabela.
Exemplo:
Uma pesquisa feita com 40 alunos de uma escola C, revelou os seguintes dados sobre a estatura de seus
alunos (estaturas dadas em cm):
13
Observe que os dados não estão ordenados, então devemos organiza-los para assim conseguirmos
analisarmos, montando assim o nosso Rol:
Com isso já fica evidente qual a menor (150 cm) e a maior (173 cm) estatura deste grupo de alunos, e sua
concentração está entre 160 e 165 cm.
Se montássemos uma tabela semelhante a do exemplo anterior, exigiria muito espaço, mesmo a nossa
amostra tendo uma quantidade de valores razoável (40 alunos). Então convém agruparmos esses valores em
vários intervalos. Com isso teremos a seguinte tabela de distribuição de frequência com intervalo de classes.
ESTATURA DOS 40 ALUNOS DA ESCOLA C
Para montarmos uma tabela com tal agrupamento, precisamos saber algumas definições:
- Classes de frequência ou classes: são intervalos de variação da variável. Elas são simbolicamente
representadas por i, sendo i = 1,2,3, ..., k (onde k é o número total de classes da distribuição).
Por exemplo o intervalo 158 ├- 162 define a 3ª classe (i =3), de um total de 6 classes, k = 6.
Depois aplicamos a fórmula de Sturges (regra do Logaritmo) dada por:
Aplicando no nosso exemplo temos: k = 1 + 3,3 .log 40 → k = 1 + 3,3 .1,60 → k = 1 + 5,28 → k = 6,28,
arredondando temos k = 6.
Dica
Quantidade de classes x quantidade de dados
14
Já sabemos que vamos precisar de 6 classes para agruparmos nossos dados. Agora precisamos descobrir
quantos dados vamos agrupar juntos, ou seja, qual o tamanho ou amplitude do nosso intervalo, para isso
precisaremos de mais algumas informações.
- Amplitude amostral ou total (AA): diferença entre o valor máximo e o valor mínimo da amostra.
AA = x (máx.) – x (min.)
Sabemos que o menor valor da nossa amostra é 150 e o maior 173, aplicando teremos:
AA = 173 – 150 = 23 cm
- Amplitude das classes (h): é a divisão entre a amplitude total e o número de classes. O valor desta divisão
só poderá ser arredondado para mais.
Para nosso exemplo temos:
Assim agruparemos os dados de 4 em 4: 150 ao 154; 154 ao 158, ..., 170 ao 174, completando nossas 6
classes.
Lembrando que como utilizamos o símbolo “├- “não estamos considerando o valor final, por isso o repetimos
no intervalo seguinte.
Com isso, conseguimos chegar a nossa tabela inicial.
Tome Nota: Podemos chamar a amplitude de classes também como Amplitude de um intervalo de classe
ou intervalo de classe (hi) que é a medida do intervalo que define a classe. Obtemos ela através da diferença
do limite superior e inferior de cada classe. Uma vez que conhecemos e temos os intervalos podemos encontra-
la facilmente.
hi = Li – li
Outras informações são importantes e relevantes ao nosso estudo, como meio de chegarmos a outras análises.
Vejamos:
- Limite de classe: são os extremos de cada classe. O menor chamamos de limite inferior da classe (li) e o
maior, o limite superior da classe (Li).
Tomando como exemplo a 3ª classe, temos:
l3 = 158 e L3 = 162
Pra não esquecer!

O símbolo ├- , indica uma inclusão do valor de li (limite inferior) e exclusão do valor de Li (limite superior).
O símbolo ├-┤, indica uma inclusão tanto do valor de li (limite inferior) como do valor de Li (limite superior).
O símbolo -┤, , indica uma exclusão do valor de li (limite inferior) e inclusão do valor de Li (limite superior).
- Amplitude total da distribuição (AT): é a diferença entre o limite superior da última classe e o limite inferior
da última classe.
AT = L (máx.) – l (mín.)
Em nosso caso temos: AT = 174 – 150 = 24 cm
Observação: A amplitude total da distribuição (AT)

JAMAIS coincide com a amplitude amostral (AA).
- Ponto médio de uma classe (xi): é o ponto que divide o intervalo de classe em duas partes iguais. É o valor
que a representa. Para sua obtenção calculamos a média aritmética entre os limites da classe (superior e
inferior).
15
Exemplo:
O ponto médio da 4ª classe é:
Tabelas e Gráficos
O nosso cotidiano é permeado das mais diversas informações, sendo muito delas expressas em formas de
tabelas e gráficos, as quais constatamos através do noticiários televisivos, jornais, revistas, entre outros. Os
gráficos e tabelas fazem parte da linguagem universal da Matemática, e compreensão desses elementos é
fundamental para a leitura de informações e análise de dados.
A parte da Matemática que organiza e apresenta dados numéricos e a partir deles fornecer conclusões é
chamada de Estatística.
Tabelas: as informações nela são apresentadas em linhas e colunas, possibilitando uma melhor leitura e
interpretação.
Exemplo:
:
Observação: nas tabelas e nos gráficos podemos notar que a um título e uma fonte. O título é utilizado para evidenciar a
principal informação apresentada, e a fonte identifica de onde os dados foram obtidos.
Tipos de Gráficos
Gráfico de linhas: são utilizados, em geral, para representar a variação de uma grandeza em certo período
de tempo.
Marcamos os pontos determinados pelos pares ordenados (classe, frequência) e os ligados por segmentos de
reta. Nesse tipo de gráfico, apenas os extremos dos segmentos de reta que compõem a linha oferecem
informações sobre o comportamento da amostra. Exemplo:
16
Gráfico de barras: também conhecido como gráficos de colunas, são utilizados, em geral, quando há uma
grande quantidade de dados. Para facilitar a leitura, em alguns casos, os dados numéricos podem ser
colocados acima das colunas correspondentes. Eles podem ser de dois tipos: barras verticais e horizontais.
- Gráfico de barras verticais: as frequências são indicadas em um eixo vertical. Marcamos os pontos
determinados pelos pares ordenados (classe, frequência) e os ligamos ao eixo das classes por meio de barras
verticais.
Exemplo:
- Gráfico de barras horizontais: as frequências são indicadas em um eixo horizontal. Marcamos os pontos
determinados pelo pares ordenados (frequência, classe) e os ligamos ao eixo das classes por meio de barras
horizontais.
Exemplo:
17
Observação: em um gráfico de colunas, cada barra deve ser proporcional à informação por ela representada.
Gráfico de setores: são utilizados, em geral, para visualizar a relação entre as partes e o todo.
Dividimos um círculo em setores, com ângulos de medidas diretamente proporcionais às frequências de
classes.
A medida α, em grau, do ângulo central que corresponde a uma classe de frequência F é dada por:
Onde:
Ft = frequência total
Exemplo:
Para acharmos a frequência relativa, podemos fazer uma regra de três simples:
400 --- 100%
160 --- x
x = 160 .100/ 400 = 40% , e assim sucessivamente.
Aplicando a fórmula teremos:
18
Como o gráfico é de setores, os dados percentuais serão distribuídos levando-se em conta a proporção da
área a ser representada relacionada aos valores das porcentagens. A área representativa no gráfico será
demarcada da seguinte maneira:
Com as informações, traçamos os ângulos da circunferência e assim montamos o gráfico:
Pictograma ou gráficos pictóricos: em alguns casos, certos gráficos, encontrados em jornais, revistas e
outros meios de comunicação, apresentam imagens relacionadas ao contexto. Eles são desenhos ilustrativos.
Exemplos:
Evolução da frota nacional de carros à álcool de 1979 à 1987
Devastação Selvagem: extração de madeiras no Brasil
19
Histograma: o consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual
à frequência relativa da respectiva faixa. Desta forma, a altura de cada retângulo é denominada densidade de
frequência ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa. Alguns autores
utilizam a frequência absoluta ou a porcentagem na construção do histograma, o que pode ocasionar distorções
(e, consequentemente, más interpretações) quando amplitudes diferentes são utilizadas nas faixas. Exemplo:
Polígono de Frequência: semelhante ao histograma, mas construído a partir dos pontos médios das classes.
Exemplo:
Gráfico de Ogiva: apresenta uma distribuição de frequências acumuladas, utiliza uma poligonal ascendente
utilizando os pontos extremos.
Altura em centímetros de 160 alunos do Curso de Administração da UFSM
20
Cartograma: é uma representação sobre uma carta geográfica. Este gráfico é empregado quando o objetivo
é de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.
Interpretação de tabelas e gráficos
Para uma melhor interpretação de tabelas e gráficos devemos ter em mente algumas considerações:
- Observar primeiramente quais informações/dados estão presentes nos eixos vertical e horizontal, para então
fazer a leitura adequada do gráfico;
- Fazer a leitura isolada dos pontos.
- Leia com atenção o enunciado e esteja atento ao que pede o enunciado.
Exemplos:
(Enem) O termo agronegócio não se refere apenas à agricultura e à pecuária, pois as atividades ligadas a essa
produção incluem fornecedores de equipamentos, serviços para a zona rural, industrialização e
comercialização dos produtos.
O gráfico seguinte mostra a participação percentual do agronegócio no PIB brasileiro:
21
Centro de Estudos Avançados em Economia Aplicada (CEPEA).
Almanaque abril 2010. São Paulo: Abril, ano 36 (adaptado)
Esse gráfico foi usado em uma palestra na qual o orador ressaltou uma queda da participação do agronegócio
no PIB brasileiro e a posterior recuperação dessa participação, em termos percentuais.
Segundo o gráfico, o período de queda ocorreu entre os anos de
A) 1998 e 2001.
B) 2001 e 2003.
C) 2003 e 2006.
D) 2003 e 2007.
E) 2003 e 2008.
Resolução:
Segundo o gráfico apresentado na questão, o período de queda da participação do agronegócio no PIB
brasileiro se deu no período entre 2003 e 2006. Esta informação é extraída através de leitura direta do gráfico:
em 2003 a participação era de 28,28%, caiu para 27,79% em 2004, 25,83% em 2005, chegando a 23,92% em
2006 – depois deste período, a participação volta a aumentar.
Resposta: C
(Enem) O gráfico mostra a variação da extensão média de gelo marítimo, em milhões de quilômetros
quadrados, comparando dados dos anos 1995, 1998, 2000, 2005 e 2007. Os dados correspondem aos meses
de junho a setembro. O Ártico começa a recobrar o gelo quando termina o verão, em meados de setembro. O
gelo do mar atua como o sistema de resfriamento da Terra, refletindo quase toda a luz solar de volta ao espaço.
Águas de oceanos escuros, por sua vez, absorvem a luz solar e reforçam o aquecimento do Ártico,
ocasionando derretimento crescente do gelo.
Com base no gráfico e nas informações do texto, é possível inferir que houve maior aquecimento global em
(A)1995.
(B)1998.
(C) 2000.
(D)2005.
(E)2007.
22
Resolução:
O enunciado nos traz uma informação bastante importante e interessante, sendo chave para a resolução da
questão. Ele associa a camada de gelo marítimo com a reflexão da luz solar e consequentemente ao
resfriamento da Terra. Logo, quanto menor for a extensão de gelo marítimo, menor será o resfriamento e
portanto maior será o aquecimento global.
O ano que, segundo o gráfico, apresenta a menor extensão de gelo marítimo, é 2007.
Resposta: E
Mais alguns exemplos:
1) Todos os objetos estão cheios de água.
Qual deles pode conter exatamente 1 litro de água?

(A) A caneca
(B) A jarra
(C) O garrafão
(D) O tambor
O caminho é identificar grandezas que fazem parte do dia a dia e conhecer unidades de medida, no caso, o
litro. Preste atenção na palavra exatamente, logo a resposta está na alternativa B.
2) No gráfico abaixo, encontra-se representada, em bilhões de reais, a arrecadação de impostos federais no

período de 2003 a 2006. Nesse período, a arrecadação anual de impostos federais:
(A) nunca ultrapassou os 400 bilhões de reais.

(B) sempre foi superior a 300 bilhões de reais.
23
(C) manteve-se constante nos quatro anos.
(D) foi maior em 2006 que nos outros anos.
(E) chegou a ser inferior a 200 bilhões de reais.
Analisando cada alternativa temos que a única resposta correta é a D.
Medidas de Posição – Centralidade

As medidas de posição visam localizar com maior facilidade onde está a maior concentração de valores de
uma dada distribuição, podendo estar ela no início, meio ou fim; e também se esta distribuição está sendo feita
de forma igual.
As medidas de posição mais importantes são as de tendência central, as quais destacamos aqui:
- Média (veremos aqui para dados agrupados)
- Moda;
- Mediana.
MÉDIA ARITMÉTICA (𝒙 ̅)
A média aritmética é o quociente da divisão da soma dos valores da variável pelo número deles. Anteriormente
tratamos a média para dados não agrupados, agora veremos para dados agrupados.
1) Sem intervalo de classe: considerando a distribuição relativa a 34 famílias de quatro filhos, e tomando
como variável o número de filhos do sexo masculino, teremos a seguinte tabela:
As frequências são números indicadores da intensidade de cada valor da variável, elas funcionam como fatores
de ponderação, o que nos leva a calcular a média aritmética ponderada, dada por:
O método mais prático de resolvermos é adicionarmos mais uma coluna para obtenção da média ponderada:
Aplicando a fórmula temos:
Nota: quando a variável apresenta um valor 2 meninos, 3 décimos de meninos, como devemos interpretar o
resultado?
Como o valor médio 2,3 meninos sugere (para este caso) que o maior número de famílias tem 2 meninos e 2
meninas, sendo uma tendência geral, certa superioridade numérica em relação ao número de meninos.
2) Com intervalos de classe: convencionamos que todos os valores incluídos em um determinado intervalo
de classe coincidam com seu ponto médio. Determinamos a média ponderada através da fórmula:
24
Exemplo:
Vamos abrir uma coluna para os pontos médios e outra para os produtos:
Aplicando:
Vantagens e desvantagens da média

1. É uma medida de tendência central que, por uniformizar os valores de um conjunto de dados, não representa
bem os conjuntos que revelam tendências extremas.
2. Não necessariamente tem existência real, isto é, nem sempre é um valor que faça parte do conjunto de
dados, para bem representá-lo, embora pertença obrigatoriamente ao intervalo entre o maior e o menor valor.
3. É facilmente calculada.
4. Serve para compararmos conjuntos semelhantes.
MODA (Mo)
A moda é o valor que aparece com maior frequência em uma série de valores. Podemos dizer é o valor que
“está na moda”.
- Para dados não agrupados: ela é facilmente reconhecida, pois observamos o valor que mais se repete,
como dito na definição.
Exemplo: A série: 7,8,9,10,11, 11, 12, 13, 14 tem moda igual a 10.
Observações:
- Quando uma série não apresenta valor modal, ou seja, quando nenhum valor aparece com frequência,
dizemos que ela é AMODAL.
- Quando uma série tiver mais de um valor modal, dizemos que é BIMODAL (dois valores modas), TRIMODAL,
etc.
- Para dados agrupados

1) Sem intervalo de classe: para determinarmos a moda basta observamos a variável com maior frequência.
Vejamos o exemplo:
25
Observamos que a maior frequência(fi) é 12, que corresponde ao valor de variável 3, logo: Mo = 3
2) Com intervalo de classe: a classe que apresenta maior frequência é denominada classe modal. A moda é
o valor dominante que está compreendido entre os limites da classe modal. O método mais simples para o
cálculo é tomar o ponto médio da classe modal. A este valor damos o nome de moda bruta.
Onde:
l* → limite inferior da classe modal
L* → limite superior da classe modal
Exemplo:
Observe que a classe com maior frequência é a de i = 3, nela temos que l* = 158 e o L* = 162, aplicando na
fórmula:
Existem ainda outros métodos mais elaborados para encontramos a moda, um deles seria a fórmula de Czuber,
onde:
Onde temos:
l*→ limite inferior da classe modal
h* → amplitude da classe modal
D1 → f* - f(ant)
D2 → f* - f(post)
f*→ frequência simples da classe modal
f(ant)→ frequência simples da classe anterior à classe modal
f(post) → frequência simples da classe posterior à classe modal.
Aplicando a fórmula ao exemplo anterior temos:
26
Gráficos da moda
Observe que a moda é o valor correspondente, no eixo das abcissas, ao ponto de ordenada máxima. Assim
temos:
A moda é utilizada:
- Quando desejamos obter uma medida rápida e aproximada de posição;
- Quando a medida de posição deve ser o valor mais típico da distribuição.
Vantagens e Desvantagens da Moda

1) Não depende de todos os valores da série, nem de sua ordenação, podendo mesmo não se alterar com a
modificação de alguns deles.
2) Não é influenciada por valores extremos (grandes) da série.
3) Sempre tem existência real, ou seja, sempre é representada por um elemento do conjunto de dados,
excetuando o caso de classes de frequências, quando trabalhamos com subconjuntos (dados agrupados) e
não com cada elemento isoladamente.
MEDIANA (Md)
Como o próprio nome sugere, a mediana é o valor que se encontra no centro de uma série de números,
estando estes dispostos segundo uma ordem. É o valor situado de tal forma no conjunto que o separa em
dois subconjuntos de mesmo número de elementos.
- Para dados não agrupados: para identificarmos a mediana, precisamos ordenar os dados (crescente ou
decrescente) dos valores, para depois identificarmos o valor central. Exemplo:
Dada a série de valores:
5, 13, 10, 2, 18, 15, 6, 16, 9, vamos ordenar os valores em ordem crescente:
2, 5, 6, 9, 10, 13, 15, 16,18; como temos uma sequência de 9 números precisamos identificar aquele que divide
o conjunto em 2 subconjuntos com a mesma quantidade de elementos.
Neste caso o valor é 10, pois temos a mesma quantidade de elementos tanto a esquerda quanto a direita:
27
Md = 10
Neste caso como a série tem número ímpar de termos, ficou fácil identificarmos a mediana. Porém se a série
tiver número par, a mediana será, por definição, qualquer dos números compreendidos entre dois valores
centrais desta série, ao qual utilizaremos o ponto médio entre as duas.
Exemplo:
2, 6, 7, 10, 12, 13, 18, 21 (8 termos), vamos utilizar os valores mais centrais que neste caso são o 4º e o 5º
termo.
Então a mediana será:
Observações: estando ordenado os valores de uma série e sendo n o número de elementos desta série, o
valor mediano será:
Observando os exemplos dados:
Notas:
- O valor da mediana pode coincidir ou não com um elemento da série. Se for ímpar há coincidência, se for par
já não há;
- A mediana e a média aritmética não têm necessariamente, o mesmo valor;
- A mediana depende da posição dos elementos e não dos valores dos elementos na série ordenada. Essa é
uma diferença marcante entre mediana e a média;
- A mediana também pode ser chamada de valor mediano.
- Para dados agrupados: o cálculo da mediana se processa de modo semelhante ao dos dados não
agrupados, implicando na determinação prévia das frequências acumuladas.
1) Sem intervalo de classe: neste caso basta identificarmos a frequência acumulada imediatamente
superior à metade da soma da frequências. A mediana será o valor da variável que corresponde a tal frequência
acumulada.
Exemplo:
Logo teremos:
28
a menor frequência acumulada que supera este valor é 18, que corresponder ao valor 2 da
variável, sendo esta a mediana ou valor mediano. Md = 2 meninos.
Nota:
- Caso exista uma frequência acumulada (Fa ou Fi), tal que:
, a mediana será dada por:
Ou seja, a mediana será a média aritmética entre o valor da variável correspondente a essa frequência
acumulada e a seguinte.
Exemplo:
Temos: 8/2 = 4 = F3
Então:
1) Com intervalo de classe: precisamos, neste caso, determinar o ponto do intervalo em que está
compreendido a mediana. Para tal, precisamos determinar a classe mediana, que será aquela correspondente
à frequência acumulada imediatamente superior a . Fazendo isso podemos interpolar os dados (inserção
de uma quantidade de valores entre dois números), admitindo-se que os valores se distribuam uniformemente
em todo o intervalo de classe.
Exemplo:
A classe destaca é a classe mediana. Temos que:
Como há 24 valores incluídos nas três primeiras classes de distribuição e como pretendemos determinar o
valor que ocupa o 20º lugar, a partir do início da série, vemos que este deve estar localizado na terceira classe
(i = 3), supondo que as frequências dessa classe estejam uniformemente distribuídas.
Como existe 11 elementos nesta classe (fi) e o intervalo da classe (i) é 4, devemos tomar, a partir do limite
inferior, a distância:
29
Em resumo aplicamos os seguintes passos:
1º - Determinamos as frequências acumuladas;

2º - Calculamos ∑fi / 2;
3º - Marcamos a classe corresponde à frequência acumulada imediatamente superior a ∑fi / 2 (classe mediana)
e após isso aplicamos a fórmula:
Onde:
l* → limite inferior da classe mediana;
F (ant) → frequência acumulada da classe anterior à classe mediana;
f* → frequência simples da classe mediana;
h* → amplitude do intervalo da classe mediana.
Baseado no exemplo anterior temos:
l* = 158 ; F(ant) = 13 ; f* = 11 e h* = 4
Empregamos a mediana quando:

- Desejamos obter o ponto que divide a distribuição em partes iguais;
- Há valores extremos que afetam de uma maneira acentuada a média;
- A variável em estudo é salário.
Vantagens e Desvantagens da Mediana

1) Não depende de todos os valores do conjunto de dados, podendo mesmo não se alterar com a modificação.
2) Não é influenciada por valores extremos (grandes) do conjunto de dados.
3) Quando há valores repetidos, a interpretação do valor mediano não é tão simples.
Posição relativa da Média, Mediana e Moda
Quando a distribuição é simétrica, as 3 medidas coincidem; porém a assimetria torna elas diferentes e essa
diferença é tanto maior quanto é a assimetria. Com isso teremos um distribuição em forma de sino:
x ̅ = Md = Mo → curva simétrica
Mo < Md < x ̅ → curva assimétrica positiva;

x ̅ < Md < Mo → curva assimétrica negativa.
30
Medidas de Posição: Separatrizes
São números que dividem a sequência ordenada de dados em partes que contêm a mesma quantidade de
elementos da série.
Desta forma, a mediana que divide a sequência ordenada em dois grupos, cada um deles contendo 50% dos
valores da sequência, é também uma medida separatriz.
Além da mediana, as outras medidas separatrizes são: quartis, quintis, decis e percentis.
Quartis
Nos quartis, a série é dividida em quatro partes iguais. Os elementos separatrizes da serie são Q1, Q2, e Q3.
Q1: é o primeiro quartil, corresponde à separação dos primeiros 25% de elementos da serie.
Q2: é o segundo quartil, coincide com a mediana (Q2 = Md).
Q3: é o terceiro quartil, corresponde à separação dos últimos 25% de elementos da série, ou seja, os 75% dos
elementos da série.
Para o cálculo dos quartis utilizam-se técnicas semelhantes àquelas do cálculo da mediana.
Consequentemente, podem-se utilizar as mesmas fórmulas do calculo da mediana, levando em conta que onde
houver a expressão serásubstituída por , sendo K o número da ordem do quartil, em que K =1

corresponde ao primeiro quartil; K = 2 corresponde ao segundo quartil e K = 3 ao terceiro quartil.
Cálculo do quartil para o rol

1° Passo: Determina-se a posição do Quartil.
2° Passo: Identifica-se a posição mais próxima do rol.

3° Passo: Verifica-se quem está naquela posição.
Exemplo:
Calcule Q1, Q2 e Q3 para o seguinte conjunto de valores:
A = {4,1,8,0,11,10,7,8,6,2,9,12}
Inicialmente precisamos colocar os valores em ordem (rol)
A = {0,1,2,4,6,7,8,8,9,10,11,12}
a) Vamos utilizar os passos para o cálculo do 1° quartil:

1° Passo: Determina-se a posição do 1° quartil:
2° Passo: Identificar a posição 3
31
3° Passo: Procura-se no rol o valor do número que está na posição identificada.
O número que corresponde a 25% do rol é o valor 2
b) Vamos utilizar os passos para o cálculo do 2° quartil:


O número que corresponde a 50% do rol é o valor 7
c) Vamos utilizar os passos para o cálculo do 3° quartil:


Quintis
Ao dividir a série ordenada em cinco partes, cada uma ficará com seus 20% de seus elementos.
Os elementos que separam estes grupos são chamados de quintis.
Assim, o primeiro quintil, indicado por K1, separa a sequência ordenada deixando 20% de seus valores à
esquerda e 80% de seus valores à direita.
De modo análogo são definidos os outros quintis.
Decis
Ao dividir a série ordenada em dez partes, cada uma ficará com seus 10% de seus elementos.
Os elementos que separam estes grupos são chamados de decis.
Assim, o primeiro decil, indicado por D1, separa a sequência ordenada deixando 10% de seus valores à
De modo análogo são definidos os outros decis.
Os decis dividem a distribuição em dez partes iguais. A fórmula é semelhante à que vimos anteriormente:
a)
32
b) Identifica-se a classe do decil (Di) pela frequência acumulada.
c) Aplica-se a fórmula.
onde,
Exemplo:
Se quiséssemos calcular o 4º e 8º Decis, faríamos:
Percentis
Ao dividir a série ordenada em cem partes, cada uma ficará com 1% de seus elementos.
Os elementos que separam estes grupos são chamados de centis ou percentis.
Assim, o primeiro percentil, indicado por P1, separa a sequência ordenada deixando 1% de seus valores à
De modo análogo são definidos os outros percentis.
São as medidas que dividem a amostra em 100 partes iguais. O cálculo é semelhante aos anteriores:
Exemplo:
Seja a tabela abaixo, obtida da amostra sobre salários em um determinado bairro de uma cidade.
33
Quais o 4º decil e o 72º percentil?
Conclusão: Nessa distribuição temos que o valor de 12,33 SM divide a amostra em duas partes: 40% (4º decil)
estão abaixo dele e 60% estão acima. Temos também que 16,59 SM divide a amostra em duas partes: 72%
(P72) estão abaixo dele e 28% estão acima.
Cálculo da separatriz:
Identifica-se a medida que se pretende obter com o percentil correspondente, Pi.

Calcula-se i% de n para localizar a posição do percentil i no Rol, ou seja:
Em seguida, identifica-se o elemento que ocupa esta posição.
Note que se o elemento for um número inteiro, então o Pi procurado é um dos elementos da sequência
ordenada.
Se não for um número inteiro, isto significa que Pi é um elemento intermediário entre os elementos que ocupam
as posições aproximadas por falta ou por excesso do valor calculado. Neste caso, Pi é definido como sendo a
média dos valores que ocupam estas posições aproximadas.
Medidas de Dispersão
As medidas de tendência central fornecem informações valiosas mas, em geral, não são suficientes para
descrever e discriminar diferentes conjuntos de dados. As medidas de Dispersão ou variabilidade permitem
visualizar a maneira como os dados espalham-se (ou concentram-se) em torno do valor central. Para
mensurarmos está variabilidade podemos utilizar as seguintes estatísticas: amplitude total; distância
interquartílica; desvio médio; variância; desvio padrão e coeficiente de variação.
- Amplitude Total: é a diferença entre o maior e o menor valor do conjunto de dados.

Exemplo: dados: 3, 4, 7, 8 e 8. Amplitude total = 8 – 3 = 5
34
- Distância Interquartílica: é a diferença entre o terceiro e o primeiro quartil de um conjunto de dados. O
primeiro quartil é o valor que deixa um quarto dos valores abaixo e três quartos acima dele. O terceiro quartil
é o valor que deixa três quartos dos dados abaixo e um quarto acima dele. O segundo quartil é a mediana. (O
primeiro e o terceiro quartis fazem o mesmo que a mediana para as duas metades demarcadas pela mediana.)
Exemplo: quando se discutir o boxplot.
- Desvio Médio: é a diferença entre o valor observado e a medida de tendência central do conjunto de dados.
- Variância: é uma medida que expressa um desvio quadrático médio do conjunto de dados, e sua unidade é
o quadrado da unidade dos dados.
- Desvio Padrão: é raiz quadrada da variância e sua unidade de medida é a mesma que a do conjunto de
dados.
- Coeficiente de variação: é uma medida de variabilidade relativa, definida como a razão percentual entre o
desvio padrão e a média, e assim sendo uma medida adimensional expressa em percentual.
Boxplot: Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um
conjunto de valores, uma vez que são afetados, de forma exagerada, por valores extremos. Além disso, apenas
com estas duas medidas não temos ideia da assimetria da distribuição dos valores. Para solucionar esses
problemas, podemos utilizar o Boxplot. Para construí-lo, desenhamos uma "caixa" com o nível superior
dado pelo terceiro quartil (Q3) e o nível inferior pelo primeiro quartil (Q1). A mediana (Q2) é representada por
um traço no interior da caixa e segmentos de reta são colocados da caixa até os valores máximo e mínimo,
que não sejam observações discrepantes. O critério para decidir se uma observação é discrepante pode variar;
por ora, chamaremos de discrepante os valores maiores do que Q3+1.5*(Q3-Q1) ou menores do que
Q1-1.5*(Q3-Q1).
O Boxplot fornece informações sobre posição, dispersão, assimetria, caudas e valores discrepantes.
O Diagrama de dispersão é adequado para descrever o comportamento conjunto de duas variáveis

quantitativas.
Cada ponto do gráfico representa um par de valores observados. Exemplo:
Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade

ou dispersão desses dados, relativamente à medida de localização do centro da amostra. Supondo ser a média,
a medida de localização mais importante, será relativamente a ela que se define a principal medida de
dispersão - a variância, apresentada a seguir.
Variância: Define-se a variância, como sendo a medida que se obtém somando os quadrados dos desvios das
observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra
menos um.
35
Desvio-Padrão: Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é
a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas
unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão: O desvio padrão é
uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos
dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio
padrão será maior, quanta mais variabilidade houver entre os dados.
Exemplo:
Em uma turma de aluno, verificou-se através da análise das notas de 15 alunos, os seguintes desempenhos:
Observamos no exemplo, que a média das provas, foi estimada em 7,32 com desvio padrão em 1,77.
Concluímos que a maioria das notas concentrou-se em 9,09 e 5,55.
Vejamos de outra forma:
Um aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade

ou dispersão desses dados, relativamente à medida de localização do centro da amostra. Repare-se nas duas
amostras seguintes, que embora tenham a mesma média, têm uma dispersão bem diferente:
36
Como a medida de localização mais utilizada é a média, será relativamente a ela que se define a principal
medida de dispersão - a variância, apresentada a seguir.
Define-se a variância, e representa-se por s2, como sendo a medida que se obtém somando os quadrados dos
desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da
amostra menos um:
Se afinal pretendemos medir a dispersão relativamente à média. Por que é que não somamos simplesmente
os desvios em vez de somarmos os seus quadrados?
Experimenta calcular essa soma e verás que (x1-x) + (x2-x) + (x1-x) + ... + (xn – x) ≠ 0. Poderíamos ter utilizado
módulos, para evitar que os desvios negativos, mas é mais fácil trabalhar com quadrados, não concorda?! E
por que é que em vez de dividirmos pó “n”, que é o número de desvios, dividimos por (n-1)? Na realidade, só
aparentemente é que temos “n” desvios independentes, isto é, se calcularmos (n-1) desvios, o restante fica
automaticamente calculado, uma vez que a sua soma é igual a zero. Costuma-se referir este fato dizendo que
se perdeu um grau de liberdade.
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a
dos dados.
Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos
a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a
dispersão dos dados. Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são:
- o desvio padrão é sempre não negativo e será tanto maior, quanta mais variabilidade houver entre os dados.
- se s = 0, então não existe variabilidade, isto é, os dados são todos iguais.
Exemplo:
Na 2ª classe de certa escola o professor deu uma tarefa constituída por um certo número de contas para os
alunos resolverem. Pretendendo determinar a dispersão dos tempos de cálculo, observam-se 10 alunos
durante a realização da tarefa, tendo-se obtido os seguintes valores:
37
Resolução: Na tabela anterior juntamos duas colunas auxiliares, uma para colocar os desvios das
observações em relação à média e a outra para escrever os quadrados destes desvios. A partir da coluna das
observações calculamos a soma dessas observações, que nos permitiu calcular a média = 16.9.
Uma vez calculada a média foi possível calcular a coluna dos desvios. Repare-se que, como seria de esperar,
a soma dos desvios é igual a zero. A soma dos quadrados dos desvios permite-nos calcular a variância donde
s = 3.54.
O tempo médio de realização da tarefa foi de aproximadamente 17 minutos com uma variabilidade medida pelo
desvio padrão de aproximadamente 3.5 minutos. Na representação gráfica ao lado visualizamos os desvios
das observações relativamente à média (valores do exemplo anterior):
Do mesmo modo que a média, também o desvio padrão é uma medida pouco resistente, pois é influenciado
por valores ou muito grandes ou muito pequenos (o que seria de esperar já que na sua definição entra a média
que é não resistente). Assim, se a distribuição dos dados for bastante enviesada, não é conveniente utilizar a
média como medida de localização, nem o desvio padrão como medida de variabilidade. Estas medidas só
dão informação útil, respectivamente sobre a localização do centro da distribuição dos dados e sobre a
variabilidade, se as distribuições dos dados forem aproximadamente simétricas.
Propriedades para dados com distribuição aproximadamente normal: Uma propriedade que se verifica se
os dados se distribuem de forma aproximadamente normal, ou seja, quando o histograma apresenta uma forma
característica com uma classe média predominante e as outras classes se distribuem à volta desta de forma
aproximadamente simétrica e com frequências a decrescer à medida que se afastam da classe média, é a
seguinte:
Aproximadamente 68% dos dados estão no intervalo .
38
Desvio Padrão: Propriedades para dados com distribuição aproximadamente normal:
- Aproximadamente 68% dos dados estão no intervalo
Como se depreende do que atrás foi dito, se os dados se distribuem de forma aproximadamente normal, então
estão praticamente todos concentrados num intervalo de amplitude igual a 6 vezes o desvio padrão.
A informação que o desvio padrão dá sobre a variabilidade deve ser entendida como a variabilidade que é
apresentada relativamente a um ponto de referência - a média, e não propriamente a variabilidade dos dados,
uns relativamente aos outros.
A partir da definição de variância, pode-se deduzir sem dificuldade uma expressão mais simples, sob o ponto
de vista computacional, para calcular ou a variância ou o desvio padrão e que é a seguinte:
39
É a medida de variabilidade que em geral é expressa em porcentagem, e tem por função determinar o grau de
concentração dos dados em torno da média, geralmente utilizada para se fazer a comparação entre dois
conjuntos de dados em termos percentuais, esta comparação revelará o quanto os dados estão próximos ou
distantes da média do conjunto de dados.
Exemplo:
Considere a tabela abaixo que contém as estaturas e os pesos de um mesmo grupo de indivíduos:
Pergunta: Qual das medidas (Estatura ou Peso) possui maior homogeneidade?

Como não é possível responder a essa pergunta utilizando o desvio-padrão, pois é uma medida de dispersão
absoluta, teremos que calcular o CVP da Estatura e o CVP do Peso. A série que apresentar a menor variação,
ou seja, o menor valor do coeficiente CVP, será a série de maior homogeneidade.
Seguindo a fórmula do coeficiente CVP, temos:
CVP Estatura
40
Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos.
Amplitude: Uma medida de dispersão que se utiliza por vezes, é a amplitude amostral r, definida como sendo
a diferença entre a maior e a menor das observações: r = xn:n - x1:n, onde representamos por x1:n e x n:n,
respectivamente o menor e o maior valor da amostra (x1, x2, ..., xn), de acordo com a notação introduzida
anteriormente, para a amostra ordenada.
Amplitude Inter-Quartil: A medida anterior tem a grande desvantagem de ser muito sensível à existência, na
amostra, de uma observação muito grande ou muito pequena. Assim, define-se uma outra medida, a amplitude
inter-quartil, que é, em certa medida, uma solução de compromisso, pois não é afetada, de um modo geral,
pela existência de um número pequeno de observações demasiado grandes ou demasiado pequenas. Esta
medida é definida como sendo a diferença entre os 1º e 3º quartis. Amplitude inter-quartil = Q3/4 – Q1/4
Do modo como se define a amplitude inter-quartil, concluímos que 50% dos elementos do meio da amostra,
estão contidos num intervalo com aquela amplitude. Esta medida é não negativa e será tanto maior quanto
maior for a variabilidade nos dados. Mas, ao contrário do que acontece com o desvio padrão, uma amplitude
inter-quartil nula, não significa necessariamente, que os dados não apresentem variabilidade.
Amplitude inter-quartil ou desvio padrão: Do mesmo modo que a questão foi posta relativamente às duas
medidas de localização mais utilizadas - média e mediana, também aqui se pode por o problema de comparar
aquelas duas medidas de dispersão.
- A amplitude inter-quartil é mais robusta, relativamente à presença de "outliers", do que o desvio padrão, que
é mais sensível aos dados.
- Para uma distribuição dos dados aproximadamente normal, verifica-se a seguinte relação. Amplitude inter-
quartil 1.3 x desvio padrão.
- Se a distribuição é enviesada, já não se pode estabelecer uma relação análoga à anterior, mas pode acontecer
que o desvio padrão seja muito superior à amplitude inter-quartil, sobretudo se se verificar a existência de
"outliers".
Dispersão Relativa
Na estatística descritiva o desvio padrão por si só tem grandes limitações. Assim, um desvio padrão de 2
unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200; no entanto, se a
média for igual a 20, o mesmo não pode ser dito.
Além disso, o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando
desejamos comparar duas ou mais séries de valores, relativamente à sua dispersão ou variabilidade, quando
expressas em unidades diferentes.
Para contornar essas dificuldades e limitações, podemos caracterizar a dispersão ou variabilidade dos dados
em termos relativos a seu valor médio, medida essa denominada de CVP: Coeficiente de Variação de
Pearson (é a razão entre o desvio padão e a média referentes a dados de uma mesma série).
A fórmula do ( o resultado neste caso é expresso em percentual, entretanto pode ser
expresso também através de um fator decimal, desprezando assim o valor 100 da fórmula).
Exemplo:
Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos:
Discriminação MÉDIA DESVIO PADRÃO
ESTATURAS 175 cm 5,0 cm
PESOS 68 kg 2,0 kg
41
Qual das medidas (Estatura ou Peso) possui maior homogeneidade ?
Resposta: Teremos que calcular o CVP da Estatura e o CVP do Peso. O resultado menor será o de maior
homogeneidade ( menor dispersão ou variabilidade).
CVPestatura = ( 5 / 175 ) x 100 = 2,85 %
CVPpeso = ( 2 / 68 ) x 100 = 2,94 %.
Logo, nesse grupo de indivíduos, as estaturas apresentam menor grau de dispersão que os pesos.
CVT: Coeficiente de Variação de Thorndike

É igual ao quociente entre o desvio padrão e a mediana.
CVT = S / Md ou CVT = (S / Md) x 100 quando queremos o resultado em %.
CVQ: Coeficiente Quartílico de Variação

Esse coeficiente é definido pela seguinte expressão:
CVQ = (Q3 - Q1) / (Q3 + Q1) ou [(Q3 - Q1) / (Q3 + Q1)] x 100 para resultado em %.
Desvio quartil Reduzido: Dqr = (Q3 - Q1) / 2Md ou [(Q3 - Q1) / 2Md ] x 100 para resultado em %.
Assimetria
Uma distribuição de valores sempre poderá ser representada por uma curva (gráfico).
Essa curva, conforme a distribuição, pode apresentar várias formas. Se considerarmos o valor da moda da
distribuição como ponto de referência, vemos que esse ponto sempre corresponde ao valor de ordenada
máxima, dando-nos o ponto mais alto da curva representativa da distribuição considerada, logo a curva será
analisada quanto à sua assimetria.
- Distribuição Simétrica: É aquela que apresenta a ≡ Mo≡ Md e os quartis Q1 e Q3 equidistantes do Q2.
- Distribuição Assimétrica
Podemos medir a assimetria de uma distribuição, calculando os coeficientes de assimetria.

Sendo o mais utilizado o Coeficiente de Assimetria de Pearson.
- Se As < 0  a distribuição será Assimétrica Negativa;

- Se As > 0  distribuição será Assimétrica Positiva;
- Se As = 0  a distribuição será Simétrica.
Quando não tivermos condições de calcularmos o desvio padrão podemos usar a seguinte fórmula:
- Coeficiente momento de assimetria ( a 3): É o terceiro momento abstrato.
O campo de variação do coeficiente de assimetria é:
42
- Intensidade da assimetria:
Curtose
Já apreciamos as medidas de tendência central, de dispersão e de assimetria. Falta somente examinarmos
mais uma das medidas de uso comum em Estatística, para se positivarem as características de uma
distribuição de valores: são as chamadas Medidas de Curtose ou de Achatamento, que nos mostra até que
ponto a curva representativa de uma distribuição é a mais aguda ou a mais achatada do que uma curva normal,
de altura média.
- Curva Mesocúrtica (Normal): É considerada a curva padrão.
- Curva Leptocúrtica: É uma curva mais alta do que a normal. Apresenta o topo relativamente alto,
significando que os valores se acham mais agrupados em torno da moda.
- Curva Platicúrtica: É uma curva mais baixa do que a normal. Apresenta o topo achatado, significando que
várias classes apresentam frequências quase iguais.
- Coeficiente de Curtose
- Se K > 0.263  a distribuição será Platicúrtica.

- Se K = 0.263  a distribuição será Mesocúrtica;
- Se K < 0.263  a distribuição será Leptocúrtica;
Coeficiente momento de curtose (a4): Corresponde ao momento abstrato de quarta ordem.
onde: M4 = momento centrado de quarta ordem.
Interpretação:
- Se 4 < 3  curva Platicúrtica;
- Se 4 = 3  curva Mesocúrtica;
- Se 4 > 3  curva Leptocúrtica.
Probabilidade
Probabilidade. - Definições básicas e axiomas. - Probabilidade condicional e independência. - Variáveis
aleatórias discretas e contínuas. - Distribuição de probabilidades. - Função de probabilidade. - Função
densidade de probabilidade. - Esperança e momentos. - Distribuições especiais. - Distribuições condicionais e
independência. - Transformação de variáveis. - Leis dos grandes números. - Teorema central do limite. -
43
Amostras aleatórias. - Distribuições amostrais.
Definições: A teoria da probabilidade é o estudo das chances de obtenção de cada resultado de

um experimento aleatório. A essas chances são atribuídos os números reais do intervalo entre 0 e 1.
Resultados mais próximos de 1 têm mais chances de ocorrer. Além disso, a probabilidade também pode ser
apresentada na forma percentual.
- Experimentos aleatórios: fenômenos que apresentam resultados imprevisíveis quando repetidos, mesmo
que as condições sejam semelhantes.
Exemplos:
a) lançamento de 3 moedas e a observação das suas faces voltadas para cima
b) jogar 2 dados e observar o número das suas faces
c) abrir 1 livro ao acaso e observar o número da suas faces.
- Espaço amostral: conjunto de todos os resultados possíveis de ocorrer em um determinado experimento

aleatório. Indicamos esse conjunto por uma letra maiúscula: U, S , A, Ω ... variando de acordo com a bibliografia
estudada.
Exemplo:
a) quando lançamos 3 moedas e observamos suas faces voltadas para cima, sendo as faces da moeda cara
(c) e coroa
(k), o espaço amostral deste experimento é:
S = {(c,c,c); (c,c,k); (c,k,k); (c,k,c); (k,k,k,); (k,c,k); (k,c,c);
(k,k,c)}, onde o número de elementos do espaço amostral n(A) = 8
- Evento: é qualquer subconjunto de um espaço amostral (S); muitas vezes um evento pode ser caracterizado
por um fato. Indicamos pela letra E.
Exemplo:
a) no lançamento de 3 moedas:
E1→ aparecer faces iguais
E1 = {(c,c,c);(k,k,k)}
O número de elementos deste evento E1 é n(E1) = 2
E2→ aparecer coroa em pelo menos 1 face
E2 = {(c,c,k); (c,k,k); (c,k,c); (k,k,k,); (k,c,k); (k,c,c); (k,k,c)}
Logo n(E2) = 7
Veremos agora alguns eventos particulares:

- Evento certo: que possui os mesmos elementos do espaço amostral (todo conjunto é subconjunto de si
mesmo);
E = S.
E: a soma dos resultados nos 2 dados ser menor ou igual a 12.
- Evento impossível: evento igual ao conjunto vazio.

E: o número de uma das faces de um dado ser 7.
E: Ø
- Evento simples: evento que possui um único elemento.

E: a soma do resultado de dois dados ser igual a 12.
E: {(6,6)}
- Evento complementar: se E é um evento do espaço amostral S, o evento complementar de E indicado por
44
C tal que C = S – E. Ou seja, o evento complementar é quando E não ocorre.
E1: o primeiro número, no lançamento de 2 dados, ser menor ou igual a 2.
E2: o primeiro número, no lançamento de 2 dados, ser maior que 2.
S: espaço amostral é dado na tabela abaixo:
E: {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3) (2,4), (2,5), (2,6)}
Como, C = S – E
C = {(3,1), (3,2), (3,3), (3,4), (3,5), (3,6), (4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6),
(6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
- Eventos mutuamente exclusivos: dois ou mais eventos são mutuamente exclusivos quando a ocorrência
de um deles implica a não ocorrência do outro. Se A e B são eventos mutuamente exclusivos, então: A ∩ B =
Ø.
Sejam os eventos:
A: quando lançamos um dado, o número na face voltada para cima é par.
A = {2,4,6}
B: quando lançamos um dado, o número da face voltada para cima é divisível por 5.
B = {5}
Os eventos A e B são mutuamente exclusivos, pois A ∩ B = Ø.
Probabilidade em espaços equiprováveis
Considerando um espaço amostral S, não vazio, e um evento E, sendo E ⊂ S, a probabilidade de ocorrer o

evento E é o número real P (E), tal que:
Sendo 0 ≤ P(E) ≤ 1 e S um conjunto equiprovável, ou seja, todos os elementos têm a mesma “chance de
acontecer.
Onde:
n(E) = número de elementos do evento E.
n(S) = número de elementos do espaço amostral S.
Exemplo:
Lançando-se um dado, a probabilidade de sair um número ímpar na face voltada para cima é obtida da seguinte
forma:
S = {1, 2, 3, 4, 5, 6} n(S) = 6
E = {1, 3, 5} n(E) = 3
Probabilidade da união de dois eventos
Vamos considerar A e B dois eventos contidos em um mesmo espaço amostral A, o número de elementos da
reunião de A com B é igual ao número de elementos do evento A somado ao número de elementos do evento
B, subtraindo o número de elementos da intersecção de A com B.
45
Sendo n(S) o número de elementos do espaço amostral, vamos dividir os dois membros da equação por n(S)
a fim de obter a probabilidade P (A U B).
Para eventos mutuamente exclusivos, onde A ∩ B = Ø, a equação será:
Exemplo:
A probabilidade de que a população atual de um país seja de 110 milhões ou mais é de 95%. A probabilidade
de ser 110 milhões ou menos é de 8%. Calcule a probabilidade de ser 110 milhões.
Sendo P(A) a probabilidade de ser 110 milhões ou mais: P(A) = 95% = 0,95
Sendo P(B) a probabilidade de ser 110 milhões ou menos: P(B) = 8% = 0,08
P (A ∩ B) = a probabilidade de ser 110 milhões: P (A ∩ B) = ?
P (A U B) = 100% = 1
Utilizando a regra da união de dois eventos, temos:
P (A U B) = P(A) + P(B) – P (A ∩ B)
1 = 0,95 + 0,08 - P (A ∩ B)
P (A ∩ B) = 0,95 + 0,08 – 1
P (A ∩ B) = 0,03 = 3%
Probabilidade condicional
Vamos considerar os eventos A e B de um espaço amostral S, definimos como probabilidade condicional do
evento A, tendo ocorrido o evento B e indicado por P(A | B) ou , a razão:
Lemos P (A | B) como: a probabilidade de A “dado que” ou “sabendo que” a probabilidade de B.
Exemplo:
No lançamento de 2 dados, observando as faces de cima, para calcular a probabilidade de sair o número 5 no
primeiro dado, sabendo que a soma dos 2 números é maior que 7.
Montando temos:
S = {(1,1), (1,2), (1,3), (1,4), (1,5), (1,6), (2,1), (2,2), (2,3), (2,4), (2,5), (2,6), (3,1), (3,2), (3,3), (3,4), (3,5), (3,6),
46
(4,1), (4,2), (4,3), (4,4), (4,5), (4,6), (5,1), (5,2), (5,3), (5,4), (5,5), (5,6), (6,1), (6,2), (6,3), (6,4), (6,5), (6,6)}
Evento A: o número 5 no primeiro dado.
A = {(5,1), (5,2), (5,3), (5,4), (5,5), (5,6)}
Evento B: a soma dos dois números é maior que 7.

B = {(2,6), (3,5), (3,6), (4,4), (4,5), (4,6), (5,3), (5,4), (5,5), (5,6), (6,2), (6,3), (6,4), (6,5), (6,6)}
A ∩ B = {(5,3), (5,4), (5,5), (5,6)}

P (A ∩ B) = 4/36
P(B) = 15/36
Logo:
Probabilidade de dois eventos simultâneos (ou sucessivos)
A probabilidade de ocorrer P (A ∩ B) é igual ao produto de um deles pela probabilidade do outro em relação

ao primeiro. Isto significa que, para se avaliar a probabilidade de ocorrem dois eventos simultâneos (ou
sucessivos), que é P (A ∩ B), é preciso multiplicar a probabilidade de ocorrer um deles P(B) pela probabilidade
de ocorrer o outro, sabendo que o primeiro já ocorreu P (A | B).
Sendo:
- Eventos independentes: dois eventos A e B de um espaço amostral S são independentes quando P(A|B) =
P(A) ou P(B|A) = P(B). Sendo os eventos A e B independentes, temos:
Exemplo:
Lançando-se simultaneamente um dado e uma moeda, determine a probabilidade de se obter 3 ou 5 na dado
e cara na moeda.
Sendo, c = coroa e k = cara.
S = {(1,c), (1,k), (2,c), (2,k), (3,c), (3,k), (4,c), (4,k), (5,c), (5,k), (6,c), (6,k)}
Evento A: 3 ou 5 no dado
A = {(3,c), (3,k), (5,c), (5,k)}
Evento B: cara na moeda

B = {(1,k), (2,k), (3,k), (4,k), (5,k), (6,k)}
Os eventos são independentes, pois o fato de ocorrer o evento A não modifica a probabilidade de ocorrer o
evento B.
Com isso temos:
P (A ∩ B) = P(A). P(B)
Observamos que A ∩ B = {(3,k), (5,k)} e a P (A ∩ B) poder ser calculada também por:
No entanto nem sempre chegar ao n(A ∩ B) nem sempre é fácil dependendo do nosso espaço amostral.
47
Lei Binomial de probabilidade
Vamos considerar um experimento que se repete n número de vezes. Em cada um deles temos:
P(E) = p , que chamamos de probabilidade de ocorrer o evento E com sucesso.
P(Ē) = 1 – p , probabilidade de ocorrer o evento E com insucesso (fracasso).
A probabilidade do evento E ocorrer k vezes, das n que o experimento se repete é dado por uma lei binomial.
A probabilidade de ocorrer k vezes o evento E e (n - k) vezes o evento Ē é o produto: pk . (1 – p)n – k

As k vezes do evento E e as (n – k) vezes do evento Ēpodem ocupar qualquer ordem. Então, precisamos
considerar uma permutação de n elementos dos quais há repetição de k elementos e de (n – k) elementos, em
outras palavras isso significa:
logo a probabilidade de ocorrer k vezes o evento E no n experimentos é dada:
A lei binomial deve ser aplicada nas seguintes condições:

- O experimento deve ser repetido nas mesmas condições as n vezes.
- Em cada experimento devem ocorrer os eventos E e Ē.
- A probabilidade do E deve ser constante em todas as n vezes.
- Cada experimento é independente dos demais.
Exemplo:
Lançando-se uma moeda 4 vezes, qual a probabilidade de ocorrência 3 caras?
Está implícito que ocorrerem 3 caras deve ocorrer uma coroa. Umas das possíveis situações, que satisfaz o
problema, pode ser:
Temos que:
n=4
k=3
Logo a probabilidade de que essa situação ocorra é dada por: , como essa não é a única
situação de ocorre 3 caras e 1 coroa. Vejamos:
Podemos também resolver da seguinte forma: maneiras de ocorrer o produto , portanto:
48
Axiomas de Probabilidade
Considere-se um espaço de resultados S, finito, e um conjunto A de subconjuntos de S – acontecimentos - que

satisfaça as seguintes condições:
a) O acontecimento certo S, pertence a A.
b) Se um acontecimento A pertence a A, então o seu complementar Ǡ também pertence a A.
c) Se dois acontecimentos pertencem a A, então a sua união A∪B também pertence a A.
Ao par (S, A), chamamos espaço de acontecimentos.
Uma medida de Probabilidade P é uma função de conjunto, isto é, definida em A, que a cada
elemento A pertencente a A associa um número real que se chama Probabilidade de A e se representa
por P(A), satisfazendo as seguintes condições ou axiomas:
1º axioma - A probabilidade de qualquer acontecimento é maior ou igual a zero
P(A) ≥ 0
2º axioma - A probabilidade do acontecimento certo S, é 1:
P(S) =1
3º axioma - Dados dois acontecimentos disjuntos, a probabilidade da sua união é igual à soma das
probabilidades de cada um
Se A∩B = ∅ ⇒ P(A∪B) = P(A)+P(B)
No caso de S não ser finito, a condição c) é substituída pela condição
c*) Se A1, A2, A3, ... pertencem a A então também pertence a A e o 3º axioma é substituído pelo seguinte
axioma:
3º axioma* - Se A1, A2, A3, ... são acontecimentos disjuntos dois a dois, então
Os axiomas anteriores são conhecidos como a axiomática de Kolmogorov.
A probabilidade frequencista, laplaciana e subjetiva, verificam a axiomática de Kolmogorov.

Como consequência da axiomática anterior, resultam as seguintes propriedades para a Probabilidade, que
facilmente se ilustram com a ajuda de diagramas de Venn e se demonstram a seguir:
Propriedades da Probabilidade
1. Probabilidade do acontecimento impossível, P(∅)=0
pois S=(S∪∅) e como S e ∅ são disjuntos, pelo 3º axioma vem P(S ∪ ∅) = P(S)+P(∅) = 1.
2. Probabilidade do acontecimento complementar, P(Ā)=1−P(A)
49
pois S=A∪Ā e como A e Ā são disjuntos vem P(A∪Ā) = P(A)+P(Ā) =1.
3. Se A implica B (ver Operações com acontecimentos), ou seja, A⊆B, então P(A)≤P(B)
pois B = A ∪(B −A) e como A e (B − A) são disjuntos vem:

P(B) = P(A) + P((B − A))
≥ P(A) porque P((B − A)) ≥ 0 pelo 1º axioma.
4. Para qualquer acontecimento A, tem-se 0 ≤P(A) ≤1

Esta propriedade é consequência da propriedade anterior, dado que A⊆S.
5. Dados dois acontecimentos A e B quaisquer, tem se P(A − B) = P(A) −P( A ∩ B)
pois A = (A − B) ∪ (A ∩ B), com (A − B)(A − B) e A ∩ B A ∩ B disjuntos.
6. A probabilidade da união de dois acontecimentos A e B quaisquer é P(A ∪ B) = P(A)+P(B) −P(A ∩ B)
Pois A ∪ B = (A − B) ∪ (A ∩ B) ∪ (B − A), com (A − B), A ∩ B e (B − A)(B − A) disjuntos dois a dois e tendo em

consideração a propriedade anterior.
Esta fórmula generaliza-se ao caso de três acontecimentos A, B e C

P(A ∪ B ∪ C) = P(A)+P(B)+P(C) − P(A ∩ B)−P(A ∩ C)−P(B ∩ C)+P(A ∩ B ∩ C)
Variáveis Aleatórias Discretas e Contínuas
Variáveis Aleatórias
Uma variável aleatória fornece um meio para se descrever os resultados experimentais, através de valores
numéricos, associando um valor numérico a cada resultado do experimento.
Essa variável aleatória se classifica como discreta ou contínua, dependendo dos valores numéricos que
assume.
50
Variáveis Aleatórias Discretas
Uma variável que pode assumir tanto um número finito de valores como infinita seqüência de valores tais como
0,1,2,3,4,... é denominada variável aleatória discreta.
Exemplos:
Distribuição de Probabilidade
Para uma variável aleatória discreta x, a distribuição de probabilidade é definida por uma função de
probabilidade, denotada por f(x). Essa função dá a probabilidade para cada um dos valores da variável
aleatória.
No desenvolvimento de uma função de probabilidade para qualquer variável discreta, duas condições precisam
ser satisfeitas: p(x)  0 e  p(x) = 1
Considere as vendas de automóveis de certa empresa como exemplo de uma variável aleatória discreta e sua
distribuição de probabilidade.
Nos últimos 300 dias de operação, os dados de vendas mostram 54 dias sem vendas de automóveis, 117 dias
com 1 automóvel vendido, 72 dias com 2 automóveis vendidos, 42 dias com 3 automóveis vendidos, 12 com 4
automóveis vendidos e 3 dias com 5 automóveis vendidos. Sendo a variável aleatória de interesse x o número
de automóveis vendidos durante um dia.
E sua distribuição de probabilidade é dada por:
A principal vantagem de se definir uma variável aleatória com sua distribuição de probabilidade é que
observando a distribuição das vendas de automóveis desta empresa, vemos que o número mais provável de
automóveis vendidos durante um dia é um com a probabilidade de 0,39 (117/300). Além disso, outras
probabilidades podem ser calculadas, pois se o gerente quiser saber qual a probabilidade de se vender três
automóveis ou mais durante um dia, p(3) + p(4) + p(5) = 0,14 + 0,04 + 0,01 = 0,19. Essas probabilidades
fornecem informações que possibilitam entender o processo de venda de automóveis da sua empresa.
Uma distribuição de probabilidades de uma variável aleatória discreta apresenta sempre duas características
numéricas que são muito importantes para descrição do comportamento dessa variável, são os parâmetros
das distribuições, que chamamos de esperança matemática e variância.
Esperança Matemática
Denotada por E(x), que representa a média de uma variável aleatória. O valor esperado é uma média
ponderada dos valores que a variável aleatória pode assumir, onde os pesos são as probabilidades. A
51
expressão matemática para representar o valor esperado da variável aleatória x é: E ( x) x. f ( x)
Exemplo:
Tendo a distribuição de probabilidade do número de automóveis vendidos durante um dia na SOCAR.
E (x)  x.f (x)  1,5. Significa que se espera vender em média 1,5 carros por dia.
Variância
A variância é uma média ponderada dos desvios da variável aleatória em relação a sua média, elevados ao
quadrado, onde os pesos são as probabilidades. A expressão matemática usada para o seu cálculo está a
seguir.
Desvio – Padrão
O desvio padrão da variável x é a raiz quadrada da variância, isto é:   V ( x) = ,1 25  ,112
Distribuição Binomial
Vários tipos de variável aleatória são usados com tanta frequência que receberam nomes especiais. Uma
distribuição de variável aleatória discreta importante é a chamada distribuição binomial.
A distribuição binomial se aplica a qualquer situação em que se realizam várias provas independentes, cada
uma das quais comporta apenas um dentre dois resultados possíveis.
Esses dois resultados chamam-se “sucesso” e “fracasso”. Seja X o número de sucessos. Se a probabilidade
de sucesso em cada prova é p e a probabilidade de fracasso é q = 1 – p. Então a fórmula da função de
probabilidade para a variável aleatória binomial é: P(x)  Cn .p .q 
Onde: p = probabilidade do sucesso (o que se está sendo verificado) q = probabilidade do fracasso, sendo p +
q = 1, logo q = 1 – p.
A combinação de n elementos tomados x a x, dada por:
Sendo a Esperança (média) dada por: E ( x )  .pn e a variância V ( x )  .. qpn
Distribuição binomial - Variável aleatória contínua

Uma variável aleatória que pode assumir qualquer valor numérico em um intervalo ou uma coleção de
intervalos é chamada de variável aleatória contínua. Como exemplo, podemos considerar os resultados
experimentais baseados em medição, ou seja: tempo, peso, distância, temperatura etc.
Exemplos:
52
Função de Densidade de Probabilidade
Para as variáveis aleatórias contínuas a sua FUNÇÃO DE DENSIDADE DE PROBABILIDADE satisfaz as
seguintes condições:
A aplicação da integral em uma função é um cálculo matemático, que às vezes, é difícil devido ao tipo da
função que determina o comportamento da variável, sendo que a probabilidade é dada pela área determinada
através da integral entre dois pontos que determina o intervalo considerado na função.
Distribuição Normal
É a mais importante distribuição de probabilidade, sendo aplicada em inúmeros fenômenos e utilizada para o
desenvolvimento teórico da estatística. É também conhecida como distribuição de Gauss, Laplace ou Laplace-
Gauss.
A distribuição normal é um exemplo de distribuição de variável aleatória contínua. Na verdade há muitas
distribuições normais diferentes. Pode-se identificar uma distribuição normal especificando-se dois números: a
média e a variância (ou desvio padrão). A média está localizada no pico da distribuição. A variância define a
forma da distribuição, se ela é muito dispersa ou se a maior parte da área se concentra na proximidade do
pico, ou seja, do valor médio.
Se X é uma variável aleatória normal com média () e variância (2), então sua função de densidade é dada
por:
Onde  é a média  o seu desvio padrão.
O gráfico determinado pela função da distribuição normal assemelha-se muito a um sino, com o pico localizado
na média () conforme figura abaixo: 
A distribuição normal é especificada pela média e o desvio padrão. A variância ( 2) determina a forma da curva;
sendo que quanto maior o valor da variância significa maior dispersão na curva.
Sua probabilidade é determinada pela área sob a curva, através da integral no intervalo associado aos valores
da variável.
As principais características dessa função são:
 A curva é simétrica em relação à média ()
 A média = mediana = moda
53
 É assintótica em relação ao eixo das abscissas.
Distribuição Normal Padronizada

Na maioria das vezes em que necessitamos da área sob a curva normal, devemos recorrer a uma tabela. Seria
impossível elaborar uma tabela para cada distribuição normal com todos os valores possíveis da média e da
variância. Felizmente, podemos achar os resultados para qualquer distribuição normal apelando para uma
tabela de distribuição normal com média  = 0 e variância 2 = 1. Essa distribuição normal especial é chamada
distribuição normal padrão.
Na prática, a distribuição normal apresenta um número muito grande de combinações entre a média e o desvio
padrão. No entanto, através da mudança de variável, contornamos esse problema, fazendo com que todas as
inúmeras distribuições normais reduzam-se a apenas uma, ou seja, à distribuição Z. Além da variável z ser
desprovida da unidade de medida (isto é, constitui um número puro), ela serve para qualquer tipo de variável,
independentemente de sua unidade usando a seguinte fórmula:
Onde z tem distribuição normal reduzida com a seguinte função densidade de probabilidade.
Distribuição de Probabilidade
Os valores de uma v.a. discreta são definidos a partir do espaço amostral de um experimento aleatório. Sendo
assim, é natural perguntarmos “qual é a probabilidade do valor x”? No exemplo do máximo das 2 faces de um
dado da figura 1, por exemplo, o valor 6 da v.a. é imagem de 11 pontos do espaço amostral, enquanto o valor
2 é imagem de apenas 3 pontos.
Sendo assim, é de se esperar que o valor 6 seja mais provável que o valor 2. Na verdade, temos a seguinte
equivalência de eventos: se chamamos de X a v.a. “máximo dos 2 dados”, então
e, assim
Como os eventos no lado direito da expressão acima são mutuamente exclusivos e igualmente prováveis,
resulta que
De maneira análoga obtemos que
Definição 3: Seja X uma v.a. discreta. A função de distribuição de probabilidades de X é a função pX (x) que
associa, a cada valor possível x de X, sua respectiva probabilidade, calculada da seguinte forma: pX (x) é a
probabilidade do evento {X = x} consistindo de todos os
resultados do espaço amostral que deram origem ao valor x.
Figura: Função de distribuição de probabilidade de uma v.a. discreta
54
Para não sobrecarregar o texto, omitiremos os colchetes oriundos da notação de evento/conjunto e
escreveremos Pr (X= x) no lugar de Pr ({X = x}), que seria a forma correta. Uma outra convenção que
seguiremos também será a de indicar por letras maiúsculas as variáveis aleatórias e por letras minúsculas os
números reais, tais como os valores específicos de uma v.a. Além disso, abreviaremos por fdp o termo função
de distribuição de probabilidade.
Das propriedades (axiomas) da probabilidade resultam os seguintes fatos sobre a função de distribuição de
probabilidades de uma v.a. X:
Onde indica somatório ao longo de todos os possíveis valores de X. Note que essa propriedade é
decorrente do axioma Pr (Ω) = 1, pois os eventos {X = x} são mutuamente exclusivos e formam uma partição
do espaço amostral.
Cálculo da função de distribuição de probabilidade
Considerando novamente a v.a. definida na figura 1, podemos resumir a fdp da variável em questão na seguinte
tabela:
Considere uma urna com 10 bolas, das quais 6 são vermelhas e 4 brancas. Dessa urna retiram-se 3 bolas sem
reposição e conta-se o número de bolas brancas retiradas.
Qual é a distribuição dessa variável aleatória?
Os possíveis valores de X são 0,1,2,3. Para calcular a probabilidade de cada um desses valores, devemos
notar inicialmente que o espaço amostral tem eventos elementares.

O evento {X = 0} corresponde à união dos eventos (sequências) onde não aparece nenhuma bola branca ou,
equivalentemente, onde todas as bolas são vermelhas; ¡ o número de tais sequências é . (Note
que aqui estamos usando o princípio fundamental da multiplicação.)
Logo,
Analogamente, o evento {X = 1} corresponde à união dos eventos onde aparece 1 bola branca e 2 vermelhas.
O número de tais sequências é e, portanto
55
Analogamente, obtemos que
e a fdp de X é
Distribuição de Bernoulli
Definição
Considere o lançamento de uma moeda. A característica desse experimento aleatório é que ele possui apenas
dois resultados possíveis. Uma situação análoga surge quando da extração da carta de um baralho, onde o
interesse está apenas na cor (preta ou vermelha) da carta sorteada.
Um experimento de Bernoulli é um experimento aleatório com apenas dois resultados possíveis; por
convenção, um deles é chamado “sucesso” e o outro “fracasso”.
A distribuição de Bernoulli é a distribuição de uma v.a. X associada a um experimento de Bernoulli, onde se

define X = 1 se ocorre sucesso e X = 0 se ocorre fracasso. Chamando de p a probabilidade de sucesso (0 < p
< 1), a distribuição de Bernoulli é:
Obviamente, as condições definidoras de uma fdp são satisfeitas, uma vez que p > 0, 1 − p > 0 e p+(1−p) = 1.
O valor de p é o único valor que precisamos conhecer para determinar completamente a distribuição; ele é,
então, chamado parâmetro da distribuição de Bernoulli. Vamos denotar a distribuição de Bernoulli com
parâmetro p por Bern(p).
A função de distribuição acumulada é dada por:
Temos os gráficos da fdp e da fda de uma distribuição de Bernoulli.
Distribuição de Bernoulli com parâmetro p
56
Esperança
Seja X ∼ Bern(p) (lê-se: a variável aleatória X tem distribuição de Bernoulli com parâmetro p).
Então, E(X) = 0 × (1 − p) + 1 × p. Logo,
X ∼ Bern(p) ∼≠$ E(X) = p
Variância
Seja X ∼ Bern(p). Então,
E(X2) = 02 × (1 − p) + 12 × p ⇒ E(X2) = p ⇒ V ar(X) = p − p2
Logo,
X ∼ Bern(p) ⇒ V ar(X) = p(1 − p)
Distribuição Geométrica
Definição
Considere a situação descrita no exercício 3 do capítulo 1: uma moeda com probabilidade p de cara é lançada
até que apareça cara pela primeira vez. Como visto, tal experimento gera uma v.a. discreta X = “número de
repetições necessárias até a ocorrência da primeira cara” com infinitos valores. Essa é uma situação onde é
impossível encontrar algum paralelo na prática; no entanto, o “infinito” na prática, em geral, é
substituído por um “valor muito grande”. Considere uma população muito grande onde p% das pessoas sofrem
de uma doença desconhecida. Precisa-se encontrar uma pessoa portadora da doença para que os médicos
57
possam estudá-la.
Quantas pessoas teremos que examinar até encontrar uma portadora? Em ambas as situações, cada repetição
do experimento (lançamento da moeda ou exame de uma pessoa) tem dois resultados possíveis (cara ou coroa
e Portadora ou não protadora da doença), ou seja, temos experimentos de Bernoulli.
Consideremos repetições independentes de um experimento de Bernoulli com parâmetro p. Vamos definir a
seguinte v.a. associada a esse experimento aleatório: X = número de repetições necessárias para a obtenção
do primeiro sucesso
Os valores possíveis de X são 1 (primeiro sucesso na primeira repetição), 2 (primeiro sucesso na segunda
repetição e, portanto fracasso na primeira), 3 (primeiro sucesso na terceira repetição e, portanto, fracasso nas
duas primeiras), etc. Esse é um exemplo de v.a. discreta onde o espaço amostral, enumerável, é infinito.
Para calcular a probabilidade de X = k, k = 1, 2, 3, . . . , devemos notar que tal evento corresponde à ocorrência
de fracassos nas k − 1 primeiras repetições e sucesso na k-ésima repetição.
Denotando por Fi e Si a ocorrência de fracasso e sucesso na i-ésima repetição respectivamente, temos a

seguinte equivalência de eventos:
Como as repetições são independentes, segue que
ou seja,
Dizemos que X tem distribuição geométrica com parâmetro p (o único valor necessário para especificar
completamente a fdp) e vamos representar tal fato por X ∼ Geom(p).
As características definidoras desse modelo são: (I) repetições de um mesmo experimento de Bernoulli, o que
significa que em todas elas a probabilidade de sucesso (e, portanto, de fracasso) é a mesma e (II) as repetições
são independentes. No caso do lançamento de uma moeda essas hipóteses são bastante plausíveis mas no
caso da doença a hipótese de independência pode não ser satisfeita; por exemplo, pode haver um componente
de hereditariedade.
Para mostrar que (2.5) realmente define uma fdp, temos que mostrar que a soma das probabilidades, isto é, a
probabilidade do espaço amostral é 1 (obviamente, Pr(X = k) ≥0). Para isso vamos usar o seguinte resultado
sobre séries geométricas:
Temos que:
Fazendo j = k − 1, temos que k = 1 ⇒ j = 0 e k = ∞ ⇒ j = ∞.

Portanto,
Usando, obtém-se que:
Esperança
58
Fazendo a mudança de variável k −1 = j, resulta que k = j+1, k = 1 ⇒ j = 0 e k = ∞ ⇒ j = ∞. Logo,
Usando o resultado da seção 2.8 com r = 1− p, obtemos que:
Logo,
Variância
Para calcular a variância, temos que calcular E(X2). Por definição,
No primeiro somatório, a parcela correspondente a k = 1 é nula, logo, podemos escrever (note o índice do
somatório!):
O segundo somatório é a esperança da distribuição geométrica com parâmetro p; logo, ele é igual a .
Fazendo a mudança de variável k −2 = j no primeiro somatório, resulta que obtemos que:
Segue que:
Exemplo:
59
1. Um atirador acerta na mosca do alvo, 20% dos tiros.
Qual a probabilidade de ele acertar na mosca pela primeira vez no 10º tiro?
Solução:
Podemos pensar os tiros como experimentos independentes de Bernoulli (acerta ou não acerta). A
probabilidade de sucesso (acertar no alvo) é p = 0, 20. Estamos querendo o número de tiros até o primeiro
acerto e calcular a probabilidade desse número ser 10. Seja X = número de tiros até primeiro acerto. Então,
X∼ Geom(0, 20) e Pr (X = 10) = 0, 89×0,2 = 0, 02684.
Distribuição Binomial
Definição
Consideremos n repetições independentes de um experimento de Bernoulli com parâmetro p (pense em n
lançamentos de uma moeda com probabilidade p de cara).
Vamos definir a seguinte v.a. associada a este experimento:

X = número de sucessos obtidos nas n repetições
1. Os valores possíveis de X são 0 (só ocorrem fracassos), 1 (ocorre apenas 1 sucesso), 2 (ocorrem 2
sucessos), . . . , n (ocorrem apenas sucessos). Vamos calcular a probabilidade de X = k, onde k = 0, 1, 2, . . . ,
n. O evento X = k equivale à ocorrência de k sucessos e n − k fracassos.
Consideremos uma situação específica: as k primeiras repetições são “sucesso”. Como as repetições são
independentes, temos a probabilidade da interseção de eventos independentes; logo,
Mas essa é uma ordenação específica, onde os sucessos são os primeiros resultados. Na verdade, os k
sucessos podem estar em qualquer posição e ainda teremos X = k. O número de maneiras possíveis de obter
k sucessos em n repetições nada mais é que o número de combinações de n elementos tomados k a k, ou
seja Como cada uma dessas maneiras tem a mesma probabilidade acima e elas são eventos mutuamente
exclusivos, resulta que
onde o número de parcelas é . Logo
Essa é a distribuição binomial; note que para determiná-la precisamos conhecer os valores de n e p, que são
os parâmetros da distribuição. Vamos usar a seguinte notação: X∼ bin (n; p).
Note que na distribuição binomial, o número de lançamentos é fixo e o número de sucessos é a variável de
interesse; note o contraste com a distribuição binomial negativa onde o número de lançamentos é variável e o
número de sucessos é um número fixo (pré-determinado).
Para mostrar que realmente define uma fdp falta mostrar que
já que, obviamente, Pr(X = k) ≥ 0. De fato: o teorema do binômio de Newton nos diz que, se x e y são números
reais e n é um inteiro positivo, então
Fazendo x = p e y = 1− p em (2.19), obtém-se:
60
o que prova o resultado.
Esperança
Quando k = 0, a parcela correspondente no somatório é nula. Logo, podemos escrever (note o índice do
somatório!):
e como podemos fazer a divisão, o que resulta na simplificação
Fazendo j = k − 1, temos que k = j + 1, k = 1 ⇒ j = 0 e k = n ⇒ j = n − 1. Logo,
Mas nesse somatório temos as probabilidades de uma distribuição binomial com parâmetros (n −1) e p; como
estamos somando as probabilidades de todos os pontos do espaço amostral, segue que esse somatório é igual
a 1 (note que essa é a expressão do binômio de Newton para (x+y)n−1 com x = p e y = 1− p) e, portanto,
Variância
Vamos calcular E (X2) . Usando raciocínio análogo ao usado no cálculo da esperança, temos que:
61
Mas o primeiro somatório é a esperança de uma binomial com parâmetros (n − 1) e p; portanto, pelo resultado
(2.20), é igual a (n − 1) p. Já o segundo somatório é a soma das probabilidades dos valores de uma binomial
com esses mesmos parâmetros (ou binômio de Newton); logo, é igual a 1.
Segue, então, que e,
portanto,
ou seja,
Exemplos:
1. Um atirador acerta na mosca do alvo, 20% dos tiros. Se ele dá 10 tiros, qual a probabilidade de ele acertar
na mosca no máximo 1 vez?
Solução:
Podemos pensar os tiros como experimentos de Bernoulli independentes, onde a probabilidade de sucesso é
0,20. Então, o problema pede Pr(X ≤ 1), onde X = número de acertos em 10 tiros. Logo, X ∼ bin(10; 0, 20) e
Distribuição binomial versus distribuição hipergeométrica
Vamos fazer agora algumas comparações entre as distribuições binomial e hipergeométrica. Colocando ambas
em termos de extrações de bolas verdes de uma urna com bolas verdes e brancas, a binomial equivale a
extrações independentes com reposição. Note que, repondo as bolas, a probabilidade de sucesso (isto é, bola
verde) permanece constante ao longo das extrações. Já a hipergeométrica corresponde a extrações sem
reposição.
A esperança da binomial é igual ao produto do tamanho da amostra pela probabilidade de sucesso; em termos
da urna, a probabilidade de sucesso é e, portanto, a esperança é n .

Na hipergeométrica, a esperança também é o produto do tamanho da amostra pela probabilidade de sucesso,
probabilidade essa tomada apenas na primeira extração.
A variância da binomial é igual ao produto do tamanho da amostra pelas probabilidades de sucesso e fracasso.
Em termos de urna, essas probabilidades são . Na hipergeométrica, considerando apenas a primeira
extração, a variância é igual a esse produto, mas corrigido pelo fator .

Em pesquisas estatísticas por amostragem, normalmente lidamos com amostragem sem reposição (já
62
imaginou visitar e entrevistar um mesmo morador duas vezes?). No entanto, os resultados teóricos sobre
amostragem com reposição são bem mais simples, assim, costuma-se usar uma aproximação, sempre que
possível. Ou seja, quando a população (tamanho N) é suficientemente grande (de modo que podemos encará-
la como uma população infinita) e o tamanho da amostra é relativamente pequeno, podemos “ignorar” o fato
de as extrações serem feitas sem reposição. Lembre-se que a probabilidade em extrações sucessivas são
Então, se N é “grande” e n é pequeno, temos que N ≈ N − 1 ≈ · · · ≈ N − n. Nessas condições, extrações com

e sem reposição podem ser consideradas como equivalentes. O termo que aparece na variância da
hipergeométrica, é chamado correção para populações finitas, exatamente porque, se a população é

pequena, não podemos ignorar o fato de as extrações estarem sendo feitas sem reposição.
Exemplo:
1. Um caçador, após um dia de caça, verificou que matou 5 andorinhas e 2 aves de uma espécie rara, proibida
de ser caçada. Como todos os espécimes tinham o mesmo tamanho, ele os colocou na mesma bolsa,
pensando em dificultar o trabalho dos fiscais. No posto de fiscalização há dois fiscais, Manoel e Pedro, que
adotam diferentes métodos de inspeção.
Manoel retira três espécimes de cada bolsa dos caçadores. Pedro retira um espécime, classifica-o e o repõe
na bolsa, retirando em seguida um segundo espécime. Em qualquer caso, o caçador é multado se é encontrado
pelo menos um espécime proibido. Qual dos dois fiscais é mais favorável para o caçador em questão?
Solução:
Seja X = número de aves proibidas (sucessos) encontradas por um fiscal. No caso de Manoel, temos que X ∼
hiper(7; 2; 3) e no caso do fiscal Pedro, X ∼ bin
Logo, a probabilidade de multa é maior no caso do fiscal Manoel, e, portanto, Pedro é o fiscal mais favorável
para o caçador.
A Distribuição de Poisson
Aproximação da binomial pela Poisson
Suponhamos que estamos observando um determinado fenômeno de interesse por um certo período de tempo
de comprimento t com o interesse de contar o número de vezes X que determinado evento ocorre.
Vamos fazer as seguintes hipóteses sobre a forma como esse evento ocorre:
H1) Em um intervalo de tempo suficientemente curto, apenas 0 ou 1 evento ocorre, ou seja, 2 ou mais
ocorrências não podem acontecer simultaneamente. Então, em cada um desses intervalos temos um
experimento de Bernoulli.
H2) A probabilidade de exatamente 1 ocorrência nesse pequeno intervalo de tempo, de comprimento Δt, é
proporcional a esse comprimento, ou seja, é λΔt. Logo, a ocorrência de nenhum evento é 1 − λΔt.
H3) As ocorrências em intervalos pequenos e disjuntos são experimentos de Bernoulli independentes.
Estamos interessados na v.a. X = número de ocorrências do evento no intervalo (0, t]. Particionando esse
intervalo em n pequenos subintervalos de comprimento Δt, temos que o número total de ocorrências será a
soma do número de ocorrências em cada subintervalo. Mas em cada subintervalo podemos aplicar as
hipóteses acima. Logo, X é uma variável binomial com parâmetros n e

probabilidade de sucesso igual a λΔt pela hipótese 2 acima.
Então, para k = 0, 1, 2, . . . , n temos que:
63
Consideremos, agora, a situação em que Δt → 0, ou equivalentemente, n → ∞. Nesse caso, a v.a. X pode
assumir qualquer valor inteiro não negativo e
Teorema: Sejam eventos gerados de acordo com as hipóteses H1 a H3 acima. Se X é o número de eventos
em um intervalo de tempo de comprimento t, então a função de distribuição de probabilidade de X é
Diz-que que X tem distribuição de Poisson com parâmetro λt : X ∼ Poi(λt).
Para mostrar que realmente define uma fdp, temos que provar que temos que:
Esperança e variância
Vamos agora calcular a esperança e a variância de tal distribuição.
Logo
64
Logo
Ou
A interpretação desses resultados nos dá que o número médio de ocorrências do evento em um intervalo de
comprimento t é λt, proporcional ao comprimento. Fazendo t = 1, obtém-se o número médio de ocorrências em
um intervalo unitário. Note que a esperança e a variância são iguais!
A distribuição de Poisson Vamos apresentar, agora, a definição geral da distribuição de Poisson, usando uma
outra parametrização.
Diz-se que a v.a. X tem distribuição de Poisson com parâmetro μ se sua fdp é dada por
Nesse caso, a esperança e a variância de X são dadas por:
Pelos resultados anteriores, μ é o número médio de ocorrências do evento de interesse em um intervalo unitário
e o número de ocorrências num intervalo qualquer é proporcional ao comprimento do intervalo.
Exemplo:
1. Uma central telefônica recebe uma média de 5 chamadas por minuto. Supondo que as chamadas que
chegam constituam uma distribuição de Poisson, qual é a probabilidade de a central não receber nenhuma
chamada em um minuto? e de receber no máximo 2 chamadas em 2 minutos?
Solução:
Seja X = número de chamadas por minuto. Então, X ∼ Poi(5). Logo,
Seja y = número de chamadas em 2 minutos. Então, X ∼

Poi(5 × 2). Logo,
65
Função de Probabilidade
A probabilidade de que uma variável aleatória "X" assuma o valor "x" é uma função de probabilidade,
representada por P(X = x) ou P(x).
Função de Probabilidade de uma V.A.D.

A função de probabilidade para uma variável aleatória discreta é chamada de função de probabilidade no ponto,
ou seja, é o conjunto de pares (xi;P(xi)), i = 1, 2, ..., n, ..., conforme mostra a figura a seguir.
Para cada possível resultado de x teremos:
Função de Repartição para V.A.D.

Seja X uma variável aleatória discreta. Define-se Função de Repartição da Variável aleatória X, no ponto x i,
como sendo a probabilidade de que X assuma um valor menor ou igual a xi, isto é:
Propriedades:
66
Esperança Matemática de V.A.D.
Definição: Seja X uma V.A.D., com valores possíveis x 1, x2, ..., xn,... ; Seja P(xi) = P(X = xi), i = 1, 2, ..., n, ... .
Então, o valor esperado de X (ou Esperança Matemática de X), denotado por E(X) é definido como
se a série convergir absolutamente, isto é, se este número é também

denominado o valor médio de X, ou expectância de X.
Variância de uma V.A.D.
Definição: Seja X uma V.A.D. Define-se a variância de X, denotada por V(X) ou , da seguinte maneira:
onde e a raiz quadrada positiva de V(X) é denominada o desvio-padrão de X, e denotado
por .
Lei dos Grandes Números

A lei dos grandes números é uma das principais leis assintóticas da estatística, sua ideia é bastante intuitiva,
mas de grande importância. Antes de enunciarmos esta lei, vamos tentar analisar a ideia intuitiva dela.
Por exemplo, seja X uma variável aleatória que representa o lançamento de uma moeda honesta, no
qual Se lançarmos essa moeda n vezes então temos que a média aritmética dos
valores observados tendem a 1/2, ou seja, tendem a A lei dos grandes números nos diz que a média
aritmética dos valores observados tendem a esperança da variável aleatória.
Um outro exemplo, é quando lançamos um dado equilibrado, com as faces numeradas de 1 a 6. A probabilidade
de obtermos o número 4 é de pois os eventos são equiprováveis. Vamos simular os resultados

no computador da seguinte forma. Primeiramente lançamos os dados 100 vezes e anotamos quantas vezes a
face 4 aparece nos resultados e por fim calculamos a proporção de vezes que a face 4 aparece. Repetimos
isto para 1000 e 10000 lançamentos. Assim, obtemos os seguintes resultados:
67
Observe que quanto maior o número de lançamentos do dado, mais o resultado experimental se aproxima da
probabilidade esperada.
Proposição: Se uma sequência de variáveis aleatórias sobre um espaço de probabilidade

converge quase certamente para uma variável aleatória então em probabilidade.
Lei Fraca de Chebyshev
Sejam uma sequência enumerável de variáveis aleatórias independentes dois a dois. Se a

sequência tem variância finita e uniformemente limitada, ou seja, existe uma constante tal
que . Então a sequência satisfaz a Lei Fraca dos Grandes Números:
em que
Lei Fraca de Khintchine
Sejam uma sequência enumerável de variáveis aleatórias independentes e identicamente distribuídas e

integráveis com média Então satisfazem a Lei Fraca do Grandes Números:
Lei Fraca dos Grandes Números de Bernoulli

Seja uma sequência de ensaios de Bernoulli independentes, com mesma probabilidade de sucesso. Então
em que
Exemplos:
01) Seja uma sequência de variáveis aleatórias, mostre que se e , então
.
Como temos que para cada , existe tal que para .
Assim, para todo temos que:
pois
Logo,
68
Mas pela desigualdade de Chebyshev para todo .
Portanto para todo
mas como , quando , concluímos que .
02) Suponha que em uma fábrica borracha o número de borrachas produzidas por dia seja uma variável
aleatória X com média . Estime a probabilidade de que a produção diária seja maior que 210.
Neste caso basta usarmos a desigualdade de Markov, e obtemos o seguinte resultado:
03) Se no exemplo acima a variância de X é igual a 20, qual a probabilidade de que a produção do dia esteja
entre 40 e 100 borrachas produzidas?
Utilizando a desigualdade de Chebyshev, obtemos que:
ou seja,
Desta forma a probabilidade de que a produção do dia esteja entre 40 e 100 borrachas produzidas é de
aproximadamente 97,7%.
04) Seja uma sequência de eventos aleatórios com o mesmo espaço de probabilidades. Seja a função
indicadora de do conjunto , mostremos que se, e somente se, .
Primeiramente vamos supor que . Então dado , definimos
Observe que se , então pois assume apenas os valores zero ou 1 e neste caso e
o resultado segue trivialmente.
Sendo assim, basta considerarmos apenas o caso em que
Assim, temos que
Logo obtemos que:
o que implica que , ou seja,
Agora vamos supor que , isto é, , então neste caso temos que:
Portanto
05) Uma variável com variância zero é um valor determinístico.
69
De fato, seja X uma variável aleatória com variância zero pela desigualdade de Chebyshev temos
que
Portanto, com probabilidade 1, isto é, é determinístico.
06) Um candidato a prefeito da cidade de São Carlos gostaria de ter uma ideia de quantos votos receberá nas
próximas eleições. Para isto, foi feito uma pesquisa com os cidadãos, em que representa a proporção de
votos do candidato com Quantas pessoas devem ser entrevistadas com 95% de confiança para que
o valor de tenha sido determinado com erro inferior a 5%, supondo que as escolhas de cada pessoa sejam
independentes.
Seja o número de candidatos, denotamos a variável aleatória de Bernoulli que assume
valor 1, com probabilidade p, se a i-nésima pessoa entrevistada declara a intenção de votar no candidato.
Assume o valor 0, com probabilidade caso contrário.
Note que (para mais detalhes consulte distribuição binomial). Assim, é uma
aproximação do valor de que é desconhecido.
Logo, do enunciado, queremos
temos que
A probabilidade do lado esquerdo de (7.1.1.1) é o complementar à probabilidade desejada, isto

é,
Logo,
Portanto, devemos entrevistar pelo menos 2000 pessoas.
07) Seja uma sequência de eventos aleatórios em indicadores . Mostre

que se, e somente se,
Sabemos que . Então se
o que implica que
Agora, utilizando a desigualdade de Chebyshev:
o que implica que
em probabilidade. Agora suponha que
em probabilidade e seja então
E o resultado segue
08) Sejam variáveis aleatórias independentes com distribuição comum .
70
Qual o limite em probabilidade da sequência , no qual
Temos que .
Agora sejam variável aleatória que serão independentes pela "propriedade hereditária",
identicamente distribuídas e integráveis. Então, pela Lei Fraca de Khintchine
09) Seja uma sequência de variáveis aleatórias. Prove que se .
Sejam qualquer e
Agora o que implica que pois
Então o que implica que
No entanto, através da desigualdade clássica de Chebyshev-Bienayme. Temos
10) Sejam variáveis aleatórias independentes tais que e para , é variável

aleatória discreta satisfazendo
Prove que
quando , se .
Temos que por conta da simetria para e
Agora
Aplicando a desigualdade de Chebyshev-Bienayme temos
71
Lei Fraca do Grandes Números
Sejam uma sequência de variáveis aleatórias independentes e identicamente distribuídas.

Se , então com probabilidade 1, a sequência
não é limitada.
Teorema
Seja uma sequência de variáveis aleatórias independentes tais que ea . Então
para todo ,
Primeira Lei Forte de Kolmogorov
Seja uma sequência de variáveis aleatórias independentes e integráveis, e suponha que:
(condição de Kolmogorov)
então
Exemplo:
Valor esperado infinito implica em variância infinita.
De fato, seja uma variável aleatória tal que
Por definição, temos que
Mas, e
Portanto,
Em particular, variáveis aleatórias com valor esperado infinito não satisfazem a condição de Kolmogorov e
consequentemente não há garantias que cumpra a lei dos grandes números.
Teorema Central do Limite

O teorema central do limite consiste em um importante teorema da teoria assintótica, no qual a ideia central
baseia-se em encontrar a distribuição da somas parciais normalizadas, o qual demonstramos que converge
para a distribuição normal padronizada.
Sejam uma sequência de variáveis aleatórias independentes e identicamente distribuídas, com
média e variância para , em que .
Definimos ,
então
Condição de Lindeberg
72
Seja sequência de variáveis aleatórias independentes
com e existem e são finitos e tomamos Então
Corolário
Sejam variáveis aleatórias independentes e identicamente distribuídas com distribuição binomial
com parâmetro .
Então
converge em distribuição para uma normal padronizada
Teorema
Seja uma sequência de variáveis aleatórias independentes e quadrado integráveis, para
algum e
Definimos
Então
converge em distribuição para quando .
Proposição
Seja uma sequência de variáveis aleatórias independentes e identicamente distribuídas
com e , em que
Condição de Lyapunov
Seja sequência de variáveis aleatórias independentes
com e existem e são finitos e tomamos
Então
Proposição
Seja uma sequência de variáveis aleatórias independentes e satisfaz as condições de
Lyapunov. Então converge em distribuição
Proposição
73
Seja uma sequência de variáveis aleatórias independentes tal que para todo
em que é uma constante e quando
Então
e satisfaz as condições do Teorema Central do Limite.
Exemplo:
Seja e .
Então pelo temos que para todo
Desde que é contínua, esta convergência é uniforme. Assim,
Em particular, obtemos que
Portanto, para n suficientemente grande, tem distribuição aproximadamente normal com média e
variância
Exemplo:
Um candidato a prefeito da cidade de São Carlos gostaria de ter uma ideia de quantos votos receberá nas
próximas eleições. Para isto, foi feito uma pesquisa com os cidadãos, em que representa a proporção de
votos do candidato com Quantas pessoas devem ser entrevistadas com 95% de confiança para que
o valor de tenha sido determinado com erro inferior a 5%, supondo que as escolhas de cada pessoa sejam
independentes.
Seja o número de candidatos, denotamos a variável aleatória de Bernoulli que assume

valor 1, com probabilidade p, se a i-nésima pessoa entrevistada declara a intenção de votar no candidato.
Assume o valor 0, com probabilidade caso contrário.
Assim, temos que e
Consequentemente, e para todo
Logo, do enunciado queremos mínimo de modo que
em que
Mas, temos que
Pelo TCL, temos que para suficientemente grande
74
Logo, basta escolhermos tal que
Como temos que
Portanto, devemos entrevistar pelo menos 385 eleitores.
Números Relativos
Conceito de relativo é associado à variação do valor, preço ou quantidade de um único produto para uma
dada operação econômica (consumo, exportação), entre dois períodos. Por ser a variação de um único produto,
o seu cálculo pode ser feito diretamente pela razão dos valores entre o período final e o inicial.
Variação nos preços: sendo M o multiplicador do produto i entre os períodos 0 e t; p os preços no produto i,
nos períodos 0 e t
A variação calculada acima é expressa como multiplicador. Para ser considerada um número-índice deve ser
multiplicada por 100.
Variação nas quantidades:
Multiplicador
Número-índice
Período Base
É o período ao qual todos os relativos de uma série estão associados.
Exemplo: série com base fixa no período 0:
p01 número-índice entre o período 0 e 1
p02 número-índice entre o período 0 e 2
p03 número-índice entre o período 0 e 3 ....
Calculando número-índice
Para base = 1985
Para 1987, quantidade: (7*100/2) = 350
75
A variação de valor entre 1985 e 88 foi de (1450/100)*(750/100) = 108,75 (multiplicador) ou (108,75-1)*100
= 10.775% (variação percentual)
Mudando de Período – BASE

Supondo que o período-base mude para 1987, já tendo os números-índice para 1985, basta fazer uma regra
de três:
Preços 1985 = (100/450) *100 = 22,22
Quantidade 1988 = (750/350) *100 = 214,29
Bases de uma série de números-índice
Base Fixa
A série de números-índice é toda referenciada ao mesmo período (fixo) v01, v02, v03, v04, ...
Base Móvel
O período de referência (base) muda para cada elo relativo calculado.
Base no período anterior: p01, p12, p23,pn-1,n
Números Índices
Os números-índices são medidas estatísticas frequentemente usadas por administradores, economistas e

engenheiros, para comparar grupos de variáveis relacionadas entre si e obter um quadro simples e resumido
das mudanças significativas em áreas relacionadas como preços de matériasprimas, preços de produtos
acabados, volume físico de produto etc.
Mediante o emprego de números-índices é possível estabelecer comparações entre:

a) variações ocorridas ao longo do tempo;
b) diferenças entre lugares;
c) diferenças entre categorias semelhantes, tais como produtos, pessoas, organizações etc.
É grande a importância dos números-índices para o administrador, especialmente quando a moeda sofre uma
desvalorização constante e quando o processo de desenvolvimento econômico acarreta mudanças continuas
nos hábitos dos consumidores, provocando com isso modificações qualitativas e quantitativas na composição
da produção nacional e de cada empresa individualmente. Assim, em qualquer análise, quer no âmbito interno
de uma empresa, ou mesmo fora dela, na qual o fator monetário se encontra presente, a utilização de números-
índices toma-se indispensável, sob pena de o analista ser conduzido a conclusões totalmente falsas e
prejudiciais à empresa.
Por exemplo, se uma empresa aumenta seu faturamento de um período a outro, isso não quer dizer
necessariamente que suas vendas melhoraram em termos de unidades vendidas.
Pode ter ocorrido que uma forte tendência inflacionaria tenha obrigado a empresa a aumentar acentuadamente.
Os preços de seus produtos, fazendo gerar um acréscimo no faturamento (em termos "nominais"), o qual, na
realidade, não corresponde a uma melhora de situação.
Fora dos problemas gerados por alterações nos preços dos produtos, os números-índices são úteis também
76
em outras áreas de atuação da empresa como, por exemplo, no campo da pesquisa de mercado. Neste caso,
podem ser utilizados nas mensurações do potencial de mercado, na análise da lucratividade por produto, por
canais de distribuição etc. Em suma, os números-índices são sempre úteis quando nos
defrontamos com análises comparativas.
Para o economista, o conhecimento de números-índices é indispensável igualmente como um instrumento útil

ao exercício profissional, quer seus problemas estejam voltados para a microeconomia quer para a
macroeconomia. No primeiro caso, poder-se-ia citar, por exemplo, a necessidade de se saber até que ponto o
preço de determinado produto aumentou com relação aos preços dos demais produtos em um
mesmo mercado. Se, por outro lado, o problema for quantificar a inflação, serem preciso medir o crescimento
dos preços dos vários produtos como um todo, através do índice geral de preços.
Sob os aspectos acima considerados, pode-se vislumbrar a noção de agregado subjacente ao conceito de
número-índice.
Por essa razão, costuma-se conceber o número-índice como uma medida utilizada para proporcionar uma
expressão quantitativa global a um conjunto de medidas que não podem ser simplesmente adicionadas em
virtude de apresentarem individualmente diferentes graus de importância.
Cada número-índice de uma série (de números) costuma vir expresso em termos percentuais. Os índices mais
empregados medem, em geral, variações ao longo do tempo e exatamente nesse sentido que iremos tratá-los
neste capítulo.
Além disso, limitaremos o estudo às suas principais aplicações no campo de administração e de economia, as
quais se situam no âmbito das variações de preços e de quantidades.
Conceito de Relativo
A quantidade total de dinheiro gasto cada ano, em relação a certo ano base, varia de um ano para outro devido
as variações no número de unidades compradas dos diferentes artigos e igualmente devido a mudanças nos
preços unitários de tais artigos. Temos, portanto, três variáveis em jogo: preço, quantidade e valor, sendo este
último o resultado do produto do preço pela quantidade.
Relativo (Relação) de Preço

Trata-se do número-índice mais simples. Relacionando-se o preço de um produto numa época (chamada
época atual ou época dada) com o de uma época o (chamada básica ou simplesmente base) teremos um
relativo de preço. Fazendo-se P t = preço numa época atual e Po preços na época-base.
Relativo (Relação) de Quantidade

Assim como podemos comparar os preços de bens, podemos também fazê-lo em re1ação a quantidades,
querem sejam elas quantidades produzidas, vendidas ou consumidas.
Se fizermos q = quantidade de um produto na época atual (época t) é q0 = quantidade desse mesmo produto
na época zero (básica).
Relativo (Relação) de Valor

Se p for o preço de determinado artigo em certa época e q a quantidade produzida ou consumida desse mesmo
artigo na mesma época, então, o produto p x q será denominado valor total de produção ou de consumo. Sendo
p t e q t respectivamente, o preço e a quantidade de um artigo na época atual (t) e p0 e q0, o preço e a
quantidade do mesmo artigo na época básica (0).
Emprego de Índices (Agregativos) Ponderados

Como vimos, os índices simples apresentam algumas desvantagens, em especial à se refere à inexistência de
pesos diferentes para cada utilidade que os compõe de acordo com sua importância relativa. No caso dos
índices ponderados, além da fórmula a ser usada para interpretar as variações de preço e de quantidade dos
bens, há o problema do critério para a fixação dos pesos relativos de cada um deles. A ponderação proposta
pelos métodos mais usados baseia-se na participação de cada bem no valor transacionado total e é feita, em
geral, segundo dois critérios: peso fixo na época básica ou peso variável na época atual.
Índice de Laspeyres ou Método da época Básica

No índice de Laspeyres a ponderação é feita em função dos preços e quantidades do período base. Por causa
disso ele tende a exagerar a alta, por considerar as quantidades (ou preços) iguais aos do período base. As
equações:
77
Onde n é o número de itens, pt, i é o preço de um item qualquer no período "atual", p0, i é o preço de um item
qualquer no período base, qt, i é a quantidade de um item qualquer no período atual, e q0, i é a quantidade de
um item qualquer no período base.
Exemplo:
Com os dados da tabela a seguir, e usando 2014 como base, obter índices de Laspeyres de preço e
quantidade.
Devemos usar as fórmulas do índice de Laspeyres sabendo que o período base é 2014. Então os
denominadores dos índices serão o resultado da soma dos produtos dos preços e quantidades de cada item
no período base, 2014. Os numeradores utilizarão as quantidades (ou preços) de 2014 como ponderação.
Os preços dos artigos aumentaram 18,52%
Os preços dos artigos aumentaram 70,37% (170,37 - 100) de 2014 a 2016.
As quantidades dos artigos aumentaram 51,85% (151,85 -100) de 2014 a 2015.
As quantidades dos artigos aumentaram 88,89% (188,89 -100) de 2014 a 2016
Índice de Paasche
No índice de Paasche a ponderação é feita em função dos preços e quantidades do período atual. Por causa
disso ele tende a exagerar a baixa, por considerar as quantidades (ou preços) iguais aos do período atual. A
mudança constante da época “atual” pode encarecer a pesquisa para identificar os pesos. Por essa razão os
índices de preços, que costumam fazer as ponderações dos diversos itens com base em pesquisas de
78
orçamentos familiares, geralmente utilizam a fórmula de Laspeyres (ou alguma modificação dela).
Onde n é o número de itens, pt,i é o preço de um item qualquer no período "atual", p0, i é o preço de um item
qualquer no período base, qt,i é a quantidade de um item qualquer no período atual, e q0, i é a quantidade de
um item qualquer no período base.
Exemplo:
Vamos usar os mesmos dados do item anterior
Com os dados da tabela a seguir, e usando 2014 como base, obter índices de Paasche de preços e
quantidades.
Devemos usar as fórmulas do índice de Paasche sabendo que o período base é 2014. Então os numeradores
dos índices serão o resultado da soma dos produtos dos preços e quantidades de cada item no período atual,
que irá mudar à medida que os anos passam. Os denominadores utilizarão os preços (ou quantidades) de
2014, ponderadas pelas quantidades (ou preços) do período atual.
Os preços dos artigos aumentaram 17,07% de 2014 a 2015.
Os preços dos artigos aumentaram 64,71% de 2014 a 2016.
As quantidades dos artigos aumentaram 50% de 2014 a 2015.
As quantidades dos artigos aumentaram 82,61% de 2014 a 2016.
Observe que os valores apresentam a mesma ordem de grandeza que os índices de Laspeyres, mas
obviamente são diferentes.
Mudança de base de um número índice

A escolha da base de um número índice é muitas vezes uma tarefa difícil. É preciso escolher um período
relativamente estável, o mais "típico" possível, quando a atividade econômica não estiver sendo afetada por
variações estruturais ocasionais.
79
No Brasil, onde a economia parece estar sendo sempre sacudida, em maior ou menor grau, por flutuações e
crises de todo tipo a escolha da base torna-se ainda mais controvertida: talvez por isso haja tanta predileção
pelos índices relativos de ligação.
De qualquer forma, independente do índice, pode ser interessante, ou necessário, mudar a base de um número
índice por duas razões:
- para atualizar a base, tornando-a mais próxima da realidade atual (por este motivo, periodicamente o IBGE
realiza pesquisas de orçamento familiar, com a finalidade de incluir as mudanças nos hábitos de consumo nas
ponderações dos seus índices).
- para permitir a comparação de duas séries de índices que tenham bases diferentes.
O procedimento é extremamente simples: basta dividir toda a série de números índices originais pelo número
índice do período escolhido como nova base. Isso preservará as diferenças relativas entre eles.
Exemplo:
Mudar a base da série de números índices abaixo para 2013.
Para o ano de 2011 teremos: novo índice = (100/113,86) x 100 = 87,83

Para o ano de 2012 teremos: novo índice = (109/113,86) x 100 = 95,84
Para o ano de 2013 teremos: novo índice = (113,86/113,86) x 100 = 100
Para o ano de 2014 teremos: novo índice = (116,69/113,86) x 100 = 102,49
Inferência Estatística
Estimação pontual: métodos de estimação, propriedades dos estimadores, suficiência. - Estimação intervalar:
intervalos de confiança, intervalos de credibilidade. - Testes de hipóteses: hipóteses simples e compostas,
níveis de significância e potência de um teste, teste t de Student, teste qui-quadrado.
Inferência
Inferência estatística é um ramo da Estatística cujo objetivo é fazer afirmações a partir de um conjunto de
valores representativo (amostra) sobre um universo. Tal tipo de afirmação deve sempre vir acompanhada de
uma medida de precisão sobre sua veracidade. Para realizar este trabalho o estatístico coleta informações de
dois tipos, experimentais (as amostras) e aquelas que obtém na literatura. As duas principais escolas de
inferência são a inferência frequentista (ou clássica) e a inferência bayesiana. A inferência estatística é
geralmente distinta da estatística descritiva. A descrição estatística pode ser vista como a simples
apresentação dos fatos, nos quais o modelo de decisões feito pelo analista tem pouca influência. É natural que
análises estatísticas avancem, indo da descrição para a inferência de padrões. Essa última tarefa depende do
modelo usado e/ou criado pelo analista dos dados.
Inferência frequentista é um tipo de inferência estatística. O conceito frequentista de probabilidade envolve

basicamente uma sequência de repetições para um determinado evento, tratado como um subconjunto de Θ.
A ideia da repetição justifica a denominação “teoria frequentista”. A teoria baseiase na regularidade estatística
das frequências relativas e sustenta que a probabilidade de um dado acontecimento pode ser medida
observando a frequência relativa do mesmo acontecimento, em uma sucessão numerosa de experiências
idênticas e independentes. Para exemplificar a interpretação frequentista, considera-se uma moeda irregular
(viciada) lançada 1000 vezes, e observam-se a face cara 540 vezes.
Portanto, a probabilidade estimada de sair cara é 0,54.
Inferência bayesiana é um tipo de inferência estatística que descreve as incertezas sobre quantidades
invisíveis de forma probabilística. Incertezas são modificadas periodicamente após observações de novos
dados ou resultados. A operação que calibra a medida das incertezas é conhecida como operação bayesiana
80
e é baseada na fórmula de Bayes. A fórmula de Bayes é muitas vezes denominada Teorema de Bayes.
Em teoria da probabilidade o Teorema de Bayes mostra a relação entre uma probabilidade condicional e a sua
inversa; por exemplo, a probabilidade de uma hipótese dada a observação de uma evidência e a probabilidade
da evidência dada pela hipótese. Esse teorema representa uma das primeiras tentativas de modelar de forma
matemática a inferencia estatística, feita por Thomas Bayes (pronunciado /ˈbeɪz/ ou "bays"). O teorema de
Bayes é um corolário do teorema da probabilidade total que permite calcular a seguinte probabilidade:
- Pr (A) e Pr (B) são as probabilidades a priori de A e B

- Pr (B|A) e Pr (A|B) são as probabilidades a posteriori de B condicional a A e de A condicional a B
respectivamente.
A regra de Bayes mostra como alterar as probabilidades a priori tendo em conta novas evidências de forma a
obter probabilidades a posteriori. Podemos aplicar o Teorema de Bayes com o jogo das três portas. Alguns
preferem escrevê-lo na forma:
A ideia principal é que a probabilidade de um evento A dado um evento B (e.g. a probabilidade de alguém ter
câncer de mama sabendo, ou dado, que a mamografia deu positivo para o teste) depende não apenas do
relacionamento entre os eventos A e B (i.e., a precisão, ou exatidão, da mamografia), mas também da
probabilidade marginal (ou "probabilidade simples") da ocorrência de cada evento. Por exemplo, se as
mamografias acertam em 95% dos testes, então 5% é a probabilidade de termos falso positivo ou falso
negativo, ou uma mistura de falso positivo a falso. O teorema de Bayes nos permite calcular a probabilidade
condicional de ter câncer de mama, dado uma mamografia positiva, para qualquer um desses casos. A
probabilidade de uma mamografia positiva será diferente para cada um dos casos.
No exemplo dado, há um ponto de grande importância prática que merece destaque: se a prevalência de
mamografias resultado positivo para o câncer é, digamos, 5,0%, então a probabilidade condicional de que um
indivíduo com um resultado positivo na verdade não tem câncer é bastante pequena, já que aprobabilidade
marginal deste tipo de câncer está mais perto de 1,0%. A probabilidade de um resultado positivo é, portanto,
cinco vezes mais provável que a probabilidade de um câncer em si. Além disso, alguém pode deduzir que a
probabilidade condicional que mamografias positivas realmente tenham câncer é de 20%. Isso poderia ser
menor, se a probabilidade condicional que dado um câncer de mama, a mamografia sendo positiva não é de
100% (i.e. falso negativos). Isso serve para mostrar a utilidade do entendimento do teorema de Bayes.
Questão
Considerando a tabela
Calcule o índice ponderado para preços, empregando a fórmula de Laspeyres e tomando 1993 = 100.
Resposta: 1,625 ou 162,5%.
Lembrando que
Temos:
= 1,625 ou 162,5%.
81
Intervalo de Confiança
Em estatística, um intervalo de confiança (IC) é um intervalo estimado de um parâmetro estatístico. Em vez de

estimar o parâmetro por um único valor, é dado um intervalo de estimativas prováveis. Quão prováveis são
estas estimativas é determinado pelo coeficiente de confiança.
Quanto maior a probabilidade do intervalo conter o parâmetro, maior será o intervalo. Intervalos de confiança
são usados para indicar a confiabilidade de uma estimativa. Por exemplo, um IC pode ser usado para descrever
quão confiáveis são os resultados de uma pesquisa. Sendo todas as outras coisas iguais, uma pesquisa que
resulte num IC pequeno é mais confiável do que uma que resulte num IC maior.
Em sentido restrito, um IC para um parâmetro populacional é um intervalo com uma proporção p associada a
qual é gerada por uma amostra aleatória de uma população subjacente, de tal forma que se a amostragem for
repetida inúmeras vezes e o intervalo de confiança for recalculado para cada amostra de acordo com o mesmo
método, uma proporção p dos intervalos de confiança conteria o parâmetro estatístico
em questão. Intervalos de confiança são a forma predominante de estimativa por intervalo.
Se U e V são estatísticas (isto é, variáveis aleatórias) cuja distribuição de probabilidade dependa de algum
parâmetro não observável θ, e (onde x é um número entre 0 e 1) então o intervalo

aleatório (U, V) é um intervalo de confiança "100x% para θ". O número x é chamado de nível de confiança ou
coeficiente de confiança. Na prática moderna aplicada, a maioria dos intervalos de confiança estão no nível de
95%. Intervalos de confiança desempenham em probabilidade frequentista um papel semelhante ao intervalo
de credibilidade em estatística bayesiana.
Neste diagrama, as barras representam as médias observadas e as linhas vermelhas representam os intervalo
de confiança ao redor delas. A diferença entre as duas populações à esquerda é significante.
Todavia, "é um equívoco estatístico comum supor que duas quantidades cujos intervalos de confiança de 95%
falhem em se sobrepor sejam significativamente diferentes no nível dos 5%".
Exemplo:
Resolução:
82
Testes de hipóteses para médias e proporções.
Em estatística, um Teste de Hipóteses é um método para verificar se os dados são compatíveis com alguma
hipótese, podendo muitas vezes sugerir a não-validade de uma hipótese.
O teste de hipóteses é um procedimento estatístico baseado na análise de uma amostra, através da teoria de
probabilidades, usado para avaliar determinados parâmetros que são desconhecidos numa população. A
expressão teste de significância foi criada por Ronald Fisher: "Critical tests of this kind may be called tests of
significance, and when such tests are available we may discover whether a second sample is or is not
significantly different from the first”.
Um Teste de Hipóteses pode ser paramétrico ou não-paramétrico. Testes paramétricos são baseados em
parâmetros da amostra, por exemplo média e desvio padrão. O uso tanto dos testes paramétricos como dos
não-paramétricos está condicionado à dimensão da amostra e à respectiva distribuição da variável em estudo.
Os testes de hipóteses são sempre constituídos por duas hipóteses, a hipótese nula H0 e a hipótese alternativa
H1.
Hipótese nula (H0): é a hipótese que traduz a ausência do efeito que se quer verificar.
Hipótese alternativas (H1): é a hipótese que o investigador quer verificar.
Nível de significância: a probabilidade de rejeitar a hipótese nula quando ela é efetivamente verdadeira
(ERRO)
Finalidade: avaliar afirmações sobre os valores de parâmetros.
O valor-p é uma estatística muito utilizada para sintetizar o resultado de um teste de hipóteses. Formalmente,
o valor-p é definido como a probabilidade de se obter uma estatística de teste igual ou mais extrema quanto
àquela observada em uma amostra, assumindo verdadeira a hipótese nula.
Estatística do Teste
É o valor calculado a partir da amostra que será usado na tomada de decisão.

No exemplo, Zcalc = -2,5.
Zcalc = valor da estimativa - valor alegado para o parâmetro desvio-padrão do estimador.
Erros cometidos nos testes de hipóteses

São dois os tipos de erros que podemos cometer na realização de um teste de hipóteses:
1. Rejeitar a hipótese H0, quando ela é verdadeira.
2. Não rejeitar a hipótese H0, quando ela é falsa.
A Tabela a seguir resume as situações acima.
Se a hipótese H0 for verdadeira e aceita, ou for falsa e rejeitada, a decisão estará correta. No entanto, se a
hipótese H0 for rejeitada sendo verdadeira, ou se for aceita sendo falsa, a decisão estará errada. O primeiro
destes erros é chamado de Erro do Tipo I e a probabilidade de cometê-lo é denotada pela letra grega α (alfa);
o segundo é chamado de Erro do Tipo II e a probabilidade de cometê-lo é denotada pela letra grega β (beta).
Assim temos,
Considere um teste unilateral dado pelas hipóteses:
83
Neste caso, a região de rejeição é determinada por e a interpretação dos erros pode ser vista
como:
A situação ideal é aquela em que ambas as probabilidades, α e β, são próximas de zero. No entanto, é fácil
ver que a medida que diminuímos α, β aumenta. A Figura a seguir apresenta esta relação.
Para um teste de hipóteses do tipo acima, onde estamos interessados em testar a média de uma população,
utilizamos a expressão, que é a estatística do teste de hipóteses. A partir do Teorema Central do

Limite, sabemos que, desde que tenhamos um tamanho amostral suficientemente grande, esta estatística tem
distribuição Normal padrão, isto é,
A partir dos valores de Z e da especificação do erro cometido, podemos definir a região crítica.
Vamos considerar que o erro mais importante a ser evitado seja o Erro do Tipo I. A probabilidade de ocorrer o
erro do tipo I (α) é denominada nível de significância do teste.
O complementar do nível de significância (1 - α) é
denominado nível de confiança. Supondo que o nível de significância α seja conhecido, temos condições de
determinar o(s) valor(es) crítico(s).
Teste para Média e Proporção Populacional
Considere uma população da qual retiramos uma amostra X1, X2, ..., Xn. Estamos interessados em realizar
inferência sobre a média populacional μ.
Se não conhecemos o valor do desvio padrão populacional σ e a amostra é pequena, n < 30, devemos substituir
a expressão pela expressão
onde T tem distribuição t de Student com n-1 graus de liberdade. Para facilitar a execução do
teste, podemos seguir os passos:
Estabelecer as hipóteses:
Fixamos H0: μ = μ0. Dependendo da informação que fornece o problema que estivermos estudando, a hipótese
alternativa pode ter uma das três formas abaixo:
 H1: μ ≠ μ0 (teste bilateral);
 H1: μ > μ0 (teste unilateral à direita);
84
 H1: μ < μ0 (teste unilateral à esquerda).
Fixar o nível de significância α.

Determinar a região crítica.
 Se o teste é bilateral, determinamos os pontos críticos e tais que a partir

da distribuição t de Student com n-1 graus de liberdade.
 Se o teste é unilateral, determinamos o ponto crítico tal que .
 Se o teste é unilateral à esquerda, determinamos o ponto tal que
Calcular, sob a hipótese nula, o valor:
85
Onde:
 valor da média amostral.
 μ0: valor da média populacional sob a hipótese nula.
 s: valor do desvio padrão amostral.
 n: tamanho da amostra.
Critério:
 Teste bilateral: se ou se, rejeitamos H0. Caso contrário, aceitamos H0.
 Teste unilateral à direita: se rejeitamos H0. Caso contrário, aceitamos H0.
 Teste unilateral à esquerda: se rejeitamos H0. Caso contrário, aceitamos H0.
O p-valor no teste bilateral é dado por
Se o teste é unilateral à direita, o p-valor é dado por
e, se o teste é unilateral à esquerda, o p-valor é dado por
O intervalo de confiança é dado por
se o teste é bilateral. Se o teste é unilateral à direita, então o intervalo de confiança para o parâmetro μ é dado
por
e, se o teste é unilateral à esquerda, então o intervalo de confiança para o parâmetro μ é dado por
Teste de hipóteses.
Formalmente, o valor-p é definido como a probabilidade de se obter uma estatística de teste igual ou mais
extrema quanto àquela observada em uma amostra, assumindo verdadeira a hipótese nula.
Variância Conhecida
Consideremos uma amostra aleatória simples obtida de uma população com distribuição normal,
com média e variância conhecida. Desta forma, a distribuição amostral da média também
é Normal com média e variância , ou seja,
Assim, temos que
isto é, a variável tem distribuição normal padronizada.
Consideremos que a probabilidade da variável tomar valores entre e é . Os

valores e são obtidos na tabela da distribuição normal conforme mostra a figura a seguir
86
Então, temos que
ou seja,
o que implica que
Com isso, o intervalo de confiança da média é dado por
Exemplo:
O projetista de uma indústria tomou uma amostra de 36 funcionários para verificar o tempo médio gasto para
montar um determinado brinquedo. Lembrando que foi verificado que e , construir um
intervalo de confiança de nível para .
Na tabela da distribuição normal padronizada, obtemos que .
Resolução
Substituindo e na fórmula para o intervalo de confiança, temos
e,
portanto,
Uma das principais interpretações do intervalo de confiança consiste em avaliar a incerteza que temos a
respeito de estimarmos o parâmetro populacional μ a partir de uma amostra aleatória de tamanho μ .
Variância Desconhecida
Tendo os conceitos básicos sobre intervalos de confiança, vamos agora tratar uma situação mais realista:
quando a variância σ2 da população é desconhecida.
Consideremos uma amostra aleatória simples obtida de uma população com distribuição
normal, com média μ e variância σ2 desconhecidas. Como neste caso a variância é desconhecida, utilizaremos
87
a variância amostral no lugar de σ2. Assim, temos que ou seja, a variável tem
distribuição t de Student com graus de liberdade. Então, ao fixarmos o nível de significância , obtemos
da Tabela da distribuição t de Student com graus de liberdade, o valor que satisfaz
ou graficamente.
Analogamente ao caso anterior, obtemos que
ou seja,
Logo, o intervalo com de confiança para μ, com variância desconhecida, será dado por
Exemplo:
Foram realizados testes glicêmicos em 25 pacientes após um jejum de 8 horas. Os resultados são
apresentados na tabela abaixo. Encontrar um intervalo de confiança de 95% nível para a média μ .
Inicialmente, calculamos a média amostral e o desvio padrão amostral , que são dados por
88
Como a confiança é de 95%, segue e então, substituindo esses valores na fórmula do intervalo
de confiança, temos que
Distribuição Normal
Curva Normal
Entre as distribuições teóricas de variável aleatória contínua, uma das mais empregadas é a distribuição
normal.
Muitas das variáveis analisadas na pesquisa socioeconômica correspondem à distribuição normal ou dela
se aproximam.
O aspecto gráfico de uma distribuição normal é o da Figura 10.1:
Para uma perfeita compreensão da distribuição normal, observe a Figura 10.1 e procure visualizar as seguintes
propriedades:
1°) A variável aleatória X pode assumir todo e qualquer valor real.

2°) A representação gráfica da distribuição normal é uma curva em forma de sino, simétrica em torno da média
(𝒙 ̅), que recebe o nome de curva normal ou de Gauss.
3°) A área total limitada pela curva e pelo eixo das abscissas é igual a 1, já que essa área corresponde à
probabilidade de a variável aleatória X assumir qualquer valor real.
4°) A curva normal é assintótica em relação ao eixo das abscissas, isto é, aproxima-se indefinidamente do eixo
das abscissas sem, contudo, alcançá-lo.
5°) Como a curva é simétrica em torno de 𝒙 ̅, a probabilidade de ocorrer valor maior do que a média é igual à
probabilidade de ocorrer valor menor do que a média, isto é, ambas as probabilidades são iguais a 0,5.
Escrevemos: P(X > 𝑥̅) = P(X <𝑥̅) = 0,5.

Quando temos em mãos uma variável aleatória com distribuição normal, nosso principal interesse é obter a
probabilidade de essa variável aleatória assumir um valor em um determinado intervalo. Vejamos como
proceder, por meio de um exemplo concreto.
Seja X a variável aleatória que representa os diâmetros dos parafusos produzidos por certa máquina. Vamos
supor que essa variável tenha distribuição normal com média 𝑥̅ = 2 cm e desvio padrão s = 0,04 cm.
Pode haver interesse em conhecer a probabilidade de um parafuso ter um diâmetro com valor entre 2 e 2,05
cm.
É fácil notar que essa probabilidade, indicada por: P (2 < X < 2,05),
Corresponde à área hachurada na Figura a seguir:
89
O cálculo direto dessa probabilidade exige um conhecimento de Matemática mais avançado do que aquele
que dispomos no curso de 2° grau. Entretanto, podemos contornar facilmente esse problema. Basta aceitar,
sem demonstração, que, se X é uma variável aleatória com distribuição normal de média 𝑥̅ e desvio padrão s,
então a variável:
tem distribuição normal reduzida, isto é, tem distribuição normal de média O e desvio padrão 1.
As probabilidades associadas à distribuição normal padronizada são encontradas em tabelas, não havendo
necessidade de serem calculadas.
Temos uma de distribuição normal reduzida, que nos dá a probabilidade de Z tomar qualquer valor entre a
média O e um dado valor z, isto é: 𝑃(0 < 𝑍 < 𝑧)
Temos, então, que se X é uma variável aleatória com distribuição normal de média e desvio padrão s,
podemos escrever:
Voltemos, então, ao nosso problema.

Queremos calcular P(2 < X < 2,05). Para obter essa probabilidade, precisamos, em primeiro lugar, calcular o
valor de z que corresponde a
Temos, então:
donde: P(2 < X < 2,05) = P(0 < X < 1,25)

Procuremos, agora, z = 1,25, porém para você que irá resolver apenas um exercício na prova, este valor será
dado, mas irei deixar abaixo a tabela onde poderá ser consultado este valor, para nossos problemas aqui
propostos.
90
Na primeira coluna encontramos o valor 1,2. Em seguida, encontramos, na primeira linha, o valor 5, que
corresponde ao último algarismo do número 1,25. Na intersecção da linha e coluna correspondentes
encontramos o valor 0,3944, o que nos permite escrever: P(0 < Z < 1,25) = 0,3944
Assim, a probabilidade de um parafuso fabricado por essa máquina apresentar um diâmetro entre a média
𝑥̅ = 2 e o valor x = 2,05 é 0,3944.
Escrevemos, então: P(2 < X < 2,05) = P(0 < Z < 1,25) = 0,3944 ou 39,44%
Exemplos:
1. Determine as probabilidades:
a. P(-1,25 < Z < 0)
A probabilidade procurada corresponde à parte hachurada da figura:
Sabemos que:
P(0 < Z < 1,25) = 0,3944
91
Pela simetria da curva, temos:
P(-1,25 < Z < 0) = P(0 < Z < 1,25) = 0,3944
b. P(-0,5 < Z < 1,48)

Temos: P(-0,5 < Z < 1,48) = P(-0,5 < Z < 0) + P(0 < Z < 1,48)
Como: P(-0,5 < Z < 0) = P(0 < Z < 0,5) = 0,1915
e
P(0 < Z < 1,48) = 0,4306,
obtemos: P(-0,5 < Z < 1,48) = 0,1915 + 0,4306 = 0,6221
c. P(0,8 < Z < 1,23)

Temos: P(0,8 < Z < 1,23) = P(0 < Z < 1,23) - P(0 < Z < 0,8)
Como: P(0 < Z < 1,23) = 0,3907 e P(0 < Z < 0,8) = 0,2881,
obtemos: P(0,8 < Z < 1,23) = 0,3907 - 0,2881 = 0,1026
d. P(Z > 0,6)

Temos: P(Z > 0,6) = P(Z > 0) - P(0 < Z < 0,6)
Como: P(Z > 0) = 0,5 e P(0 < Z < 0,6) 0,2258,
obtemos: P(Z > 0,6) - 0,5 - 0,2258 = 0,2742
e. P(Z < 0,92)

92
Temos: P(Z < 0,92) = P(Z < 0) + P(0 < Z < 0,92)
Como: P(Z < 0) = 0,5 e P(0 < Z < 0,92) = 0,3212,
obtemos: P(Z < 0,92) = 0,5 + 0,3212 = 0,8212
2. Os salários semanais dos operários industriais são distribuídos normalmente, em torno da média de R$ 500,
com desvio padrão de R$ 40. Calcule a probabilidade de um operário ter um salário semanal situado entre R$
490 e R$ 520.
Devemos, inicialmente, determinar os valores da variável de distribuição normal reduzida.

Assim:
Logo, a probabilidade procurada é dada por:

P(490 < X < 520) = P(-0,25 < Z < 0,5) = P(-0,25 < Z < 0) + P(0 < Z < 0,5) = 0,0987 + 0,1915 = 0,2902
É, pois, de se esperar que, em média, 29,02% dos operários tenham salários entre R$ 490 e R$ 520.
Amostragem por cotas

Neste tipo de amostragem, a população é dividida em grupos, e seleciona-se uma cota proporcional ao
tamanho de cada grupo. Entre- tanto, dentro de cada grupo não é feito sorteio, e sim os elementos são
procurados até que a cota de cada grupo seja cumprida. Em pesquisas eleitorais, a divisão de uma população
em grupos (considerando, por exemplo, o sexo, o nível de escolaridade, a faixa etária e a renda) pode servir
de base para a definição dos grupos, partindo da suposição de que estas variáveis definem grupos com
comportamentos diferenciados no processo eleitoral. Para se ter uma ideia do tamanho destes grupos, pode-
se recorrer a pesquisas feitas anteriormente pelo IBGE (Instituto Brasileiro de Geografia e Estatística).
Distribuições amostrais
Com as distribuições amostrais, você pode inferir propriedades de um agregado maior (a população) a partir
de um conjunto menor (a amostra), ou seja, inferir sobre parâmetros populacionais, dispondo apenas de
estatísticas amostrais.
Portanto, torna-se necessário um estudo detalhado das distribuições amostrais, que são base para intervalos
de confiança e testes de hipóteses.
Portanto, para que você tenha condições de fazer afirmações sobre um determinado parâmetro populacional
(ex: µ), baseadas na estimativa obtido a partir dos dados amostrais, é necessário conhecer a relação
existente entre e µ, isto é, o comportamento de quando se extraem todas as amostras possíveis da
população, ou seja, sua distribuição amostral.
Para obtermos a distribuição amostral de um estimador, é necessário conhecer o processo pelo qual as
amostras foram retiradas, isto é, se amostras foram retiradas com reposição ou sem reposição.
Portanto, a partir do comportamento da estatística amostral, pode- se aplicar um teorema muito conhecido na
estatística como Teorema do Limite Central. Este teorema propõe que, se retirarmos todas as possíveis
amostras de tamanho n de uma população independente de sua distribuição, e verificarmos como as
estatísticas amostrais obtidas se distribuem, teremos uma distribuição aproximadamente normal, com µ = µ
93
(média das médias amostrais igual à média populacional) e variância das médias (variância
das médias mostrais igual à variância da população dividida pelo tamanho da amostra), se a amostragem
for realizada com reposição, ou se a amostragem for realizada sem reposição em uma
população finita ( 𝑛⁄𝑁 > 0,05), independentemente da distribuição da variável em questão.
Portanto, considerando a distribuição amostral de médias, quando se conhece a variância ou a amostra é
grande (n > 30), utilizamos a estatística z da distribuição normal vista anteriormente, independente da
distribuição da população.
Então, por meio do teorema do limite central, a estatística será dada por:
Porém, ocorre que, na prática, muitas das vezes não se conhece e trabalha-se com amostras pequenas,
ou seja, menores ou iguais a 30. Assim, você conhece apenas sua estimativa s (desvio-padrão amostral).
Substituindo por seu estimador s, na expressão da variável padronizada, obtém-se a variável:
A distribuição t apresenta as seguintes características:

 é simétrica em relação à média, que é zero;
 tem forma campanular (semelhante à normal);
 quando n tende para infinito, a distribuição t tende para a distribuição normal, na prática, a aproximação é
considerada boa quando n >30; e
 possui n-1 graus de liberdade.
Vamos aprender a utilizar a Tabela da distribuição de t de Student. Na Tabela t de Student, na primeira linha
temos o valor de α, que corresponde à probabilidade (área) acima de um determinado valor da tabela.
Na figura a seguir, temos o conceito de α (área mais escura).
Observe que na Tabela de t (a seguir), temos na primeira coluna os graus de liberdade (GL) e no centro da
tabela, teremos os valores da estatística t de Student. Na primeira linha temos os valores de α.
94
Tabela: Limites unilaterais da distribuição t de Student ao nível α de probabilidade
Para exemplificar o uso da tabela, consideremos que desejamos encontrar a probabilidade de ser maior do
que um valor de t igual a 2,764, trabalhando com uma amostra de tamanho n = 11. Portanto, teremos 10 graus
de liberdade e nesta linha procuramos o valor que desejamos encontrar, 2,764. Subindo na Tabela em direção
ao α encontraremos um valor de 0,01 na primeira linha, ou seja, esta é a probabilidade de ser maior do que
2,764, com 10 graus de liberdade.
Retirando-se uma amostra de n elementos de uma população normal com média µ e variância α2, então, pode-
se demonstrar que a distribuição amostral da variância amostral segue uma distribuição de 𝐱𝟐 (qui-quadrado)
com n-1 graus de liberdade. A variável da estatística de qui-quadrado será dada por: tem
distribuição 𝑥2 com n-1 graus de liberdade.
Esta distribuição é sempre positiva, o que pode ser comprovado pela própria definição da variável. Esta
distribuição é assimétrica, como pode ser visto no gráfico da distribuição mostrado a seguir.
95
No esquema a seguir, temos como é feita a utilização da distribuição de qui-quadrado com g graus de liberdade.
Regressão Linear
Análise de regressão linear. - Critérios de mínimos quadrados e de máxima verossimilhança. - Modelos de
regressão linear. Inferência sobre os parâmetros do modelo. - Análise de variância. - Análise de resíduos.
Regressão Linear Simples
Em estatística ou Econometria, regressão linear é um método para se estimar a condicional (valor esperado)
de uma variável y, dados os valores de algumas outras variáveis x. A regressão, em geral, trata da questão de
se estimar um valor condicional esperado.
A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função
linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se
chamam modelos de regressão não-linear.
Equação da Regressão Linear: Para se estimar o valor esperado, usa-se de uma equação, que determina a
relação entre ambas as variáveis.
Em que: Yi - Variável explicada (dependente); é o valor que se quer atingir;

α - É uma constante, que representa a interceptação da reta com o eixo vertical;
β - É outra constante, que representa o declive da reta;
96
Xi - Variável explicativa (independente), representa o factor explicativo na equação;
εi - Variável que inclui todos os factores residuais mais os possíveis erros de medição. O seu comportamento
é aleatório, devido à natureza dos factores que encerra. Para que essa fórmula possa ser aplicada, os erros
devem satisfazer determinadas hipóteses, que são: serem variáveis normais, com a mesma variância σ2
(desconhecida), independentes e independentes da variável explicativa X.
Método dos Mínimos Quadrados
As quantidades são as médias amostrais de x e y. Já as quantidades são as somas dos

quadrados dos desvios das médias e é a soma dos produtos cruzados dos desvios de x e y.
Desta forma, as estimativas de mínimos quadrados de e, em termos desta notação são:
Cálculo dos fatores α e β:
Definindo , temos que se relacionam por:
Desenvolvimento: Estas fórmulas podem ser desenvolvidas a partir da definição de mínimos quadrados. O
objetivo é determinar α e β de forma que a soma dos quadrados dos erros seja mínima, ou seja, devemos
minimizar.
Desenvolvendo este quadrado e eliminando os termos constantes (ou seja, aqueles que não têm termos em α
e β, chega-se a:
A partir desse ponto, pode-se resolver usando-se cálculo (tomando as derivadas parciais, etc), ou através de
uma transformação de coordenadas:
ou
Transformando a expressão a ser minimizada em:
Ou
97
Esta expressão se separa na soma de duas expressões quadráticas independentes, que podem ser
minimizadas usando matemática elementar:
Cujos valores minimizadores são:
Memorização:
Uma forma fácil de memorizar esta expressão é escrever:
Y = α + Xβ
XY = Xα + X2β e, em seguida, somar as colunas:
Intervalos de confiança:
O valor estimado de deve ser analisado através da distribuição t de Student, porque
tem a distribuição t de Student com n-2 graus de liberdade (ver Fisher, R. A. (1925). "Applications of "Student's"
distribution". Metron 5: 90–104.), em que:
A variância de , pode ser estimada através dos erros observados:
se distribui como uma Chi quadrado com n-2 graus de liberdade.
Máxima Verossimilhança
O princípio de máxima verossimilhança é um dos procedimentos usados para se obter estimadores. Ele trata
o problema de estimação baseado nos resultados obtidos pela amostra e devemos determinar qual a
distribuição, dentre todas aquelas definidas pelos possíveis valores de seus parâmetros, com maior
possibilidade de ter gerado tal amostra. Consideremos uma população e uma variável aleatória , relacionada
a essa população, com função de probabilidade (se é uma variável aleatória discreta) ou função densidade
de probabilidade (se é uma variável aleatória contínua) , sendo o parâmetro desconhecido.
Seja sequência de modelos, com espaço paramétrico Desta forma, retiramos
uma amostra aleatória simples de , de tamanho , , e sejam os valores efetivamente
observados.
98
A função de verossimilhança é definida por
Se é uma variável aleatória discreta com função de distribuição p(x,θ), a função de verossimilhança é dada
por
que deve ser interpretada como uma função de . Com isso, dizemos que é um estimador de máxima
verossimilhança (EMV) para , se e para algum obtemos
desde que qualquer parametrização seja identificável. Em outras palavras:
A seguir definimos a função escore como:
cujas propriedades são e Já a matriz de

informação observada é dada por:
O próximo passo é expandirmos em série de Taylor em torno de Para isto, tomamos e obtemos:
Expansão para função escore é dada por:
Igualando obtemos a relação aproximada:
Para mostrar a utilização deste resultado, tomamos um caso particular, que é o caso em que existe uma
densidade de probabilidade, caso contrário teríamos que definir uma derivada de Radon-Nikodym e não é o
objetivo deste seção. Com isso, sob condições de regularidade, ou seja, utilizamos
funções suaves ou de classe
Desta forma, dado que é o verdadeiro parâmetro, o primeiro momento do escore é zero. De fato,
Consequentemente, aplicamos o método de Newton-Raphson para o cálculo do estimador de máxima

verossimilhança. Para isto, utilizamos a equação iterativa:
Ao substituirmos a informação observada pela esperada, obtemos:
Com isso, obtemos o método de escore de Fisher dada por:
99
O estimador de máxima verossimilhança é obtido quando em que é o erro na estimação,
ou seja, quando a diferença entre as iterações é menor que um erro Para definirmos taxa de convergência,
supomos uma métrica e fixamos um n. Deta forma, dizemos que a taxa de convergência
de para é se
Observação: Se a matriz de Informação Observada é aproximadamente singular em algum momento no

processo de iteração, pode resultar na não convergência do método.
Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo os passos abaixo:
 Encontrar a função de verossimilhança;
 Aplicar a função ln;
 Derivar em relação ao parâmetro ;
 Igualar o resultado a zero.
 Verificar que este estimador é ponto de máximo.
A seguir aplicamos os conceitos para algumas distribuições de probabilidade conhecidas.
Exemplo 1
Seja uma variável aleatória com distribuição Bernoulli(p). Tomemos uma amostra
aleatória de . Qual é o estimador de máxima verossimilhança para ?
Como , a função de probabilidade de é
Desta forma, a função de verossimilhança é dada por
Para encontrar o estimador de máxima verossimilhança para , devemos encontrar o valor de para o qual a
função de verossimilhança é máxima. Aplicando a função logaritmo natural (ln) na função de
verossimilhança , temos que
e, derivando em relação a , segue que
Igualando o resultado a zero, obtemos que
É fácil verificar, utilizando o teste da segunda derivada que é realmente um estimador de máxima
verossimilhança para .
Exemplo 2
Seja uma variável aleatória com distribuição de Poisson e parâmetro . Tomemos uma amostra
aleatória independente e igualmente distribuída de . Qual é o estimador de máxima
verossimilhança para ?
Como X , a função de probabilidade de é
Desta forma, a função de verossimilhança é dada por
100
Ou seja,
Para encontrar o estimador de máxima verossimilhança para , devemos encontrar o valor de para o qual a
função de verossimilhança é máxima.
Aplicamos a função logaritmo natural (ln) na função de verossimilhança . Desta forma, temos
que
e, derivando em relação a , segue que
Igualando o resultado a zero, segue que
Neste caso, o possível estimador de máxima verossimilhança para o parâmetro é . Basta verificar se
este ponto é realmente um ponto de máximo. Para isto, vamos calcular a segunda derivada
de .
Portanto, concluímos que é um estimador de máxima verossimilhança para o parâmetro .
Análise de Variância
A análise de variância é baseada na decomposição da soma de quadrados. Em outras palavras, o desvio de
uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor
ajustado pela regressão mais o desvio do valor ajustado em relação à média, isto é, podemos escrever
como
Soma dos quadrados
Elevando cada componente de (1.3.1) ao quadrado e somando para todo o conjunto de observações, obtemos
101
Desta forma, escrevemos em que decompomos a Soma de Quadrados Total em
Soma de Quadrados da Regressão e Soma de Quadrados dos Erros.
Partição dos graus de liberdade

Assim como temos a decomposição da soma de quadrados total, vamos derivar uma decomposição para os
graus de liberdade. ë importante ressaltarmos que os graus de liberdade são definidos como a constante que
multiplica para definir o valor esperado da soma de quadrados, temos que . Assim,
os graus de liberdade relacionado com a é dado por
Agora, sob temos que é uma amostra aleatória simples de uma população com
média e variância temos que Então, como a soma de quadrados total foi
decomposta na soma de quadrados dos erros mais a soma de quadrados da regressão, concluímos que sob
,
Com isso, concluímos que a tem um grau de liberdade.

Assim, sob obtemos a seguinte decomposição dos graus de liberdade:
(1) tem graus de liberdade;
(2) tem 1 grau de liberdade;
(3) tem graus de liberdade.
De forma geral, não necessariamente sob , também podemos calcular facilmente o valor esperado da soma
de quadrado total. Para isto, temos que
Concluímos que
Da mesma forma, temos que
Portanto, obtemos que
Observe que sob , obtemos que . Por outro lado, o valor esperado do quadrado
médio da regressão é dado por,
Quadrado Médio
A ideia básica do quadrado médio está em tornarmos as somas de quadrados comparáveis. Sabemos que,
sob os graus de liberdade são constantes que vem multiplicando o no cálculo do valor esperado da
soma de quadrados.
102
Sob tanto o quadrado médio dos erros (QME) quanto o quadrado médio da regressão (QMR) são
estimadores de momento para Portanto, eles são comparáveis.
A seguir, apresentamos algumas formas simplificados para o cálculo das somas de quadrados.
Além disso,
Desta forma,
e portanto,
Análise de Resíduos
Tanto na Regressão Linear Simples quanto na Regressão Múltipla, as suposições do modelo ajustado
precisam ser validadas para que os resultados sejam confiáveis. Chamamos de Análise dos Resíduos um
conjunto de técnicas utilizadas para investigar a adequabilidade de um modelo de regressão com base nos
resíduos. O resíduo é dado pela diferença entre a variável resposta observada e a variável resposta
estimada isto é
A ideia básica da análise dos resíduos é que, se o modelo for apropriado, os resíduos devem refletir as
propriedades impostas pelo termo de erro do modelo. Tais suposições são
em que com I , e são independentes ;

II. (constante);
III. (normalidade);
IV. Modelo é linear;
V. Não existir outliers (pontos atípicos) influentes.
Na Regressão Múltipla, além das suposições listadas acima, precisamos diagnosticar colinearidade e
multicolinearidade entre as variáveis de entrada para que a relação existente entre elas não interfira nos
resultados, causando inferências errôneas ou pouco confiáveis.
As técnicas utilizadas para verificar as suposições descritas acima podem ser informais (como gráficos)
ou formais (como testes). As técnicas gráficas, por serem visuais, podem ser subjetivas e por isso técnicas
103
formais são mais indicadas para a tomada de decisão. O ideal é combinar as técnicas disponíveis, tanto formais
quanto informais, para o diagnóstico de problemas nas suposições do modelo
Correlação
Diz-se que existe correlação entre duas ou mais variáveis quando as alterações sofridas por uma delas são
acompanhadas por modificações nas outras. Ou seja, no caso de duas variáveis x e y os aumentos (ou
diminuições) em x correspondem a aumentos (ou diminuições) em y. Assim, a correlação revela se existe uma
relação funcional entre uma variável e as restantes. Note-se que a palavra regressão em Estatística
corresponde à palavra função em Matemática. Ou seja, enquanto o matemático diz que y é função de x, o
estatístico fala em regressão de y sobre x.
Reta de regressão
Uma função muito interessante é a que representa a linha reta, cuja expressão matemática é
sendo que o intercepto a pode ser calculado a partir de: a = y – b . x

Ressalte-se que necessariamente o ponto determinado pela média das variáveis está contido na reta. A melhor
reta que descreve a regressão. Supondo uma amostra em que um caráter métrico tenha a seguinte distribuição
de idades e larguras de um órgão:
Quando se deseja desenhar uma reta, para facilitar, atribuise 2 valores de x próximos aos extremos dos dados.
Depois, usa-se esses valores na equação: y = y + b.(x - x) . Portanto, para a idade x = 1 ano, largura: y = 65 +
10 (1 - 4,5) = 30 para a idade x = 8 anos, largura: y = 65 + 10 (8 - 4,5) = 100
E chega-se ao seguinte gráfico:
104
Essa reta, que passa pelos pontos médios dos valores de x e y é a melhor reta que descreve a regressão.
Evidentemente, pode-se usar o mesmo processo em gráficos feitos em programas computacionais.
Proporcionalidade: Direta e Inversa
Quando se observa o coeficiente de regressão b e o sentido da reta pode-se concluir se existe correlação entre
as variáveis e qual é o sentido da correlação. Nesse caso, verifica-se que a aumentos na variável Idade (x)
correspondem aumentos na variável Largura do órgão (y). Assim sendo, elas têm o mesmo sentido de variação.
Essa é uma correlação positiva.
Evidentemente, uma correlação será negativa quando a aumentos na variável x corresponderem diminuições
na variável y. Nesse caso, as variáveis estudadas variam em sentidos opostos.
Paralelamente, percebe-se que quando a reta de regressão em y é paralela ao eixo dos x (b = 0) não há
correlação.
Portanto, para que exista correlação é necessário que a reta corte o eixo dos x em algum ponto (b ≠ 0).
Assim, quando há correlação, a reta de regressão em y não é paralela ao eixo dos x.
Existe correlação?
Para se decidir sobre a existência de correlação e o sentido da variação da reta de regressão, calcula-se b e
o erro de b.
Depois efetua-se um teste t, testando as seguintes hipóteses:
H0 : b = 0, ou seja, H. Nula: a reta de regressão em y é paralela ao eixo dos x.
Ha : b ≠ 0, isto é, H. Alternativa: a reta de regressão em y não é paralela ao eixo dos x.
Como calcular
Recordando que as somatórias de quadrados (SQ) e de produtos (SP) são calculadas por:
O coeficiente de regressão, b, pode ser calculado a partir de várias fórmulas:
O erro de b também pode ser calculado de maneiras diferentes:

sb = raiz (syx / SQy) ou
sb = raiz {(SQy – b.SP) / [SQx (n – 2)]}
Para se testar a significância de b, ou seja, para testar se b pode ser considerado ou não como
significativamente diferente de zero, calcula-se t, com GL = n - 2, sendo: t = b / sb
Para encontrar o t crítico, consulta-se a tabela de t, e obedece-se o seguinte critério:
105
Portanto:
1. Se t não for significativo os caracteres não estão correlacionados: (t = 0)
Se t for significativo os caracteres estão correlacionados: (t ≠ 0)
2. Sendo t ≠ 0, se b < 0 a correlação é negativa. Os caracteres variam em sentidos opostos.

Sendo t ≠ 0, se b > 0 a correlação é positiva. Os caracteres variam no mesmo sentido.
Exemplo:
Os seguintes dados foram obtidos amostrando dimensões do mesmo órgão de 10 indivíduos.
que geraram os seguintes valores:
Coeficiente de correlação linear de Pearson ( r )

Pode ser obtido a partir de diferentes fórmulas:
106
Observando as duas últimas fórmulas rapidamente percebe-se que se não houver correlação entre x e y, ou
seja, se r = 0, então b = 0 e a reta será paralela ao eixo dos x. O coeficiente r varia entre -1 e +1. Portanto, a
correlação pode ser:
Para testar a significância usamos um teste t.
Estabelecemos as hipóteses:
H0 : r = 0 , ou seja, H. Nula: Não há correlação entre as variáveis x e y.
Ha : r ≠ 0, isto é, H. Alternativa: Há correlação entre as variáveis x e y.
Calcula-se t, com GL = n - 2, por meio da seguinte fórmula:
t = r . raiz [(N - 2) / (1 - r2 )]
Coeficiente de determinação
O coeficiente de determinação é simbolizado por r2 e indica quanto da variação total é comum aos elementos
que constituem os pares analisados. Assim, a qualidade da regressão é indicada por este coeficiente.
r2 = Variação explicada de Y / Variação total de Y
É importante notar que r2 varia entre 0 (zero) e 1 (um).

Evidentemente, quanto mais próximo da unidade for o coeficiente de Determinação, tanto maior será a
validade da regressão.
Exemplo 1:
Supondo que numa certa amostra tivessem sido obtidos os seguintes valores:
b = 0,86; SP = 2990; SQy = 2790
Estima-se r = raiz ( b.SP / SQy ), r = raiz ( 0,86.2990 / 2790), r = 0,96
Portanto, r2 = 0,92
1 - 0,92 = 0,08, ou seja 8%
Assim, pode-se dizer que apenas 8% da variância da regressão não depende das variáveis estudadas.
Exemplo 2:
Dados obtidos de 7 pares de pai-filho,
amostrando o número de anos de escola cursados pelo pai (x) e o número de anos de escola cursados pelo
filho (y). Qual é o valor do coeficiente de correlação entre esses dados? Qual é o seu significado?
107
r = 7 . 720 - 73 . 66 / raiz [ 7 . 825 - (73)2 ] [ 7 . 650 - (66)2 ] r = + 0,754
Para testar a significância usamos um teste t.

Estabelecemos as hipóteses:
H0 : r = 0 e Ha : r ≠ 0
t = r . raiz [(N - 2) / (1 - r2 )]
t = [+ 0,754. raiz[(7-2)] / (1 - 0,7542 )], portanto, t = 2,581
Verificando a tabela de t, com GL = 5 e a = 5%, t5 = 2,571
Conclui-se que como t calculado é maior que tc, pode-se rejeitar a hipótese nula (r = 0) e aceitar a hipótese
alternativa em que r ≠ 0, admitindo-se que o número de anos de escola cursados pelo pai está positivamente
correlacionado (r = +0,754) ao número de anos de escola cursados pelo filho nesta amostra.
Como r2 = 0,5685 e 1 - 0,5685 = 0,4315, pode-se dizer que nessa amostra, o número de anos de escola
cursados pelo pai explica 56,85% da variância do número de anos de escola cursados pelo filho. Assim, 43,15%
da variância da regressão depende de outras variáveis, não estudadas aqui.
Coeficiente de associação
Para verificar se dois caracteres qualitativos são interdependentes pode-se:
- empregar um teste de x2.
- calcular o coeficiente de associação.
Yule propôs esse coeficiente e o chamou de Q, para homenagear um pioneiro da Estatística, Lambert A. J.
Quételet (1796-1874). Monta-se uma tabela 2 x 2 e designa-se as células pelas letras a, b, c e d, ficando a-d
e b-c nas diagonais.
Obtém-se o coeficiente de associação Q por meio de:

Q = (ad - bc) / (ad + bc)
O desvio padrão de Q é obtido por: s = (1 - Q2 ) / 2 raiz (1/a + 1/b + 1/c +1/d)
O intervalo de confiança de 95% de Q é obtido por:
Q ± t.s
Exemplo: Supondo que a distribuição de 200 pacientes adultos (92 homens e 108 mulheres) segundo as formas
maligna e benigna de uma doença foi:
Q = (ad - bc) / (ad + bc) = (60 x 68) - (40 x 32) / (60 x 68) + (40 x 32)
108
Q = (4080 - 1280) / ( 4080 + 1280 ) = 2800 / 5360
Q = 0,5224
O desvio padrão de Q é obtido por:

s = (1 - Q2 ) / 2 . raiz (1/a + 1/b + 1/c +1/d)
s = (1 - 0,52242 ) / 2 . raiz (1/60 + 1/40 + 1/32 +1/68)
s = 0,3635 . raiz (0,0167 + 0,0250 + 0,0312 + 0,01470)
s = 0,3635 . raiz 0,0876 = 0,3635 . 0,2960 = 0,1076
O intervalo de confiança de 95% de Q é obtido por: Q ± t.s = 0,5224 ± 1,96 x 0,1076

Portanto, o valor mínimo é 0,3115 e o valor máximo é 0,7333.
Como o valor calculado de Q (0,5224) se encontra entre esses 2 valores (0,3115 e 0,7333), conclui-se que
existe associação entre o sexo e as formas da doença, estando o sexo masculino associado à forma maligna,
pois nesse sexo há maior frequência dessa forma.
Técnicas de Amostragem
Amostragem aleatória simples, estratificada, sistemática e por conglomerados. - Tamanho amostral.
Amostragem: É o processo de retirada de informações dos "n" elementos amostrais, na qual deve seguir um
método adequado (tipos de amostragem).
Inferência Estatística - é o processo de obter informações sobre uma população a partir de resultados
observados na Amostra.
Plano de Amostragem
1) Definir os Objetivos da Pesquisa
2) População a ser Amostrada
- Parâmetros a ser Estimados (Objetivos)
3) Definição da Unidade Amostral
- Seleção dos Elementos que farão parte da amostra
4) Forma de seleção dos elementos da população
5) Tamanho da Amostra
Exemplo:
Moradores de uma Cidade (população alvo)
109
Unidade Amostral: Domicílios (residências)
Tipos de Amostragem
Amostragem Simples ou Ocasional

É o processo mais elementar e frequentemente utilizado. Todos os elementos da população tem igual
probabilidade de serem escolhidos. Para uma população finita o processo deve ser sem reposição. Todos os
elementos da população devem ser numerados. Para realizar o sorteio dos elementos da população devemos
usar a Tabela de Números Aleatórios.
Probabilística (aleatória): A probabilidade de um elemento da população ser escolhido é conhecida. Cada

elemento da população passa a ter a mesma chance de ser escolhido. Os seus métodos são:
- Amostra casual simples;
- Amostra sistemática;
- Amostra estratificada;
- Amostra por conglomerado.
Não-probabilística (não aleatória): Não se conhece a probabilidade de um elemento ser escolhido para
participar da amostra. Os seus métodos são:
- Amostra por cotas;
- Amostra por julgamento;
- Amostra por conveniência.
Amostragem Probabilística
Amostragem casual ou aleatória simples: este tipo de amostragem se assemelha ao sorteio lotérico. Ela
pode ser realizada numerando-se a população de 1 a n e sorteando-se, a seguir, por meio de um dispositivo
aleatório qualquer, k números dessa sequência, os quais serão pertentes à amostra.
Exemplo: 15% dos alunos de uma população de notas entre 8 e 10, serão sorteados para receber uma bolsa
de estudos de inglês.
Vantagens Desvantagens
- Facilidade de cálculo estatístico;
- Probabilidade elevada de compatibilidade dos dados da amostra e da população.
- Requer listagem da população;
- Trabalhosa em populações elevadas;
- Custos elevados se a dispersão da amostra for elevada.
110
Numeramos os alunos de 01 a 90, sendo que de 01 a 54 correspondem aos meninos e de 55 a 90, as meninas.
Para amostragem muito grande também fazemos o uso da Tabela de Números Aleatórios, elaborada a fim de
facilitar os cálculos, que foi construída de modo que os dez algarismos (0 a 9) são distribuídos ao acaso
nas linhas e colunas.
Amostragem Sistemática
Trata-se de uma variação da Amostragem Aleatória Ocasional, conveniente quando a população está
naturalmente ordenada, como fichas em um fichário, lista telefônica, etc.
Sorteia-se usando a Tabela de Números Aleatórios um número entre 1 e 10, (x=3), o número sorteado refere-
se ao 1º elemento da amostra, logo os elementos da amostra serão:
Para determinar qualquer elemento da amostra podemos usar a fórmula do termo geral de uma P.A.
Exemplo: Amostra de 15% dos alunos com déficit de atenção diagnosticado. Sorteia-se um valor de 1 a 5. Se
o sorteado for o 2, incluem-se na amostra o aluno 2, o 7, o 12 e assim por diante de cinco em cinco.
Amostragem Estratificada
É um processo de amostragem usado quando nos depararmos com populações heterogêneas, na qual pode-
se distinguir subpopulações mais ou menos homogêneas, denominados estratos.
Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada uma subpopulação (estrato).
As diversas subamostras retiradas das subpopulações devem ser proporcionais aos respectivos números de
elementos dos estratos, e guardarem a proporcionalidade em relação a variabilidade de cada estrato, obtendo-
se uma estratificação ótima.
Tipos de variáveis que podem ser usadas em estratificação: idade, classes sociais, sexo, profissão, salário,
procedência, etc.
Exemplo: Supondo que dos noventa alunos de uma escola, 54 sejam meninos e 36 sejam meninas vamos
obter a amostra proporcional estratificada de 10% desta população.
Temos dois estratos: sexo masculino e feminino.
Amostragem por Conglomerados (ou Agrupamentos)
Algumas populações não permitem, ou tornam-se extremamente difíceis que se identifiquem seus elementos,
mas podemos identificar subgrupos da população. Em tais casos, uma amostra aleatória simples desses
subgrupos (conglomerados) podem ser escolhida, e uma contagem completa deve ser feita no conglomerado
sorteado.
Agregados típicos são: quarteirões, famílias, organizações, agências, edifícios, etc.
Amostragem "COM" e "SEM" reposição

Seja "N" o número de elementos de uma população, e seja "n" o número de elementos de uma amostra, então:
111
Se o processo de retirada dos elementos for COM reposição (pop. infinita (f ≤ 5%), o número de amostras
possíveis será: nº de amostras = Nn
Se o processo de retirada de elementos for SEM reposição (pop. finita (f > 5%), o número de amostras possíveis
será:
Exemplo: Supondo N = 8 e n = 4 com reposição: no de amostras = Nn = 84 = 4096
Exemplo: Processo de Amostragem Aleatória Simples

(Distribuição Amostral das Médias)
- (com reposição)
- (sem reposição)
Para ilustrar melhor as estatísticas amostrais usaremos o processo com reposição.
Representações de uma Distribuição Amostral
112
Estatísticas Amostrais
- Esperança Matemática
- Variância
Tamanho da Amostra
Os pesquisadores de todo o mundo, na realização de pesquisas científicas, em qualquer setor da atividade
humana, utilizam as técnicas de amostragem no planejamento de seus trabalhos, não só pela impraticabilidade
de poderem observar, numericamente, em sua totalidade determinada população em estudo, como devido ao
aspecto econômico dessas investigações, conduzidos com um menor custo operacional, dentro de um menor
tempo, além de possibilitar maior precisão nos respectivos resultados, ao contrário, do que ocorre com os
trabalhos realizados pelo processo censitário (COCHRAN, 1965; CRUZ, 1978).
A técnica da amostragem, a despeito de sua larga utilização, ainda necessita de alguma didática mais
adequada aos pesquisadores iniciantes.
Na teoria da amostragem, são consideradas duas dimensões:
1ª) Dimensionamento da Amostra;
2ª) Composição da Amostra.
Procedimentos para determinar o tamanho da amostra

1) Analisar o questionário, ou roteiro da entrevista e escolher uma variável que julgue mais importante para o
estudo. Se possível mais do que uma;
2) Verificar o nível de mensuração da variável: nominal, ordinal ou intervalar;
3) Considerar o tamanho da população: infinita ou finita
4) Se a variável escolhida for:
- intervalar e a população considerada infinita, você poderá determinar o tamanho da amostra pela
fórmula:
onde: Z = abscissa da curva normal padrão, fixado um nível de confiança (1 - )
113
Geralmente usa-se Z = 2
σ = desvio padrão da população, expresso na unidade variável, onde poderá ser determinado por:
· Especificações Técnicas
· Resgatar o valor de estudos semelhantes
· Fazer conjeturas sobre possíveis valores
d = erro amostral, expresso na unidade da variável. O erro amostral é a máxima diferença que o investigador
admite suportar entre
- intervalar e a população considerada finita, você poderá determinar o tamanho da amostra pela
fórmula:
onde: Z = abscissa da normal padrão

σ2= variância populacional
N = tamanho da população
d = erro amostral
- nominal ou ordinal, e a população considerada infinita, você poderá determinar o tamanho da amostra
pela fórmula:

= estimativa da verdadeira proporção de um dos níveis da variável escolhida. Por exemplo, se a variável
escolhida for parte da empresa, poderá ser a estimativa da verdadeira proporção de grandes empresas do
setor que está sendo estudado. será expresso em decimais ( = 30% = 0.30).
d = erro amostral, expresso em decimais. O erro amostral neste caso será a máxima diferença que o
investigador admite suportar entre ᴫ e , isto é: ‫׀‬ᴫ - ‫ < ׀‬d , em que p é a verdadeira proporção (frequência
relativa do evento a ser calculado a partir da amostra.
- nominal ou ordinal, e a população considerada finita, você poderá determinar o tamanho da amostra
pela fórmula:

N = tamanho da população
= estimativa da proporção
d = erro amostral
Estas fórmulas são básicas para qualquer tipo de composição da amostra; todavia, existem fórmulas
específicas segundo o critério de composição da amostra.
- Se o investigador escolher mais de uma variável, poderá acontecer de ter que aplicar mais de uma fórmula,
assim deverá optar pelo maior valor de "n".
Quando não tivermos condições de prever o possível valor para , admita = 0.50, pois, dessa forma, você
terá o maior tamanho da amostra, admitindo-se constantes os demais elementos.
114
Distribuições amostrais de probabilidade
Distribuição amostral das médias

Se a variável aleatória "x" segue uma distribuição normal:
= (Desvio Padrão Amostral)

Caso COM reposição (pop. infinita)
Caso SEM reposição (pop. finita)
Exemplo:
1) Uma população muito grande tem média 20,0 e desvio padrão 1,4. Extrai –se uma amostra de 49
observações. Responda:
a) Qual a média da distribuição amostral?
b) Qual o desvio padrão da distribuição amostral?
c) Qual a porcentagem das possíveis médias que diferiram por mais de 0,2 da média populacional?
Exemplo:
2) Um processo de encher garrafas de Coca-Cola dá em média 10% mal cheias com desvio padrão de 30%.
Extraída uma amostra de 225 garrafas de uma sequência de produção de 625, qual a probabilidade amostral
das garrafas mal cheias estar entre 9% e 12%.
O exemplo nº 2 pode ser resolvido usando a distribuição amostral das proporções, onde p =proporção
populacional,
Distribuição amostral das proporções
Exemplo:
Uma máquina de recobrir cerejas com chocolate é regulada para produzir um revestimento de (3% em relação
ao volume da cereja). Se o processo segue uma distribuição normal, qual a probabilidade de extrair uma
amostra de 25 cerejas de um lote de 169 e encontrar uma média amostral superior a 3,4%. R = 0,44828.
Estimação de Parâmetros
É um processo de indução, na qual usamos dados extraídos de uma amostra para produzir inferência sobre a
população. Esta inferência só será válida se a amostra for significativa.
- Tipos de Estimações de Parâmetros
I) Estimação Pontual
II) Estimação Intervalar
Estimação Pontual
115
É usada quando a partir da amostra procura-se obter um único valor de certo parâmetro populacional, ou seja,
obter estimativas a partir dos valores amostrais.
a) Estatísticas
Seja (X1, X2, ..., Xn) uma amostra aleatória e (x1 ,x2, ..., xn) os valores tomados pela amostra; então y = H(x1
,x2, ..., xn) é uma estatística.
Principais estatísticas:
- Média Amostral
- Proporção Amostral
- Variância Amostral
Estimação Intervalar
Uma outra maneira de se calcular um estimativa de um parâmetro desconhecido, é construir um intervalo de
confiança para esse parâmetro com uma probabilidade de 1- a (nível de confiança) de que o intervalo contenha
o verdadeiro parâmetro. Dessa maneira a será o nível de significância, isto é, o erro que se estará cometendo
ao afirmar que o parâmetro está entre o limite inferior e o superior calculado.
Intervalo de confiança para a média (μ) com a variância (σ2) conhecida.
Como já vimos anteriormente, x (média amostral) tem distribuição normal de média
Então,
Para caso de populações finitas usa-se a seguinte fórmula:
116
Obs.: Os níveis de confiança mais usados são:
Exemplo: Seja X a duração da vida de uma peça de equipamento tal q que σ = 5 horas.
Admita que 100 peças foram ensaiadas fornecendo uma duração de vida média de 500 horas e que se deseja
obter um intervalo de 95% para a verdadeira média populacional. R = P (499,02 ó μ ó 500,98) = 95%.
Obs: Podemos dizer que 95% das vezes, o intervalo acima contém a verdadeira média populacional. Isto não
é o mesmo que afirmar que 95% é a probabilidade do parâmetro m cair dentro do intervalo, o que constituirá
um erro, pois m é um parâmetro (número) e ele está ou não no intervalo.
Intervalo de confiança para a média (μ) com a variância (σ2) desconhecida

(n ≤ 30)
Neste caso precisa-se calcular a estimativa S (desvio padrão amostral) a partir dos dados, lembrando que:
Esta distribuição é conhecida como distribuição "t" de Student, no caso com (φ = n -1) graus de
liberdade
O gráfico da função densidade da variável "t" é simétrico e tem a forma da normal, porém menos "achatada"
sua média vale 0 e a variância em que j é o grau de liberdade

(φ > 2)
Então,
117
Exemplo: A seguinte amostra: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9 foi extraída de uma população aproximadamente
normal. Construir um intervalo de confiança param com um nível de 95%.
Obs: Quando n>30 e s for desconhecido poderemos usar S como uma boa estimativa de σ. Esta
estimação será melhor quanto maior for o tamanho da amostra.
Intervalo de Confiança para Proporções

Sendo o estimador de ᴫ, onde segue uma distribuição normal, logo:
Exemplo: Uma centena de componentes eletrônicos foram ensaiados e 93 deles funcionaram mais que 500
horas. Determine um intervalo de confiança de 95% para a verdadeira proporção populacional sabendo que
os mesmos foram retirados de uma população de 1000 componentes.
Intervalo de Confiança para Variância
Como o estimador de σ2 é S2 pode-se considerar que tem distribuição Qui-quadrado, ou seja:
logo o intervalo será:
118
Assim temos:
Exemplo: A seguinte amostra: 9, 8, 12, 7, 9, 6, 11, 6, 10, 9 foi extraída de uma população aproximadamente
normal.
Construir um intervalo de confiança para σ2 com um nível de 95%.
Intervalo de Confiança para a diferença Entre duas Médias:

Usualmente comparamos as médias de duas populações formando sua diferença:
Uma estimativa pontual desta diferença correspondente:
a) Variâncias Conhecidas
Erro Padrão?
Obs.: se σ1 e σ2 são conhecidas e tem um valor em comum, logo:
Exemplo: Seja duas classes muito grande com desvios padrões σ1 = 1, 21 e σ2 = 2,13.
119
Extraída uma amostra de 25 alunos da classe 1 obteve-se uma nota média de 7,8, e da classe 2 foi extraída
uma amostra de 20 alunos obteve-se uma nota média de 6,0. Construir um intervalo de 95% de confiança para
a verdadeira diferença das médias populacionais. R = (LI=0,753;
LS=2,847)
b) Variâncias Desconhecidas
Em geral conhecemos duas variâncias populacionais Se as mesmas são desconhecidas o melhor

que podemos fazer é estimá-las por meio de variâncias amostrais
Como as amostras serão pequenas, introduziremos uma fonte de erro compensada pela distribuição "t":
Obs: Se as variâncias populacionais são desconhecidas mas as estimativas são iguais, poderemos usar para
o Erro Padrão o seguinte critério:
Coletânea de Exercícios I
Gabarito: no final da Coletânea de exercícios
01. Em estatística, a técnica que nos permite fazer inferências sobre uma população, a partir da análise de
uma parte dela, denomina-se
(A) dedução.
(B) amostragem.
(C) probabilidade.
(D) descrição.
(E) extração.
02. Que parte da estatística se preocupa apenas em descrever determinada característica da população?
(A) Regressão estatística.
(B) Estatística contínua.
(C) Estatística descritiva.
(D) Estatística amostral.
(E) Estatística inferencial.
03. “Costuma ser encontrada com maior frequência em jornais, revistas ou relatórios. Essa parte da estatística
utiliza números para descrever fatos. Seu foco é a representação gráfica e o resumo e organização de um
conjunto de dados, com a finalidade de simplificar informações.” O texto faz referência à:
(A) Estatística inferencial
(B) Estatística de probabilidade
(C) Estatística por amostragem
(D) Estatística descritiva
(E) Média aritmética
04. A estatística descritiva:

(A) permite descrever os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza; estuda as
técnicas que possibilitam a extrapolação, a um grande conjunto de dados, das informações e conclusões
obtidas a partir da amostra.
120
(B) é um conjunto de técnicas que permite, de forma sistemática, organizar, descrever, analisar e interpretar
dados oriundos de estudos ou experimentos, realizados em qualquer área do conhecimento.
(C) é a etapa inicial da análise, utilizada para descrever e resumir os dados, que foi revigorada pela
disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes.
(D) é a etapa conclusiva da análise, utilizada para descrever e resumir os dados e permite descrever os
fenômenos aleatórios ou seja, aqueles em que está presente a incerteza.
(E) é a etapa inicial da análise, utilizada para descrever e resumir dados; estuda as técnicas que possibilitam
a extrapolação, a um grande conjunto de dados, das informações e conclusões obtidas a partir da amostra.
05. Na festa de seu aniversário em 2014, todos os sete filhos de João estavam presentes. A idade de João
nessa ocasião representava 2 vezes a média aritmética da idade de seus filhos, e a razão entre a soma das
idades deles e a idade de João valia
(A) 1,5.
(B) 2,0.
(C) 2,5.
(D) 3,0.
(E) 3,5.
06. Os censos populacionais produzem informações que permitem conhecer a distribuição territorial e as
principais características das pessoas e dos domicílios, acompanhar sua evolução ao longo do tempo, e
planejar adequadamente o uso sustentável dos recursos, sendo imprescindíveis para a definição de políticas
públicas e a tomada de decisões de investimento. Constituem a única fonte de referência sobre a situação de
vida da população nos municípios e em seus recortes internos – distritos, bairros e localidades, rurais ou
urbanos – cujas realidades socioeconômicas dependem dos resultados censitários para serem conhecidas.
Um dos resultados possíveis de se conhecer, é a distribuição entre homens e mulheres no território brasileiro.
A seguir parte da pirâmide etária da população brasileira disponibilizada pelo IBGE.
O quadro abaixo, mostra a distribuição da quantidade de homens e mulheres, por faixa etária de uma
determinada cidade. (Dados aproximados)
Considerando somente a população masculina dos 20 aos 44 anos e com base no quadro abaixo a frequência
relativa, dos homens, da classe [30, 34] é:
(A) 64%.
(B) 35%.
(C) 25%.
(D) 29%.
(E) 30%.
07. Em uma turma a média aritmética das notas é 7,5. Sabe-se que a média aritmética das notas das mulheres
é 8 e das notas dos homens é 6. Se o número de mulheres excede o de homens em 8, pode-se afirmar que o
número total de alunos da turma é
(A) 4.
(B) 8.
(C) 12.
(D) 16.
(E) 20.
08. A altura média, em metros, dos cinco ocupantes de um carro era y.

Quando dois deles, cujas alturas somavam 3,45 m, saíram do carro, a altura média dos que permaneceram
passou a ser 1,8m que, em relação à média original y, é
121
(A) 3 cm maior.
(B) 2 cm maior.
(C) igual.
(D) 2 cm menor.
(E) 3 cm menor.
09. Em uma empresa com 5 funcionários, a soma dos dois menores salários é R$ 4.000,00, e a soma dos
três maiores salários é R$ 12.000,00. Excluindo-se o menor e o maior desses cinco salários, a média dos 3
restantes é R$ 3.000,00, podendo-se concluir que a média aritmética entre o menor e o maior desses salários
é igual a
(A) R$ 3.500,00.
(B) R$ 3.400,00.
(C) R$ 3.050,00.
(D) R$ 2.800,00.
(E) R$ 2.500,00.
10. Um líquido L1 de densidade 800 g/l será misturado a um líquido L2 de densidade 900 g/l Tal mistura será
homogênea e terá a proporção de 3 partes de L1 para cada 5 partes de L2
A densidade da mistura final, em g/l, será
(A) 861,5.
(B) 862.
(C) 862,5.
(D) 863.
11. Ao encerrar o movimento diário, um atacadista, que vende à vista e a prazo, montou uma tabela
relacionando a porcentagem do seu faturamento no dia com o respectivo prazo, em dias, para que o pagamento
seja efetuado.
O prazo médio, em dias, para pagamento das vendas efetuadas nesse dia, é igual a
(A) 75.
(B) 67.
(C) 60.
(D) 57.
(E) 55.
12. Uma loja de roupas de malha vende camisetas com malha de três qualidades. Cada camiseta de malha
comum custa R$15,00, de malha superior custa R$24,00 e de malha especial custa R$30,00. Certo mês, a loja
vendeu 180 camisetas de malha comum, 150 de malha superior e 70 de malha especial. O preço médio, em
reais, da venda de uma camiseta foi de:
(A) 20.
(B) 20,5.
(C) 21.
(D) 21,5.
(E) 11.
13. A média semestral de um curso é dada pela média ponderada de três provas com peso igual a 1 na primeira
prova, peso 2 na segunda prova e peso 3 na terceira. Qual a média de um aluno que tirou 8,0 na primeira, 6,5
na segunda e 9,0 na terceira?
(A) 7,0
(B) 8,0
(C) 7,8
(D) 8,4
(E) 7,2
122
14. A tabela abaixo mostra os valores mensais do Imposto Predial e Territorial Urbano (IPTU) pagos pelos
apartamentos de um condomínio. Determine a média aritmética desses valores.
(A) R$ 248,50
(B) R$ 252,50
(C) R$ 255,50
(D) R$ 205,50
(E) R$ 202,50
15. Determine a mediana do conjunto de valores (10, 11, 12, 11, 9, 8, 10, 11, 10, 12).
(A) 8,5
(B) 9
(C) 10,5
(D) 11,5
(E) 10
16. A tabela a seguir apresenta o índice de desenvolvimento humano (IDH) de alguns países da América Latina
referente ao ano 2012.
Dentre os países listados, aquele cujo IDH representa a mediana dos dados apresentados é:
(A) Brasil
(B) Colômbia
(C) México
(D) Venezuela
17. Na tabela, as letras q, p e m substituem as alturas, relacionadas em ordem crescente, de seis alunos do
Curso de Formação de Oficiais da Polícia Militar avaliados em um exame biométrico, sendo que, nessa tabela,
letras iguais correspondem a alturas iguais.
Sabendo-se que a moda, a mediana e a média aritmética das alturas desses alunos são, respectivamente, 173
cm, 174,5 cm e 175,5 cm, pode-se concluir que a altura do aluno Ferreira é igual, em centímetros, a
(A) 177.
(B) 178.
(C) 179.
123
(D) 180.
(E) 182.
Observe os números relacionados a seguir, e responda às questões de números 18 e 19.
18. A mediana desses valores vale:

(A) 6
(B) 6,5
(C) 7
(D) 7,5
(E) 8
19. A moda desses valores vale:

(A) 8
(B) 7
(C) 6
(D) 5
(E) 4
20. Identifique a alternativa que apresenta a frequência absoluta (fi) de um elemento (xi) cuja frequência relativa
(fr) é igual a 25 % e cujo total de elementos (N) da amostra é igual a 72.
(A) 18.
(B) 36.
(C) 9.
(D) 54.
(E) 45.
21. Em uma faculdade, uma amostra de 120 alunos foi coletada, tendo-se verificado a idade e o sexo desses
alunos.
Na amostra, apurou-se que 45 estão na faixa de 16 a 20 anos, 60, na faixa de 21 a 25 anos, e 15 na faixa de
26 a 30 anos. Os resultados obtidos encontram-se na Tabela abaixo.
Quais são, respectivamente, os valores indicados pelas letras P, Q, R e S?

(A) 40; 28; 64 e 0
(B) 50; 28; 64 e 7
(C) 50; 40; 53,3 e 7
(D) 77,8; 28; 53,3 e 7
(E) 77,8; 40; 64 e 0
22. Na tabela a seguir, constam informações sobre o número de filhos dos 25 funcionários de uma pequena
empresa.
124
Com base nas informações contidas na tabela, é correto afirmar que o número total de filhos dos funcionários
dessa pequena empresa é necessariamente
(A) menor que 41.
(B) igual a 41.
(C) maior que 41 e menor que 46.
(D) igual a 46.
(E) maior ou igual a 46.
23. “Estar alfabetizado, neste final de século, supõe saber ler e interpretar dados apresentados de maneira
organizada e construir representações, para formular e resolver problemas que impliquem o recolhimento de
dados e a análise de informações. Essa característica da vida contemporânea traz ao currículo de Matemática
uma demanda em abordar elementos da estatística, da combinatória e da probabilidade, desde os ciclos
iniciais” (BRASIL, 1997).
Observe os gráficos e analise as informações.
125
A partir das informações contidas nos gráficos, é correto afirmar que:
(A) nos dias 03 e 14 choveu a mesma quantidade em Fortaleza e Florianópolis.
(B) a quantidade de chuva acumulada no mês de março foi maior em Fortaleza.
(C) Fortaleza teve mais dias em que choveu do que Florianópolis.
(D) choveu a mesma quantidade em Fortaleza e Florianópolis.
24) Suponha que, de um baralho normal, contendo 52 cartas de quatro naipes, é extraído, sem reposição e
aleatoriamente, um total de quatro cartas. Se a carta “Ás” é equivalente a uma figura (ou seja, são 4 figuras e
9 números de cada naipe), é correto afirmar que a probabilidade de que todas sejam:
A) do mesmo naipe é igual a
B) figuras é igual a
C) do mesmo número é igual a
D) números é igual a
E) de naipes diferentes é igual a
25. A distribuição de salários de uma empresa com 30 funcionários é dada na tabela seguinte.
Pode-se concluir que

(A) o total da folha de pagamentos é de 35,3 salários.
(B) 60% dos trabalhadores ganham mais ou igual a 3 salários.
(C) 10% dos trabalhadores ganham mais de 10 salários.
(D) 20% dos trabalhadores detêm mais de 40% da renda total.
126
(E) 60% dos trabalhadores detêm menos de 30% da renda total.
26. Considere a tabela de distribuição de frequência seguinte, em que xi é a variável estudada e fi é a

frequência absoluta dos dados.
Assinale a alternativa em que o histograma é o que melhor representa a distribuição de frequência da tabela.
27. Observe os gráficos e analise as afirmações I, II e III.
I. Em 2010, o aumento percentual de matrículas em cursos tecnológicos, comparado com 2001, foi maior que
1000%.
127
II. Em 2010, houve 100,9 mil matrículas a mais em cursos tecnológicos que no ano anterior.
III. Em 2010, a razão entre a distribuição de matrículas no curso tecnológico presencial e à distância foi de 2
para 5.
É correto o que se afirma em
(A) I e II, apenas.
(B) II, apenas.
(C) I, apenas.
(D) II e III, apenas.
(E) I, II e III.
28. Com relação à definição das medidas de tendência central e de variabilidade dos dados em uma estatística,
assinale a opção correta.
(A) A moda representa o centro da distribuição, é o valor que divide a amostra ao meio.
(B) A amplitude total, ou range, é uma medida de tendência central pouco afetada pelos valores extremos.
(C) A mediana é o valor que ocorre mais vezes, frequentemente em grandes amostras.
(D) A variância da amostra representa uma medida de dispersão obtida pelo cálculo da raiz quadrada positiva
do valor do desvio padrão dessa amostra.
(E) A média aritmética representa o somatório de todas as observações dividido pelo número de observações.
29. A medida estatística que separa as metades superior e inferior dos dados amostrados de uma população
é chamada de:
(A) mediana.
(B) média.
(C) bissetriz.
(D) moda.
30. A sequência a seguir mostra o número de gols marcados pelo funcionário Ronaldão nos nove últimos jogos
disputados pelo time da empresa onde ele trabalha: 2, 3, 1, 3, 0, 2, 0, 3, 1. Sobre a média, a mediana e a moda
desses valores é verdade que:
(A) média < mediana < moda;
(B) média < moda < mediana;
(C) moda < média < mediana;
(D) mediana < moda < média;
(E) mediana < média < moda.
31. Determine a mediana do conjunto de valores (10, 11, 12, 11, 9, 8, 10, 11, 10, 12).
(A) 8,5
(B) 9
(C) 10,5
(D) 11,5
(E) 10
32. As massas de 5 amigos são 63,5; 70,3; 82,2; 59 e 71,5 quilogramas. A média e a mediana das massas
são, respectivamente:
(A) 69,3 e 70,3 quilogramas.
(B) 172,25 e 82,2 quilogramas.
(C) 69,3 e 82,2 quilogramas.
(D) 172, 70,3 quilogramas.
33. A tabela apresenta uma distribuição hipotética. Não há observações coincidentes com os limites das
classes.
128
A melhor estimativa para o terceiro quartil da distribuição é, aproximadamente, de
(A)34,75
(B)34,9
(C)35
(D)35,75
(E)35,9
34. Em estatística, a variância é um número que apresenta a unidade elevada ao quadrado em relação a
variável que não está elevada ao quadrado, o que pode ser um inconveniente para a interpretação do resultado.
Por isso, é mais comumente utilizada na estatística descritiva o desvio-padrão, que é definido como
(A) a raiz quadrada da mediana, representada por "s" ou "μ".
(B) a raiz quadrada da variância, representada por "s" ou "α".
(C) a raiz quadrada da variância, representada por "s" ou "α".
(D) a raiz quadrada da média, representada por "s" ou "α".
35. Os valores a seguir representam uma amostra

331546248
Então, a variância dessa amostra é igual a
(A) 4,0
(B) 2,5
(C) 4,5
(D) 5,5
(E) 3,0
36. Ao considerar uma curva de distribuição normal, com uma média como medida central, temos a variância
e o desvio padrão referentes a esta média. Em relação a estes parâmetros,
(A) a variância é uma medida cujo significado é a metade do desvio padrão.
(B) a variância é calculada com base no dobro do desvio padrão.
(C) o desvio padrão é a raiz quadrada da variância.
(D) a média dividida pelo desvio padrão forma a variância.
(E) a variância elevada ao quadrado indica qual é o desvio padrão.
37. Considere as seguintes afirmações:

I. as distribuições de Bernoulli e Binomial apresentam as mesmas características e, portanto, os mesmos
parâmetros;
II. repetições independentes de um ensaio de Bernoulli, com a mesma probabilidade de ocorrência de sucesso,
dão origem ao modelo Binomial;
III. o Teorema do Limite Central garante que, para n suficientemente grande, a distribuição de Bernoulli pode
ser aproximada pela distribuição de Poisson.
Pode-se afirmar que
(A) somente II está correta.
(B) I e II estão corretas.
(C) II e III estão corretas.
(D) somente III está correta.
38. Em uma escola, a probabilidade de um aluno compreender e falar inglês é de 30%. Três alunos dessa
escola, que estão em fase final de seleção de intercâmbio, aguardam, em uma sala, serem chamados para
uma entrevista. Mas, ao invés de chamá-los um a um, o entrevistador entra na sala e faz, oralmente, uma
pergunta em inglês que pode ser respondida por qualquer um dos alunos.
A probabilidade de o entrevistador ser entendido e ter sua pergunta oralmente respondida em inglês é
129
(A) 23,7%
(B) 30,0%
(C) 44,1%
(D) 65,7%
(E) 90,0%
39. Uma competição esportiva envolveu 20 equipes com 10 atletas cada. Uma denúncia à organização dizia
que um dos atletas havia utilizado substância proibida.
Os organizadores, então, decidiram fazer um exame antidoping. Foram propostos três modos diferentes para
escolher os atletas que irão realizá-lo:
Modo I: sortear três atletas dentre todos os participantes;
Modo II: sortear primeiro uma das equipes e, desta, sortear três atletas;
Modo III: sortear primeiro três equipes e, então, sortear um atleta de cada uma dessas três equipes.
Considere que todos os atletas têm igual probabilidade de serem sorteados e que P(I), P(II) e P(III) sejam as
probabilidades de o atleta que utilizou a substância proibida seja um dos escolhidos para o exame no caso do
sorteio ser feito pelo modo I, II ou III. Comparando-se essas probabilidades, obtém-se
(A) P(I) < P(III) < P(II)
(B) P(II) < P(I) < P(III)
(C) P(I) < P(II) = P(III)
(D) P(I) = P(II) < P(III)
(E) P(I) = P(II) = P(III)
40. Em uma central de atendimento, cem pessoas receberam senhas numeradas de 1 até 100. Uma das
senhas é sorteada ao acaso.
Qual é a probabilidade de a senha sorteada ser um número de 1 a 20?
(A) 1/100
(B) 19/100
(C) 20/100
(D) 21/100
(E) 80/100
41. A distribuição de probabilidade descreve uma oportunidade ou chance associada a valores que uma
variável pode assumir em um espaço amostral, por se tratar de um conceito básico. No entanto, na distribuição
de probabilidade binomial, há situações em que deve atender a algumas condições, isto é, para que uma
situação possa se enquadrar em uma distribuição binomial, ela deve atender a algumas condições.
Considerando o texto acima, avalie as seguintes asserções e a relação propostas entre elas.
São realizadas n repetições (tentativas) independentes e a probabilidade p de sucesso em cada prova é
constante.
PORQUE
Se uma situação atende à condição anterior, então a variável aleatória X (número de sucessos obtidos nas n
tentativas) terá uma distribuição binomial com n tentativas e p probabilidades de sucesso.
Em relação a essas asserções, assinale a alternativa correta:
(A) As asserções I e II são proposições verdadeiras, e a II não é justificativa da I.
(B) A asserção I é uma proposição verdadeira, e a II é uma proposição falsa.
(C) A asserção I é uma proposição falsa, e a II é uma proposição verdadeira.
(D) As asserções I e II são proposições verdadeiras, e a II é justificativa da I.
(E) As asserções I e II são proposições falsas.
42. Joga-se um dado equilibrado. Qual é a probabilidade de serem necessários 10 lançamentos até a primeira
ocorrência de um seis?
(A) 0,0323
(B) 0,0677
(C) 0,0548
(D) 0,0452
(E) 0,0125
43. Dois adversários A e B disputam uma série de 8 partidas de um determinado jogo. A probabilidade de A
ganhar uma partida é 0,6 e não há empate. Qual é a probabilidade de A ganhar a série?
(A) 24,5%
(B) 59,4%
130
(C) 36%
(D) 48%
(E) 20%
44. Joga-se uma moeda não viciada. Qual é a probabilidade de serem obtidas 5 caras antes de 3 coroas?
(A) 35%
(B) 77,3%
(C) 65%
(D) 50%
(E) 22,7%
45. Entre os 16 programadores de uma empresa, 12 são do sexo masculino. A empresa decide sortear 5
programadores para fazer um curso avançado de programação. Qual é a probabilidade dos 5 sorteados serem
do sexo masculino?
(A) 18,13%
(B) 50%
(C) 75%
(D) 25,45%
(E) 74,55%
46. Em um certo tipo de fabricação de fita magnética, ocorrem cortes a uma taxa de um corte por 2000 pés.
Qual é a probabilidade de que um rolo com comprimento de 4000 pés apresente no máximo dois cortes? Pelo
menos dois cortes?
(A) 0,676676 e 0,593994
(B) 0,323324 e 0,406006
(C) 0,5 e 0,5
(D) 0,125885 e 0,365896
(E) 0,478963 e 0,258963
47. A Lei dos Grandes Números existe em duas versões que tratam de convergências de tipos distintos. A Lei
Fraca e a Lei Forte abordam, respectivamente, convergências:
(A) em probabilidade e em distribuição;
(B) quase certa e em probabilidade;
(C) em distribuição e quase certa;
(D) em distribuição e em probabilidade;
(E) em probabilidade e quase certa.
48. A Lei dos Grandes Números se apresenta em duas versões, uma versão forte e outra fraca. Sobre essas
duas versões, é correto afirmar que:
(A) a lei forte expressa é condição necessária para que se tenha uma convergência em probabilidade;
(B) a lei fraca é equivalente a uma convergência quase certa;
(C) a lei fraca pode ser empregada para verificar a propriedade de consistência de estimadores pontuais;
(D) a lei fraca expressa é condição necessária para que se tenha uma convergência em distribuição;
(E) a lei forte é usada para mostrar que o conceito frequencial de probabilidade converge para o conceito
clássico.
49. A tabela abaixo apresenta as quantidades e os preços unitários de 4 produtos vendidos, em uma mercearia,
durante o 1° trimestre de 2009.
Para o conjunto dos 4 produtos apresentados, o índice de preços de Laspeyres referente ao mês de março,
tendo como base o mês de janeiro, vale, aproximadamente,
(A) 79
(B) 81
(C) 108
(D) 123
(E) 127
50. Considerando-se os dados sobre os preços e as quantidades vendidas de dois produtos em dois anos
consecutivos, assinale a opção correta.
(A) O índice de Laspeyres indica um aumento de 50% no nível de preços dos dois produtos, enquanto o índice
de Paasche indica uma redução de 50%.
131
(B) Os fatores de ponderação no cálculo do índice de Laspeyres são 80 para o preço relativo do produto 1 e
240 para o preço relativo do produto 2.
(C) O índice de Laspeyres indica um aumento de 25% no nível de preços dos dois produtos, enquanto o índice
(D) Os fatores de ponderação no cálculo do índice de Paasche são 240 para o preço relativo do produto 1 e
80 para o preço relativo do produto 2.
(E) O índice de Laspeyres indica um aumento de 25% no nível de preços dos dois produtos, enquanto o índice
51. A probabilidade de sucesso em um experimento é igual a p. Sejam as hipóteses H0 : p = 2/3 (hipótese

nula) e H1 : p = 1/2 (hipótese alternativa).
Estabelece-se que H0 é aceita se e somente se, pelo menos, 2 sucessos forem obtidos em 3 vezes em que o
experimento é executado. A probabilidade de H0 ser rejeitada, dado que H0 é verdadeira, é
(A) 3/8
(B) 2/3
(C) 20/27
(D) 5/9
(E) 7/27
52. Os sinistros de uma companhia de seguros (em R$ milhões) são modelados por uma variável aleatória
contínua X com função densidade de probabilidade dada por:
A probabilidade de um sinistro, aleatoriamente escolhido, exceder R$ 1,5 milhões é

(A) 0,1536.
(B) 0,128.
(C) 0,84.
(D) 0,16.
(E) 0,8464.
53. Considere uma população P formada por números estritamente positivos. Com relação às medidas de
tendência central e de dispersão é correto afirmar que
A) multiplicando todos os elementos de P por 16, o desvio padrão da nova população é igual ao desvio padrão
de P multiplicado por 4.
B) dividindo todos os elementos de P por 2, a variância da nova população é igual a variância de P multiplicada
por 0,25.
C) adicionando uma constante K > 0 a todos os elementos de P, a média aritmética e a variância da nova
população formada são iguais a média aritmética e desvio padrão de P, respectivamente
D) a variância e o desvio padrão de P são iguais somente no caso em que todos os elementos de P são iguais.
E) subtraindo uma constante K > 0 de todos os elementos de P, o desvio padrão e a média aritmética da nova
população são iguais ao desvio padrão e média aritmética de P subtraídos de K, respectivamente.
54. Considere: Se Z tem distribuição normal padrão, então: P(Z < 0,84) = 0,80, P(Z < 1,5) = 0,933, P(Z < 1,96)
= 0,975, P(Z < 2,5) = 0,994.
Desejando-se estimar a média µ dos salários de uma população, que deve ser considerada de tamanho infinito,
com desvio padrão conhecido e igual a R$ 100,00, selecionou-se uma amostra aleatória de 100 elementos da
população que forneceu os resultados apresentados na tabela abaixo:
Sabendo que x - y = 2, e utilizando para a estimativa pontual de µ a média aritmética dos 100 salários
apresentados, calculada considerando que todos os valores incluídos num intervalo de classe são coincidentes
com o ponto médio do intervalo, um intervalo de confiança para µ, com coeficiente de confiança de 95%, é, em
reais, dado por
(A) [3410,40; 3449,60]
(B) [3409,40; 3450,60]
(C) [3400,40; 3439,60]
(D) [3420,60; 3459,40]
(E) [3410,00; 3450,00]
55. A análise de uma amostra de sangue produziu os seguintes resultados para colesterol: 241, 243, 245 e
132
247 mg/dL. Considere que a distribuição dos dados tende à normalidade com t = 4,5 para 3 graus de liberdade
e com 98% de limite de confiança e que o desvio padrão dos resultados é 2,6. Considerando o valor médio e
o intervalo de confiança do resultado, o valor mais próximo da maior concentração admitida para o colesterol
na amostra é
(A) 242,2
(B) 244,0
(C) 246,6
(D) 249,0
(E) 249,9
56. Espera-se que o número de reclamações tributárias em um órgão público durante determinada semana
seja igual a 25, em qualquer dia útil. Sabe-se que nesta semana ocorreram 125 reclamações com a seguinte
distribuição por dia da semana:
Para decidir se o número de reclamações tributárias correspondente não depende do dia da semana, a um
nível de significância? é calculado o valor do qui-quadrado (?²) que se deve comparar com o valor do qui-
quadrado crítico tabelado com 4 graus de liberdade. O valor de ?² é
(A) 1,20
(B) 1,90
(C) 4,75
(D) 7,60
(E) 9,12
57. O objetivo de uma pesquisa era o de se obter, relativamente aos moradores de um bairro, informações
sobre duas variáveis: nível educacional e renda familiar. Para cumprir tal objetivo, todos os moradores foram
entrevistados e arguidos quanto ao nível educacional, e, dentre todos os domicílios do bairro, foram
selecionados aleatoriamente 300 moradores para informar a renda familiar. As abordagens utilizadas para as
variáveis nível educacional e renda familiar foram, respectivamente,
(A) censo e amostragem por conglomerados.
(B) amostragem aleatória e amostragem sistemática.
(C) censo e amostragem casual simples.
(D) amostragem estratificada e amostragem sistemática.
(E) amostragem sistemática e amostragem em dois estágios.
58. Considere um planejamento amostral para uma população de interesse no qual é feita uma divisão dessa
população em grupos idênticos à população alvo, como uma espécie de microcosmos da população, e, em
seguida, seleciona-se aleatoriamente um dos grupos e retira-se a amostra do grupo selecionado.
A técnica de amostragem descrita acima é definida como:
(A) amostragem aleatória simples
(B) amostragem por conglomerados
(C) amostragem estratificada
(D) amostragem sistemática
(E) amostragem por cotas
59. Com relação à amostragem, pode-se afirmar que:

(A) na amostragem por quotas, tem-se uma amostra não probabilística na qual divide-se a população em
subgrupos e determina-se uma quota (proporcional) a cada subgrupo. A seleção dos objetos individuais
obedece o critério de uma amostra sistemática.
(B) na amostragem estratificada, divide-se a população em grupos (ou classes, ou estratos), de modo que os
elementos pertencentes ao mesmo estrato sejam o mais heterogêneos possível com respeito à característica
em estudo. Para cada grupo toma-se uma subamostra pelo procedimento a.a.s., e a amostra global é o
resultado da combinação das subamostras de todos os estratos
(C) na amostragem por conglomerados, seleciona-se primeiro, ao acaso, grupos (conglomerados) de
elementos individuais da população. A seguir, toma-se ou todos os elementos ou uma subamostra de cada
conglomerado. Nos conglomerados, as diferenças entre eles devem ser tão grandes quanto possível, enquanto
as diferenças dentro devem ser tão pequenas quanto possível.
(D) na amostragem por quotas, tem-se uma amostra probabilística na qual divide-se a população em subgrupos
e determina-se uma quota (proporcional) a cada subgrupo. A seleção dos objetos individuais é por sorteio.
(E) na amostragem sistemática, toma-se cada k-ésima unidade da população previamente ordenada, em que
k é a razão de amostragem. O procedimento deve começar ao acaso, sorteando-se um número entre 1 e k.
133
60. Um analista efetuou uma pesquisa sobre o perfil do menor infrator. Para cada menor observado na amostra,
foram observadas 15 medidas supostamente gaussianas. O analista deseja classificar as unidades amostrais
em grupos, de modo que as pessoas que pertencem a um mesmo grupo tenham, estatisticamente, um tipo de
similaridade com base nas 15 medidas consideradas. Com base nessas informações, é correto afirmar que a
técnica multivariada apropriada para a finalidade desejada pelo analista é a análise
(A) de conglomerados.
(B) fatorial.
(C) de correspondência.
(D) de componentes principais.
(E) discriminante.
61) Entre as pessoas A, B, C, D e E, será sorteada uma comissão de três membros. A probabilidade de que
A e B estejam na comissão ou de que C esteja na comissão, é de
(A) 60%.
(B) 64%.
(C) 72%.
(D) 75%.
(E) 80%.
62) Júlio vai lançar uma moeda honesta 4 vezes seguidas. A probabilidade de que o número de caras seja
igual ao número de coroas é de
(A) 1/2.
(B) 1/3.
(C) 3/4.
(D) 3/8
(E) 5/8.
63) Uma loja pretende dar um brinde aos dois primeiros clientes do dia. Qual a probabilidade de esses clientes
serem do mesmo sexo?
(A) 25%
(B) 5%
(C) 100%
(D) 20%
(E) 50%
64) Qual a probabilidade de, lançado um dado honesto três vezes, obter-se o número 6 em todos os
lançamentos?
(A) 1/6
(B) 1/3
(C) 1/216
(D) 1/36
(E) 1/108
65) Numa urna, estão 30 bolas vermelhas e 45 bolas brancas. A probabilidade de, retiradas ao acaso 2 bolas,
com reposição, ambas serem vermelhas é
(A) 30%
(B) 40%
(C) 36%
(D) 16%
(E) 25%
66) Uma premiação, dois funcionários de uma empresa serão sorteados aleatoriamente entre quatro
candidatos: dois do departamento A e dois do departamento B. A probabilidade de os dois funcionários
sorteados pertencerem ao mesmo departamento é
(A) 1/2
(B) 1/3
(C) 1/4
(D) 1/6
(E) 3/4
134
67) Se a média aritmética é multiplicada pelo coeficiente de variação, então o valor resultante é classificado
como:
(A) variância.
(B) desvio padrão.
(C) coeficiente de média.
(D) coeficiente de desvio.
(E) coeficiente de correlação.
68) A variável aleatória X tem variância igual a 12 e distribuição uniforme contínua no intervalo [a, 16], onde a
é um número inteiro menor que 16. A diferença entre o terceiro quartil de X e a média de X é igual a
(A) 2,5.
(B) 1,0.
(C) 2,0.
(D) 3,0.
(E) 1,5.
69) Uma pesquisa pretende analisar o desempenho dos alunos do terceiro ano do Colégio Pedro II na prova
de Matemática do ENEM.Para isso será coletada uma amostra
(A) aleatória simples, primeiro escolhendo aleatoriamente as turmas do terceiro ano e depois escolhendo
aleatoriamente os alunos em cada turma.
(B) estratificada, definindo como estratos os campi do Colégio Pedro II e selecionando uma amostra aleatória
simples em cada estrato.
(C) sistemática, escolhendo uma quantidade em cada turma proporcional ao tamanho da turma mas inferior a
sua totalidade.
(D) por cota, selecionando aleatoriamente um campus do Colégio Pedro II.
70) Associe a série de dados estatísticos com o tipo de gráfico mais adequado para apresentá-la.
SÉRIE DE DADOS
S1: Evolução do número de processos mensais protocolados;
S2: Participação de cada bairro de um município nos processos protocolados;
S3: Quantidade de funcionários de uma repartição pública por faixa etária;
GRÁFICOS
G1: Gráfico Setorial;
G2: Gráfico de linhas;
G3: Histograma;
Marque a alternativa CORRETA:
(A) (S1,G1);(S2,G2);(S3,G3)
(B) (S1,G1);(S2,G2);(S3,G3)
(C) (S1,G2);(S2,G3);(S3,G2)
(D) (S1,G2);(S2,G1);(S3,G3)
71) Uma pesquisa é realizada em uma grande cidade com uma amostra aleatória de 300 habitantes em que
75% deles manifestaram- se favoráveis à implantação de um projeto para melhorar o atendimento ao público
de sua cidade. Com base nesta amostra, deseja-se obter um intervalo de confiança de 95% para esta
proporção, considerando que a distribuição amostral da frequência relativa dos habitantes favoráveis ao projeto
é normal. Utilizando a informação da distribuição normal padrão (Z) que as probabilidades P(Z > 1,96) = 0,025
e P(Z > 1,64) = 0,050, este intervalo de confiança é, em %, igual a
(A) [71,68 ; 78,32].
(B) [71,34 ; 78,66]
(C) [70,90 ; 79,10].
(D) [70,40 ; 79,60].
(E) [70,10 ; 79,90].
72) Em uma eleição, sabe-se que 40% dos eleitores são favoráveis ao candidato X e o restante ao candidato
Y. Extraindo uma amostra aleatória, com reposição, de tamanho 3 da população de eleitores, obtém-se que a
probabilidade de que no máximo 1 eleitor da amostra seja favorável ao candidato X é igual a
(A) 35,2%
(B) 64,8%
(C) 36,0%
135
(D) 43,2%
(E) 78,4%
73) A comparação da distribuição normal com outras distribuições de probabilidade permite afirmar que:
(A) a distribuição qui-quadrada e a distribuição normal são simétricas e com formato de sino.
(B) distribuição qui-quadrada converge assintoticamente (quando o tamanho amostra tende ao infinto) à
distribuição normal.
(C) a distribuição binomial e a distribuição normal são distribuições de probabilidade discretas e simétricas.
(D) a distribuição de Poisson e a distribuição normal são distribuições de probabilidade contínuas e simétricas.
(E) a distribuição t, para amostras finitas, possui caudas mais largas que a distribuição normal.
74) Em uma população formada por indivíduos que se encontram empregados, observa-se que 40% deles
têm um salário superior a 10 salários mínimos. Para desenvolver um estudo, é extraída uma amostra aleatória
de 3 indivíduos desta população com reposição. A probabilidade de que mais que 1 indivíduo desta amostra
não tenha um salário superior a 10 salários mínimos é de
(A) 56,8%
(B) 64,8%
(C) 71,2%
(D) 78,4%
(E) 72,0%
75) A tabela a seguir mostra a média e a variância da estatura e do peso de 100 adultos. Em relação à altura
e ao peso dos adultos, qual apresenta a distribuição mais homogênea?
(A) O peso, pois apresentou menor variância.

(B) A altura, pois apresentou maior variância.
(C) A altura, pois apresentou menor coeficiente de Variação.
(D) O peso, pois apresentou maior coeficiente de Variação.
(E) A altura e o peso apresentam a mesma homogeneidade.
76) Um artesão produz três tipos de caixas de MDF personalizadas. As resistências dessas caixas são
testadas, tomando-se uma amostra aleatória de 200 caixas de cada tipo e determinando-se o peso suportado
por cada tipo de caixa. Os resultados dos testes foram os seguintes:
Com base nos dados da tabela, qual o tipo de caixa que apresentou resultados mais homogêneos?
(A) A caixa do tipo I, pois apresentou menor Desvio Padrão.

(B) A caixa do tipo III, pois apresentou maior Desvio Padrão.
(C) A caixa do tipo I, pois apresentou maior Coeficiente de Variação.
(D) A caixa do tipo III, pois apresentou menor Coeficiente de Variação.
(E) A caixa do tipo II, pois apresentou uma média baixa com um baixo desvio padrão.
77.
(A) 65
136
(B) 48
(C) 12
(D) 10
(E) 9
78.
(A) 3.
(B) 6.
(C) 9.
(D) 12.
(E) 12.
79.
(A) 0,20.
(B) 0,22.
(C) 0,25.
(D) 0,44.
(E) 0,50.
80) Deseja-se obter uma estimativa pontual do parâmetro p da distribuição geométrica P(X = x) = (1 − p) x − 1p
(x = 1, 2, 3, . . . ) sabendo-se que o acontecimento cuja probabilidade é p ocorreu em 5 experiências, pela
primeira vez na primeira, terceira, segunda, quarta e segunda, respectivamente. Utilizando o método dos
momentos, encontra-se que o valor desta estimativa é
(A) 5/12
(B) 1/5
(C) 1/6
(D) 2/3
(E) 1/2
81) Sejam os estimadores E1 = (m−4)X − (2m−4) + (m+1)Z e E2 = 2m + (2−m)Y − (m+1)Z da média μ diferente
de zero de uma população normal com variância unitária. A amostra aleatória (X, Y, Z) de tamanho 3 foi
extraída, com reposição, desta população e m é um parâmetro real. O menor valor inteiro de m, tal que E 1 é
mais eficiente que E2, é
(A) 0.
(B) 1.
(C) 2.
(D) 3.
(E) 4.
82.
137
(A) 12.
(B) 15.
(C) 18.
(D) 21.
(E) 24.
83.
(A) R$ 1.600,00.
(B) R$ 1.700,00.
(C) R$ 1.800,00.
(D) R$ 1.900,00.
(E) R$ 2.000,00.
84. Qual o tamanho mínimo de uma amostra para estimar a média salarial dos moradores de um bairro da
cidade Alfa, se a margem de erro for de R$ 10,00 com grau de confiança de 95%. Estudo anterior sugere que
o desvio padrão desta população é de R$ 50,00. Dados:
para um grau de confiança de 95%.
(A) 97 moradores.
(B) 90 moradores.
(C) 104 moradores.
(D) 92 moradores.
(E) 110 moradores.
85. Considere a variável aleatória discreta e bidimensional (X,Y), cuja função de probabilidade é dada por:
Sobre as variáveis em questão, é correto afirmar que:

(A) X e Y são independentes;
(B) X e Y são negativamente correlacionadas;
(C) E(X/Y=2) = 0,3;
(D) X e Y são positivamente correlacionadas;
(E) E(Y/X=1) = 3,5.
86. Seja X uma variável aleatória que representa a distância entre o ponto de um alvo circular atingido pelo
lançamento de um dardo e o centro desse mesmo alvo.
138
Supondo que todos os pontos do círculo têm igual probabilidade de ser acertado e que o raio do alvo é igual
a 4, sobre X é correto afirmar que:
(A)
(B) a mediana da variável X é dada por Me(X) = 3;
(C)
(D) a esperança matemática de X é dada por E(X) = 2;
(E)
87. Uma variável aleatória X tem a seguinte função de densidade:
A estimativa encontrada para K, com base na amostra, foi de

(A) 1,60.
(B) 2,50.
(C) 2,00.
(D) 2,25.
(E) 3,20.
88. Acerca da soma de variáveis aleatórias, avalie se as afirmativas a seguir, estão corretas.
Está correto o que se afirma em

(A) I, apenas.
(B) I e II, apenas.
(C) I e III, apenas.
(D) II e III, apenas.
(E.) , II e III.
89. Considere que uma amostra aleatória simples de tamanho 100 de uma distribuição Poisson com parâmetro
será observada. Com base no teorema do limite central, a probabilidade de que a média amostral seja maior
do que 4,5 é, aproximadamente, igual a
(A) 0%.
(B) 0,62%.
(C) 1,24%.
(D) 2,5%.
(E) 4,22%.
139
90. A variável aleatória contínua X tem distribuição uniforme no intervalo [k, b − k]. Sabe-se que a média de X
é 10 e que P(X > 16) = 0,125. Nessas condições, a variância de X é igual a
(A) 64/3
(B) 32/3
(C) 128/5
(D) 65/12
(E) 85/12
Gabarito
01 - B 02 - C 03 - D 04 - C 05 - E 06 - E 07 - D 08 - A 09 - A 10 - C
11 - D 12 - C 13 - B 14 - B 15 - C 16 - C 17 - C 18 - C 19 - A 20 - A
21 - B 22 - E 23 - C 24 - D 25 - D 26 - A 27 - E 28 - E 29 - A 30 - A
31 - C 32 - A 33 - E 34 - C 35 - C 36 - C 37 - A 38 - D 39 - E 40 - C
41 - D 42 - A 43 - B 44 - E 45 - A 46 - A 47 - E 48 - C 49 - D 50 - E
51 - E 52 - D 53 - B 54 - E 55 - E 56 - D 57 - C 58 - B 59 - E 60 - A
61 - E 62 - D 63 - E 64 - C 65 - D 66 - B 67 - B 68 - D 69 - B 70 - D
71 - E 72 - B 73 - E 74 - B 75 - C 76 - D 77 - E 78 - C 79 - D 80 - A
81 - C 82 - E 83 - D 84 - A 85 - A 86 - E 87 - B 88 - E 89 - B 90 - A
Coletânea de Exercícios II
Gabarito: no final da Coletânea de exercícios
MARQUE Certo (C) ou Errado (E)
01) Acerca dos conceitos de estatística e dos parâmetros estatísticos, julgue o item seguinte.
A estatística descritiva permite testar hipóteses a respeito da população de interesse.
02) Julgue o item que se segue, referente às técnicas de amostragem e de inferência estatística.
Considere um estudo de eventos raros, em que a proporção populacional a ser estimada seja inferior a 5%.
Nessa situação, deve-se usar a distribuição geométrica em vez da distribuição binomial.
03) Uma pesquisa a respeito das quantidades de teatros em cada uma de 11 cidades brasileiras selecionadas
apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.
Com referência a esses dados, julgue o item seguinte.
O valor do primeiro quartil do conjunto de dados (Q1/4) é igual a 3.
04) Uma pesquisa a respeito das quantidades de teatros em cada uma de 11 cidades brasileiras selecionadas
apresentou o seguinte resultado: {1, 2, 2, 3, 3, 3, 4, 4, 4, 4, 4}.
Com referência a esses dados, julgue o item seguinte.
O valor do terceiro quartil do conjunto de dados (Q3/4) é igual a 4.
05) Cinco municípios de um estado brasileiro possuem as seguintes quantidades de patrimônios históricos: {2,
3, 5, 3, 2}. Admitindo que a média e o desvio-padrão desse conjunto de valores sejam iguais a 3 e 1,2,
respectivamente, julgue o item seguinte.
Para esse conjunto de valores, a variância é igual a 3.
06) O valor diário (em R$ mil) apreendido de contrabando em determinada região do país é uma variável
aleatória W que segue distribuição normal com média igual a R$ 10 mil e desvio padrão igual a R$ 4 mil.
Nessa situação hipotética, a razão w-20/ √4 segue distribuição normal padrão.
Nessa situação hipotética, P(W > R$ 10 mil) = 0,5.
Nessa situação hipotética, se W1 e W2 forem duas cópias independentes e identicamente distribuídas como
140
W, então a soma W1 + W2 seguirá distribuição normal com média igual a R$ 20 mil e desvio padrão igual a
R$ 8 mil.
09) Determinado órgão governamental estimou que a probabilidade p de um ex-condenado voltar a ser
condenado por algum crime no prazo de 5 anos, contados a partir da data da libertação, seja igual a 0,25. Essa
estimativa foi obtida com base em um levantamento por amostragem aleatória simples de 1.875 processos
judiciais, aplicando-se o método da máxima verossimilhança a partir da distribuição de Bernoulli.
Sabendo que P(Z < 2) = 0,975, em que Z representa a distribuição normal padrão, julgue o item que segue,
em relação a essa situação hipotética.
Se X seguir uma distribuição binomial com parâmetros n = 1.000 e probabilidade de sucesso p, a estimativa
de máxima verossimilhança da média de X será superior a 300.
A estimativa intervalar 0,25 ± 0,05 representa o intervalo de 95% de confiança do parâmetro populacional p.
11) No que concerne aos planos amostrais, julgue o ite a seguir.

Tanto na amostragem estratificada quanto na amostragem por conglomerados, a população é dividida em
grupos. Na amostragem por conglomerados, de cada grupo seleciona-se um conjunto de elementos; na
amostragem estratificada, devem-se selecionar quais estratos serão amostrados e, desses, observar todos os
elementos.
O erro padrão da estimativa da probabilidade p foi igual a 0,01.
Em um grupo formado aleatoriamente por 4 ex-condenados libertos no mesmo dia, estima-se que a
probabilidade de que apenas um deles volte a ser condenado por algum crime no prazo de 5 anos, contados
a partir do dia em que eles foram libertados, seja superior a 0,4.
14) Com relação a inferência estatística, julgue o item seguinte.

Considerando-se que, para comparar a proporção de sucessos em uma variável aleatória de Bernoulli com
determinada constante, tenha sido empregado um teste de hipóteses em uma amostra de tamanho 25, é
correto afirmar que o limite superior da variância da estatística do teste é 0,01.
15) Com relação a estatística, julgue o item seguinte.

Suponha que as larguras dos polegares humanos sigam uma distribuição normal com média igual a 2 cm e
variância V > 0. Nesse caso, se a probabilidade de se observar um polegar com mais de 2,54 cm de largura
for igual a 0,025, então V será inferior a 0,35.
16) Os dados abaixo correspondem às quantidades diárias de merendas escolares demandadas em 10

diferentes escolas: 200, 250, 300, 250, 250, 200, 150, 200, 150, 200.
Com base nessas informações, julgue o próximo item.
O desvio padrão amostral dos números diários de merendas escolares é superior a 50.
141
17) Os tempos de duração de exames de cateterismo cardíaco (Y, em minutos) efetuados por determinada
equipe médica seguem uma distribuição normal com média µ e desvio padrão σ, ambos desconhecidos. Em
uma amostra aleatória simples de 16 tempos de duração desse tipo de exame, observou-se tempo médio
amostral igual a 58 minutos, e desvio padrão amostral igual a 4 minutos.
A partir da situação hipotética apresentada e considerando Φ(2) = 0,977, em que Φ(z) representa a função de
distribuição acumulada de uma distribuição normal padrão e z é um desvio padronizado, julgue o item que se
segue, com relação ao teste de hipóteses H0 = µ ≥ 60 minutos, contra HA = µ < 60 minutos, em que H0 e HA
denotam, respectivamente, as hipóteses nula e alternativa.
Se o teste for efetuado com nível de significância igual a 1%, o poder do teste será igual a 99% para qualquer
valor hipotético µ.
18) Com o propósito de estimar o valor do número , um estudante efetuará o seguinte experimento
computacional:
Em relação ao experimento descrito, julgue o iteM subsequente.

O experimento descrito para estimação do número é exemplo de aplicação do método de Monte Carlo.
19) Com relação a inferência estatística, julgue o item a seguir.
20) Com relação a inferência estatística, julgue o item seguinte.
142
24) Considere que a população de determinado país, no instante inicial t 0 = 0, seja igual a P0 > 0, que essa
população cresça à taxa anual de 2% e que as taxas de imigração e de emigração sejam desprezíveis. Com
base nessas informações, julgue o item seguinte.
É possível inferir que a taxa de fecundidade nesse país é estritamente inferior a 2.
25) Considere que a população de determinado país, no instante inicial t0 = 0, seja igual a P0 > 0, que essa
população cresça à taxa anual de 2% e que as taxas de imigração e de emigração sejam desprezíveis. Com
base nessas informações, julgue o item seguinte.
Passados t anos após t0, o número de habitantes desse país será igual a P(t) = (1,02)t P0.
26)
143
27) Julgue o item subsequente, relativo à família exponencial de distribuições.
A distribuição binomial cuja função de probabilidade é expressa pela função família exponencial.
28)
A tabela acima mostra o percentual de peças defeituosas encontradas em 10 amostras aleatórias simples
independentes, cada uma de tamanho igual a 100. Com base nessas informações, julgue o item a seguir,
relativo ao controle de qualidade para atributos.
Durante o monitoramento das 10 amostras, o processo esteve sempre sob controle.
29)
A tabela acima mostra o percentual de peças defeituosas encontradas em 10 amostras aleatórias simples
independentes, cada uma de tamanho igual a 100. Com base nessas informações, julgue o item a seguir,
relativo ao controle de qualidade para atributos.
Os limites de controle do gráfico, referente a tabela acima, são iguais a 4% e 16%, respectivamente.
30) Acerca de inferência estatística, julgue o item a seguir.
31) Acerca de inferência estatística, julgue o item seguinte.

Com relação a uma amostra aleatória simples X1, X2, ..., Xn, retirada de uma distribuição exponencial com
média λ1, a estatística T(x) = 3xi será suficiente para a estimação de λ1.
32)
144
Se Q(X; θ) for uma quantidade pivotal para θ, então o intervalo de confiança para θ poderá ser definido por
P(!φ ≤ Q(X; θ) ≤ φ) = 1 − " somente se a distribuição de X for simétrica em torno de zero.

Se Q(X; θ) for uma quantidade pivotal para θ, então E(Q(X; θ)) = θ.

O intervalo de confiança para a proporção p, com base em uma amostra aleatória simples retirada da
distribuição de Bernoulli, pode ser construído usando-se a aproximação da binomial pela normal. Como a média
e a variância dependem desse parâmetro desconhecido p, esse intervalo poderá ser construído pelo método
conservativo (usando-se o máximo valor permitido para a variância populacional) ou pelo não conservativo
(usando-se a estimativa de máxima verossimilhança para a variância populacional). No caso conservativo, a
amplitude do intervalo de confiança será menor que a amplitude do intervalo não conservativo somente se o
verdadeiro valor do parâmetro for inferior a ou 1/4 superior a 3/4.

Para comparar duas médias amostrais que sigam distribuição normal, se as variâncias populacionais forem
desconhecidas, é usual a aplicação do chamado teste t-Student. A distribuição amostral desse teste é
parametrizada pelo número de graus de liberdade da estatística do teste. Esse número depende do fato de as
variâncias populacionais entre as duas populações comparadas serem iguais ou diferentes.

Considere uma amostra aleatória simples com reposição, em que o erro máximo de estimação da média
populacional μ seja de 10 unidades, a variância populacional da variável de interesse seja 150, e o percentil z
= 2 da distribuição normal padrão relacione-se ao nível de confiança de 95% para μ. Nesse caso, para que o
erro máximo seja de 10 unidades com 95% de confiança, o tamanho mínimo da amostra deverá ser superior
a 10 observações.
38)
39) A tabela a seguir mostra as quantidades de bibliotecas públicas presentes em 20 microrregiões brasileiras.
145
A partir desses dados, pretende-se construir um gráfico de distribuição de frequências com quatro classes de
igual amplitude. Os valores mínimo e máximo de cada classe devem ser números inteiros.
Considerando essas informações, julgue o item subsequente, relativo ao gráfico de distribuição a ser
apresentado.
A amplitude de cada classe deverá ser superior a 6.
40)
Ministério da Justiça — Departamento Penitenciário Nacional

— Sistema Integrado de Informações Penitenciárias –
A tabela mostrada apresenta a quantidade de detentos no sistema penitenciário brasileiro por região em 2013.
Nesse ano, o déficit relativo de vagas — que se define pela razão entre o déficit de vagas no sistema
penitenciário e a quantidade de detentos no sistema penitenciário — registrado em todo o Brasil foi superior a
38,7%, e, na média nacional, havia 277,5 detentos por 100 mil habitantes.
Com base nessas informações e na tabela apresentada, julgue o item a seguir.
Em 2013, mais de 55% da população carcerária no Brasil se encontrava na região Sudeste.
Gabarito
01 - E 02 - E 03 - E 04 - C 05 - E 06 - E 07 - C 08 - E 09 - E 10 - E
11 - E 12 - C 13 - C 14 - C 15 - C 16 - E 17 - E 18 - C 19 - C 20 - C
21 - C 22 - C 23 - E 24 - E 25 - C 26 - C 27 - C 28 - C 29 - E 30 - E
31 - C 32 - E 33 - C 34 - E 35 - E 36 - C 37 - E 38 - E 39 - C 40 - C
FIM
146

Estatistica OK

Enviado por

Direitos autorais:

Formatos disponíveis

Estatistica OK

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatistica OK

Enviado por

Direitos autorais:

Formatos disponíveis

Polícia Civil do Estado da Paraíba

Concurso Público 2021

Fases do método estatístico

- Análise dos resultados: realizadas anteriores

- Variáveis: conjunto de resultados possíveis de um fenômeno.

- Amostra: é um subconjunto finito de uma população.

Censo: é uma avaliação direta de um parâmetro, utilizando-se todos os componentes da população.

Rol: é uma sequência ordenada dos dados brutos.

Média Aritmética Simples

2) Os gastos (em reais) de 15 turistas em Porto Seguro estão indicados a seguir:

Média Aritmética Ponderada

Cálculo da média aritmética ponderada

Observe que se P1 = P2 = P3 = ... = Pn = 1, então 𝑥 = : que é a média aritmética simples.

A média aritmética ponderada é 18.

Então an e hn convergem para a média geométrica de x e y.

Utilidades da Média Geométrica

Tomemos como exemplo três termos consecutivos de uma PG.: 7, 21 e 63.

Variações Percentuais em Sequência

Como sabemos, um fator de 1, 128741 corresponde a 12, 8741% de aumento.

Cálculo da Média Geométrica Triangular

Na figura abaixo os segmentos AB e DA são tangentes à circunferência determinada pelos pontos B, C e D.

A) a média aritmética entre AB e CD.

Aplicamos agora no triângulo ECB:

Agora diminuímos a equação (1) da equação (2):

Vamos então substituir na expressão acima AD = AB:

Ou seja, BC é a média geométrica entre AB e CD.

Separatrizes (Mediana, Quartis, Decis e Centis ou Percentis)

Ache o valor da mediana e da moda.

No nosso caso temos que é ímpar:

1) Quando se deseja obter uma medida rápida e aproximada de posição;

Posição relativa da média, mediana e moda

Distribuição de frequência sem intervalo de classe

1,0 3,0 4,0 6,0 8,0

Podemos ainda através desta tabulação encontrar a

Distribuição de frequência para dados agrupados

ESTATURA DOS 40 ALUNOS DA ESCOLA C

Quantidade de classes x quantidade de dados

Para nosso exemplo temos:

Pra não esquecer!

Observação: A amplitude total da distribuição (AT)

Aplicando a fórmula teremos:

Com as informações, traçamos os ângulos da circunferência e assim montamos o gráfico:

Evolução da frota nacional de carros à álcool de 1979 à 1987

Devastação Selvagem: extração de madeiras no Brasil

Altura em centímetros de 160 alunos do Curso de Administração da UFSM

Interpretação de tabelas e gráficos

Mais alguns exemplos:

1) Todos os objetos estão cheios de água.

Qual deles pode conter exatamente 1 litro de água?

2) No gráfico abaixo, encontra-se representada, em bilhões de reais, a arrecadação de impostos federais no

(A) nunca ultrapassou os 400 bilhões de reais.

Analisando cada alternativa temos que a única resposta correta é a D.

Medidas de Posição – Centralidade

Aplicando a fórmula temos:

Vantagens e desvantagens da média

- Para dados agrupados

Aplicando a fórmula ao exemplo anterior temos:

Vantagens e Desvantagens da Moda

Observando os exemplos dados:

, a mediana será dada por: