Apostila+1+ok
Apostila+1+ok
Apostila+1+ok
ESTATÍSTICA I
Frederico Westphalen, RS
2017
Inferência Estatística
É o conjunto de métodos para a tomada de decisões, nas situações em que existem incerteza e
variação. Deve-se notar que se tivermos acesso a todos os elementos que desejamos estudar, não é necessário
o uso das técnicas de inferência estatística; entretanto, elas são indispensáveis quando existe a
impossibilidade de acesso a todo o conjunto de dados, por razões de natureza econômica, ética ou física.
Exemplo 1 - Suponha que a distribuição das alturas de todos os habitantes de um país possa ser representada
por uma distribuição normal. Mas não conhecemos de antemão a média da distribuição. Devemos, pois,
estimá-la.
Exemplo 2 - Análise financeira. Os analistas financeiros estudam dados sobre a situação da economia,
visando explicar tendências dos níveis de produção e de consumo, projetando-os para o futuro.
Exemplo 3 - Ocorrência de terremotos. Os geólogos estão continuamente coletando dados sobre a ocorrência
de terremotos. Gostariam de inferir quando e onde ocorrerão tremores, e qual a sua intensidade. Trata-se,
sem dúvida, de uma questão complexa, que exige longa experiência geológica, além de cuidadosa aplicação
de métodos estatísticos.
Sabendo que o tamanho da amostra é , como alocar, ou, determinar o número de indivíduos a serem
selecionados em cada um dos estratos?
Alocação por igual: se se desconfia de que os estratos são todos de tamanhos parecidos, ou
seja, . Então pode-se fazer:
Exemplo: Se o tamanho de uma amostra for n = 56 e, o número de estratos é k = 4, então,
=
Portanto, = 8, = 16 e = 24 é a alocação proporcional ao tamanho dos estratos. Esse resultado
significa que se deve selecionar 8 indivíduos do primeiro estrato, 16 do segundo estrato e 24 do terceiro.
Exemplo: se a população tem tamanho N = 84 e deve-se selecionar uma amostra de tamanho n = 6, então,
tendo-se em mão uma relação com os 84 indivíduos da população:
Resolução: I) divide-se população em 6 seções de tamanho ;
EXEMPLOS: a) N = 68 e n = 7 => ≈ 10
b) N = 80 e n = 7 => ≈ 11
Outras formas de amostragem: Em engenharia é muito comum extrair amostras através da amostragem
acidental ou a esmo. Por exemplo:
a)para avaliar a qualidade em lotes de 1 Kg de pregos, podemos examinar n pregos de cada lote,
extraídos a esmo;
b)para avaliar a qualidade em um carregamento de laranjas, podemos examinar n caixas do
carregamento, extraídas a esmo. Se a unidade observacional é a laranja, em cada caixa podemos extrair, a
esmo, m laranjas.
Em muitas situações, lidamos com populações infinitas. Nesse caso, procuramos realizar as n
observações de forma independente e sob as mesmas condições. Exemplo: para avaliar a qualidade de itens
que saem de uma linha de produção, observa-se um item a cada 15 minutos.
Quando examinamos características de um material contínuo, procuramos sortear - ou escolher a
esmo - as posições em que serão coletadas as amostras. É o caso de se examinar um carregamento de argila
que chega em uma fábrica de cerâmicas.
1.4.6 Parâmetro: valor numérico (usualmente desconhecido) que caracteriza uma população (por exemplo, a
média populacional e o desvio-padrão populacional são parâmetros).
1.4.7 Estimativa: valor calculado a partir dos dados obtidos pela amostra para se estimar o valor
desconhecido do parâmetro. Exemplo: média amostral, proporção amostral, variância amostral, etc...
1.4.8 O Erro Amostral O erro amostral é definido como sendo a diferença entre a estimativa obtida para um
parâmetro e o seu verdadeiro valor. É decorrente da variabilidade natural das unidades amostrais (é
aleatório).
EXERCÍCIOS
1)Identifique cada uma das afirmações abaixo como característica de Estatística Descritiva (I) ou Estatística
Inferencial (II):
( ) Ramo que trata da organização, do resumo e da apresentação de dados.
( ) Ramo que trata de tirar conclusões sobre uma população a partir de uma amostra.
( ) É a parte da estatística que, baseando-se em resultados obtidos da análise de uma amostra da
população, procura inferir, induzir ou estimar as leis de comportamento da população da qual a amostra foi
retirada.
( ) Trata da coleta, organização e descrição dos dados
( ) Trata da análise e interpretação dos dados
2)”Hipertensão é doença crônica mais apontada por médicos, segundo estudo: Percentual de mulheres com
doenças crônicas é superior ao de homens. A doença crônica mais apontada por médicos ou profissionais de
saúde, em 2008, foi a hipertensão. O dado faz parte do suplemento de Saúde da Pesquisa Nacional por
Amostra de Domicílios (Pnad) 2008, divulgado nesta quarta-feira (31) pelo Instituto Brasileiro de Geografia
e Estatística (IBGE)". A variável em questão (pressão arterial) é uma variável:
( ) Quantitativa discreta ( ) Qualitativa ( ) Quantitativa contínua
( ) Qualitativa discreta ( ) Qualitativa continua
3)Ao nascerem os bebês são pesados e medidos, para saber se estão dentro das tabelas de peso e altura
esperados. Estas duas variáveis são:
( ) ambas discretas. ( ) contínua e discreta, respectivamente
( ) discreta e contínua, respectivamente. ( ) qualitativas.
( ) ambas contínuas.
4)A utilização dos dados estatísticos tem sua origem na antiga Babilônia, no Egito e no Império Romano,
com dados relativos a assuntos de Estado, tais como nascimentos e mortes. Na Idade Antiga, vários povos já
registravam o número de habitantes, de nascimentos, de óbitos, faziam estimativas das riquezas individual e
social, distribuíam equitativamente terras ao povo, cobravam impostos. Com relação a conceitos básicos de
Estatística podemos afirmar que:
(I) Amostra é o conjunto de todos os resultados, respostas, medidas ou contagens que são de interesse.
(II) População é o conjunto da totalidade dos indivíduos sobre o qual se faz uma inferência.
(III) Amostragem é o processo de escolha da população, o conjunto de técnicas utilizadas para a seleção de
uma população.
( ) Somente a afirmativa (I) é verdadeira.
( ) Somente a afirmativa (II) é verdadeira.
Professora Eliane Maria Cocco
( ) Todas as afirmativas são verdadeiras.
( ) Somente as afirmativas (II) e (III) são verdadeiras.
( ) Somente a afirmativa (III) é verdadeira.
6)Economia de combustível. Fornecemos a seguir parte de um conjunto de dados que descreve a economia
de combustível (em milhas por galões) para modelos de automóveis de 2002:
M M
Tipo de Número de
Marca e modelo Tipo de veículo MPG na MPG na
transmissão cilindros
cidade estrada
2
Acura NRX Dois assentos Automático 6 17
24
3
Audi A4 Compacto Manual 4 22
31
2
Buick Century Tamanho médio Automático 6 20
29
Caminhonete picape 2
Dodge Ram 1500 Automático 8 15
padrão 20
7)Um estudo médico. Dados de um estudo médico contêm valores de muitas variáveis para cada uma das
pessoas objeto do estudo. Quais das seguintes variáveis são qualitativas e quais são quantitativas?
a) Gênero (feminino ou masculino)
b) Idade (anos)
c) Raça (asiática, negra, branca ou outra)
d) Fumante (sim ou não)
e) Pressão arterial sistólica (milímetros de mercúrio)
f) Nível de cálcio no sangue ( microgramas por mililitro)
g) Cor dos olhos dos alunos
h) Número de defeitos de aparelho de TV
i) Comprimento dos pregos produzidos por uma empresa.
j) O ponto obtido em cada jogada do dado.
8) Uma operadora telefônica pretende saber a opinião de seus assinantes comerciais sobre seus serviços na
cidade de Vargem Alegre. Supondo que há 25037 assinantes comerciais, e a amostra precisa ter no mínimo
800 elementos. Mostre como seria organizada uma amostragem sistemática para selecionar os respondentes
c) Um administrador de uma sala de cinema faz uma pesquisa com as pessoas que estão na fila de espera
para comprar ingresso, entrevistando uma pessoa a cada 10 presentes na fila.
10) Avalie, para os casos a seguir, qual é a população e, nesta população, qual a amostra selecionada:
a) Para avaliar a eficácia de uma campanha de vacinação em crianças com idade entre 1 e 2 anos, 192 mães
com filhos nesta idade foram pesquisadas sobre a última vez que vacinaram seus filhos.
b) Para verificar a audiência de um programa do canal 32, alguns telespectadores foram entrevistados com
relação ao canal em que estavam sintonizados no horário do programa.
c) A fim de avaliar a intenção de voto para a eleição presidencial de 2010 no Brasil, 4.205 eleitores foram
entrevistados em todas as unidades da federação.
11)A gigante dos computadores IBM tem 329.373 empregados e 637.133 acionistas. Um vice-presidente
planeja realizar uma sondagem para estudar os números de ações possuídas por acionistas individuais.
a)Os números de ações de acionistas individuais são dados discretos ou contínuos?
b)Se a sondagem é realizada telefonando-se para 20 acionistas selecionados aleatoriamente em cada um dos
50 estados, que tipo de amostragem está sendo usada?
c)caso se obtenha uma amostra de 1000 acionistas, e se calcula o número médio de ações para essa amostra,
o resultado é uma estatística ou um parâmetro?
12)Verdadeiro ou falso:
a) A coleção de todos os carros registrados nos Estados Unidos é um exemplo de população.
c)A seleção de cada 5º nome em uma lista resulta em uma aleatória simples.
d)A idade média de pessoas que respondem a uma sondagem particular é um exemplo de parâmetro.
16) Em uma escola existem 250 alunos, sendo 35 no 1º ano, 32 no 2º, 30 no 3º, 28 no 4º, 35 no 5º, 32
No 6º , 31 no 7º e 27 no 8º ano. Obtenha uma amostra de 40 alunos e preencha o seguinte quadro.
Anos População Cálculo proporcional Amostra
1º 35 6
2º
3º
4º
5º
6º
7º
8º
TOTAL 250 - 40
17) Uma cidade x apresenta o seguinte quadro relativo às suas escolas de Ensino Fundamental:
NÚMERO DE ESTUDANTES
ESCOLAS
Masculino Feminino
A 80 90
B 100 120
C 110 92
D 125 228
E 150 130
F 305 290
Uma vez coletados os dados, é conveniente reunir os valores em tabelas e/ou em gráficos para facilitar a
compreensão do estudo.
Na descrição das variáveis envolvidas na pesquisa, devemos incluir a escala (ou unidade) em que são
mensuradas as variáveis quantitativas, e as categorias (possíveis respostas) das variáveis qualitativas. Sempre
que uma característica puder ser adequadamente medida sob forma quantitativa, é melhor usarmos esse tipo
de mensuração, porque as medidas quantitativas são, em geral, mais informativas do que as qualitativas. Por
exemplo, dizer que o empeno é 8,2 mm é mais informativo do que dizer que o empeno é grande.
A apresentação de dados estatísticos na forma tabular consiste na reunião ou grupamento dos dados
em tabelas ou quadros com a finalidade de apresentá-los de modo ordenado, simples e de fácil percepção e
com economia de espaço.
Componentes Básicos
Título: Conjunto de informações, as mais completas possíveis, localizado no topo da tabela, respondendo às
perguntas: O quê? Onde? Quando?
Cabeçalho: Parte superior da tabela que especifica o conteúdo das colunas.
Em forma de rol - 56 57 58 60 62 64 69 74 74 74 76 80 81 95
A frequência relativa (fri) é a percentagem relativa à frequência. Para obter a frequência relativa de
categoria, divide-se a frequência dessa categoria pela soma das frequências. O resultado, multiplicado por
100, é uma porcentagem. O total da coluna é escrito entre dois traços horizontais.
Tabela 2.3 - Número de filhos de uma multinacional
Número de filhos (X)
0 2 6,7
1 4 13,3
2 10 33,3
3 6 20,0
4 5 16,7
5 3 10,0
Total 30 100
Fonte: Dados fictícios
A frequência acumulada de um valor, é o numero de vezes que uma variável assume um valor inferior
ou igual a esse valor. Neste caso, deve-se somar em uma coluna á parte a frequência de cada classe com a
das anteriores.
Tabela 2.4 - Número de filhos de uma multinacional
Número de filhos (X)
0 2 6,7 2
1 4 13,3 6
2 10 33,3 16
3 6 20 22
4 5 16,7 27
5 3 10 30
Total 30 100 -
Fonte: Dados fictícios
Professora Eliane Maria Cocco
A frequência relativa acumulada é a percentagem relativa à frequência acumulada. Da mesma
forma, podem ser acumuladas as frequências relativas, com a finalidade de se determinar o percentual de
dados existentes até certa classe. No caso da última classe, assume, obviamente, o valor 1 ou 100%.
Tabela 2.5 - Número de filhos de uma multinacional
Número de filhos (X)
0 2 6,7 2 6,7
1 4 13,3 6 20
2 10 33,3 16 53,3
3 6 20 22 73,3
4 5 16,7 27 90
5 3 10 30 100
Total 30 100 - -
Fonte: Dados fictícios
162 161 168 163 156 173 160 155 164 168
155 152 163 160 155 155 169 151 170 164
154 161 156 172 153 157 156 158 158 161
Para facilitar ao analista o seu estudo é conveniente que ele agrupe os valores da variável em
intervalos que em Estatística, chamamos de intervalos de classes. Nessa tabela é conveniente, mas não
obrigatório, estabelecer intervalos iguais para todas as classes.
Tabela 2.6 - Alturas de 40 alunos de uma classe A
Classes fi
150Ⱶ154 4
154Ⱶ158 9
158Ⱶ162 11
162Ⱶ166 8
166Ⱶ170 5
170 Ⱶ174 3
Total 40
primeira classe ( ).
No exemplo
No exemplo
e) A 1º coluna será a das classes. O menor número dos dados em rol será o limite inferior da primeira classe,
a partir do qual todas as outras classes serão definidas a partir deste número, somando ele ao intervalo entre
classes.
APLICANDO OS CONHECIMENTOS
Exemplo 1 : Os dados a seguir são medidas de força em libras por polegada quadrada de 100 garrafas de
vidro de 1 litro de refrigerante, descartáveis. Essas medidas foram obtidas testando-se cada garrafa até
ocorrer sua quebra. Os dados foram registrados na ordem em que as garrafas foram testadas.
Força de Ruptura em Libras por Polegada Quadrada para 100 Garrafas Descartáveis de 1 Litro de
Refrigerante
265 197 346 280 265 200 221 265 261 278
205 286 317 242 254 235 176 262 248 250
263 274 242 260 281 246 248 271 260 265
307 243 258 321 294 328 263 245 274 270
220 231 276 228 223 296 231 301 337 298
268 267 300 250 260 276 334 280 250 257
260 281 208 299 308 264 280 274 278 210
234 265 187 258 235 269 265 253 254 280
299 214 264 267 283 235 272 287 274 269
215 318 271 293 277 290 283 258 275 251
SOLUÇÃO
1ºPASSO - ordenar no rol
2º PASSO - calcular a amplitude da amostra (AA) = X máx - x mín = 346-176= 170
3º PASSO - Calcular o número de classes k= 1 + (3,33333.....) • log(n)=7,667
4ºPASSO - Calcular o intervalo entre classes h = AA / k = 170/8=21,25
Total
1) ROLhttps://www.youtube.com/watch?v=TKkPrr0a6PE
AJUDA 2) TABELA DE FREQUÊNCIA ABSOLUTA E RELATIVA
https://www.youtube.com/watch?v=BFjROd7DgoQ
COM
3) TABELA DE FREQUÊNCIA ABSOLUTA, RELATIVA, ACUMULADA E
EXCEL? RELATIVA ACUMULUDA https://www.youtube.com/watch?v=Q1aP-NOV53k
(https://www.youtube.com/watch?v=aCug3Jzx3Fw )
(https://www.youtube.com/watch?v=-w0ww9nJouE )
(https://www.youtube.com/watch?v=t2N0lhZj5nA )
EXERCÍCIOS
1) Considere a série Estatística:
SÉRIES ALUNOS %
1ª 546
2ª 328
3ª 280
4ª 120
Total 1.274
Complete-a, determinando as porcentagens com uma casa decimal, arredondando se necessário.
1 2 2
2 3 5
3 4
5)Uma instituição financeira tem três operadores trabalhando diariamente com opções de ações negociadas na
Bolsa de Valores. A tabela seguinte registra uma amostragem aleatória de tamanho vinte e seis do número diário
de operações fechadas pelo Operador B nos últimos dois anos Construir uma tabela sem classes, com as
frequências simples, acumuladas, relativas. Faça uma análise dos dados obtidos.
14 12 13 11 12 13 16 14 14 15 17 14 11
13 14 15 13 12 14 13 14 13 15 16 12 12
6)O quadro seguinte representa as massas de um conjunto de estudantes. Construa uma organizando os dados
em 6 intervalos de classes, calcule a média de cada classe, calcule a frequência, frequência relativa, frequência
acumulada, frequência relativa acumulada e construa o histograma.
41 41 42 44 46 50 51 54 58 60
41 42 43 45 46 50 52 57 58 60
41 42 43 45 46 50 52 57 58 60
41 42 44 46 50 51 54 58 60 62
8) Construa de uma tabela de Distribuição de Frequências com CLASSES para os dados referentes ao Peso
(kg) de 14 blocos de concreto .
56 57 58 60 62 64 69 74 74 74 76 80 81 95
11) Salário de atletas. Na tabela são apresentados um conjunto de dados descrevendo os jogadores da liga
principal de beisebol, no dia de abertura da temporada de 2002.
Jogadores Time Posição Idade Salário
O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de
produzir, no investigador ou no público em geral, uma impressão mais rápida e viva do fenômeno em estudo,
já que os gráficos falam mais rápido à compreensão que as séries.
A escolha apropriada do gráfico depende da natureza da variável. Os valores de uma variável
categórica são rótulos para as categorias, tais como “masculino” e “feminino”. A distribuição de uma
variável categórica lista as categorias e fornece ou a contagem ou a porcentagem dos indivíduos que caem
em cada categoria.
Todo o gráfico deve apresentar título (pode ser colocado tanto acima como abaixo) e escala (crescem
da esquerda para a direita e de baixo para cima). As legendas devem ser a direita ou abaixo do gráfico. A
seguir vemos os principais tipos de gráficos:
3.1Tipos de gráficos
A)Gráfico de setores: Também conhecido como Gráfico de Pizza, este gráfico é usado quando cada valor
representa uma parte de um todo. O gráfico de setores também é usado para apresentar variáveis qualitativas. É
particularmente útil quando o número de categorias não é grande e as categorias não obedecem a alguma ordem
específica. É, então, usado um círculo de raio qualquer, com a área ou ângulo total sendo proporcional ao total
(100%) da série de dados a representar e a área ou ângulo de cada setor circular sendo proporcional a cada dado da
série.
Tabela 2.9 - Distribuição de frequências do provedor usado pelo visitante do site
B)Gráfico em barras: As variações quantitativas da tabela são representadas por colunas dispostas
horizontalmente. É usado para representar qualquer tipo de série.
C)Gráfico em colunas: As variações quantitativas da tabela são representadas por colunas dispostas
verticalmente. É usado para representar qualquer tipo de série.
Gráfico3 - Distribuição de frequências do provedor usado pelo visitante do site
D)Gráfico em linha: é um dos mais importantes gráficos; representa observações feitas ao longo do tempo.
Tais conjuntos de dados constituem as chamadas séries históricas ou temporais. O gráfico de linhas permite
construir os polígonos de frequência, que em estatística servem para mostrar as frequências absolutas
(relativas) acumuladas. Entretanto, são de extrema utilidade também quando se quer mostrar a evolução
temporal de alguma variável, pois permitem visualizar claramente as diferenças entre um estágio e os
estágios subsequentes. Às vezes as linhas retas que unem as coordenadas dos pontos são substituídas por
curvas ou então por linhas retas ajustadas de acordo com algum critério de proximidade.
Gráfico 4 - Consumo de água de uma residência em um ano
Tabela 2.10 - Força de Ruptura em Libras por Polegada Quadrada para 100 Garrafas Descartáveis de 1 Litro
de Refrigerante
Intervalo de classe Frequência Frequência Frequência relativa
(psi) relativa acumulada
2 0,02 0,02
4 0,04 0,06
7 0,07 0,13
13 0,13 0,26
32 0,32 0,58
24 0,24 0,82
11 0,11 0,93
4 0,04 0,97
3 0,03 1,00
100 1,00
Para se desenhar um histograma usa-se um eixo horizontal para representar a escala de medida e
traçar as fronteiras dos intervalos de classe. O eixo vertical representa a escala da frequência (ou frequência
relativa). Esse tipo de gráfico é mais utilizado quando os intervalos de classes são de largura igual. Se os
intervalos de classe são de igual largura, então as alturas dos retângulos são proporcionais às frequências.
Gráfico 5 - Força de Ruptura em Libras por Polegada Quadrada para 100 Garrafas Descartáveis de 1 Litro
de Refrigerante
O histograma fornece uma impressão visual da forma da distribuição das medidas, bem como
informação sobre o centro e a dispersão dos dados. O histograma é uma representação gráfica muito útil e
pode dar ao tomador de decisão uma boa compreensão dos dados, e é muito útil na apresentação da forma,
localização e variabilidade dos dados. No entanto, o histograma não permite a identificação dos pontos
individuais de dados, porque todas as observações em uma cela são indistinguíveis.
Enquanto os diagramas de dispersão mostram a região do plano onde se localizam os pontos dos
dados, bem como a densidade de dados associada a essa região, eles sugerem, também, uma possível
associação entre variáveis. Finalmente, observamos que a utilidade desses gráficos não se limita a pequenos
conjuntos de dados.
Para aumentar a dimensão e apresentar graficamente o padrão de dados conjuntos para três variáveis,
um diagrama de dispersão tridimensional pode ser empregado.
Exemplo:
Evolução da frota nacional de carros à álcool de 1979 à 1987
K)Ogivas
A ogiva de frequência é um gráfico de linha que representa a distribuição das frequências
acumuladas. Sendo assim, os valores de interesse são os extremos das classes e suas respectivas frequências
acumuladas.
EXERCÍCIOS
1)Morte entre jovens. As principais causas de morte para jovens com idade entre 15 e 24 anos nos EUA, em
2000, foram: acidentes, 13.616; homicídios, 4.796; suicídios, 3.877; câncer, 1.668; doenças do coração, 931;
problemas congênitos, 425.
a)Construa um gráfico de colunas para apresentar os dados.
b)Que informação adicional você precisaria para construir um gráfico de setores?
c)Faça a adição dessa informação e construa um gráfico de pizza.
2) De 75.200 mortes por acidentes nos EUA, em um ano recente, 43.500 foram causadas por veículos
motorizados, 12.200 por quedas, 6.400 por envenenamento, 4.600 por afogamento, 4.200 por incêndios,
2.900 por ingestão de alimentos ou de um objeto, e 1.400 por armas de fogo (com base em dados do
Conselho de Segurança Nacional). Descrever estes dados através de um gráfico de setores.
3) A cor do seu carro. Apresentamos a seguir a classificação, segundo as cores mais populares, dos veículos
fabricados na América do Norte, para modelos do ano de 2001.
4)(UFLMG) Uma pesquisa eleitoral estudou a intenção de votos nos candidatos A, B e C, obtendo os
resultados apresentados no gráfico. Coloque V(verdadeiro) ou F(falso) nas afirmativas:
6) Os dados do gráfico foram coletados por meio da Pesquisa Nacional por Amostra de Domicílios.
Supondo-se que, no Sudeste, 14900 estudantes foram
entrevistados nessa pesquisa, quantos deles possuíam telefone
móvel celular?
a) 5513
b) 6556
c) 7450
d) 8344
e) 9536
ATIVIDADE NO EXCEL
Total
-comando para Fi
1ª célula = fi1
2ª célula = Fi1 + fi2
Arrastar do segundo em diante.
Professora Eliane Maria Cocco
-comandos para Fri
1ª célula = fri1
2ª célula = Fri1 + fri2
4º PASSO: DESAFIO - Elabore mais duas colunas (Fi ↑ e Fri↑) “de baixo para cima”
5º PASSO: faça uma análise (conclusão) dos dados obtidos (pode ser através de um pequeno texto ou em itens)
CONSTRUÇÃO DE GRÁFICOS
1)COM OS DADOS DO EXERCÍCIO 1 CONSTRUA:
gráfico de colunas
gráfico de linhas
gráfico de setores
gráfico de barras
Faça uma análise se eles são gráficos apropriados para a variável quantitativa idade.
30 40
- comando para
=(li + Li)/2 EX: =(D8+E8)/2
- comando para fi
1ª célula =CONT.SE(intervalo;"<"&critério) EX: =CONT.SE(A1:J5;"<"&F8)
2ª célula =CONT.SE(intervalo;"<"&critério da classe) - CONT.SE(intervalo;"<"&critério da classe anterior)
EX =CONT.SE($A$1:$J$5;"<"&F9)-CONT.SE($A$1:$J$5;"<"&F8)
Arrasta da 2ª célula para os demais
Ao final
-comando para Fi
1ª célula = fi1
2ª célula = Fi1 + fi2
Arrastar do segundo em diante.
Depois de preenchida a tabela, transformar em somente uma só célula os dados da idade, colocando entre os limites o
símbolo que indica que o limite inferior é incluído e o superior não. Assim 30 40
7º PASSO: faça uma análise (conclusão) dos dados obtidos (pode ser através de um pequeno texto ou em itens)
CONSTRUÇÃO DE GRÁFICOS
histograma
ogiva
distribuição de frequência
OBS: Antes de inserir os gráfico é importante, na coluna do fi, deixar uma célula em branco no começo e
uma no final.
O estudo que fizemos sobre distribuição de frequência, até agora, permite-nos descrever, de modo
geral, os grupos de valores que uma variável pode assumir. Dessa forma podemos localizar a maior
concentração de valores de uma distribuição, isto é, se ela se localiza mais no início, no meio ou no final, ou
ainda, se há uma distribuição por igual.
Porém para ressaltar as tendências características de cada distribuição, isoladamente, ou em
confronto com outras, necessitamos introduzir conceitos que expressam através de números, que nos
permitam traduzir essas tendências. Esses conceitos são denominados elementos típicos da distribuição e são
as:
A)Medidas de posição (média, mediana, moda);
B)Medidas de variabilidade ou dispersão (amplitude, desvio padrão, variância, coeficiente de
variação);
C)Medidas de assimetria;
D)Medidas de curtose.
a) Média para dados não agrupados: quando os dados não estiverem agrupados, realizamos uma média
aritmética simples
EXEMPLOS: 1) Considerando 8 pessoas e que elas possuam, respectivamente R$5,00; R$ 8,00; R$ 14,00;
R$9,00; R$ 12,00; R$ 7,00; R$11,00 e R$15,00. Qual o valor médio por pessoa?
b)Média para dados agrupados sem intervalos de classe (Média ponderada): Neste caso, as frequências
são números indicadores da intensidade de cada variável e elas funcionam como fatores de ponderação, o
EXEMPLOS: 1)Dado o número de peças com defeitos produzidas em 27 dias em certa fábrica, calcule o
número médio de peças com defeitos por dia.
X
0 2
1 4
2 10
3 6
4 5
TOTAL 27
2 4 6 8 3 1
c)Média para dados agrupados com intervalos de classe: Neste caso convencionamos que todos os
valores incluídos em um determinado intervalo de classe coincide com o seu ponto médio, e determinamos a
EXEMPLO: Considerando que a população de uma cidade no ano 1990 era de 2 mil habitantes, já no ano
2010 tinha 8 mil habitantes. Qual era a população no ano 2000?
f)Média Harmônica (
É usada para dados inversamente proporcionais. Ex.: Velocidade Média, Preço de Custo Médio
Para a sequência numérica , a média harmônica simples, que designaremos por ,
é definida por:
EXEMPLO: Um veículo realizou o trajeto de ida e volta entre as cidades A e B (240 km). Na ida ele
desenvolveu uma velocidade média de 80 km/h, na volta a velocidade média desenvolvida foi de 120 km/h.
Qual a velocidade média para realizar todo o percurso de ida e volta?
OBS: A mediana depende da posição e não dos valores dos elementos na série ordenada. Essa é
uma das diferenças marcantes entre a mediana e a média
A mediana é menos sensível a presença de valores suspeitos, muito diferentes.
b) Mediana para dados agrupados sem intervalos de classe:
Neste caso devemos identificar a frequência acumulada imediatamente superior à metade da soma
das frequências. A mediana será aquele valor da variável que corresponde a tal frequência acumulada.
*Se “n” for par: A mediana é a média aritmética dos dois elementos centrais
- = Termo mediano;
- = frequência absoluta acumulada "abaixo de" da classe anterior à classe que contém a mediana;
Em geral, dado um conjunto de valores, a média é a medida de posição central mais adequada,
quando se supõe que esses valores têm uma distribuição razoavelmente simétrica, enquanto a mediana surge
como uma alternativa para representar a posição central em distribuições muito assimétricas. Muitas vezes,
calculamos ambas as medidas para avaliar a posição central sob dois enfoques diferentes, além de obtermos
uma primeira avaliação sobre a assimetria da distribuição. Para variáveis com distribuições razoavelmente
Professora Eliane Maria Cocco
simétricas, a média é a medida de posição central mais adequada, porque usa o máximo da informação
contida nos dados. A média é calculada usando propriamente a magnitude dos valores, enquanto a mediana
utiliza somente a ordenação dos valores.
Análise: , o que indica uma assimetria à direita, isto é, uma maior concentração à
4.1.4 Separatrizes
Como vimos, a mediana caracteriza uma série de valores devido à sua posição central. No entanto,
ela apresenta uma outra característica, tão importante quanto a primeira: ela separa a série em dois grupos
que apresentam o mesmo número de valores.
As separatrizes não são medidas de tendência central, mas estão ligadas à mediana relativamente à
sua segunda característica, já que se baseiam em sua posição na série. As separatrizes são os quartis, os
percentis e os decis.
Mediana (Med) divide em duas partes iguais
Quartis ( ) dividem em quatro partes iguais
b) Os percentis
Denominamos percentis os noventa e nove valores que separam uma série em 100 partes iguais.
Indicamos por
É evidente que : , ,
Decil: Para saber a posição dos decis basta fazer: onde k é o número do decil
Percentis: Para saber a posição dos percentis basta fazer: onde k é o número do percentil
EXEMPLO: Considere o tempo (anos) de 24 máquinas utilizadas numa indústria. Calcule os Quartis,
17 18 19 20 21 22 23 24 25 26 27 29 32
33 35 38 39 42 44 46 48 50 54 57
Quartis: Para saber a posição dos quartis basta fazer: onde k é o número do quartil
Decil: Para saber a posição dos decis basta fazer: onde k é o número do decil
Percentis: Para saber a posição dos percentis basta fazer: onde k é o número do percentil
FÓRMULA UTILIZADA:
2) Uma indústria produz certo produto. Vendeu 3500 unidades desse produto por 30 reais cada um e 8500
unidades por 24 reais cada um. Qual foi o preço médio, por unidade, desse produto?
3) Em uma empresa com 20 funcionários, a distribuição dos salários está representada na tabela a seguir.
Número de funcionários Salário (R$)
11 1.300
6 1.500
3 2.500
12)Na tabela é dado o consumo de combustível (milhas por galão) em carros com dois assentos, modelo
2002.
Modelo Cidade Estrada Modelo Cidade Estrada
14)Descarte o 110 da lista do rendimento dos alunos e encontre a mediana dos 14 rendimentos restantes.
15) Os seguintes valores em quilômetros representam as distâncias percorridas por um motorista em 50 dias
de treinamento:
12,2; 22,3; 19,9; 8,0; 13,7; 11,7; 17,0; 10,8; 3,7; 9,6; 16,8; 8,6; 4,6; 11,7; 9,5;
25,6; 1,1; 2,0; 10,6; 17,8; 21,2; 8,0; 9,8; 14,0; 15,8; 23,3; 12,9; 13,1;
14,1; 18,5; 22,7; 9,9; 14,2; 22,7; 16,9; 27,3; 17,1; 26,5; 19,8; 22,5; 33,8;
29,8; 11,2; 7,8; 27,5; 30,2; 23,2; 10,4; 13,1; 31,3
a) Construa uma distribuição de frequências com limite inferior 0 e amplitude de classe 7.
b) Determine a média aritmética, a mediana, a moda de Pearson.
17) Complete a tabela e calcule a média e a mediana dos diâmetros de peças apresentadas:
CLASSES
1,810 Ⱶ 1,822 7
1,822 Ⱶ 1,834 14
1,834 Ⱶ 1,846 18
1,846Ⱶ 1,858 7
1,858 Ⱶ 1,870 4
Total
18) Calcule a moda de Pearson para a distribuição abaixo que representa a nota de 60 alunos em uma prova
de Matemática:
CLASSES Número de alunos
0Ⱶ2 5
2Ⱶ4 20
4Ⱶ6 12
6Ⱶ8 20
8 Ⱶ 10 3
Total
19)A tabela representa o número de faltas anuais dos funcionários de uma empresa.
Nº de faltas 0 1 2 3 4 5 6 7 8
Nº empregados 20 42 53 125 84 40 14 3 2
Determine:
a) D3 b) D7 c) P98 d) Q3 e) Q1 f) P10
20)A tabela a seguir contém rendimentos anuais dos funcionários administrativos de uma empresa (em
reais). Observe – a e encontre: a) Q1; b) D3; c)P35;
Observamos, então, que os três conjuntos apresentam a mesma média aritmética igual a 70.
Calculando a mediana para os três, dará também o mesmo resultado, ou seja, 70. Assim, pensaríamos que
essas três variáveis são iguais, no entanto, são sequências completamente distintas do ponto de vista da
variabilidade de dados.
Na sequência X, não há variabilidade dos dados. A média 70 representa bem qualquer valor da série.
Na sequência Y, a média 70 representa bem a série, mas existem elementos da série levemente
diferenciados da média 70.
Na sequência Z, existem muitos elementos bastante diferenciados da média 70.
Concluímos que a média 70 representa otimamente a sequência X, representa razoavelmente bem a
sequência Y, mas não representa bem a sequência Z.
Observe que na sequência X os dados estão totalmente concentrados sobre a média 70, não há
dispersão de dados. Na sequência Y, há forte concentração dos dados sobre a média 70, mas há fraca
dispersão de dados. Já na série Z há fraca concentração de dados em torno da média 70 e forte dispersão de
dados em relação à média 70.
Para qualificar os valores de uma dada variável, ressaltando maior ou menor dispersão ou
variabilidade entre esses valores e a sua medida de posição, a Estatística recorre às medidas de dispersão ou
de variabilidade.
Para isso, utilizamos o termo dispersão para indicar o grau de afastamento de um conjunto de
números em relação a sua média, pois ainda que consideremos a média como um número que tem a
faculdade de representar uma série de valores ela não pode por si mesma, destacar o grau de homogeneidade
ou heterogeneidade que existe entre os valores que compõem o conjunto. O nosso objetivo é construir
medidas que avaliem a representatividade da média, para isto usaremos as medidas de dispersão.
Dessas medidas, estudaremos a amplitude total, a variância, o desvio padrão e o coeficiente de
variação.
b) Amplitude total para dados agrupados sem intervalo de classes: AT = x(máximo) - x(mínimo)
EXEMPLO:
1 2 3 4 5 6
2 4 6 8 3 1
c) Amplitude total para dados agrupados com intervalo de classes: é a diferença entre o limite superior
da última classe e o limite inferior da primeira classe:
EXEMPLO:
AT = L(máximo) - l(mínimo)
CLASSES
1,5 Ⱶ 2,0 3
2,0 Ⱶ 2,5 16
2,5 Ⱶ 3,0 31
3,0 Ⱶ 3,5 34
3,5 Ⱶ 4,0 11
4,0 Ⱶ 4,5 4
4,5 Ⱶ 5,0 1
Total 100
A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série,
descuidando dos valores intermediários, o que quase sempre invalida a idoneidade do resultado. Ela é apenas
uma indicação aproximada da dispersão ou variabilidade.
A amplitude é usada quando se quer determinar a amplitude da temperatura em um dia ou ano e no
controle da qualidade.
O desvio padrão é a raiz quadrada positiva da variância. O desvio padrão é a melhor medida para se
analisar o comportamento dos elementos da população ou da amostra, pois está na mesma medida que os
próprios elementos .
Desvio padrão populacional
Desvio padrão da amostral
OBS: Quanto maior o valor do desvio padrão, mais dispersos estão os elementos em torno da
média.
a) Variância e desvio padrão para dados não-agrupados:
EXEMPLO: 1) Calcule a produção média de cada funcionário de uma empresa, a variância e o desvio
padrão. (considerando uma população)
Se população Se amostra
Se população Se amostra
OBS: Quando a distribuição não é perfeitamente simétrica, estes percentuais apresentam pequenas variações
para mais ou para menos, segundo as três propriedades definidas acima não ocorrem com exatidão.
EXEMPLO: Suponha uma série com média =100 e desvio padrão , podemos interpretar estes valores
da seguinte forma:
* Os valores da série estão concentrados em torno de 100.
*O intervalo [95, 105] contém aproximadamente 68% dos valores da série.
O intervalo [90, 110] contém aproximadamente 95% dos valores da série.
O intervalo [85, 115] contém aproximadamente 99% dos valores da série.
EXEMPLO 1: Os retornos mensais dos investimentos A e B durante os últimos seis meses estão
apresentadas na tabela seguinte. Qual dos dois investimentos apresentou maior dispersão?
A 5% 9% 15% 12% 9% 6%
B 6% 7% 9% 7% 6% 8%
EXEMPLO 2: Um estudo foi realizado por um professor em três turmas, obtendo a média e o desvio padrão
das notas de sua disciplina, conforme a tabela. Qual a turma com menor variabilidade?
TURMA A B C
Média 6,5 8,0 8,0
Desvio padrão 2,2 1,7 2,0
EXERCÍCIOS
1)Calcule a amplitude total dos conjuntos de dados:
a)1, 3, 5, 9 b)20, 14, 15, 19, 21, 22, 20
c)17,9; 22,5; 13,3; 16,8; 15,4; 14,2 d)-10, -6, 2, 3, 7, 9, 10
5)Os retornos anuais das ações X e Y durante os últimos cinco anos estão registrados na tabela seguinte.
Qual dos dois retornos tem maior dispersão?
X Y
12% 12%
15% 16%
12% 15%
11% 9%
14% 13%
6)A tabela seguinte registra uma amostra do tempo que os caixas de um banco gastam para realizar as
transações dos clientes. Calcule a média, a variância e o desvio padrão da amostra.
2,5 8,0 4,5 7,5 2,0 11,0 4,0 5,0 8,0 6,5 3,5
7)Duas empresas contrataram dez pessoas com curso superior. O salário inicial nessa companhia é mostrado
a seguir.
Salário inicial na empresa A ( em milhares de dólares)
Salário 41 38 39 45 47 41 44 41 37 42
8)Calcule a variância e o desvio padrão para o número de 54 notas fiscais emitidas na mesma data,
selecionadas em uma loja de departamentos. (Amostra)
Consumo por nota
(R$)
0 Ⱶ 50 10
50 Ⱶ 100 28
100 Ⱶ 150 12
150 Ⱶ 200 2
200 Ⱶ 250 1
250 Ⱶ 300 1
Total 54
9)Calcule a variância e o desvio padrão para uma amostra de 70 alunos de uma classe.
Estaturas (cm)
150 Ⱶ 160 2
160 Ⱶ 170 15
170 Ⱶ 180 18
180 Ⱶ 190 18
190 Ⱶ 200 16
200 Ⱶ 210 1
Total 70
10)Sabendo que um conjunto de dados apresenta para média aritmética e para desvio padrão,
respectivamente, 18,3 e 1,47, calcule o coeficiente de variação.
12)Um grupo de cem estudantes tem uma estatura média de 163,8 cm, com um coeficiente de variação de
3,3%. Qual o desvio padrão desse grupo?
4.3.1 Momentos
São medidas descritivas de caráter mais geral e dão origem às demais medidas descritivas,
como as de tendência central, dispersão, assimetria e curtose. Conforme a potência considerada
tem-se a ordem ou o grau do momento calculado.
c) Momentos abstratos ( )
São definidos da seguinte forma:
- Distribuição Assimétrica
Baseando-nos nessas relações entre média e a moda, podemos emprega-las para determinar
o tipo de assimetria. Assim, calculando o calor da diferença:
Se:
⇨ assimetria nula ou distribuição simétrica;
⇨ assimetria negativa ou à esquerda;
⇨ assimetria positiva ou à direita.
EXEMPLO:
DISTRIBUIÇÃO A DISTRIBUIÇÃO B DISTRIBUIÇÃO C
Pesos Pesos Pesos
(Kg) (Kg) (Kg)
2Ⱶ6 6 2Ⱶ6 6 2Ⱶ6 6
6 Ⱶ 10 12 6 Ⱶ 10 12 6 Ⱶ 10 30
10 Ⱶ 14 24 10 Ⱶ 14 24 10 Ⱶ 14 24
14 Ⱶ 18 12 14 Ⱶ 18 30 14 Ⱶ 18 12
18 Ⱶ 22 6 18 Ⱶ 22 6 18 Ⱶ 22 6
Total 60 Total 78 Total 78
Temos:
= = =
Mo = Mo = Mo =
s= s= s=
a) Coeficiente de assimetria
A medida anterior, por ser absoluta, apresenta a mesma deficiência do desvio padrão, isto é,
não permite a possibilidade de comparação entre as medidas de duas distribuições. Por esse motivo,
daremos preferência ao coeficiente de assimetria de Pearson, dado por:
Quando não tivermos condições de calcularmos o desvio padrão podemos usar a seguinte fórmula:
EXEMPLO
1)Considerando as distribuições A, B e C anteriores, calcule o coeficiente de assimetria de cada
uma.
4.3.3 Curtose
Já apreciamos as medidas de tendência central, de dispersão e de assimetria. Falta somente
examinarmos mais uma das medidas de uso comum em Estatística, para se positivarem as
características de uma distribuição de valores: são as chamadas Medidas de Curtose ou de
a) Coeficientes de curtose
Uma fórmula para a medida da curtose é:
EXEMPLO
Considerando as distribuições A, B e C anteriores, calcule os respectivos graus de curtose.
EXERCICIOS
1)Considere os seguintes resultados relativos a três distribuições de frequencia:
DISTRIBUIÇÕES Mo
A 52 52
B 45 50
C 48 46
5)Para o exercício abaixo construa uma tabela de dispersão o suficiente para determinar:
a)As medidas de posição (média aritmética, mediana e moda);
b)As medidas de dispersão (desvio padrão e variância, coeficiente de variação de Pearson),
c)As medidas de assimetria (coeficiente de assimetria, e coeficiente de curtose).
Faça um relatório referente ao comportamento dos dados em função dos resultados obtidos.
0,7 0,7 0,9 1,2 1,3 1,4 1,5 1,5 1,7 1,9
2,0 2,0 2,1 2,4 2,4 2,8 2,8 2,9 3,2 3,3
3,5 3,6 4,1 4,3 4,7 4,7 4,8 5,2 5,3 5,5
6,4 6,8 7,0 7,2 7,2 7,9 8,0 8,7 9,0 9,4
10,7 13,3 15,1 16,8 17,1 19,7 25,3 32,0 32,4 42,1