ESTATÍSTICA
ESTATÍSTICA
ESTATÍSTICA
Roberto Pallesi
ESTATÍSTICA
A estatística é uma parte da Matemática Aplicada que pode ser entendida como um conjunto de
métodos empregados no planejamento de experimentos, na obtenção, organização e resumo de dados
coletados, bem como na análise e interpretação de tais dados, a fim de que conclusões possam ser tiradas.
Em geral, as fases de coleta, organização e descrição dos dados ficam a cargo da estatística
descritiva, enquanto que a análise e interpretação de tais dados são de competência da chamada
estatística indutiva ou inferencial, objeto de estudo de grande parte dos cursos superiores e programas
de pós-graduação.
A fim de que o leitor possa se familiarizar com este importante ramo da Matemática, algumas
definições prévias se fazem necessárias, a saber:
População e amostra
Se desejarmos saber, por exemplo, qual o esporte favorito entre os alunos de uma turma, podemos
consultar todos os alunos da turma e obter tal informação.
Tal procedimento, entretanto, não é possível (ou não é viável), caso queiramos pesquisar a
respeito da intenção de voto dos eleitores do Brasil, com relação à eleição para presidente da República.
Entre os fatores que inviabilizam a pesquisa acerca da intenção de voto, acima descrita, estão: o
tempo e o dinheiro gastos com a sua realização.
Felizmente, resultados confiáveis (o mais próximos o possível da realidade) podem ser obtidos
desde que a pesquisa seja realizada com uma parte representativa da população à qual pertence,
cuidadosamente selecionada.
Uma população estatística (ou universo estatístico) pode ser entendida como um conjunto de
entes portadores de, no mínimo, uma característica comum.
Já uma amostra é um subconjunto finito, cujos elementos são extraídos de uma população que se
deseja estudar.
Variável
Uma fábrica de automóveis deseja lançar um novo modelo que seja do agrado do público.
Para tanto, contrata uma pesquisa de mercado a fim de conhecer as preferências dos consumidores
no que diz respeito à motorização, itens de segurança, cor da pintura e material utilizado no revestimento
dos bancos.
Cada uma das características consultadas na pesquisa constitui uma variável, que pode ser
entendida como o conjunto de resultados possíveis de um fenômeno.
Por exemplo, no caso da variável “cor da pintura”, preta, prata, vermelha e azul poderiam ser os
resultados possíveis.
Vale ressaltar que os valores que uma variável pode assumir não são necessariamente numéricos,
o que nos remete à seguinte classificação:
Variáveis qualitativas – são aquelas cujos valores podem ser separados em diferentes categorias que
se distinguem por alguma característica não numérica. Por exemplo: sexo (masculino e feminino), cor
dos cabelos (preto, loiro, ruivo, castanho, etc). Podem ser subdivididas em:
o Variáveis qualitativas ordinais – quando existe uma ordem nos seus valores. Por exemplo,
a variável “Grau de instrução” pode ter seus valores ordenados (fundamental, médio,
superior, etc). O mesmo não ocorre com a variável “cor da pele”.
o Variáveis qualitativas nominais – quando uma ordem não pode ser estabelecida entre
seus valores.
Variáveis quantitativas – São aquelas cujos valores são expressos em números. As variáveis
quantitativas se subdividem, ainda, em:
Quando os dados representam contagens, são discretos; caso sejam resultantes de medições, são
contínuos.
Questões propostas
Distribuição de frequências
Denomina-se frequência absoluta o número de vezes que um valor da variável ocorre numa
pesquisa.
Há, ainda, a frequência relativa, que indica, em geral, na forma de porcentagem, a razão entre a
frequência absoluta e o total de elementos integrantes da amostra considerada na pesquisa.
A título de exemplo, suponhamos que, numa locadora de DVD’s, em certa sexta-feira, tenha sido
feita uma pesquisa com os clientes presentes, acerca do gênero de filme predileto, e que o resultado tenha
sido o seguinte:
Das pessoas consultadas, 4 preferem filmes de terror, 6 preferem assistir a filmes de romance, 7
têm preferência por filmes de suspense, 5 têm predileção por filmes de ação e 4 só gostam de comédia.
No exemplo apresentado, a variável qualitativa é “gênero de filme predileto” e seus valores são
“terror”, “romance”, “suspense”, “ação” e “comédia”.
Consoante as respostas dadas, pode-se dizer que a frequência absoluta do valor suspense é 7,
enquanto que o valor comédia tem frequência absoluta 4.
A soma das frequências absolutas dos valores declarados para a variável “gênero de filme
predileto” fornece o total de elementos da amostra, que, nesse caso, é igual a 26.
4
Portanto, a frequência relativa do valor “terror” é 15,38% .
26
5
Já a frequência relativa do valor “ação” é 19,23%
26
Tabela de frequências
Uma tabela de frequências relaciona categorias (ou classes) de valores com as contagens
(frequências) do número de valores que se enquadram em cada categoria.
As tabelas de frequências constituem importante instrumento de organização de dados brutos.
Os dados coletados sobre o gênero de filme predileto presentes no exemplo anterior deram origem à
seguinte tabela:
Quando a variável assume muitos valores diferentes, fica inviável a construção de uma tabela de
distribuição de frequências com uma linha para cada valor.
Nesse caso, pode-se agrupar valores próximos em intervalos e construir uma tabela de distribuição
de frequências com intervalos de classe.
É comum utilizar-se intervalos reais fechados à esquerda e abertos à direita, que podem ser
representados por a; b ou por a | b, tal que a x < b, sendo que a amplitude do intervalo a | b é
dada pela diferença b – a.
84 68 33 52 47 73 68 61 73 77
74 71 81 91 65 55 57 35 85 88
59 80 41 50 53 65 76 85 73 60
67 41 78 56 94 35 45 55 64 74
65 94 66 48 39 69 89 98 42 54
Forme, com tais notas, uma tabela de distribuição de frequências com intervalos de
classe, contendo 7 classes.
Inicialmente determinaremos a amplitude do conjunto de dados, calculando a diferença
entre o maior e o menor valor observado da variável. Nesse caso, 98–33=65.
Como fora solicitado que a tabela contenha 7 classes (intervalos), determinaremos a amplitude de
cada intervalo de classe dividindo 65 por 7. Geralmente arredondamos o valor obtido “para mais”,
a fim de garantir que todos os valores sejam incluídos na tabela. Dessa forma, a amplitude de classe
será igual a 10.
Em seguida, escolheremos um limite inferior para a primeira classe, que deve ser o menor valor
observado ou um valor ligeiramente inferior a ele. Optaremos, nesse exercício, pelo valor
30.
Dessa forma, o primeiro intervalo de classe será 30 | 40.
Somando a amplitude de classe (10) com o número escolhido como ponto de partida (30), obtemos,
assim, o limite inferior da segunda classe. No caso desse exemplo, o limite inferior da
segunda classe será 30 + 10 = 40 e, por conseguinte, o segundo intervalo de classe será 40 | 50.
Adicionando a amplitude de classe ao segundo limite inferior, obtemos o terceiro limite e
repetimos o processo até obtermos o último intervalo de classe.
Em cada linha da tabela, na coluna correspondente à frequência absoluta, indicamos a
quantidade de notas pertencentes ao correspondente intervalo.
Assim, obtemos a seguinte tabela de distribuição de frequências com intervalos de classe:
Observação: Embora não haja uma regra única a ser utilizada na determinação do número de classes de
uma tabela, sugere-se que o número de classes deva ficar entre 5 e 20, sempre primando pela construção
de uma tabela com valores convenientes e compreensíveis. Recomenda-se, no entanto, a construção de
classes com mesma amplitude.
Questões propostas
Q2. (UFPB) A tabela abaixo apresenta o percentual de candidatos por faixa de pontuação, na prova
discursiva de Matemática de PSS-2005/UFPB.
Pontos %
0 10,1
1a4 36,3
5a8 31,3
9 a 12 13,2
13 a 16 5,6
17 a 20 2,6
21 a 24 0,9
Fonte: Coperve/UFPB
Q3. (UEL-PR) De acordo com os dados apresentados pela tabela, é correto afirmar:
Gráfico de linha
Histograma
Construindo um histograma
Observemos que cada coluna corresponde a uma classe e que a altura de cada
coluna corresponde à frequência absoluta da respectiva classe.
Polígono de frequência
Legenda
35%
Apenas o pai
Apenas a mãe
13%
600
521
487
500 456
427 426
Acidentes/10 000 veículos
404 401
378
400 350
334
311 296
300 274
245
200
100
acidentes sem vítimas
0 total de acidentes
1997 1998 1999 2000 2001 2002 2003
Ano
Adaptado de: Sumário Estatístico da Circulação em Campinas 2001-2003. Campinas, EMDEC,
2004, p.12
Média aritmética
xi
x
n
em que:
x é a média aritmética
xi representa os valores que a variável pode assumir
n é o número de valores
x 32 28 ... 20
x x 27,5 minutos.
n 6
xi fi
x
fi
em que:
xi fi
Dessa forma, calculamos a média aritmética a partir da fórmula x ,a
fi
saber:
x i f i 40200
x x 335
f i 120
Logo, o valor médio do aluguel é R$ 335,00.
Mediana
Moda
a. 2, 5, 8, 8, 12, 15, 8, 5, 12
b. 3,4; 5,2; 4,7; 6; 8,4; 9,3; 2,1; 4,8 c. 1,2, 2, 2, 3, 4, 5, 5, 5
a)
b) 3
Questões propostas
Q9. (UFC-CE) A média aritmética das notas dos alunos de uma turma formada por 25
meninas e 5 meninos é igual a 7. Se a média aritmética das notas dos meninos é igual a
6, a média aritmética das notas das meninas é igual a:
Q10. Antes do lançamento de um novo tipo de sabonete, uma indústria realizou uma
pesquisa de mercado na qual apurou os valores cobrados por dez marcas concorrentes e
obteve os seguintes valores, em reais: 1,12; 1,00; 1,07; 1,18; 1,60; 1,90; 0,92; 2,02;
1,70; 1,12. Calcule a média aritmética, a moda e a mediana desses valores.
Q11. (Uece) Considere três números inteiros e positivos a, b e c, onde um deles é igual
à média aritmética dos outros dois. A soma 2a+2b+2c é igual ao:
a) Dobro de um dos números dados.
b) Triplo de um dos números dados.
c) Quádruplo de um dos números dados.
d) Sêxtuplo de um dos números dados.
a) 4. b) 6. c) 8. d) 16.
a) R$ 420,00
b) R$ 536,00
c) R$ 562,00
d) R$ 640,00
e) R$ 708,00
Q14. (FUVEST-SP) Numa classe com 20 alunos as notas do exame final podiam variar
de 0 a 100 e a nota mínima para aprovação era 70. Realizado o exame, verificou-se que
8 alunos foram reprovados. A média aritmética das notas desses 8 alunos foi 65,
enquanto a média dos aprovados foi 77. Após a divulgação dos resultados, o professor
verificou que uma questão havia sido mal formulada e decidiu atribuir 5 pontos a mais a
todos os alunos. Com essa decisão, a média dos aprovados passou a ser 80 e a dos
reprovados 68,8.
a) Calcule a média aritmética das notas da classe toda antes da atribuição dos 5
pontos extras.
b) Com a atribuição dos 5 pontos extras, quantos alunos, inicialmente reprovados,
atingiram nota para aprovação?
a) 3. b) 4. c) 5. d) 6. e) 7.
Amplitude total
Define-se como amplitude total (AT) a diferença entre o maior e o menor valor
observado num conjunto de dados.
Desvio médio
O desvio médio (DM) é definido como a média aritmética dos módulos dos
desvios em relação à média, isto é,
| d1 | | d 2 | ... | d n |
DM ,
n
em que d1, d2, ..., d n são os desvios em relação à média e n é a quantidade de valores do
conjunto de dados.
21 18 19 20 20 28
A média aritmética é x 21 .
6
Logo, os desvios em relação à média são:
d 1 x1 x d1 21 21 0 d 4 x4 x d 4 20 21 1
d 2 x2 x d 2 18 21 3 d 5 x5 x d 5 20 21 1
d 3 x3 x d 3 19 21 2 d 6 x6 x d 6 28 21 7
| d 1 | | d 2 | ... | d n |
DM
n
| 0 | | 3 | | 2 | | 1 | | 1 | | 7 | 7
DM
6 3
Variância
2 | d 1 | 2 | d 2 | 2 ... | d n | 2
s ou seja,
n
2 ( xi x) 2
s
n
Uma vez que a variância é calculada a partir dos quadrados dos desvios em
relação à média, ela é um número em unidade quadrada em relação à variável
observada. A fim de evitar os inconvenientes relacionados às unidades de medida,
criou-se uma nova medida de variação, com utilidade e interpretação práticas, chamada
desvio padrão, que definiremos na seqüência.
Desvio padrão
O desvio padrão é uma medida da variação representada por “s”, definida como
a raiz quadrada da variância.
Assim:
( xi x ) 2
s
n
A turma mais homogênea é aquela que apresentou menor dispersão das notas em
relação à nota média.
Calcularemos, inicialmente, a nota média para cada turma.
12 15 12 16 14 15
x 14
6
12 11 18 9 19 15
x 14
6
Questões propostas
Q17. O quadro a seguir apresenta a idade (em anos) de cada um dos onze jogadores
titulares de um time de futebol.
a) 5 b) 6 c) 7 d) 8 e) 9
Q18. (Unicamp-SP) Para um conjunto X = {x1, x2, x3, x4}, a média aritmética de X é
x x 2 x3 x 4
definida por x 1 e a variância de X é definida por
4
1
v ( x1 x ) 2 ... ( x 4 x ) 2 .
4
Dado o conjunto X = {2, 5, 8, 9}, pede-se:
Questões complementares
Q19. (UERJ) “O engenheiro Ronaldo Belassiano descobriu que o carioca é o povo mais
ágil para embarcar nos coletivos. Ele leva, em média, apenas 1,85segundo contra 2,4
segundos gastos, em média, pelos londrinos.” (Revista Superinteressante, set.96, com adaptações.)
Com base no texto, considere que um ônibus no Rio de Janeiro fique parado
num ponto, durante 74 segundos, e embarque passageiros de acordo com a média
apresentada. Em Londres, para embarcar essa mesma quantidade de passageiros, o
ônibus deverá ficar parado durante:
Q20. (ESPM-SP) Considere todos os pares ordenados (x,y) do produto cartesiano AxB
em que A = {1, 2, 3, 4} e B = {1, 3, 5}. Tomando-se todos os 12 produtos x.y, podemos
afirmar que a média, a moda e a mediana desse conjunto são, respectivamente:
Q22. (UFPR) Dado um conjunto X = {x1, x2, x3, ..., xn} com n elementos, definimos a
média x e o desvio padrão d de X por:
x1 x 2 ... x n ( x1 x) 2 ( x 2 x) 2 ... ( xn x) 2
x e d
n n
Uma informação útil para quem analisa um conjunto de dados como X é que a
maioria desses dados pertence ao intervalo C = [ x -2d, x + 2d]. Sendo X =
, 4, , 3 um conjunto de dados:
1) Calcule a média x e o desvio padrão d.
2) Verifique quais elementos do conjunto X acima pertencem ao intervalo C.
Q23. (UFABC/2009) A média aritmética das idades de um grupo de x pessoas é 25
anos. Com a entrada de mais uma pessoa no grupo, a nova média passou a ser 26 anos.
Determine a idade do novo integrante do grupo em função de x.