Estatística Descritiva
Estatística Descritiva
Estatística Descritiva
Para realizar o cálculo de distribuição de frequência, é importante saber quais dados são
necessários, que variáveis entram na conta e os elementos básicos de uma tabela de distribuição
de frequência, deste modo, o este trabalho tem como o objectivo geral conhecer a estatística
descritiva no seu todo e como objectivo específico aprender a construir e representar a
distribuição de frequências numa tabela e calcular as medidas de estatística descritiva.
Página | 1
ENQUADRAMENTO TEÓRICO
1. Conceitos Fundamentais
A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população
ou de uma amostra, definida como:
População: conjunto de elementos que tem pelo menos uma característica em comum.
Esta característica deve delimitar corretamente quais são os elementos da população que
podem ser animados ou inanimados.
A seleção dos elementos que irão compor a amostra pode ser feita de várias maneiras e
irá depender do conhecimento que se tem da população e da quantidade de recursos disponíveis.
A estatística inferencial é a área que trata e apresenta a metodologia de amostragem.
Segundo Medronho (2003), elemento significa cada uma das unidades observadas no
estudo. Após a determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi-
los, observá-los, contá-los surgindo um conjunto de respostas que receberá a denominação de
variável.
Variável: é a característica que vai ser observada, medida ou contada nos elementos da
população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento
para elemento.
Não basta identificar a variável a ser trabalhada, é necessário fazer-se distinção entre os
tipos de variáveis:
Variável qualitativa: é uma variável que assume como possíveis valores, atributos ou
qualidades. Também são denominadas variáveis categóricas.
Página | 2
Variável quantitativa: é uma variável que assume como possíveis valores, números.
Cada uma dessas variáveis pode ser sub-classificada em:
Variável qualitativa nominal: é uma variável que assume como possíveis valores,
atributos ou qualidades e estes não apresentam uma ordem natural de ocorrência.
Variável qualitativa ordinal: é uma variável que assume como possíveis valores
atributos ou qualidades e estes apresentam uma ordem natural de ocorrência.
Variável quantitativa discreta: é uma variável que assume como possíveis valores
números, em geral inteiros, formando um conjunto finito ou enumerável.
Variável quantitativa contínua: é uma variável que assume como possíveis valores
números, em intervalos da reta real e, em geral, resultantes de mensurações.
2. Distribuição de Frequências
Apesar de simples, essa mesma lógica pode ser aplicada para diferentes contextos de
estatística. A frequência também existe em formato dinâmico, ou seja, ao invés de medir a
quantidade de vezes em que um elemento aparece, a distribuição leva em consideração
intervalos que sejam relevantes para análise de dados.
Paralelamente, se o número 8 aparecer uma única vez e o número 7 aparecer cinco vezes,
a classe entre 1 a 10 terá maior peso. Nesse sentido, então vale a pena analisar qual a melhor
forma de usar a tabela de distribuição de frequência para entender seus dados.
Página | 3
Deste modo, a distribuição de frequências constitui o método de organização de
informação mais utilizado na estatística, ou seja, é uma série estatística na qual os dados estão
organizados em grupos de classes ou categorias estabelecidas convenientemente. Os quadros e
gráficos de frequências permitem agregar e sintetizar grandes quantidades de informação sem
perdas das suas características fundamentais.
As distribuições de frequências podem ser divididas em dois tipos, que são: distribuição
de frequências de variáveis discretas (pontual) e distribuição de frequência de variáveis
contínuas (com intervalos de classe).
Xi F
2 1
3 5
3,5 6
4 10
4,5 4
5 4
Note que a colocação de um índice i para X e par F tem a finalidade de referência, deste
modo, X1 representa o primeiro valor destino da série, X2 representa o segundo valor destino
da série, F1 representa a frequência simples do primeiro valor destino da série, F2 representa a
frequência simples do segundo valor destino da série e assim sucessivamente. Conseguimos
reduzir de 30 elementos que constituía a série original para apenas 6 elementos.
Devemos optar por variável discreta na representação de uma série de valores quando o
número de elementos destinos da série for pequeno, aqueles que se encontram na mesma
direção e no mesmo sentido o ângulo formado entre esses vetores é sempre nulo.
Página | 4
Ainda, como colunas complementares em uma distribuição de frequências e
considerando i, a ordem da linha na tabela, tem-se:
• Frequência Absoluta (F): é a quantidade de vezes que ocorre cada item de uma
pesquisa estatística, esse número representa quantas vezes uma variável foi respondida ou
observada. A ideia de frequência se refere a repetições de algo e, em estatística, informam sobre
as ocorrências ou realizações das variáveis pesquisadas.
• Frequência Relativa (𝑭𝒊 ): é a divisão entre o número de vezes que um dado específico
se repete, pela quantidade total de dados.
𝑭
𝑭𝒊 = 𝒏
Onde:
𝐹𝑖 : é a frequência relativa de uma variável i qualquer da pesquisa;
F: é a quantidade de vezes que ocorre essa variável na pesquisa (frequência absoluta);
n: é o número total de observações.
Observações:
Quando a variável discreta toma valores num intervalo muito grande e a variável é
continua, é usual adoptar variáveis classificadas que é nada mais que uma variável cujo domínio
foi segmentado, constituindo classes disjuntas e sucessivas, aqui os valores estão representados
por faixas de magnitude e há perdas de informações. Torna-se então, aconselhável efectuar
agrupamento dos dados em classes de valores.
• Número de classes
• Amplitude de classes
• Limites de classes
Número de classes
Não existe uma fórmula exacta para o cálculo do número de classes. Depende do
intervalo de variação e do número de observações.
O bom senso nos diz que não deverá ser um número muito grande, para que não
introduza irregularidades que poderão não existir na população. Não existe nenhum método
rigoroso para a seleção de número de classes ou intervalos.
Página | 6
Nesta disciplina seguir-se-ão as seguintes regras na construção dos intervalos:
• Os limites das classes são definidos de modo a que cada valor da variável é incluído
num e só num intervalo.
Amplitude de classes
A amplitude de classes (𝑎𝑖 ou AC) para as classes de igual amplitude, pode ser
calculado da seguinte forma:
𝐀𝐭 𝐕𝐦á𝐱−𝐕𝐦í𝐧
𝐚𝐢 ou AC = =
𝐤 𝐤
Em que:
At: é a diferença entre o valor máximo e o mínimo das observações (Amplitude total: intervalo
de variação.
k: é o número de classes.
Resumindo, a amplitude de uma classe é a diferença entre o valor mais elevado e o mais
baixo dessa classe.
Limites de classes
Os limites de classes, inferior (𝐿𝑖 ) e superior (𝐿𝑠 ), para amplitudes de classes constantes
e iguais a AC podem ser obtidos conforme o quadro abaixo.
Página | 7
Vamos considerar, para facilitar, os cálculos que o máximo da colecção irá pertencer à
última classe e corresponde ao seu limite superior. Para as restantes classes vamos usar a
convecção de as classes serem fechadas à esquerda e abertas à direita [𝑋𝑖 ; 𝑋𝑖 + 1[
𝑳𝒊+𝑳𝒔+𝟏
Ci = Xi = 𝟐
Uma outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas
e gráficos, é apresentá-los na forma de valores numéricos, denominados medidas descritivas.
Estas medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se
calculadas a partir de dados amostrais são denominadas estimadores ou estatísticas.
As medidas descritivas auxiliam a análise do comportamento dos dados, tais dados são
provenientes de uma população ou de uma amostra. Elas estão classificadas em: medidas de
localização ou posição, medidas de dispersão, medidas de assimetria, medidas de concentração
e medidas de curtose ou achatamento.
Medidas de localização por sua vez está dividido em medida de tendência central e
medida de tendência não central (quantis ou separatrizes).
Página | 8
Média aritmética
∑𝑵
𝒊=𝟏 𝑿𝒊 ∑𝑵
𝒊=𝟏 𝑿𝒊
𝝁= ̅=
ou 𝑿
𝑵 𝑵
∑𝑵
𝒊=𝟏 𝑿𝒊 𝑭𝒊 ∑𝑵
𝒊=𝟏 𝑿𝒊𝑭𝒊
𝝁= ̅=
ou 𝑿
𝑵 𝑵
Moda
É o valor que mais se verifica no conjunto dos dados, por isso é o valor da variável a
que corresponde a maior frequência. Uma distribuição pode ter duas ou mais modas; assim
chamar-se-á bimodal, tri modal e até multimodal.
Para dados pontuais, a moda é determinada pelo valor máximo da frequência absoluta
acumulada, ou seja:
𝑴𝟎 = 𝒇𝒂 (máximo)
Para dados em intervalos, convém encontrar o intervalo modal, onde se encontra a moda e
aplicar a seguinte fórmula:
𝒇(𝑴𝟎 +𝟏)
𝑴𝟎 = 𝑳𝒊 + 𝒇(𝑴 ×A (𝑴𝟎 )
𝟎 − 𝟏)+ 𝒇(𝑴𝟎 +𝟏)
Onde:
Página | 9
Mediana
A mediana (Md) é o valor que ocupa a posição central da série de observações de uma
variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores
inferiores à mediana é igual à quantidade de valores superiores a mesma.
𝑴𝒅 = 𝒇𝒂 (𝑴𝒅 ) = 0,5
Para dados em intervalos, convém encontrar o intervalo mediano, onde se encontra a mediana
e aplicar a seguinte fórmula:
𝒏
𝑭𝒂(𝑴𝒅 − 𝟏)
̅ = 𝑳𝒊 + 𝟐
𝑿 ×A (𝑴𝒅 )
𝑭(𝑴𝒅 )
Onde:
Estas medidas são valores que ocupam posições no conjunto de dados, em rol,
dividindo-o em partes iguais e podem ser:
Quartil: dividem o conjunto de dados em quatro partes iguais, existem três quartis.
• Primeiro quartil (Q1): valor até onde se acumula o primeiro quarto (25%) dos
dados;
• Segundo quartil (Q2 =Md): valor até onde se encontra a primeira metade (50%)
dos dados;
• Terceiro quartil (Q3): valor até onde se acumula os três quartos (75%) dos dados.
Decis: dividem o conjunto de dados em dez partes iguais, existem nove decis.
Página | 10
• Quinto decil (D2 = Md): valor até onde são acumuladas a primeira metade (50%)
dos dados;
Percentil: dividem o conjunto de dados em cem partes iguais, existem noventa e nove
quartis.
• Nonagésimo quinto percentil: valor até onde são acumuladas 95% dos dados.
𝟎,𝟕− 𝑭𝒂(𝑫𝟕 − 𝟏)
𝑫𝟕 = 𝑳𝒊 + ×A (𝑫𝟕 )
𝑭(𝑫𝟕 )
Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos
seus elementos, existe ausência de dispersão e a medida de dispersão é igual a zero, por outro
lado, aumentando-se a dispersão, o valor da medida aumenta e se a variação for muito grande,
a média não será uma medida de tendência central representativa. Faz-se necessário, portanto,
ao menos uma medida de tendência central e uma medida de dispersão para descrever um
conjunto de dados.
As quatro medidas de dispersão que serão definidas a seguir são: amplitude total,
intervalo interquartil, desvio padrão e variância. Com exceção à primeira, que já da qual já
abordamos anteriormente não havendo mais a necessidade de o fazer, todas têm como ponto de
referência a média.
Intervalo interquartil
𝐈𝐐 = 𝐐𝟑 - 𝐐𝟏
Página | 11
Desvio-médio
A diferença entre cada valor observado e a média é denominado desvio e é dado por (x)
i −µ se o conjunto de dados é populacional, ou por (x x) i − se os dados são amostrais.
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em
relação a média, o resultado é igual a zero (propriedade 5 da média). Isto significa que esta
medida não mede a variabilidade dos dados.
Página | 12
Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades
quadráticas, o que dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz
quadrada da variância, definindo-se, assim, o desvio padrão:
Coeficiente de Variação
Página | 13
Simétrica se média = mediana = moda ou As = 0;
É definido como:
4. Histograma
Página | 14
5. Polígono de frequência
Uma das vantagens da aplicação de polígonos de frequências é que, por serem gráficos
de linhas, permitem a comparação entre dois ou mais conjuntos de dados por meio da
superposição dos mesmos.
6. Apresentação de Dados
3,5 5 10 15 4,5
5 3,5 10 11 12,5
2 5 4,5 11 13
4,5 10 10,5 5 7
10,5 3 11 3,5 10
12 13 10,5 5 3,5
Página | 15
7. Exercícios de Aplicação
Os dados seguintes referem-se a média dos 23 estudantes da Faculdade de Economia na
cadeira de Estatística:
12,1 16,2 15,2 13,4
7,5 12,4 15,2 13,8
15,5 12,4 11,0 9,8
8,9 8,2 14,5 14,7
7,8 16,1 13,5 14,6
8,8 13,2 10,5
𝐀𝐭 𝟖,𝟕
𝐚𝐢 ou AC = == = 1,7 ≈ 2
𝐤 𝟓
𝑿𝒊 𝑭𝒂 𝑭𝒊 𝑭𝒊𝒂 ̅ ̅ )2
(𝑿𝒊 − 𝑿
i Classes F ∑ F. 𝐗 𝐢 𝑿𝒊 - 𝑿
ε 23 1 287,5 0 40
Página | 16
∑𝑵
𝒊=𝟏 𝑿𝒊 𝑭𝒊 ∑𝑵
𝒊=𝟏 𝑿𝒊𝑭𝒊 𝟐𝟖𝟕,𝟓
a) 𝝁 = ̅=
ou 𝑿 = = 12,5 - Média
𝑵 𝑵 𝟐𝟑
𝒇(𝑴𝟎 +𝟏) 3
𝑴𝟎 = 𝑳𝒊 + 𝒇(𝑴 ×A (𝑴𝟎 ) = 13,5 + 5+ 3 × 2 = 14,25 – Moda
𝟎 − 𝟏)+ 𝒇(𝑴𝟎 +𝟏)
40
b) S² = 23−1 = 1,81 – Variância
𝑆 𝑆1,35
CV = 𝑋̅ = = 1,08 – Coeficiente de Variação
12,5
Página | 17
CONCLUSÃO
Pode-se, no entanto, colocar os dados brutos de cada uma das variáveis quantitativas em
uma ordem crescente ou decrescente, denominado rol. A visualização de algum padrão ou
comportamento continua sendo de difícil observação ou até mesmo cansativa, mas torna-se
rápido identificar maiores e menores valores ou concentrações de valores no caso de variáveis
quantitativas. Estes números (menor e maior valor observado) servem de ponto de partida para
a construção de tabelas para estas variáveis.
Página | 18
BIBLIOGRAFIA
BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva, 2003.
MILONE, Giuseppe. Estatística Geral e Aplicada. São Paulo: Pioneira Thomson Learning,
2004.
SOARES, José F.; Alfredo A. FARIAS e CESAR, Cibele C. Introdução à Estatística. Rio de
Janeiro: Livros Técnicos e Científicos Editora S.A., 1991.
Página | 19