Estatística Descritiva

INTRODUÇÃO
A organização das informações é uma parte fundamental na aplicação de estatística e

ciência de dados. Seja para analisar tendências, tomar decisões ou comparar escalas, ter os
dados em uma ordem lógica facilita a captação. Além de dados estáticos, há a possibilidade de
aplicar a modelagem de dados por meio de distribuição de frequência.
Assim, na distribuição de frequência, os dados obtidos são relacionados por meio de

quantidades em comparação com um todo. Essa aplicação existe para contabilizar e
contextualizar uma variável (ou intervalo) no todo.
Para realizar o cálculo de distribuição de frequência, é importante saber quais dados são
necessários, que variáveis entram na conta e os elementos básicos de uma tabela de distribuição
de frequência, deste modo, o este trabalho tem como o objectivo geral conhecer a estatística
descritiva no seu todo e como objectivo específico aprender a construir e representar a
distribuição de frequências numa tabela e calcular as medidas de estatística descritiva.
Página | 1
ENQUADRAMENTO TEÓRICO
1. Conceitos Fundamentais
A estatística trabalha com dados, os quais podem ser obtidos por meio de uma população
ou de uma amostra, definida como:
População: conjunto de elementos que tem pelo menos uma característica em comum.
Esta característica deve delimitar corretamente quais são os elementos da população que
podem ser animados ou inanimados.
Amostra: subconjunto de elementos de uma população. Este subconjunto deve ter

dimensão menor que o da população e seus elementos devem ser representativos da população.
A seleção dos elementos que irão compor a amostra pode ser feita de várias maneiras e
irá depender do conhecimento que se tem da população e da quantidade de recursos disponíveis.
A estatística inferencial é a área que trata e apresenta a metodologia de amostragem.
Em se tratando de conjuntos-subconjuntos, estes podem ser:
Finitos: possuem um número limitado de elementos.
Infinitos: possuem um número ilimitado de elementos.
Segundo Medronho (2003), elemento significa cada uma das unidades observadas no
estudo. Após a determinação dos elementos pergunta-se: o que fazer com estes? Pode-se medi-
los, observá-los, contá-los surgindo um conjunto de respostas que receberá a denominação de
variável.
Variável: é a característica que vai ser observada, medida ou contada nos elementos da
população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento
para elemento.
Não basta identificar a variável a ser trabalhada, é necessário fazer-se distinção entre os
tipos de variáveis:
Variável qualitativa: é uma variável que assume como possíveis valores, atributos ou
qualidades. Também são denominadas variáveis categóricas.
Página | 2
Variável quantitativa: é uma variável que assume como possíveis valores, números.
Cada uma dessas variáveis pode ser sub-classificada em:
Variável qualitativa nominal: é uma variável que assume como possíveis valores,
atributos ou qualidades e estes não apresentam uma ordem natural de ocorrência.
Variável qualitativa ordinal: é uma variável que assume como possíveis valores
atributos ou qualidades e estes apresentam uma ordem natural de ocorrência.
Variável quantitativa discreta: é uma variável que assume como possíveis valores
números, em geral inteiros, formando um conjunto finito ou enumerável.
Variável quantitativa contínua: é uma variável que assume como possíveis valores
números, em intervalos da reta real e, em geral, resultantes de mensurações.
2. Distribuição de Frequências
Para compreender a distribuição de Frequência, o primeiro passo é entender a

importância de medir frequência em análise de dados. Além de auxiliar a entender tendências,
os gráficos e tabelas de frequência podem ser organizados para mostrar dados diversos.
Desse modo, a frequência significa o número de vezes em que o elemento aparece em

uma amostra. Sendo assim, na amostra “G, T, S, J, T, L, Y, P, S, T”, a frequência de T é 3, a de
S é 2 e a de G, J, L, Y e P é 1.
Apesar de simples, essa mesma lógica pode ser aplicada para diferentes contextos de
estatística. A frequência também existe em formato dinâmico, ou seja, ao invés de medir a
quantidade de vezes em que um elemento aparece, a distribuição leva em consideração
intervalos que sejam relevantes para análise de dados.
Por exemplo, imaginemos que objetivo é encontrar quantos números entre 1 e 10 ou

entre 11 e 20 existem na amostra. Tanto o número 14 quanto o número 18 contam no segundo
intervalo. Então, se cada um deles aparecer duas vezes, isso aumenta a frequência daquela
classe.
Paralelamente, se o número 8 aparecer uma única vez e o número 7 aparecer cinco vezes,
a classe entre 1 a 10 terá maior peso. Nesse sentido, então vale a pena analisar qual a melhor
forma de usar a tabela de distribuição de frequência para entender seus dados.
Página | 3
Deste modo, a distribuição de frequências constitui o método de organização de
informação mais utilizado na estatística, ou seja, é uma série estatística na qual os dados estão
organizados em grupos de classes ou categorias estabelecidas convenientemente. Os quadros e
gráficos de frequências permitem agregar e sintetizar grandes quantidades de informação sem
perdas das suas características fundamentais.
As distribuições de frequências podem ser divididas em dois tipos, que são: distribuição
de frequências de variáveis discretas (pontual) e distribuição de frequência de variáveis
contínuas (com intervalos de classe).
2.1 Distribuição de frequência de variável discreta (pontual)
É uma representação tabular de um conjunto de valores em que colocamos na primeira

coluna em ordem crescentes apenas os valores destinos e na segunda coluna colocamos os
valores da frequência simples, todos os valores dos dados coletados são apresentados, e não há
perdas de valores.
Temos F para representar aa frequências simples, a sequência (1) é representada pela

tabela:
Xi F
2 1
3 5
3,5 6
4 10
4,5 4
5 4
Note que a colocação de um índice i para X e par F tem a finalidade de referência, deste
modo, X1 representa o primeiro valor destino da série, X2 representa o segundo valor destino
da série, F1 representa a frequência simples do primeiro valor destino da série, F2 representa a
frequência simples do segundo valor destino da série e assim sucessivamente. Conseguimos
reduzir de 30 elementos que constituía a série original para apenas 6 elementos.
Devemos optar por variável discreta na representação de uma série de valores quando o
número de elementos destinos da série for pequeno, aqueles que se encontram na mesma
direção e no mesmo sentido o ângulo formado entre esses vetores é sempre nulo.
Página | 4
Ainda, como colunas complementares em uma distribuição de frequências e
considerando i, a ordem da linha na tabela, tem-se:
• Frequência Absoluta (F): é a quantidade de vezes que ocorre cada item de uma
pesquisa estatística, esse número representa quantas vezes uma variável foi respondida ou
observada. A ideia de frequência se refere a repetições de algo e, em estatística, informam sobre
as ocorrências ou realizações das variáveis pesquisadas.
Em pesquisas estatísticas, após os dados serem coletados, é útil organizá-los em tabelas

para facilitar a leitura e interpretação, Estas tabelas são chamadas tabelas de frequências. É
também a partir das frequências absolutas que se pode calcular as frequências absolutas
acumuladas, as frequências relativas e as frequências relativas acumuladas.
• Frequência Absoluta Acumulada (𝑭𝒂 ): é a soma das frequências absolutas simples

de cada variável. Nesta frequência, os valores numéricos são somados, acumulando, de uma
variável para a outra, até a última variável estudada.
Na frequência acumulada, a cada linha somamos a frequência absoluta com a acumulada

anterior, assim, vamos acumulando os valores a cada linha da tabela. A última linha da coluna
da frequência acumulada já representa o total de entrevistados.
• Frequência Relativa (𝑭𝒊 ): é a divisão entre o número de vezes que um dado específico
se repete, pela quantidade total de dados.
A frequência relativa compara a quantidade de respostas de um dado específico, com a

quantidade total de respostas coletadas em uma pesquisa estatística. Esta comparação entre uma
parte das respostas em relação ao todo é feita através de uma divisão, ou seja:
𝑭
𝑭𝒊 = 𝒏
Onde:
𝐹𝑖 : é a frequência relativa de uma variável i qualquer da pesquisa;
F: é a quantidade de vezes que ocorre essa variável na pesquisa (frequência absoluta);
n: é o número total de observações.
Observações:
• A frequência relativa é um número entre 0 e 1;

• É comum apresentar a frequência relativa em porcentagem (basta multiplicar por 100);
Página | 5
• A soma das frequências relativas de uma pesquisa é igual a 1
A frequência relativa também pode ser apresentada em percentual, basta multiplicar a
sua fórmula por cem por cento, neste caso, a soma das frequências relativas de uma pesquisa
será igual a 100%.
• Frequência relativa acumulada (𝑭𝒊𝒂 ): é a soma da frequência relativa com a

acumulada interior, assim como a frequência absoluta acumulada, a última linha da coluna
desta frequência representa o total da frequência relativa.
2.2 Distribuição de frequências de Variáveis contínuas (por intervalos)
Quando a variável discreta toma valores num intervalo muito grande e a variável é
continua, é usual adoptar variáveis classificadas que é nada mais que uma variável cujo domínio
foi segmentado, constituindo classes disjuntas e sucessivas, aqui os valores estão representados
por faixas de magnitude e há perdas de informações. Torna-se então, aconselhável efectuar
agrupamento dos dados em classes de valores.
Para definir estas classes é necessário introduzir alguns conceitos:
• Número de classes
• Amplitude de classes
• Limites de classes
• Ponto médio ou centro de classes
Para classes de valores de uma variável contínua, tornam-se em regra, intervalos,

correctamente designados intervalos de classes. A definição de classes consiste, assim, na
fixação dos limites desses intervalos ou limites de classes.
Número de classes
Não existe uma fórmula exacta para o cálculo do número de classes. Depende do
intervalo de variação e do número de observações.
O bom senso nos diz que não deverá ser um número muito grande, para que não
introduza irregularidades que poderão não existir na população. Não existe nenhum método
rigoroso para a seleção de número de classes ou intervalos.
Página | 6
Nesta disciplina seguir-se-ão as seguintes regras na construção dos intervalos:
• Nenhuma classe deverá ter uma frequência nula;
• As classes deverão ter, sempre que possível, amplitudes iguais;
• O limite inferior da classe deverá pertencer a classe;
• A última classe deve conter até a maior observação;
• Os limites das classes são definidos de modo a que cada valor da variável é incluído
num e só num intervalo.
Apresentam-se, a seguir, algumas propostas para a determinação do número de classes

(de amplitude igual):
• k = 5 para n <25 e k = √𝑛 para n≥25
• Fórmula de Struges k = 1 + 3,22 log(n)
• Fórmula de Struges original k tal que 2𝑘 ≥ n
Amplitude de classes
A amplitude de classes (𝑎𝑖 ou AC) para as classes de igual amplitude, pode ser
calculado da seguinte forma:
𝐀𝐭 𝐕𝐦á𝐱−𝐕𝐦í𝐧
𝐚𝐢 ou AC = =
𝐤 𝐤
Em que:
At: é a diferença entre o valor máximo e o mínimo das observações (Amplitude total: intervalo
de variação.
k: é o número de classes.
Resumindo, a amplitude de uma classe é a diferença entre o valor mais elevado e o mais
baixo dessa classe.
Limites de classes
Os limites de classes, inferior (𝐿𝑖 ) e superior (𝐿𝑠 ), para amplitudes de classes constantes
e iguais a AC podem ser obtidos conforme o quadro abaixo.
Página | 7
Vamos considerar, para facilitar, os cálculos que o máximo da colecção irá pertencer à
última classe e corresponde ao seu limite superior. Para as restantes classes vamos usar a
convecção de as classes serem fechadas à esquerda e abertas à direita [𝑋𝑖 ; 𝑋𝑖 + 1[
N° de classes Classes Limite inferior Limite superior

1 [Vmin; Vmin + 𝑎[ Vmin Vmin + 𝑎
2 [Vmin +𝑎; Vmin + 2𝑎[ Vmin + 𝑎 Vmin + 2𝑎
3 [Vmin +2𝑎; Vmin + 3𝑎[ Vmin +2 𝑎 Vmin + 3𝑎
k [Vmin +(𝑘 + 1)𝑎; Vmin +𝑘𝑎] Vmin + (𝑘 − 1)𝑎 Vmin + 𝑘𝑎
Ponto médio ou centro da classe.
O centro da classe i obtém-se somando o limite inferior e o limite superior da classe e

dividido por dois, é dado por:
𝑳𝒊+𝑳𝒔+𝟏
Ci = Xi = 𝟐
3. Medidas de estatística descritiva
Uma outra maneira de se resumir os dados de uma variável quantitativa, além de tabelas
e gráficos, é apresentá-los na forma de valores numéricos, denominados medidas descritivas.
Estas medidas, se calculadas a partir de dados populacionais, são denominadas parâmetros e se
calculadas a partir de dados amostrais são denominadas estimadores ou estatísticas.
As medidas descritivas auxiliam a análise do comportamento dos dados, tais dados são
provenientes de uma população ou de uma amostra. Elas estão classificadas em: medidas de
localização ou posição, medidas de dispersão, medidas de assimetria, medidas de concentração
e medidas de curtose ou achatamento.
Medidas de localização por sua vez está dividido em medida de tendência central e
medida de tendência não central (quantis ou separatrizes).
3.1 Medidas de Localização
3.1.1 Medidas de tendência central
As medidas de tendência central são assim denominadas por indicarem um ponto em

torno do qual se concentram os dados. Este ponto tende a ser o centro da distribuição dos dados,
as principais medidas de tendência central são: média, mediana e moda.
Página | 8
Média aritmética
A média aritmética (X) é a soma de todos os valores observados da variável dividida

pelo número total de observações. Sob uma visão geométrica a média de uma distribuição é o
centro de gravidade, representa o ponto de equilíbrio de um conjunto de dados. É a medida de
tendência central mais utilizada para representar a massa de dados.
Seja (x1, ..., xn) um conjunto de dados. A média é dada por:
∑𝑵
𝒊=𝟏 𝑿𝒊 ∑𝑵
𝒊=𝟏 𝑿𝒊
𝝁= ̅=
ou 𝑿
𝑵 𝑵
Para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados

segundo uma distribuição de frequência, tem-se:
∑𝑵
𝒊=𝟏 𝑿𝒊 𝑭𝒊 ∑𝑵
𝒊=𝟏 𝑿𝒊𝑭𝒊
𝝁= ̅=
ou 𝑿
𝑵 𝑵
Moda
É o valor que mais se verifica no conjunto dos dados, por isso é o valor da variável a
que corresponde a maior frequência. Uma distribuição pode ter duas ou mais modas; assim
chamar-se-á bimodal, tri modal e até multimodal.
Para dados pontuais, a moda é determinada pelo valor máximo da frequência absoluta
acumulada, ou seja:
𝑴𝟎 = 𝒇𝒂 (máximo)
Para dados em intervalos, convém encontrar o intervalo modal, onde se encontra a moda e
aplicar a seguinte fórmula:
𝒇(𝑴𝟎 +𝟏)
𝑴𝟎 = 𝑳𝒊 + 𝒇(𝑴 ×A (𝑴𝟎 )
𝟎 − 𝟏)+ 𝒇(𝑴𝟎 +𝟏)
Onde:
Li é o limite inferior da classe modal;
A (𝑴𝟎 ) é a amplitude da classe modal;
𝒇(𝑴𝟎 − 𝟏) − é a frequência absoluta da classe anterior à classe modal;
𝒇(𝑴𝟎 + 𝟏) - é a frequência absoluta da classe posterior à classe modal.
Página | 9
Mediana
A mediana (Md) é o valor que ocupa a posição central da série de observações de uma
variável, em rol, dividindo o conjunto em duas partes iguais, ou seja, a quantidade de valores
inferiores à mediana é igual à quantidade de valores superiores a mesma.
Para dados agrupados, calcula-se:
𝑴𝒅 = 𝒇𝒂 (𝑴𝒅 ) = 0,5
Para dados em intervalos, convém encontrar o intervalo mediano, onde se encontra a mediana
e aplicar a seguinte fórmula:
𝒏
𝑭𝒂(𝑴𝒅 − 𝟏)
̅ = 𝑳𝒊 + 𝟐
𝑿 ×A (𝑴𝒅 )
𝑭(𝑴𝒅 )
Onde:
Li é o limite inferior da classe mediana;
A (𝑴𝒅 ) é a amplitude da classe mediana;
𝑭(𝑴𝒅 ) − é a frequência absoluta da classe mediana;
𝒇(𝑴𝒅 − 𝟏) - é a frequência absoluta da classe anterior à classe mediana.
3.1.2 Medidas de tendência não central
Estas medidas são valores que ocupam posições no conjunto de dados, em rol,
dividindo-o em partes iguais e podem ser:
Quartil: dividem o conjunto de dados em quatro partes iguais, existem três quartis.
• Primeiro quartil (Q1): valor até onde se acumula o primeiro quarto (25%) dos
dados;
• Segundo quartil (Q2 =Md): valor até onde se encontra a primeira metade (50%)
dos dados;
• Terceiro quartil (Q3): valor até onde se acumula os três quartos (75%) dos dados.
Decis: dividem o conjunto de dados em dez partes iguais, existem nove decis.
Página | 10
• Quinto decil (D2 = Md): valor até onde são acumuladas a primeira metade (50%)
dos dados;
Percentil: dividem o conjunto de dados em cem partes iguais, existem noventa e nove
quartis.
• Nonagésimo quinto percentil: valor até onde são acumuladas 95% dos dados.
Utiliza-se a mesma fórmula da mediana para a determinação das medidas de tendência

não central, por exemplo, para o sétimo decil (D7) teremos:
𝟎,𝟕− 𝑭𝒂(𝑫𝟕 − 𝟏)
𝑫𝟕 = 𝑳𝒊 + ×A (𝑫𝟕 )
𝑭(𝑫𝟕 )
3.2 Medidas de dispersão
De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas

caracterizam se por suas semelhanças e variabilidades. As medidas de dispersão auxiliam as
medidas de tendência central a descrever o conjunto de dados adequadamente. Indicam se os
dados estão, ou não, próximos uns dos outros.
Desta forma, não há sentido calcular a média de um conjunto onde não há variação dos
seus elementos, existe ausência de dispersão e a medida de dispersão é igual a zero, por outro
lado, aumentando-se a dispersão, o valor da medida aumenta e se a variação for muito grande,
a média não será uma medida de tendência central representativa. Faz-se necessário, portanto,
ao menos uma medida de tendência central e uma medida de dispersão para descrever um
conjunto de dados.
As quatro medidas de dispersão que serão definidas a seguir são: amplitude total,
intervalo interquartil, desvio padrão e variância. Com exceção à primeira, que já da qual já
abordamos anteriormente não havendo mais a necessidade de o fazer, todas têm como ponto de
referência a média.
Intervalo interquartil
O intervalo interquartil é a diferença entre o terceiro e o primeiro quartil. Esta medida é

mais estável que a amplitude total por não considerar os valores mais extremos. Esta medida
abrange 50% dos dados e é útil para detectar valores discrepantes.
𝐈𝐐 = 𝐐𝟑 - 𝐐𝟏
Página | 11
Desvio-médio
A diferença entre cada valor observado e a média é denominado desvio e é dado por (x)
i −µ se o conjunto de dados é populacional, ou por (x x) i − se os dados são amostrais.
Ao somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em
relação a média, o resultado é igual a zero (propriedade 5 da média). Isto significa que esta
medida não mede a variabilidade dos dados.
Para resolver este problema, pode-se desconsiderar o sinal da diferença, considerando-as em

módulo e a média destas diferenças em módulo é denominada desvio médio:
Para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados

segundo uma distribuição de frequência, tem-se:
Variância e desvio padrão
Enquanto não há nada conceitualmente errado em se considerar o desvio médio,

segundo Pagano (2004), esta medida não tem certas propriedades importantes e não é muito
utilizada. O mais comum é considerar o quadrado dos desvios em relação à média e então
calcular a média.
Obtém-se, assim a variância que é definida por:
Se os dados são populacionais ou amostrais, respectivamente. Caso os dados estejam

apresentados segundo uma distribuição de frequências, tem-se:
Página | 12
Entretanto, ao calcular a variância observa-se que o resultado será dado em unidades
quadráticas, o que dificulta a sua interpretação. O problema é resolvido extraindo-se a raiz
quadrada da variância, definindo-se, assim, o desvio padrão:
Se os dados são populacionais ou amostrais e, se estiverem em distribuição de frequências:
É importante destacar que se duas populações apresentam a mesma média, mas os

desvios padrão não são iguais, isto não significa que as populações têm o mesmo
comportamento.
Coeficiente de Variação
O coeficiente de variação é uma medida de dispersão relativa definida como a razão

entre o desvio padrão e a média:
A partir do coeficiente de variação pode-se avaliar a homogeneidade do conjunto de

dados e, consequentemente, se a média é uma boa medida para representar estes dados. É
utilizado também, para comparar conjuntos com unidades de medidas distintas.
3.3 Medidas de Assimetria
A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir

uma distribuição de frequências e/ou um histograma, está-se buscando, também, identificar
visualmente, a forma da distribuição dos dados que é ou não confirmada pelo coeficiente de
assimetria de Pearson (As) definido como:
Para dados populacionais e amostrais, respectivamente.
Uma distribuição é classificada como:
Página | 13
Simétrica se média = mediana = moda ou As = 0;
Assimétrica negativa se média ≤ mediana ≤ moda ou As < 0. O lado mais longo do

polígono de frequência (cauda da distribuição) está à esquerda do centro.
Assimétrica positiva se moda ≤ mediana ≤ média ou As > 0. O lado mais longo do

polígono de frequência está à direita do centro.
3.4 Medidas de Curtose
A medida de curtose é o grau de achatamento da distribuição, é um indicador da forma

desta distribuição.
É definido como:
A curtose ou achatamento é mais uma medida com a finalidade de complementar a

caracterização da dispersão em uma distribuição. Esta medida quantifica a concentração ou
dispersão dos valores de um conjunto de dados em relação às medidas de tendência central em
uma distribuição de frequências.
4. Histograma
É um gráfico de colunas justapostas que representa uma distribuição de frequência para

dados contínuos ou uma variável discreta quando esta apresentar muitos valores distintos. No
eixo horizontal são dispostos os limites das classes segundo as quais os dados foram agrupados
enquanto que o eixo vertical corresponde às frequências absolutas ou relativas das mesmas
Página | 14
5. Polígono de frequência
É um gráfico de linha cuja construção é feita unindo-se os pontos de coordenadas de

abscissas correspondentes aos pontos médios de cada classe e as ordenadas, às frequências
absolutas ou relativas dessas mesmas classes
Uma das vantagens da aplicação de polígonos de frequências é que, por serem gráficos
de linhas, permitem a comparação entre dois ou mais conjuntos de dados por meio da
superposição dos mesmos.
6. Apresentação de Dados
Quando lidamos com poucos valores numéricos, o trabalho estatístico fica

sensivelmente reduzido. No entanto, teremos que trabalhar com grandes quantidades de dados.
Um dos objectivos da Estatística Descritiva, neste caso, é obter uma significativa

redução na quantidade de dados com os quais devemos operar directamente. Isto pode ser
conseguido modificando-se a forma de apresentação destes dados.
Suponha que observamos as notas de 30 alunos em uma prova e obtivemos os seguintes

valores:
3,5 5 10 15 4,5
5 3,5 10 11 12,5
2 5 4,5 11 13
4,5 10 10,5 5 7
10,5 3 11 3,5 10
12 13 10,5 5 3,5
Se entendermos como frequência simples de um elemento o número de vezes que este

elemento figura no conjunto de dados, podemos reduzir significativamente o número de
elementos com os quais devemos trabalhar.
Página | 15
7. Exercícios de Aplicação
Os dados seguintes referem-se a média dos 23 estudantes da Faculdade de Economia na
cadeira de Estatística:
12,1 16,2 15,2 13,4
7,5 12,4 15,2 13,8
15,5 12,4 11,0 9,8
8,9 8,2 14,5 14,7
7,8 16,1 13,5 14,6
8,8 13,2 10,5
Construa a tabela de distribuição de frequências em classes. Calcule:

a) Média, Moda, Mediana.
b) Variância, o desvio padrão e o coeficiente de variação a média dos estudantes.
Resolução:
n = 23 k = 5 para n <25
Vmáx = 16,2 Vmín = 7,5 At = Vmáx – Vmín = 16,2 – 7,5 = 8,7
𝐀𝐭 𝟖,𝟕
𝐚𝐢 ou AC = == = 1,7 ≈ 2
𝐤 𝟓
Tabela de distribuição de frequências em classes
𝑿𝒊 𝑭𝒂 𝑭𝒊 𝑭𝒊𝒂 ̅ ̅ )2
(𝑿𝒊 − 𝑿
i Classes F ∑ F. 𝐗 𝐢 𝑿𝒊 - 𝑿
1 [7,5; 9,5[ 8,5 5 5 0,22 0,22 42,5 -4 16
2 [9,5; 11,5[ 10,5 3 8 0,13 0,35 31,5 -2 4
3 [11,5; 13,5[ 12,5 5 13 0,22 0,57 62,5 0 0
4 [13,5; 15,5[ 14,5 7 20 0,30 0,87 101,5 2 4
5 [15,5; 17,5] 16,5 3 23 0,13 1 49,5 4 16
ε 23 1 287,5 0 40
Página | 16
∑𝑵
𝒊=𝟏 𝑿𝒊 𝑭𝒊 ∑𝑵
𝒊=𝟏 𝑿𝒊𝑭𝒊 𝟐𝟖𝟕,𝟓
a) 𝝁 = ̅=
ou 𝑿 = = 12,5 - Média
𝑵 𝑵 𝟐𝟑
𝒇(𝑴𝟎 +𝟏) 3
𝑴𝟎 = 𝑳𝒊 + 𝒇(𝑴 ×A (𝑴𝟎 ) = 13,5 + 5+ 3 × 2 = 14,25 – Moda
𝟎 − 𝟏)+ 𝒇(𝑴𝟎 +𝟏)
𝑴𝒅 = 𝒇𝒂 (𝑴𝒅 ) = 12,9 – Mediana
40
b) S² = 23−1 = 1,81 – Variância
S = √𝑆² = √1,81 = 1,35 – Desvio Padrão
𝑆 𝑆1,35
CV = 𝑋̅ = = 1,08 – Coeficiente de Variação
12,5
Página | 17
CONCLUSÃO
Como já mencionado ao longo deste trabalho, dependendo do volume de dados, torna-

se difícil ou impraticável tirar conclusões a respeito do comportamento das variáveis.
Pode-se, no entanto, colocar os dados brutos de cada uma das variáveis quantitativas em
uma ordem crescente ou decrescente, denominado rol. A visualização de algum padrão ou
comportamento continua sendo de difícil observação ou até mesmo cansativa, mas torna-se
rápido identificar maiores e menores valores ou concentrações de valores no caso de variáveis
quantitativas. Estes números (menor e maior valor observado) servem de ponto de partida para
a construção de tabelas para estas variáveis.
Página | 18
BIBLIOGRAFIA
BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva, 2003.
MILONE, Giuseppe. Estatística Geral e Aplicada. São Paulo: Pioneira Thomson Learning,
2004.
PAGANO, Marcello; GAUVREAU, Kimberlee. Princípios de Bioestatística. Tradução da 2ª

edição norte-americana. São Paulo: Pioneira Thomson Learning, 2004
REIS, Elizabeth. Estatística descritiva. Lisboa: Silabo, ed. 4, 1998.
SOARES, José F.; Alfredo A. FARIAS e CESAR, Cibele C. Introdução à Estatística. Rio de
Janeiro: Livros Técnicos e Científicos Editora S.A., 1991.
Página | 19

Estatística Descritiva

Enviado por

Dados do documentoclique para ver informações do documento

Direitos autorais:

Formatos disponíveis

Estatística Descritiva

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística Descritiva

Enviado por

Direitos autorais:

Formatos disponíveis

INTRODUÇÃO

A organização das informações é uma parte fundamental na aplicação de estatística e

Assim, na distribuição de frequência, os dados obtidos são relacionados por meio de

Amostra: subconjunto de elementos de uma população. Este subconjunto deve ter

Em se tratando de conjuntos-subconjuntos, estes podem ser:

Finitos: possuem um número limitado de elementos.

Infinitos: possuem um número ilimitado de elementos.

Para compreender a distribuição de Frequência, o primeiro passo é entender a

Desse modo, a frequência significa o número de vezes em que o elemento aparece em

Por exemplo, imaginemos que objetivo é encontrar quantos números entre 1 e 10 ou

2.1 Distribuição de frequência de variável discreta (pontual)

É uma representação tabular de um conjunto de valores em que colocamos na primeira

Temos F para representar aa frequências simples, a sequência (1) é representada pela

Em pesquisas estatísticas, após os dados serem coletados, é útil organizá-los em tabelas

• Frequência Absoluta Acumulada (𝑭𝒂 ): é a soma das frequências absolutas simples

Na frequência acumulada, a cada linha somamos a frequência absoluta com a acumulada

A frequência relativa compara a quantidade de respostas de um dado específico, com a

• A frequência relativa é um número entre 0 e 1;

• Frequência relativa acumulada (𝑭𝒊𝒂 ): é a soma da frequência relativa com a

2.2 Distribuição de frequências de Variáveis contínuas (por intervalos)

Para definir estas classes é necessário introduzir alguns conceitos:

• Ponto médio ou centro de classes

Para classes de valores de uma variável contínua, tornam-se em regra, intervalos,

• Nenhuma classe deverá ter uma frequência nula;

• As classes deverão ter, sempre que possível, amplitudes iguais;

• O limite inferior da classe deverá pertencer a classe;

• A última classe deve conter até a maior observação;

Apresentam-se, a seguir, algumas propostas para a determinação do número de classes

• k = 5 para n <25 e k = √𝑛 para n≥25

• Fórmula de Struges k = 1 + 3,22 log(n)

• Fórmula de Struges original k tal que 2𝑘 ≥ n

N° de classes Classes Limite inferior Limite superior

O centro da classe i obtém-se somando o limite inferior e o limite superior da classe e

3. Medidas de estatística descritiva

3.1 Medidas de Localização

3.1.1 Medidas de tendência central

As medidas de tendência central são assim denominadas por indicarem um ponto em

A média aritmética (X) é a soma de todos os valores observados da variável dividida

Seja (x1, ..., xn) um conjunto de dados. A média é dada por:

Para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados

Li é o limite inferior da classe modal;

A (𝑴𝟎 ) é a amplitude da classe modal;

𝒇(𝑴𝟎 − 𝟏) − é a frequência absoluta da classe anterior à classe modal;

𝒇(𝑴𝟎 + 𝟏) - é a frequência absoluta da classe posterior à classe modal.

Para dados agrupados, calcula-se:

Li é o limite inferior da classe mediana;

A (𝑴𝒅 ) é a amplitude da classe mediana;

𝑭(𝑴𝒅 ) − é a frequência absoluta da classe mediana;

𝒇(𝑴𝒅 − 𝟏) - é a frequência absoluta da classe anterior à classe mediana.

3.1.2 Medidas de tendência não central

Utiliza-se a mesma fórmula da mediana para a determinação das medidas de tendência

3.2 Medidas de dispersão

De acordo com Toledo (1985), fenômenos que envolvem análises estatísticas

O intervalo interquartil é a diferença entre o terceiro e o primeiro quartil. Esta medida é

Para resolver este problema, pode-se desconsiderar o sinal da diferença, considerando-as em

Para dados populacionais ou amostrais, respectivamente. Caso os dados estejam apresentados

Variância e desvio padrão

Enquanto não há nada conceitualmente errado em se considerar o desvio médio,

Obtém-se, assim a variância que é definida por: