Apontamentos de Introducao À Estatistica
Apontamentos de Introducao À Estatistica
Apontamentos de Introducao À Estatistica
Noção de Estatística;
Divisão da Estatística;
População e Amostra;
Característica e Variável;
Classificação de Variáveis;
Observação e Conjunto de Dados;
Não é uma tarefa simples definir o que é estatística. Por vezes define-se como sendo um
conjunto de técnicas de tratamento de dados, mas é muito mais do que isso. A estatística é uma
“arte” e uma ciência que permite tirar conclusões e de uma maneira geral fazer inferências 1 a
partir de conjuntos de dados. Até 1900, a Estatística resumia-se ao que hoje em dia se chama de
Estatística Descritiva. Apesar de tudo, deu contribuições muito positivas em várias áreas
cientificas.
A necessidade de uma maior formalização nos métodos utilizados, fez com que, nos anos
seguintes, a Estatística se desenvolvesse numa outra direcção, nomeadamente no que diz respeito
ao desenvolvimento de métodos e técnicas de Inferência Estatística. Assim, por volta de 1960 os
textos de Estatística debruçam-se especialmente sobre métodos de estimação e de testes de
hipóteses, assumindo determinadas famílias de modelos, descurando os aspectos práticos da
análise dos dados.
Por isso mesmo, em todas as áreas do conhecimento é necessário saber “o que medir” e
“como medir”. Nesta ordem de ideias, pode se definir a Estatística como sendo a ciência que
ensina a recolher dados válidos, assim como a interpretá-los.
Como importância, (PIANA, MACHADO & SELAU, 2009, p.5) afirmam que a
estatística é importante na medida em que, é uma ferramenta necessária para a compreensão
dos fenómenos que ocorrem nas mais diferentes áreas.
DIVISÃO DA ESTATÍSTICA
Diante dos factos acima elencados, pode-se afirmar que a Estatística Descritiva tem por
objectivo resumir as principais características de um conjunto de dados por meio de tabelas,
gráficos e resumos numéricos. Diferentemente da Inferência Estatística, que tem por base o
Usualmente, é impraticável observar toda uma população, seja pelo custo alto, seja por
dificuldades operacionais. Por isso mesmo, examina-se uma amostra, de preferência bastante
representativa, para que os resultados obtidos possam ser generalizados para toda a população.
Portanto, toda conclusão tirada por amostragem, quando generalizada para a população,
apresenta um grau de incerteza.
Assim sendo, por Inferência Estatística, (GUIMARÃES, 2007, p.13), diz que é o
conjunto de técnicas e procedimentos que permitem dar ao pesquisador um grau de
confiabilidade nas afirmações que faz para a população, baseadas nos resultados das amostras.
Dessa forma, poderíamos resumir os passos necessários para se atingir bons resultados ao
realizar um experimento:
- Prever a duração média da vida útil de uma calculadora, com base no desempenho de
muitas dessas calculadoras;
- Comparar a eficiência de duas dietas para reduzir peso, com base nas perdas de peso de
pessoas que se submeteram às dietas;
- Prever o fluxo de trafego de uma rodovia ainda em construção, com base no trafego
observado em rodovias alternativas.
POPULAÇÃO E AMOSTRA
De um modo geral, podemos dizer que o objectivo da estatística é fornecer métodos para
se conviver, de modo racional, com a variabilidade. Isto é feito através da descoberta de
regularidades nos dados relativos às situações em estudo. Assim sendo, quando estudamos uma
determinada característica, geralmente, queremos obter conclusões para um conjunto de todos
os indivíduos ou objectos que apresentam tal característica. Portanto, chamamos de população
ao conjunto de todos os indivíduos ou objectos que apresentam uma característica em comum,
cujo comportamento deseja-se analisar ou inferir.
Exemplo: Estudo sobre as causas das reprovações em massa nos exames da 10ª classe
nas escolas da Conselho Autárquico de Inhambane no ano de 2020. Diante deste exemplo,
teremos como população alvo, todos os estudantes do Conselho Autárquico de Inhambane que
frequentaram a 10ª classe no ano 2020; População de estudo, todos os estudantes reprovados
nesta classe no ano de 2020 no mesmo Conselho Autárquico.
Portanto, na maioria dos casos, ao estudarmos uma população, não temos acesso a
todos os seus elementos. Por conseguinte, o estudo é feito, então, a partir de uma parte desta
população, denominada amostra, que tem por objectivo representá-la.
Uma amostra é uma parcela da população utilizada para uma posterior análise de dados.
Ou seja, em vez de utilizar toda a população, que resulta em maior custo, tempo e por muitas
vezes ser inviável, o processo de amostragem utiliza uma pequena porção representativa da
população. A amostra fornece informações que podem ser utilizadas para estimar características
de toda a população.
Não obstante, é preciso garantir que a amostra ou as amostras usadas sejam obtidas por
processos adequados. Se erros forem cometidos no momento de seleccionar os elementos da
amostra, o trabalho todo fica comprometido e os resultados finais serão provavelmente bastante
viesados. Por isso mesmo, devemos tomar especial cuidado quanto aos critérios usados na
seleção da amostra.
TIPOS DE AMOSTRAGEM
Exemplo:
Podemos realizar um estudo para avaliar a qualidade do serviço prestado por uma
operadora de telefonia celular. Caso tenhamos recursos suficientes, podemos realizar um plano
amostral bastante abrangente de toda a população de usuários do serviço. Isso caracteriza uma
amostra probabilística. Mas, se por restrições orçamentárias ou de outra ordem, não for
possível obter uma amostra tão numerosa ou ela seja de difícil acesso, podemos restringir nossa
amostra a uma pequena região delimitada de fácil acesso e de custo reduzido, por exemplo,
usuários de uma cidade. Essa é uma amostragem não-probabilística. Segundo essa definição, a
amostragem probabilística implica sorteio com regras bem determinadas, cuja realização só
será possível se a população for finita e totalmente acessível. A utilização de uma amostragem
probabilística é a melhor recomendação que se deve fazer no sentido de garantir a
representatividade da amostra, pois o acaso é o único responsável por eventuais discrepâncias
entre população e amostra. No caso em que a única possibilidade é o uso de uma amostragem
não-probabilística, deve-se ter a consciência de que as conclusões apresentam alguma limitação.
CARACTERÍSTICA E VARIÁVEL
De modo geral, as variáveis podem ser classificadas em dois grupos distintos, a saber:
Variáveis Categóricas (Qualitativas) e Variáveis Numéricas (Quantitativas).
Nominais, quando não houver um sentido de ordenação entre os seus possíveis valores.
Exemplos: sexo (com os níveis masculino e feminino), raça de cavalos (com os níveis manga-
Autor: Rosângelo Paúnde Página 7
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
larga, crioulo e árabe), região geográfica (com os níveis norte, sul, sudeste e leste), estado civil
(com os níveis solteiro, casado e divorciado).
Contínuas, resultam de números infinitos de valores possíveis que podem ser associados
a pontos em uma escala contínua, ou seja, descrevem dados contínuos ou de mensuração, isto é,
obtidos por um processo de medição. Por conseguinte, estas variáveis, podem assumir qualquer
valor do conjunto dos números reais (-10, 0, π, √2, …). Exemplos: peso, altura, tempo de sono,
teor de humidade, temperatura corporal, etc.
Nota:
A classificação correcta de uma variável é fundamental, uma vez que esta discriminação
é que irá indicar a possibilidade e a forma de utilização dos procedimentos estatísticos
disponíveis.
As variáveis são representadas por letras maiúsculas (X, Y, Z, …, etc.) e os seus valores
(dados) por letras minúsculas (x, y, z, … etc.). Assim, se uma variável é representada por X (xis
maiúsculo), todos os seus elementos serão representados por x (xis minúsculo). Assim, para
individualizar ou diferenciar os valores de uma variável, acrescenta-se um índice i = 1, 2, …, n,
que representa a unidade ou a observação. Assim, um conjunto de n valores de uma variável X
será representado por x1, x2, x3, …, xn.
i A B X Y
1 a1 b1 x1 y1
2 a2 b2 x2 y2
3 a3 b3 x3 y3
4 a4 b4 x4 y4
5 a5 b5 x5 y5
1. População ou universo é:
a) Um conjunto de pessoas;
b) Um conjunto de elementos quaisquer;
c) Um conjunto de pessoas com uma característica comum;
d) Um conjunto de elementos com pelo menos uma característica em comum;
e) Um conjunto de individuo de um mesmo município, distrito ou país;
2. Uma parte da população retirada para analisá-la denomina-se:
a) Universo;
b) Parte;
c) Pedaço;
d) Dados Brutos;
e) Amostra;
3. A parte da estatística que se preocupa somente com a descrição de determinadas
características de um grupo, sem tirar conclusões sobre um grupo maior, denomina-se:
a) Estatística da população;
b) Estatística de amostra;
c) Estatística inferencial;
d) Estatística descritiva;
e) Estatística grupal;
4. Diga qual das variáveis estamos trabalhando nos casos abaixo:
a) Número de inscrições no seguro social;
b) Número de passageiros no minibus da via Massinga-Maxixe;
c) Peso médio dos recém-nascidos no Hospital Provincial de Inhambane;
d) Escolaridade;
e) Altitude acima do nível do mar;
f) Uma pesquisa efectuada com 1000 pessoas, indica que 40 delas são assinantes de um
serviço de computador online;
5. Classifique as seguintes variáveis:
5.1 Cor dos olhos
a) Qualitativa nominal;
b) Qualitativo ordinal;
c) Qualitativa discreta;
d) Quantitativa contínua;
e) Quantitativa discreta;
f) Qualitativa contínua;
5.2 Número de filhos de um casal:
a) Qualitativa nominal;
b) Qualitativo ordinal;
c) Qualitativa discreta;
d) Quantitativa contínua;
e) Quantitativa discreta;
f) Qualitativa contínua;
5.3 Peso de um indivíduo:
a) Qualitativa nominal;
b) Qualitativo ordinal;
c) Qualitativa discreta;
d) Quantitativa contínua;
e) Quantitativa discreta;
f) Qualitativa contínua;
5.4 Altura de um individuo:
g) Qualitativa nominal;
h) Qualitativo ordinal;
i) Qualitativa discreta;
j) Quantitativa contínua;
k) Quantitativa discreta;
l) Qualitativa contínua;
Introdução;
Apresentação de Dados: Tabelas e Gráficos;
Distribuição de Frequências: Tabelas de Classificação Simples;
INTRODUÇÃO
Ocorre, porém, que diversas razões levam, em geral, à necessidade de recorrer-se apenas
aos elementos de uma amostra. Entre elas, podemos citar o custo do levantamento de dados e o
tempo necessário para realizá-lo, especialmente se a população for muito grande.
Nesta ordem de ideias, a Estatística Descritiva tem como objectivo, resumir as principais
características de um conjunto de dados por meio de tabelas, gráficos e resumos numéricos.
Autor: Rosângelo Paúnde Página 13
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
Assim sendo, a análise estatística deve ser extremamente cuidadosa ao escolher a forma
adequada de resumir os dados.
Assim, um dos objectivos da estatística é sintetizar os valores que uma ou mais variáveis
podem assumir, para que tenhamos uma visão global da variação dessa ou dessas variáveis. Isso
se consegue, apresentando esses valores em tabelas e gráficos, que fornecem rápidas e seguras
informações a respeito das variáveis.
TABELAS
A tabela é a forma não discursiva de apresentar informações, das quais o dado numérico
se destaca como informação central. Sua finalidade é apresentar os dados de modo ordenado,
simples e de fácil interpretação, fornecendo o máximo de informação num mínimo de espaço.
Autor: Rosângelo Paúnde Página 14
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
Por conseguinte, a construção de uma tabela, deve obedecer a uma série de normas
técnicas. Estas normas, tem como objectivo orientar a apresentação racional e uniforme de dados
estatísticos na forma tabular. A seguir veja algumas das principais normas e recomendações para
a construção de uma tabela de dados:
1. Elementos da Tabela:
2. Número da Tabela:
Uma tabela deve ter número para identifica-la sempre que o documento apresentar uma
ou mais tabelas, permitindo, assim, a sua localização. A identificação da tabela deve ser feita em
números arábicos, de modo crescente, precedidos da palavra “Tabela”, podendo ou não ser
subordinada a capítulos ou secções de um documento. Exemplos: Tabela 1, Tabela 10.2, …, etc.
Autor: Rosângelo Paúnde Página 15
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
Toda a tabela deve ter dado numérico para informar a quantificação de um facto
especifico observado, o qual deve ser apresentado em números arábicos.
A parte inteira dos dados numéricos deve ser separada por pontos ou espaços de três em
três algarismos, da direita para a esquerda, por exemplo: 12.243.527 ou 12 243 527. A separação
da parte inteira da decimal deve ser feita por virgula, por exemplo: 25,67.
No sistema inglês, a separação da parte inteira é feita por virgula e, a separação da parte
inteira decimal é feita por ponto, ou seja, é o inverso do sistema moçambicano, do brasileiro, e
do português, …, etc.
4. Sinais Convencionais:
Sempre que um dado numérico não puder ser apresentado, o mesmo deve ser substituído
por um sinal convencional. A substituição de um dado numérico deve ser feita por um dos sinais
abaixo, conforme o caso:
4.1 – (Traço): indica dado numérico igual a zero não resultante de arredondamento;
4.2 .. (dois pontos): indica que não se aplica dado numérico;
4.3 … (três pontos): indica dado numérico não disponível;
4.4 x (xis): indica dado numérico omitido a fim de evitar a individualização da informação;
4.5 0, 0,0 ou 0,00 (zero): quando o valor é muito pequeno para ser expresso pela unidade
utilizada ou quando indica dado numérico igual a zero resultante de arredondamento;
4.6 ? (interrogação): quando há duvida sobre a veracidade/exactidão da informação/valor.
Quando uma tabela contiver sinais convencionais, estes deverão ser apresentados em nota
geral com seus respectivos significados.
5. Arredondamento:
6. Unidade de Medida:
Uma tabela deve ter unidade de medida inscrita no cabeçalho ou nas colunas indicadoras,
sempre que houver necessidade de se indicar, complementarmente ao titulo, a expressão
quantitativa ou metrológica a dos dados numéricos.
Esta indicação deve ser feita com símbolos ou palavras, entre parênteses. Exemplos: (m)
ou (metros), (t) ou (toneladas), (Mt) ou (meticais), (€) ou (euro), (¥) ou (yen), (£) ou (libra), ($)
ou (dólar americano), (R$) ou (reais), (%) ou (percentual), …, etc.
7. Classe de Frequência:
A classe de frequência é cada um dos intervalos não superiores em que se divide uma
distribuição de frequências. Toda classe deve ser apresentada, sem ambiguidade, por extenso ou
com notação.
Toda a classe que inclui o Extremo Inferior do intervalo (EI) e exclui o Extremo Superior
(ES), deve ser apresentada de uma destas duas formas: EI |― ES ou [EI; ES).
8. Apresentação de Tempo:
Toda a série histórica consecutiva deve ser apresentada por seus pontos inicial e final,
ligados por hífen (-). Exemplos: 1892 – 912: quando varia o século; 1960 – 65: quando variam
os anos dentro do século; out 1991 – mar 1992: quando variam os meses dentro de anos.
9. Apresentação da Tabela
O corpo da tabela deve ser delimitado, no mínimo, por três traços horizontais;
Recomenda-se não delimitar as tabelas à direita e à esquerda por traços verticais. É
facultativo o uso de traços verticais para a separação de colunas no corpo da tabela;
Quando, por excessiva altura, a tabela tiver que ocupar mais de uma página, não deve ser
delimitada inferiormente, repetindo-se o cabeçalho na página seguinte. Deve-se usar no
alto do cabeçalho a palavra “continuação” ou “conclusão”, conforme o caso.
Se possuir muitas linhas e poucas colunas, poderá ser apresentada em duas ou mais partes
dispostas lado a lado e separadas por traço duplo;
A disposição da tabela deve estar na posição normal de leitura. Caso isso não seja
possível, a apresentação será feita de forma que a rotação da página seja no sentido
horário.
Exemplo:
(1.000 Mt)
Maputo 25 x 21.585
Gaza 31 1.710 6.495
Inhambane 107 - 954.258
Total da Zona Sul 163 1.710 982.338
Fonte: Instituto Nacional do Turismo (INATUR): 2020.
: em 31 de dezembro de 2020;
(1)
GRÁFICOS
Outro modo de apresentar dados estatísticos é sob a forma ilustrada, comumente chamada
de gráfico. Os gráficos constituem-se numa das mais eficientes formas de apresentação de dados.
2.1 Estereogramas: são gráficos onde as grandezas são representadas por volumes.
Geralmente são construídos num sistema de eixos bidimensional, mas podem ser
construídos num sistema tridimensional para ilustrar a relação entre três variáveis.
2.2 Cartogramas: são representações em cartas geográficas (mapas);
Um grande número de dados necessita de uma forma eficiente de sumarização. Uma das
formas mais comuns de resumir e apresentar dados é através de tabelas de distribuição de
frequências. Estas tabelas podem ser de dois tipos: de classificação simples ou de classificação
cruzada. Entretanto, para esta disciplina e, neste curso especifico, veremos somente as tabelas
de classificação simples.
Quando a variável em estudo for categórica ou, em alguns casos numérica discreta, a
tabela de distribuição de frequências apresentará a seguinte característica: cada valor da variável
constituirá uma classe.
Construção da Tabela:
2° Passo: contar o número de elementos em cada classe, ou seja, contar quantas vezes o
dado está repetido.
A seguir, veremos por meio de exemplos, como construir uma tabela de distribuição de
frequências para os dados de uma variável categórica (Exemplo: 1) e de uma variável
numérica discreta (Exemplo: 2).
Exemplo 1:
ruim, médio, bom, médio, ruim, médio, ruim, médio, ruim, bom, médio, médio, bom,
médio, médio, médio, óptimo, médio, bom, óptimo, bom, óptimo, médio, óptimo, médio,
ruim, médio, óptimo, médio, médio, bom, ruim, bom, bom, médio, ruim, médio, médio,
óptimo, médio, bom, ruim, ruim, bom, médio, médio, ruim, bom, médio, médio, bom, bom,
bom, médio, ruim, bom, médio, médio, ruim, médio.
Podemos observar que esta variável categórica ou qualitativa ordinal apresenta quatro
níveis (ruim, médio, bom e óptimo). Como cada nível deve constituir uma classe da
distribuição de frequências, já está determinado que o número total de classes (k) é quatro (4).
Assim, o primeiro passo é a ordenação (rol) dos níveis da variável. Assim teremos:
ruim, ruim, ruim, ruim, ruim, ruim, ruim, ruim, ruim, ruim, ruim, ruim, médio, médio,
médio, médio, médio, médio, médio, médio, médio, médio, médio, médio, médio, médio,
médio, médio, médio, médio, médio, médio, médio, médio, médio, médio, médio, médio,
médio, bom, bom, bom, bom, bom, bom, bom, bom, bom, bom, bom, bom, bom, bom, bom,
óptimo, óptimo, óptimo, óptimo, óptimo, óptimo.
O passo a seguir é a contagem do número de estudantes em cada nível. Estes valores são
denotados por Fj e chamados de Frequências Absolutas das classes. A partir das Frequências
Absolutas, podemos obter outras frequências de interesse numa distribuição, tais como:
Frequência Absoluta Acumulada na classe j, denotada por Facj, que expressa o número
de elementos (observações) acumuladas até a classe j;
frequência relativa na classe j, denotada por fj, que expressa a proporção de elementos
(observações) na classe j;
frequência relativa acumulada na classe j, denotada por facj, que expressa a proporção
de elementos (observações) acumuladas até a classe j.
Frequência Absoluta(Fj)
frequênciarelativa(fj)= ;
dimensão da amostra
Exemplo 2:
2, 5, 6, 0, 4, 4, 3, 4, 2, 2, 3, 3, 5, 3, 5, 1, 2, 4, 2, 3, 5, 4, 3, 3, 2, 3, 0, 4, 4, 3, 4, 0, 3, 1, 2, 4, 2, …
Como cada valor da variável deve constituir uma classe e foram observados apenas sete
valores diferentes para esta variável, a tabela de distribuição de frequências terá sete classes.
Através da contagem do número de vezes que cada valor apareceu, ou seja, do número de
observações em cada classe, obtemos as Frequências Absolutas (Fj), as frequências relativas (fj),
as Frequências Absolutas Acumuladas (Facj) e, as frequências relativas acumuladas (fac j),
apresentadas na tabela a seguir:
Devemos observar, ainda, que tão importante quanto saber construir uma tabela é saber
interpretar os seus valores. Vejamos, como exemplo, o significado de alguns valores da tabela:
Fac3 = 227 ― significa que, das 350 propriedades rurais consultadas, 227 possuem menos
de 3 animais portadores de brucelose;
fac5 = 0,9714 ― significa que a proporção de propriedades rurais que possuem menos de
4 animais portadores de brucelose é de 0,9714, ou seja, em percentual é de 97,14%.
Devemos observar, no entanto, que em algumas situações uma variável discreta também
poderá assumir tantos valores diferentes que a construção de uma tabela onde cada valor
constitui uma classe seja impraticável. Ou seja, pode ocorrer que ela tenha tantas linhas que a sua
construção pouco auxilie na descrição resumida dos dados. Assim, nesses casos, por uma questão
Construção da Tabela
2° Passo: determinar o número de classes da tabela. De modo geral, este valor não deverá
ser inferior a 5 e nem superior a 15. Assim, a definição do número de classes deverá ser
orientada pelos objectivos do trabalho, mas existem algumas regras objectivas de determinação,
como por exemplo, a fórmula de Sturges:
k = 1 + 3, 32 x log n;
ou
k =√ n ;
Onde:
k = número de classes;
n = número de observações;
at
i=
k
Onde:
k = número de classes.
Nota-se assim que, a amplitude do intervalo é constante para todas as classes. O intervalo
fechado à esquerda e aberto à direita, representado pelo sinal |―, garante a não superposição
de classes.
Exemplo 3:
16, 17, 17, 18, 18, 18, 19, 20, 20, 20, 20, 20, 21, 21, 22, 22, 23, 23, 23, 23, 23,23, 23, 23, 23, 25,
25, 25, 25, 25, 25, 26, 26, 27, 27, 27, 27, 28, 28, 28, 29, 29, 29, 30, 30, 30, 30, 30, 30, 30, 31, 32,
33, 33, 33, 34, 34, 35, 36, 39.
Sendo o peso uma variável contínua cujos os valores poderiam ser todos diferentes entre
si, não podemos considerar cada valor como sendo uma classe, de modo que não podemos saber
de antemão o número de classes da distribuição de frequência (j). Este valor deverá ser
determinado e, para isso, usaremos a fórmula de Sturges. Para n = 60, teremos:
k = 6,9.
Como o número de classes tem que ser um número inteiro, teremos que arredondar o
valor 6,9. Usaremos como regra o arredondamento para cima (por excesso). Deste modo, o
número de classes será k = 7.
Uma vez determinado o valor de “k”, temos que obter a amplitude dos intervalos (i), mas
antes temos que determinar a amplitude total do conjunto de valores (at).
at = ES – EI at = 39 – 16 at = 23.
at 23
i= ;i= ; i=3,2857
k 7
Por uma questão de practicidade, vamos arredondar o valor da amplitude do intervalo (i)
para uma casa decimal, lembrando que o arredondamento, também neste caso, deverá ser sempre
para cima (por excesso). Assim, teremos i = 3,3.
Portanto, para a obtenção das Frequências Absolutas (Fj) das classes, contamos quantos
valores (observações) do conjunto de dados pertencem a cada intervalo. As demais frequências
(Facj, fj, facj), como já vimos anteriormente, derivam da Frequência Absoluta (Fj).
EIj+ ESj
cj=
2
Onde:
F3 = 15 ― significa que 15 dos 60 bovinos machos nasceram com peso entre 22,6 e 25,9
kg, este último valor não incluso;
Fac5 = 52 ― significa que 52 dos 60 bovinos machos nasceram com peso entre 16 e 32,5
kg, este último valor não incluso;
f2 = 0,15 ― significa que a proporção de bovinos machos que nasceram com peso entre
16 e 22,6 kg, este último valor não incluso é de 0,15 ou seja, em percentual é de 15%;
fac6 = 0,9667 ― significa que a proporção de bovinos machos que nasceram com peso
entre 16 a 35,8 kg, este último valor não incluso é de 0,9667 ou seja, em percentual é de 96,67%.
1. Os dados a seguir se referem aos números de pães não vendidos em uma certa padaria
até a hora do encerramento do expediente:
0 0 4 2 0 1 0 2 0 4
1 0 0 3 2 0 1 0 0 0
2 0 0 1 0 0 3 2 1 7
0 1 0 0 2 0 0 3 2 1
2. Os dados em rol (ordenação horizontal) abaixo se referem aos valores gastos (em
meticais) pelas primeiras 50 pessoas que entraram em um determinado supermercado, na cidade
de Maxixe em 01/01/2020.
3,11 8,88 9,26 10,81 12,69 13,78 15,23 15,62 17,00 17,39
18,36 18,43 19,27 19,50 19,54 20,16 20,59 22,22 23,04 24,47
24,58 25,13 26,24 26,26 27,65 28,06 28,08 28,38 32,03 36,37
38,64 38,98 39,16 41,02 42,97 44,08 44,67 45,40 46,69 48,65
50,39 52,75 54,80 59,07 61,22 70,32 82,70 85,76 86,37 93,34
Introdução
Medidas de Localização
Medidas Separatrizes
Medidas de Variação
Medidas de Formato
Em suma, existe uma enorme variedade de medidas descritivas muitas delas que
concorrem entre si. Mas, para a escolha da medida mais adequada para o uso em um determinado
tipo de análise, pode-se recorrer as seguintes questões básicas:
Estas questões devem ser respondidas, na medida em que, uma medida descritiva deve
sempre que possível, possuir as seguintes características: ser interpretativa, ser de fácil
interpretação e prestar-se a tratamento matemático e/ou estatístico em etapas posteriores.
MÉDIA ARITMÉTICA ( X )
Sejam os elementos x1, x2, x3, …, xn de uma amostra, portanto “n” valores de uma
variável “X”. Assim, a média aritmética da variável aleatória de X é definida por:
∑ Xi
X = i =1
n
Onde:
X : Média Aritmética;
Exemplo:
∑ Xi 3+7+8+10+11 39 X =7.8
X = i =1 ↔X= ↔X= ↔
n 5 5
Interpretação:
∑ Xi × Fi
i=1
X=
n
Onde:
X : Média Aritmética;
Exemplo:
Em um determinado dia foi registado o número de veículos negociados por uma amostra
de 10 vendedores de uma agencia de automóveis obtendo a seguinte tabela:
Veículos Número de
Negociados Vendedores Xi x F i
(Xi) (Fi)
1 1 1
2 3 6
3 5 15
4 1 4
Total 10 26
Portanto:
∑ Xi × Fi [ ( 1 ×1 ) + ( 2× 3 ) + ( 3 ×5 ) + ( 4 ×1 ) ] 1+6 +15+4 26
i=1
X= ↔ X= ↔ X= ↔ X= ↔ X=2,6
n 10 10 10
Interpretação:
Exemplo:
Pontuações em Alunos
Classes Fi Xi Xi x Fi
35|― 45 5 40 200
45|― 55 12 50 600
55|― 65 18 60 1.080
65|― 75 14 70 980
75|― 85 6 80 480
85|― 95 3 90 270
∑(somatório) 58 - 3.610
Interpretação:
MODA (Mo)
A Moda representada por (Mo), é o valor de maior ocorrência (mais frequente) num
conjunto de dados. É a única medida que pode não existir e, existindo, pode não ser única.
Modal ou Unimodal, se apresentar uma e única moda, ou seja, o mesmo valor repetido
varias vezes no conjunto de dados em relação aos demais;
Amodal, se não apresentar moda, ou seja, não existe nenhum valor que se repete ou que
ocorre com mais frequência ou ainda, se todos os valores do conjunto ocorrerem com a mesma
frequência.
Sejam os elementos x1, x2, x3, …, xn de uma amostra, o valor da moda para este tipo de
conjunto de dados é simplesmente o valor com maior frequência.
Exemplo 1:
Interpretação:
Exemplo 2:
Mo1 = 3
Mo2 = 8
Interpretação:
Exemplo 3:
Interpretação:
Exemplo 4:
Interpretação:
NOTA: é importante frisar que, para além de conjuntos de dados com duas modas - Bimodal,
também podemos encontrar conjuntos de dados com três modas – Trimodal e, conjunto de
dados com mais de três modas, que se denominam por conjunto Multimodal ou Polimodal.
Exemplo:
Em um determinado dia foi registado o número de veículos negociados por uma amostra
de 10 vendedores de uma agência de automóveis obtendo a seguinte tabela.
Veículos Número de
Negociados Vendedores
(Xi) (Fi)
1 1
2 3
3 5
4 1
Total 10
Interpretação:
Para dados agrupados em classe, temos diversas fórmulas para o calculo da moda. Assim
para esta disciplina, utilizaremos a fórmula de Czuber.
Procedimentos:
1° Passo: Identificar a classe modal (aquela que possui maior Frequência Absoluta) –
CLASSE(Mo);
∆1
Mo=EI + ×h ; em que: ∆1 = Fi – Fi anterior; ∆2 = Fi – Fi posterior;
∆ 1+ ∆ 2
Onde:
Mo: Moda;
∆1/2: Variação das Frequências Absolutas em Relação à Frequência Absoluta da Classe Modal;
at
i ⟺h=
k
a t=ES−EI
k =1+3,32× log n
Em que:
ES: Extremo Superior do conjunto de dados observados, ou seja, o maior valor observado nos
dados;
EI: Extremo Inferior do conjunto de dados observados, ou seja, o menor valor observado nos
dados;
Exemplo:
Pontuações em Alunos
Classes Fi
21|― 24 8
24|― 27 9
27|― 30 1
30|― 33 4
33|― 36 7
36|― 39 1
∑(somatório) 30
1° PASSO: Identificar a classe modal (aquela que possui maior Frequência Absoluta) –
CLASSE(Mo);
∆1 1
Mo=EI + ×h ⇛ Mo=24 + ×3 ⇔ Mo=24+0,3333 ⇔ Mo=24,33
∆ 1+ ∆ 2 1+ 8
Interpretação:
Em que:
∆1 = Fi – Fi anterior ⟺ ∆1 = 9 – 8⟺ ∆1 = 1.
∆2 = Fi – Fi posterior ⟺ ∆2 = 9 – 1⟺ ∆2 = 8.
at 18
i ⟺h= ⟺ h= ⟺ h=3
k 6
MEDIANA (Md)
Sejam os elementos x1, x2, x3, …, xn de uma amostra, portanto “n” valores da variável
“X”. A mediana da variável aleatória de “X” é definida por:
Se “n” for PAR, então o valor da mediana será a média das duas observações adjacentes
n+1
à posição p= ; ou seja, neste caso temos duas posições centrais no conjunto de dados
2
n+1
ordenados, denotados por p1 e p2. Ao utilizarmos a expressão p= , obtemos um valor não
2
inteiro. Assim, as preposições p1 e p2 são os dois inteiros mais próximos do valor de p. Portanto,
a mediana (Md) será a média aritmética simples dos valores do conjunto de dados que ocupam
X p1 + X p 2
as posições p1 e p2, ou seja: Md= .
2
n+1
Se “n” for ÍMPAR, então o valor da mediana será o valor localizado na posição p=
2
Exemplo 1:
Como “n” é PAR, ou seja n = 6, então o valor da mediana (Md) estará localizado na
n+1 6+ 1
posição p= ⇔ p= ⇔ p=3,5 ,logo , p1 =8 e p2=10 . Assim, aplicando a fórmula da
2 2
mediana para este tipo de casos termos:
X p1 + X p 2 8+ 10 18
Md= ⇔ Md = ⇔ Md= ⇔ Md =9.
2 2 2
Interpretação:
50% dos funcionários possuem até 9 anos de tempo de serviço, ou, 50% dos funcionários
possuem no mínimo 9 anos de tempo de serviço.
Exemplo 2:
Como o “n” é IMPAR, ou seja, n = 5, então o valor da mediana (Md) estará localizada
n+1 5+1
na posição p= ⇔ p= ⇔ p=3 , logo , a Md =8.
2 2
Interpretação:
50% dos funcionários possuem até 8 anos de tempo de serviço, ou, 50% dos funcionários
possuem no mínimo 8 anos de tempo de serviço.
Exemplo:
Em um determinado dia foi registado o número de veículos negociados por uma amostra
de vendedores de uma agência de automóveis, obtendo a seguinte tabela:
Veículos Número de
Negociados Vendedores Fac
(Xi) Fi
1 1 1
2 3 4
3 5 9
4 1 10
∑(somatório) 10 -
n 10
POS ( Md ) = ⇔ POS ( Md )= ⇔ POS ( Md )=5.
2 2
Interpretação:
PROCEDIMENTOS:
n
1. Calcula-se a posição da Mediana: POS ( Md ) =
2
2. Pela Frequência Absoluta Acumulada (Fac), identifica-se a classe que contém o valor da
Mediana: CLASSE(Md);
POS ( Md )−Fac anterior
3. Utiliza-se a seguinte fórmula: Md=EI + ×h
Fi
Onde:
Md: Mediana;
at
i ⟺h=
k
a t=ES−EI
k =1+3,32× log n
Em que:
ES: Extremo Superior do conjunto de dados observados, ou seja, o maior valor observado nos
dados;
EI: Extremo Inferior do conjunto de dados observados, ou seja, o menor valor observado nos
dados;
Exemplo:
Pontuações em Alunos
Classes Fi Fac
21|― 24 8 8
24|― 27 9 17
27|― 30 1 18
30|― 33 4 22
33|― 36 7 29
36|― 39 1 30
∑(somatório) 30 -
n 30
1° PASSO: Calcula-se a posição da Mediana: POS ( Md ) = ⇔ POS ( Md )= ⇔ POS ( Md )=15 .
2 2
2° PASSO: Pela Frequência Absoluta Acumulada (Fac), identifica-se a classe que contém o
valor da Mediana: CLASSE(Md);
Interpretação:
50% dos alunos obtiveram a pontuação máxima de 26,33 pontos, ou então, metade dos
alunos obtiveram pontuação maior que 26,33 pontos.
Em que:
at 18
i ⟺h= ⟺ h= ⟺ h=3
k 6
Assim sendo, como medidas Separatrizes temos as seguintes: Quartis, Decis e Percentis.
QUARTIS
Quartis são os valores (Q1, Q2 e Q3) que dividem a amostra, depois de ordenada, em
quatro partes iguais (ou o mais igual possível). Assim, o Q1 é o valor da variável que deixa
atrás de si 25% das observações (dos elementos), o Q2 é o valor da variável que deixa atrás de si
50% das observações (dos elementos) e, por fim, o Q3 é o valor da variável estatística que deixa
atrás de si 75% das observações (elementos).
Portanto, dizer que os quartis dividem a série em quatro partes iguais não significa que,
por exemplo, os intervalos (Q1 e Q2) e (Q2 e Q3) têm a mesma amplitude, mas sim que contêm o
mesmo número de observações. Não menos importante, é o facto de que o Q2, corresponder à
Mediana (Md), ou seja, (Q2 = Md).
n
1° PASSO: calcular a posição do quartil com a seguinte fórmula: POS (Qi)= × i
4
Onde:
2° Passo: pela Frequência Absoluta Acumulada (Fac), identificar a classe que contêm o valor do
quartil: CLASSE (Qi);
Onde:
Qi: quartil i;
at
i ⟺h=
k
a t=ES−EI
k =1+3,32× log n
Em que:
ES: Extremo Superior do conjunto de dados observados, ou seja, o maior valor observado nos
dados;
Autor: Rosângelo Paúnde Página 49
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
EI: Extremo Inferior do conjunto de dados observados, ou seja, o menor valor observado nos
dados;
Exemplo:
5 5 5 6 6 6 7 7 7 7
7 8 8 8 8 8 8 8 9 9
10 10 10 10 10 11 11 11 12 12
12 12 12 12 12 12 12 13 14 14
14 14 14 14 14 15 16 19 22 23
Do rol acima, esboçou-se a tabela abaixo, que representa o número de erros de impressão
da primeira página de um jornal durante 50 dias. Determinar o Q1 e o Q3.
Em que:
at 18
i ⟺h= ⟺ h= ⟺ h=2,5714 ⟺ h ≅ 3
k 7
Classes Fi Fac
5|― 8 11 11
8|― 11 14 25
11|― 14 13 38 DETERMINAÇÃO DO QUARTIL (Q1):
14|― 17 9 47
17|― 20 1 48
20|― 23 1 49
23|― 26 1 50
∑(somatório)
Autor: Rosângelo Paúnde 50 - Página 50
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
2° PASSO: Pela Frequência Absoluta Acumulada (Fac), identificar a classe que contêm o valor
do primeiro Quartil: CLASSE (Q1);
Interpretação:
25% do jornal, obteve no máximo 8,32 erros na impressão da primeira página, ou então,
75% do jornal, obteve mais de 8,32 erros na impressão da primeira página.
2° PASSO: Pela Frequência Absoluta Acumulada (Fac), identificar a classe que contêm o valor
do terceiro Quartil: CLASSE (Q3);
Interpretação:
75% do jornal, obteve menos de 13,89 erros na impressão da primeira página, ou então,
25% do jornal, obteve pelo menos 13,89 erros na impressão da primeira página.
DECIS
Os decis dividem a série ordenada em 10 partes iguais, contendo cada uma delas 1/10 ou
10% das observações ou dos elementos da série ordenada ou do conjunto de dados.
n
1° PASSO: calcular a posição do decil com a seguinte fórmula: POS ( Di)= ×i
10
Onde:
2° Passo: pela Frequência Absoluta Acumulada (Fac), identificar a classe que contêm o valor do
decil: CLASSE (Di);
Onde:
Di: decil i;
at
i ⟺h=
k
a t=ES−EI
k =1+3,32× log n
Em que:
ES: Extremo Superior do conjunto de dados observados, ou seja, o maior valor observado nos
dados;
EI: Extremo Inferior do conjunto de dados observados, ou seja, o menor valor observado nos
dados;
Exemplo:
5 5 5 6 6 6 7 7 7 7
7 8 8 8 8 8 8 8 9 9
Autor: Rosângelo Paúnde Página 53
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
10 10 10 10 10 11 11 11 12 12
12 12 12 12 12 12 12 13 14 14
14 14 14 14 14 15 16 19 22 23
Do rol acima, esboçou-se a tabela abaixo, que representa o número de erros de impressão
da primeira página de um jornal durante 50 dias. Determinar o sexto Decil (D6).
Em que:
at 18
i ⟺h= ⟺ h= ⟺ h=2,5714 ⟺ h ≅ 3
k 7
Classes Fi Fac
5|― 8 11 11
8|― 11 14 25
11|― 14 13 38 DETERMINAÇÃO DO SEXTO DECIL
14|― 17 9 47 (D6):
17|― 20 1 48
1° PASSO: Calcula-se a posição do sexto
20|― 23 1 49
Decil (D6) com a seguinte fórmula:
23|― 26 1 50
∑(somatório) 50 -
n 50
POS ( D i) = ×i ⇔ POS ( D6 )= × 6 ⇔ POS ( D6 )=30 .
10 10
2° PASSO: Pela Frequência Absoluta Acumulada (Fac), identificar a classe que contêm o valor
do sexto Decil: CLASSE (D6);
Interpretação:
60% do jornal, obteve erros inferiores a 12,15 páginas na impressão da primeira página,
ou então, 40% do jornal, obteve um mínimo de 12,15 erros na impressão da primeira página.
PERCENTIS
n
1° PASSO: calcular a posição do percentil com a seguinte fórmula: POS (Pi)= ×i
100
Onde:
2° Passo: pela Frequência Absoluta Acumulada (Fac), identificar a classe que contêm o valor do
percentil: CLASSE (Pi);
Onde:
Pi: percentil i;
at
i ⟺h=
k
a t=ES−EI
k =1+3,32× log n
Em que:
ES: Extremo Superior do conjunto de dados observados, ou seja, o maior valor observado nos
dados;
EI: Extremo Inferior do conjunto de dados observados, ou seja, o menor valor observado nos
dados;
Exemplo:
Exemplo:
Autor: Rosângelo Paúnde Página 56
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
5 5 5 6 6 6 7 7 7 7
7 8 8 8 8 8 8 8 9 9
10 10 10 10 10 11 11 11 12 12
12 12 12 12 12 12 12 13 14 14
14 14 14 14 14 15 16 19 22 23
Do rol acima, esboçou-se a tabela abaixo, que representa o número de erros de impressão
da primeira página de um jornal durante 50 dias. Determinar o Percentil de ordem 40 (P40).
Em que:
at 18
i ⟺h= ⟺ h= ⟺ h=2,5714 ⟺ h ≅ 3
k 7
Classes Fi Fac
5|― 8 11 11
8|― 11 14 25
11|― 14 13 38 DETERMINAÇÃO DO PERCENTIL DE
14|― 17 9 47 ORDEM 40 (P40):
17|― 20 1 48
1° PASSO: Calcula-se a posição do Percentil
20|― 23 1 49
de ordem 40 (P40) com a seguinte fórmula:
23|― 26 1 50
∑(somatório) 50 -
n 50
POS ( Pi ) = ×i ⇔ POS ( P 40 )= × 40 ⇔ POS ( P40 )=20 .
100 100
2° PASSO: Pela Frequência Absoluta Acumulada (Fac), identificar a classe que contêm o valor
do Percentil de Ordem 40: CLASSE (P40);
3° PASSO: utilizar a fórmula a seguir para determinar o valor do Percentil de ordem 40:
Interpretação:
40% dos erros de impressão da primeira página do jornal, foram menores que 9,93
páginas/folhas, ou então, 60% do jornal, obteve erros de impressão da primeira página maior que
9,93 páginas/folhas.
d) 45
3. Calcule para cada caso abaixo a respectiva média:
a) 7, 8, 9, 12, 14.
b)
(Xi) Fi
3 2
4 5
7 8
8 4
12 3
∑(somatório)
c)
Classes Fi
68|― 72 8
72|― 76 20
76|― 80 35
80|― 84 40
∑(somatório)
(Xi) Fi
73 2
75 10
77 12
79 5
81 2
∑(somatório)
c)
Classes Fi
1|― 3 3
3|― 5 5
5|― 7 8
7|― 9 6
9|― 11 4
11|― 13 3
∑(somatório)
5. Calcule a Moda:
a) 3, 4, 7, 7, 7, 8, 9, 10;
b)
(Xi) Fi
2,5 7
3,5 17
4,5 10
6,5 5
∑(somatório)
c)
Classes Fi
10|― 20 7
20|― 30 19
30|― 40 28
40|― 50 32
Autor: Rosângelo Paúnde
∑(somatório) Página 60
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
6. Para a distribuição abaixo, calcule o segundo Decil (D2); o Percentil de ordem quatro (P4)
e o terceiro Quartil (Q3).
20|― 30 3
30|― 40 8
40|― 50 18
50|― 60 22
60|― 70 24
∑(somatório)
INTRODUÇÃO
Uma medida de tendência central não nos dá, só por si, uma informação exaustiva da
distribuição considerada. Pelo contrário, a capacidade que se lhe atribui de representar os
elementos de uma distribuição depende do modo como estes se concentram ou dispersam em
torno dela.
Assim, podemos dizer que os parâmetros de tendência central não são suficientes para
caracterizar uma série estatística, apesar de a mediana e os quartis darem já uma ideia sumária do
modo como estão distribuídas as observações.
Por conseguinte, para melhor caracterizar uma distribuição, temos de considerar, para
além das medidas de tendência central, uma outra medida que exprima o grau de dispersão ou
variabilidade dos dados.
Em suma:
Assim sendo, consideraremos quatro a cinco medidas de dispersão: Amplitude Total (at
ou R), Desvio Médio (DM), Variância (S2), Desvio Padrão (S) e Coeficiente de Variação (CV).
É a diferença entre o maior e o menor dos valores da série, ou seja, do conjunto de dados
da distribuição. No entanto, a utilização da amplitude total como medida de dispersão é muito
limitada, pois sendo uma medida que depende apenas dos valores externos (limite/extremo
inferior e limite/extremo superior), é instável, não sendo afectada pela dispersão dos valores
internos.
Por isso mesmo, esta medida é considerada por muitos estudiosos da área da Estatística,
como uma das medidas mais elementares, ou seja, muito precária. Este posicionamento é
justificável pois a amplitude não dá informe algum, a respeito da maneira pela qual os valores se
distribuem entre os valores extremos.
FÓRMULA:
R ⇔ at =ES−EI
Onde:
∑ Xi 4+ 6+6+6 +8 30
i =1
X= ↔X= ↔ X = ↔ X=6.
n 5 5
∑ Xi 4+ 5+6+7+ 8 30
X = i =1 ↔X= ↔ X= ↔ X =6.
n 5 5
entre si, ou seja, heterogéneos e, muito distantes ou distorcidos em relação à media que é X =6.
Mas, no primeiro conjunto, verifica-se que os valores são bem próximos entre si, ou seja, são
homogéneos e, giram em volta da média que é igualmente X =6.
A amplitude total é a forma mais fácil de avaliar a dispersão dos dados, de tal forma que,
quanto maior for a amplitude total, maior será a dispersão dos dados.
O desvio médio analisa a média dos desvios em torno da média. E, para o seu cálculo,
temos que considerar as seguintes situações:
Sejam os elementos x1, x2, x3, …, xn de uma amostra, portanto “n” valores da variável
“X”, com média igual a X . O Desvio Médio (DM) da variável aleatória de “X” será definido
por:
∑ ¿ Xi−X∨¿
i=1
DM = ¿
n
Onde:
X :Média Aritmética e;
Exemplo:
∑ Xi 3+7+8+10+11 39
X = i =1 ↔X= ↔ X = ↔ X=7,8
n 5 5
∑ ¿ Xi−X∨¿
⇔ DM =¿ 3−7,8∨+¿ 7−7,8∨+ ¿ 8−7,8∨+¿ 10−7,8∨+¿ 11−7,8∨ ¿ ⇔ DM =¿ 4,8+0,8+ 0
i=1
DM =
n 5
Interpretação:
∑ ¿ Xi−X∨¿ × F i
i=1
DM = ¿
n
Onde:
X :Média Aritmética e;
Exemplo:
Em um determinado dia foi registado o número de veículos negociados por uma amostra
de 10 vendedores de uma agência de automóveis como a tabela abaixo indica. Determine o
Desvio Médio.
∑ Xi × Fi [ ( 1 ×1 ) + ( 2× 3 ) + ( 3 ×5 ) + ( 4 ×1 ) ] 1+6 +15+4 26
i=1
X= ↔ X= ↔ X= ↔ X= ↔ X=2,6
n 10 10 10
Logo:
∑ ¿ Xi−X∨× Fi 6,8
DM = i=1 ⇔ DM = ⇔ DM =0,68
n 10
Interpretação:
∑ ¿ Xi−X∨¿ × F i
i=1
DM = ¿
n
Onde:
X :Média Aritmética e;
Exemplo:
∑ ¿ Xi−X∨× Fi 596,52
DM = i=1 ⇔ DM = ⇔ DM=10,2848 ⇔ DM ≅ 10,29.
n 58
Interpretação:
Outra maneira de eliminar os sinais dos desvios, consiste em eleva-los ao quadrado. Por
isso, em vez da média dos valores absolutos dos desvios, considera-se a média dos quadrados
dos desvios, obtendo-se assim, uma outra medida de dispersão bastante utilizada – a variância.
Portanto, a variância de um conjunto de dados é a média dos quadrados dos desvios dos
valores a contar da média (SHIGUTI & SHIGUTI, 2006, p.58).
Corroborando com (SHIGUTI & SHIGUTI, 2006, p.58), (PIANA, MACHADO &
SELAU, 2009, p.46), acrescentam ainda que, a variância é denotada por S2 e, é a medida de
dispersão mais utilizada, seja pela facilidade de compreensão e cálculo, assim como pela
possibilidade de emprego na Inferência Estatística.
Os mesmos autores, definem ela como sendo a média dos quadrados dos desvios em
relação à média aritmética. Assim, a fórmula da variância poderá ser calculada de duas formas:
Sejam os elementos x1, x2, x3, …, xn, portanto “n” valores da variável “X”, com média
igual a X . A Variância da variável aleatória de “X” será definida por:
∑ ( Xi− X)2
σ 2= i=1
n
Ou
∑ (Xi−X )2
2 i=1
S=
n−1
Onde:
2
σ : Variância, usando dados populacionais;
2
S : Variância, usando dados amostrais;
X :Média Aritmética e;
NOTA:
Mas, se o objectivo for descrever a variação dos dados de uma amostra que será
utilizada para inferir sobre uma população, então a medida que deve ser utilizada é a variância
com o denominador “n – 1” e, será denotada por S2. Por conseguinte, a fórmula mais utilizada
em estatística é a que apresenta como denominador “n – 1”, devido ao uso de amostras de dados
em maior parte de pesquisas estatísticas, para posterior fazer inferências sobre um grupo maior,
ou seja, sobre a população.
Exemplo:
∑ Xi 3+7+8+10+11 39
i =1
X= ↔X= ↔ X = ↔ X=7,8
n 5 5
∑ ( Xi− X )2 ( 3−7,8 )2 + ( 7−7,8 )2+ ( 8−7,8 )2 + ( 10−7,8 )2+ (11−7,8 )2 23,04+0,64+ 0,04+ 4,84+10,
2 i=1 2
S= ⇔S = ⇔ S 2=
n−1 5 5−1
anos 2.
Fórmulas:
σ =√ σ 2
Ou
S= √ S2
Onde:
Exemplo:
∑ Xi 3+7+8+10+11 39
i =1
X= ↔X= ↔ X = ↔ X=7,8
n 5 5
∑ ( Xi− X )2 ( 3−7,8 )2 + ( 7−7,8 )2+ ( 8−7,8 )2 + ( 10−7,8 )2+ (11−7,8 )2 23,04+0,64+ 0,04+ 4,84+10,
2 i=1 2 2
S= ⇔S = ⇔S =
n−1 5 5−1
anos 2.
n n
∑ (Xi− X) × F i
2
Ou ∑ ( Xi−X )2 × F i
2 i=1 2 i=1
σ = S=
n n−1
Onde:
2
σ : Variância, usando dados populacionais;
2
S : Variância, usando dados amostrais;
X :Média Aritmética;
Exemplo:
Em um determinado dia foi registado o número de veículos negociados por uma amostra
de 10 vendedores de uma agência de automóveis como a tabela abaixo indica. Determine a
variância.
Veículos Número de X i × F i 2 2
(X ¿ ¿i− X ) ¿(X ¿ ¿i− X ) × F i ¿
Negociados Vendedores
(Xi) (Fi)
1 1 1 2,56 2,56
2 3 6 0,36 1,08
3 5 15 0,16 0,8
4 1 4 1,96 1,96
Total 10 26 - 6,4
∑ Xi × Fi [ ( 1 ×1 ) + ( 2× 3 ) + ( 3 ×5 ) + ( 4 ×1 ) ] 1+6 +15+4 26
i=1
X= ↔ X= ↔ X= ↔ X= ↔ X=2,6
n 10 10 10
Logo:
n n
∑ (Xi− X) × F i
2
Ou ∑ ( Xi−X )2 × F i
2 i=1 2 i=1
σ = S=
n n−1
Onde:
2
σ : Variância, usando dados populacionais;
2
S : Variância, usando dados amostrais;
X :Média Aritmética;
Exemplo:
Pontuações em Alunos Xi Xi × Fi 2
( X ¿ ¿i− X )2 ¿(X ¿ ¿i− X ) × F i ¿
Classes Fi
As medidas de dispersão que anteriormente nos referimos são medidas que se exprimem
na mesma unidade dos dados e, sendo assim, se torna impossível comparar entre si as dispersões
de duas distribuições, cujos valores não se refiram à mesma unidade.
Assim sendo, Coeficiente de Variação trata-se de uma média relativa à dispersão, útil
para a comparação e observação em termos relativos do grau de concentração em torno da média
de séries distintas e, o mesmo é denotado por (CV) e é dado pela seguinte fórmula:
Fórmula:
S
CV = × 100 %
X
Onde:
X : Média Aritmética e;
S: Desvio Padrão.
Exemplo:
S 1.500
CV = × 100 % ⟺ CV = × 100 % ⟺ CV =0,375 ×100 % ⟺ CV =37,5 %
X 4.000
S 1.200
CV = × 100 % ⟺ CV = ×100 % ⟺ CV =0,4 ×100 % ⟺ CV =40 %
X 3.000
Interpretação:
Conclui-se que, o salário das mulheres apresenta maior dispersão relativa, em relação ao
salário dos homens, apesar de ambos, serem classificados como que apresentam alta dispersão
por estarem acima dos 30%.
NOTA:
Várias medidas têm o objectivo de informar sobre o formato de uma distribuição. Entre
as mais precisas estão os Coeficiente de Assimetria de Pearson, Coeficiente de Assimetria de
Bowley e Coeficiente de Curtose, que são calculados a partir dos momentos da distribuição.
Entre as várias medidas de assimetria que devem informar se a maioria dos valores se
localiza à esquerda, ou à direita, ou se estão uniformemente distribuídos em torno da média
aritmética, temos o Coeficiente de Assimetria ou de Pearson, denotado por AS. Este
coeficiente, é representado pela seguinte fórmula:
3 ×(X−Md ) X −Mo
AS= ou AS=
S S
Onde:
X : Média Aritmética;
Md : Mediana;
Não obstante:
Q3+ Q1−2× Md
AB=
Q3−Q1
Onde:
Se, 0,1 < AB < 0,3, diz-se que a distribuição é assimétrica positiva moderada;
Se, - 0,3 < AB < - 0,1, diz-se que a distribuição é assimétrica moderada;
MEDIDAS DE CURTOSE
Entende-se por Curtose, o grau de achatamento de uma distribuição. Assim, para medir o
grau de curtose, denotado por (K), utilizaremos a seguinte fórmula:
Q3 −Q 1
K=
2 ×(P ¿ ¿ 90−P10 )¿
Onde:
K : Coeficiente de Curtose;
Se, K = 0,263, diz-se que o coeficiente de curtose apresenta uma curva mesocúrtica, ou seja, é
mesocúrtica;
Se, K > 0,263, diz-se que o coeficiente de curtose apresenta uma curva platicúrtica, ou seja, é
platicúrtica;
Se, K < 0,263, diz-se que o coeficiente de curtose apresenta uma curva leptocúrtica, ou seja, é
leptocúrtica.
Xi Fi
5 2
7 3
8 5
9 4
11 2
∑(somatório) 16
a) 1,28 ( )
b) 1,20 ( )
c) 1,0 ( )
d) 0,83 ( )
Classes Fi
03|―08 5
08|― 13 15
13|―18 20
18|― 23 10
∑(somatório) 50
Autor: Rosângelo Paúnde Página 81
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
Classes Fi
02|―06 6
06|― 10 12
10|―14 24
14|― 18 12
18|― 22 6
∑(somatório) 60
7. Sabe-se que uma distribuição apresentou as seguintes medidas: Q 1 = 24,4 cm; Q3 = 41,2
cm; P10 = 20,2 cm e, P90 = 49,5 cm. Com essas medidas, determine o valor do Coeficiente
de Curtose (K) e, classifique-o.
Introdução;
Conceitos Fundamentais;
Operações com Eventos
Conceitos de Probabilidade;
Axiomas e Teoremas de Probabilidades;
Exercícios de Consolidação da Unidade.
INTRODUÇÃO
A Estatística, desde as suas origens no antigo Egipto há 2000 anos antes de Cristo (aC),
até meados do século XIX, se preocupava apenas com a organização e apresentação de dados de
observações colectadas empiricamente (Estatística Descritiva).
CONCEITOS FUNDAMENTAIS
Probabilístico ou Aleatório, denotado por (E), Espaço Amostral, denotado por (S), Evento ou
Acontecimento, denotado por (Qualquer Letra Maiúscula do Alfabeto).
2
Fenómenos Aleatórios, são fenómenos cujos resultados individuais são incertos, mas para os quais se admite uma
regularidade a longo termo, possibilitando a obtenção de um padrão genérico de comportamento. Como exemplos de
fenómenos aleatórios, temos: Chave do totoloto em cada semana; Resposta de uma doença a um tratamento feito
com determinado medicamento; Estado do tempo no dia seguinte; Comportamento dos eleitores nas próximas
eleições legislativas; Comportamento de um aluno no exame de resposta de múltipla escolha, para o qual não
estudou; Comportamento do mercado perante um producto novo para lavar a roupa; etc.
Exemplos:
SHIGUTI & SHIGUTI (2006, p.64), definem Espaço Amostral como um conjunto de
todas as possíveis ocorrências de um determinado experimento aleatório (E).
Entretanto, PIANA, MACHADO & SELAU (2009, p.68), dizem que, Espaço Amostral,
é o conjunto de todos os possíveis resultados de um experimento aleatório, ou seja, é o conjunto
universo relativo aos resultados de um experimento. Assim, a cada experimento aleatório, está
associado um conjunto de resultados possíveis, ou Espaço Amostral.
Por outro lado, MARTINS ((2005, p.131) define Espaço Amostral, como o conjunto de
todos os resultados possíveis, associados à realização de uma experiência aleatória.
Exemplos:
como Espaço Amostral (S) os seguintes: S1 = {1; 2; 3; 4; 5; 6}, visto que, um dado não
defeituoso, contém 6 faces;
No seguinte Experimento Aleatório, que denotaremos por “dois” (E2): Lançamento de
uma moeda ao ar e observar o valor na face superior. Assim, para este caso, teremos
como Espaço Amostral (S) os seguintes: S2 = {cara; coroa}, visto que, uma moeda não
defeituosa, contém 2 faces, ou seja, cara ou coroa;
No seguinte Experimento Aleatório, que denotaremos por “três” (E3): Lançamento de
um dado e uma moeda ao ar e observar os números e os valores nas faces superiores.
Assim, para este caso, teremos como Espaço Amostral (S) os seguintes: S3 = {1 e cara; 2
e cara; 3 e cara; 4 e cara; 5 e cara; 6 e cara; 1 e coroa; 2 e coroa; 3 e coroa; 4 e coroa; 5 e
coroa; 6 e coroa}, visto que, um dado não defeituoso, contém 6 faces e uma moeda não
defeituosa, contém 2 faces;
Para PIANA, MACHADO & SELAU (2009, p.68), Evento ou Acontecimento é todo
conjunto particular de resultados do Espaço Amostral (S) ou, ainda, é todo o subconjunto do
Espaço Amostral (S). Geralmente, é denotado por qualquer letra maiúscula do abecedário
português (A; B; C, etc.).
Corroborando com os autores acima, SHIGUTI & SHIGUTI (2006, p.64), definem
Evento ou Acontecimento, como qualquer subconjunto de ocorrências de um determinado
espaço amostral (S).
Por outro lado, MARTINS (2005, p.131) afirma que, Evento ou Acontecimento é o
subconjunto do espaço amostral ou de resultados (S).
Exemplos:
NOTA:
A ∪ A=S e , A ∩ A=∅
Conjuntos Disjuntos
A ∩ B=∅
Exemplo:
Relação de Inclusão
Serve para indicar se um conjunto está contido ou não noutro conjunto, ou seja, se é ou
não seu subconjunto.
PROBABILIDADES. CONCEITOS.
0 ≤ P(A )≤ 1
P ( A )=1
P ( A ⋃ B )=P ( A ) + P ( B ) ; se A ∩ B=∅
P ( A )=1−P (A )
P(∅)=0
Assim, a Lei de Laplace, enuncia o seguinte: “Se uma experiência aleatória pode ter “N”
resultados mutuamente exclusivos e igualmente possíveis, e se desses resultados, “n” têm um
n
certo atributo “A”, então a probabilidade de “A” é dada por . E, habitualmente escreve-se:
N
Exemplo:
Dados:
N° de Casos Favoráveis = 3 faces, que corresponde ao que pretendemos que saia (Par):
A = {2, 4, 6}.
n N ° de Casos Favoráveis 3 1
P ( A )= → P ( A )= → P ( A )= → P ( A )= → P ( A )=0,5→ P ( A )=50 %
N N ° de Casos Possíveis 6 2
Dados:
Autor: Rosângelo Paúnde Página 91
Apontamentos da Disciplina de Introdução à Estatística – UniSave - Maxixe
N° de Casos Favoráveis = 2 faces, que corresponde ao que pretendemos que saia (N° não
inferior a 5): A = {5, 6}.
n N ° de Casos Favoráveis 2 1
P ( A )= → P ( A )= → P ( A )= → P ( A )= → P ( A ) =0,3333 → P ( A )=33,33 %
N N ° de Casos Possíveis 6 3
Dados:
N° de Casos Favoráveis = 1 face, que corresponde ao que pretendemos que saia (cara):
A = {cara}.
n N ° de Casos Favoráveis 1
P ( A )= → P ( A )= → P ( A )= → P ( A ) =0,5→ P ( A )=50 %
N N ° de Casos Possíveis 2
2.2 Coroa.
Dados:
N° de Casos Favoráveis = 1 face, que corresponde ao que pretendemos que saia (coroa):
A = {coroa}.
n N ° de Casos Favoráveis 1
P ( A )= → P ( A )= → P ( A )= → P ( A ) =0,5→ P ( A )=50 %
N N ° de Casos Possíveis 2
Dados:
N° de Casos Favoráveis = 4 Reis, que corresponde ao que pretendemos que saia (Rei): A
= {há 4 reis num baralho}.
n N ° de Casos Favoráveis 4 1
P ( A )= → P ( A )= → P ( A )= → P ( A )= → P ( A )=0,0769 → P ( A ) =7,69 %
N N ° de Casos Possíveis 52 13
Dados:
n N ° de Casos Favoráveis 13 1
P ( A )= → P ( A )= → P ( A )= → P ( A ) = → P ( A )=0,25 → P ( A )=25 %
N N ° de Casos Possíveis 52 4