Livro Probabilidade Estatistica 2a Ed
Livro Probabilidade Estatistica 2a Ed
Livro Probabilidade Estatistica 2a Ed
O que é Estatística:
Estatística: é uma parte da Matemática Aplicada que fornece métodos para a coleta, a organização, a descrição, a
análise e a interpretação de dados quantitativos e a utilização desses dados para a tomada de decisões.
Estatística: basicamente se divide em 3 áreas:
1. Descritiva;
2. Probabilidade;
3. Inferência Estatística.
• Estatística descritiva utiliza-se de análise (Análise Exploratória).
Objetivo: descrever e resumir os dados a fim de que possamos tirar conclusões a respeito de características de
interesse.
[ •1) Etapa inicial da análise de dados; •2) Tabelas; •3) Gráficos •4) Medidas resumo ]
• Probabilidade: a ferramenta matemática que deduz a partir de um modelo as propriedades de um fenômeno aleatório.
• Inferência: Conjunto de métodos que permite inferir o comportamento de uma população a partir do conhecimento da amostra.
População e Amostra
POPULAÇÃO: conjunto de elementos em estudo que tem pelo menos uma característica em comum. (pessoas, coisas,
objetos etc.). Exemplo: População de carros da cidade de São Paulo.
AMOSTRA: qualquer subconjunto, não vazio, de uma população.
Fases do Método Estatístico:
Podemos subdividi-las em:
• Coleta de dados;
• Apuração dos dados;
• Apresentação dos dados
• Análise, interpretação e conclusão dos dados.
Apuração dos dados: Assim que terminamos a coleta dos dados, torna-se mister sua apuração, ou contagem.
Denominamo-la como Tabulação. De posse desses dados (sobre o mesmo fenômeno), devemos ordená-los mediante
critérios de classificação. Essas classificações podem ser: manual, mecânica ou eletrônica.
VARIÁVEIS
FASES DO ESTUDO ESTATÍSTICO: Já nos ocupamos, anteriormente para falar do assunto. Vamos delinear as fases do
estudo da estatística, limitando-nos à definição do problema, planejamento, coleta dos dados, apuração dos dados,
apresentação dos dados através de tabulação (tabelas, gráficos) e, por último, a análise e interpretação dos dados.
DEFINIÇÃO DO PROBLEMA: Estamos interessados em formar dois times de basquete para enfrentar outro time da
faculdade vizinha, um masculino e outro feminino. Foi feito cartazes e afixados nos quadros de avisos de nossa Escola,
para nossa surpresa só apareceram baixinhos e baixinhas.
Nesta etapa devem-se ter claramente respostas às seguintes questões:
• O quê? (objetivo da pesquisa, público alvo, metodologia , entre outros)
• Onde:? (Local que será efetuado a pesquisa, uma sala de aula, um bairro, um município, estado etc.)
• Quando? (Época que será efetuada a pesquisa, situação de tempo)
PLANEJAMENTO: Definido o problema, torna-se mister como proceder para sua resolução. Como levantar as informações, como
obtê-los? Como se deve obtê-los, pesquisa de campo, questionário via correio? - Em síntese, é preciso planejar. Em relação ao
nosso problema, foram feitos novos cartazes, limitando à(os) candidatos(as), a altura mínima de 172,5cm.
COLETA DE DADOS: Em nosso trabalho, apareceram diversos candidatos, os mesmos não tomaram conhecimento da
condição exigida, apareceram 50 alunos com altura variando entre 150cm e 180cm. Aos dados coletados, à medida que
vão chegando os candidatos, dá-se o nome de dados brutos.
METODOLOGIA
Método Científico
Conhecimento: • VULGAR
• CIENTÍFICO
Vulgar: desconhece as verdadeiras causas dos fenômenos.
Científico: obedece a um método nas investigações, nas análises, nas pesquisas etc.
Método: conjunto de meios dispostos convenientemente para chegar a um fim que se deseja.
Método científico: alguns pontos a destacar
• Método Dedutivo;
• Método Indutivo;
• Método Experimental;
• Método Estatístico.
Método Dedutivo: É o que procede do geral para o particular. O raciocínio dedutivo parte de princípios gerais
considerados como verdadeiros e indiscutíveis para chegar a conclusões de maneira puramente formal, i.e., em virtude
unicamente de sua lógica.
Método Indutivo: Procede inversamente ao dedutivo: parte do particular e coloca a generalização como um produto
posterior do trabalho de coleta de dados particulares.
Método Experimental: consiste em manter constantes todas as causas (variáveis), exceto uma, e varia esta causa de
modo que o pesquisador possa descobrir seus efeitos, caso existam.
Método Estatístico: face à impossibilidade em manter as demais variáveis constantes, admite todas essas variáveis
(causas) presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências
cabem a cada uma delas.
Estatística: exprime por meio de números as observações que se fazem de elementos, com pelo menos, uma característica
comum. (ex.: os alunos do sexo masculino de uma cidade), obtemos os chamados DADOS referentes a esses elementos. logo,
Estatística: é uma parte da Matemática Aplicada que fornece métodos para a coleta, a organização, a descrição, a análise e a
interpretação de dados quantitativos e a utilização desses dados para a tomada de decisões.
TABULAÇÃO
A partir do momento que é feita a coleta e a crítica dos dados, e sua respectiva apuração, devemos efetuar a
apresentação dos dados, que geralmente é feita através de tabelas e gráficos, pois permitem a síntese dos resultados.
As tabelas devem obedecer ao seguinte postulado:
"Obter um máximo de esclarecimentos com um mínimo de espaço e tempo."
1. Corpo: é o conjunto de linhas e colunas que contêm informações sobre a variável que estamos estudando;
2. Cabeçalho: parte superior da tabela que indica o conteúdo das colunas;
3. Coluna indicadora: parte da tabela que especifica o conteúdo das linhas;
4. Casa ou célula: espaço destinado a um só número;
5. Título: conjunto de informações, as mais completas possíveis, dando respostas às perguntas: O quê?, Quando?,
Onde? Localizado no topo da tabela.
As tabelas devem apresentar o conjunto de informações de acordo com a Resolução 886, de 26 de outubro de 1966, do
Conselho Nacional de Estatística da Fundação IBGE. A tabela ou um gráfico, deve apresentar obrigatoriamente o
cabeçalho, o corpo e o rodapé. focalizado no topo da tabela.
Conforme modelo abaixo.
Sexo Freqüência
Masculino 59 125 361
Feminino 59 879 345
Total 119 002 706
FONTE: IBGE (1983)
ESTRUTURAÇÃO
Título: Título, é a apresentação do que a tabela está procurando representar, deve conter o suficiente para que sejam
respondidas as seguintes questões: O QUÊ? (referente ao fato), ONDE? (relativo ao lugar), QUANDO? (correspondente
ao tempo). Exemplo: Acidentes na rodovia dos Imigrantes em 1998.
ESTRUTURA DA TABELA
Coluna Indicadora
Cabeçalho: especifica a informação apresentada em cada coluna. Observe o exemplo de cabeçalho abaixo:
Corpo: é representado por um conjunto de linhas e colunas. Segundo o corpo, as tabelas podem ser: de simples entrada,
de Dupla Entrada e de Múltipla Entrada. veja o exemplo abaixo sobre o Corpo da tabela: é formado pelos dados
distribuídos em linhas e colunas:
59 125 361 49,7
59 879 345 50,3
119 002 706 100
Célula: o cruzamento de cada linha com uma coluna vem a constituir uma célula, exemplo: O número 59.879.345,
primeira coluna com a segunda linha, é uma casa ou célula.
59 879 345
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 6
Coluna indicadora: parte da tabela que especifica o conteúdo que cada linha contém. Exemplo:
Masculino
Feminino
Total
Existem, na tabela, outros elementos complementares a serem considerados, tais como: fontes, notas e chamadas.
Fonte: É a Instituição, a entidade responsável pelo fornecimento das informações, dos dados. Na tabela, em epígrafe,
como indica a fonte, colocada no rodapé, os dados foram fornecidos pela Fundação Instituto Brasileiro de Geografia e
Estatística – IBGE.
Não se indica a fonte nos casos em que a tabela é apresentadas pelo próprio pesquisador ou pelo próprio instituto que
obteve os dados.
Notas: São as informações, que servem para esclarecer o conteúdo da tabela.
Chamadas: são informações que servem para explicar ou conceituar determinados dados.
SÉRIES ESTATÍSTICAS
Chamamos de série estatística, toda tabela que apresenta uma distribuição de uma amostra ou população em função do
tempo, do local e espécie.
Tipos de Série
Quando o observador está estudando um fenômeno, sua atenção poderá voltar-se mais para: O tempo, o espaço e categoria.
• O tempo: o fenômeno é estudado em uma determinada faixa de tempo. É conhecida como (Séries temporais,
1
cronológicas, evolutivas, históricas ou marchas ).
Produção de automóveis no Brasil
no período de 1980-1982
Ano Número de automóveis
1980 600 706
1981 406 016
1982 475 112
FONTE: Fundação Getúlio Vargas (1986).
• O espaço: o fenômeno é estudado em uma ou mais região. É conhecida como Séries geográficas, espaciais,
territoriais ou de localização.
Casamentos registrados no Brasil
segundo a região, no ano 1983
Região Casamentos registrados
Norte 30 485
Nordeste 211 162
Sudeste 408 271
Sul 160 566
Centro-Oeste 55 706
FONTE: IBGE (1984).
• A categoria: o fenômeno é estudado, o tempo e o espaço são fixos, a categoria varia. É conhecida como Séries
categóricas ou específicas.
Ofertas de trabalho em São Paulo
Semana de 13-06 a 19-06 de 1986
Área Especializada Número de Vagas
Administração geral/Executivos 130
Marketing/Vendas 163
Finanças/Contábil 321
Informática 145
Produção/Materiais 739
Recursos Humanos 249
Total 1.747
FONTE: Data Folha
1
Este assunto está também em: PEREIRA e TANAKA (1990:40-42)
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 7
TABELAS: As tabelas recebem nomes de acordo com o tipo de estudo do fenômeno que expressam:
• Tabelas cronológicas: o fenômeno é estudado em uma faixa de tempo.
• Tabelas regionais ou geográficas: o fenômeno é estudado em diferentes regiões.
• Tabelas categóricas: o fenômeno é estudado por categorias.
• O tempo: o fenômeno é estudado em uma determinada faixa de tempo. É conhecida como Série cronológica.
• O espaço: o fenômeno é estudado em uma ou mais região. É também conhecida como Série geográfica.
Casamentos registrados no Brasil
segundo a região, no ano 1983
Região Casamentos registrados
Norte 30 485
Nordeste 211 162
Sudeste 408 271
Sul 160 566
Centro-Oeste 55 706
FONTE: IBGE (1984).
• A categoria: o fenômeno é estudado, o tempo e o espaço são fixos, a categoria varia. É conhecida como Série categórica.
Ofertas de trabalho em São Paulo
Semana de 13-06 a 19-06 de 1986
Área Especializada Número de Vagas
Administração geral/Executivos 130
Marketing/Vendas 163
Finanças/Contábil 321
Informática 145
Produção/Materiais 739
Recursos Humanos 249
Total 1.747
FONTE: Data Folha
ESTATÍSTICA GRÁFICA.
Corresponde às representações dos dados estatísticos sob diferentes formas gráficas com o objetivo de permitir
uma leitura rápida e global dos fenômenos estudados.
Os dados estatísticos, apresentados em tabelas, também podem ser expostos em gráficos. Desde que não haja
necessidade de grande precisão, os gráficos dão, melhor do que as tabelas, visão de tendências e ajudam a interpretar
um fenômeno em estudo.
Na apresentação gráfica deve tomar alguns cuidados, que são necessários:
a) todo gráfico deve ter título e escala, para que possa ser interpretado sem que haja necessidade de esclarecimentos
adicionais através de um texto;.
b) o titulo do gráfico pode ser escrito acima ou abaixo do gráfico. O IBGE escreve o titulo acima do gráfico;
c) no eixo dos X, eixo das abscissas, a escala cresce da esquerda para a direita e escrita embaixo do eixo, como mostra
o esquema abaixo:
0 1 2 3 4 5 6 7 8 9 10
2
O mesmo assunto é tratado em: VIEIRA e HOFFMANN (1988:28-29)
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 8
d) no eixo das ordenadas, a escala cresce de baixo para cima e é escrita à esquerda do eixo. Veja o exemplo abaixo:
5
4
3
2
1
0
f) as variáveis representadas cm cada eixo devem ser claramente identificadas. No eixo das ordenadas escreve-se o
nome da variável na extremidade do eixo. No eixo das abscissas escreve-se o nome da variável embaixo da escala:
Porcentagem
40
30
20
10
0
150 160 180 190 500
Altura (cm)
g) a escala deve iniciar-se na origem do sistema de eixos cartesianos. Quando os valores iniciais dos dados são muito
altos (como, por exemplo, 100, 101 etc.), deve ser feita urna interrupção no eixo, com indicação clara da posição do zero.
h) o sistema de eixos cartesianos e as linhas auxiliares devem ter traçado mais leve do que a parte do gráfico que se
pretende evidenciar:
Porcentagem
40
30
20
10
5 10 15 20 30
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 9
Meses Qtide
Jan 20
Fev 30
Mar 40
Abr 50
Maio 60
Jun 75
Jul 85
Ago 97
Set 103
Out 110
Nov 115
Dez 125
Fonte: Depto Vendas
Representação gráfica das Vendas de Automóveis na Região C. Trata-se de uma série histórica, o gráfico adequado para
representá-la é o gráfico de linha.
120
100
80
60
40
20
0
Jan Fev Mar Abr Maio Jun Jul Ago Set Out Nov Dez
GRÁFICO DE BARRAS
O gráfico de barras é usado para apresentar séries cronológicas, geográficas e categóricas. Para entender como
se faz um gráfico primeiro observe a série cronológica apresentada na tabela abaixo:
Para apresentar os dados da tabela acima, em um gráfico de barras, siga os seguintes passos:
População
(em milhões)
120
90
60
30
3) construa barras retangulares para representar a população em cada ano de censo. As barras deverão Ter as bases de
mesma largura, porém a altura será dada pela população de cada ano.
A apresentação gráfica de séries geográficas e categóricas, por gráficos de barras, é feita de maneira análoga. Veja o
exemplo:
Exportações Brasileiras
Março de 1995
SC
PR
ES
RS
MG
SP
Gráfico de Linhas: É usado para apresentar séries cronológicas. Veja o exemplo a seguir: (Utilizando a tabela
População presente no Brasil, do IBGE).
Gráfico Retangular de composição: É usado para evidenciar a composição percentual de uma amostra ou de uma
população. Veja o exemplo com dados fictícios:
2. se 50 alunos são representados por 7 cm, os 25 alunos com interesse em aprender Excel são representados por um
comprimento x, tal que:
7 x 7 x 25
= → x= ⇒ x = 3,5
50 25 50
Da mesma forma, os 15 alunos que não têm interesse por Excel são representados pelo retângulo, pelo comprimento y, tal que:
7 y 7 x 15
= → y= ⇒ y = 2,1
50 15 50
Os 10 alunos sem definição, não sabem se têm interesse por Excel é representado pelo retângulo, pelo comprimento z, tal que:
7 z 7 x 10
= → z= ⇒ z = 1,4
50 10 50
Feito os cálculos, marque os valores obtidos dentro do retângulo, separando-os por traços
RESUMO DE ESTATÍSTICA
AMOSTRA: qualquer subconjunto, não vazio, de uma população.
AMOSTRAGEM ALEATÓRIA SIMPLES: sorteia-se para o estudo pelo menos 10% dos elementos da população
AMOSTRAGEM ALEATÓRIA SISTEMÁTICA: sorteia-se de 1 a 10. Ele ser o primeiro elemento da amostra. Os demais elementos
correspondentes aos outros elementos, são determinados em intervalos de 10 unidades.
AMPLITUDE AMOSTRAL: AA = x(max) - x(min) {AA = Ls - Li, da amostra}
AMPLITUDE TOTAL: AT = L(max) - L(min). {AT = Ls - Li, da distribuição}
CARTOGRAMA: a representação sobre uma carta geográfica.
CENTIS ou PERCENTIS: Dividem a distribuição, em cem partes iguais.
Correlação: A intensidade e a direção do relacionamento entre duas variáveis. correlação curvilínea Relação entre X e Y que começa como
positiva (ou negativa) e inverte a direção.
Curtose [1]: Grau de achatamento de uma distribuição. Ela é medida em relação a uma curva normalmente achatada chamada
mesocúrtica. Uma curva mais achatada que ela será denominada platicúrtica e uma menos achatada (ou mais afilada), leptocúrtica.
Curtose [2]: O grau de achatamento de uma distribuição em relação a uma distribuição padrão, denominada CURVA NORMAL. Podem ser
leptocúrtica (bastante pontiaguda ou alta), platicúrtica (quando são achatadas) ou mesocúrtica (quando não são nem muito
pontiagudas nem muito achatadas).
Curva assimétrica: Estas curvas, assimétrica positiva e assimétrica negativa, apresentam a cauda de ordenada máxima mais longa que a
outra. Se a cauda é mais alongada à direita, é conhecida como assimétrica positiva ou inviesada à direita: moda > mediana > média.
assimétrica negativa: média < mediana < moda.
• Em uma distribuição simétrica a Média = Mediana = Moda (é o caso da Curva normal)
• Em uma distribuição assimétrica positiva a Média > Mediana > Moda
• Em uma distribuição assimétrica negativa a Média < Mediana < Moda
Curva normal: Distribuição suave, simétrica, em forma de sino e unimodal. decis Postos percentis que dividem em décimos a escala de 100
unidades. desvio A distância e a direção de qualquer escore bruto em relação à média.
Curva simétrica: Apresenta o valor máximo no ponto central e os pontos eqüidistantes desse ponto têm a mesma freqüência. (Medidas
de Assimetria, Medidas de Curtose).
CURVAS EM FORMA DE SINO: Caracterizam-se por ter um valor máximo na região central onde a média = mediana = moda.
Distinguimos a curva em forma de sino simétrica e assimétrica.
Curtose, Medida de: Medida de curtose, Entende-se por medida de curtose o grau de achatamento de uma distribuição. Curvas
Leptocúrtica, Mesocúrtica e platicúrtica.
Para medir o grau de curtose utilizaremos o coeficiente:
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 13
Coeficiente de Curtose
Q 3 − Q1
K =
2(P90 − P10)
em que:
P90 = 90º percentil; Q3 = 3º quartil
P10 = 10º percentil; Q1 = 1º quartil
• Se K = 0,263, dizemos que a curva correspondente à distribuição de freqüência é mesocúrtica;
• Se K > 0,263, dizemos que a curva correspondente à distribuição de freqüência é platicúrtica;
• Se K < 0,263, dizemos que a curva correspondente à distribuição de freqüência é leptocúrtica;
Dado Estatístico: - é o resultado da observação de um atributo/variável qualitativa ou quantitativa.
DADOS BRUTOS: são os dados coletados e ainda não organizados numericamente.
Dados Simples: - vão valores associados a uma dada variável e cuja representação é feita através de uma tabela.
DECIS: Dividem a amostra, distribuição, em dez partes iguais.
Definição do Problema: - é a primeira fase do estudo estatístico e consiste na definição e formulação correcta do problema a ser estudado.
Desvio médio: Soma dos desvios absolutos a contar da média dividida pelo número de escores em uma distribuição. Medida de
variabilidade que indica a média dos desvios em relação à média.
Desvio. Diferença entre um escore e a média aritmética. É equivalente à expressão afastamento, a qual, todavia, é menos empregada.
Desvio-padrão. Medida de dispersão ou variabilidade de um conjunto de valores. É igual à raiz quadrada da soma dos desvios ao quadrado
dividida pelo número de casos. Em outras palavras, é a raiz quadrada da média dos desvios elevados ao quadrado. Verifica-se que
quanto maior for o desvio-padrão, maior será a flutuação da variável em torno da média
DIAGRAMAS: são gráficos geométricos de, no máximo, duas dimensões, geralmente, para sua construção usamos o sistema cartesiano.
Distribuição de freqüências agrupadas: Tabela que indica a freqüência da ocorrência de casos situados dentro de uma série de intervalos
de classe.
Distribuição de Freqüências [1]. Tabela que indica as freqüências com que ocorrem os casos correspondentes a cada intervalo de classe
(ou valor individual da variável quando esta não estiver agrupada em classes).
Distribuição de Freqüências [2]: - o mesmo que Tabela de Freqüências.
Erro amostral: Diferença inevitável entre uma amostra aleatória e sua população, baseada apenas na chance.
Erro de Amostragem. Diferença entre os valores obtidos numa amostra (estatísticas) e os valores da população (parâmetros). Se um
escore for usado como estimador dos escores de toda a população, a diferença entre esse escore e a média de todos os valores
registrados será um erro de amostragem.
Erro padrão da diferença entre médias: Estimativa do desvio padrão da distribuição amostrai de diferenças baseada nos desvios padrão
de duas amostras aleatórias.
Erro padrão da média: Estimativa do desvio padrão da distribuição amostrai de médias com base no desvio padrão de uma única amostra
aleatória.
Erro Padrão da Medida. Erro padrão de qualquer medida, por causa das flutuações da amostragem ou dos erros de observação.
Erro Padrão. Desvio-padrão da distribuição dos diversos valores de uma estatística, em conseqüência da flutuação das amostras. Se, de
uma população, for tirado um grande número de amostras e calculadas as respectivas médias, haverá uma diferença entre cada média e
a média da população. Se for computada a média de tais médias, seu desvio-padrão será o erro da amostragem (a margem de erro a ser
esperada toda vez que se empregar tal processo de amostragem).
Erro tipo I: Erro que consiste em rejeitar a hipótese nula quando ela é verdadeira.
Erro tipo II: Erro que consiste em aceitar a hipótese nula quando ela é falsa.
Espaço Amostral. Conjunto de todos os possíveis resultados de uma experiência aleatória, resultados esses que podem ser de natureza
quantitativa ou qualitativa.
Estatística Descritiva Indutiva: descreve e analisa os fenômenos.
Estatística Descritiva[1]: Apuração, apresentação, análise e interpretação dos dados observados. Em outras palavras, descreve as
amostras ou a população.
Estatística Descritiva[2]: - ramo da Estatística que tem por finalidade descrever certas propriedades relativas a um conjunto de dados.
ESTATÍSTICA Indutiva[1]: baseada na análise dos fatos, infere conclusões de sua validade.
Estatística Indutiva [2]: Método que parte do particular para o geral, ou seja, o processo pelo qual são feitas generalizações para a
população, com base nas amostras. E também conhecida por inferência estatística.
Estatística Indutiva[3]: ramo da Estatística que procura inferir propriedades da população a partir de propriedades verificadas numa
amostra da mesma.
Estatística Indutiva [4]: baseada na análise dos fatos, infere conclusões de sua validade.
Estatística[1]: Qualquer número usado para descrever um aspecto da amostra. Assim, a média, o desvio-padrão, o coeficiente de
correlação entre dois conjuntos de medidas dos membros de uma amostra são exemplos de estatística. A cada estatística na amostra
corresponde um parâmetro na população. As estatísticas são representadas por letras de nosso alfabeto, ao passo que os parâmetros
são simbolizados pelas letras gregas correspondentes.
Estatística[2]:é o método que ensina a recolher, classificar, apresentar e interpretar um conjunto de dados numéricos.
Estimação: é uma avaliação indireta de um parâmetro, com base em um estimador através de cálculos de probabilidades.
Estimador: uma característica numérica estabelecida para toda uma amostra.
Fonte Primária: quando as informações são colhidas diretamente pelo pesquisador ou por seus auxiliares.
Fonte Secundária: quando o pesquisador recorre a relatórios, revistas, livros ou dados coletados por instituições especializadas.
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 14
Curva em forma de jota: são relativas às distribuições extremamente assimétrica, apresenta o ponto de ordenada máxima em uma das
extremidades, para o estudante de economia a curva da oferta é um exemplo. A curva em forma de jota invertido, outro bom exemplo é a
curva da demanda. As curvas em forma de U apresentam ordenadas em ambas as extremidades.
Freqüência. Número de ocorrências de determinado fenômeno.
Freqüência Absoluta ( fi ): - é o número de vezes que o valor de determinada variável é observado.
FREQÜÊNCIA ABSOLUTA ou simplesmente freqüência (Fi): o número de vezes que cada dado aparece no rol.
Freqüência Absoluta Simples de Classe. Número de casos incluídos em determinada classe ou intervalo de uma distribuição de
freqüências (ou valor individual da variável quando esta não estiver agrupada em classes).
Freqüência Absoluta Acumulada (Fi) [1]: é a soma das freqüências absolutas anteriores com a freqüência absoluta deste valor.
Freqüência Absoluta Acumulada (Fac) [2]: Soma da freqüência simples absoluta dessa classe (ou valor individual da variável quando esta
não estiver agrupada em classes) com as freqüências simples absolutas das classes (ou valores individuais da variável) anteriores.
FREQÜÊNCIA ACUMULADA [3]: a soma de cada freqüência com as que lhe são anteriores na distribuição.
Freqüência Relativa ( fr ): - é o quociente entre a freqüência absoluta do valor da variável e o número total de observações.
Freqüência Relativa Acumulada (Fri): - é a soma das freqüências relativas anteriores com a freqüência relativa desse valor.
FREQÜÊNCIA RELATIVA: o quociente da freqüência absoluta pelo n total dados (Fi/N) "N = freqüência. total"
Gráfico. Qualquer representação geométrica de um fenômeno quantitativo.
Gráfico Circular: é representado por um círculo que está dividido em sectores cujas amplitudes são proporcionais à freqüência que lhe
corresponde.
Gráfico de barras (histograma): Método gráfico no qual barras retangulares representam as freqüências de uma faixa de valores de
escores ou de categorias.
Gráfico de Barras [1]: - é constituído por barras, horizontais ou verticais, de comprimento proporcional à freqüência.
Gráfico em Barras [ 2]. Representação dos valores de determinado fenômeno por meio de barras de comprimentos proporcionais às
respectivas freqüências. Quando as barras são verticais, chama-se gráfico de colunas.
GRÁFICO EM COLUNAS OU EM BARRAS: representação de uma série por meio de retângulos, verticalmente (em colunas) ou
horizontalmente (em barras).
Gráfico de linhas: Gráfico de diferenças entre grupos ou tendências de alguma variável ao longo do tempo.
Gráfico de setores [1]: Gráfico circular cujas partes têm por soma 100%.
Gráfico em Setores. [2] Representação das freqüências de um fenômeno pelas áreas de setores de um círculo. Os setores correspondem
a certa percentagem.
Gráfico Polar. Representação de uma série por meio de um polígono. Geralmente, presta-se para apresentação de séries temporais. Para
construí-lo, divide-se uma circunferência em tantos arcos iguais quantos forem os dados a representar e traçam-se raios pelas divisas.
Histograma: é um gráfico de barras em que a área destas é proporcional à freqüência, não havendo espaço entre as mesmas. Só se utiliza
em variáveis quantitativas contínuas.
HISTOGRAMA: formado por um conjunto de retângulos justapostos, suas bases, coincidem com o eixo horizontal, de tal modo que seus PM
coincidam com os PM dos intervalos de classe.
Limite de classe: Ponto a meio caminho entre intervalos de classe adjacentes que serve para preencher a lacuna entre eles.
LIMITE DE CLASSE: São os extremos de cada classe.
LIMITE INFERIOR [Li]: o menor valor que a variável pode assumir.
LIMITE SUPERIOR [Ls]: o maior valor que a variável pode assumir.
Margem de erro: Extensão da imprecisão esperada quando estimamos a média ou proporção populacional; é o resultado da multiplicação
do erro padrão pelo valor tabelado de z ou t.
Média ponderada: A 'média de médias' que leva em conta diferenças nos tamanhos dos grupos.
Média [1]: Em sua acepção mais ampla, qualquer promédio de uma distribuição de freqüência. Em sentido estrito, média aritmética.
Média [2]: Soma de um conjunto de escores dividida pelo número total de escores no conjunto. É uma medida de tendência central.
Média Aritmética Ponderada: é o quociente entre o somatório do produto de cada dado classificado pela sua freqüência absoluta e o
número desses dados.
Média Aritmética Simples: - é o quociente da soma de todos os dados não classificados pelo número desses dados.
Média Aritmética. Soma de todos os valores dividida pelo número de valores.
Mediana [1]: Medida de tendência central, através de seu valor, a distribuição de freqüências é dividida em duas partes de igual valor.
Mediana [2]: é o valor da variável, para dados não classificados, que ocupa a posição central da distribuição.
MEDIANA [3]: valor que ocupa a posição central da distribuição. Isto é, divide a amostra em duas partes iguais.
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 15
Medida de Assimetria
Q 3 + Q 1 - 2Md
As = Onde: Q3: 3º Quartil; Q1: 1º Quartil; Md: Mediana.
Q 3 − Q1
Medidas de Dispersão: é um conjunto de medidas (Amplitude, Variância e Desvio Padrão) utilizadas no estudo da variabilidade de uma
determinada distribuição, permitindo obter uma informação mais completa acerca da "forma" da mesma.
Medidas de Localização: É um conjunto de medidas (Média, Mediana, Moda e Quartis) que representam de uma forma global um conjunto
de dados.
Medidas de Tendência Central. Valores que, em estatística, caracterizam os valores médios.
Medidas de Tendência Central: - o mesmo que Medidas de Localização.
Mensuração: Uso de uma série de números no estágio da análise de dados da pesquisa.
Mesocúrtica: Característica de uma distribuição que nem tem pico muito acentuado, nem é muito achatada.
Moda [1]: Valor mais freqüente de uma distribuição. Numa representação gráfica, a moda é o valor correspondente ao ponto mais alto da
curva. Em outras palavras, é o valor que está na moda.
Moda [2]: observação que ocorre com maior freqüência numa amostra.
MODA [3]: o(s) elemento(s) que mais aparece(m) em uma distribuição.
Núvem de Pontos: - o mesmo que Diagrama de Dispersão.
Organização dos Dados: - consiste em "resumir" os dados através da sua contagem e agrupamento.
Padronização: Conjunto de operações capazes de garantir a um teste precisão, validade, normas padronizadas, instruções para sua
aplicação, avaliação e interpretação.
PARÂMETRO: uma característica numérica estabelecida para toda uma população.
Percentil: Cada um dos 99 valores da variável que dividem uma distribuição de freqüências em 100 intervalos iguais. O percentil é
representado pelo símbolo Pr, em que r representa a ordem percentil. Se, num grupo de estudantes, 60% obtêm valores inferiores a 80,
diz-se que o 60º percentil é 80 e que 60 é a ordem percentil correspondente a 80.
PICTOGRAMA: Representação gráfica através de figuras.
Polígono de Freqüência [1]: Representação gráfica de uma distribuição de freqüências resultante da união das interseções dos pontos
médios das classes (nas abscissas) e das freqüências respectivas (nas ordenadas).
Polígono de Freqüências [2]: é a representação gráfica de uma distribuição por meio de um polígono. (pequenas semi-retas)
Polígono de Freqüências [3]: São gráficos com aspecto de linhas quebradas. Constroem-se unindo por segmentos de recta os pontos
médios das bases superiores dos rectângulos de um histograma.
Polígono de freqüências [4]: Método gráfico em que as freqüências são indicadas por uma série de pontos colocados acima dos valores
dos escores, ou pontos médios de cada intervalo de classe, e ligados por uma linha reta que decai até a reta-base em ambas as
extremidades.
Polígono de freqüências acumuladas: Método gráfico que ilustra freqüências ou porcentagens acumuladas.
Polígono de Freqüência Acumulada ou OGIVA: Representação gráfica da (Fac ou Fad), frequência acumulada crescente ou decrescente.
PONTO MÉDIO [ Pm ] - [ Xi ] de uma classe [1]: a média aritmética entre o Li e o Ls da mesma [ (Li + Ls)/2 ].
Ponto Médio de Classe [2]: Ponto interior de uma classe, eqüidistante de seus limites de classes. Seu valor é igual à metade da soma
desses limites.
Ponto médio [3]: Escore mais central em um intervalo de classe.
População (universo) [1]: Qualquer conjunto de indivíduos que compartilham de ao menos uma característica.
População [2]: Conjunto formado pelas medidas que se fazem sobre elementos do Universo.
População [3]: é um conjunto de seres com uma dada característica em comum e com interesse para o estudo.
POPULAÇÃO [4]: conjunto de elementos em estudo que tem pelo menos uma característica em comum. (pessoas, coisas, objetos)
Porcentagem acumulada: Percentual de casos com determinado escore ou com um escore inferior.
Porcentagem de coluna: Em uma tabulação cruzada, o resultado da divisão da freqüência de uma cela pelo número de casos na coluna.
As porcentagens de coluna devem totalizar 100% para cada coluna em uma tabulação cruzada.
Porcentagem de linha: Em uma tabulação cruzada, o resultado da divisão de uma freqüência de cela pelo número de casos na linha. As
porcentagens de linha têm como soma 100% para cada linha de uma tabulação cruzada.
Porcentagem total: Em uma tabulação cruzada, o resultado da divisão de uma freqüência de cela pelo número total de casos na amostra.
As porcentagens totais têm por soma 100% para toda a tabulação cruzada.
Porcentagem: Método de padronização do tamanho que indica a freqüência de ocorrência de uma categoria em 100 casos.
Posto percentil: Nº único que indica a porcentagem de casos em uma distribuição que se situam em determinado escore ou abaixo dele.
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 16
Probabilidade [1]: Medida de incerteza dos fenômenos aleatórios. Traduz-se por um número real compreendido entre O e l, ou, o que é a
mesma coisa, entre 0 e 100%.
Probabilidade [2]: Freqüência relativa de ocorrência de um evento ou resultado. Número de vezes que um evento pode ocorrer em 100.
Produtório ( π ): representa, de forma abreviada, um produto.
Promédio. Termo genérico que expressa qualquer medida de tendência central. Exemplos: a média, a mediana e a moda de uma escala.
Quartil [1]: Cada um dos três valores que dividem uma distribuição de freqüências em quatro partes de freqüências iguais. O primeiro quartil
corresponde ao 25º percentil, o segundo à mediana e o terceiro ao 75º percentil.
Quartis ( Q1 e Q3 ) [2]: são os valores que dividem a distribuição em quatro partes iguais. [Fórmula]
QUARTIS [3]: Divide a amostra, distribuição, em quatro partes iguais.
Razão: Método de padronização do tamanho que compara o número de casos que se enquadram em uma categoria com o número de
casos que se enquadram em outra categoria.
Recenseamento: o mesmo que Censo.
Rol [1]: Arranjo dos dados brutos em ordem crescente ou decrescente.
ROL [2]: são dados organizados numericamente em ordem crescente ou decrescente.
SEPARATRIZES: São medidas que separam, dividem, a distribuição em partes iguais: mediana, quartis, decis e percentis.
SÉRIE CATEGÓRICA OU ESPECIFICATIVA: aquela em que o fato estudado em categorias.
Série Cronológica. Série estatística em que os dados são observados segundo a época de ocorrência. É também conhecida por Série
Temporal, Evolutiva ou Histórica.
Série Específica. Série estatística em que os dados são agrupados segundo a modalidade de ocorrência.
Série Geográfica. Série estatística em que os dados são observados segundo a localidade de ocorrência. É também chamada de Série de
Localização.
Série Regional ou Geográfica: aquela em que o fenômeno estudado em locais diferentes.
SÉRIES CRONOLÓGICA: aquela em que o fato estudado numa faixa de tempo.
Sigma ( Σ ). Palavra que expressa a letra do alfabeto grego que corresponde ao nosso s. A letra minúscula simboliza o desvio padrão e a
letra maiúscula significa o somatório.
Soma de quadrados dentro de grupos: Soma dos quadrados dos desvios de cada escore bruto em relação à média amostrai do grupo.
Soma de quadrados entre grupos: Soma dos quadrados dos desvios de cada média amostrai a contar da média total.
Soma de quadrados total: Soma dos quadrados dos desvios de cada escore a contar da média total do estudo.
Soma de quadrados: Soma dos quadrados dos desvios em relação à média.
Somatório ( Σ ): - representa, de forma abreviada, uma soma.
Tabela de Freqüências: - são tabelas onde se apresentam os dados por classes e as freqüências respectivas.
Tabulação cruzada: Tabela de freqüências e porcentagens de duas ou mais variáveis consideradas conjuntamente.
Tabulação. Apresentação dos dados estatísticos sob a forma de tabelas ou quadros.
Tamanho da Amostra: - é o número de elementos que constituem uma dada amostra.
Taxa: Tipo de razão que indica uma comparação entre o número de casos efetivos e o número de casos potenciais.
Tendência central: O que é médio ou típico de um conjunto de dados; um valor geralmente situado em torno do meio ou centro de uma
distribuição.
Variabilidade [1]: Grau de heterogeneidade de um grupo, medido pela amplitude, pela amplitude semi-interquartil ou pelo desvio-padrão. O
mesmo que dispersão.
Variabilidade [2]: Maneira como os escores se dispersam em torno do centro da distribuição. Conhecida também como dispersão.
Variância. Desvio-padrão elevado ao quadrado. É, como o desvio padrão, uma medida de dispersão. É também chamada de variança.
Variância: - é a medida que permite avaliar o grau de dispersão dos valores da variável em relação à média.
Variância: Média dos quadrados dos desvios em relação à média de uma distribuição. Medida de variabilidade em uma distribuição.
Variáveis Contínuas: são as variáveis que podem tomar qualquer valor de um determinado intervalo.
Variáveis Discretas: são as variáveis que podem tomar um número finito ou uma infinidade numerável de valores.
Variáveis Qualitativas: o mesmo que Atributos Qualitativos.
Variável Aleatória Contínua: Variável que pode assumir infinitos valores, mesmo dentro de um intervalo finito, resultando que a
probabilidade de certo valor (ponto) é nula.
Variável Aleatória Discreta: Variável que pode assumir, com probabilidade diferente de zero, um número finito de valores dentro de um
intervalo finito (caso típico é quando efetuamos contagens).
Variável Aleatória: Grandeza numérica que assume diferentes valores, estando cada um destes valores associado a uma certa
probabilidade.
Variável Contínua: Variável que pode assumir, teoricamente, qualquer valor em certo intervalo da reta real. Exemplo: a altura dos alunos
constitui uma variável contínua, pois, teoricamente, um aluno poderá possuir altura igual a 1,80 m, 1,81 m, 1,811 m, 1,812 m...
VARIÁVEL CONTÍNUA: a que pode, teoricamente, assumir qualquer valor entre 2 dados quaisquer.
Variável Dependente: Variável não controlada em um experimento, sendo, por definição, aleatórios seus valores.
Variável Discreta: Variável que assume valores em pontos da reta real. Exemplo: número de erros em um livro: 0, 1, 2, 3,...
VARIÁVEL DISCRETA: não existem valores intermediários entre 2 números consecutivos de um conjunto.
Variável Independente: Variável que pode ser controlada em um experimento. Em outras palavras, seus valores são exatos.
Variável: Qualquer característica que varia de um indivíduo para outro. As hipóteses, em geral, contêm uma variável independente (causa)
e uma variável dependente (efeito).
Estatística Descritiva: Conceitos Básicos Paulo Vieira Neto - Mar./2004 17
ÍNDICES: são razões entre duas grandezas tais que uma não inclui a outra.
Exemplos:
ÍNDICES ECONÔMICOS:
Consumo do Bem
Consumo " per capita" =
∑ população
Nº de nascimento s
Coeficient e de natalidade =
população total
nº de alunos evadidos
Coeficiente de evasão escolar =
nº inicial de matrículas
Bibliografia utilizada