Estatística
Estatística
Estatística
Sumário
Conceitos Iniciais. Medidas de posição. Diagramas de Dispersão. Distribuição de Frequências.....................2
Amostragem.................................................................................................................................................... 9
Distribuição Discretas de Probabilidade........................................................................................................ 11
Teste de Hipóteses.........................................................................................................................................13
Intervalo de Confiança................................................................................................................................... 14
Regressão Linear............................................................................................................................................ 16
1
Conceitos Iniciais. Medidas de posição. Diagramas de Dispersão. Distribuição
de Frequências.
Conceito e Classificação
Estatística Descritiva - Mais focada na organização dos dados
Estatística Probabilística - Usada para generalização (Envolve incerteza)
Estatística Inferencial - Análise e Interpretação para tomada de decisão
População/Amostra/Censo
População - É TUDO
Amostra - Parte da população
Censo - Considera todos os elementos da população
Dados Estatísticos
Variáveis Estatísticas
Quantitativa (numérico)
- Discretas - Assume valores finitos ou infinitos contáveis (Ex: n° de multas que o uno de firma com escada
no teto possui). Apenas números inteiros.
- Contínuas - Varia dentro de um intervalo (Ex: Velocidade de um uno de firma com escada no teto
acelerando na avenida brasil 10 minutos antes da hora do almoço - Vai de 0 até infinito)
Exemplos:
1. Sexo (Feminino ou Masculino); Variável qualitativa nominal
2. Idade (em anos); Variável quantitativa discreta (Cabe ressaltar que idade, em geral, é uma
variável contínua. O que a torna discreta é o fato de estar contada em anos).
3. Raça/Cor (Branca, Preta, Amarela, Parda, Indígena, Ignorada); Variável qualitativa nominal
4. Fumante (sim ou não); Variável qualitativa nominal
5. Possui fatores de risco/comorbidades? (Sim, Não, Ignorado); Variável qualitativa ordinal
2
6. Escolaridade (Sem escolaridade/analfabeto, Fundamental 1º ciclo [1º ao 5º ano], Fundamental 2º
ciclo [6º ao 9º ano], Médio [1º ao 3º ano], Superior, Não se aplica, Ignorado). Variável qualitativa
ordinal
7. Unidade da Federação. Variável qualitativa nominal
Representação Gráfica
3
- Multiplicação: Multiplicando (ou dividindo) cada elemento por uma constante C, a média será
multiplicada por C.
- Soma dos desvios: é 0 em relação à média. "Desvio" é a diferença de cada termo para a média.
Em essência, a média ponderada pode ser interpretada como a média para uma distribuição de frequência.
Nesse caso, a forma é ligeiramente diferente, levando em consideração o peso, ou a frequência absoluta,
representada pelo fator F abaixo:
DETALHE IMPORTANTE: Para calcular a média quando temos uma classe, precisamos usar o ponto médio
dessa classe. Vejamos um exemplo:
Faz sentido esse resultado para a média? Note que estamos na classe 2, e isso era totalmente esperado,
uma vez que é nessa classe que estão a maior parte das observações.
Repare que agora calcularemos a média pela multiplicação, onde x1, x2, x3 são os dados e "n" a
quantidade total de dados.
É definida como o inverso (III) da média aritmética (II) dos inversos (I).
4
Comparação entre as médias
MEDIANA
Antes de qualquer coisa, para se calcular a mediana, há de se colocar os valores em forma crescente
(lembrou de rol?). O conceito é bem simples: é o valor que divide a série de números em duas partes iguais
Sendo "n" a quantidade de valores, a mediana será calculada de duas formas:
Propriedades da Mediana:
- Soma: Somando (ou subtraindo) uma constante C de CADA UM dos elementos, a mediana também será
somada (ou subtraída) de C.
- Multiplicação: Multiplicando (ou dividindo) cada elemento por uma constante C, a mediana será
multiplicada por C.
Quartil: Valores que dividem os dados em 4 partes iguais. Ou seja, temos sempre 3 quartis.
Decil: Valores que dividem os dados em 10 partes iguais. Ou seja, temos sempre 9 decis.
5
OBS: Perceba que o quinto decil e o segundo quartil são popularmente conhecidos como a
mediana.
Basicamente, a Assimetria de um gráfico se refere a como os dados estão distribuídos ao redor da média.
Curtose: também em conceitos objetivos, é a medida que descreve o quão “achatada” é a curva de
distribuição de dados. Ela pode ser:
- Leptocúrtica: Mais pontiaguda, com dados mais aglutinados na média
- Mesocúrtica: Um pouco mais achatada, com dados um pouco mais dispersos
- Platicúrtica: Curva mais parecendo um “platô”, com dados ainda mais dispersos.
6
O conceito de assimetria é particularmente importante para saber como o box-plot é construído.
Nesse momento apenas entenda que a "caixa" do box-plot acompanha o "sino" do gráfico de assimetria,
ok? Na dúvida, veja a figura abaixo:
Box-plot:
Veja que nós temos 5 valores principais do box-plot: O limite mínimo; os quartis 1, 2 e 3; e o limite
máximo
Daí vem o outro nome do box-plot - Diagrama dos cinco números
Definição de Moda: Formalmente a Moda é definida como o valor que apresenta a maior
frequência.
Ou seja, para variáveis discretas (Ex: 1, 2, 3, 4, 5 ... ), basta olhar a frequência absoluta e extrair o número
cuja frequência é a mais alta.
7
Para intervalos distribuídos em classe:
OBS 1 IMPORTANTE: Não estamos calculando a MODA EXATA com essas fórmulas. Não caia nessa
pegadinha.
OBS 2 IMPORTANTE: Essas fórmulas de CZUBER e KING, como mostradas acima, são utilizadas nos casos
em que a amplitude das classes é constante, ou seja, todas as classes têm a mesma amplitude.
Mas e no caso de não serem iguais ? Nesse caso, devemos substituir as frequências pela densidade
de frequência (d=f/h), onde f é a frequência e h é a amplitude da classe.
A classe modal, nesses casos, será a classe com a maior densidade (não necessariamente com a
maior frequência).
8
9
Amostragem
Fórmula pra calcular tamanho amostral sem saber o comportamento - Fórmula de Slovin:
10
11
Distribuição Discretas de Probabilidade
12
13
Teste de Hipóteses
14
15
Intervalo de Confiança
16
Estimativa da amostra inicial para uma população suficientemente grande:
Caso a população não seja suficientemente grande, devemos utilizar a Fórmula de Cochran (N é o
tamanho da população):
n = [N . n0] / (N+n0)
Substituindo n0 por 1/e^2, obtemos:
n = N/(1 + N . e^2), que é conhecida como Fórmula de Slovin.
17
Regressão Linear
18
19