Livro PDF - Análise Estatística e Probabilidade - Prof MSC Uanderson Rebula
Livro PDF - Análise Estatística e Probabilidade - Prof MSC Uanderson Rebula
Livro PDF - Análise Estatística e Probabilidade - Prof MSC Uanderson Rebula
Análise Estatística
uanderson.rebula@yahoo.com.br
Uanderson Rebula de Oliveira Análise Estatística
Administração -2-
Administração - 2015
UANDERSON REBULA DE OLIVEIRA
Mestrando em Engenharia de Produção pela Universidade Estadual Paulista - UNESP
Pós-graduado em Controladoria e Finanças-Universidade Federal de Lavras-UFLA
Pós-graduado em Logística Empresarial-Universidade Estácio de Sá-UNESA
Graduado em Ciências Contábeis-Universidade Barra Mansa-UBM
Técnico em Metalurgia-Escola Técnica Pandiá Calógeras-ETPC
Técnico em Segurança do Trabalho-ETPC
Operador Siderúrgico e Industrial-ETPC
Atividades presentes
Consultor em Treinamento e Desenvolvimento Empresarial. . Pesquisador na área de Logística Reversa. Gestor de
Operações de Pós Graduação na Universidade Estácio de Sá. Professor na UNIFOA no curso de Pós graduação em
Engenharia de Segurança do Trabalho. Professor da Universidade Estácio de Sá nas disciplinas de Gestão de
Estoques, Gestão Financeira de Empresas, Fundamentos da Contabilidade e Matemática Financeira, Probabilidade e
Estatística, Controle Estatístico da Qualidade, Análise Estatística, Ergonomia, Higiene e Segurança do Trabalho,
Gestão de Segurança e Análise de Processos Industriais. Professor na Associação Educacional Dom Bosco para os
cursos de Administração, Logística, Engenharia de Produção e Engenharia Metalúrgica e Gestão da Produção.
Atividades passadas
Ex-Professor na Universidade Barra Mansa (2010-2012) nos cursos de Engenharia de Produção/Petróleo.
Ex-professor conteudista na UNESA (elaboração de Planos de Ensino e de Aula, a nível nacional).
Ex-professor em escolas técnicas (2006-2010) nas disciplinas de Estatística Aplicada, Estatística de Acidentes do
Trabalho, Probabilidades, Contabilidade Básica de Custos, Metodologia de Pesquisa Científica, Segurança na
Engenharia de Construção Civil e Higiene do Trabalho. Ex-professor do SENAI (2007).
Ex funcionário da CSN por 20 anos (1993-2014), onde atuou por 10 anos como Operador e Líder de Produção em
vários setores e por 10 anos no setor de Segurança do Trabalho. Ex-membro do IBS–Instituto Brasileiro de
Siderurgia em grupo de trabalho em assuntos pertinentes a Segurança do Trabalho .
Currículo completo: http://lattes.cnpq.br/1039175956271626
br.linkedin.com/in/uandersonrebula/
EMENTA:
Probabilidades e seus eventos. Probabilidade condicional. Eventos independentes. Teorema de
Bayes. Variáveis aleatórias: distribuição, média e desvio padrão. Distribuições de probabilidades
discretas e contínuas. Correlação e Regressão. Teste de hipóteses.
OBJETIVO:
Possibilitar aos estudantes o acesso a conceitos e procedimentos fundamentais da metodologia
estatística, como ferramenta de suporte à tomada de decisão e à abordagem cientifica de
populações, sistemas e processos, nas áreas de engenharia, indústria, comercio e serviços.
Saiba
mais
Clique aqui
www.udemy.com
Junte-se a milhões de estudantes na maior plataforma on-line
de cursos curtos e práticos do mundo.
Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de
ensino on-line onde 15 milhões de alunos estão dominando novas habilidades.
Sumário
Administração -3-
Sumário
1 – PROBABILIDADE
CONCEITOS BÁSICOS DE PROBABILIDADE , 5
Conceitos, experimento aleatório e espaço amostral, 5
Princípio fundamental da contagem, 6
Eventos e Probabilidade básica, 8
Probabilidade com eventos complementares, 9
ADIÇÃO DE PROBABILIDADES, 10
Probabilidade com eventos mutuamente exclusivos, 10
Probabilidade com eventos NÃO mutuamente exclusivos, 10
PROBABILIDADE CONDICIONAL E MULTIPLICAÇÃO DE PROBABILIDADES, 11
Probabilidade com eventos dependentes, 10
Multiplicação de probabilidade com eventos dependentes, 13
Multiplicação de probabilidade com eventos independentes, 14
Teorema de Bayes, 15
3 – CORRELAÇÃO E REGRESSÃO
CORRELAÇÃO LINEAR SIMPLES, 34
Introdução e Diagrama de Dispersão, 34
Correlação Linear, 34
Coeficiente de correlação de Pearson, 35
REGRESSÃO LINEAR SIMPLES, 37
Introdução, 37
Ajustamento da reta aos pontos grafados, 37
4 – TESTE DE HIPÓTESE
Conceitos introdutórios, 40
Teste de hipótese para média (amostras grandes),41
Teste de hipótese para média (amostras pequenas), 42
Teste de hipótese para proporção, 43
Teste para duas amostras – conceitos introdutórios, 45
Teste para diferença de duas médias (dependente),45
Teste para diferença de duas médias (independente), 47
REFERÊNCIAS BIBLIOGRÁFICAS, 48
ANEXO I – INDICAÇÃO DE MATERIAL DIDÁTICO PARA AUXÍLIO AS AULAS, 49
ANEXO II – Software Bioestat , 50
ANEXO III – ESTATÍSTICA NO EXCEL, 51
ANEXO IV – REVISÃO DE MEDIDAS DE VARIAÇÃO, 52
CAPÍTULO 1
PROBABILIDADE
É possível quantificar o
acaso?
É o fenômeno que estamos interessados em observar, e cada resultado dele é uma experiência. Embora não
saibamos qual o resultado que irá ocorrer, conseguimos descrever todos os resultados possíveis. Exemplos:
A principal característica do experimento é ser casual, no sentido de que, apesar de conhecermos seus possíveis
resultados, não podemos dizer com certeza o que vai ser obtido. Quantas e quais as possibilidades de resultados
desses experimentos são questões que tentamos responder para avaliar as chances de eles acontecerem.
Espaço amostral
É o conjunto de todos os resultados possíveis de um experimento aleatório.
Note que, ao especificar todos os resultados possíveis, identificamos o espaço amostral, representado por S.
São exemplos de espaços amostrais:
Suponha que José tenha 2 bermudas (preta e vermelha) e 3 camisas (azul, preta e verde). De quantas
maneiras diferentes (resultados possíveis) José pode se vestir usando uma bermuda e uma camisa?
Utilizando um diagrama de árvore teremos:
Figura. Diagrama de árvore
BERMUDAS CAMISAS 1ª etapa 2ª etapa
2 possibilidades 3 possibilidades
2 x 3 = Total de 6 possibilidades
(espaço amostral)
1 ( 1, 1 )
Ao lançar dois dados, quantos resultados serão possíveis? 2 ( 1, 2 )
1 3 ( 1, 3 )
Observe pelo diagrama de árvore ao lado que, quando dois dados são lançados, cada um deles 4 ( 1, 4 )
tem seis resultados possíveis; juntos, esses seis resultados possíveis para cada dado produzem 5 ( 1, 5 )
36 (6x6) combinações, ou seja, 36 pares possíveis. 6 ( 1, 6 )
1 ( 2, 1 )
2 ( 2, 2 )
2 3 ( 2, 3 )
Então, ao lançar os dados abaixo, quantos 4 ( 2, 4 )
resultados são possíveis? 5 ( 2, 5 )
6 ( 2, 6 )
1 ( 3, 1 )
2 ( 3, 2 )
3 3 ( 3, 3 )
Lançar dois dados 4 ( 3, 4 )
5 ( 3, 5 )
6 ( 3, 6 )
1 ( 4, 1 )
2 ( 4, 2 )
4 3 ( 4, 3 )
4 ( 4, 4 )
5 ( 4, 5 )
6 ( 4, 6 )
1 ( 5, 1 )
2 ( 5, 2 )
5 3 ( 5, 3 )
4 ( 5, 4 )
5 ( 5, 5 )
Três dados → 6x6x6 = 216
6 ( 5, 6 )
Quatro dados → 6x6x6x6 = 1.296
5
Cinco dados → 6 = 7.776 1 ( 6, 1 )
8 2 ( 6, 2 )
Oito dados → 6 = 1.679.616 3 ( 6, 3 )
10 6
Dez dados → 6 = 60.466.176 4 ( 6, 4 )
5 ( 6, 5 )
6 ( 6, 6 )
Suponha que você tenha 2 calças (preta, branca), 3 camisas (verde, amarela, rosa) e 3 calçados (sapato, tênis e
chinelo). De quantas maneiras diferentes (resultados possíveis) você pode se vestir usando uma calça, uma camisa e
um calçado?
Resultados
(espaço amostral)
CALÇA CAMISA CALÇADO
sapato ( pre, ver, sap )
tênis ( pre, ver, ten )
verde chinelo ( pre, ver, chi )
2 x 3 x 3 = 18 possibilidades
Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais: etapa 1
(projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6,7 ou 8 meses). Quais os resultados possíveis? Qual o
prazo mais provável para conclusão total do projeto?
Eventos
É o resultado possível dentro de um espaço amostral.
Evento A → {sair número dois} → A={2}. Evento C → {sair número par} → C={2,4,6}.
Espaço
A S amostral S Espaço
1 C amostral
Evento
2 1
Evento
34 2
3
5 S = {1,2,3,4,5,6} 6
4 5 S = {1,2,3,4,5,6}
6 A = {2}
C = {2,4,6}
A área do círculo representa o Evento e a área do retângulo representa todos os elementos de um espaço amostral.
Probabilidade básica
n( A ) nº elementos no evento A
A probabilidade é dada por: P
S Espaço amostral
Exemplos:
1) No lançamento de um dado, qual a probabilidade de o resultado ser o número 2?
A = {2} →A=1 P(A) = 1 = 0,1666 ou 16,66% a probabilidade de o resultado ser o “2” é
S = {1,2,3,4,5,6} →S=6 6 de 1 chance em 6 ou 0,1666 ou 16,66%.
figuras
Observe as cartas de um baralho de 52 cartas, abaixo:
Naipes Valete Dama Reis Ás
(Paus)
(preta)
13 cartas
(ouros)
(vermelha)
13 cartas
(Espadas)
(preta)
13 cartas
(Copas)
(vermelha)
13 cartas
Eventualmente queremos saber a probabilidade de um evento não ocorrer. Portanto, é o evento formado pelos resultados que não
pertencem ao evento A. Sendo P( A ) a probabilidade de que ele não ocorra e P(A) a probabilidade que ocorra, temos:
Probabilidade do P( A ) = 1 – P(A)
evento não ocorrer Probabilidade evento (A)
O “Diagrama de Venn” abaixo ilustra a relação entre o espaço amostral, o evento A e seu complemento A :
ADIÇÃO DE PROBABILIDADES
Probabilidade com Eventos mutuamente exclusivos
É a probabilidade com eventos que não ocorrem ao mesmo tempo. Ou ocorre A ou ocorre B (A ou B).
A ocorrência de um evento impossibilita a ocorrência do outro.
Dois eventos são mutuamente exclusivos quando a ocorrência de um evento exclui a ocorrência de outro. É impossível ocorrer os eventos A
e B ao mesmo tempo. Então, o termo “ou” indicará “adição de probabilidades”. Para encontrar a probabilidade de um evento ou outro
ocorrer, adicionamos as probabilidades de cada evento: P(A ou B) = P(A) + P(B).
Exemplo 2. Ao retirar uma carta de um baralho de 52 cartas, a Exemplo 3. Numa urna estão 10 bolas, sendo 2 pretas
probabilidade de sair um Rei ou uma Dama é: (P), 5 amarelas (A) e 3 verdes (V). Pegando-se uma bola,
qual a probabilidade de ela ser preta ou verde?
A = {R,R,R,R } → A=4 P(AouB) = 4 + 4 = 8 = 0,1538 A = {P,P } → A=2 P(AouB) = 2 + 3 = 5 = 0,5
B = {D,D,D,D} → B=4 52 52 52 B= {V,V,V} → B=3 10 10 10
S = {52 cartas → S = 52
S = {10} → S = 10
Dois eventos NÂO são mutuamente exclusivos quando a ocorrência de um evento não exclui a ocorrência de outro. É possível ocorrer os
eventos A e B ao mesmo tempo. O termo “ou”, indicará “adição” e “e” indicará “ambos”
Exemplo 1 Ao lançar um dado, a probabilidade de obter um número ímpar ou menor que 3 é:
ímpar Menor que 3 Os eventos A e B não são mutuamente exclusivos, pois “1” ocorre em A e B (ambos).
B S
A 3 2 5
Se aplicarmos P(AouB) = P(A) + P(B) teremos: /6 + /6 = /6. Observe no diagrama que
3 4
este resultado está incorreto, pois P(AouB) = /6. Este erro foi provocado pela dupla
1 6
5 2 4
contagem de “1”.
Neste caso, ajustaremos a regra da soma para evitar a dupla contagem. A equação será:
AeB
* Regra da soma para três eventos: P(A ou B ou C) = P(A) + P(B) + P(C) - P(A e B) - P(B e C) + P(A e B e C)
Diz-se probabilidade condicional quando a ocorrência de um evento está condicionada à ocorrência do outro.
Portanto, os eventos são dependentes. A probabilidade de um é alterada pela existência do outro.
Exemplo 1. Ao lançar um dado, observou-se um número maior que 2 (evento A ocorreu). Qual a probabilidade de esse
número ser o “5” (evento B)?
EXEMPLO 2 Ao lançar um dado, observou-se um número maior que 1 (evento A ocorreu). Qual é a probabilidade de esse
número ser ímpar (Evento B)?
EXEMPLO 3 Duas cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 2ª
carta seja uma dama, dado que a 1ª seja um rei. (assuma que o rei está sem reposição).
Solução. Em razão de a primeira carta ser um rei e não ser a resposta, P (B|A) = 4 = 0,078
o baralho restante tem 51 cartas, 4 das quais são dama. Então: 51
EXEMPLO 4 Cinco cartas são selecionadas em sequência em um baralho. Qual a probabilidade de que a 5ª carta seja uma
dama. Dado que a 1ª = rei; 2ª = dama; 3ª = 8 ; 4ª = Ás. (assuma que não há reposição).
EXEMPLO 5 Numa pesquisa sobre a preferência de dois jornais, consultamos 470 pessoas e o resultado foi o seguinte: 250
lêem o jornal A, 180 lêem o jornal B, 60 lêem os jornais A e B. Escolhendo uma pessoa ao acaso, qual a probabilidade de:
a) Um leitor do jornal A, também ser leitor do B? b) Um leitor do jornal B, também ser leitor do A?
Jornal Jornal
Jornal A B Jornal A B
Novo espaço
190 60 190 60
amostral
Novo espaço
amostral 120 120
O evento A ocorreu e queremos saber o B. Então, denotamos O evento B ocorreu e queremos saber o A. Então, denotamos
P(B|A). Dentre os leitores do Jornal A, devemos destacar os que P(A|B). Dentre os leitores do Jornal B, devemos destacar os que
lêem B; logo, o espaço amostral desse evento é A (190+60=250). lêem A; logo, o espaço amostral desse evento é B (120+60=180).
Então, a probabilidade é: Então, a probabilidade é:
EXEMPLO 6. O quadro abaixo mostra os resultados de um estudo no qual os pesquisadores examinaram o QI de uma criança
e a presença de um gene específico nela.
Gene Gene não A probabilidade de que a criança tenha um QI alto (Evento B), dado que
presente presente a criança tenha o gene (Evento A) é?
QI alto 33 19 52 Solução. Há 72 crianças que têm o gene. Então, o espaço amostral consiste
QI normal 39 11 50 dessas 72 crianças. Dessas, 33 tem QI alto. Então:
72 30 102 P (B|A) = 33 = 0,458
72
EXEMPLO 7 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Ao selecionar duas peças em sequência, sem
reposição, qual a probabilidade de:
Solução. Em razão de a 1ª peça ser defeituosa, o lote restante tem 11 P (B|A) = 3 = 0,2727
peças, 3 das quais são defeituosas. Então: 11
Multiplicação de probabilidade com eventos dependentes ...ache P(A e B) , dado P(B|A) e P(A)
EXEMPLO 1 Duas cartas são selecionadas em sequência em um baralho de 52 cartas. Qual a probabilidade de
selecionar um Rei e uma Dama? (não há reposição).
A probabilidade de a 1ª carta ser um Rei é /52. A
4 P(A e B) = ? P(A e B) = P(A) x P(B|A)
4
4
2ª carta ser uma Dama é /51, pois o baralho P(A) = /52 4 x 4 → 16 = 0,006
4
restante tem 51 cartas, 4 das quais são dama. P(B|A) = /51 52 51 2652
EXEMPLO 2 Em um lote de 12 peças, 8 são de “qualidade” e 4 são “defeituosas”. Sendo retiradas duas peças em sequência,
qual a probabilidade de que: (não há reposição)
a) Ambas sejam “defeituosas” b) Ambas sejam de “qualidade”
P(A e B) = ? P(A e B) = ?
4 4 x 3 = 0,090 8 8 x 7 = 0,4242
P(A) = /12 P(A) = /12
3 12 11 7 12 11
P(B|A) = /11 P(B|A) = /11
4 3 8 7
A probabilidade de a 1ª peça ser defeituosa é /12 e a 2ª é /11, pois o A probabilidade de a 1ª peça ser de qualidade é /12 e a 2ª é /11,
lote restante tem 11 peças, 3 das quais são defeituosas. pois o lote restante tem 11 peças, 7 das quais são de qualidade.
EXEMPLO 3 Uma urna contém 7 bolas brancas (B) e 3 pretas (P). Extraindo-se três bolas em sequência, qual a probabilidade
de que: (não há reposição).
a) As duas primeiras sejam brancas e a terceira seja preta (ou seja, BBP)
7 6 7
A probabilidade de a 1ª bola ser branca é /10 e a 2ª é /9. A P(A) = /10
3 6 7 x 6 x 3 = 0,175
probabilidade de a 3ª bola ser preta é /8, pois a urna restante P(B|A) = /9
3 10 9 8
tem 8 peças, 3 das quais são pretas. P(C|B) = /8
b) Duas sejam brancas e uma seja preta (ou seja: BBP, BPB ou PBB) = 3[BBP]
O evento sair “duas brancas e uma preta” pode ocorrer de três maneiras que 7
P(A) = /10
diferem apenas pela ordem de aparecimento das bolas: (BBP, BPB, PBB). Logo, a 7 6 3
probabilidade será a soma dessas maneiras. Então, basta calcular a probabilidade de
6
P(B|A) = /9 3 x x = 0,525
uma dessas maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(BBP).
3
P(C|B) = /8 10 9 8
e) Pelo menos uma seja preta. (ou seja: 3[PBB] + 3[PPB] + [PPP])
1 preta 2 pretas 3 pretas
3[PBB] 3[PPB] [PPP]
3 3 3
P(A) = /10 P(A) = /10 P(A) = /10 3 7 6 3 2 7 3 2 1
7
P(B|A) = /9
2
P(B|A) = /9
2
P(B|A) = /9
3 x x + 3 x x + x x = 0,7083
6 7 1 10 9 8 10 9 8 10 9 8
P(C|B) = /8 P(C|B) = /8 P(C|B) = /8
1 ( 2, 1 )
Pelo Diagrama de árvore: Então, a probabilidade é:
2 ( 2, 2 )
3 ( 2, 3 ) (2,1), (2,3), (2,5) 3 = 8,33%
2
4 ( 2, 4 ) 36
5 ( 2, 5 ) Se aplicarmos a regra da multiplicação, temos:
6 ( 2, 6 )
Exemplo 2. Cirurgias de microfraturas no joelho têm 75% de chance de Sucesso em pacientes com joelhos
degenerativos (25% é de fracasso). A cirurgia é realizada em 3 pacientes. Calcule a probabilidade de que:
Nota: A probabilidade de que cada cirurgia seja um sucesso é de 0,75. A chance de um sucesso para uma cirurgia é
independente das chances para as outras cirurgias. Portanto, os eventos são independentes.
a) As três cirurgias sejam um sucesso. ou seja:[SSS] b) As três cirurgias sejam um fracasso. ou seja:[FFF]
c) Duas cirurgias sejam um sucesso (ou seja: SSF, SFS, FSS) = 3[SSF]
O evento “Duas cirurgias” pode ocorrer de três maneiras que diferem apenas pela
ordem dos resultados das cirurgias: (SSF, SFS, FSS). Logo, a probabilidade será a P(A) = 0,75
soma dessas maneiras. Então, basta calcular a probabilidade de uma dessas
P(B) = 0,75 3 * (0,75*0,75*0,25) = 0,4218
P(C) = 0,25
maneiras (por exemplo, a primeira) e multiplicar por 3. Então: 3(SSF).
(0,65) . (0,02)
P(x) = = 0,4262
(0,65) . (0,02) + (0,35) . (0,05)
Exemplo 2. As máquinas A e B são responsáveis por 400 e 150, respectivamente, da produção de peças de uma
empresa. A quantidade de peças defeituosas produzidas pelas respectivas máquinas são 10 e 20. Se uma peça
defeituosa foi selecionada da produção, qual a probabilidade de que tenha sido produzida pela máquina B?
CAPÍTULO 2
VARIÁVEIS ALEATÓRIAS E
MODELOS PROBABILÍSTICOS
1 ( 1, 1 )
2 ( 1, 2 )
1 3
4
( 1, 3 )
( 1, 4 ) Construindo modelos teóricos...
5 ( 1, 5 )
6 ( 1, 6 )
1
2
( 2, 1 )
( 2, 2 )
É possível criar um modelo teórico
2 3
4
( 2, 3 )
( 2, 4 )
que descreva como se espera que o
5
6
( 2, 5 )
( 2, 6 ) experimento se comporte?
1 ( 3, 1 )
2 ( 3, 2 )
3 3 ( 3, 3 )
Lançar dois dados 4 ( 3, 4 )
5 ( 3, 5 )
6 ( 3, 6 )
1 ( 4, 1 )
2 ( 4, 2 )
4 3 ( 4, 3 )
4 ( 4, 4 )
5 ( 4, 5 )
6 ( 4, 6 )
6
1 ( 5, 1 ) /36
6
2 ( 5, 2 )
3 ( 5, 3 )
5
/36 5 5
5
4 ( 5, 4 )
4 4 4
5 ( 5, 5 ) /36
Probabilidade
6 ( 5, 6 ) 3
3 3
/36
1 ( 6, 1 ) 2 2
2
/36
2 ( 6, 2 )
1 1
6 3 ( 6, 3 ) 1
/36
4 ( 6, 4 )
5 ( 6, 5 )
2 3 4 5 6 7 8 9 10 11 12
6 ( 6, 6 )
Soma dos dados
VÍDEO
https://www.youtube.com/watch?v=taXzDnSvEyQ&list=TLgncEwsd32SIvhtOJR3ir4KnWzikk3-ov
Uma variável aleatória “X” representa um valor numérico associado a cada resultado de um
experimento de probabilidade.
Exemplo 1. A tabela e o gráfico abaixo representam um modelo de probabilidade para a soma de dois dados
lançados simultaneamente:
Variáveis aleatórias(X)
Valor numérico de cada Distribuição de
experimento
frequências probabilidades
É a lista de cada valor de
1 ( 1, 1 )
2 ( 1, 2 ) uma variável aleatória “X”
1 3 ( 1, 3 ) Soma dos Probabilidade
4 ( 1, 4 ) f
dados “X” “P(x)”
5 ( 1, 5 ) 1
6 ( 1, 6 )
2 1 /36
2
3 2 /36
1 ( 2, 1 ) 3
2 ( 2, 2 )
4 3 /36
4
2 3 ( 2, 3 ) 5 4 /36
4 ( 2, 4 ) 5
6 5 /36
5 ( 2, 5 ) 6
6 ( 2, 6 ) 7 6 /36
5
8 5 /36
1 ( 3, 1 ) 4
2 ( 3, 2 ) 9 4 /36
3
3 3 ( 3, 3 ) 10 3 /36
Lançar dois dados 4 ( 3, 4 ) 2
11 2 /36
5 ( 3, 5 )
1
6 ( 3, 6 ) 12 1 /36
- =36 =1
1 ( 4, 1 )
2 ( 4, 2 )
4 3 ( 4, 3 )
4 ( 4, 4 ) 6
/36
5 ( 4, 5 ) 6
6 ( 4, 6 ) 5
/36 5 5 Representação
1 ( 5, 1 )
4
gráfica da
2 ( 5, 2 ) /36 4
distribuição
4
Probabilidade
5 3 ( 5, 3 )
4 ( 5, 4 ) 3 3
/36 3
5 ( 5, 5 )
6 ( 5, 6 ) 2 2 2
/36
1 ( 6, 1 ) 1 1 1
2 ( 6, 2 ) /36
6 3 ( 6, 3 )
4 ( 6, 4 )
5 ( 6, 5 ) 2 3 4 5 6 7 8 9 10 11 12
6 ( 6, 6 )
Soma dos dados
Notas e comentários
A palavra “aleatório” indica que “X” é determinado pelo acaso. A variável aleatória é uma regra que associa um valor
numérico a cada resultado experimental possível.
A distribuição de probabilidades de uma variável aleatória descreve como as probabilidades estão distribuídas sobre os
valores da variável aleatória. Para uma variável “X”, a distribuição de probabilidade é definida por uma função probabilidade,
denotada por f(x). A função probabilidade fornece a probabilidade correspondente a cada um dos valores da variável aleatória.
A principal vantagem de definir uma variável aleatória “X” e sua distribuição de probabilidade é que, uma vez que a
distribuição seja conhecida, torna-se relativamente fácil determinar a probabilidade de uma série de eventos que podem ser
do interesse de um tomador de decisões.
Exemplo 2. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas
seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses).
Probabilidade 0,8
Assim, podemos responder rapidamente alguns questionamentos:
Qual a probabilidade de o projeto ser concluído em 8 meses? R.: 11% 0,6
Qual a probabilidade de o projeto ser concluído em 9 meses? R.: 22% 0,33
Qual a probabilidade de o projeto ser concluído em 10 meses? R.: 33% 0,4 0,22 0,22
Qual a probabilidade de o projeto ser concluído em 10 ou 11 meses? R.: 55% 0,11
0,2 0,11
Qual a probabilidade de o projeto ser concluído entre 9 e 11 meses? R.: 77%
0
8 9 10 11 12
meses
Exemplo 3. Uma pesquisa entrevistou 200 casas de um bairro sobre quantas televisões possuem. Os dados mostram
que 3 casas não possuem televisão, 38 casas possuem 1 televisão, 95 casas possuem 2 televisões, 52 casas possuem 3
televisões e 12 casas possuem 4 televisões.
Definimos a variável aleatória de interesse como “X” o número de televisões. A partir dos dados, sabemos que X é uma variável
aleatória que pode assumir 0, 1, 2, 3, ou 4. Temos, então, a distribuição de probabilidades e o gráfico abaixo:
0,8
38
1 38 /200 = 0,190
95
2 95 /200 = 0,475 0,6 0,475
52
3 52 /200 = 0,260
12 0,4
4 12 /200 = 0,060 0,19
0,26
- =200 =1 0,2
0,015 0,06
0
0 1 2 3 4
Número de televisões
Podemos considerar o Valor esperado no sentido de que é o valor médio que esperaríamos se o experimento fosse feito diversas vezes.
Então, podemos dizer que o conceito de Valor esperado aplicado em uma variável aleatória é equivalente à Média ponderada dos
possíveis valores que “X” pode receber, onde os pesos são as probabilidades associadas. É semelhante ao cálculo da Média de uma
Distribuição de frequência. Obtemos, então, a seguinte fórmula:
E (X) = X . P(x)
Probabilidades associadas
Variáveis Aleatórias
Cada valor de X é multiplicado por sua probabilidade e os produtos são adicionados. O Valor esperado, representado por
E(X), também é chamado de Média de uma Variável Aleatória, Esperança matemática, Esperança ou Expectância.
Exemplo 1. Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas
seqüenciais: etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo
esperado para conclusão do projeto?
Exemplo 2. A tabela abaixo representa um modelo de probabilidade para a soma de dois dados lançados
simultaneamente. Qual o valor esperado para a soma dos dados?
3
1
2
( 1, 1 )
( 1, 2 )
Soma dos Probabilidade X . P(x)
1 3
4
( 1, 3 )
( 1, 4 )
dados “X” “P(x)”
5 ( 1, 5 ) 2 x 0,0278 = 0,0556
6 ( 1, 6 )
3 0,0556 0,1667
1 ( 2, 1 )
2 ( 2, 2 ) 4 0,0833 0,3333
3 ( 2, 3 )
2
4 ( 2, 4 ) 5 0,1111 0,5556
5 ( 2, 5 )
6 ( 2, 6 ) 6 0,1389 0,8333
1 ( 3, 1 ) 7 0,1667 1,1667
2 ( 3, 2 )
3 3 ( 3, 3 ) 8 0,1389 1,1111
Lançar dois dados 4
5
( 3, 4 )
( 3, 5 )
9 0,1111 1,0000
6 ( 3, 6 )
10 0,0833 0,8333
1
2
( 4, 1 )
( 4, 2 )
11 0,0556 0,6111
4 3
4
( 4, 3 )
( 4, 4 )
12 0,0278 0,3333
5
6
( 4, 5 )
( 4, 6 )
- =1 X.P(x) = 7
1 ( 5, 1 )
5
2
3
( 5, 2 )
( 5, 3 )
Valor esperado E(X)
4 ( 5, 4 )
5
6
( 5, 5 )
( 5, 6 )
Interpretação: Espera-se que a soma dos dados seja 7.
1
2
( 6, 1 )
( 6, 2 )
NOTA: Posso fazer também da seguinte forma:
6 3
4
( 6, 3 )
( 6, 4 )
E(X) = 2(0,0278) + 3(0,0556) + 4(0,0833) + 5(0,1111) 6(0,1389) + 7(0,1667) +
5
6
( 6, 5 )
( 6, 6 )
8(0,1389) + 9(0,1111) + 10(0,0833) + 11(0,0556) + 12(0,0278) = 7
Embora o Valor esperado de uma distribuição de probabilidades da variável aleatória descreva um resultado
comum, ela não dá informações sobre a maneira que os resultados variam. Para estudar a variação dos resultados,
você pode usar a variância e o desvio padrão de uma distribuição de probabilidades da variável aleatória. Então:
FÓRMULA DA VARIÂNCIA E DESVIO PADRÃO DO VALOR ESPERADO
Exemplo Um projeto de ampliação da capacidade produtiva da empresa ABC divide-se em duas etapas seqüenciais:
etapa 1 (projeto – em 2, 3 ou 4 meses) e etapa 2 (construção – em 6, 7 ou 8 meses). Qual o prazo esperado para
conclusão do projeto, a variância e o desvio padrão?
2
Conclusão do projeto P(x) X . P(x) (X – EX) . P(x)
(em meses) X
2
8 0,11 0,88 ( 8–10) . (0,11) = 0,44
2
9 0,22 1,98 ( 9–10) . (0,22) = 0,22
2 .
10 0,33 3,30 (10–10) (0,33) = 0
2 .
11 0,22 2,42 (11–10) (0,22) = 0,22
2 .
12 0,11 1,32 (12–10) (0,11) = 0,44
Total =1 EX = 10 = 1,32
2
Então, a Variância é: S = 1,32 e o Desvio padrão é: S = s2 → S = 1,32 → 1,15 meses
8,85 11,15
Há várias formas de encontrar probabilidade Binomial. Uma forma é usar um Diagrama de Árvore e a regra de multiplicação.
Outra forma é usar a equação de probabilidade Binomial, onde usamos Fatorial. Podemos também usar tabelas.
EQUAÇÃO DA PROBABILIDADE BINOMIAL
x n-x
P(x) = n! . S . F
x! (n - x)!
F = probabilidade de Fracasso
n tamanho da amostra (evento complementar)
x nº sucessos na amostra
S = probabilidade de Sucesso
Nota: p e q foram substituídos por S e F por fins didáticos. (evento procurado)
Fundamentação da equação: https://www.youtube.com/watch?v=V2sfnVikFXA
Há três resultados que têm dois sucessos e cada um tem uma probabilidade de Usando a equação Binomial obtemos
0,141. Aplicando a Regra da Adição, a probabilidade de a cirurgia ser um sucesso o mesmo resultado pelo método do
com dois pacientes é 0,422. (0,141 + 0,141 + 0,141) Diagrama de árvore, de 0,422.
Exemplo 2. Um levantamento estatístico realizado pelo IBGE constatou que a taxa de desemprego na cidade de
Resende é da ordem de 13%. Ao tomarmos uma amostra de 30 pessoas, com reposição, qual a probabilidade de:
a) 5 estarem desempregados 13% desemprego(Sucesso) 87% emprego(Fracasso)
b) 28 estarem empregados Sucesso é o que se deseja estudar;
c) 27 estarem empregados 87% emprego(Sucesso) 13% desemprego(Fracasso) Fracasso é o que não se deseja estudar
x n-x
P(x) = n! . S . F
x! (n - x)!
n = 30 n = 30 n = 30
x=5 x = 28 x = 27
S = 0,13 S = 0,87 S = 0,87
F = 0,87 F = 0,13 F = 0,13
5 30 - 5 28 30-28 27 30-27
P(x)= 30! . 0,13 . 0,87 P(x)= 30! . 0,87 . 0,13 P(x)= 30! . 0,87 . 0,13
5! (30-5)! 28! (30-28)! 27! (30-27)!
P(x)= 142506 . 0,000037 . 0,0307 P(x)= 435 . 0,0202 . 0,0169 P(x)= 4060 . 0,0232 . 0,0021
P(x) ≈ 0,1627 P(x) ≈ 0,1489 P(x) ≈ 0,1978
Exemplo 3. Uma caixa contém 50 bolas, sendo 40 brancas e 10 pretas. Tirando-se 5 bolas, COM REPOSIÇÃO, qual a
probabilidade de saírem:
a) 2 bolas pretas? b) 4 bolas brancas?
n=5 n=5
x=2 2 5–2 x=4 P = 5! 4
. 0,80 . 0,20
5 –4
≈ 0,4096
10
S = 0,20 ( /50)
P = 5! . 0,20 . 0,80 ≈ 0,2048 40
S = 0,80 ( /50)
40 2! (5-2)! 10 4! (5-4)!
F = 0,80 ( /50) F = 0,20 ( /50)
Exemplo 4. Uma moeda é lançada 5 vezes. Qual a probabilidade de obter “3 caras” nessas cinco provas?
n = 5 (tamanho da amostra)
x = 3 (nº sucessos da amostra) P(x) = 3
5! __ . 0,50 . 0,50
5–3
≈ 0,3125
S = 0,50 ( = ½ a p de obter cara) 3! (5-3)!
F = 0,50 (= ½ a p de obter coroa)
Exemplo 5. Um dado é lançado 6 vezes. Qual a probabilidade de que a “face 4” apareça 2 vezes?
n = 6 (tamanho da amostra)
x = 2 (nº sucessos da amostra) P(x) = 2
6! __ . 0,17 . 0,83
6–2
≈ 0,2057
1
S = 0,17 ( = /6 a p de obter “4”) 2! (6-2)!
5
F = 0,83 (= /6 a p de não obter “4”)
Exemplo 6. Dois times de futebol, A e B, jogam entre si 6 vezes. Qual a probabilidade de o time A ganhar 4 jogos?
n = 6 (tamanho da amostra)
x = 4 (nº sucessos da amostra) P(x) = 4
6! __ . 0,33 . 0,66
6–4
≈ 0,0774
1
S = 0,33 ( = /3 a p de ganhar)* 4! (6-4)!
F = 0,66 (= 2/3 a p de não ganhar)
1
* /3 o time A pode ganhar, empatar ou perder. Logo, a probabilidade para cada evento é de 1/3
Exemplo 7. Em uma fábrica, 3 em cada 10 peças são defeituosas. Uma remessa a um determinado cliente possui 5
peças. Determine a probabilidade de que, nessa remessa:
Exemplo 8. Uma máquina produz parafusos, dos quais 12% apresentam algum tipo de defeito. Calcular a
probabilidade de, em um lote de 40 parafusos produzidos por essa máquina:
P = 40! . 0,123 . 0,8840–3 ≈ 0,1507 P = 40!_ . 0,124. 0,8840–4 ≈ 0,1901 P = 40! _ . 0,125. 0,8840–5 ≈ 0,1867
3! (40-3)! 4! (40-4)! 5! (40-5)!
P (3 e 5, inclusive) = 0,1507 + 0,1901 + 0,1867 = 0,5275
b) Pelo menos dois parafusos defeituosos (ou seja: P2 + P3 + P4 + . . . + P40) Neste caso use: 1 - (P0 + P1)
Ao invés de calcularmos P2 + P3 + P4 + . . . + P40 é mais conveniente usarmos o método do evento complementar (1 – p), pois dá menos
trabalho. Então, calculamos 1 – (P0 +P1 )
nº sucesso amostra
tamanho amostra
prob. Sucesso
falso, para não cumulativo (até 3)
nº de ocorrências
1 2 3 4... do evento
x x x x
← Intervalo de tempo, distância, área ou volume →
Regras: É aplicada caso os eventos ocorram com uma MÉDIA conhecida e cada evento seja independente.
São exemplos: número de consultas a uma base de dados por minuto; número de falhas de um equipamento por hora;
2
número de erros de tipografia em um formulário; número de defeitos em um m de piso cerâmico; número de buracos
em um asfalto por km; número de acidentes por mês em uma rodovia etc.
EQUAÇÃO DA PROBABILIDADE DE POISSON
x * -µ
P(x) = µ e
x!
µ = letra grega mi = Média Constante de Euler Venn 2,7182
Exemplo 1. A Média do número de acidentes por mês na rodovia Barra Mansa-Angra é de 3 acidentes por mês.
Determine a probabilidade de que, em qualquer mês dado:
a) 4 acidentes ocorram na rodovia
b) 2 acidentes ocorram na rodovia
c) Nenhum acidente ocorra na rodovia
a) 4 acidentes ocorram na rodovia b) 2 acidentes ocorram na rodovia c) Nenhum acidente ocorra na rodovia
-µ y y
Para calcular e use a mesma tecla X ou ^. Introduza 2,7182 X - 3 = 0,0497
Encontre e na calculadora
Você pode usar o microsoft Excel para calcular probabilidades de Poisson. Veja abaixo (do exemplo 1)
Exemplo 2. Supondo que a Média do número de pessoas que acessam um caixa eletrônico de um banco durante
uma hora é 5. Determine a probabilidade de, no mesmo período, ocorrerem:
x . -µ
a) Menos de 2 acessos ao caixa eletrônico P(x) = µ e
b) Pelo menos 3 acessos ao caixa eletrônico x!
b) Pelo menos 3 acessos ao caixa eletrônico (ou seja P3+P4+P5 +P6+P7+P8 ...)
“pelo menos 3 acessos ao caixa” é o mesmo que “no mínimo 3 acessos ao caixa”. Ao invés de calcularmos P3+P4+P5+... é mais
conveniente usarmos método do evento complementar (1 – p). Então, calculamos 1 – (P0 + P1 + P2)
Nenhum acesso 1 acesso ao caixa 2 acessos ao caixa eletrônico Evento complementar
ao caixa eletrônico
µ=5 P (x ≥ 3) = 1 – (P0 + P1 + P2)
e = 2,7182
P0 = 0,0067 P1= 0,0337
x=2 P = 1 – (0,0067+0,0337+0,0842)
2 . -5
P2 = 5 2,7182 = 0,0842 P = 0,8753
2!
Exemplo 3. Numa central telefônica chegam em média 300 telefonemas por hora. Qual a probabilidade de que:
a) 2 telefonemas ocorram em dois minutos?
Nota: São 300 telefonemas/hora, em média.
b) 3 telefonemas ocorram em quatro minutos? 300
Então são em média 5 telefonemas/minuto. ( /60 = 5)
c) Nenhum telefonema ocorra em um minuto?
µ= 10 telefonemas (5+5 em dois min) µ= 20 telefonemas (5*4 em quatro min) µ = 5 telefonemas (em um min)
e= 2,7182 e = 2,7182 e = 2,7182
x= 2 telefonemas x=3 x=0
2 * -10 3 . –20 0 . -5
P = 10 2,7182 = 0,002270 P = 20 2,7182 = 0,0000274 P= 5 2,7182 = 0,00673
2! 3! 0!
Análise dos resultados: Perceba pelo comparativo que a distribuição de Poisson pode ter uma boa aproximação da Distribuição
Binomial. A aproximação vai melhorando à medida que n vai se tornando maior e S vai se tornando menor.
Exemplo 2. Uma máquina produz parafusos, dos quais 1% apresentam algum tipo de defeito. Calcular a
probabilidade de, em um lote de 900 parafusos produzidos por essa máquina:
a) 9 parafusos estejam defeituosos
Pela distribuição Binomial Poisson como aproximação da distribuição Binomial
n = 900
x=9 n = 900
S = 0,01 x=9
F = 0,99 S = 0,01
9 900 – 9 9 –(900 * 0,01)
Pbin = 900! . 0,01 . 0,99 ≈ „Math ERROR‟ PPoisson ≈ bin = (900*0,01) * 2,7182 ≈ 0,1317
9! (900-9)! (0,1324 pelo Excel) 9!
Análise dos resultados: Observe que o cálculo do exemplo 2 pelo método Binomial usando uma calculadora científica torna-se
impraticável. Pelo Excel o resultado Binomial é 0,1324, bem aproximado pelo método de Poisson. É importante ressaltar que
a variável aleatória de Poisson teoricamente se estende desde 0 até ∞ (infinito). No entanto, quando você utiliza a distribuição
de Poisson como uma aproximação para a distribuição binomial, a variável aleatória de Poisson — o número de sucessos dentre
n observações — não pode ser maior do que o tamanho da amostra, n.
É usada para distribuições SIMÉTRICAS e possui diversas aplicações, como calcular as probabilidades de
PESOS e ALTURAS das pessoas, diâmetro e comprimento de peças em linhas de produção, tempo de vida
útil de produtos e diversas outras medições de pesquisas científicas.
Aplicado para distribuições SIMÉTRICAS (Média=Moda=Mediana). Possui como parâmetro a MÉDIA e DESVIO PADRÃO.
Também chamada de Curva Normal, Curva de Gauss e Curva em forma de Sino.
Para entender o conceito de uma Distribuição Normal, tomemos como exemplo a distribuição da vida útil de 340
lâmpadas produzidas pela PHILIPS:
Curva NORMAL ou
Curva de GAUSS ou
Média = Curva em forma de SINO
Moda = 1000 horas
Mediana =
Observe pela Distribuição Normal que o tempo de vida útil das lâmpadas:
Possui uma elevação em seu centro e pontas que vão tanto para direita quanto para a esquerda;
A Média, Mediana e Moda (1000 horas) encontram-se exatamente no meio da distribuição;
A distribuição de valores menores que a Média (700, 800, 900) e maiores que a Média (1100, 1200, 1300) é simétrica,
o que significa que se você dobrá-la ao meio, suas partes serão como imagens refletidas por um espelho;
Como a curva é simétrica em torno da Média, os valores maiores que a média e os valores menores do que a Média
ocorrem com igual probabilidade;
A maioria dos dados é centralizada ao redor da média, de modo que quanto mais longe da média você se mover, cada
vez menos pontos de dados você vai encontrar em ambos os lados.
Analisando a variabilidade
Analise a figura abaixo. Veja que a maior parte da vida útil das lâmpadas produzidas pela PHILIPS varia de 700
horas até 1300 horas, com uma boa parte das lâmpadas com vida útil de 900 a 1100 horas. Pensando como
consumidor, você gostaria de se deparar com tamanha variabilidade quando for comprar um pacote de lâmpadas?
Veja que uma concorrente (OSRAM) irá tentar fabricar lâmpadas com vida útil menos variável; a vida útil terá
uma média de 1000 horas, mas suas lâmpadas terão uma vida útil mais consistente, variando de 920 a 1080
horas, com boa parte das lâmpadas com duração entre 980 e 1020 horas.
100
100
Quantidade
80 PHILIPS
70 70
60
40 40
40
20
10 10
0
700 800 900 1000 1100 1200 1300
920 1080
Horas
Em uma distribuição Normal, o Desvio padrão tem um significado especial, pois determina a distância da Média
até um ponto dentro da distribuição, cada um com a mesma distância da Média. No caso abaixo, supomos (por
fins didáticos) que o Desvio padrão do tempo de vida útil das lâmpadas é s=100 horas.
99,74% A regra empírica
Na distribuição normal é possível determinar a posição
s=100 da maioria dos valores, usando as distâncias de 1, 2 ou 3
95,44%
Desvios padrões da Média para estabelecer alguns
x marcos. A regra que lhe permite fazer isso se chama
120 68,26% Regra empírica, que diz o seguinte:
Exemplo 1. Seja X a variável aleatória que representa os tempos de vida útil das lâmpadas produzidas pela
PHILIPS Sendo a Média de vida útil das lâmpadas de 1000 horas com Desvio padrão de 100 horas, ache a
probabilidade de a lâmpada ter vida útil entre 1000 e 1150 horas, isto é, P(1000 < z < 1150).
Probabilidade procurada
P(1000 < Z < 1150)
P= 0,4332
Z= 1,50
1º PASSO. Calcule o número de desvios padrão que o valor “1150” se distancia da média “1000”. Para isto,
utilizamos a equação abaixo, chamada “escore Z”.
2º PASSO. Com o escore Z de “1,50”, use a Tabela de Distribuição Normal Padrão para encontrar a
probabilidade, como explicado abaixo
Na 1ª coluna encontramos “1,5”. Em seguida, encontramos na 1ª linha “0”, que é o último algarismo de “1,50”. Na
intersecção da linha e coluna encontramos 0,4332, que indica a probabilidade P(1000 < z < 1150) = 0,4332 ou 43,32%
Interpretação: espera-se que 43,32% das lâmpadas tenham vida útil entre 1000 e 1150 horas
Área = 0,5
-z +z
Exemplo 2. Continuando com os dados do exemplo 1, ache P(900 < z < 1000).
Quando partimos da média calculamos apenas um escore Z. Para lado esquerdo o escore Z sempre terá sinal
negativo, que não será considerado, pois os dois lados são iguais em termos de probabilidades.
Probabilidade procurada EQUAÇÃO ESCORE Z
P(900 < Z < 1000)
P= 0,3413 z x - x
s
Calculando, temos:
Interpretação: Espera-se que 34,13% das lâmpadas tenham vida útil entre 1000 e 1100 horas.
Exemplo 3. Continuando com os dados do exemplo 1, ache P(900 < z < 1050).
Z1= -1,00
Interpretação: Espera-se que 53,28% das lâmpadas tenham vida útil entre 900 e 1050 horas.
Exemplo 4. Continuando com os dados do exemplo 1, ache P(1050 < z < 1150).
Neste caso, calculamos dois escores Z (de 1000 a 1150; e de 1000 a 1050). Depois subtraímos as probabilidades:
Z2= 0,50
Interpretação: Espera-se que 24,17% das lâmpadas tenham vida útil entre 1050 e 1150 horas.
PZ2=0,0668
--
P2=0,1915 Z2 = 850 - 1000 = -1,50
100 0,4332
Z1= -1,50 Subtração probabilidades = 0,0668
Interpretação: Espera-se que 6,68% das lâmpadas tenham vida útil abaixo de 850 horas.
Exemplo 6. Sabe-se que a Média de vida útil das lâmpadas produzidas pela PHILIPS é de 1000 horas com Desvio
padrão de 100 horas. O fabricante oferece uma garantia de 800 horas, isto é, trocar as lâmpadas que apresentem
falhas nesse período ou inferior. Fabrica 15.000 lâmpadas mensalmente. Quantas lâmpadas deverá trocar pelo uso da
garantia, mensalmente?
SUBTRAÇÃO DE PROBABILIDADES
P1 = (meia área)
Probabilidade procurada P( Z < 800)
0,5
Garantia de --
800 horas Z2 = 800 - 1000 = - 2,00
00 0,4772
Interpretação: Constatamos que 2,28% (0,0228) das lâmpadas não atenderão a garantia. Então o fabricante deverá substituir
mensalmente: 15.000 x 0,0228 = 342 lâmpadas.
Capítulo 3
CORRELAÇÃO E
REGRESSÃO
Existem situações nas quais interessa estudar a relação entre duas variáveis,
coletadas como pares ordenados (x,y), para resolver questões do tipo
“Existe relação entre o número de horas de estudo e as notas obtidas?”.
Problemas como esses são estudados pela análise de correlação linear
simples, onde determinamos o grau de relação entre duas variáveis. Se as
variáveis variam juntas, diz-se que as mesmas estão correlacionadas.
Saiba
mais
Clique aqui
www.udemy.com
Junte-se a milhões de estudantes na maior plataforma on-line
de cursos curtos e práticos do mundo.
Com mais de 45.000 cursos virtuais disponíveis, o Udemy é uma plataforma global de
ensino on-line onde 15 milhões de alunos estão dominando novas habilidades.
Existem situações nas quais interessa estudar a relação entre duas variáveis, coletadas como pares ordenados
(x,y), para resolver questões do tipo:
Variável x Variável y
Existe relação entre o número de horas de estudo... ...e as notas obtidas?
Quanto maior for a produção... ...maior será o custo total?
Existe relação entre o tabagismo... ...e a incidência de câncer?
Quanto maior a idade de uma casa... ...menor será seu preço de venda?
Existe relação entre o número de horas de treino... ...e os gols obtidos em uma partida de futebol?
Existe relação entre o nível de pressão arterial... ...com a idade das pessoas?
Problemas como esses são estudados pela análise de correlação linear simples, onde determinamos o grau de
relação entre duas variáveis. Se as variáveis variam juntas, diz-se que as mesmas estão correlacionadas.
Correlação linear simples é uma técnica usada para analisar a relação entre duas variáveis.
DIAGRAMA DE DISPERSÃO
EXEMPLO 1. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo número de
horas de estudo (x) e as notas obtidas (y). Verifique se existe correlação por meio do diagrama de dispersão.
Diagrama de Dispersão
Número de horas de estudo
versus notas obtidas H o r as estudadas ver sus No tas o btidas
10
Aluno X Y
9
(horas de estudo) (notas obtidas) Ponto de interseção
8 (Aluno D)
A 8h 9,0
Y (Notas obti das )
7
B 2h 3,0 6
C 3h 4,0 5
4
D 4h 5,0 3
E 4,5h 6,0 2
F 6h 7,0 1
0
G 5h 7,0
0 1 2 3 4 5 6 7 8 9
H 7h 7,5 x (Horas de es tudo)
FONTE: dados fictícios
Representando os pares ordenados (x,y), obtemos diversos pontos grafados que denominamos diagrama de dispersão. Para
construí-lo, basta pontuar a interseção de cada eixo x,y. Por exemplo, o aluno D estudou 4h (eixo x) e obteve a nota 5,0 (eixo
y). Observe no diagrama uma linha vermelha pontilhada e o ponto de interseção. Esse diagrama nos fornece uma idéia
grosseira, porém útil, da correlação existente. Ao observar o diagrama como um todo, podemos afirmar que existe uma
correlação entre as variáveis x,y pois, quando x cresce, y também tende a crescer.
CORRELAÇÃO LINEAR
H o r as estudadas ver sus No tas o btidas
10
Os pontos grafados, vistos em conjunto, 9
formam uma elipse (trajetória, distribuição 8
dos pontos) em diagonal.
Y (Notas obti das )
7
6
Podemos imaginar que, quanto mais fina for 5
a elipse, mais ela se aproximará de uma reta. 4 Reta imaginária
Dizemos então, que a correlação de forma 3
2
elíptica tem como “imagem” uma reta, sendo,
1
por isso, denominada correlação linear.
0
0 1 2 3 4 5 6 7 8 9
x (Horas de es tudo)
Uma direção para cima sugere que se: Uma direção para baixo sugere que se:
- x aumenta, - x aumenta,
- y tende a aumentar. - y tende a diminuir.
EXEMPLO 2. Consideremos na tabela abaixo os meses de Jan a Set, o aumento mensal do preço das refeições (x)
e a média do número de clientes ao mês (y). Verifique se existe correlação por meio do diagrama de dispersão.
Diagrama de Dispersão
Aumento do preço da refeição
versus média de clientes por mês Aumento do p r eço da r efeição ver sus média clientes p /dia
Mês X Y 180
(preço refeição) (média clientes) 160
Y (médi a de c l i entes p/di a)
Ago R$ 21,90 80 0
0,00 5,00 10,00 15,00 20,00 25,00 30,00
Set R$ 24,90 67 x (P reç o ref ei ç ão)
FONTE: dados fictícios
Onde:
r = coeficiente de correlação e n = tamanho da amostra
EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo
número de horas de estudo (x) e as notas obtidas (y), calcule o coeficiente de correlação r.
Cálculo do r:
Número de horas de estudo
versus notas obtidas
Aluno X Y X
2
Y
2
XY
(horas de estudo) (notas obtidas)
A 8h 9,0 64 81 72
B 2h 3,0 4 9 6
C 3h 4,0 9 16 12
D 4h 5,0 16 25 20
E 4,5h 6,0 20,25 36 27
F 6h 7,0 36 49 42
G 5h 7,0 25 49 35
H 7h 7,5 49 56,25 52,5
=39,5 =48,5 =223,25 =321,25 =266,5
Interpretação:
O coeficiente de correlação r = 0,975 indica que o grau de relação entre as duas variáveis é “Muito forte”,
além de ser “Positiva” (pois x aumenta, y também aumenta). Então, podemos afirmar que, conforme
aumentam as horas de estudo, as notas obtidas também aumentam. Veja mais detalhes abaixo:
O grau de relação r pode variar de -1 até +1, conforme ilustrado abaixo:
Perfeita Nula Perfeita
-1 0 +1
-0,9 -0,6 -0,3 0,3 0,6 0,9
Muito Forte Fraca Muito Fraca Muito Fraca Fraca Forte Muito
forte forte
x x
r=0,975
Positiva e “Muito forte”
Notas:
Correlação e causalidade.
O fato de duas variáveis serem fortemente correlacionadas não implica uma relação de causa e efeito entre elas. Um estudo
mais profundo é usualmente necessário para determinar se há uma relação causal entre as variáveis. As seguintes questões
devem ser consideradas ao pesquisador:
- Há uma relação direta de causa e efeito entre as variáveis?
- É possível que a relação entre duas variáveis seja uma coincidência?
Mais informações em Larson, 2010, capítulo 9.
Após verificar se a correlação linear entre duas variáveis é significante, o próximo passo é determinar a equação
da linha que melhor modela os pontos grafados. Essa linha é chamada de linha de regressão (ou linha de melhor
ajuste). Portanto, a análise de regressão linear simples tem por objetivo obter a equação matemática do ajuste da
reta que representa o melhor relacionamento numérico linear entre as duas variáveis em estudo.
A Regressão Linear
H o r as estudadas ver sus No tas o btidas determina o
10
ajuste da reta,
9
chamada de “Linha de
8
Regressão”
Y (Notas obti das )
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9
x (Horas de es tudo)
Ao se construir um diagrama de dispersão, não sabemos o comportamento da reta em relação aos pontos
grafados. Para tanto, devemos calcular o “ajustamento da reta aos pontos”. Eis alguns exemplos de diagramas de
dispersão com o ajustamento da reta aos pontos:
Para ajustar a reta aos pontos grafados em um diagrama de dispersão, os estatísticos usam as seguintes equações:
b = ̅ - a̅ ̂ = aX + b
Onde: Onde:
b = Coeficiente linear ̂ = Ajustamento da reta
Onde: ̅ = Média de y
a = Coeficiente angular
a = Coeficiente angular a = Coeficiente angular
X = É um valor arbitrário. (Ex.: nº 5)
n = tamanho da amostra ̅ = Média de x b = Coeficiente linear
EXEMPLO DE APLICAÇÃO. Consideremos na tabela abaixo uma amostra formada por 8 alunos de uma classe, pelo
número de horas de estudo (x) e as notas obtidas (y), calcule a reta ajustada nos pontos grafados.
Número de horas de estudo
versus notas obtidas
1º - Calcular o Coeficiente angular a:
Aluno X Y X
2
XY
(horas de estudo) (notas obtidas)
A 8h 9,0 64 72
B 2h 3,0 4 6
C 3h 4,0 9 12
D 4h 5,0 16 20
E 4,5h 6,0 20,25 27 a = 266,5 - (39,5) . (48,5)
F 6h 7,0 36 42 8
G 5h 7,0 25 35 223,25 - (39,5)
2
H 7h 7,5 49 52,5 8
=39,5 =48,5 =223,25 =266,5 a = 0,958
b = - a = aX + b
Note que os pontos grafados estão muito próximos da reta. Isso significa que existe uma correlação
muito forte entre as duas variáveis em estudo
CAPÍTULO 4
TESTE DE HIPÓTES
É possível testar
afirmativas acerca de
populações?
Conceitos introdutórios
TESTE DE HIPÓTESE é um procedimento usado para testar se a afirmação acerca de uma população é
verdadeira ou não, com base em dados amostrais.
Uma hipótese é uma suposição quanto ao valor de um parâmetro populacional. O teste de hipótese é tão somente uma regra de
decisão para ACEITAR ou REJEITAR uma hipótese qualquer (uma suposição, uma afirmação), com base nos elementos amostrais.
EXEMPLO. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista
decide testar essa afirmação e analisa 50 veículos obtendo uma média de 17 km/L, que é diferente da informada
pelo fabricante.
O resultado de 17km/L não garante que a afirmação do fabricante seja falsa, pois você está se baseando em dados amostrais. Para
haver esta garantia só realizando um censo (toda a população), o que é teoricamente impossível.
O que devemos avaliar, com auxílio do Teste de Hipótese, é se a afirmação é verdadeira ou não, com base nos dados amostrais.
Nível de significância α. Note que o erro Tipo I é pior pois condenar um inocente é algo terrível, e este erro o pesquisador deve evitar a todo
o custo! Porém, há sempre uma probabilidade de cometê-lo. Esta probabilidade é chamada de Nível de Significância α (alfa). Portanto:
O NÍVEL DE SIGNIFICÂNCIA α é a PROBABILIDADE de se cometer um ERRO TIPO I, devendo ser sempre a menor possível.
Normalmente, usamos um Nível de Significância de 10% (0,10); 5% (0,05); ou 1% (0,01). Mas pode-se usar qualquer α.
Tipos de Testes.
Usamos a curva normal (ou t) para realizar os testes, sendo três tipos possíveis, e o que será usado depende do sinal presente na hipótese alternativa Ha.
Teste Unilateral à esquerda Teste Unilateral à direita Teste Bilateral
H0 : µ = 18 km/L H0 : µ = 18 km/L H0 : µ = 18 km/L
Ha : µ < 18 km/L Ha : µ > 18 km/L Ha : µ ≠ 18 km/L
α 5% α 5% α 5%
Região de Região de
Região de aceitação
Região de aceitação aceitação Região de Região de
rejeição 0,95 Região de rejeição
0,95 rejeição
α 0,05 rejeição α 0,025 0,95 α 0,025
α 0,05 2 2
Este teste será usado quando se tem um valor Este teste será usado quando se tem um valor Será usado quando se tem um valor dentro de um
mínimo aceitável. Sinal usado em Ha: <. máximo aceitável. Sinal usado em Ha: >. intervalo aceitável. Sinal usado em Ha: ≠.
TOMANDO A DECISÃO: A Região de rejeição (demonstrada no gráficos) é o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a Hipótese
Nula (H0). Se a estatística de teste cair nesta região, diremos que a afirmativa do fabricante é falsa, o que fará com que rejeitemos a Hipótese Nula (H 0).
Mas, se a estatística de teste cair na Região de aceitação, diremos que a afirmativa é verdadeira. O termo “estatística de teste” é feito por meio de cálculos que
serão apresentados a seguir. O nível de significância α 5% (demonstrado nos gráficos) é apenas um exemplo, pois podemos usar também outros níveis.
Teste de Hipótese para média (amostras grandes n > 30) (Distribuição Normal z)
Usamos a Distribuição Normal (z) para realizar o teste de hipótese para amostra maior que 30. Quando o desvio padrão é
conhecido, mesmo com amostra menor que 30, também podemos usar a Normal. Embora tenha 3 tipos de testes, na prática
aplicamos um ou outro, nunca os três conjuntamente. Mostraremos a aplicação dos três testes em problemas diferentes.
EXEMPLO 2. TESTE UNILATERAL À DIREITA A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma
revista decide testar a afirmação e analisa 35 veículos da mesma marca, obtendo uma média de 18,5 km/L com desvio padrão de 2,5
km/L.. Testar a hipótese, contra a alternativa de que o consumo é maior que 18km/L, com Nível de Significância de 4%.
1º passo: Formular as hipóteses: 4º passo: Desenhar as Regiões de Rejeição e de 5º passo: Calcular a
H0 : µ = 18 km/L Aceitação, em função do escore z (nível α) : estatística de teste:
Ha : µ > 18 km/L
x
2º passo: Definir o tipo de teste a ser usado: Região de z
aceitação s
Como a média amostral foi 18,5km/L, temos um valor máximo 0,96 Região de
aceitável. O sinal é >, logo, usamos o unilateral à direita. rejeição n
α 0,04
3º passo: Encontrar escore z que estabelece os limites de
18,5 18 = +1,18
Rejeição/Aceitação: α=4%(0,04) | 0,5 – 0,04 = 0,46 → z = +1,75 z
18km/L
2,5
Ao procurar 0,46 na tabela Normal, encontramos z = +1,75 (como o z=+1,75
teste é “unilateral à direita”, z será positivo). 35
EXEMPLO 3. TESTE BILATERAL. A FIAT afirma que o consumo de combustível do Pálio Fire é, em média, de 18 km/L. Uma revista
decide testar a afirmação e analisa 42 veículos da mesma marca, obtendo uma média de 16,8 km/L com desvio padrão de 2 km/L.
Testar a hipótese, contra a alternativa de que o consumo não é de 18km/L, com Nível de Significância de 10%.
1º passo: Formular as hipóteses: 4º passo: Desenhar as Regiões de Rejeição e de 5º passo: Calcular a
H0 : µ = 18 km/L Aceitação, em função do escore z (nível α) : estatística de teste:
Ha : µ ≠ 18 km/L
Região de x
2º passo: Definir o tipo de teste a ser usado: aceitação z
A idéia não é testar se é menor ou maior. Queremos testar um Região de Região de s
rejeição rejeição
intervalo aceitável. O sinal é ≠, logo, usamos o Bilateral. α 0,05 0,90 α 0,05 n
2 2
3º passo: Encontrar escore z que estabelece os limites de
0,90 16,8 18 = -3,88
Rejeição/Aceitação: α=10% | /2 = 0,45 → z = -1,65 e +1,65
18km/L
z
2
Ao procurar 0,45 na tabela Normal, encontramos z = ±1,65 (como o Z=-1,65 Z=+1,65 (0,90/2 = 0,45)
teste é “Bilateral”, usamos z positivo e negativo). 42
p p0 p = proporção amostral
A estatística de teste z p0 = proporção Hipotética (H0)
usada para p0( 1 p0) n = tamanho da amostra
Proporções é: n z = Estatística de teste z (Normal)
EXEMPLO 5. Inspeciona-se uma amostra de 200 peças de uma grande remessa, encontrando-se 8% de peças defeituosas (200 x 0,08 =
16 peças defeituosas). O fornecedor garante que não haverá mais de 6% de peças defeituosas em toda a remessa. Testar a hipótese de
que a proporção de peças defeituosas é maior que 6%, com Nível de Significância de 5%.
1º passo: Formular as hipóteses: 4º passo: Desenhar as Regiões de Rejeição e 5º passo: Calcular a
H0 : p0 = 6% de Aceitação, em função do escore z (nível α) estatística de teste z:
Ha : p > 6%
p p0
2º passo: Definir o tipo de teste a ser usado: Região de z
Como a proporção amostral foi 8%, temos um valor máximo aceitação p0( 1 p0)
0,95 Região de
aceitável. O sinal é >, logo, usamos unilateral à direita. n
rejeição
3º passo: Encontrar escore z que estabelece os limites de α 0,05
0,08 0,06
Rejeição/Aceitação: α=5% | 0,5 – 0,05= 0,45 → z=+1,65 z = +1,19
0,06( 1 0,06)
Ao procurar 0,45 na tabela Normal, encontramos z = +1,65 (como o z=+1,65
teste é “unilateral à direita”, usamos z positivo). 200
Exemplo 1. Dez cobaias adultas foram submetidas ao tratamento com certa ração para engordar, durante uma
semana. Os animais foram perfeitamente identificados, tendo sido mantidos, para tanto, em gaiolas individuais. Os
pesos, em gramas, no princípio e no fim de semana, designados respectivamente por X1 e X2 são dados a seguir.
Ao nível de 1% de significância, podemos concluir que o uso da ração contribuiu para o aumento do peso médio dos
animais? (Moretim)
Resolução: A tabela com os dados da experiência é mostrada abaixo, juntamente com os cálculos do 1º e 2º passos.
1º passo: Encontrar d (X2-X1) e ∑d (para permitir cálculo de d , que é a média das diferenças).
2 2
2º passo: Encontrar d e ∑d (para permitir cálculo de Sd, que é o desvio padrão das diferenças).
Dados da experiência
diferença d 2 3º passo: Calcular d
Cobaia X1 X2 d
(X2-X1) d 66 = 6,6
1 635 640 5 25 d n é o tamanho da amostra
n 10
2 704 712 8 64
3 662 681 19 361
4 560 558 -2 4
5 603 610 7 49
6 745 740 -5 25 4º passo: Calcular Sd
7 698 707 9 81 d 2 662
8 575 585 10 100 d2 882
n 10 = 7,043
9 633 635 2 4 Sd
10 669 682 13 169 n 1 10 1
2
∑d=66 ∑d =882
z=-2,05 z=+2,05
z=-3,38
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, David R.; SWEENEY, Dennis J.; WILLIANS, Thomas A. Estatística aplicada à administração e economia. 2
ed. São Paulo: Cengage Learning, 2009. 597 p.
BARBETTA et al. Estatística para cursos de engenharia e informática. 2 ed. São Paulo: Atlas, 2008.
COSTA NETO, Pedro Luiz de Oliveira; CYMBALISTA, Melvin. Probabilidades. 2 ed. São Paulo: Edgard Blucher, 2005.
CRESPO, Antônio Arnot. Estatística fácil. 17 ed. São Paulo: Saraiva, 1999. 224 p.
FARIAS, Alfredo Alves et al. Introdução à estatística. 2 ed. Rio de Janeiro: LTC, 2003. 340 p.
GIOVANNI José Ruy; BONJORNO, José Roberto; GIOVANNI JR., José Rui. Matemática fundamental: uma nova
abordagem – volume único. São Paulo: FTD, 2002. 712 p.
HAZZAN, Samuel. Fundamentos da matemática elementar: combinatória e probabilidade. 7 ed. São Paulo: Atual
editora, 2004. 184p.
LAPPONI, Juan Carlos. Estatística usando o Excel. 4 ed. Rio de Janeiro: Elsevier, 2005. 476 p.
LARSON, Ron; FARBER, Betsy. Estatística aplicada. 4 ed. São Paulo: Pearson, 2010. 637 p.
LEVINE, David M. et al. Estatística: teoria e aplicações. 5 ed. Rio de Janeiro: LTC, 2008. 752 p.
LOPES, Paulo Afonso. Probabilidade e estatística: conceitos, modelos e aplicações em Excel. Ernesto Reichmann, 1999.
MEYER, Paul L. Probabilidade: aplicações à estatística. 2 ed.. Rio de Janeiro: LTC, 1983. 426 p.
MONTGOMERY, Douglas C.; RUNGER, George C. Estatística aplicada e probabilidade para engenheiros. 2 ed. Rio de
Janeiro: LTC, 2003. 465 p.
MORETTIN, Luiz Gonzaga. Estatística básica: probabilidade e inferência. São Paulo: Pearson, 2010. 375 p.
ROSS, Sheldon. Probabilidade: um curso moderno com aplicações. 8 ed.Porto Alegre: Bookman,2010. 826p.
RUMSEY, Deborah. Estatística para leigos. Rio de Janeiro: Alta books, 2009. 350 p.
SILVA, Ermes Medeiros et al. Estatística: para os cursos de Economia, Administração e Ciências Contábeis - volume 1. 2
ed. São Paulo: Atlas, 1996. 189 p.
SMOLE, Kátia Stocco; DINIZ, Maria Ignez. Matemática–ensino médio. 5 ed. São Paulo: Saraiva, 2005. 558p.
SPIEGEL, Murray R. Estatística. Coleção Shaum. São Paulo: McGraw-Hill do Brasil, 1977. 580 p.
TRIOLA, Mario F. Introdução à estatística. 10 ed. Rio de Janeiro: LTC, 2008. 696 p.
URBANO, João. Estatística: uma nova abordagem. Rio de Janeiro: Ciência Moderna, 2010.530 p.
VASCONCELLOS, Maria José Couto; SCORDAMAGLIO, Maria Terezinha; CÂNDIDO, Suzana Laino. Coleção
Matemática. 1ª e 3ª série do ensino médio. São Paulo: Editora do Brasil, 2004. 232 p.
Existem inúmeros recursos tecnológicos para a análise estatística de dados, que vão desde
calculadoras, a exemplo da TI – 83 PLUS, a aplicativos específicos, tais como o STATDISK e o
MINITAB (TRIOLA, 2005). Assim, buscando-se recursos computacionais que facilitassem o
tratamento de dados, vários aplicativos e softwares estatísticos foram pesquisados, dos quais se
destacam a planilha Excel, o STATDISK, o MINITAB, o BioEstat, o SPSS e algumas páginas na
Internet que oferecem programas em Javascript para cálculos on-line, a exemplo da página na
Internet www.stat.ucla.edu.
Após análise de pós e contras de cada aplicativo pesquisado, selecionou-se o pacote estatístico
BioEstat, disponível para download no site www.mamiraua.org.br, por possuir as seguintes
características positivas: i) serventia tanto para a Estatística descritiva como para testes estatísticos
não-paramétricos; ii) ser em português; iii) possuir manual em PDF com diversos exemplos; iv) ser
de fácil utilização; v) ser gratuito; vi) ser referenciado em vários livros, sites e entidades de
pesquisa – conforme Siegel & Castellan Junior (2006), o BioEstat é o melhor programa disponível
na atualidade para o cálculo do qui-quadrado; vii) possuir apoio do CNPQ; e viii) estar na versão 5.0
e possuir mais de 20 anos de criação.
INTERFACE BIOESTAT
Baixar software:
www.mamiraua.org.br
O Excel dispõe da função “Estatística”. Assim, tudo que vimos poderá ser desenvolvido pelo
excel, bastando inserir os valores da variável de interesse.
Para saber mais, basta adquirir o livro “Estatística usando o excel”, de Juan Carlos
Lapponi. WWW.SUBMARINO.COM.BR
4ª Edição, Edição 2005, 496 págs. Editora Elsevier Campus - Acompanha CD-ROM com Planilhas, Modelos,
Simuladores etc. para Excel.
O conteúdo deste livro é útil para: Estudantes que cursam Estatística nas diversas áreas do conhecimento e
em diferentes níveis de graduação como, em ordem alfabética, Administração, Biologia, Contabilidade,
Economia, Engenharia, Finanças, Marketing, Medicina, etc. Estudantes que necessitam aprimorar ou
complementar seus conhecimentos de Estatística utilizando o Excel. Profissionais das diversas áreas que
utilizam os conceitos de Estatística e necessitam, ou gostariam, de utilizar as funções estatísticas, as
ferramentas de análise, planilhas, modelos e simuladores de estatística em Excel. Todos aqueles que poderão
utilizar as planilhas, modelos e simuladores de estatística em Excel da forma como estão no CD-Rom, ou
modificando-os, para atender às suas necessidades. Alunos de áreas correlatas que utilizarão estatística e
desejam antecipar seu aprendizado e agregar valor ao seu conhecimento visando o mercado de trabalho. Usuários de Excel que desejam
conhecer e aprender a utilizar os recursos de Estatística disponíveis.
TÓPICOS
• DADOS, VARIÁVEIS E AMOSTRAS
• DESCRIÇÃO DE AMOSTRAS COM TABELAS E GRÁFICOS
• MEDIDAS DE TENDÊNCIA CENTRAL
• MEDIDAS DE DISPERSÃO/VARIAÇÃO
• PROBABILIDADE
• CORRELAÇÃO
• VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DISCRETAS
• DISTRIBUIÇÕES CONTÍNUAS
• COMBINAÇÃO LINEAR DE VARIÁVEIS ALEATÓRIAS
• DISTRIBUIÇÃO AMOSTRAL
• ESTIMAÇÃO
• TESTE DE HIPÓTESES
• TESTES DE HIPÓTESES COM DUAS AMOSTRAS
• ANÁLISE DA VARIÂNCIA
• REGRESSÃO LINEAR
• AJUSTE NÃO LINEAR
O termo “variação” sugere tornar vário ou diverso; alterar, diversificar; mudar; ser inconstante; não ser conforme,
discrepar. Na maioria dos casos existirá variação em um conjunto de dados, independente da característica que
você esteja medindo, pois nem todos os indivíduos terão o mesmo exato valor para todas as variáveis.
EXEMPLO
Durante o ano letivo a Média das notas de João, Mário, Maria e José foi 7,0. Se considerarmos apenas a
Média, não notaremos qualquer diferença entre os quatro alunos. No entanto, observa-se que as notas são
muito diferentes em relação a Média. Há variação de notas e, no caso de João e José, é bem discrepante:
Grande variação
Média das notas de João a partir da Média Média das notas de Mário Sem variação a
10,0 9,5 9,0 10,0 partir da Média
Notas
6,0 6,0
3,5
4,0 4,0
2,0 2,0
0,0 0,0
1º Bim 2º Bim Média 3º Bim 4º Bim 1º Bim 2º Bim Média 3º Bim 4º Bim
Bimestres Bimestres
6,0 6,0
4,0
4,0 4,0
2,0 2,0
0,0 0,0
1º Bim 2º Bim Média 3º Bim 4º Bim 1º Bim 2º Bim Média 3º Bim 4º Bim
Bimestres Bimestres
Diante deste contexto, podemos questionar: qual o aluno é mais estável? Qual teve melhor
desempenho? Qual o aluno com pior desempenho? Notadamente o aluno de melhor desempenho é o
Mário, pois todas as suas notas foram 7,0 e, portanto, não houve nenhuma variação em relação a Média.
Já José e João tiveram o pior desempenho pois suas notas estiveram muito distantes da Média.
Neste capítulo vamos desenvolver maneiras específicas de realmente medirmos a variação, de modo
que possamos usar números específicos em lugar de julgamento subjetivo.
Os preços das casas variam de casa para casa, de ano para ano e de estado para estado.
Os preços de um produto variam de supermercado para supermercado.
O tempo que você leva para chegar ao trabalho varia dia a dia.
O tamanho das peças produzidas em uma empresa também varia.
A renda familiar varia de família para família, de país para país e de ano para ano.
Os resultados das partidas de futebol, de temporada para temporada, variam.
As notas que você tira nas provas, não diferente, também variam.
Seu saldo bancário também varia, podendo ser de hora em hora, dia a dia, mês a mês.
São medidas que representam “um valor médio de variação” em torno da média.
O desvio padrão é um modo que se usa para medir a variação entre os números em um conjunto de dados. Assim como o termo sugere,
um desvio padrão é um padrão (ou seja, algo típico) de desvio (ou distância) da média. O desvio padrão é uma estatística importante,
mas, frequentemente, é omitida quando a média é relatada. Sem ele, você está recebendo apenas uma parte da história sobre os dados.
Os estatísticos gostam de contar a história do homem que estava com um dos pés em um balde de água gelada e o outro em um balde de
x x x
água fervendo. O homem dizia que, na média, ele estava se sentindo ótimo! Mas imagine a variação da temperatura para cada um dos
pés. Agora, colocando os pés no chão, o preço médio de uma casa, por exemplo, não lhe diz nada sobre a variedade de preços de casas
com a qual você pode se deparar enquanto estiver procurando uma casa para comprar. A média dos salários pode não representar o que
realmente está se passando em sua empresa se os salários forem discrepantes.
Calculando a Variância e o Desvio padrão das notas de Maria, José e Mário – passo a passo.
Notas de Maria: 6,5 6,5 7,5 7,5
1º Calcular a Média 2º Calcular a Variância 3º Calcular o Desvio padrão
x x 2
S = ( x x) 2
n n 1 S= S2 → 0, 33
2 2 2 2 2
x = 6,5+6,5+7,5+7,5 = 7,0 S = (6,5 – 7,0) + (6,5 – 7,0) + (7,5 – 7,0) + (7,5 – 7,0) = 0,33
S = 0,5
4 4–1
Interpretação: O resultado indica que a maioria das notas de Maria está 6,5 -0,5 +0,5 7,5
concentrada dentro dos limites de 0,5 em torno da Média 7,0. Ou seja,
se concentrando entre 6,5 e 7,5.
7,0
x x 2
S = ( x x) 2
n n 1 S= S2 → 6 ,16
2 2 2 2 2
x = 4,0+9,5+8,5+6,5 = 7,0 S = (4,0 – 7,0) + (9,5 – 7,0) + (8,5 – 7,0) + (6,0 – 7,0) = 6,16
S = 2,5
4 4-1
Interpretação: O resultado indica que a maioria das notas de Maria está 4,5 -2,5 +2,5 9,5
concentrada dentro dos limites de 2,5 em torno da Média 7,0. Ou seja,
se concentrando entre 4,5 e 9,5.
7,0
O resultado indica que todas as notas de Mário estão dentro dos limites de 0 em torno da Média 7,0. Ou seja, se concentrando exatamente
na média 7,0. Portanto, sem variação.
COEFICIENTE DE VARIAÇÃO - CV
É a medida relativa do desvio padrão que é expressa sob a forma de porcentagem (%).
Em algumas situações, podemos estar interessados em uma estatística que indique qual é o tamanho do desvio padrão em relação à
média. A melhor forma de representá-la é através do coeficiente de variação por ser expressa na forma de porcentagem.
Equação do Cv: Exemplo: Com a média 7,0 de João e Desvio padrão de 2,8, temos:
Cv = S x 100 Cv = 2,8 x 100 → 40%
x 7,0
Ou seja: Cv = Desvio padrão x 100 O resultado indica que a Média 7,0 de João teve um Desvio padrão em torno de 40%.
Média
VANTAGEM DO CV.
O Cv é útil para compararmos a variabilidade de variáveis que têm desvios padrão diferentes e médias diferentes
Exemplo: Suponha que o lote A de peças tenha média de
65 cm de comprimento com desvio padrão de 8 cm; e o Lote A Lote B
lote B tenha média de 105 cm com desvio padrão de 11 Cv = 8 x 100 = 12,3% Cv = 11 x 100 = 10,47%
cm. QUAL LOTE TEM MENOR VARIAÇÃO E É MAIS CONSISTENTE? 65 105
O lote B é mais consistente pois tem menor variação.
Sumário