Analise Estatistica Com R para Leigos - Apendice A PDF
Analise Estatistica Com R para Leigos - Apendice A PDF
Analise Estatistica Com R para Leigos - Apendice A PDF
»» Seguindo Poisson
»» Falando exponencialmente
Apêndice A
Mais sobre
Probabilidade
N
o Capítulo 17, mergulhei na probabilidade de forma semiformal e intro-
duzi as distribuições de variáveis aleatórias. A distribuição binomial é o
ponto inicial. Neste capítulo, examino outras distribuições.
Um dos símbolos nas páginas deste livro (e outros livros da série Para Leigos)
o informa de que lerá sobre um "papo de especialista". Poderia ter sido uma
boa ideia colocar esse símbolo acima do título deste capítulo. Então aqui vai
um pequeno aviso: existe matemática por aqui. Eu apresento os cálculos para
ajudá-lo a entender o que estamos fazendo quando trabalhamos com os argu-
mentos das funções R neste capítulo.
Essas funções são um pouco menos conhecidas? Bem… sim. Você terá a chance
de usá-las? Bem… talvez.
Por que isso é útil? No mundo real, normalmente não conhecemos o valor de
p e tentamos encontrá-lo. Geralmente conduzimos um estudo, encontramos o
número de sucessos em um conjunto de tentativas, então estimamos p. Beta
mostra a probabilidade de possíveis valores de p para o número de tentativas e
sucessos em seu estudo.
Parte da matemática é complicada, mas posso pelo menos mostrar a regra que
gera a função densidade para N tentativas com r sucessos, quando N e r são
números inteiros:
N 1 ! N r 1
f x |r , N xr 1
1 x
r 1 ! N r 1 !
A barra vertical entre parênteses à esquerda significa "atribuído a". Então essa
função densidade é para valores específicos de N e r. O cálculo entra em jogo
quando N e r não são números inteiros. (Função densidade? "Atribuído a"? Veja
o Capítulo 17.)
Para lhe dar uma ideia de como é a função, usei a função dbeta() de R para
gerar e diagramar a função densidade para quatro sucessos em dez tentativas.
A função dbeta() pode receber cinco argumentos, mas apenas três nos dizem
respeito aqui:
dbeta(x, 4, 6)
O código ggplot é:
ggplot(NULL,aes(x=x.values,y=dbeta(x.values,4,6)))+
geom_line()
A Figura A-1 mostra o gráfico. Lembre-se de que cada valor no eixo x é um valor
possível para a probabilidade de um sucesso. A curva mostra a densidade da
probabilidade. Como aponto nos Capítulos 8 e 17, a densidade de probabilidade
é o que torna a área sob a curva correspondente à probabilidade. Uma olhada
rápida mostra que o ponto máximo da curva está em x = 0,4, e é o que espera-
ríamos para quatro sucessos em dez tentativas.
FIGURA A-1:
Função
Densidade
Beta para
quatro
sucessos
em dez
tentativas.
> pbeta(1/6,4,6,lower.tail=TRUE)
[1] 0.04802149
> qbeta(c(.025,.975),4,6)
[1] 0.1369957 0.7007049
> rbeta(3,4,6)
[1] 0.2659384 0.5546844 0.6492683
Poisson
Se temos o tipo de processo que produz uma distribuição binomial, um número
extremamente grande de tentativas e um número muito pequeno de sucessos, a
distribuição Poisson se aproxima da binomial. A equação de Poisson é
x
e
pr ( x )
x!
Então por que se preocupar em mencionar essa distribuição? Porque ela é uma
transição fácil da binomial para essa distribuição importante, analisada com
mais detalhes no Capítulo 18.
N 1000 0,001 1
dpois(c(1,2,3),1)
dpois(1:3,1)
> dpois(1:3,1)
[1] 0.36787944 0.18393972 0.06131324
> dbinom(1:3,1000,.001)
[1] 0.36806349 0.18403174 0.06128251
Bem próxima!
Função gama
Não se apresse. Os matemáticos (alguns bem famosos) ampliaram o conceito
de fatorial para incluir números não inteiros e até negativos (o que acaba
ficando muito cabeludo). Essa ampliação é chamada de função gama. Quando
o argumento de gama é um número inteiro positivo, vamos chamá-lo de N, o
> gamma(5.3)
[1] 38.07798
Distribuição gama
Toda a análise na seção anterior está, em sua maioria, no reino da matemática
teórica. As coisas ficam mais interessantes (e mais úteis) quando ligamos gama
a uma distribuição de probabilidade. Esse casamento é chamado de distribuição
gama.
Não se preocupe com a matemática exótica. Contanto que você entenda o que
cada símbolo significa, está tudo certo. R faz o trabalho pesado por você.
Se você acha que ela se chama dgamma(), está certo. Como as funções para
a distribuição beta, esta recebe cinco argumentos, dos quais consideraremos
apenas os três primeiros.
Para ajudá-lo a visualizar o que está acontecendo, uso dgamma() para dia-
gramar a função densidade. Especificamente, mostro a função densidade para
encontrar o segundo sucesso em uma faixa de amostras com uma média de um
sucesso por amostra.
dgamma(xx.values,2,1)
ggplot(NULL, aes(x=xx.values,y=dgamma(xx.values,2,1))) +
geom_line()+
scale_x_continuous(breaks=xx.values)
> pgamma(3,2,1)
[1] 0.8008517
FIGURA A-2:
Função
densidade
para gama,
com o
número de
sucessos =
2 e a média
de sucessos
por amostra
= 1.
Exponencial
Na distribuição gama, se α = 1, temos a distribuição exponencial. Ela dá a probabili-
dade de obter um número específico de amostras para chegar ao primeiro sucesso.
DICA
dexp(xx.values,1)
> pexp(3,1)
[1] 0.9502129
> pexp(3)
[1] 0.9502129