Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Analise Estatistica Com R para Leigos - Apendice A PDF

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 10

NESTE CAPÍTULO

»» Entendendo a versão beta

»» Seguindo Poisson

»» Lutando com gama

»» Falando exponencialmente

Apêndice A
Mais sobre
Probabilidade

N
o Capítulo 17, mergulhei na probabilidade de forma semiformal e intro-
duzi as distribuições de variáveis aleatórias. A distribuição binomial é o
ponto inicial. Neste capítulo, examino outras distribuições.

Um dos símbolos nas páginas deste livro (e outros livros da série Para Leigos)
o informa de que lerá sobre um "papo de especialista". Poderia ter sido uma
boa ideia colocar esse símbolo acima do título deste capítulo. Então aqui vai
um pequeno aviso: existe matemática por aqui. Eu apresento os cálculos para
ajudá-lo a entender o que estamos fazendo quando trabalhamos com os argu-
mentos das funções R neste capítulo.

Essas funções são um pouco menos conhecidas? Bem… sim. Você terá a chance
de usá-las? Bem… talvez.

Apêndice A  Mais sobre Probabilidade  1

CG_StatisticalAnalysisRFD_ApendiceA.indd 1 11/01/2019 10:29:07


Descobrindo Beta
Essa distribuição se conecta à distribuição binomial, analisada no Capítulo 17. A
distribuição beta (que não deve ser confundida com "beta", a probabilidade de
um erro Tipo 2) é um tipo de camaleão no mundo das distribuições. Ela assume
uma grande variedade de aparências, dependendo das circunstâncias. Não mos-
trarei toda a matemática por trás de uma distribuição beta, porque o tratamento
completo envolve cálculo.

A conexão com a binomial é: na binomial, a variável aleatória x é o número de


sucessos em N tentativas com p como a probabilidade de um sucesso. N e p são
constantes. Na distribuição beta, a variável aleatória x é a probabilidade de um
sucesso, com N e o número de sucessos como constantes.

Por que isso é útil? No mundo real, normalmente não conhecemos o valor de
p e tentamos encontrá-lo. Geralmente conduzimos um estudo, encontramos o
número de sucessos em um conjunto de tentativas, então estimamos p. Beta
mostra a probabilidade de possíveis valores de p para o número de tentativas e
sucessos em seu estudo.

Parte da matemática é complicada, mas posso pelo menos mostrar a regra que
gera a função densidade para N tentativas com r sucessos, quando N e r são
números inteiros:

N 1 ! N r 1
f x |r , N xr 1
1 x
r 1 ! N r 1 !

A barra vertical entre parênteses à esquerda significa "atribuído a". Então essa
função densidade é para valores específicos de N e r. O cálculo entra em jogo
quando N e r não são números inteiros. (Função densidade? "Atribuído a"? Veja
o Capítulo 17.)

Para lhe dar uma ideia de como é a função, usei a função dbeta() de R para
gerar e diagramar a função densidade para quatro sucessos em dez tentativas.
A função dbeta() pode receber cinco argumentos, mas apenas três nos dizem
respeito aqui:

dbeta(x, shape1, shape2)

O primeiro argumento é x na equação. A documentação define shape1 e shape2


como "parâmetros não negativos da distribuição beta". Em português, isso sig-
nifica o número de sucessos (shape1) e o número de fracassos (shape2) no
exemplo que estamos observando. Para este exemplo, então, seria:

dbeta(x, 4, 6)

2  Análise Estatística com R Para Leigos

CG_StatisticalAnalysisRFD_ApendiceA.indd 2 11/01/2019 10:29:07


uma vez que especificamos o que é x.

Os matemáticos, na verdade, escrevem a equação para a função densidade em


termos de shape1 e shape2, mas se referem a shape1 como α e a shape2 como
PAPO DE β, criando a função densidade:
ESPECIALISTA
1 ! 1 1
f x x 1 x
1 ! 1 !

Para diagramar esse membro da família de distribuição beta, primeiro criamos


um vetor de valores-x:

x.values <- seq(0,.95,.01)

O código ggplot é:

ggplot(NULL,aes(x=x.values,y=dbeta(x.values,4,6)))+
geom_line()

A Figura A-1 mostra o gráfico. Lembre-se de que cada valor no eixo x é um valor
possível para a probabilidade de um sucesso. A curva mostra a densidade da
probabilidade. Como aponto nos Capítulos 8 e 17, a densidade de probabilidade
é o que torna a área sob a curva correspondente à probabilidade. Uma olhada
rápida mostra que o ponto máximo da curva está em x = 0,4, e é o que espera-
ríamos para quatro sucessos em dez tentativas.

FIGURA A-1:
Função
Densidade
Beta para
quatro
sucessos
em dez
tentativas.

Apêndice A  Mais sobre Probabilidade  3

CG_StatisticalAnalysisRFD_ApendiceA.indd 3 11/01/2019 10:29:08


Suponha que eu jogue um dado e defina um sucesso como qualquer lançamento
que resulte em um 3. Eu presumo estar lançando um dado não viciado, então
assumo que p = pr (3) = 1/6. Suponha que eu lance o dado 10 vezes e obtenha qua-
tro números 3. O quanto essa suposição de dado não viciado parece verdadeira?

O gráfico na Figura A-1 dá a dica: a área à esquerda de 0,16667 (o decimal equi-


valente a 1/6) é uma porção bem pequena da área total, o que significa que a
probabilidade de p ser 1/6 ou menor é bem baixa.

Agora, se precisarmos criar um gráfico e chutar proporções de área para obter


uma resposta como "bem baixa", estamos tendo trabalho demais para pouco
retorno.

Felizmente, o R tem uma maneira melhor: a função pbeta(). Forneça p, o


número de sucessos, o número de fracassos e lower.tail = TRUE, e eis o
que obtemos:

> pbeta(1/6,4,6,lower.tail=TRUE)
[1] 0.04802149

Se obtivermos quatro sucessos em dez lançamentos e quisermos saber os limi-


tes de confiança de 95% de p, usaremos qbeta():

> qbeta(c(.025,.975),4,6)
[1] 0.1369957 0.7007049

O primeiro argumento é o vetor de probabilidades para os limites inferior e


superior, o segundo argumento é o número de sucessos e o terceiro é o número
de fracassos.

Se tivéssemos que gerar, digamos, três números aleatórios dessa distribuição


beta (embora eu não saiba para que fazer isso):

> rbeta(3,4,6)
[1] 0.2659384 0.5546844 0.6492683

Poisson
Se temos o tipo de processo que produz uma distribuição binomial, um número
extremamente grande de tentativas e um número muito pequeno de sucessos, a
distribuição Poisson se aproxima da binomial. A equação de Poisson é
x
e
pr ( x )
x!

4  Análise Estatística com R Para Leigos

CG_StatisticalAnalysisRFD_ApendiceA.indd 4 11/01/2019 10:29:08


No numerador, μ é o número médio de sucessos nas tentativas, e é 2,71828 (e
infinitas casas decimais a mais), uma constante que mora no coração dos mate-
máticos. (Veja o Capítulo 16.)

Veja um exemplo. A FarKlempt Robotics, Inc. produz uma dobradiça universal


para os cotovelos de seus robôs. O processo de produção fica sob controle res-
trito do computador, para que a probabilidade de a dobradiça ser defeituosa
seja de 0,001. Qual é a probabilidade de uma dobradiça ser defeituosa em uma
amostra de 1.000? Qual é a probabilidade de duas serem defeituosas? Três?

Nomeada em homenagem ao matemático do século XIX Siméon-Denis Poisson,


essa distribuição é mais fácil de calcular do que a binomial ou, pelo menos, era
na época em que os matemáticos não tinham auxílio do computador. Com R
podemos usar dbinom() facilmente para fazer os cálculos binomiais.

Então por que se preocupar em mencionar essa distribuição? Porque ela é uma
transição fácil da binomial para essa distribuição importante, analisada com
mais detalhes no Capítulo 18.

Primeiro aplicamos a distribuição Poisson no exemplo da FarKlepmt. Se


π = 0,001 e N = 1000, a média é:

N 1000 0,001 1

(Veja o Capítulo 17 para ter uma explicação sobre μ = N π.)

Agora a Poisson. A probabilidade de uma dobradiça em uma amostra de 1.000


ser defeituosa é de:
1
x
e 11 2,71828
pr (1) 0,368
x! 1!

Para duas dobradiças defeituosas em 1.000:


2
x
e 12 2,71828
pr ( 2 ) 0,184
x! 2!

E para três dobradiças defeituosas em 1.000:


3
x
e 13 2,71828
pr ( 3 ) 0,016
x! 3!

Pode parecer estranho a referência de um item defeituoso como um "sucesso",


mas é só uma maneira de rotular um evento específico.
LEMBRE-SE
A função dpois() de R faz isso rapidamente:

dpois(c(1,2,3),1)

Apêndice A  Mais sobre Probabilidade  5

CG_StatisticalAnalysisRFD_ApendiceA.indd 5 11/01/2019 10:29:08


Ou se você quiser parecer bem descolado:

dpois(1:3,1)

De qualquer forma, o primeiro argumento são os valores de x e o segundo é μ.

Aplicar qualquer formato produz:

> dpois(1:3,1)
[1] 0.36787944 0.18393972 0.06131324

Na documentação R para dpois() e outras funções Poisson, o segundo argu-


mento é chamado de "lambda", a letra grega (λ) que muitos matemáticos usam
para esse componente da distribuição Poisson.
DICA

Então qual é a proximidade entre Poisson e a binomial neste exemplo?

> dbinom(1:3,1000,.001)
[1] 0.36806349 0.18403174 0.06128251

Bem próxima!

Embora a utilidade de Poisson como aproximação seja ultrapassada, ela ganhou


vida própria. Fenômenos tão díspares quanto os tempos de reação em experi-
mentos psicológicos, a degeneração de substâncias radioativas e as pontuações
em jogos de hóquei profissionais parecem ser adequados para as distribuições
Poisson. É por isso que analistas de negócios e pesquisadores científicos gostam
de basear modelos nessa distribuição. ("Basear modelos"? O que isso significa?
Explico mais a modelagem no Capítulo 18.)

Trabalhando com Gama


Você deve se lembrar do Capítulo 18, em que o número de maneiras de organizar
N objetos em uma sequência é N! ("N fatorial"). Você também deve se lembrar
de que N! = N(N – 1)(N – 2)... (2)(1). Obviamente, o fatorial só funciona para
números inteiros, certo?

Função gama
Não se apresse. Os matemáticos (alguns bem famosos) ampliaram o conceito
de fatorial para incluir números não inteiros e até negativos (o que acaba
ficando muito cabeludo). Essa ampliação é chamada de função gama. Quando
o argumento de gama é um número inteiro positivo, vamos chamá-lo de N, o

6  Análise Estatística com R Para Leigos

CG_StatisticalAnalysisRFD_ApendiceA.indd 6 11/01/2019 10:29:08


resultado é (N – 1)! Caso contrário, gama retorna o resultado de uma equação
baseada em cálculo.

Em vez de mergulhar no cálculo, vou dar apenas um exemplo: 4! = 24, e 5! =


120. Então o fatorial de 4,3 (o que quer que isso signifique) deveria estar entre
24 e 120. Por causa do N – 1 mencionado, encontraríamos esse fatorial deixando
gama solta em 5,3 (em vez de 4,30). E gama (5,3) = 38,08.

Podemos verificar isso em R:

> gamma(5.3)
[1] 38.07798

Distribuição gama
Toda a análise na seção anterior está, em sua maioria, no reino da matemática
teórica. As coisas ficam mais interessantes (e mais úteis) quando ligamos gama
a uma distribuição de probabilidade. Esse casamento é chamado de distribuição
gama.

A distribuição gama é relacionada à Poisson da mesma maneira que a distribui-


ção binomial negativa é relacionada à binomial. A binomial negativa informa o
número de tentativas até um número específico de sucessos em uma distribuição
binomial. A distribuição gama informa quantas amostras precisamos verificar
para encontrar um número específico de sucessos em uma distribuição Poisson.
Cada amostra pode ser um conjunto de objetos (como no exemplo das dobradiças
universais da FarKlempt Robotics), uma área física ou um intervalo de tempo.

A função densidade de probabilidade para a distribuição gama é:


x
f x 1 x 1
e
1 !

Novamente, isso funciona quando α é um número inteiro. Se não for, você já


sabe — cálculo. (A propósito, quando essa função tem apenas valores inteiros
de α, ela é chamada de distribuição Erlang. Só digo isso para o caso de surgir em
alguma conversa.) A letra e, mais uma vez, é a constante 2,7818 já mencionada.

Não se preocupe com a matemática exótica. Contanto que você entenda o que
cada símbolo significa, está tudo certo. R faz o trabalho pesado por você.

Então aqui estão os significados dos símbolos. Para o exemplo da FarKlempt


Robotics, α é o número de sucessos e β corresponde ao μ da distribuição Pois-
son. A variável x acompanha o número de amostras.

Assim, se estivermos interessados na densidade de probabilidade associada


com encontrar o segundo sucesso na terceira amostra, x será 3, α será 2 e β será
1, se o número médio de sucessos por amostra (de 1.000) for 1. De onde vem esse

Apêndice A  Mais sobre Probabilidade  7

CG_StatisticalAnalysisRFD_ApendiceA.indd 7 11/01/2019 10:29:09


1 mesmo? São 1.000 dobradiças universais por amostra multiplicadas por 0,001
(a probabilidade de produzir uma defeituosa).

Para determinar a probabilidade, precisamos trabalhar com a área sob a função


densidade. Isso me leva de volta à função R para a função densidade da distri-
buição gama.

Se você acha que ela se chama dgamma(), está certo. Como as funções para
a distribuição beta, esta recebe cinco argumentos, dos quais consideraremos
apenas os três primeiros.

Para ajudá-lo a visualizar o que está acontecendo, uso dgamma() para dia-
gramar a função densidade. Especificamente, mostro a função densidade para
encontrar o segundo sucesso em uma faixa de amostras com uma média de um
sucesso por amostra.

Começamos com um vetor para a faixa de amostras:

xx.values <- seq(1,15)

Para calcular as densidades desses valores:

dgamma(xx.values,2,1)

O primeiro argumento são os valores para os quais encontramos as densidades,


o segundo é o número de sucessos que temos interesse e o terceiro é o número
médio de sucessos por amostra.

Essa é a função que colocamos em ggplot para o mapeamento estético de y:

ggplot(NULL, aes(x=xx.values,y=dgamma(xx.values,2,1))) +
geom_line()+
scale_x_continuous(breaks=xx.values)

O primeiro argumento de ggplot, NULL, indica que não estamos usando um


data frame. A terceira declaração adiciona os valores do vetor ao eixo x. O resul-
tado é a Figura A-2.

Na vida real, trabalhamos com probabilidades, não densidades. Então a probabi-


lidade de encontrar o segundo sucesso até a terceira amostra é a área sob a função
densidade à esquerda de 3. A Figura A-2 mostra que é uma área bem grande.

Exatamente quanto? Isso é trabalho de pgamma():

> pgamma(3,2,1)
[1] 0.8008517

8  Análise Estatística com R Para Leigos

CG_StatisticalAnalysisRFD_ApendiceA.indd 8 11/01/2019 10:29:09


O primeiro argumento é o número de amostras, o segundo é o número de suces-
sos e o terceiro é o número médio de sucessos por amostra.

FIGURA A-2:
Função
densidade
para gama,
com o
número de
sucessos =
2 e a média
de sucessos
por amostra
= 1.

O resultado indica cerca de 80% de chances de encontrar a segunda dobradiça


defeituosa (lembre-se de que isso é um "sucesso") até a terceira amostra, com
uma média de uma dobradiça defeituosa por amostra.

Exponencial
Na distribuição gama, se α = 1, temos a distribuição exponencial. Ela dá a probabili-
dade de obter um número específico de amostras para chegar ao primeiro sucesso.

Como é a função densidade? Com licença… vou entrar na matemática por um


momento. Aqui novamente está a função densidade para gama:
x
f x 1 x 1
e
1 !

Se α = 1, ela fica assim:


x
f x 1e

Apêndice A  Mais sobre Probabilidade  9

CG_StatisticalAnalysisRFD_ApendiceA.indd 9 11/01/2019 10:29:09


R fornece um conjunto de funções para lidar com a distribuição exponencial
(dexp(), pexp(), qesp() e rexp()). Eu usaria dexp(), o vetor xx.values
e ggplot() para visualizar a função densidade para você, mas ela se parece
muito (embora não exatamente) com a Figura A-2. Deixarei isso como um
exercício.

Se quiser fazer esse exercício, trabalhe com:

DICA
dexp(xx.values,1)

Continuando com o exemplo da dobradiça universal, usamos pexp() para cal-


cular a probabilidade de encontrar a primeira dobradiça defeituosa até a terceira
amostra. Essa função pode receber quatro argumentos, mas veremos apenas os
três primeiros:

pexp(q, rate = 1, lower.tail = TRUE)

No contexto do nosso exemplo, o primeiro argumento é o número de amostras.


1
O segundo argumento corresponde a na função densidade. Isso significa que
se o número médio de sucessos por amostra for de dois (em vez de um, como
neste exemplo), rate (taxa) será 0,5.

O terceiro argumento é o padrão que especifica retornar à área à esquerda de x


sob a função densidade da distribuição exponencial.

Como estamos trabalhando com o padrão, podemos omitir lower.tail e a


probabilidade será:

> pexp(3,1)
[1] 0.9502129

O padrão para o segundo argumento também acontece de ser o valor nesse


exemplo, então poderíamos fazer isso desta forma:

> pexp(3)
[1] 0.9502129

Mas é apenas para esse exemplo.

Então é uma chance de 95% de encontrar a primeira dobradiça defeituosa até a


terceira amostra, se o número médio de sucessos por amostra for um.

10  Análise Estatística com R Para Leigos

CG_StatisticalAnalysisRFD_ApendiceA.indd 10 11/01/2019 10:29:09

Você também pode gostar