Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Amostragem - Cap 1-2

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 17

SERVIÇO PÚBLICO FEDERAL - UNIVERSIDADE FEDERAL DO PARÁ

INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS


FACULDADE DE ESTATÍSTICA

TÉCNICAS DE AMOSTRAGEM

Esta apostila contém uma compilação de textos de


diversos autores, sendo elaborada com o objetivo
exclusivo de ser um apoio didático para o aluno em
sala de aula ministrada para cursos da Universidade
Federal do Pará e não substitui a consulta a livros
textos. O objetivo é evitar que os alunos copiem as
aulas e assim se concentrarem em entender o
conteúdo da disciplina.

Organização e elaboração:
Profa. Marina Y. Toma
FAEST/ICEN/UFPA

BELÉM - PARÁ
2024
INTRODUÇÃO AS TÉCNICAS DE AMOSTRAGEM

I. NOÇÕES BÁSICAS

Técnicas de Amostragem é a parte da Teoria Estatística que define os procedimentos


para os planejamentos amostrais e as técnicas de estimação utilizadas. As formas de
obtenção dos dados (Técnicas de Amostragem, Planejamento de Experimentos), são
amplamente utilizados nas pesquisas científicas e de opinião para se conhecer alguma
característica da população.
Amostragem é maneira de coletar os dados em que apenas uma pequena parte
representativa da população de interesse é pesquisada. Os resultados obtidos podem
ser generalizados, através de métodos estatísticos apropriados, para toda a população.
Nos planejamentos amostrais, a coleta dos dados deve ser realizada observando-se uma
metodologia adequada para que os resultados possam ser extrapolados para a
população como um todo.
Há situações em que a utilização de amostragem pode não ser a melhor opção. Por
exemplo: se a população é pequena; a característica de interesse é de fácil mensuração,
necessidade de alta precisão (censo).

Vantagens da Amostragem
1) Maior rapidez;
2) Menor custo;
3) Maior exatidão.

Amostragem → Probabilística
→ Não Probabilística

Amostragem Probabilística - processo de selecionar elementos ou grupos de elementos


de uma população bem definida, através de um procedimento que atribui a cada elemento
da população uma probabilidade, de inclusão na amostra, calculável e diferente de zero.
Somente com base em amostragens probabilísticas é que se podem realizar inferências
ou induções sobre a população a partir do conhecimento da amostra.
Amostragem Não Probabilística: não garantem a representatividade da população.
- Escolha dos elementos mais acessíveis;
- Seleção às cegas;
- Seleção proposital ou por julgamento;
- Amostra constituída por voluntários.

Palavras chave:
- Amostra representativa: qualquer elemento da população pode fazer parte da amostra.
- Amostra: Subconjunto de uma população por meio da qual se estabelecem ou estimam
as propriedades e características de interesse da população.
- Amostragem: processo ou ato de construir(selecionar) uma amostra.
- Característica de interesse (variável): propriedade dos elementos da população que se
pretende conhecer.
- Censo: resultado de um levantamento estatístico que visa conhecer a totalidade da(s)
característica(s) individual(is) de uma população.
- Elemento, unidade de análise, unidade elementar ou unidade de observação e/ou
mensuração: suporte do atributo, ou atributos, cuja observação constitui o fim de um
levantamento de dados.
- Erro padrão de um estimador: é o desvio padrão desse estimador.
- Esperança ou valor esperado: valor médio de uma variável aleatória.
- Estimador de um parâmetro de dada população: é toda função de elementos de amostra
oriunda dessa população que mantém para com o parâmetro uma certa relação.
- Estimativa: valor que o estimador assume para dada amostra.
- Intervalo de Confiança: intervalo aleatório que contém a quantidade de interesse com
probabilidade fixada.
- Parâmetro de uma população: é uma função do conjunto de valores dessa população;
uma característica dessa população.
- Plano amostral: protocolo descrevendo os métodos e medidas para execução da
amostragem. Também é usado como sinônimo de Amostragem.
- População amostrada: população da qual foi retirada a amostra.
- População objetivo (alvo): população que se pretende atingir, usualmente estabelecida
nos objetivos da pesquisa.
- Tamanho da amostra: é o número de elementos que a compõem.
- Precisão e Fidedignidade: propriedade que tem um processo de observação de dar
lugar a um conjunto de observações da mesma entidade que apresentam uma
variabilidade maior ou menor.
- Sistema de referência (Frame): lista ou relação das unidades amostrais da população,
por meio da qual é possível selecionar a amostra.
- Unidade Amostral: cada uma das partes disjuntas em que uma população é
exaustivamente composta, para, do conjunto delas se façam extrações a fim de construir
uma amostra, ou estágio de uma amostra. Pode ser um conglomerado de unidades
elementares.
- Validade, Acuracidade ou Exatidão: é a propriedade do processo de medir que é isento
de erro sistemático.
- Viés ou Vício de um estimador de um parâmetro: é a diferença entre o seu valor
esperado e o valor do parâmetro.

Etapas de um levantamento por amostragem: é necessário que o pesquisador planeje,


execute, corrija e analise adequadamente o procedimento proposto e usado.
a) Objetivos (gerais, operacionais e alternativos)
b) Sistema de referência (SR): é uma listagem completa de todos os unidades da
população amostral (aptas a serem selecionadas na amostra)
c) Dados a serem coletados
d) Grau de precisão desejado
e) Instrumento de medida: questionário ou outros
g) Tamanho da amostra/Seleção
h) Pré-teste (não-aleatório)
i) Procedimento de coletas dos dados (organização do trabalho de campo)
j) Processamento dos dados
k) Análise dos resultados (modelos estatísticos)
l) Apresentação dos dados (Relatório final)
Critérios para classificar pesquisas
Critérios Alternativas
a) participação do pesquisador nos resultados: experimentação ou levantamento
b) objetivo da análise: descritivo ou analítico
c) complexidade dos dados: simples ou multivariado
d) amplitude da coleta: censo ou amostra

Tipos de amostras:
Procedimento de Seleção
Critério do amostrador
Probabilístico Não probabilístico
Objetivo Amostras Probabilísticas Amostras Criteriosas
Subjetivo Amostras quase-aleatórias Amostras intencionais

Critérios para classificar amostras probabilísticas:


A - Quanto à probabilidade de seleção da unidade amostral
Probabilidade igual ou diferente para cada unidade

B - Quanto à unidade amostra


Uma unidade de resposta (elementar) ou um grupo de elementos

C - Quanto ao número de estágios


Em um único ou mais de um

D - Quanto à seleção das unidades


Aleatória ou sistemática

Propriedades dos estimadores:


: característica populacional a ser estimada (ex.: média da população, total populacional,
razão entre duas características, proporção).

 : estimador de 
1. Não tendenciosidade: 𝐸 (𝜇̂ ) = 𝜇 𝐸 (𝜇̂ ) = ∑ 𝜋𝑖 𝜇̂ 𝑖
2. Consistência: seja 𝜇̂ 𝑛 estimativa de  em uma amostra de tamanho n. 𝜇̂ 𝑛 é consistente
se n = N. Em geral consideraremos estimadores não tendenciosos.

Medidas de precisão:
Estimador não tendencioso: 𝑉𝑎𝑟(𝜇̂ )
Estimador tendencioso: 𝐸𝑄𝑀 (𝜇̂ ) = 𝑉𝑎𝑟(𝜇̂ ) + (𝑡𝑒𝑛𝑑ê𝑛𝑐𝑖𝑎)2
Em geral, a tendência é pouco significativa se tendência (erro padrão) < 0.1

ERROS: Todo levantamento amostral ou não, está sujeito a produzir diferenças entre o
parâmetro populacional de interesse e o valor da amostra usado para estimá-lo. Este
desvio é chamado de erro de pesquisa, definido como (𝑡 − 𝜃), onde  é o parâmetro
populacional de interesse e t a estatística obtida a partir da amostra para estimar o
parâmetro.
Erro amostral: desvio que aparece porque o pesquisador não levantou a população toda.
Para cada amostra possível de um plano acarretaria em um possível desvio. Para a
população toda este desvio seria nulo.
Erros não amostrais: quando o desvio ocorre por fatores independentes do plano
amostral, e que poderiam ocorrer mesmo se a população toda fosse investigada, serão
considerados erros não amostrais. Pode ocorrer em qualquer etapa da pesquisa. Podem
ocorrer: erros ocorridos durante o levantamento dos dados, também chamados de erros
de observação; erros ocorridos em outros momentos.
Deve-se verificar: O momento onde o erro ocorre; o efeito do erro; quais as causas.
Erros de observação: Unidades perdidas; mensuração das observações; efeito do
entrevistador; insuficiência do questionário (redação deficiente); fatores para não
resposta; falta de resposta total; falta de contato com as unidades; recusa; abandono
durante a pesquisa; incapacidade de responder; perda de documentação; recusa em
questões sensíveis (renda); dados incoerentes.
O efeito da falta de resposta depende do volume de não respondentes; diferença de perfil
de respondentes e não respondentes.
Outros fatores importantes: como controlar a qualidade total; controle das fases críticas,
conhecendo as fontes de erros existentes; viés da falta de resposta; viés do respondente
(problemas da aplicação do questionário e sua administração.)
Outros erros não amostrais: sistema de referência (SR) não adequado; cobertura
incompleta; diferença entre SR e população amostrada; inclusão de elementos não
sorteados ou de outras populações.

CAPÍTULO 2 - DEFINIÇÕES E NOTAÇÕES BÁSICAS

População ou Universo: é o conjunto de todas as unidades elementares de interesse. É


indicado por U = 1, 2, ... , N, onde N é o tamnaho fixo e algumas vezes desconhecido.

Elemento Populacional: denota qualquer elemento 𝑖 ∈ 𝑼. É também conhecido por


unidade elementar.

Característica (s) de interesse: será usado para denotar a variável ou o vetor de


informação associado a cada elemento da população, representado por 𝑌𝑖 , 𝑖 ∈ 𝑼 ou no
caso multivariado, 𝒀𝑖 = (𝑌𝑖1 , 𝑌𝑖2 , … , 𝑌𝑖𝑃 ), 𝑖 ∈ 𝑼

Parâmetro Populacional: denota o vetor correspondente a todos os valores de uma


variável de interesse, denotado por 𝑫 = (𝑌1 , 𝑌2 , … , 𝑌𝑁 ), no caso univariado, e pela matriz
𝑫 = (𝒀𝟏 , 𝒀𝟐 , … , 𝒀𝑵 ), no caso em que para cada unidade da população tem-se associado
um vetor 𝒀𝑖 de característica de interesse.

Função Paramétrica Populacional (ou parâmetro populacional de interesee, ou parâmetro


populacional): característica numérica da população, ou seja, expressão numérica que
condensa funcionalmente os 𝑌𝑖 ′𝑠, (ou 𝒀𝒊 ’s), 𝑖 ∈ 𝑼. Será denotado por 𝜃(𝑫) que pode ser,
por exemplo, o total, as médias, ou ainda o quociente de dois totais.

Exemplo: Considere a população formanda por três domicílios U = {1, 2, 3} e que estão
sendo observadas as seguintes variáveis: nome (do chefe), sexo, idade, fumante ou não,
renda bruta familiar e número de trabalhadores, descrita na Tabela de três domicílios:
Variável Valores Notação
Unidade 1 2 3 i
Nome do chefe Ana, Rui, Eva Ai
Sexo (a) 0 1 0 Xi
Idade 20 30 40 Yi
Fumante (b) 0 1 1 Zi
Renda Bruta Familiar 12 30 18 Fi
Nº de Trabalhadores 1 3 2 Ti

Onde: (a) 0 = feminino; 1 = masculino


(b) 0 = não fumante; 1 = fumante
Os parâmetros populacionais serão:
i) Para a variável idade: 𝑫 = (20, 30, 40) = 𝒀
12 30 18
ii) Para o vetor (𝐹𝒊 , 𝑇𝑖 )′, tem-se: 𝐷 = ( )
1 3 2
Com relação a funções paramétricas populacionais, tem-se:
i) Idade média: 𝜃 (𝒀) = 𝜃 (𝑫) = (20 + 30 + 40)/3 = 30
ii) Média das variáveis renda e número de trabalhadores:
12 + 30 + 18
3 20
𝜃(𝑫) = ( )=( )
1+3+2 2
3
iii) Renda média por trabalhador: 𝜃 (𝑫) = (12 + 30 + 18)/(1 + 3 + 2) = 10

Para uma variável de interesse, os parâmetros populacionais mais usados são:


a) Total populacional: 𝜃 (𝑫) = 𝜃 (𝒀) = 𝜏 = ∑ 𝑌𝑖
̅ = 𝟏 ∑ 𝒀𝒊 converge.
b) Média populacional: 𝜽(𝑫) = 𝜽(𝒀) = 𝝁 = 𝒀
𝑵
1
c) Variância populacional: 𝜃 (𝑫) = 𝜃 (𝒀) = 𝜎 2 = ∑(𝑌𝑖 − 𝜇)2
𝑁

Para vetores bidimensionais, (X, Y):


𝟏
d) Covariância populacional: 𝜽(𝐷) = 𝝈𝑿𝒀 = 𝐶𝑜𝑣(𝑋, 𝑌) = 𝑵 ∑𝑁
𝑖=1(𝑋𝒊 − 𝜇𝑋 )(𝑌𝒊 − 𝜇)

𝟏
ou às vezes, 𝜽(𝐷) = 𝑺𝑿𝒀 = 𝐶𝑜𝑣(𝑋, 𝑌) = 𝑵−𝟏 ∑𝑁
𝑖=1(𝑋𝒊 − 𝜇𝑋 )(𝑌𝒊 − 𝜇)
𝝈𝑿𝒀
e) Correlação populacional: 𝜽(𝑫) = 𝝆𝑿𝒀 =
𝝈𝑿 𝝈𝒀
𝝉 𝝁
f) Razão populacional: 𝜃(𝑫) = 𝝉𝒀 = 𝝁𝒀 = 𝑅
𝑿 𝑿

̅ = 1 ∑ 𝑌𝑖
g) Razão média populacional: 𝜃(𝑫) = 𝑅 𝑁 𝑋 𝑖

AMOSTRA
Definição: uma sequência de n unidades de U, é denominada uma amostra ordenada de

U, isto é, 𝑺 = (𝐾1 , 𝐾2 , … , 𝐾𝑁 ) tal que 𝐾𝑖 ∈ 𝑼.

Definição: Seja fi (s) o número de vezes (frequência) que a i-ésima unidade populacional

aparece na amostra s. Seja i a variável binária que indica a presença ou não da i-ésima
1, se 𝑖 ∈ 𝑆
unidade amostra s, isto é, 𝛿𝑖 (𝑠) = {
0, se 𝑖 ∉ 𝑆

Definição: Chama-se de tamanho n(s) da amostra s, a soma das frequências das


unidades populacionais na amostra, isto é, 𝑛(𝑠) = ∑𝑁
𝑖=1 𝑓𝑖 (𝑠).

Chama-se de tamanho efetivo (s) da amostra s ao número de unidades populacionais


distintas presentes na amostra s, isto é,𝑣(𝑠) = ∑𝑁
𝑖=1 𝛿𝑖 (𝑠)

Definição: Seja S (U), ou S o conjunto de todas as amostras de U, de qualquer tamanho.

E Sn(U), a subclasse de todas as amostras de tamanho n.

Exemplo: Seja U = {1, 2, 3}.


Os vetores s1 = (1, 2), s2 = (2, 1), s3 = (1, 1, 2), s4 = (3), s5 = (2, 2, 1, 3, 2) são exemplos
de amostras.
Para a variável frequencia f temos:
f1(s1) = 1, f2 (s1) = 1, f3(s1) = 0; f1(s5) = 1, f2(s5) = 3, f3(s5) = 1.

Com relação a variável presença , temos:

1(s1) = 1, 2(s1) = 1,  3(s1) = 0, ou  1(s5) = 1  1(s5) = 1  1(s5) = 1


Para os tamanhos temos: n(s1) = 1 + 1 + 0 = 2, enquanto que ( s1) = 1 + 1 + 0 = 2.

Também n(s5) = 1 + 3 + 1 = 5, enquanto que (s5) = 1 + 1 + 1 = 3

Verifique que n (s2) = 2 e (s2) = 2, enquanto que n (s4) = 1 e (s4) = 1.

Para S temos: S(U) = {(1), (2), (3), (1, 1), (1, 2), (1, 3), (2, 1), ... , (2, 2, 1, 3, 2), ...}

E S2(U) = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)}.
O número de amostras ordenadas com reposição é 𝑁 𝑛 enquanto que o número de
𝑁
amostras sem reposição é dado pelo coeficiente binomial isto é ( ).
𝑛

PLANEJAMENTO AMOSTRAL
O objetivo é apresentar procedimentos amostrais probabilísticos, ou seja, aqueles que
permitem associar a cada amostra uma probabilidade conhecida de ser sorteada. O
modo como essas probabilidades são associadas é que irá definir um planejamento
amostral.

Definição: Uma função P(s) definida em S(U), satisfazendo P(s)  0, para qualquer s

S(U) e tal que  P(s) = 1, é chamado um planejamento amostral ordenado.

Exemplos 2.6; 2.7 e 2.8 (Elementos de amostragem: p. 43-45)

Os tipos de planejamentos amostrais mais utilizados são:


1 - Amostragem Aleatória Simples (AAS): consiste na seleção de n unidades de tal forma
que cada amostra tenha a mesma chance de ser escolhida. A seleção pode ser feita com
ou sem reposição.
2 - Amostragem Aleatória Estratificada (AAE): A população é dividida em estratos (por
exemplo, pelo sexo, renda, bairro, etc.) e AAS é utilizada na seleção de uma amostra de
cada estrato.
3 - Amostragem Aleatória por Conglomerados (AAC): A população é dividida em sub-
populações (conglomerados) distintas (quarteirões, residências, famílias, bairros, etc.)
Alguns dos conglomerados são selecionados segundo a AAS e todos os indivíduos nos
conglomerados são observados. Em geral é menos eficiente que a AAS ou AAE, mas por
outro lado é mais econômico. Tal procedimento amostral é adequado quando é possível
dividir a população em um grande número de pequenas sub-populações.
4 - Amostragem em dois estágios (A2E): Neste caso a população é dividida em sub-
populações como na AAE ou na AAC. Num primeiro estágio, algumas sub-populações
são selecionadas usando AAS. Num segundo estágio, uma amostra de unidades é
selecionada de cada sub-população selecionada no primeiro estágio. A AAS e a AAC
podem ser consideradas, para certas finalidades como casos particulares da A2E.
5 - Amostragem Sistemática (AS): Quando existe uma listagem de indivíduos da
população, pode-se sortear, por exemplo, um nome entre os 10 primeiros indivíduos, e
então observar todo décimo indivíduo na lista a partir do primeiro indivíduo selecionado.
A seleção do primeiro indivíduo pode ser feita de acordo com AAS. Os demais são
selecionados sistematicamente.
Tipos de Amostragem

ESTATÍSTICAS E DISTRIBUIÇÕES AMOSTRAIS

O objetivo principal da amostragem é adquirir conhecimentos sobre variáveis


(características) de interesse, e desse modo, é necessário caracterizar as variáveis de
interesse também na amostra.
Fixada uma amostra 𝒔 = {𝒌1 , 𝒌2 , … , 𝒌𝑛 }, sabe-se que associado a cada elemento tem-
se um vetor de características 𝒀𝑘𝑗 .

Definição: chama-se de dados da amostra s à matriz ou vetor das observações


pertencentes a amostra, isto é: 𝒅𝒔 = {𝒀𝐾1 , 𝒀𝐾2 , … , 𝒀𝐾𝑛 } = {𝒀𝐾𝑖 : 𝒀𝐾𝑖 ∈ 𝒔}.
Quando s percorre todos os pontos possíveis de um plano amostral SA, tem-se associado
um vetor aleatório que será representado por 𝒅 = 𝒚 = (𝒚1 , 𝒚2 , … , 𝒚𝑛 ), onde 𝒚𝑖 é a variável
aleatória que indica os possíveis valores que podem ocorrer na i-ésima posição da
amostra.
Obs.: Quando as observações são multidimensionais os dados da amostra passam a ser
a matriz 𝒅𝒔 = (𝒀𝐾𝑖 , 𝑖 ∈ 𝒔), e tem-se associado a matriz aleatória 𝐝 = (𝑦1 , 𝑦2 , … , 𝑦𝑛 ).

Consideraremos as n unidades amostradas sequencialmente, de modo que associadas


as n unidades selecionadas temos as variáveis aleatórias 𝑦1 , 𝑦2 , … , 𝑦𝑛 , onde cada

𝑦𝑖 pode assumir valores do parâmetro populacional 𝑫 = (𝒀1 , 𝒀2 , … , 𝒀𝑁 ). Para uma


amostra s, temos que (y1, y2, ..., yn) = ds.

Definição: Qualquer característica numérica dos dados correspondentes a amostra s é


chamada de estatística, ou seja, qualquer função h(ds) que relaciona as observações da
amostra s.

Definição: A distribuição amostral de uma estatística h(ds) segundo um plano amostral

A, é a distribuição de probabilidades da variável aleatória H(ds), definida sobre SA , com


função de probabilidade dada por 𝒑ℎ = 𝑷𝑨 (𝑠 ∈ 𝑺𝐴 ; 𝐻(𝑑𝑠 ) = ℎ) = 𝑃(ℎ)

Exemplo: Para o exemplo onde U = {1, 2, 3} com os dados amostrais, teremos:


12 30 18 𝐹
𝐷=( ) = ( 𝑖) , 𝑖 ∈ 𝑈
1 3 2 𝑇𝑖
Considere a estatística r = h(ds) como sendo a razão entre o total da renda familiar e o
número de trabalhadores na amostra.

Plano amostral A (AAS com reposição = AASc)


s: 11 12 13 21 22 23 31 32 33
P(s): 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9 1/9
h (d s) =r 12 10,5 10 10,5 10 9,6 10 9,6 9

De modo que a Tabela da distribuição amostral de r será:


h: 9 9,6 10 10,5 12
ph : 1/9 2/9 3/9 2/9 1/9

Plano amostral B (AAS sem reposição = AASs)


s: 12 13 21 23 31 32
P(s): 1/6 1/6 1/6 1/6 1/6 1/6
h (d s) =r 10,5 10 10,5 9,6 10 9,6

De modo que a Tabela da distribuição amostral de r será:


h: 9,6 10 10,5
ph : 1/3 1/3 1/3

Para um plano amostral A, seja H(ds) uma estatística, s  SA e ph a função de


probabilidade correspondente. Então o valor esperdo (média) da variável H será:
EA [H] = h.p h para todos os valores de h.

Para s  SA temos: ph = PA ( s  S A; H ( d s ) = h) =  Pr( H (d s ) = h) =  PA ( s )


{ s:sS A } { sS A ;h( d s )= h}

E assim: E A[ H } =  PA ( s )h( d s ).
{ s:sS A}

Variância de uma estatística H: VarA[ H ] = [h( d s ) − E A ( H )]2 PA ( s )


{ s:sS A }

Quando houver duas estatísticas H(ds) e G(ds), podemos usar:

𝐶𝑜𝑣𝐴 (𝐻, 𝐺) = ∑ [ℎ(𝑑𝑠 ) − 𝐸𝐴 (𝐻)] × [𝑔(𝑑𝑠 ) − 𝐸𝐴 (𝐺)] × 𝑃𝐴 (𝑠)


𝑠∈𝑆𝐴
𝐶𝑜𝑣𝐴 (𝐻, 𝐺)
𝐶𝑜𝑟𝑟(𝐻, 𝐺) =
√𝑉𝑎𝑟𝐴 (𝐻) × 𝑉𝑎𝑟𝐴 (𝐺)

Definição: Seja i (A) a probabilidade do i-ésimo elemento de U, pertencer a amostra

segundo um planejamento A, e  ij (A) a probabilidade do i-ésimo e j-ésimo elemento


pertencerem simultaneamente à amostra. Assim:
 i ( A) = PA ( i = 1) =  PA [ i ( s ) = 1] =  PA ( s )
{ s:sS A } { s:s i }
Analogamente,  ij ( A) =  PA ( s )
{ s:s {i , j }}

ESTIMADORES E SUAS PROPRIEDADES


Quando associa-se uma estatística com a expressão que irá “estimar” o parâmetro
populacional, recebe o nome de estimador. O valor numérico do estimador, para dada
amostra será a estimativa.

Definição: Um estimador 𝜃̂ (𝑑𝑆 ) é não viciado segundo um plano amostral A, se:

𝐸𝐴 (𝜃̂) = 𝜃

Definição: Viés do estimador  ( d s ) , segundo o plano amostral A é dado por:

𝐵(𝜃̂) = 𝐸𝐴 [𝜃̂ − 𝜃] = 𝐸𝐴 [𝜃̂] − 𝜃


2
e Erro Quadrático Médio por: 𝐸𝑄𝑀𝐴 (𝜃̂ ) = 𝐸𝐴 [𝜃̂ − 𝜃]

Logo: 𝐸𝑄𝑀𝐴 (𝜃̂ ) = 𝑉𝑎𝑟𝐴 (𝜃̂ ) + 𝐵 2 (𝜃̂ )

Expressões úteis:
Soma dos desvios quadráticos: ∑𝑁 2 𝑁 2
𝑖=1(𝑌𝑖 − 𝜇 ) = ∑𝑖=1 𝑌𝑖 − 𝑁𝜇
2

Soma dos produtos dos desvios de duas variáveis:


∑𝑁 𝑁
𝑖=1(𝑌𝑖 − 𝜇𝑌 )(𝑋𝑖 − 𝜇𝑋 ) = ∑𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑁𝜇𝑋 𝜇𝑌

Soma dos produtos de uma mesma variável: ∑𝑁 𝑁 2 2 2


𝑖≠𝑗 𝑌𝑖 𝑌𝑗 = − ∑𝑖=′ 𝑌𝑖 + 𝑁 𝜇

O tamanho n(s) de uma amostra é dada por: 𝑛(𝑠) = ∑𝑁


𝑖=1 𝑓𝑖 (𝑠)

Para um plano amostral A, o tamanho médio (ou esperado) e a variância do tamanho da


amostra será: 𝐸𝐴 (𝑛) = ∑𝑁 𝑁 𝑁
𝑖=1 𝐸𝐴 (𝑓𝑖 ) e 𝑉𝑎𝑟𝐴 (𝑛) = ∑𝑖=1 𝑉𝑎𝑟𝐴 (𝑓𝑖 ) + ∑𝑖≠𝑗 𝐶𝑜𝑣𝐴 (𝑓𝑖 , 𝑓𝑗 )

(o último somatório envolve um total de N(N-1) parcelas).


Existe uma classe de planos amostrais que são “simétricos”, ou seja, as variâncias e
covariâncias são as mesmas para todas as variáveis, isto é:
𝐸𝐴 (𝑓𝑖 ) = 𝐸𝐴 (𝑓), 𝑉𝑎𝑟𝐴 (𝑓𝑖 ) = 𝑉𝑎𝑟(𝑓) e 𝐶𝑜𝑣 (𝑓𝑘 , 𝑓𝑙 ) = 𝐶𝑜𝑣(𝑓, 𝑓 ′ ) para i = 1, 2, ... , N, com
𝑓 = 𝑓𝑘 e 𝑓′ = 𝑓𝑙 para 𝑘 ≠ 𝑙 = 1, 2, … , 𝑁. Para estes planos amostrais, tem-se que
𝑉𝑎𝑟𝐴 (𝑛) = 𝑁𝑉𝑎𝑟𝐴 (𝑓) + 𝑁(𝑁 − 1)𝐶𝑜𝑣𝐴 (𝑓, 𝑓 ′ )

Para os planos que possuem tamanho fixo (os planos AAS com e sem reposição) tem-
𝑉𝑎𝑟𝐴 (𝑓)
se que Var A (n) = 0, implicando em: 𝐶𝑜𝑣𝐴 (𝑓, 𝑓′) = − (*)
(𝑁−1)

Para uma amostra s, a estatística t corresponde a soma dos valores observados na


amostra, isto é, 𝑡(𝑠) = ∑𝑘𝑖∈𝑠 𝑌𝑘𝑖 e correspondendo ao plano amostral SA, tem-se

associado a variável aleatória 𝑡 = ∑𝑛


𝑖=1 𝑦𝑖 , onde cada 𝑦𝑖 pode assumir o valor do

parâmetro populacional 𝐷 = (𝑌1 , 𝑌2 , … , 𝑌𝑁 )


Usando a variável fi, temos t(s) como função de todas as observações da população, ou
seja: 𝑡(𝑠) = ∑𝑖∈𝑠 𝑌𝑖 = ∑𝑁
𝑖=1 𝑓𝑖 (𝑠)𝑌𝑖

A variável aleatória t pode ser expressa em termos das va’s 𝑓𝑖 , como: 𝑡(𝑠) = ∑𝑁
𝑖=1 𝑓𝑖 𝑌𝑖

Para um plano amostral A, tem-se as propriedades:


𝑁 2
𝐸𝐴 (𝑡 ) = ∑𝑁
𝑖=1 𝑓𝑖 𝐸𝐴 (𝑓𝑖 ) e 𝑉𝑎𝑟𝐴 (𝑡) = ∑𝑖=1 𝑌𝑖 𝑉𝑎𝑟𝐴 (𝑓𝑖 ) + ∑𝑖≠𝑗 𝑌𝑖 𝑌𝑗 𝐶𝑜𝑣𝐴 (𝑓𝑖 , 𝑓𝑗 )

Para a classe dos planos amostrais simétricos e de tamanho fixo, tem-se que:
N
E A (t ) = E A ( f )  Yi = E A ( f ) . Além disso, usando (*),
i =1

N 1
Var A (t ) = Var A ( f )  Yi 2 − Var A ( f )  Yi Y j =
i =1 N −1 i j
2
N 1 N 2 1 N
= Var A ( f )[  Y −  Yi Y j ] = Var A ( f )[  Yi − ( −  Yi 2 + N 2  2 )] =
i =1 i N − 1 i j i =1 N − 1 i =1
N N
= Var A ( f )  (Yi −  ) = Var A ( f ) NS
2 2
N − 1 i =1
Dado que VarA (t ) = E A (t ) − E A (t ) temos que E A (t ) = VarA (t ) + E A (t ) , e que no
2 2 2

caso simples (n fixo e simétrico) teremos E A (t ) = VarA ( f ) NS


2 2
+ E A2 ( f ) 2
N N
Soma de quadrados das observações da amostra: s q ( s ) =  Yi =  f i ( s )Yi . Logo
2 2 2
is i =1
N
E A ( s q2 ) =  Yi2 E A ( f i ) .
i =1
N
Se n é fixo e o plano simétrico, teremos: E A ( s q ) = E A ( f )  Yi
2 2
i =1

Ou ainda: E A ( s q ) = E A ( f )[ N + N 2 ] = NE A ( f )[ 2 +  2 ]
2 2

Para duas variáveis quaisquer fi e fj (ou i e j), correspondentes a um plano amostral A,

E A ( f i ) = E A { E A [ f i | f j ]} e
VarA ( f i ) = E A {VarA [ f i \ f j ]} + VarA { E A [ f i \ f j ]} , i  j = 1, 2, ... , N.

Exercício: Considere a Tabela contendo a população de condomínios onde X é o número


de apartamentos e Y é o número de apartamentos alugados.
i Yi Xi i Yi Xi i Yi Xi i Yi Xi i Yi Xi i Yi Xi
1 19 23 31 47 53 61 67 110 91 34 48 121 1 3 151 6 37
2 17 18 32 27 28 62 44 57 92 13 24 122 22 37 152 4 11
3 25 33 33 80 90 63 43 81 93 16 27 123 25 30 153 9 24
4 84 89 34 52 68 64 15 23 94 21 32 124 2 3 154 54 102
5 91 114 35 90 99 65 17 25 95 12 14 125 4 4 155 50 82
6 48 66 36 78 89 66 29 59 96 10 18 126 7 13 156 9 24
7 48 61 37 46 48 67 18 27 97 50 61 127 15 24 157 6 18
8 20 25 38 35 48 68 14 22 98 58 65 128 10 19 158 5 18
9 34 46 39 59 62 69 24 29 99 17 25 129 5 17 159 1 3
10 42 58 40 27 33 70 35 44 100 41 68 130 8 13 160 1 6
11 35 44 41 33 43 71 48 53 101 3 8 131 8 18 161 0 1
12 55 66 42 27 37 72 20 27 102 4 12 132 0 1 162 2 7
13 42 61 43 9 14 73 24 28 103 18 27 133 4 10 163 2 8
14 36 45 44 9 15 74 55 62 104 1 3 134 1 4 164 3 12
15 13 20 45 12 21 75 43 56 105 1 3 135 3 9 165 1 4
16 7 16 46 49 68 76 13 22 106 3 6 136 0 5 166 6 8
17 8 15 47 60 81 77 19 22 107 6 14 137 14 20 167 3 9
18 18 26 48 35 59 78 48 57 108 5 15 138 3 5 168 3 7
19 20 22 49 11 23 79 44 57 109 5 14 139 5 13 169 5 12
20 18 22 50 21 32 80 36 46 110 4 9 140 0 1 170 3 10
21 0 2 51 22 36 81 3 8 111 0 1 141 11 23 171 0 1
22 23 29 52 10 16 82 2 4 112 0 4 142 19 39 172 0 1
23 0 3 53 9 15 83 13 18 113 7 12 143 5 9 173 0 1
24 19 29 54 7 16 84 34 42 114 7 22 144 0 2 174 2 4
25 11 21 55 3 8 85 28 32 115 3 11 145 3 5 175 0 1
26 11 15 56 5 25 86 23 28 116 12 27 146 14 26 176 0 1
27 42 54 57 2 11 87 8 14 117 11 20 147 4 10 177 0 2
28 28 42 58 8 9 88 69 76 118 27 38 148 014 35 178 1 1
29 8 13 59 14 19 89 2 19 119 14 31 149 0 40 179 0 1
30 0 2 60 5 5 90 5 9 120 2 4 150 20 38 180 0 1

Considere a população da tabela e encontre:


a) 𝜇𝑌 , 𝜏𝑌 e 𝑆𝑌2 b) 𝜇𝑋 , 𝜏𝑋 e 𝑆𝑋2
c) a proporção P de condomínios com mais de 20 apartamentos alugados e a variância
populacional correspondente a variável Wi que assume o valor 1 se o i-ésimo condomínio
possui mais que 20 apartamentos alugados e 0 caso contrário, i = 1, 2, ..., 180.

Você também pode gostar