Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% acharam este documento útil (0 voto)
48 visualizações15 páginas

Trabalho de Estatistica PDF

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1/ 15

ISCED

DIRECÇÃO ACADÉMICA
DEPARTAMENTO DE CIÊNCIAS DE EDUCAÇÃO

CURSO DE HISTÓRIA

2º Ano/2020

DISCIPLINA: ESTATISTICA

EXAME PARTE II- TRABALHO DE CAMPO (ENSAIO)

TEMA: RELAÇÃO ENTRE VARIÁVEIS ESTATÍSTICAS

Discente: Docente:

Jacinto Caricocka Mestre, Domingos Nhampinga

Tete, Maio de 2020

1
Índice

1. Introdução ............................................................................................................................. 3
2. Variáveis e suas classificações .............................................................................................. 4
2.1. Variáveis quantitativas .................................................................................................. 4
3. Diagramas de dispersão......................................................................................................... 5
4. MEDIDAS DE DISPERSÃO (VARIABILIDADE .............................................................. 5
5. AMPLITUDE TOTAL.......................................................................................................... 6
6.1. Características da amplitude total ...................................................................................... 7
6. DESVIO-PADRÃO .............................................................................................................. 8
7.1. Desvio médio ..................................................................................................................... 9
7. Coeficiente de Correlação de Pearson ................................................................................. 10
8. Regressão Linear Simples ................................................................................................... 11
8.1. Teste de significância .................................................................................................. 11
8.2. Regressão Linear Simples ........................................................................................... 12
8.3. Adequação do modelo de regressão linear ajustado .................................................... 13
9. Conclusão ............................................................................................................................ 14
10. Referências bibliográficas ............................................................................................... 15

2
1. Introdução
No presente trabalho académico que tem como seguintes matérias, que faram o corpo
deste trabalho; tipos de variável, medidas de dispersão e correlação. As medidas de
dispersão, ou de variabilidade, devem ser apresentadas para se informar o leitor o grau
de variabilidade, isto é, quanto os elementos que compõe o conjunto se afastam da
medida de tendência central utilizada para descrevê-los.

Objectivos gerais

 O objectivo geral basicamente resume-se no estudo dos elementos de interpretação


estatística, nomeadamente: a variabilidade, medidas de dispersão e correlação

Objectivos específicos

 Variáveis e suas classificações;


 Variáveis quantitativas;
 Diagramas de dispersão;
 Amplitude total;
 Desvio-padrão;
 Coeficiente de correlação de pearson.

3
2. Variáveis e suas classificações
Em um levantamento de dados, censitário ou por amostragem, investiga-se uma ou mais
características de interesse que supostamente variam de uma unidade para outra. Estas
características serão chamadas a partir de agora de variáveis. A variável pode ser uma
quantidade, sobre a qual podem ser realizadas operações aritméticas, ou pode ser um
Atributo como cor de pele, zona de moradia ou classe social. No primeiro caso, a
variável é classificada como quantitativa e na outra situação ela é dita ser qualitativa.

A classificação da variável vai ser determinante para o tipo de análise estatística a ser
conduzida. Sobre uma variável qualitativa, não podemos calcular muitos dos resumos
numéricos tais como a média aritmética, a variância e o desvio padrão.

As variáveis quantitativas possuem uma subclassificação, elas podem ser discretas ou


contínuas. O primeiro caso ocorre quando os possíveis valores da variável podem ser
enumerados. Esta situação ´e típica de dados oriundos de contagens, como por exemplo
o numero diário de assaltos em um quarteirão que pode assumir valores no conjunto {0,
1, 2, 3, . . .}. A segunda subclassificação ocorre nos casos em que a variável pode
assumir valores em um intervalo contínuo, por consequência, os possíveis valores são
infinitos e não enumeráveis. A variável idade, por exemplo, ´e uma variável contínua
pois se for medida com bastante precisão, um indivíduo pode apresentar 32,1023 anos
de idade e, dificilmente dois indivíduos terão idades iguais

2.1. Variáveis quantitativas


Discretas: número de filhos, número de plantas, quantidade de peças e número de
assaltos. Contínuas: as variáveis contínuas podem assumir infinitos valores (índice de
preços, salário, peso, altura e pressão sistémica).

Toda variável que não ´e quantitativa, serra classificada como qualitativa. Os valores
que a variável pode assumir são chamados de n´níveis ou categorias. Caso estes níveis
sejam ordenáveis, a variável ´e dita ser ordinal, caso contrário ela é classificada como
nominal. ´E importante ressaltar que esta ordenação nos níveis (categorias) da variável
´e natural tal como ocorre com a variável classe social. Nesta situação, Classe A >
Classe B > Classe C >Classe D. Como já foi comentado, o tipo de variável determina o
tipo de análise e, para variáveis qualitativas ordinais, um resumo numérico, uma técnica
gráfica ou uma tabela de frequência deve incorporar a ideia de ordenação. Variáveis
qualitativas (atributos)

4
Ordinais (ex: classe social, cargo na empresa e classificação de um filme.)

Nominais (ex: sexo, bairro, cor de pele e canal de TV preferido.) além das
classificações mencionadas, vamos destacar uma outra situação em que a

Característica de interesse ´e investigada ao longo do tempo (espaço) constituindo o que


chamamos de uma série temporal. A análise de uma variável que ´e medida ao longo do
tempo deve considerar aspectos específicos como tendência e sazonalidade. Ao resumir

Estas variáveis, quando há a presença de tendência o valor médio modifica-se ao longo


do tempo, enquanto a sazonalidade pode explicar variações periódicas, como o aumento
de venda de televisores nos meses de Novembro e Dezembro.

Série temporal Conjunto de observações ordenadas no tempo (índice mensal de


inflação, temperatura máxima diária, cota¸ cambiária do dólar e numero de nascimentos
diários.).

3. Diagramas de dispersão
Quando as variáveis envolvidas em uma análise bidimensional são do tipo quantitativo
(salário, idade, altura etc.), um instrumento de análise bastante útil é o diagrama de
dispersão.

O diagrama de dispersão é um gráfico bidimensional, em que os valores das variáveis


envolvidas são representados como pares ordenados no plano cartesiano. Essas
variáveis são variáveis quantitativas, medidas sobre os mesmos indivíduos.

Para ilustrar a construção de um diagrama de dispersão, vamos considerar uma amostra


de 10 alunas do curso de Hotelaria da UFF (dados fictícios) para as quais foram
medidos seu peso (em kg) e sua altura (em cm). O primeiro passo consiste em desenhar
os eixos cartesianos e definir as escalas de forma apropriada. Não é necessário começar
da origem, ou seja, pode-se fazer uma quebra de escala.

4. MEDIDAS DE DISPERSÃO (VARIABILIDADE)

Somente a apresentação de um valor representativo do conjunto por meio de alguma


medida de tendência central, embora bastante comum tanto nos meios de comunicação
em geral quanto em artigos de pesquisa, é uma descrição incompleta. Conjuntos de

5
dados bastante diferentes podem apresentar a mesma média, como pode ser verificado
nos exemplos apresentados a seguir.

Uma característica das variáveis aleatórias é que elas podem assumir diferentes valores
e, como o próprio nome sugere, elas variam. As medidas de dispersão, ou de
variabilidade, devem ser apresentadas para se informar o leitor o grau de variabilidade,
isto é, quanto os elementos que compõe o conjunto se afastam da medida de tendência
central utilizada para descrevê-los. Estas medidas são:

Mo = 3 Md - 2 x

Úteis para indicar o grau de confiança que se pode depositar nas medidas de tendência
central apresentadas, pois quanto menor a variabilidade mais estáveis são as medidas.
Além disso, com os valores da medida de tendência central e de dispersão em mãos, o
Pesquisador poderá avaliar se está trabalhando com amostras homogéneas ou
heterogéneas em relação a uma dada variável. As medidas de dispersão mais
empregadas são:

a) Amplitude total

b) Desvio-padrão

c) Coeficiente de variação

d) Intervalo interquartil

Imagine que um pesquisador fez um experimento para avaliar se uma determinada


substância tem efeito sobre as respostas comportamentais de ratos em uma tarefa de
medo condicionado.

Como parâmetro da resposta de medo, o pesquisador mensurou o tempo (em segundos)


que os animais permaneciam em freezing2 após ouvirem um som previamente
associado a um estímulo eversivo.

5. AMPLITUDE TOTAL
Está é a mais simples das medidas de variabilidade, e também a mais fácil de ser
calculada. É uma medida que vai informar qual a diferença existente entre o maior e o

6
menor valor do conjunto, isto é, trata-se de uma medida que representa a maior variação
observada nos valores de um conjunto.

Sua fórmula é bem simples:

AT = Vmax – Vm

Onde:

AT = amplitude total

Vmax = maior valor observado no conjunto

Vmin= menor valor observado no conjunto

Aplicando esta fórmula aos dados dos grupos controle e experimental do exemplo
acima, têm-se os seguintes resultados:

AT Grupo controle= 137 – 105 = 32 segundos

AT Grupo experimental = 176 – 63 = 113 segundos

A amplitude total, neste caso, indica que o rato do grupo controle que ficou menos
tempo em freezing precisaria ficar mais 32 segundos imóvel para ter o mesmo
desempenho do rato que ficou mais tempo em freezing.

Conhecendo a amplitude total dos grupos já é possível verificar que o grupo controle
teve uma variação menor do que o grupo experimental.

Ainda que seja uma medida fácil de se calcular e forneça uma informação interessante
do ponto de vista prático, a amplitude total não é a melhor medida de dispersão a ser
empregada. Algumas das suas características, mostradas a seguir, justificam a escolha
de uma outra medida de variabilidade.

6.1. Características da amplitude total

 Não utiliza todos os elementos do conjunto em seu cálculo. Somente os valores


extremos são considerados.

7
 Um único valor extremo no grupo controle poderia igualar a amplitude total dos
dois grupos.
 Situações muito diferentes do ponto de vista prático podem receber o mesmo valor
para a amplitude total.

Por exemplo, as idades (em anos) de dois grupos:

Grupo A: 2, 3, 3, 4, 4, 4, 5, 6

Grupo B: 62, 63, 63, 63, 65, 66, 66

Nos dois grupos o valor da amplitude total é de 4 anos. No entanto, o significado destes
quatro anos não é o mesmo nos dois grupos, basta pensar nas diferenças relacionadas ao
desenvolvimento cognitivo, emocional e motor de uma criança de 2 anos e em uma de 6
anos. Não parece razoável afirmar que tais diferenças sejam as mesmas para adultos
com 62 ou 66 anos. Mesmo com estes inconvenientes, não é raro encontrar pesquisas
publicadas nas quais os autores descrevem a variabilidade de seus dados utilizando a
amplitude total. Aliás, é mais comum a apresentação dos valores utilizados para a sua
obtenção do que o valor da amplitude total. Por exemplo, uma pesquisadora pode citar
que foram avaliados em sua amostra indivíduos com idades entre 15 e 20 anos, no lugar
de informar que a amplitude total de variação das idades foi e 5 anos.

6. DESVIO-PADRÃO

O desvio-padrão é a medida de variabilidade mais empregada em trabalhos de pesquisa.


É uma medida que possui diversas propriedades que a torna uma medida muito útil para
demonstrar a dispersão dos valores de um conjunto.

Para entender melhor as propriedades que tornam o desvio padrão tão útil e interessante,
bem como seu cálculo (uma fórmula que, embora simples, assusta quase a totalidade
dos estudantes e também muitos profissionais de Psicologia), é interessante conhecer

Outras medidas de variabilidade relacionadas ao desvio-padrão. Na verdade, pode-se


dizer que tais medidas são passos para se chegar ao desvio-padrão.

8

S √

7.1. Desvio médio


Se um dos inconvenientes da amplitude total é só considerar os valores extremos, o
desvio médio contorna este problema, pois seu cálculo envolve cada elemento que
compõe o conjunto.


DM

Xi Xi - X (Xi - X)
125 125- 5
120=5
113 113-120=- -7
7
105 105-120=- -15
15
137 137- 17
120=17

9
Total 0 44

7. Coeficiente de Correlação de Pearson


O coeficiente de correlação de Pearson ´e utilizado quando desejamos verificar a
Existência de associação linear entre duas variáveis quantitativas, X e Y , e ´e obtido
dividindo-se a co-variância de X e Y pelo produto dos respectivos desvios padrão de
ambas as variáveis, isto ´e:

Esse coeficiente resulta sempre em um valor entre −1 e 1 e sua interpretação depende


do seu valor numérico e do seu sinal. Quanto mais próximo de −1 e 1, mais forte ´e o
grau de relação linear existente entre X e Y e, quanto mais próximo de 0, mais fraco ´e o
grau desta relação. Uma correlação linear negativa indica que quando o valor de uma
variável aumenta, o valor da outra diminui e, uma correlação linear positiva, indica que
quando o valor de uma variável aumenta, o valor da outra também aumenta.
Para uma amostra de tamanho n, em que para cada indivíduo i (i = 1, · · · , n)
Observamos os pares de valores (xi, yi), o coeficiente de correlação linear entre X e Y
´calculado por:

Sendo ¯x e ¯y as médias amostrais dos xi’s e yi’s, respectivamente. Os gráficos de


dispersão apresentados na Figura ilustram algumas situações com diferentes
coeficientes de correlação. No gráfico (a) desta figura, podemos notar a ausência de
associação entre X e Y . J´a nos gráficos (b) e (c), podemos notar forte relação linear
entre X e Y , pois os valores dos coeficientes de correlação de Pearson estão muito
próximos de 1 e −1, respectivamente outra decrescem, também de forma linear. Na
situação mostrada no gráfico (d) podemos observar a ausência de relação linear entre X
e Y . Neste caso, há a presença de uma do que foi apresentado, podemos observar que o
coeficiente de correlação de Pearson e uma ferramenta ´útil para a investigação de
relação linear entre duas variáveis quantitativas.
A ausência de relação linear, quando indicada por este coeficiente, não implica

10
8. Regressão Linear Simples
Na ausência de relação entre elas. Outro tipo de relação pode estar presente, como, por
exemplo, a não-linear.

8.1. Teste de significância


Na prática, desejamos testar se a associação linear entre X e Y ´e estatisticamente
diferente de zero, bem como concluir a respeito desta associação não somente para a
amostra em estudo, mas também para a população da qual a referida amostra foi
extraída.
Para tanto, uma estatística de teste bastante simples utilizada para testar as hipóteses:

A qual, sob H0, tem distribuição t-Student com (n − 2) graus de liberdade, sendo n o
Tamanho amostrar e r o coeficiente de correlação linear entre X e Y . Calculado o valor
dessa estatística, comparamos o mesmo com o valor tabelado, que ´e obtido a partir da
Tabela t-Student a um nível de significância α pré-estabelecido. Se o valor calculado for
maior que o tabelado, podemos rejeitar a hipótese nula ao nível de significância
considerado.
Rejeição da hipótese nula indica que a correlação linear observada na amostra ´e
Estatisticamente diferente de zero e que essa correlação pode ser inferida para a
população da qual a mesma foi retirada.
Exemplo 6.1. Para uma amostra de tamanho n = 80, em que a relação entre duas
varáveis quantitativas ´e de interesse, foi obtido para o coeficiente de correlação de
Pearson o valor r = 0,78. Para testar se a correlação linear indicada por este coeficiente
´e estatisticamente diferente de zero, foi utilizado o teste de significância apresentado
nesta seção.
Com base nos resultados obtidos, isto ´e, tcal = 11, 0 e ttab = 1,99 ao n´ıvel de 5% de
significância (teste bilateral), podemos rejeitar a hipótese nula e, consequentemente,
concluir que a correlação ´e estatisticamente diferente de zero, bem como que a mesma
pode ser inferida para a população da qual a amostra foi extraída.

Y = β0 + β1X + ǫ,
Que é denominado modelo de regressão linear simples. Para cada indivíduo i (i = 1, . . .
, n) na amostra, o modelo (6.3) fica representado por:

11
yi = β0 + β1 xi + ǫi.
A variável X em, denominada variável repressora ou independente, ´e considerada
Uma variável controlada pelo analista dos dados e medida com erro desprezível.
Já Y, denominada variável resposta ou dependente, ´e considerada uma variável
aleatória, isto ´e, existe uma distribuição de probabilidade para Y em cada valor
possível de X. ´E muito frequente, na prática, encontrarmos situações em que Y tenha
distribuição Normal.
Nesses casos, os erros ǫi (em que alguns são positivos e outros negativos) são
assumidos serem normalmente distribuídos com médias zero e variância constante
desconhecida σ2, bem como independentes, isto ´e, o valor de um erro independe do
valor de qualquer outro erro. Sendo assim, a média e a variância da variável Y serão,
respectivamente:

E(Y | X = x) = E(β0 + β1 x + ǫ) = β0 + β1 x
V (Y | X = x) = V (β0 + β1 x + ǫ) = σ2.

8.2. Regressão Linear Simples


De correlação de Pearson para esses dados resultou em r = 0,768, bem como seu
respectivo teste de significância em calc = 5,09, que comparado ao valor tabelado
ttab,5% =2,1, fornece evidências de relação linear entre essas duas variáveis. Podemos,
então, usar um modelo de regressão linear simples para descrever essa relação. Para
isso, ´e necessário estimar, com base na amostra observada, os parâmetros
desconhecidos β0 e β1 deste modelo. O método de estimação denominado Mínimos
Quadrados Ordinários (MQO) ´e frequentemente utilizado em regressão linear para esta
finalidade e ´e apresentado a seguir.

Estimação dos parâmetros por MQO


Com base nos n pares de observações (y1, x1), (y2, x2), · · · , (yn, xn), o método de
estimação por MQO consiste em escolher β0 e β1 de modo que a soma dos quadrados
dos erros, ǫi (i = 1, · · · , n), seja mínima. De (6.4) note que ǫi = yi−β0−β1xi

12
8.3. Adequação do modelo de regressão linear ajustado
Após ajustar o modelo de regressão linear simples devemos, antes de adopta-lo
definitivamente para fazer predições (interpolações), verificar:
1. Se o modelo se ajusta bem aos dados e,
2. Se as suposições básicas se encontram satisfeitas.
Quanto a qualidade de ajuste do modelo, podemos fazer uso do coeficiente de
determinação, R2, que nos fornece a percentagem da variação total de Y explicada pelo
modelo, ou seja, o percentual da variabilidade da variável dependente Y explicada pela
variável independente X. Em regressão linear simples esse coeficiente pode ser obtido
por R2 = r2, em que r ´e o coeficiente de correlação de Pearson amostrar. O coeficiente
de determinação varia de 0 a 1 (ou 0 a 100%), sendo que quanto mais próximo de 1
(100%), melhor o ajuste do modelo considerado.

13
9. Conclusão
O diagrama de dispersão é um gráfico bidimensional, em que os valores das variáveis
envolvidas são representados como pares ordenados no plano cartesiano. Essas
variáveis são variáveis quantitativas, medidas sobre os mesmos indivíduos.

No presente trabalho didáctico académico conclui que:

O desvio-padrão é a medida de variabilidade mais empregada em trabalhos de pesquisa.


É uma medida que possui diversas propriedades que a torna uma medida muito útil para
demonstrar a dispersão dos valores de um conjunto.

14
10. Referências bibliográficas
 Estatística para psicologos, Paulo Rogério Morais. 1a ed. Santo André, SP: ESETec
Editores Associados, 2007.

 Universidade federal do parana, Setor de ciˆencias exatas, Departamento de


estat´istica Ce003, Estat´istica ii (notas de aula).

15

Você também pode gostar