Seminários de Metodologia II - Apontamentos
Seminários de Metodologia II - Apontamentos
Seminários de Metodologia II - Apontamentos
Apontamentos
1
Quando a variável dependente é ordinal e a variável independente tem 3 ou mais grupos,
realiza-se o teste Kruskal-Wallis.............................................................................................. 34
Regressão .................................................................................................................................... 39
Relações de Intra sujeitos ........................................................................................................... 46
Quando há 2 variáveis independentes e 1 dependente são quantitativas, utiliza-se o t-tes for
paired samples ........................................................................................................................ 46
Quando há 2 variáveis independentes e 1 dependente são ordinais, utiliza-se o Wilcoxon
Test. ......................................................................................................................................... 48
2
Seminários de Metodologia II
Método científico
Se uma variável for binária só se usam 2 caracteres (ex. género feminino e masculino)
Nominal- os números significam nomes (servem para atribuir o rotulo) – ex. o número
de identificação de um atleta, nº do cc, género, nacionalidade… (o número identifica uma
pessoa)
Ordinal- não faz sentido calcular a média, mas a informação é mais rica do que a
nominal pq se pode estabelecer uma relação de ordem (ex. escalão do irs). Pode-se construir
uma relação de ordem através deste valor.
Por vezes, podem ser utilizadas como variáveis quantitativas (mas não deixam de ser
qualitativas) se os dados reunirem determinadas características, como ex. grau de satisfação
3
A população teórica pode ser tão grande que pode ser necessário utilizar um filtro criterioso
que torne a população teórica (ex. população portuguesa votante) em população acessível ou
em estudo (ex.população portuguesa votante com telefone fixo).
Teoria da Amostragem
Amostra Aleatória ou probabilística:
Conveniência – por algum motivo conveniente escolhe-se uma amostra para tentar
perceber alguma coisa sobre um assunto que não sabemos nada. (ex. jornalistas a entrevistar
pessoas de forma imediata) podem ser utilizadas como maldade (ex. ligar para um nr da tv
para saber se o treinador x se deve demitir)
bola de neve – estudo de fenómenos em população com difícil acesso (ex. estudo de
doenças raras) estuda-se uma pessoa e vai-se adquirindo novos contactos.
Amostra
4
Design de Investigação/ Tipos de investigação do estudo
Descritivo – propósito de compreender a situação. Usado em fase inicial quando há
menos info (ex. quem compra carros; onde vive x tipo de consumidor…)
Estatística Descritiva
Média, moda, mediana, quartis
A média pode não descrever toda a realidade.
No que diz respeito aos desvios em relação à média, é benéfico usar o desvio padrão. Usa-se
para saber a média dos desvios em relação à média.
| | |
Q1 Mediana Q3
|_______|
5
Q3- 75% das observações
Desvio Padrão
-O desvio em relação à média é o número representado na observação a subtrair a média.
-Por isso é necessário elevar ao quadrado esse número que será sempre positivo, e dividi-lo
pelo número de observações. Aqui temos a média quadrática de todos os desvios em relação à
média. Mas o resultado fica em quadrático
-Necessário usar a raiz quadrada para ter o desvio expresso na medida certa. Pq a raiz com a
elevação ao quadrado eliminam-se.
Para fixar a célula tem que se meter o dólar antes da célula e para fixar o número acrescentar
o dólar antes
Como calcular o desvio padrão (amostral) quando é populacional é igual, mas calcula-se com o
N e não N-1:
Coeficiente de Variação
O desvio padrão está sempre expresso nas mesmas medidas da média (kg, m, €…) e por isso é
possível fazer uma variação de dispersão. Esta é apresentada em percentagem. P. exemplo
dispersão de o peso de um cavalo faz-se DP.Cavalo/ P.MédioCavalos x 100= Coeficiente de
Variação. Quanto maior o CV, mais irregular.
Quando o CV é maior que 50% quer dizer que a média não está a caracterizar
convenientemente a distribuição numérica avaliada e, por isso, devemos usar a mediana.
6
Média: (15+17+20+25+12+15+22)/ 7= 18
Quartis: 12 15 15 17 20 22 25
|------|--------|------|------|
Desvio padrão:
2º Passo: Variância -> (7x7) + (4x4) + (2x2) + (-1x-1) + (-3x-3) + (-3x-3) + (-6x-6)/7-1= (49 + 16 +
4 + 1+ 9 + 9 + 36)/6= 124/6= 20, 67
Medidas de Forma
Valor da dispersão: diferença máxima na metade dos elementos que está no meio
Dados de dimensão normal: a distribuição é “normal”, a moda, média e mediana têm valores
bastante próximos.
É positivo
7
ASSIMETRIA NEGATIVA (LEFT SKEWED): Dados de dimensão enviesado à esquerda: distribuição
enviesado à esquerda. A moda é superior à mediana e depois a média. Ex: uma empresa que
tenha muitos funcionários a ganhar 10 mil euros e poucos a ganhar 500, a média baixa
bastante e não é representativa. Assim, a moda é superior. Dizer a uma pessoa que ganha
500€ que o ordenado médio da empresa é 5 mil euros é desajustado. – A média não
caracteriza convenientemente o que está a ser avaliado.
É negativo
Quando os afastamentos em relação à média são poucos, ou seja, muito concentrados perto
na média, estamos na presença de uma distribuição Leptokortica. A distribuição é mais alta de
que uma distribuição normal. Caudas longas e pesadas.
8
Representações Gráficas
A análise estatística tem sempre como ponto de partida a identificação da escala de medida
em que as variáveis estão expressas. Podem ser: nominais, ordinais ou quantitativas.
Dica de EXCEL: usar colar especial para fixar nrs e não formulas
SPSS
Analise estatística: Para calcular todas as medidas de tendência central, dispersão,
forma e representações gráficas.
9
Análise estatísticos números quantitativos: (+ display frequency table)
10
Variável normalizada
Desvio Padrão: 1
Ou seja, tendo em conta o contexto, o aluno A ficou a cima da média 2 unidades de desvio
padrão e o aluno B ficou a baixo da média 3 unidades de desvio padrão, assim sendo o aluno A
teve melhor desempenho académico que o B.
SPSS
11
Assimetria = Skewness
Ou seja, está fora do intervalo [-1.96; 1.96], por isso sabe-se que a distribuição da idade é
enviesada à direita.
Curtosis
Ou seja, está dentro do intervalo [-1.96; 1.96], por isso a distribuição é aproximadamente
mesocurtica.
Permite ter uma visão sobre a distribuição numérica sem ser necessário visualizar o
histograma.
12
Erros do Teste Estatístico (decisão estatística)
Type 1 Error (representação: a): Afirma-se que a doente tem asma mas não é verdade (falso
positivo)
Correct decision: Nunca é uma decisão perfeita, tomou-se uma decisão correta com uma
probabilidade de 1 – a (erro tipo 1) – maior especificidade
Type 2 Error (representação: B): Afirma-se que a doente não tem asma mas ela tem (falso
negativo)
Correct Decision: Tomou-se a decisão correta com uma probabilidade de 1 – B (erro tipo2) –
tem maior sensibilidade, maior potência
Estudos Correlacionais
Esclarece-nos sobre a relação de interdependência entre duas variáveis. Todos os dias o sol
nasce e todos os dias o galo canta, mas não quer dizer que se o galo não cantar, o sol deixa de
nascer. – Fenómenos de Sincronização
Uma questão de investigação tem que ter obrigatoriamente uma operacionalização estatística!
Tem que esclarecer qual o tratamento estatístico para responder a uma questão.
Ex: Existe relação entre a ansiedade sentida antes de um teste e a idade dos alunos?
Nestes estudos correlacionais há duas possíveis respostas ou hipóteses que têm que ser
contraditórias uma à outra.
13
A primeira hipótese é a Hipótese Nula que corresponde ao número 0 (não há diferenças/
relação). Começa sempre com a palavra “NÃO”. Ex: Não há relação entre o preço do
apartamento e a sua localização.
A segunda Hípotes é a Hipótese Alternativa onde há relação entre as variáveis. Ex: Há relação
entre o preço do apartamento e a sua localização.
Para saber qual das duas respostas é a definitiva, é necessário realizar um teste estatístico que
deriva da questão de investigação.
Magnitude Sentido
Em módulo (0;1) Sinal (quando existe)
Entre 0 e 0,25 > magnitude fraca (-) relação negativa
Entre 0,25 e 0,5 > magnitude moderada (+) relação positiva
Entre 0,5 e 0,75 > magnitude forte
Entre 0,75 e 1 > magnitude muito forte
Objetivo:
Rejeitamos ou Não Rejeitamos a H0?
No SPSS:
Analyze
Correlate
Bivariate
Selecionar os dados
14
Qual o teste estatístico a realizar?
Quando ambas as variáveis são quantitativas, o teste a utilizar é o de Pearson.
Usa-se sempre priemeiro a ultima estatistica a analisar.
15
Correlação: Sinal positivo com uma magnitude moderada (0,25 – 0,50).
Exemplo:
16
Quando o valor da SIG (0,05), é variável entre 0,05 e 0,1, os resultados são considerados
marginalmente significativos.; quando a variável é inferior a 0,01 os resultados são
considerados extremamente significativos.
Quando uma das variáveis é qualitativa dicotómica e uma quantitativa, usa-se o teste
correlação Bisserial (no spss é equivalente à de pearson).
Análise: rejeitamos a hipótese nula. A correlação é de -0,279, ou seja, é negativa. Não faz
sentido dizer que há medida que o curso aumenta, a ansiedade diminui, por isso deve-se
17
verificar os códigos associados ao curso. No caso 0-Engenharia e 1- Ciências Sociais. Assim, os
maiores valores de ansiedade face a exames estão associados aos alunos de curso de
engenharia e vice-versa. Tendo em conta de que a correlação é de -0,279, esta no intervalo
0,25 e 0,5, dizemos que a magnitude é moderada.
18
Sempre que o valor em parenteses na nota a. for menor ou igual a 20%, lemos o valor da
probabilidade de significância na alínea do Chi quadrado de Pearson. – Significância Assintótica
19
Resumo:
Nos testes paramétricos (T-test e ANOVA), têm que ser analisados os 2 pressupostos: testes
analisados previamente aos testes paramétricos.
A variável dependente é o preço e a independente a piscina (que tem dois grupos: sim ou não).
Primeiro temos que testar o pressuposto da normalidade e da homogeneidade:
Normalidade (<=0,05 rejeitamos hipótese nula)
H. Nula: A variável dependente segue uma distribuição normal em todos os grupos da variável
independente. -> A variável dependente “preço” segue uma distribuição normal nos grupos
não e sim da variável independente piscina.
20
H. Alternativa: A variável dependente não segue uma distribuição normal em todos os grupos
da variável independente. -> A variável dependente “preço” não segue uma distribuição
normal nos grupos não e sim da variável independente piscina.
21
22
Testes de Normalidade
Kolmogorov-Smirnova Shapiro-Wilk
Ter piscina Estatística gl Sig. Estatística gl Sig.
Preço Não ,121 30 ,200* ,941 30 ,096
Sim ,223 10 ,172 ,910 10 ,283
*. Este é um limite inferior da significância verdadeira.
a. Correlação de Significância de Lilliefors
Utilizamos a Kolmogorov-Smirnov, ambas têm SIG superior a 0,05, por isso escolhemos a
hipótese nula, ou seja, a variável preço segue uma distribuição normal nos grupos sim e não da
variável independente piscina.
Homogeneidade
H. Nula: A variável dependente tem variância homogénea
Analisamos a SIG com base na média que é inferior a 0,005 e, por isso rejeitamos a hipótese
nula. E, por isso a variável dependente não tem variância homogénea.
Assim, a variável preço tem distribuição normal, mas não tem variância homogénea.
SEMPRE que o teste da normalidade siga uma distribuição normal, seguimos com a realização
do T-test, mesmo que a não tenha variância homogénea.
23
T-Test através do SPSS:
24
Quando há homogeneidade lemos na linha de cima, caso não haja homogeneidade lemos
sempre na linha de baixo.
No caso do exemplo, não existindo homogeneidade, lemos a linha de baixo. SIG é de 0,288 que
é superior a 0,05 e, por isso, não rejeitamos a hipótese nula: Não há diferença de preços entre
os apartamentos com e sem piscina.
H. Nula: não há diferenças na satisfação com o apartamento entre os apartamentos com e sem
piscina
25
26
Sempre que possível utilizar a sig exata.
No caso, a sig é de 0,01 ou seja <0,005 e por isso rejeitamos a hipótese nula, assim há
diferenças na satisfação com o apartamento entre os apartamentos com e sem piscina.
27
1º-testar a normalidade e homogeneidade da variância
28
Assim, a sig é de 0,2, maior que 0,05, ou seja, não rejeitamos a hipótese nula o que significa
que a variável preço mantem uma distribuição normal nas 3 zonas da variável independente
zona.
29
A variável é homogénea porque a variância baseada na média é de 0,160, maior que 0,005,
não rejeitando a hipótese nula, ou seja, a variável dependente (preço) tem variância
homogénea.
30
A sig é <0,001, menor que 0,005, rejeitando a hipótese nula. Contudo, como aqui temos 3
variáveis dentro da Zona, vamos ter que fazer um novo teste.
31
Não há nenhum valor N menor ou maior em 50% que os outros, por isso vamos fazer o teste:
32
Se o valor N fosse menor ou maior em 50% que os outros, escolhia-se:
33
Resultado do teste Scheffe:
Analisar a coluna SIG: entre a zona A e a zona B, a sig é de 0,491, superior a 0,05, por isso não
rejeitamos a hipótese nula, no caso “não há diferença de preços entre a zona A e a zona B”;
entre a zona A e a zona C, a sig é de <0,001, inferior a 0,005, por isso rejeitamos a hipótese
nula, ou seja “há diferença de preços entre a zona A e a zona C”; finalmente, entre a zona B e a
zona C, a sig é de <0,001, menor que 0,005, por isso rejeitamos a hipótese nula, ou seja, “há
diferença de preços entre a zona B e a zona C”.
34
35
R: Como a SIG é de 0,458, maior que 0,05, não rejeitamos a hipótese nula, ou seja, A
zona não influencia a satisfação com o apartamento.
- Temos que fazer a correção da SIG (0,05), ou seja se são 3 testes fazemos 0,05/3=0,017; ou
seja apenas rejeitamos a hipótese nula para valores menores ou iguais a 0,017.
36
Analise 1: A sig exata é superior à sig ajustada de 0,017 (0,05/3), por isso não rejeitamos a
hipótese nula, ou seja, não há diferença na satisfação com o apartamento tendo em conta a
zona.
37
FAZER O MESMO DE ANTES, MAS ALTERAR OS GRUPOS 1 E 2 PARA 1 E 3.
Análise: Como a sig é de 0,347, superior a 0,05, não rejeitamos a hipótese nula, ou seja, não há
diferença na satisfação do apartamento tendo em conta a zona.
Análise: Como a sig é de 0,277, superior a 0,05, não rejeitamos a hipótese nula, ou seja, não há
diferença na satisfação do apartamento tendo em conta a zona.
38
Resumo:
Regressão
No caso do teste ANOVA e T-test, temos variáveis independentes qualitativas, mas pode
acontecer que as VI sejam quantitativas. Ex: avaliar o impacto que tem a área do apartamento
e a sua idade no preço.
2º Fazer o quadrado da correlação: 0,8x0,8=0,64 -> impacto que uma variável tem sobre a
outra – relação entre as variáveis (0,64 – ex. as horas de estudo explicam 64% da variação das
notas académicas)
39
40
41
R2 Linear = 0,335 é o coeficiente de correlação de Pearson
Ou seja 33,5% da variabilidade no preço é explicada pela área em metros quadrados dos
apartamentos.
No retângulo no meio do gráfico está o sinal (+) que indica que a inclinação da reta é positiva.
Ou seja, quanto maior a área do apartamento, maior o preço e quanto menor a área, menor o
preço.
42
R Linear- 0,120
No retângulo no meio do gráfico está o sinal (-) que indica que a inclinação da reta é negativa.
Ou seja, quanto maior a idade do apartamento, menor o preço e quanto menor a idade, maior
o preço.
De seguida:
43
1º- Analisar: (utilizamos a sig de 0,1)- Podemos utilizar varias variaveis
4º Construção do Modelo
7498 -> Área B – Aumento previsto no preço a cada m2 a mais, mantida a idade constante
-19223 -> Idade do imóvel B – Diminuição prevista no preço a cada ano a mais, mantida a área
constante
44
Nota: Para ter o melhor modelo com menor número de variáveis, vai-se experimentando
alterar as variáveis independentes. Isto avalia-se no no 2º passo- adjusted r square.
Área/ Idade/ Zona B/ Zona C (se nas zonas estiver 0 é pq não pertence, se estiver 1 é pq
pertence)
45
Relações de Intra sujeitos
Number of Temporal Moments (or Differences Tests (Intra-subject Context)
Experimental Conditions) of the
Independent Variable and Dependent
Variable Measurement Scale
• 2 for Independent Variable (IV) and t – Test for Paired Samples (t)
Dependent Variable (DV) Scale (Assumptions: normality)
(parametric tests)
• 2 for Independent Variable (IV) and Wilcoxon Test (Z)
Dependent Variable (DV) Ordinal (non-
parametric tests)
•
Research question: 3 or
AreMore
there Groups forinIndependent
differences Repeated
the variable “Y2”, between moment 1 and Measurements
moment 2? ANOVA (F)
Variable (IV) and Dependent Variable (Assumptions: normality)
H0 : There is no differences between moment 1 and moment 2 in relation to variable “Y 2”.
(DV) Scale (parametric tests)
H1 : There is differences between moment 1 and moment 2 in relation to variable “Y 2”.
• 3 or More Groups for Independent Friedman test (𝜒 2 )
Research question: Variable (IV)
Are there and Dependent
differences Variable
in the variable “Y3”, between experience 1 and experience 2?
(DV) Ordinal (non-parametric tests)
H0 : There is no differences between experience 1 and experience 2 in relation to variable “Y 3”.
H1 : There is differences between experience 1 and experience 2 in relation to variable “Y 3”.
ASSUMPTIONS
Normality
H0 : The dependent variable (Y), follows a normal distribution in all groups of the independent variable (X).
H1 : The dependent variable (Y), does not follows a normal distribution in all groups of the independent variable (X).
46
Como a sig é >0,05, a distribuição é normal pq não há variância significativa.
A sig é >0,05 ou seja, não rejeitamos a hipótese nula que é “não existe relação de correlação
entre as duas variáveis.
47
Quando há 2 variáveis independentes e 1 dependente são ordinais, utiliza-se o
Wilcoxon Test.
Sig 0,094 < 0,1 por isso rejeitamos a hipótese nula o que quer dizer que há diferenças quanto
ao grau de dificuldade da matéria de inglês e matemática.
Analisando a coluna N, vemos que 37> 19, por isso lemos a alínea A. Assim a dificuldade da
matéria de inglês em avaliação é superior à de matemática.
48