Trabalho de Estatistica PDF
Trabalho de Estatistica PDF
Trabalho de Estatistica PDF
DIRECÇÃO ACADÉMICA
DEPARTAMENTO DE CIÊNCIAS DE EDUCAÇÃO
CURSO DE HISTÓRIA
2º Ano/2020
DISCIPLINA: ESTATISTICA
Discente: Docente:
1
Índice
1. Introdução ............................................................................................................................. 3
2. Variáveis e suas classificações .............................................................................................. 4
2.1. Variáveis quantitativas .................................................................................................. 4
3. Diagramas de dispersão......................................................................................................... 5
4. MEDIDAS DE DISPERSÃO (VARIABILIDADE .............................................................. 5
5. AMPLITUDE TOTAL.......................................................................................................... 6
6.1. Características da amplitude total ...................................................................................... 7
6. DESVIO-PADRÃO .............................................................................................................. 8
7.1. Desvio médio ..................................................................................................................... 9
7. Coeficiente de Correlação de Pearson ................................................................................. 10
8. Regressão Linear Simples ................................................................................................... 11
8.1. Teste de significância .................................................................................................. 11
8.2. Regressão Linear Simples ........................................................................................... 12
8.3. Adequação do modelo de regressão linear ajustado .................................................... 13
9. Conclusão ............................................................................................................................ 14
10. Referências bibliográficas ............................................................................................... 15
2
1. Introdução
No presente trabalho académico que tem como seguintes matérias, que faram o corpo
deste trabalho; tipos de variável, medidas de dispersão e correlação. As medidas de
dispersão, ou de variabilidade, devem ser apresentadas para se informar o leitor o grau
de variabilidade, isto é, quanto os elementos que compõe o conjunto se afastam da
medida de tendência central utilizada para descrevê-los.
Objectivos gerais
Objectivos específicos
3
2. Variáveis e suas classificações
Em um levantamento de dados, censitário ou por amostragem, investiga-se uma ou mais
características de interesse que supostamente variam de uma unidade para outra. Estas
características serão chamadas a partir de agora de variáveis. A variável pode ser uma
quantidade, sobre a qual podem ser realizadas operações aritméticas, ou pode ser um
Atributo como cor de pele, zona de moradia ou classe social. No primeiro caso, a
variável é classificada como quantitativa e na outra situação ela é dita ser qualitativa.
A classificação da variável vai ser determinante para o tipo de análise estatística a ser
conduzida. Sobre uma variável qualitativa, não podemos calcular muitos dos resumos
numéricos tais como a média aritmética, a variância e o desvio padrão.
Toda variável que não ´e quantitativa, serra classificada como qualitativa. Os valores
que a variável pode assumir são chamados de n´níveis ou categorias. Caso estes níveis
sejam ordenáveis, a variável ´e dita ser ordinal, caso contrário ela é classificada como
nominal. ´E importante ressaltar que esta ordenação nos níveis (categorias) da variável
´e natural tal como ocorre com a variável classe social. Nesta situação, Classe A >
Classe B > Classe C >Classe D. Como já foi comentado, o tipo de variável determina o
tipo de análise e, para variáveis qualitativas ordinais, um resumo numérico, uma técnica
gráfica ou uma tabela de frequência deve incorporar a ideia de ordenação. Variáveis
qualitativas (atributos)
4
Ordinais (ex: classe social, cargo na empresa e classificação de um filme.)
Nominais (ex: sexo, bairro, cor de pele e canal de TV preferido.) além das
classificações mencionadas, vamos destacar uma outra situação em que a
3. Diagramas de dispersão
Quando as variáveis envolvidas em uma análise bidimensional são do tipo quantitativo
(salário, idade, altura etc.), um instrumento de análise bastante útil é o diagrama de
dispersão.
5
dados bastante diferentes podem apresentar a mesma média, como pode ser verificado
nos exemplos apresentados a seguir.
Uma característica das variáveis aleatórias é que elas podem assumir diferentes valores
e, como o próprio nome sugere, elas variam. As medidas de dispersão, ou de
variabilidade, devem ser apresentadas para se informar o leitor o grau de variabilidade,
isto é, quanto os elementos que compõe o conjunto se afastam da medida de tendência
central utilizada para descrevê-los. Estas medidas são:
Mo = 3 Md - 2 x
Úteis para indicar o grau de confiança que se pode depositar nas medidas de tendência
central apresentadas, pois quanto menor a variabilidade mais estáveis são as medidas.
Além disso, com os valores da medida de tendência central e de dispersão em mãos, o
Pesquisador poderá avaliar se está trabalhando com amostras homogéneas ou
heterogéneas em relação a uma dada variável. As medidas de dispersão mais
empregadas são:
a) Amplitude total
b) Desvio-padrão
c) Coeficiente de variação
d) Intervalo interquartil
5. AMPLITUDE TOTAL
Está é a mais simples das medidas de variabilidade, e também a mais fácil de ser
calculada. É uma medida que vai informar qual a diferença existente entre o maior e o
6
menor valor do conjunto, isto é, trata-se de uma medida que representa a maior variação
observada nos valores de um conjunto.
AT = Vmax – Vm
Onde:
AT = amplitude total
Aplicando esta fórmula aos dados dos grupos controle e experimental do exemplo
acima, têm-se os seguintes resultados:
A amplitude total, neste caso, indica que o rato do grupo controle que ficou menos
tempo em freezing precisaria ficar mais 32 segundos imóvel para ter o mesmo
desempenho do rato que ficou mais tempo em freezing.
Conhecendo a amplitude total dos grupos já é possível verificar que o grupo controle
teve uma variação menor do que o grupo experimental.
Ainda que seja uma medida fácil de se calcular e forneça uma informação interessante
do ponto de vista prático, a amplitude total não é a melhor medida de dispersão a ser
empregada. Algumas das suas características, mostradas a seguir, justificam a escolha
de uma outra medida de variabilidade.
7
Um único valor extremo no grupo controle poderia igualar a amplitude total dos
dois grupos.
Situações muito diferentes do ponto de vista prático podem receber o mesmo valor
para a amplitude total.
Grupo A: 2, 3, 3, 4, 4, 4, 5, 6
Nos dois grupos o valor da amplitude total é de 4 anos. No entanto, o significado destes
quatro anos não é o mesmo nos dois grupos, basta pensar nas diferenças relacionadas ao
desenvolvimento cognitivo, emocional e motor de uma criança de 2 anos e em uma de 6
anos. Não parece razoável afirmar que tais diferenças sejam as mesmas para adultos
com 62 ou 66 anos. Mesmo com estes inconvenientes, não é raro encontrar pesquisas
publicadas nas quais os autores descrevem a variabilidade de seus dados utilizando a
amplitude total. Aliás, é mais comum a apresentação dos valores utilizados para a sua
obtenção do que o valor da amplitude total. Por exemplo, uma pesquisadora pode citar
que foram avaliados em sua amostra indivíduos com idades entre 15 e 20 anos, no lugar
de informar que a amplitude total de variação das idades foi e 5 anos.
6. DESVIO-PADRÃO
Para entender melhor as propriedades que tornam o desvio padrão tão útil e interessante,
bem como seu cálculo (uma fórmula que, embora simples, assusta quase a totalidade
dos estudantes e também muitos profissionais de Psicologia), é interessante conhecer
8
∑
S √
∑
DM
Xi Xi - X (Xi - X)
125 125- 5
120=5
113 113-120=- -7
7
105 105-120=- -15
15
137 137- 17
120=17
9
Total 0 44
10
8. Regressão Linear Simples
Na ausência de relação entre elas. Outro tipo de relação pode estar presente, como, por
exemplo, a não-linear.
A qual, sob H0, tem distribuição t-Student com (n − 2) graus de liberdade, sendo n o
Tamanho amostrar e r o coeficiente de correlação linear entre X e Y . Calculado o valor
dessa estatística, comparamos o mesmo com o valor tabelado, que ´e obtido a partir da
Tabela t-Student a um nível de significância α pré-estabelecido. Se o valor calculado for
maior que o tabelado, podemos rejeitar a hipótese nula ao nível de significância
considerado.
Rejeição da hipótese nula indica que a correlação linear observada na amostra ´e
Estatisticamente diferente de zero e que essa correlação pode ser inferida para a
população da qual a mesma foi retirada.
Exemplo 6.1. Para uma amostra de tamanho n = 80, em que a relação entre duas
varáveis quantitativas ´e de interesse, foi obtido para o coeficiente de correlação de
Pearson o valor r = 0,78. Para testar se a correlação linear indicada por este coeficiente
´e estatisticamente diferente de zero, foi utilizado o teste de significância apresentado
nesta seção.
Com base nos resultados obtidos, isto ´e, tcal = 11, 0 e ttab = 1,99 ao n´ıvel de 5% de
significância (teste bilateral), podemos rejeitar a hipótese nula e, consequentemente,
concluir que a correlação ´e estatisticamente diferente de zero, bem como que a mesma
pode ser inferida para a população da qual a amostra foi extraída.
Y = β0 + β1X + ǫ,
Que é denominado modelo de regressão linear simples. Para cada indivíduo i (i = 1, . . .
, n) na amostra, o modelo (6.3) fica representado por:
11
yi = β0 + β1 xi + ǫi.
A variável X em, denominada variável repressora ou independente, ´e considerada
Uma variável controlada pelo analista dos dados e medida com erro desprezível.
Já Y, denominada variável resposta ou dependente, ´e considerada uma variável
aleatória, isto ´e, existe uma distribuição de probabilidade para Y em cada valor
possível de X. ´E muito frequente, na prática, encontrarmos situações em que Y tenha
distribuição Normal.
Nesses casos, os erros ǫi (em que alguns são positivos e outros negativos) são
assumidos serem normalmente distribuídos com médias zero e variância constante
desconhecida σ2, bem como independentes, isto ´e, o valor de um erro independe do
valor de qualquer outro erro. Sendo assim, a média e a variância da variável Y serão,
respectivamente:
E(Y | X = x) = E(β0 + β1 x + ǫ) = β0 + β1 x
V (Y | X = x) = V (β0 + β1 x + ǫ) = σ2.
12
8.3. Adequação do modelo de regressão linear ajustado
Após ajustar o modelo de regressão linear simples devemos, antes de adopta-lo
definitivamente para fazer predições (interpolações), verificar:
1. Se o modelo se ajusta bem aos dados e,
2. Se as suposições básicas se encontram satisfeitas.
Quanto a qualidade de ajuste do modelo, podemos fazer uso do coeficiente de
determinação, R2, que nos fornece a percentagem da variação total de Y explicada pelo
modelo, ou seja, o percentual da variabilidade da variável dependente Y explicada pela
variável independente X. Em regressão linear simples esse coeficiente pode ser obtido
por R2 = r2, em que r ´e o coeficiente de correlação de Pearson amostrar. O coeficiente
de determinação varia de 0 a 1 (ou 0 a 100%), sendo que quanto mais próximo de 1
(100%), melhor o ajuste do modelo considerado.
13
9. Conclusão
O diagrama de dispersão é um gráfico bidimensional, em que os valores das variáveis
envolvidas são representados como pares ordenados no plano cartesiano. Essas
variáveis são variáveis quantitativas, medidas sobre os mesmos indivíduos.
14
10. Referências bibliográficas
Estatística para psicologos, Paulo Rogério Morais. 1a ed. Santo André, SP: ESETec
Editores Associados, 2007.
15