Cap2 9
Cap2 9
Cap2 9
9
Introdução à Estatística Descritiva para
Pesquisas em Informática na Educação
Gilberto Pereira Sassi
gilberto.sassi@ufba.br
Objetivo do Capítulo
Este capítulo tem o objetivo de apresentar conceitos e técnicas para você realizar uma
análise exploratória de dados usando gráficos e medidas resumo. Ao final da leitura deste
capítulo, você deve ser capaz de:
● Entender os conceitos básicos de estatística.
● Representar graficamente o seu conjunto de dados.
● Resumir as informações em um conjunto de dados usando medidas de posição,
medidas de dispersão e quantis.
● Estudar a associação entre duas colunas do seu conjunto de dados.
Era uma vez… Maria é uma aluna de um programa de pós-graduação em
Informática na Educação e decidiu analisar uma plataforma digital de ensino.
Esta plataforma digital coleta várias informações sobre os alunos, como
tempo para terminar uma atividade proposta, número de interações com
outros alunos, notas nos testes semanais, idade do aluno, e outros. Antes de
propor melhorias, Maria precisa analisar os padrões e comportamentos dos
alunos dentro da plataforma digital. Para isso, Maria escolheu alguns alunos
e coletou várias informações sobre eles e precisa descobrir padrões e
comportamentos a partir dessa amostra de alunos. Será que podemos ajudar
Maria?
2
1 Introdução
A análise, interpretação e apresentação dos dados são etapas essenciais para
qualquer indivíduo que deseja pesquisar na área de Informática na Educação e são
exatamente essas preocupações da análise estatística descritiva e deste capítulo.
Apresentaremos a você conceitos e métodos para extrair informações de sua base de
dados. Repare que existe uma comunidade inteira pesquisando e sugerindo melhorias nos
métodos estatísticos já existentes, então nosso foco será nas técnicas mais tradicionais.
Em estatística descritiva, estamos preocupados em representar os dados usando
gráficos e diagramas, além do interesse em resumir em um (ou alguns) número todos os
valores de uma coluna de sua base de dados. Neste capítulo, você vai aprender a
representar graficamente e a resumir os dados. Na Seção 2, começamos introduzindo
alguns conceitos básicos que serão usados em todos os capítulos. Na seção 3, mostramos
como você pode representar graficamente as informações contidas em uma amostra. Em
seguida, na seção 4, mostramos como você pode resumir os dados coletados usando
medidas de posição, medidas de dispersão e quantis. Finalmente, na seção 5, você
aprenderá como estudar a associação entre duas variáveis de sua amostra.
2 Conceitos Básicos
De um modo geral, podemos afirmar que existe duas maneiras para chegarmos a
conclusões: usando inferência dedutiva e usando inferência indutiva.
A inferência dedutiva usa argumentos lógicos para chegar a conclusões a partir de
premissas. Por exemplo: Premissa: “Todo ser humano nascido em solo brasileiro tem
direito a cidadania Brasileira”; Maria nasceu em Salvador, então Maria tem direito a
cidadania Brasileira. Esse tipo de inferência é muito usado em Filosofia e Matemática
Abstrata e não abordaremos este assunto neste capítulo.
A inferência indutiva é um processo de generalização da parte para o todo. Ou
seja, a partir de um número de casos suficientemente grande, fazemos conclusões sobre
todos os casos possíveis. Por exemplo, na seção Era uma vez..., Maria pode escolher
alguns alunos e coletar informações sobre estes alunos na plataforma digital, e, então,
usar estatística para calcular medidas de resumo, desenhar gráficos e fazer afirmações
para toda população.
Antes de apresentarmos técnicas de inferência indutiva, vamos estabelecer alguns
nomes e conceitos que irão nos ajudar neste capítulo e em seu trabalho de pesquisa:
1. População: todos os indivíduos (ou elementos) alvo de um estudo ou
pesquisa.
2. Amostra: parte da população.
3. Parâmetro: característica da população. Geralmente não é possível ou é
muito caro (operacionalmente e/ou financeiramente) encontrar essa
característica.
4. Estimativa: característica da amostra. Geralmente usamos uma estimativa
para aproximar um parâmetro.
3
5. Variável: característica de um elemento/indivíduo da população.
Geralmente usamos uma letra maiúscula do alfabeto latino para representar
uma variável, e uma letra minúscula do alfabeto latino para representar o
valor de uma variável para um indivíduo (ou elemento) da população. Por
exemplo, podemos representar a variável “a idade dos alunos” por 𝑋 e um
valor de idade presente na amostra por 𝑥 = 23 anos.
Variáveis podem ser classificadas em quatro categorias:
1. Variável Qualitativa Nominal: variável cujos valores possíveis são
atributos não numéricos e estes atributos não tem hierarquia entre si. Por
exemplo, uma variável “nacionalidade” com valores possíveis {Brasileiro,
Estrangeiro} é uma variável qualitativa nominal, pois não existe motivo
para supor a superioridade dos Brasileiros ou dos Estrangeiros.
2. Variável Qualitativa Ordinal: variável cujos valores possíveis são
atributos não numéricos e estes atributos tem hierarquia entre si. Por
exemplo, uma variável “satisfação com o atendimento” com valores
possíveis {Completamente insatisfeito, insatisfeito, satisfeito,
completamente satisfeito} é uma variável qualitativa ordinal, pois usuários
“satisfeito” tiveram uma experiência superior aos usuários “insatisfeito”.
3. Variável Quantitativa Discreta: variável cujos valores possíveis são
números inteiros, geralmente provenientes de uma contagem. Por
exemplo, a variável “Número de filhos” é uma variável quantitativa
discreta.
4. Variável Quantitativa Contínua: variável cujo valor possível pode ser
qualquer número. Por exemplo, a variável “nota em uma atividade” é uma
variável quantitativa contínua.
Agora estamos prontos! Vamos começar aprendendo a representar os dados
usando gráficos.
3 Métodos Gráficos
Após a coleta de dados, você tem em mãos uma base de dados em que cada linha
é um indivíduo e cada coluna corresponde a uma variável. Dessa forma, cada célula vai
conter o valor de uma variável para um indivíduo. A Figura 5 ilustra notas de cinco alunos
em quatro testes realizados levantados por nossa personagem Maria. A primeira coisa que
podemos fazer é contar. Os resultados dessa contagem podem ser organizados em uma
tabela de distribuição de frequência. Vamos aprender a construir a tabela de distribuição
de frequência por partes: primeiro para variáveis qualitativas (nominais ou ordinais), para
variáveis quantitativas discretas e, finalmente, para variáveis quantitativas contínuas.
Suponha que 𝑋 seja uma variável qualitativa (ordinal ou nominal) com valores
possíveis 𝐴1 , … , 𝐴𝑘 . Imagine que 𝑛1 indivíduos tem valor de 𝑋 igual a 𝐴1 , 𝑛2 indivíduos
tem valor de 𝑋 igual a 𝐴2 , 𝑛3 indivíduos tem valor de 𝑋 igual a 𝐴3 , e assim por diante.
Então ao final deste processo de contagem, obtemos a tabela 1.
4
Tabela 1: Tabela de distribuição de frequências para uma variável qualitativa.
5
Tabela 2: Distribuição de frequências para uma variável quantitativa discreta 𝑌.
6
Tabela 3: Tabela de distribuição de frequência para uma variável quantitativa
contínua.
4 Medidas Resumo
Além de construir gráficos, podemos resumir as informações de uma variável
quantitativa com uma (algumas) medida(s) de resumo. Dificilmente você descobrirá
informações úteis com o ato de olhar para todos os valores de uma variável em um
banco de dados. Já aprendemos a representar visualmente os valores de uma variável
usando gráficos, mas podemos ir além. Desejamos descobrir um (ou alguns) valor(es)
que representa, da forma mais fidedigna possível, todos os valores de uma variável
quantitativa. Para facilitar sua leitura, vamos dividir essa seção em três partes:
medidas de posição, medidas de dispersão e quantis.
7
4.1 Medidas de Posição: Média, Moda e Mediana
Medida de posição é um valor representativo de uma variável quantitativa. Ou
seja, se uma variável quantitativa 𝑋 tem uma medida de posição com valor 𝑚𝑋 , então
quando você se deparar com um indivíduo (sem qualquer conhecimento prévio dele) você
pode afirmar que o valor de 𝑋 para tal indivíduo é 𝑚𝑋 . Geralmente escolhemos como
medida de posição quantidades frequentes na amostra ou quantidades que ocupam uma
posição central entre os valores observados da variável quantitativa.
Existem três medidas de posição mais populares entre os pesquisadores na área de
Informática na Educação: Moda, Média e Mediana. Geralmente, usamos a moda apenas
para variáveis quantitativas discretas.
4.1.1 Moda
Seja 𝑋 uma variável quantitativa discreta com valores observados 𝑥1 , 𝑥2, … , 𝑥𝑘 . A
moda de 𝑋 é o valor 𝑥𝑖 que aparece mais vezes na amostra. Matematicamente,
representamos a moda de 𝑋 por 𝑚𝑜(𝑋) = 𝑥𝑖 .
4.1.2 Média
Seja 𝑋 uma variável quantitativa (discreta ou contínua) com valores observados
𝑥1 , 𝑥2, … , 𝑥𝑛 . Então, a média pode ser calculada por
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝑥̅ = .
𝑛
Você pode interpretar a média como o centro de massa de uma barra em que pesos
𝑥1 , 𝑥2, … , 𝑥𝑛 foram colocados em pontos igualmente espaçados, conforme ilustrado na
figura 5.
4.1.3 Mediana
Considere 𝑋 uma variável quantitativa com valores observados 𝑥1, 𝑥2 , … , 𝑥𝑛 , então
a mediana de 𝑋 é um valor que divide a sequência ordenada de 𝑥1, 𝑥2 , … , 𝑥𝑛 em duas
partes iguais. Ou seja, a mediana é um valor 𝑚𝑑(𝑋) tal que 50% dos valores 𝑥1, 𝑥2 , … , 𝑥𝑛
são menores ou iguais a 𝑚𝑑(𝑋) e 50% dos valores 𝑥1, 𝑥2 , … , 𝑥𝑛 são maiores ou iguais a
𝑚𝑑 (𝑋).
8
A primeira coisa que você precisa fazer para calcular a mediana é ordenar os
valores do menor ao maior valor:
𝑥(1) ≤ 𝑥(2) ≤ 𝑥(3) ≤ 𝑥(4) ≤ ⋯ ≤ 𝑥(𝑛) ,
em que 𝑥(1) é o menor valor entre 𝑥1 , 𝑥2 , … , 𝑥𝑛 ; 𝑥(2) é o segundo menor valor entre
𝑥1 , 𝑥2, … , 𝑥𝑛 ; 𝑥(3) é o terceiro menor valor entre 𝑥1 , 𝑥2, … , 𝑥𝑛 ; 𝑥(4) é o quarto menor valor
entre 𝑥1 , 𝑥2 , … , 𝑥𝑛 ; e assim continua até 𝑥(𝑛) (o último menor valor entre 𝑥1 , 𝑥2 , … , 𝑥𝑛 ).
Chamamos 𝑥(1) , 𝑥(3) , 𝑥(4) , … , 𝑥(𝑛) de estatísticas de ordem.
Agora precisamos encontrar um valor 𝑚𝑑(𝑋) tal que:
1. 50% das estatísticas de ordem satisfaçam a desigualdade: 𝑥(𝑗) ≤ 𝑚𝑑(𝑋);
2. 50% das estatísticas de ordem satisfaçam a desigualdade: 𝑥(𝑘) ≥ 𝑚𝑑(𝑋).
Um valor que satisfaz as condições 1. e 2. é
𝑥(𝑛+1) , 𝑠𝑒 𝑛 é í𝑚𝑝𝑎𝑟,
2
𝑚𝑑(𝑋) = {𝑥(𝑛) + 𝑥(𝑛+1)
2 2
, 𝑠𝑒 𝑛 é 𝑝𝑎𝑟.
2
9
Figura 6: Distribuição das notas dos cinco alunos para o teste A (𝑋), teste B (𝑌),
teste C (𝑍) e o teste D (𝑊). Note que a variável 𝑍 tem todos os valores iguais a cinco,
enquanto a variável 𝑌 tem valores mais heterogêneos.
Se os valores (bolinhas no diagrama da figura 7) estão concentrados perto da
média, então a variável é mais homogênea, e se os valores estão mais afastados da média,
então a variável é mais heterogênea. A ideia das medidas de dispersão é calcular as
distâncias entre os valores observados e a média: se as distâncias forem pequenas, então
a variável é mais homogênea; se as distâncias forem grandes, então a variável é mais
heterogênea. Para facilitar consideramos a média dos desvios 𝑥𝑖 − 𝑥̅ , 𝑖 = 1, … , 𝑛
(distâncias entre os valores observados e a média) e, com isso, obtemos três medidas de
dispersão:
4.2.2 Variância
Seja 𝑋 uma variável quantitativa com valores observados 𝑥1, 𝑥2 , … , 𝑥𝑛 com média
𝑥̅ , então você calcula a variância através de
(𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2
𝑣𝑎𝑟(𝑥) = ,
𝑛
Note que (𝑥1 − 𝑥̅ )2 é a distância ao quadrado entre 𝑥1 e 𝑥̅ e chamamos (𝑥1 − 𝑥̅ )2 de
desvio ao quadrado, então a variância é a média dos desvios ao quadrado.
10
4.2.3 Desvio Padrão
Suponha que 𝑋 é uma variável quantitativa medida em 𝑐𝑚 (centímetros). Então, a
unidade de (𝑥1 − 𝑥̅ )2 é 𝑐𝑚2 e a unidade da variância também vai ser em 𝑐𝑚2 . Para
manter a mesma unidade original dos dados, é comum considerar a raiz quadrada da
variância
𝑑𝑝(𝑥) = √𝑣𝑎𝑟(𝑥).
Chamamos 𝑑𝑝(𝑥) de Desvio Padrão.
Atenção para a seguinte interpretação: quanto menor o desvio padrão (ou variância
ou desvio médio), mais homogênea a variável.
11
Figura 7: Diagrama de caixa (ou boxplot em inglês).
No diagrama de caixa representado na figura 8, calculamos LS e LI através de:
𝐿𝑆 = 𝑞3 + 1,5(𝑞3 − 𝑞1 ) e 𝐿𝐼 = 𝑞1 − 1,5(𝑞3 − 𝑞1 ). Se um valor da variável quantitativa
é maior que LS ou é menor que LI, você classifica este valor como ponto exterior
(suspected outlier em inglês) e um ponto exterior precisa de atenção do pesquisador.
Ponto exterior pode ser um erro de digitação, ou de processamento, ou pode ser um valor
possível mas raro.
No diagrama de caixa, se o valor do segundo quartil está mais próximo do primeiro
quartil, significa que a variável quantitativa tem assimetria e os valores da variável
tendem a ficar à direita. Nesse caso, dizemos que a variável quantitativa tem assimetria à
direita. A Figura 9 ilustra essa ideia usando um histograma.
12
Figura 9: Histograma de uma variável quantitativa contínua com assimetria à
esquerda.
Se o valor do segundo quartil está exatamente no meio entre o primeiro e terceiro
quartil no diagrama de caixa, dizemos que a variável quantitativa é simétrica. A Figura
11 ilustra essa ideia.
13
Quadro 1: Regra de ouro para o coeficiente de Bowley.
Interpretação Coeficiente de Bowley Interpretação Coeficiente de Bowley
Forte assimetria à direita (0,9; 1] Forte assimetria à esquerda [-1; -0,9)
(positiva) (negativa)
Alta assimetria à direita (0,7; 0,9] Alta assimetria à esquerda [-0,9; -0,7)
(positiva) (negativa)
Moderada assimetria à direita (0,5; 0,7] Moderada assimetria à [-0,7; -0,5)
(positiva) esquerda (negativa)
Baixa assimetria à direita (0,3; 0,5] Baixa assimetria à esquerda [-0,5; -0,3)
(positiva) (negativa)
Simetria [0; 0,3] Simetria [-0,3; 0]
Diagrama
de caixa
14
5 Associação entre Duas Variáveis
Nessa seção, você vai aprender a checar se duas variáveis estão associadas. Ou
seja, queremos responder a seguinte pergunta: o conhecimento de uma variável 𝑋 ajuda
a entender ou descobrir o valor de uma variável 𝑌? Vamos dividir essa seção em dois
casos:
• 𝑋 e 𝑌 são duas variáveis qualitativas;
• 𝑋 e 𝑌 são duas variáveis quantitativas.
Decidimos focar nesses dois casos que provavelmente serão os que mais
aparecerão em sua pesquisa. Caso você precise estudar a associação entre uma variável
qualitativa e uma variável quantitativa ou entre duas variáveis qualitativas ordinais,
apresentamos algumas referências ao final desse capítulo.
X 𝑥1 𝑥2 ⋯ 𝑥𝑛
Y 𝑦1 𝑦2 ⋯ 𝑦𝑛
15
Figura 11: Gráfico de dispersão entre as variáveis quantitativas 𝑋 e 𝑌.
Além do gráfico de dispersão, você pode calcular o coeficiente de correlação de
Pearson que representamos matematicamente por 𝑟. Note que
• o coeficiente de correlação de Pearson sempre está entre -1 e 1;
• se 𝑟 > 0, então temos uma associação positiva;
• se 𝑟 < 0, então temos uma associação negativa;
• se 𝑟 ≅ 0, então temos uma associação nula;
• você pode usar, com parcimônia, a regra de ouro da quadro 3.
16
A primeira coisa que você deveria fazer ao estudar a associação entre duas
variáveis qualitativas é contar, ou seja, construir uma tabela conjunta de distribuição de
frequência como ilustrado na tabela 5. Na tabela 5, 𝑛𝑖𝑗 , 𝑖, 𝑗 = 1,2,3 é o número de
indivíduos com valor de 𝑋 igual a 𝐴𝑖 e com valor de 𝑌 igual a 𝐵𝑗 ; 𝑛𝑖. , 𝑖 = 1,2,3 é o número
elementos da amostra com valor de 𝑋 igual a 𝐴𝑖 ; 𝑛.𝑗 , 𝑗 = 1,2,3 é o número elementos da
amostra com valor de 𝑌 igual a 𝐵𝑗 ; e 𝑛..é o tamanho da amostra.
Tabela 5: Tabela conjunta de distribuição de frequência para variável qualitativa
𝑌 com valores possíveis 𝐵1 , 𝐵2 , 𝐵3 e para a variável qualitativa 𝑋 com valores possíveis
𝐴1 , 𝐴2 , 𝐴3 .
𝑋 𝐵1 𝐵2 𝐵3 Total
𝐴1 𝑛11 𝑛12 𝑛13 𝑛1.
𝐴2 𝑛21 𝑛22 𝑛23 𝑛2.
𝐴3 𝑛31 𝑛32 𝑛33 𝑛3.
Total 𝑛.1 𝑛.2 𝑛.3 𝑛..
X 𝐵1 𝐵2 𝐵3 Total
𝐴1 𝑛11 𝑛12 𝑛13 𝑛1.
𝑛.1 𝑛.1 𝑛.1 𝑛..
𝐴2 𝑛 21 𝑛 22 𝑛 23 𝑛 2.
𝑛.1 𝑛.2 𝑛.3 𝑛..
𝐴3 𝑛 31 𝑛 32 𝑛 33 𝑛 3.
𝑛.1 𝑛.2 𝑛.3 𝑛..
Total 1 1 1 1
Se X e Y não são associadas, as colunas (ou linhas se você usar o total das linhas
na tabela 6) devem ser iguais, ou seja:
𝑛 𝑛 𝑛 𝑛
• 𝑛11 = 𝑛12 = 𝑛13 = 𝑛1.;
.1 .2 .3 ..
𝑛21 𝑛22 𝑛23 𝑛2.
• = = = ;
𝑛.1 𝑛.2 𝑛.3 𝑛..
𝑛31 𝑛32 𝑛33 𝑛3.
• = = = ;
𝑛.1 𝑛.2 𝑛.3 𝑛..
17
Ou seja, as colunas (ou as linhas se você usar o total das linhas na tabela 6) vão ser
todas iguais ou aproximadamente iguais. Se algum valor da linha tiver um valor
diferente, você já tem um sinal de que existe associação entre as duas variáveis
qualitativas.
Podemos representar a tabela 6 usando um gráfico de barras conforme ilustrado
abaixo na Figura 13. No gráfico 13.B, as variáveis qualitativas X e Y não são
associadas e as barras são idênticas; e no gráfico 13.A as variáveis X e Y estão
associadas e as barras são diferentes.
18
6 Exemplo Ilustrativo
Nesta seção vamos usar o que aprendemos para ajudar Maria, a aluna de pós-
graduação em informática na educação da seção Era uma vez... Maria decidiu
acompanhar cem alunos da plataforma digital e coletou as seguintes variáveis para cada
um dos alunos:
• ID: rótulo usado para identificar os alunos na plataforma digital;
• Nota: nota em matemática;
• tempo: tempo (em minutos) que o aluno ficou logado na plataforma digital
na semana;
• genero: gênero declarado pelo aluno;
• localizacao: variável qualitativa com dois valores possíveis – Capital e
Interior. Capital indica que o aluno mora em uma capital ou região
metropolitana, e Interior indica que o aluno não mora em uma capital ou
região metropolitana.
Estas variáveis
foram armazenadas em arquivo excel denominado
"data_plataforma.xlsx". Vamos ajudar Maria em duas tarefas:
(1) Resumir, descrever e analisar as variáveis Nota, tempo e genero;
(2) Estudar a associação entre tempo e Nota e a associação entre localizacao
e genero.
Quadro 5: Maria vai usar os seguintes pacotes do R.
# importando o arquivo no R
dados_maria <- read_xlsx("data_plataforma.xlsx", sheet = "dados",
col_names = TRUE)
## # A tibble: 5 x 5
## ID Nota tempo genero localizacao
## <dbl> <dbl> <dbl> <chr> <chr>
19
## 1 71573 8.72 106. Feminino Capital
## 2 88855 8.68 93.5 Feminino Interior
## 3 52826 5.39 62.8 Feminino Interior
## 4 14692 7.79 88.6 Feminino Interior
## 5 28539 8.55 87.4 Masculino Capital
Vamos primeiro fazer uma análise descritiva das variáveis: Nota, tempo e ge
nero. Vamos começar com a variável genero. A sua primeira tarefa é construir a ta-
bela de distribuição de frequência, conforme código abaixo.
# Tabela de distribuição de frequência
dados_maria %>% group_by(genero) %>%
summarise(frequencia = n()) %>%
mutate(frequencia_relativa = frequencia / sum(frequencia),
porcentagem = 100 * frequencia_relativa)
## # A tibble: 3 x 4
## genero frequencia frequencia_relativa porcentagem
## <chr> <int> <dbl> <dbl>
## 1 Feminino 49 0.49 49
## 2 Masculino 47 0.47 47
## 3 Outro 4 0.04 4
20
Agora vamos estudar a associação entre localizacao e genero. Primeiramente,
vamos construir a tabela conjunta de distribuição de frequência, e em seguida construir a
tabela conjunta de distribuição de frequência relativa ao total das colunas, conforme o
código abaixo.
# tabela conjunta de distribuição de frequências
dados_maria %>% group_by(localizacao, genero) %>%
summarise(frequencia = n()) %>%
spread(key = genero, value = frequencia)
## # A tibble: 2 x 4
## # Groups: localizacao [2]
## localizacao Feminino Masculino Outro
## <chr> <int> <int> <int>
## 1 Capital 39 32 3
## 2 Interior 10 15 1
## # A tibble: 2 x 4
## localizacao Feminino Masculino Outro
## <chr> <dbl> <dbl> <dbl>
## 1 Capital 79.6 68.1 75
## 2 Interior 20.4 31.9 25
21
Figura 14: Associação entre localizacao e genero.
## [1] 0.1081155
## # A tibble: 9 x 4
## Nota frequencia frequencia_relativa porcentagem
## <fct> <int> <dbl> <dbl>
## 1 (0,1] 2 0.02 2
## 2 (2,3] 1 0.01 1
## 3 (3,4] 2 0.02 2
## 4 (4,5] 2 0.02 2
## 5 (5,6] 3 0.03 3
## 6 (6,7] 8 0.08 8
## 7 (7,8] 17 0.17 17
22
## 8 (8,9] 25 0.25 25
## 9 (9,10] 40 0.4 40
## # A tibble: 1 x 6
## media mediana desvio_padrao desvio_medio Q1 Q3
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 8.12 8.72 1.87 1.31 7.68 9.34
## # A tibble: 13 x 4
## tempo frequencia frequencia_relativa porcentagem
## <fct> <int> <dbl> <dbl>
## 1 (30,40] 1 0.01 1
## 2 (40,50] 1 0.01 1
## 3 (50,60] 1 0.01 1
## 4 (60,70] 2 0.02 2
## 5 (70,80] 13 0.13 13
## 6 (80,90] 15 0.15 15
## 7 (90,100] 18 0.18 18
## 8 (100,110] 16 0.16 16
## 9 (110,120] 11 0.11 11
## 10 (120,130] 14 0.14 14.
## 11 (130,140] 4 0.04 4
## 12 (140,150] 3 0.03 3
## 13 (150,160] 1 0.01 1
# medidas resumo
dados_maria %>%
summarise(media = mean(tempo), mediana = median(tempo),
desvio_padrao = (tempo - media)^2 %>% mean() %>% sqrt(),
23
desvio_medio = (tempo - media) %>% abs() %>% mean(),
Q1 = quantile(tempo, probs=0.25),
Q3 = quantile(tempo, probs=0.75))
## # A tibble: 1 x 6
## media mediana desvio_padrao desvio_medio Q1 Q3
## <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
## 1 100.0 98.6 22.1 18.1 84.7 116.
Pela tabela de distribuição de frequência, notamos que a maioria dos alunos gasta
entre 70 e 130 minutos logados na plataforma digital e isso já é uma informação adicional
que dificilmente você obteria nos valores individuais do arquivo
"data_plataforma.xlsx".
As medidas de resumo são úteis para entender variáveis quantitativas. A nota
média dos estudantes foi 8,12 e tempo médio logado foi 100 minutos. Além disso, a
variável Nota é mais homogênea que a variável tempo, pois desvio padrão (e o desvio
médio) da variável Nota é menor que o desvio padrão (e o desvio médio) da variável
tempo.
Quando e onde puder, use gráficos! Eles ajudam o leitor a entender o que está
acontecendo com as variáveis. Para as variáveis quantitativas contínuas Nota e tempo
vamos construir o Diagrama de Caixa e o Histograma. No R, o Diagrama de Caixa pode
ser construído usando a função geom_boxplot e o histograma pode ser construído usando
a função geom_histogram. As funções geom_boxplot e geom_histogram são funções
que estão inclusas no pacote tidyverse. Vamos apresentar o código para calcular o
histograma e o diagrama de caixa para a variável tempo, e o mesmo código, com as
devidas alterações, pode ser usada para a variável Nota.
# histograma: tempo
m <- (1 + dados_maria %>% nrow() %>% log2()) %>% ceiling()
ggplot(dados_maria)+
geom_histogram(aes(x=tempo, y=..density..), bins = m,
fill = "blue")+
xlab("Tempo") + ylab("Densidade de frequência")
24
Figura 15: No gráfico à esquerda temos o histograma e no gráfico à direita temos
o diagrama de caixa (ou boxplot em inglês) para a variável tempo.
No histograma e no diagrama de caixa da figura 16, notamos uma simetria em
torno da média 100 minutos. Podemos calcular o coeficiente de Bowley para avaliar a
simetria da variável tempo conforme o código abaixo. O coeficiente de Bowley é 𝐵 =
0,10 e podemos interpretar que a variável é simétrica.
# Coeficiente de Bowley: tempo
quartis <- 1:3 %>% map_dbl(function(i) dados_maria$tempo %>%
quantile(probs = i/4 ))
(B <- (quartis[3] - 2 * quartis[2] + quartis[1]) /
(quartis[3] - quartis[1]))
## [1] 0.1033201
25
Figura 16: No gráfico da esquerda, mostramos o histograma para a variável
Nota. No gráfico da direita, mostramos o diagrama de caixa da variável Nota.
## [1] -0.2541353
26
Figura 17: Gráfico de dispersão entre as variáveis quantitativas tempo e Nota.
Você pode calcular uma medida inspirada no diagrama de dispersão chamada de
coeficiente de correlação linear de Pearson 𝑟. O valor do coeficiente de correlação de
Pearson é 𝑟 = 0,79 e temos uma alta associação positiva entre Nota e tempo. Podemos
usar a função cor para calcular o coeficiente de correlação linear de Pearson.
# coeficiente de correlação linear entre Nota e tempo
cor(dados_maria$tempo, dados_maria$Nota)
## [1] 0.7949051
27
7 Resumo
Neste capítulo, estudamos estatística descritiva. Começando com a observação de
que existe duas formas básicas de inferência: dedutiva e indutiva, e que estatística tem
foco na inferência indutiva. Aprendemos conceitos básicos de estatística como população,
amostra, parâmetro, estimativa e variável. Em seguida, mostramos como representar
graficamente (gráfico de barras e histograma) os valores observados de uma variável com
o objetivo de visualizar informações e padrões. Fomos além e aprendemos a encontrar
valores que representam todos os valores observados usando medidas resumo: medidas
de posição (média, moda e mediana), medidas de dispersão (variância, desvio padrão e
desvio médio) e quantis. O próximo passo foi estudar a associações entre duas variáveis
usando gráficos e medidas de associação como gráfico de dispersão, coeficiente de
correlação linear de Pearson e o coeficiente T de Tschuprow. Finalmente, na última seção
deste capítulo, ilustramos os conceitos e métodos apresentados com um exemplo no R.
8 Leituras Recomendadas
• Estatística Básica (BUSSAB; MORETTIN, 2014). Este livro é uma referência
bastante usada para cursos introdutórios de Estatística Descritiva e Inferencial. O
livro cobre os tópicos deste capítulo com mais detalhes, além de apresentar outros
tópicos de estatística, incluindo estatística inferencial, regressão linear e
probabilidade. Os autores mostram como estudar a associação entre uma variável
qualitativa e uma variável quantitativa. Além disso, os autores disponibilizam os
conjuntos de dados usados no livro no endereço eletrônico:
https://www.ime.usp.br/~pam/EstBas.html.
28
• Estatística Aplicada às Ciências Sociais (BARBETTA, 2008). Este livro é uma
referência bastante usada para cursos introdutórios de Estatística Descritiva e
Inferencial para ciências humanas. Existe um grande foco em aplicação e
interpretação.
• Understanding Robust and Exploratory Data Analysis (HOAGLIN;
MOSTELLIER; TUKEY, 2000). Este é um texto clássico para entender estatística
descritiva. Os autores apresentaram as medidas resumo e os métodos gráficos que
vimos nesse capítulo.
• R for Data Science (WICKHAM; GROLEMUND, 2016). Este livro apresenta
desde estatística descritiva até modelagem usando o R. O autor diz explicitamente
que está preocupado em difundir o uso de R para análise de dados. O livro tem
uma leitura fluída e existe a opção de você ler o livro gratuitamente no endereço
eletrônico: http://r4ds.had.co.nz/ .
9 Artigos Exemplos
• Reduced GUI for an interactive geometry software: Does it affect students'
performance? (BORGES et al., 2015). Este artigo foi publicado na revista
Computers in Human Behaviour e usa medidas resumo e diagrama de caixa.
• What do students do on-line? Modeling students' interactions to improve
their learning experience (PAIVA et al., 2016). Este artigo analisa a interação
de estudantes com um ambiente de aprendizado on-line (MeuTutor). Os autores
construíram histogramas e gráficos de barras.
10 Checklist
• Identificar o tipo de variável de cada coluna de sua base de dados: qualitativa
ordinal, qualitativa nominal, quantitativa discreta e quantitativa contínua.
• Construir gráfico de barras para variáveis qualitativas.
• Construir histogramas para variáveis quantitativas.
• Calcular quantis e construir o diagrama de caixa para as variáveis
quantitativas, e analisar a assimetria das variáveis quantitativas.
• Estude a associação entre duas variáveis qualitativas usando gráficos de
barras e coeficiente T de Tschuprow.
• Estude a associação entre duas variáveis quantitativas usando gráficos de
dispersão e coeficiente de correlação linear de Pearson.
29
Figura 19: Fluxograma para análise descritiva.
11 Exercícios
1) Um professor de estatística coletou as notas finais e a idade de turma com 15
alunos ao final do semestre corrente. Ele salvou as informações no arquivo
"notas_finais.xlsx".
a. Calcule a média, mediana, desvio médio e desvio para as variáveis
quantitativas "notas" e "idade";
b. Construa o histograma para as variáveis quantitativas "notas" e
"idade". Interprete os resultados.
c. Construa o gráfico de barras para as variáveis "genero" e
"localização", e calcule o coeficiente T de Tschuprow. Você acha que
estas variáveis estão associadas?
d. Construa o gráfico de dispersão entre "notas" e "idade", e calcule o
coeficiente de correlação linear entre "notas" e "idade". Você acha que
estas variáveis estão associadas?
30
3) Considere o conjunto de dados "Caschool" do pacote Ecdat do R. Esse conjunto
contém informações de 420 escolas na Califórnia, incluindo a nota média de testes
em leitura e matemática em 1999.
a. Calcule a média, mediana, desvio médio e desvio para as variáveis:
"computer" (número de computadores na escola), "readscr" (nota
média em leitura) e "mathscr" (nota média em matemática).
b. Construa o histograma para a variável "computer". Você acha que esta
variável é simétrica? Justifique a sua resposta.
c. Você acha que as "computer" e "mathscr" estão associadas? E as
variáveis "mathscr" e "readscr"? Justifique a sua resposta.
12 Referências
BARBETTA, Pedro A. Estatística aplicada às ciências sociais. Editora UFSC.
Florianópolis, 2008.
BORGES, Simone S. et al. Reduced GUI for an interactive geometry software:
Does it affect students' performance? Computers in Human Behavior, v. 54, p. 124-
133, 2016.
BUSSAB, Wilton O.; MORETTIN, Pedro A. Estatística Básica. Editora
Saraiva. São Paulo, 2005.
CASELLA, George; BERGER, Roger L. Statistical inference. Pacific Grove,
CA: Duxbury, 2002.
COSTNER, Herbert L. Criteria for measures of association. American
Sociological Review, p. 341-353, 1965.
KIM, Tae-Hwan; WHITE, Halbert. On more robust estimation of skewness and
kurtosis. Finance Research Letters, v. 1, n. 1, p. 56-73, 2004.
MOOD, Alexander McFarlane; GRAYBILL, Franklin A.; BOES, Duane
C. Introduction to the Theory of Statistics. McGraw-Hill Kogakusha, 1974.
PAIVA, Ranilson et al. What do students do on-line? Modeling students'
interactions to improve their learning experience. Computers in Human Behavior, v.
64, p. 769-781, 2016.
ROYSTON, Patrick. Which measures of skewness and kurtosis are
best? Statistics in Medicine, v. 11, n. 3, p. 333-343, 1992.
TAYLOR, Richard. Interpretation of the correlation coefficient: a basic
review. Journal of Diagnostic Medical Sonography, v. 6, n. 1, p. 35-39, 1990.
TUKEY, John Wilder; MOSTELLER, Frederick; HOAGLIN, David Caster
(Ed.). Understanding robust and exploratory data Analysis. Wiley, 1983.
WICKHAM, Hadley; GROLEMUND, Garrett. R for data science: import, tidy,
transform, visualize, and model data. O'Reilly Media, Inc., 2016.
31
Sobre o Autor
Gilberto Pereira Sassi
http://lattes.cnpq.br/7008457711842107
Doutor em Estatística e mestre em Ciência da Computação e
Matemática Computacional e graduado em Matemática pela
Universidade de São Paulo, Brasil. Atualmente, Gilberto é
Professor Adjunto na Universidade Federal da Bahia, e sua
pesquisa está focada em Análise de Dados Funcionais.
32