Apostila - Módulo 2 - PYT
Apostila - Módulo 2 - PYT
Apostila - Módulo 2 - PYT
Referências ......................................................................................................................... 30
2
1
Capítulo 1. Introdução à análise de dados
A análise de dados pode ser definida como processo de coleta,
tratamento, análise e apresentação de dados, de forma a trazer novas
informações e agregar valor ao processo de tomada de decisão de qualquer
negócio (ver figura 1).
4
é uma ferramenta poderosíssima que vem ganhando cada vez mais
popularidade entre a comunidade científica e os desenvolvedores. A Figura
2 mostra o resultado expressivo da pesquisa conduzida pelo StackOverflow,
que mostra o Python figurando entre as 5 linguagens de programação mais
populares, desbancando o Java.
1. NumPy;
2. Pandas;
3. Scikit-learn.
5
2
Capítulo 2. Pandas e numpy para análise de dados
Numpy para análise de dados
O numpy é uma das principais bibliotecas para computação
científica em Python. Ela disponibiliza um objeto de array multidimensional
de alta performance e diversas ferramentas para se trabalhar com esses
objetos.
Fonte: https://numpy.org/install/
• Arrays
7
representada através de uma tupla de inteiros, que indicam o tamanho da
array em cada dimensão. A Figura a seguir ilustra alguns exemplos de arrays.
Fonte: https://fgnt.github.io/python_crashkurs_doc/include/numpy.html
8
– np.ones(tuple): semelhante à função acima, porém cria uma
array com todos os valores iguais a 1.
9
• Indexação de arrays
10
Para a criação de um sub-array que não compartilha memória com o
array original, faz-se necessária a utilização do método copy() durante a
indexação (slicing):
• Funções aritméticas
– Soma:
11
– Subtração:
– Multiplicação:
12
– Divisão:
– Outras operações:
13
• Comparações
– Maior/Maior ou igual:
– Menor/Menor ou igual:
14
– Igualdade:
– Indexação booleana:
15
Figura 5 − Exemplo de um DataFrame
Fonte: https://www.geeksforgeeks.org/python-Pandas-dataframe/
Fonte: http://www.datasciencemadesimple.com/create-series-in-python-
Pandas/
16
Algumas das tarefas que o Pandas faz com eficiência são:
• Entre outros.
17
Entre os tipos de dados suportados e como eles se relacionam com os
formatos nativos do Python, têm-se:
18
Esse DataFrame possui 3 colunas dos seguintes tipos:
19
– Estatísticas básicas:
20
– Ordenação por coluna:
– Indexação booleana:
21
– Visualização: além de ser escrito em cima do numpy, o
Pandas também herda os métodos de visualização do
matplotlib, uma biblioteca de visualização de dados muito
versátil e utilizada. Alguns plots podem ser feitos com
apenas uma linha de código no Pandas:
22
3
Capítulo 3. Introdução ao scikit-learn
O scikit-learn é um dos mais utilizados frameworks de aprendizado
de máquinas em Python. Ele possui interfaces para a execução de diversas
atividades inerentes às atividades de um cientista de dados:
24
Baseado nesse conjunto de seis exemplos de pares (temperatura,
classification), treinaremos um modelo para nos dizer qual será a
classificação de uma temperatura que não está presente nessa tabela.
Exemplo: para a temperatura de 9ºC, qual classificação o modelo irá
retornar? Esperamos que seja frio…
25
Após o pré-processamento, partiremos para o treinamento do
modelo. (Existem outras etapas em um fluxo normal de machine learning.
Aqui, para fins de exemplificação, não as realizaremos):
26
De posse dos resultados, vamos visualizar as classificações inferidas
pelo modelo através de um plot de caixa (boxplot, em inglês), que nos mostra
a distribuição dos valores de cada uma das classes para o novo conjunto de
valores de temperatura gerados. Observe que o comportamento está como
o esperado e que o modelo conseguiu aprender corretamente partindo de
uma base de dados bem pequena.
27
4
Capítulo 4. Conclusão
Esse módulo dedicou-se à introdução de conceitos fundamentais da
análise de dados e apresentou 2 das bibliotecas mais utilizadas no cotidiano
de um profissional de dados: Pandas e numpy. Além disso, foi apresentada
de forma simplificada a ideia de geral de um problema de aprendizado de
máquinas, através da resolução de um problema de classificação com a
biblioteca scikit-learn.
29
Referências
JAMES, G. et al. An introduction to statistical learning. New York: Springer,
2013.
30