Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
100% acharam este documento útil (1 voto)
1K visualizações4 páginas

Comandos Pandas

Fazer download em docx, pdf ou txt
Fazer download em docx, pdf ou txt
Fazer download em docx, pdf ou txt
Você está na página 1/ 4

28 comandos úteis de Pandas que talvez você não conheça

Paulo Vasconcellos

Conheça as melhores funções para te ajudar a usar a biblioteca Pandas do


Python.

Pandas é a minha biblioteca favorita do Python. Seja para Data Visualization ou


para Data Analysis, a praticidade e funcionalidade que essa ferramenta oferece
não é encontrada em nenhum outro módulo. Quando comecei a usá-lo, não tinha
conhecimento das variadas funções que Pandas oferece para resolver diversas
tarefas, o que me fazia criar uma série de loop for e while para resolver o
problema. Hoje, mais maduro no uso do “Pandão”, decidi trazer uma lista dos
meus comandos favoritos. Confira:

O DataCamp também reuniu uma série de comandos em um prático PDF. Clique


aqui para conferir (Inglês).

Importando o Pandas por convenção

Aqui vai uma informação que talvez você já conheça: sempre que importar o
Pandas, utilize a regra de convenção. Isso faz com que pessoas que lerem seu
código no futuro — incluindo você mesmo — possa identificar a biblioteca mais
facilmente. Por regra, Pandas deve ser importado sob o nome de pd, assim:

import pandas as pd

Series e DataFrame

Posso estar sendo meio óbvio falando sobre Series e DataFrame para alguém que
já está acostumado a usar o Pandão, mas quero deixar claro para aqueles que
estão começando a principal diferença entre esses dois tipos de Estrutura de
Dados.

 Series nada mais é que um array de 1 dimensão. Você pode considerar


um Series também como uma coluna de uma tabela. Exemplo:
>>> s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])
Saída do código acima: um array de valores indexados

 Um DataFrame é simplesmente um conjunto de Series. Trata-se de


uma estrutura de dados de 2 dimensões — colunas e linhas — que
transforma os dados em uma bela tabela. Exemplo:

#Criando um dicionário onde cada chave será uma coluna do DataFrame


>>> data = {
'País': ['Bélgica', 'Índia', 'Brasil'],
'Capital': ['Bruxelas', 'Nova Delhi', 'Brasília'],
'População': [123465, 456789, 987654]
}
#Criando o DataFrame

>>> df = pd.DataFrame(data, columns=['País','Capital','População'])

Saída do código: um lindo DataFrame

Agora sim! Confira os melhores comandos para utilizar no


Pandas
Sugiro a você salvar esse artigo em seus favoritos para futuras consultas. Para
deixar sua leitura mais agradável, prepare-se para enxurrada de GIFs!

 Abrindo e escrevendo arquivos CSV:


#Para ler arquivos CSV codificados em ISO
>>> pd.read_csv('nome_do_arquivo.csv', encoding='ISO-8859-1')
#Para escrever arquivos CSV
>>> pd.to_csv('nome_do_arquivo_para_salvar.csv')

 Abrindo arquivos de Excel:


>>> xlsx = pd.ExcelFile('seu_arquivo_excel.xlsx')
>>> df = pd.read_excel(xlsx, 'Planilha 1')
 Removendo linhas e colunas:
#Removendo linhas pelo index
s.drop([0, 1])
#Removendo colunas utilizando o argumento axis=1
df.drop('País', axis=1)

 Coletando informações básicas sobre o


DataFrame:
#Quantidade de linhas e colunas do DataFrame
>>> df.shape
#Descrição do Index
>>> df.index
#Colunas presentes no DataFrame
>>> df.columns
#Contagem de dados não-nulos
>>> df.count()

 Criando uma nova coluna em um DataFrame:


>>> df['Nova Coluna'] = 0

 Renomeando colunas de um DataFrame:


#Se seu DataFrame possui 3 colunas, passe 3 novos valores em
uma lista
df.columns = ['Coluna 1', 'Coluna 2', 'Coluna 3']

 Resumo dos dados:


#Soma dos valores de um DataFrame
>>> df.sum()
#Menor valor de um DataFrame
>>> df.min()
#Maior valor
>>> df.max()
#Index do menor valor
>>> df.idmin()
#Index do maior valor
>>> df.idmax()
#Resumo estatístico do DataFrame, com quartis, mediana, etc.
>>> df.describe()
#Média dos valores
>>> df.mean()
#Mediana dos valores
>>> df.median()

 Aplicando funções:
#Aplicando uma função que substitui a por b
df.apply(lambda x: x.replace('a', 'b'))
 Ordenando valores:
#Ordenando em ordem crescente
df.sort_values()
#Ordenando em ordem decrescente
df.sort_values(ascending=False)

 Operações aritméticas em Series:


>>> s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
#Somando todos os valores presentes na Series por 2
>>> s.add(2)
#Subtraindo 2 de todos os valores
>>> s.sub(2)
#Multiplicando todos os valores por 2
>>> s.mul(2)
#Dividindo valores por 2
>>> s.div(2)

 Indexação por Boolean:


#Filtrando o DataFrame para mostrar apenas valores pares
df[df['População'] % 2 == 0]

Você também pode gostar