4 Pandas Seaborn
4 Pandas Seaborn
4 Pandas Seaborn
Introduction
Les deux principaux composants de pandas sont : la série et le
DataFrame.
• La série est essentiellement une colonne
• DataFrame est une table multidimensionnelle composée d'une
collection de séries.
• DataFrames et séries sont assez similaires dans la mesure où de
nombreuses opérations que vous pouvez effectuer avec l'une
peuvent être effectuées avec l'autre, telles que le remplissage de
valeurs nulles et le calcul de la moyenne.
• Une DataFrame est une structure de données bidimensionnelle,
c'est-à-dire que les données sont alignées de manière tabulaire en
lignes et en colonnes.
Dr. Wassima AIT FARES 2
Table de données
columns
rows
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
pd.read_csv(nom_du_fichier.csv)
pd.read_excel(nom_du_fichier.xls)
pd.read_json(nom_du_fichier.json)
pd.read_html()
pd.read.sql()
• Les CSV n'ont pas d'index comme les DataFrames, donc tout ce que nous
avons à faire est de désigner le index_col lors de la lecture :
df = pd.read_csv('dataset.csv', index_col=0)
df = pd.read_json('dataset.json')
df.plot()
df.plot.bar()
df.hist(bins=…)
df.scatter(x=…,y=…)
Exemple :
Déterminer le nombre des féminins et des masculins
data.groupby([‘Sex’]).count()
data.groupby([‘Sex']).mean()
Data[‘column’].map(fonction)
data[‘Age’]=data[‘Age'].map(conso)
Seaborn
Seaborn offre la possibilité d’effectuer une visualisation poussée des
données avec une seul ligne de codes
import numpy as np
Mise en place de import matplotlib.pyplot as plt
l’environnement de travail import pandas as pd
import seaborn as sns
sns.fonction(x,y,data,hue,style, height)
Données à Option de
afficher ségmentation
sns.distplot(iris['petal_length'])
sns.heatmap(iris.corr())