4 Pandas Seaborn

Pandas & Seaborn
Dr. : Wassima AIT FARES

e-mail : aitfares.w@gmail.com
Année : 2022/2023
Ecole Supérieure de Management, de Télécommunications et d’Informatique
Introduction
Les deux principaux composants de pandas sont : la série et le
DataFrame.
• La série est essentiellement une colonne
• DataFrame est une table multidimensionnelle composée d'une
collection de séries.
• DataFrames et séries sont assez similaires dans la mesure où de
nombreuses opérations que vous pouvez effectuer avec l'une
peuvent être effectuées avec l'autre, telles que le remplissage de
valeurs nulles et le calcul de la moyenne.
• Une DataFrame est une structure de données bidimensionnelle,
c'est-à-dire que les données sont alignées de manière tabulaire en
lignes et en colonnes.
Dr. Wassima AIT FARES 2
Table de données
Structure de données en Pandas

Data Dimensions Description
Structure
Series 1 1D labeled homogeneous array with immutable size
General 2D labeled, size mutable tabular structure
Data Frames 2
with potentially heterogeneously typed columns.
Panel 3 General 3D labeled, size mutable array.
• Série est une structure de type tableau 1D avec des données

homogènes.
• DataFrame est un tableau 2D avec des données hétérogènes.
• Panel est une structure de données 3D Array avec des données
hétérogènes. Un Panel peut être illustré comme un conteneur
de DataFrame.
Structure de données en Pandas
columns
rows
Charger les données

Mise en place de l’environnement de travail
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
pd.read_csv(nom_du_fichier.csv)
pd.read_excel(nom_du_fichier.xls)
pd.read_json(nom_du_fichier.json)
pd.read_html()
pd.read.sql()

Lire depuis un CSV file
Lire depuis un CSV file

• Avec les fichiers CSV, vous n'avez besoin que d'une seule ligne pour
charger les données :
df = pd.read_csv('dataset.csv')
• Les CSV n'ont pas d'index comme les DataFrames, donc tout ce que nous
avons à faire est de désigner le index_col lors de la lecture :
df = pd.read_csv('dataset.csv', index_col=0)
Permet de définir les colonnes à utiliser comme

index de la DataFrame.
La valeur par défaut est None, et pandas

ajoutera une nouvelle colonne commençant à 0
pour spécifier la colonne d'index.

Lire depuis un JSON file
• Si vous avez un fichier JSON qui est essentiellement un dictionnaire Python
stocké, pandas peut le lire tout aussi facilement :
df = pd.read_json('dataset.json')
Lire depuis un JSON file

Quelques commandes de base
data.shape Indique la taille du Dataframe (comme dans numpy)
data.columns Donne les différentes colonne du Dataframe
Affiche les premières ligne du DataFrame

data.head()
data.describe() Affiche les statistiques de base du DataFrame

(Moyenne écart type, min, max….)
Supprimer des colonnes

data.drop([‘colonne’,’colonne’, …])
data.dropna(axis=0) Supprimer les lignes qui contiennent des

valeurs manquantes
data.[‘colonne’].value_counts() Compter les répétitions
data.groupby([‘colonne’]) Analyse par groupe

Panda utilise Matplotlib.pyplot :
df.plot()
df.plot.bar()
df.hist(bins=…)
df.scatter(x=…,y=…)

df.groupby() Fonction qui permet d’analyser les
données par groupe
Exemple :
Déterminer le nombre des féminins et des masculins
data.groupby([‘Sex’]).count()
data.groupby([‘Sex']).mean()

La fonction map permet d’appliquer une fonction sur chaque
élément d’une colonne:
Data[‘column’].map(fonction)
On commence d’abord par définir notre

fonction « conso »
Ensuite il suffit d’appliquer la fonction sur la

colonne à l’aide de map
data[‘Age’]=data[‘Age'].map(conso)
Seaborn
Seaborn offre la possibilité d’effectuer une visualisation poussée des
données avec une seul ligne de codes
import numpy as np
Mise en place de import matplotlib.pyplot as plt
l’environnement de travail import pandas as pd
import seaborn as sns
Les fonctions Seaborn ont presque toutes la même structure :
sns.fonction(x,y,data,hue,style, height)
Données à Option de
afficher ségmentation

Seaborn : Multi-plot grids (pairplot)
pairplot permet de tracer les relations par paires dans un dataset.
iris = sns.load_dataset('iris')
sns.pairplot(iris, hue='species', height=2.5)
les couleurs générées par hue
Seaborn : Distribution plots (displot)

displot permet de tracer la distribution d’une variables
sns.distplot(iris['petal_length'])

Seaborn : Multi-plot grids (joinplot)
joinplot permet de tracer graphique de deux variables.
sns.jointplot("petal_length", "petal_width", iris, kind='reg')
Seaborn : Categorical plots (catplot)

Permet de tracer deux variables en fonction de leur catégories (nuage de
point)
titanic = sns.load_dataset('titanic')
sns.catplot(x='survived', y='age', data=titanic, hue='sex')

Seaborn : Matrix plots(heatmap))
Les heatmap donne la corrélation entre les données d’un dataset
sns.heatmap(iris.corr())

4 Pandas Seaborn

Transféré par

Droits d'auteur :

Formats disponibles

4 Pandas Seaborn

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

4 Pandas Seaborn

Transféré par

Droits d'auteur :

Formats disponibles

Pandas & Seaborn

Dr. : Wassima AIT FARES

Ecole Supérieure de Management, de Télécommunications et d’Informatique

Dr. Wassima AIT FARES 3

Structure de données en Pandas

• Série est une structure de type tableau 1D avec des données

Dr. Wassima AIT FARES 5

Charger les données

Dr. Wassima AIT FARES 6

Dr. Wassima AIT FARES 7

Lire depuis un CSV file

Permet de définir les colonnes à utiliser comme

La valeur par défaut est None, et pandas

Dr. Wassima AIT FARES 8

Dr. Wassima AIT FARES 9

Lire depuis un JSON file

Dr. Wassima AIT FARES 10

data.shape Indique la taille du Dataframe (comme dans numpy)

data.columns Donne les différentes colonne du Dataframe

Affiche les premières ligne du DataFrame

data.describe() Affiche les statistiques de base du DataFrame

Dr. Wassima AIT FARES 11

Quelques commandes de base

Supprimer des colonnes

data.dropna(axis=0) Supprimer les lignes qui contiennent des

data.[‘colonne’].value_counts() Compter les répétitions

data.groupby([‘colonne’]) Analyse par groupe

Dr. Wassima AIT FARES 12

Dr. Wassima AIT FARES 13

Quelques commandes de base

Dr. Wassima AIT FARES 14

On commence d’abord par définir notre

Ensuite il suffit d’appliquer la fonction sur la

Dr. Wassima AIT FARES 15

Les fonctions Seaborn ont presque toutes la même structure :

Dr. Wassima AIT FARES 16

les couleurs générées par hue

Dr. Wassima AIT FARES 17

Seaborn : Distribution plots (displot)

Dr. Wassima AIT FARES 18

sns.jointplot("petal_length", "petal_width", iris, kind='reg')

Dr. Wassima AIT FARES 19

Seaborn : Categorical plots (catplot)

Dr. Wassima AIT FARES 20

Les heatmap donne la corrélation entre les données d’un dataset

Dr. Wassima AIT FARES 21

Vous aimerez peut-être aussi