Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

4 Pandas Seaborn

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 11

Pandas & Seaborn

Dr. : Wassima AIT FARES


e-mail : aitfares.w@gmail.com
Année : 2022/2023

Ecole Supérieure de Management, de Télécommunications et d’Informatique

Introduction
Les deux principaux composants de pandas sont : la série et le
DataFrame.
• La série est essentiellement une colonne
• DataFrame est une table multidimensionnelle composée d'une
collection de séries.
• DataFrames et séries sont assez similaires dans la mesure où de
nombreuses opérations que vous pouvez effectuer avec l'une
peuvent être effectuées avec l'autre, telles que le remplissage de
valeurs nulles et le calcul de la moyenne.
• Une DataFrame est une structure de données bidimensionnelle,
c'est-à-dire que les données sont alignées de manière tabulaire en
lignes et en colonnes.
Dr. Wassima AIT FARES 2
Table de données

Dr. Wassima AIT FARES 3

Structure de données en Pandas


Data Dimensions Description
Structure
Series 1 1D labeled homogeneous array with immutable size
General 2D labeled, size mutable tabular structure
Data Frames 2
with potentially heterogeneously typed columns.
Panel 3 General 3D labeled, size mutable array.

• Série est une structure de type tableau 1D avec des données


homogènes.
• DataFrame est un tableau 2D avec des données hétérogènes.
• Panel est une structure de données 3D Array avec des données
hétérogènes. Un Panel peut être illustré comme un conteneur
de DataFrame.
Dr. Wassima AIT FARES 4
Structure de données en Pandas

columns

rows

Dr. Wassima AIT FARES 5

Charger les données


Mise en place de l’environnement de travail

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

pd.read_csv(nom_du_fichier.csv)

pd.read_excel(nom_du_fichier.xls)

pd.read_json(nom_du_fichier.json)

pd.read_html()

pd.read.sql()

Dr. Wassima AIT FARES 6


Lire depuis un CSV file

Dr. Wassima AIT FARES 7

Lire depuis un CSV file


• Avec les fichiers CSV, vous n'avez besoin que d'une seule ligne pour
charger les données :
df = pd.read_csv('dataset.csv')

• Les CSV n'ont pas d'index comme les DataFrames, donc tout ce que nous
avons à faire est de désigner le index_col lors de la lecture :

df = pd.read_csv('dataset.csv', index_col=0)

Permet de définir les colonnes à utiliser comme


index de la DataFrame.

La valeur par défaut est None, et pandas


ajoutera une nouvelle colonne commençant à 0
pour spécifier la colonne d'index.

Dr. Wassima AIT FARES 8


Lire depuis un JSON file
• Si vous avez un fichier JSON qui est essentiellement un dictionnaire Python
stocké, pandas peut le lire tout aussi facilement :

df = pd.read_json('dataset.json')

Dr. Wassima AIT FARES 9

Lire depuis un JSON file

Dr. Wassima AIT FARES 10


Quelques commandes de base

data.shape Indique la taille du Dataframe (comme dans numpy)

data.columns Donne les différentes colonne du Dataframe

Affiche les premières ligne du DataFrame


data.head()

data.describe() Affiche les statistiques de base du DataFrame


(Moyenne écart type, min, max….)

Dr. Wassima AIT FARES 11

Quelques commandes de base

Supprimer des colonnes


data.drop([‘colonne’,’colonne’, …])

data.dropna(axis=0) Supprimer les lignes qui contiennent des


valeurs manquantes

data.[‘colonne’].value_counts() Compter les répétitions

data.groupby([‘colonne’]) Analyse par groupe

Dr. Wassima AIT FARES 12


Quelques commandes de base
Panda utilise Matplotlib.pyplot :

df.plot()
df.plot.bar()
df.hist(bins=…)
df.scatter(x=…,y=…)

Dr. Wassima AIT FARES 13

Quelques commandes de base


df.groupby() Fonction qui permet d’analyser les
données par groupe

Exemple :
Déterminer le nombre des féminins et des masculins

data.groupby([‘Sex’]).count()

data.groupby([‘Sex']).mean()

Dr. Wassima AIT FARES 14


Quelques commandes de base
La fonction map permet d’appliquer une fonction sur chaque
élément d’une colonne:

Data[‘column’].map(fonction)

On commence d’abord par définir notre


fonction « conso »

Ensuite il suffit d’appliquer la fonction sur la


colonne à l’aide de map

data[‘Age’]=data[‘Age'].map(conso)

Dr. Wassima AIT FARES 15

Seaborn
Seaborn offre la possibilité d’effectuer une visualisation poussée des
données avec une seul ligne de codes

import numpy as np
Mise en place de import matplotlib.pyplot as plt
l’environnement de travail import pandas as pd
import seaborn as sns

Les fonctions Seaborn ont presque toutes la même structure :

sns.fonction(x,y,data,hue,style, height)

Données à Option de
afficher ségmentation

Dr. Wassima AIT FARES 16


Seaborn : Multi-plot grids (pairplot)
pairplot permet de tracer les relations par paires dans un dataset.
iris = sns.load_dataset('iris')
sns.pairplot(iris, hue='species', height=2.5)

les couleurs générées par hue

Dr. Wassima AIT FARES 17

Seaborn : Distribution plots (displot)


displot permet de tracer la distribution d’une variables

sns.distplot(iris['petal_length'])

Dr. Wassima AIT FARES 18


Seaborn : Multi-plot grids (joinplot)
joinplot permet de tracer graphique de deux variables.

sns.jointplot("petal_length", "petal_width", iris, kind='reg')

Dr. Wassima AIT FARES 19

Seaborn : Categorical plots (catplot)


Permet de tracer deux variables en fonction de leur catégories (nuage de
point)
titanic = sns.load_dataset('titanic')
sns.catplot(x='survived', y='age', data=titanic, hue='sex')

Dr. Wassima AIT FARES 20


Seaborn : Matrix plots(heatmap))

Les heatmap donne la corrélation entre les données d’un dataset

sns.heatmap(iris.corr())

Dr. Wassima AIT FARES 21

Vous aimerez peut-être aussi