Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Correction TP

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 3

Corrigé du TP d'analyse de données avec Iris

import numpy as np # Pour les calculs numériques

import pandas as pd # Pour manipuler les données sous forme de tableaux

import matplotlib.pyplot as plt # Pour la visualisation graphique

from sklearn import datasets # Pour charger le dataset Iris

# Chargement du dataset Iris intégré dans sklearn

iris= datasets.load_iris()

# Création d'un DataFrame pandas à partir des données brutes

data = iris['data'] #Indexer la clé ‘data’ dans le dictionnaire ‘iris’

data = pd.DataFrame(data, columns=iris["feature_names"]) # Créer un dataframe avec les


données avec les noms des attributs pour noms de colonnes.

print(data.head()) # Aperçu des 5 premières lignes du DataFrame

# =====================================

# Partie 1 : Manipulation des données

# =====================================

# Extraction des colonnes concernant les pétales sous forme d'un tableau NumPy

petal_data = data[['petal length (cm)', 'petal width (cm)']].to_numpy()

# Calcul de la moyenne et de la variance de la longueur des pétales

mean_petal_length = np.mean(petal_data[:, 0]) # Moyenne de la longueur des pétales

variance_petal_length = np.var(petal_data[:, 0]) # Variance de la longueur des pétales

# Comptage des pétales dont la largeur dépasse 1 cm

petal_width_greater_than_1 = np.sum(petal_data[:, 1] > 1)

# Affichage des résultats


print(f"Longueur moyenne des pétales : {mean_petal_length}")

print(‘Variance de la longueur des pétales :’, variance_petal_length’)

print(‘Nombre de largeurs de pétales > 1 cm :’ , petal_width_greater_than_1’)

# =================================

# Partie 2 : Visualisation

# =================================

# 1. Histogramme des longueurs des pétales

plt.hist(data['petal length (cm)'], bins=20, color='blue', alpha=0.7)

plt.title("Distribution des longueurs des pétales")

plt.xlabel("Longueur des pétales (cm)")

plt.ylabel("Fréquence")

plt.show() # Affichage de l'histogramme

# 2. Scatter plot entre ‘sepal_length’ et ‘sepal_width’

plt.figure(figsize=(8, 6)) # Définir la taille du graphique

# Ajout des titres, labels et légendes

plt.title("Relation entre longueur et largeur des sépales")

plt.xlabel("Longueur des sépales (cm)")

plt.ylabel("Largeur des sépales (cm)")

plt.legend() # Ajout de la légende pour identifier les espèces

plt.show()

Questions générales

1. Qu’est-ce que la moyenne et pourquoi est-elle importante ?

o La moyenne représente la valeur centrale d’une caractéristique. Elle aide à


comprendre la tendance générale des données.

2. À quoi sert de calculer la variance d’une caractéristique ?

o La variance mesure la dispersion des données. Une variance élevée indique


une grande diversité dans les valeurs.

3. Pourquoi est-il utile d’utiliser un DataFrame Pandas ?


o Pandas offre des outils pratiques pour manipuler, analyser et afficher les
données de manière intuitive (par exemple, indexation par colonnes,
filtrage).

4. Que signifie np.sum(petal_data[:, 1] > 1) ?

o Cela compte le nombre de valeurs dans la 2ᵉ colonne (petal width) qui sont
supérieures à 1.

Vous aimerez peut-être aussi