Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Colle TP

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 5

TP -ACP (Decathlon)

Ce TP est articulé autour du jeu de données : les performances des athlètes de


décathlon (JO 2004/ Décastar 2004).
On va travailler sur le jeu de données Decathlon du package FactoMineR. Le but est de
réaliser un ACP à partir de performances d’athlètes et d’en dégager des informations (e.g.,
corrélations).

On charge les données :

Le tableau de données contient 41 lignes et 13 colonnes. Les colonnes 1 à 12 sont des


variables continues : les dix premières colonnes correspondent aux performances des athlètes
pour les dix épreuves du décathlon et les colonnes 11 et 12 correspondent respectivement au
rang et au nombre de points obtenus. La dernière colonne est une variable qualitative
correspondant au nom de la compétition (Jeux Olympiques de 2004 ou Décastar 2004).

Standardisation : l’ACP fonctionne sur un tableau de variables quantitatives. Il est


d’usage de centrer-normer chacune de ces variables avant de réaliser un ACP. Pourquoi
?

L’objectif est de rendre les variables comparables. Généralement, les variables sont
normalisées de manière à ce qu’elles aient au final un écart type égal à un et une moyenne
égale à zéro.
Techniquement, l’approche consiste à transformer les données en soustrayant à chaque
valeur une valeur de référence (la moyenne de la variable) et en la divisant par l’écart type. A
l’issue de cette transformation les données obtenues sont dites données centrées-réduites.
L’ACP appliquée à ces données transformées est appelée ACP normée.
La standardisation des données est une approche beaucoup utilisée dans le contexte de
l’analyse des données d’expression de gènes avant les analyses de type PCA et de clustering.

On réalise l’ACP pour les 10 premières colonnes du jeu de données qui correspondent
aux performances des athlètes pour les dix épreuves du décathlon.

On représente les valeurs propres en utilisant des diagrammes de bâton :

Le graphique des valeurs propres peut être généré à l’aide de la fonction fviz_eig ()


ou fviz_screeplot () :

Combien d’axe doit-on conserver ? justifier.


Les valeurs propres peuvent être utilisées pour déterminer le nombre d’axes principaux à
conserver après l’ACP. Pratiquement, on a tendance à regarder les premiers axes principaux
afin de trouver des profils intéressants dans les données.

Les quatre premières composantes principales expliquent 74,7% de la variation. C’est un


pourcentage acceptable.

On représente graphiquement les individus dans le plan des axes factoriels 1 et 3 :

On utilise le package factoextra pour rendre les sorties de FactoMineR plus agréable et
adaptables.
Interprétation :
Déterminer quelle est la contribution de chaque variable sur chaque composante ou leur
corrélation. Quelle est la part d’inertie associée aux deux premiers axes factoriels.
Conclusion :
L'ACP nous a permis de :

 Représenter les données en deux dimensions ;


 Etablir des profils des athlètes ;
 Mettre à jour des corrélations entre des variables.

Vous aimerez peut-être aussi