Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Multi Labels

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 23

DATA MINING

CLASSIFICATION
MULTI-LABELS

• FOKA NZAHA Stephen


• TUETE FOTSO Marius 1
PLAN

INTRODUCTION

TYPES DE CLASSIFICATIONS

LES DEFIS DE LA CLASSIFICATION MULTI-LABELS

CARACTERISTIQUES DES JEUX DE DONNEES MULTI-LABELS

METHODES DE RESOLUTION DANS LA CLASSIFICATION MULTI-LABELS

MESURES DE PERFORMANCE D’UN CLASSIFICATEUR MULTI-LABELS

CONCLUSION
2
INTRODUCTION
L'apprentissage multi-label concerne l'apprentissage à partir
d'exemples, où chaque exemple est associé à plusieurs étiquettes.
Ces étiquettes multiples appartiennent à un ensemble prédéfini
d'étiquettes.

Selon l'objectif, nous distinguons deux types de tâches: la


classification multi-label et le classement multi-label.

Le résultat d’un classificateur multi-labels peut être:


• sous la forme d’une bipartition (labels pertinents et labels
non pertinents);
• sous la forme d’un classement en mettant le label le plus
pertinent en premier et en dernier le moins pertinent.
3
DEFINITIONS

La classification dans le domaine de l’apprentissage automatique est une


tâche prédictive qui permet d’apprendre sur des observations labellisées
(c’est-à-dire « étiquetées ») afin de prédire les labels des nouvelles
observations.

La classification multi-labels fait correspondre une entrée X (x1, x2, ..., xf) à un
vecteur binaire Y (y1,y2, …, yN) en associant une valeur entre 0 et 1 à chaque
élément(label) de ce vecteur.

4
1. Types de classifications
Types de classifications
- La classification binaire : un seul label à prédire et ce dernier
ne peut avoir que deux valeurs binaires (par exemple 0 ou 1, oui ou
non, ...etc.) ;

- La classification multi-classes : un seul label à prédire, mais


le label a plusieurs valeurs possibles (par exemple rouge, noire,
bleu, ...etc.) ;

- La classification multi-labels : plusieurs labels à prédire et


chaque label n’a que deux valeurs possibles ;

- La classification multi-dimensionnelle : plusieurs labels à


prédire, mais au moins un des labels a plusieurs valeurs
possibles ;

- La classification multi-instances : plusieurs instances ou


observations peuvent être associées à un label.
6
Types de classification

7
Types de classifications

8
2. Les défis de la classification
multi-labels
Défis de la classification multi-labels

▫ CORRÉLATION ENTRE LES LABELS

▫ la plupart des algorithmes proposés dans la littérature


pour résoudre la classification multi-labels se basent sur
des processus de simplification comme la
transformation binaire et ne prennent donc pas en
compte la corrélation souvent présente entre les labels
au niveau du jeu de données, alors que cette information
est susceptible d’aider à obtenir un meilleur modèle.

10
▫ LES GRANDES DIMENSIONS
le fléau de la dimension est un obstacle majeur dans l’apprentissage
automatique, car il augmente considérablement le temps
d’apprentissage tout comme il diminue les performances des modèles.
Il est encore plus présent dans la classification multi-labels car non
seulement il y a les variables indépendantes mais il y a aussi les labels
qui sont touchés par ce fléau. De plus, les algorithmes supervisés
utilisés dans la classification traditionnelle ne peuvent pas être
directement utilisés pour diminuer les variables indépendantes car ils
ne prennent en compte qu’un seul label. De plus, il faut penser à de
nouveaux algorithmes pour diminuer le nombre de labels, car on ne
peut pas éliminer des labels comme on le fait avec les attributs.

11
Défis de la classification multi-labels
▫ LE DÉFI DE DÉSÉQUILIBRE DES LABELS
le déséquilibre au niveau des labels est un problème majeur dans la classification de
manière générale car la plupart des algorithmes de classification ne gèrent pas bien les classes
minoritaires. C’est un problème qui est donc présent dans la classification traditionnelle.
Plusieurs algorithmes ont été proposés afin de résoudre ce problème, sauf que dans la
classification multi-labels, ces algorithmes ne peuvent pas être utilisés, car ces derniers ne
prennent pas en compte le fait qu’il peut exister plusieurs labels en sortie. Dans la classification
multi-labels une combinaison de labels peut être rare, tout comme un label rare peut être
associé à des labels plus fréquents. De plus, certaines approches comme la transformation
binaire augmentent le niveau de déséquilibre dans le jeu de données obtenu après
transformation. Dans la classification multi-labels plusieurs algorithmes ont été proposés pour
faire face à ce problème :
- Echantillonnage ;
- Adaptation des algorithmes de classification ;
- Apprentissage sensible au coût : une combinaison des deux méthodes ci-dessus. 12
3. Caractéristiques des jeux de
données multi-labels
CARACTÉRISTIQUES DES JEUX DE DONNÉES MULTI-LABELS

Plusieurs métriques ont été proposées dans la littérature pour définir ces caractéristiques :

MÉTRIQUES DE BASE

- Cardinalité des labels : cette mesure permet de connaître à quel point le jeu de données
est multi-labellisé, c’est-à-dire combien de labels il y a par instance en moyenne ;
- Densité des labels : normalise la cardinalité en la pénalisant par le nombre de labels ; en
effet la cardinalité est influencée par le nombre de labels dans le jeu de données.

MÉTRIQUES DE DÉSÉQUILIBRE

- IRLbl(l) : mesure le niveau de déséquilibre pour chaque label. Ceci permet de savoir à quel
point un label est présent dans le jeu de données ;
- MeanIR : permet de connaître le niveau de déséquilibre de manière globale ;
- CVIR : permet de connaître ce qui a causé une valeur importante de la moyenne ci-dessus
(MeanIR) ; une valeur proche de 0 permet d’affirmer que le déséquilibre est présent sur
plusieurs labels et une valeur proche de 1 indique que le déséquilibre est surtout accentué
sur une minorité de labels. 14
CARACTÉRISTIQUES DES JEUX DE DONNÉES MULTI-LABELS

AUTRES MÉTRIQUES

- SCUMBLE : mesure la concurrence entre les labels fréquents et les labels


rares. Une valeur importante indique qu’il sera difficile d’obtenir un bon
modèle avec le jeu de données ;

- TCS : mesure la complexité théorique du jeu de données. Une valeur


importante indique un temps d’apprentissage long et un modèle complexe.

15
4. Quelques méthodes de résolution en
classification multi-labels
Méthodes de résolution en classification multi-labels

Pour résoudre le problème de la classification multi-labels, trois approches sont possibles :

- Approche par transformation : le problème est transformé en une classification binaire ou


multi-classes en créant un nouveau jeu de données à partir du jeu de données d’origine afin
que les algorithmes traditionnels puissent être utilisés pour obtenir un modèle ;

- Approche par adaptation : les algorithmes traditionnels sont modifiés et adaptés afin de
pouvoir travailler avec des jeux de données multi-labels et donner en sortie plusieurs labels
au lieu d’un seul ;

- Approche ensembliste : cette approche est une suite logique de la première et consiste à
utiliser un ensemble de classificateurs afin de résoudre le problème de classification.
Binary Relevance (Pertinence binaire)
La stratégie la plus simple pour la transformation des problèmes consiste à utiliser la
stratégie un contre tous

Principe Convertir le problème multi-label en plusieurs problèmes de


classement binaires.
Elle transforme le problème d’apprentissage multi-label en Q
problèmes de classification ou de régression mono-label.

Avantage Faible complexité en apprentissage (relative à un classifieur de base)


qui lui permet de passer facilement à l’échelle et d’être donc un très
bon candidat pour des problèmes d’apprentissage multi-label à
partir de données de grande dimension.

Inconvénients Ignore l’existence de corrélations potentielles entre les labels.


De plus, les classifieurs binaires peuvent souffrir du déséquilibre
entre les classes (1 et 0) si lenombre de labels est grand et la
densité des labels est faible. 18
Classifier chain
▫ Amélioration de la méthode BR

Principe transforme également le problème d’apprentissage multi-label en Q


problèmes de classification ou de régression mono-label.
Les classifieurs sont entraînés dans un ordre aléatoire défini avant la
phase d’apprentissage tel que chaque classifieur binaire apprenant
un label y j ajoute tous les labels associés aux classifieurs qui le
précédent dans la chaîne dans son espace d’attributs.
Comme BR, pour un nouvel exemple, CC retourne l’ensemble des
prédictions générées par l’ensemble des classifieurs.

Avantages Son avantage est sa vitesse d’apprentissage du modèle et sa


modélisation des corrélations entre les labels mais sa définition
aléatoire de l’ordre d’apprentissage des modèles reste une
faiblesse.

Inconvénients définition aléatoire de l’ordre d’apprentissage des modèles


19
Label Powerset (combinaison des etiquettes)
Transforme le problème d’apprentissage multi-label en un seul
problème d’apprentissage mono-label à plusieurs classes.
LP considère chaque combinaison de labels présente dans l’ensemble
d’apprentissage comme une classe et apprend ensuite un classifieur
Principe multi-classes h.
Pour un nouvel exemple, le classifieur retourne la classe (i.e.
combinaison de labels) la plus probable.

Avantages faible complexité de calcul du modèle mais aussi son exploitation


naturelle des corrélations entre labels.

Inconvénients ne permet pas de bien généraliser : elle ne permet pas de prédire de


nouvelles classes (combinaisons de labels) qui n’existent pas dans
l’ensemble d’apprentissage.

quelques classes peuvent être difficiles à apprendre si le nombre de


labels est important et le nombre d’exemples est faible.
20
Mesure de performance d’un classificateur
multi-labels
Métriques basées sur le temps : elles regroupent les temps d’apprentissage et de test ;

- Métriques basées sur les observations : elles sont calculées séparément pour chaque observation. Leurs
valeurs sont obtenues en calculant la moyenne.
- Hamming Loss : la différence symétrique entre les labels faussement prédits et les labels réels ;
- Accuracy: la proportion entre les labels correctement prédits et les labels actifs (union des labels prédits
et réels) ;
- Precision: la proportion entre les labels correctement prédits et les labels prédits ;
- Recall : la proportion entre les labels correctement prédits et les labels réels ;
- F1 : la moyenne harmonique des deux dernières métriques (rappel et précision) ;
- Exact Match : mesure la plus stricte, elle donne la proportion entre les observations correctement
prédites (tous les labels ont été bien prédit) et le total des observations.

21
Mesure de performance d’un classificateur
- Métriques basées sur les labels : elles sont calculées indépendamment pour chaque label. Pour
calculer la moyenne, deux approches sont possibles :
- Moyenne Macro : les métriques sont calculées individuellement pour chaque label et la
moyenne est obtenue en les divisant sur le nombre de labels ;
- Moyenne Micro : les prédictions correctes et fausses pour chaque label sont d'abord
sommées, puis pour avoir la métrique en question (F1, Recall, Precision), on applique sa
formule sur la somme obtenue ;

- Métriques basées sur le classement : ce sont des mesures pour apprécier les classificateurs multi-
labels qui donnent en sortie un classement et non une bipartition :
- Average precision: le nombre de labels à parcourir avant de trouver un label non pertinent ;
- Coverage: le nombre de labels à parcourir pour trouver tous les labels pertinents ;
- OneError : le nombre de labels en première position au niveau du classement et qui ne sont
pas pertinents ;
- RLoss : le nombre de fois où un label non pertinent est placé au-dessus d’un label pertinent.

22
Want more?
Forward us
stephen.foka@gmail.com

23

Vous aimerez peut-être aussi