Multi Labels
Multi Labels
Multi Labels
CLASSIFICATION
MULTI-LABELS
INTRODUCTION
TYPES DE CLASSIFICATIONS
CONCLUSION
2
INTRODUCTION
L'apprentissage multi-label concerne l'apprentissage à partir
d'exemples, où chaque exemple est associé à plusieurs étiquettes.
Ces étiquettes multiples appartiennent à un ensemble prédéfini
d'étiquettes.
La classification multi-labels fait correspondre une entrée X (x1, x2, ..., xf) à un
vecteur binaire Y (y1,y2, …, yN) en associant une valeur entre 0 et 1 à chaque
élément(label) de ce vecteur.
4
1. Types de classifications
Types de classifications
- La classification binaire : un seul label à prédire et ce dernier
ne peut avoir que deux valeurs binaires (par exemple 0 ou 1, oui ou
non, ...etc.) ;
7
Types de classifications
8
2. Les défis de la classification
multi-labels
Défis de la classification multi-labels
10
▫ LES GRANDES DIMENSIONS
le fléau de la dimension est un obstacle majeur dans l’apprentissage
automatique, car il augmente considérablement le temps
d’apprentissage tout comme il diminue les performances des modèles.
Il est encore plus présent dans la classification multi-labels car non
seulement il y a les variables indépendantes mais il y a aussi les labels
qui sont touchés par ce fléau. De plus, les algorithmes supervisés
utilisés dans la classification traditionnelle ne peuvent pas être
directement utilisés pour diminuer les variables indépendantes car ils
ne prennent en compte qu’un seul label. De plus, il faut penser à de
nouveaux algorithmes pour diminuer le nombre de labels, car on ne
peut pas éliminer des labels comme on le fait avec les attributs.
11
Défis de la classification multi-labels
▫ LE DÉFI DE DÉSÉQUILIBRE DES LABELS
le déséquilibre au niveau des labels est un problème majeur dans la classification de
manière générale car la plupart des algorithmes de classification ne gèrent pas bien les classes
minoritaires. C’est un problème qui est donc présent dans la classification traditionnelle.
Plusieurs algorithmes ont été proposés afin de résoudre ce problème, sauf que dans la
classification multi-labels, ces algorithmes ne peuvent pas être utilisés, car ces derniers ne
prennent pas en compte le fait qu’il peut exister plusieurs labels en sortie. Dans la classification
multi-labels une combinaison de labels peut être rare, tout comme un label rare peut être
associé à des labels plus fréquents. De plus, certaines approches comme la transformation
binaire augmentent le niveau de déséquilibre dans le jeu de données obtenu après
transformation. Dans la classification multi-labels plusieurs algorithmes ont été proposés pour
faire face à ce problème :
- Echantillonnage ;
- Adaptation des algorithmes de classification ;
- Apprentissage sensible au coût : une combinaison des deux méthodes ci-dessus. 12
3. Caractéristiques des jeux de
données multi-labels
CARACTÉRISTIQUES DES JEUX DE DONNÉES MULTI-LABELS
Plusieurs métriques ont été proposées dans la littérature pour définir ces caractéristiques :
MÉTRIQUES DE BASE
- Cardinalité des labels : cette mesure permet de connaître à quel point le jeu de données
est multi-labellisé, c’est-à-dire combien de labels il y a par instance en moyenne ;
- Densité des labels : normalise la cardinalité en la pénalisant par le nombre de labels ; en
effet la cardinalité est influencée par le nombre de labels dans le jeu de données.
MÉTRIQUES DE DÉSÉQUILIBRE
- IRLbl(l) : mesure le niveau de déséquilibre pour chaque label. Ceci permet de savoir à quel
point un label est présent dans le jeu de données ;
- MeanIR : permet de connaître le niveau de déséquilibre de manière globale ;
- CVIR : permet de connaître ce qui a causé une valeur importante de la moyenne ci-dessus
(MeanIR) ; une valeur proche de 0 permet d’affirmer que le déséquilibre est présent sur
plusieurs labels et une valeur proche de 1 indique que le déséquilibre est surtout accentué
sur une minorité de labels. 14
CARACTÉRISTIQUES DES JEUX DE DONNÉES MULTI-LABELS
AUTRES MÉTRIQUES
15
4. Quelques méthodes de résolution en
classification multi-labels
Méthodes de résolution en classification multi-labels
- Approche par adaptation : les algorithmes traditionnels sont modifiés et adaptés afin de
pouvoir travailler avec des jeux de données multi-labels et donner en sortie plusieurs labels
au lieu d’un seul ;
- Approche ensembliste : cette approche est une suite logique de la première et consiste à
utiliser un ensemble de classificateurs afin de résoudre le problème de classification.
Binary Relevance (Pertinence binaire)
La stratégie la plus simple pour la transformation des problèmes consiste à utiliser la
stratégie un contre tous
- Métriques basées sur les observations : elles sont calculées séparément pour chaque observation. Leurs
valeurs sont obtenues en calculant la moyenne.
- Hamming Loss : la différence symétrique entre les labels faussement prédits et les labels réels ;
- Accuracy: la proportion entre les labels correctement prédits et les labels actifs (union des labels prédits
et réels) ;
- Precision: la proportion entre les labels correctement prédits et les labels prédits ;
- Recall : la proportion entre les labels correctement prédits et les labels réels ;
- F1 : la moyenne harmonique des deux dernières métriques (rappel et précision) ;
- Exact Match : mesure la plus stricte, elle donne la proportion entre les observations correctement
prédites (tous les labels ont été bien prédit) et le total des observations.
21
Mesure de performance d’un classificateur
- Métriques basées sur les labels : elles sont calculées indépendamment pour chaque label. Pour
calculer la moyenne, deux approches sont possibles :
- Moyenne Macro : les métriques sont calculées individuellement pour chaque label et la
moyenne est obtenue en les divisant sur le nombre de labels ;
- Moyenne Micro : les prédictions correctes et fausses pour chaque label sont d'abord
sommées, puis pour avoir la métrique en question (F1, Recall, Precision), on applique sa
formule sur la somme obtenue ;
- Métriques basées sur le classement : ce sont des mesures pour apprécier les classificateurs multi-
labels qui donnent en sortie un classement et non une bipartition :
- Average precision: le nombre de labels à parcourir avant de trouver un label non pertinent ;
- Coverage: le nombre de labels à parcourir pour trouver tous les labels pertinents ;
- OneError : le nombre de labels en première position au niveau du classement et qui ne sont
pas pertinents ;
- RLoss : le nombre de fois où un label non pertinent est placé au-dessus d’un label pertinent.
22
Want more?
Forward us
stephen.foka@gmail.com
23