Approche de La Classification - Kharbane Yahya - 2713
Approche de La Classification - Kharbane Yahya - 2713
Approche de La Classification - Kharbane Yahya - 2713
Avant tout, Je tiens à remercier Allah pour cette grâce d’être en vie et en bonne santé,
et pour avoir terminé ce mémoire dans des meilleures conditions, et ce malgré toutes les
contraintes que j’avais opposées.
Je remercie mes parents Mohamed et Fatima, mes frères Ayoub et Najib, et tous les
autres membres de la famille. Leur soutien dans le meilleur comme dans le pire, Leur sacrifice
pour mon propre confort et leur bonne humeur permanente, des facteurs qui m’ont permis
d’atteindre cette étape de ma vie. Qu’Allah les récompense pour toutes ces années qu’ils
m’ont consacrées.
Une mention spéciale est décernée à Soufiane Ezghari, Tawfiq Khaldi, Imad
Elghoubach, Imad Batioua, Ali Ouajjani, Tarik Mouqtassid, Safa Jida, Hajar Mrabti,
Yassmine Aghil et Karima Laadnani …, avec leur sincère amitié, leur encouragement et leur
soutien inconditionnel, ce travail a pu aboutir.
2
Résumé
Dans ce travail, on s’intéresse à la résolution des problématiques traitées par la fouille
de données plus précisément celui de la classification automatique. Actuellement les
méthodes de classification supervisée doivent être capables de faire face aux différents
problèmes à savoir l’adaptation avec le domaine traité, l’interprétabilité de la base des
connaissances et le résultat obtenu, l’imprécision dans les données et l’incertitude pendant la
résolution du problème. A cet égard, dans ce travail on présente une amélioration de la
classification supervisée par l’introduction de la logique floue comme un outil de
représentation des données et de calcul, ainsi que le Granular Computing qui fournit un
concept de représentation des données et du raisonnement structuré.
La logique floue a été émergée comme une approche puissante pour modéliser la
connaissance qualitative des problèmes de fouille de données. Elle a été utilisée de façon
satisfaisante dans diverses applications en particulier lorsque le bruit, l'incertitude et
l'imprécision sont inévitables.
3
Abstract
In this work, we are interested in solving the problems processed by data mining
specifically that of supervised classification. Currently, supervised classification methods
must be able to deal with different problems namely the adaptation with the field processed,
the interpretability of the knowledge base and the result obtained, the inaccuracy in the data
and uncertainty during the resolution. In this regard, this work present a supervised
classification improved by the introduction of fuzzy logic as a tool data representation and
calculation, as well as the Granular Computing concept that provides a data representation
and structured reasoning.
Fuzzy logic has been emerged as a powerful approach to model the qualitative
knowledge of data mining problems. It has been satisfactorily used in various applications
especially when noise, uncertainty and imprecision are unavoidable.
The Granular Computing reflects how the human observes perceives and solves
complex problems. A model based on Granular Computing allows the field’s representation in
a hierarchical granular structure that captures the various aspects of the field. Each level in the
granular structure is formed by information granules of and sets a degree of abstraction of the
area, such granules represent a set of objects that are grouped according to a criterion such as
the similarity, addiction, etc. Finally the calculation with the granules solves a problem in an
adequate level of abstraction.
This system will be validated in several fields such as medical diagnosis, pattern
recognition, etc.
4
Sommaire :
REMERCIEMENTS ................................................................................................................................ 1
RESUME .............................................................................................................................................. 3
ABSTRACT ........................................................................................................................................... 4
INTRODUCTION ................................................................................................................................ 11
1 INTRODUCTION ............................................................................................................................. 14
2 PROCESSUS ECD : ......................................................................................................................... 14
3 METHODES DE FOUILLE DE DONNEES ................................................................................................ 16
3.1 Les méthodes de visualisation: ............................................................................................ 17
3.2 Les méthodes de prédiction : ............................................................................................... 18
3.3 Les méthodes d’explication : ................................................................................................ 20
4 F OUIL LE DONNEES : CHALLENGES ET EVOLUTION ................................................................................ 20
4.1 La logique floue ............................................................................................................ 21
4.2 Granular Computing ............................................................................................................ 27
5 CONCLUSION ................................................................................................................................ 28
1 INTRODUCTION ............................................................................................................................. 30
2 ARCHITECTURE GENERALE ............................................................................................................... 30
3 GRANULATION D’INFORMATION : ..................................................................................................... 32
3.1 Méthodes de clustering :...................................................................................................... 33
3.2 Indices de validité :............................................................................................................... 40
4 REPRESENTATION DES GRANULES ...................................................................................................... 43
5 STRUCTURE GRANULAIRE................................................................................................................. 44
6 CONCLUSION : .............................................................................................................................. 44
1 INTRODUCTION : ........................................................................................................................... 46
2 PROBLEMATIQUE DE LA CLASSIFICATION SUPERVISEE : ........................................................................... 46
3 SYSTEME D’INFERENCE FLOU : .......................................................................................................... 47
5
4 MODELE DE CLASSIFICATION SUPERVISEE BASE SUR LE GRC .................................................................... 51
4.1 Granulation d’information : ................................................................................................. 51
4.2 Structure granulaire multiniveaux ....................................................................................... 55
5 CONCLUSION : .............................................................................................................................. 58
1 INTRODUCTION ............................................................................................................................. 60
2 CONFIGURATION DES EXPERIMENTATIONS .......................................................................................... 60
2.1 Base de données .................................................................................................................. 60
2.2 Algorithmes de comparaison ............................................................................................... 60
2.3 Paramètre du modèle de classification ................................................................................ 61
3 RESULTATS ................................................................................................................................... 61
3.1 Résultat de la granulation d’information............................................................................. 61
3.2 Résultat de la classification à base GrC ............................................................................... 63
3.3 Comparaison ........................................................................................................................ 64
4 CONCLUSION ................................................................................................................................ 65
CONCLUSION .................................................................................................................................... 66
REFERENCES ...................................................................................................................................... 67
6
Liste des figures :
Figure 1 : Processus ECD [6] ....................................................................................... 15
Figure 2: Exemple de représentation graphique par des histogrammes de la base de
données Iris[7] .......................................................................................................................... 17
Figure 3: Exemple d’arbre binaire de décision [10] ..................................................... 18
Figure 4 : structure générale des réseaux de neurones [12].......................................... 19
Figure 5 : classification avec régression linéaire[14] ................................................... 20
Figure 6 : Propriétés d‘un ensemble flou ..................................................................... 23
Figure 7: Représentation graphique de la variable linguistique Taille ......................... 25
Figure 8 : Modèle flou décisionnel construit par le logiciel FISpro ............................. 26
Figure 9: Exemple d’une structure granulaire à deux niveaux ..................................... 27
Figure 10: structure granulaire d'une entreprise ........................................................... 28
Figure 11: Architecture générale d’un modèle de fouille de données basé sur le
Granular Computing ................................................................................................................. 32
Figure 12: illustration de l’algorithme K-means .......................................................... 34
Figure 13: Exemple de dendrogramme de 5 éléments ................................................. 35
Figure 14 : distance entre deux clusters avec saut minimal ......................................... 36
Figure 15 : distance entre deux clusters avec saut maximal ......................................... 36
Figure 16: distance entre deux clusters avec lien moyen ............................................. 36
Figure 17 :distance entre les cenroïdes de deux clusters ............................................. 37
Figure 18 : représentation de granule par une règle floue ............................................ 43
Figure 19: schéma général d’un SIF ............................................................................. 47
Figure 20: Exemple de règles floues utilisées pour le problème de classification de la
base de données Iris .................................................................................................................. 48
Figure 21: fuzzifcation d'un nouvelle entrée d'iris par l'interface de la figure 19 ........ 48
Figure 22: inférence de l'entrée précédente à l’aide d’un FIS Mamdani en utilisant
« min » comme T-norme et « max » comme T-conorme......................................................... 49
Figure 23: défuzzification............................................................................................. 50
Figure 24: La 1ère étape du DC; clustering multidimensionnel des données .............. 52
Figure 25: La 2ème étape du DC; clustering des projections des prototypes sur chaque
dimension ................................................................................................................................. 52
Figure 26: 3ème étape; dérivation des ensembles flous pour chaque dimension ......... 53
7
Figure 27: granulation multi-niveaux obtenue par le ML-DC ..................................... 56
Figure 28 : prototypes obtenus de la granulation dus 2ème niveau selon le contexte de la
granulation du premier niveau .................................................................................................. 57
Figure 29: (a) résultat de la granulation d’information pour les deux niveaux (b)
structure originale de la base Appendicites .............................................................................. 61
Figure 30: (a) résultat de la granulation d’information pour les deux niveaux (b)
structure originale de la base Balance ...................................................................................... 62
Figure 31: (a) résultat de la granulation d’information pour les deux niveaux (b)
structure originale de la base Glass .......................................................................................... 62
Figure 32:(a) résultat de la granulation d’information pour les deux niveaux (b)
structure originale de la base IRIS ........................................................................................... 63
Figure 33: résultat de la granulation d’information pour les deux niveaux (b) structure
originale de la base Pima .......................................................................................................... 63
8
Liste des tableaux
Tableau 1 : quelques opérateurs flous .......................................................................... 25
Tableau 2 : Propriétés des bases de données utilisées dans la phase d'expérimentation
.................................................................................................................................................. 60
Tableau 3: représentation linguistiques des granules obtenus dans le niveau 1 pour la
base d'Iris .................................................................................................................................. 63
Tableau 4: Taux de précision de classification pour le modèle d'un seul niveau et multi
niveaux ..................................................................................................................................... 64
Tableau 5: Comparaison des taux de précision de classification par les modèles :
MLDC, AD et RN .................................................................................................................... 64
9
Liste des abréviations
FD : fouille de données
10
Introduction
Actuellement, la Fouille de Données est devenue une discipline principale dans
plusieurs domaines. En effet, grâce aux avancements technologiques, de nombreux outils sont
inventés afin d’acquérir les données dans différents domaines, ainsi ils offrent des
opportunités d’automatiser aux d’améliorer plusieurs tâches. A cet égard, la Fouille de
Données fournit des multitudes de solutions permettant la représentation des données, la
visualisation et la résolution des problèmes.
Dans ce cadre plusieurs travaux dans la littérature [1]–[3] sont réalisés dans l’objectif
de rependre aux nouveaux besoins de la classification supervisée ; les plus connus sont ceux
qui se basent sur la logique floue ou le granular computing [4], [5]. La logique floue, par sa
proximité de l’esprit humain, a suscité l’intérêt des chercheurs, des ingénieurs et des
industriels. Cet intérêt réside dans la capacité de cette logique à manipuler et à représenter les
connaissances, imprécises et incertaines. En effet, les connaissances sont représentées par des
variables, appelées variables linguistiques, qui prennent des valeurs dans un ensemble de
termes linguistiques tels que, petit, grand, très grand, etc. Chaque terme linguistique est
manipulé par une fonction à valeurs dans [0,1], appelée fonction d’appartenance.
11
l’ensemble des niveaux représente une hiérarchie. Ainsi la résolution de problème est
effectuée dans le niveau d’abstraction adéquat.
12
Chapitre 1 : Contexte du travail
13
1 Introduction
La fouille de données[1] est une discipline qui a émergé à l’issue des avancées
technologiques réalisées dans les domaines de la collecte, de stockage et de traitement des
données (scanners, internet, base de données, entrepôts de données, XML etc.). En effet, ces
avancées ont largement contribué à l’accumulation de grands volumes de données que seul un
traitement automatique est capable de les gérer, de les analyser et de les explorer.
Parmi les objectifs lors du développement d’une solution de fouille de données, c’est
d’aboutir à un modèle :
Dans ce chapitre, nous allons présenter, une vue générale sur la fouille de données,
ainsi que les outils associées et plus particulièrement, la logique floue et le Granular
Computing.
2 Processus ECD :
La mise en place d’une solution de fouille de données est inclue dans un processus
nommée ECD (Extraction des connaissances à partir des données). Ce processus [6] structure
les prétraitements essentiels pour exécuter un système FD convenablement, ainsi l’évaluation
et l’interprétation des connaissances découverte, la figure (1) montre les différentes étapes du
processus ECD.
14
Figure 1 : Processus ECD [6]
On peut distinguer trois grandes parties dans le processus ECD, La première partie
permet de récolter et construire les données convenables dans un domaine donné par rapport
au contexte de la problématique traitée par la FD. Cette partie est appelé prétraitement. Elle
est composée de trois éléments :
La deuxième partie est la fouille de données qui consiste à extraire les structures
cognitives existantes dans les données sélectionnées. Ces structures représentent des
tendances, des groupes pertinents, des anomalies, des règles de raisonnement, etc.
15
La troisième partie est le post-traitement qui consiste à :
Visualiser les connaissances extraites sous forme de schémas, de tableaux, etc. afin
d’aider l’utilisateur à mieux comprendre les résultats obtenus.
Evaluer et interpréter les résultats selon des critères de qualité tels que la précision
et l’interprétabilité.
Le processus ECD est itératif ce qui signifie que parfois il peut être nécessaire de
refaire certaines étapes. Il est aussi hautement interactif, l’utilisateur y est impliqué à chaque
étape pour effectuer des choix.
16
La Détection des anomalies : caractérise les problèmes qui cherchent à détecter les
comportements anormaux d’un concept. Par exemple, la détection des fraudes, la
détection des pannes, etc. Cette problématique est souvent utilisée dans les
systèmes de surveillance. D’une manière formelle, il s’agit de trouver des valeurs
inhabituelles, aberrantes, irrégulières dans des données supposées homogènes.
Pour cela plusieurs méthodes de fouille de données sont développées pour répondre à
chacune des problématiques déjà notées. Elles sont classées en trois grandes rubriques :
Figure 2: Exemple de représentation graphique par des histogrammes de la base de données Iris[7]
17
3.2 Les méthodes de prédiction :
Ces méthodes ont pour objectif de relier un phénomène à expliquer à un ou plusieurs
phénomènes explicatifs. Elles sont issues de la statistique, de la reconnaissance de formes, de
l’apprentissage automatique, du connexionnisme ou des bases de données. Ces méthodes sont
mises en œuvre pour extraire des modèles de classement ou de prédiction.
L’arbre de décision permet de diviser les données en groupes basés sur les valeurs des
attributs. C’est un outil puissant et apprécié pour la prédiction. L’arbre donne des modèles
facilement compréhensibles par l’utilisateur. Ainsi les modèles de classifieur comme les
arbres de décision s’expriment comme un ensemble de règles de classification de la forme : Si
description Alors classe.
Il existe une variété d’algorithmes pour construire les arbres de décision. Par exemple,
on trouve CART (classification and régression Trees) [8] qui amène à un arbre binaire,
comme on trouve ChAID (Chi-squared Automatic Detection)[9] qui produit un nombre
variable d’arcs pour chaque nœud.
18
Les réseaux de neurones :
Les réseaux de neurones [11] sont des réseaux complexes d'unités de calcul
élémentaires interconnectées. Ils sont issus de modèles biologiques, sont constitués d’unités
élémentaires (neurones) organisés selon une architecture. Ils se composent de trois parties
essentielles : Neurones de la couche d’entrée, ceux de la couche cachée et ceux de la couche
de sortie.
Dans les réseaux de neurones la principale difficulté est de faire le bon choix de
l’architecture : nombre de couches cachées et nombre de neurones par couche cachée. Les
couches d’entrée et de sortie sont déterminées par la nature du problème : le nombre de
neurones de la couche d’entrée est le plus souvent égal au nombre des attributs tandis que le
nombre de neurones sur la couche de sortie est égal au nombre de classes du problème étudié.
La régression :
En régression [13], il s’agit d’expliciter une relation de type linéaire ou non, entre un
ensemble d’attributs et un ensemble de cibles. Dans le cadre de régression, toutes les variables
sont considérées continues. Elle possède de nombreux résultats statistiques intéressants
permettant d'apprécier la qualité du modèle qu'elle produit.
19
Figure 5 : classification avec régression linéaire[14]
Clustering :
Le clustering [9], [16], [17] est une méthode d’analyse de données qui opte à
rassembler les objets homogènes dans des groupes appelés clusters en faisant appel à des
mesures de similarité. Un bon clustering donc convient à la fois à minimiser l’inertie intra-
classe et à maximiser l’inertie inter-classe. Généralement, le clustering est utilisé dans la
fouille de données dans le but d’extraire les connaissances pour pouvoir générer des
hypothèses ou des modèles prédictifs qui serviront à expliquer des concepts éventuellement
impossibles à distinguer naturellement.
20
désavantages qui sont toujours le sujet de nombreuses recherches. On peut identifier les plus
importants challenges de la fouille de données dans trois titres:
A cet égard, plusieurs techniques sont introduites pour améliorer l’efficacité des
techniques de la fouille de données à savoir les heuristiques, les techniques de boosting, le
raisonnement adaptatif, etc [18]. Aujourd’hui la logique floue marque une très grande
contribution dans l’amélioration des techniques de la fouille de données grâce à sa capacité
dans la tolérance aux imprécisions et la gestion des incertitudes, ainsi elle adopte une méthode
de raisonnement très proche de l’être humain basée sur des valeurs linguistiques, l’étendue de
de cette technique est le granular computing qui représente un concept complet de
représentation et du raisonnement en se basant sur la logique floue. Dans ce travail on s’est
intéressé sur le granular computing basé sur la logique floue est son implémentation pour la
résolution de la problématique de la classification supervisée.
21
logique floue est un outil fondamental et indispensable dans la représentation et le traitement
des connaissances imprécises et incertaines.
( ) { ( )
[ ]
( )
( )
22
- Un ensemble flou est dit convexe si :
( ) ( ( ) ( ))
( | ) ( ( ) )
( | ) ( ( ) )
23
Forme trapézoïde symétrique ou asymétrique:
( | ) ( ( ) )
( | ) ( ( ) )
Forme gaussienne :
( )
( | )
est le nom de la variable linguistique, par exemple Age, taille, masse, etc.;
est l’ensemble des valeurs (termes linguistiques) pouvant être, prises par V;
24
est une partition floue, où chaque sous-ensemble est associé à une valeur
dans .
Par exemple la variable taille définie sur [ ] peut-être représentée par la variable
linguistique :
: taille,
{ ,
250
4.1.4 Opérateurs
Afin de pouvoir manipuler aisément les ensembles flous, nous redéfinissons les
opérateurs de la théorie des ensembles classiques afin de les adapter aux fonctions
d'appartenance propres à la logique floue permettant des valeurs strictement entre 0 et 1.
Contrairement aux définitions des propriétés des ensembles flous qui sont toujours les
mêmes, la définition des opérateurs sur les ensembles flous est choisie de la même manière
que les fonctions d'appartenance. Voici les deux ensembles d'opérateurs les plus connus pour
le complément (NON), l'intersection (ET) et l'union (OU) utilisés le plus couramment :
Probabiliste ( ) ( ) ( ) ( ) ( ) ( ) ( )
25
Avec les définitions usuelles des opérateurs flous, nous retrouvons toujours les
propriétés de commutativité, distributivité et associativité des opérateurs classiques.
Cependant, relevons deux exceptions notables :
Les variables d’entrées : sont une collection des variables linguistiques définies par
des termes linguistique.
L’inférence floue : est un raisonnement basé sur la représentation de la base de
connaissance par des règles floues SI….ALORS en utilisant les termes linguistiques
associés à leur fonction d’appartenance et les opérateurs logiques.
La sortie : le modèle fournit en premier temps une sortie vague sous forme d’un
ensemble floue qui contient l’ensemble des solutions possibles, ensuite il peut calculer
une solution précise et optimale à partir de l’ensemble des solutions proposé.
La figure 8 montre un exemple d’un modèle floue qui détermine si un client actif ou
non.
26
4.2 Granular Computing
Le Granular Computing (GrC) [23]–[26] est une approche de résolution structurée de
problème en se basant sur la représentation structurée des connaissances. En effet, le GrC
représente les informations dans plusieurs niveaux de granularité (détail) où chaque niveau
est composé de plusieurs granules d’information, qui définit un niveau d’abstraction du
domaine traité. Ensuite l’ensemble des niveaux sont insérés dans une structure granulaire qui
capture les différents aspects du problème traité (figure 9). Enfin, La structure granulaire
permet le raisonnement dans les niveaux d’abstraction défini, et d’explorer des niveaux
variables avec des solutions approximatives.
Domaine Granule
Niveau 1
Niveau 2
Les éléments de base d’un modèle basé sur le GrC[26] peuvent être énumérés en trois
éléments :
Granule : est une abstraction du domaine traité, il est défini par un ensemble
d’objets rassemblés selon un critère de similarité, dépendance, fonctionnalité,
etc. on dit qu’un granule a une abstraction élevé s’il contient un grand nombre
d’éléments.
Structure granulaire : est une description structuré du domaine, il permet de
représenter le domaine traité dans un schéma hiérarchique où chaque niveau
représente un niveau d’abstraction.
Calcul avec les granules : est un mécanisme qui permet la résolution du
problème par l’exploration de la structure granulaire. Dans un premier temps
un niveau d’abstraction supérieur doit être capable de résoudre le problème qui
n’a pas besoin de trop de détails, si c’est le cas, il faut explorer un niveau
inférieur pour le résoudre. Dans la figure 10 on montre une structure granulaire
27
d’une entreprise. Dans cet exemple, les problèmes concernant la comptabilité
requiert beaucoup de détails et sont résolus dans les niveaux inférieurs au
service de comptabilité, par contre la validation d’un modèle d’affaire est faite
dans un niveau supérieur parce qu’il s’intéresse seulement aux résultats finaux
du modèle.
5 Conclusion
La fouille de donnée essaie de résoudre plusieurs problématiques qu’n avait classé en
4 catégories. Notre travail s’intéressera essentiellement aux problèmes de la classification
supervisée, c’est pourquoi on essayera de concevoir un modèle basé sur le granular
computing flou qui est un outil très fort dans la perception et la structuration du domaine et
dans le traitement de l’information.
28
Chapitre 2 : Granular Computing
29
1 Introduction
Le GrC est un outil informatique émergent pour le traitement de l’information. Il
s’intéresse à la découverte, à la représentation et au traitement des entités d’information
complexes appelées granules d’information. On peut le considérer comme une façon de
penser qui repose sur la capacité humaine à comprendre des problèmes réels dans de
différents niveaux de granularité. En se focalisant sur les différents niveaux de granularité, on
peut obtenir plusieurs niveaux de connaissance d’où plusieurs résolutions du problème.
Le GrC est donc une méthode prometteuse de résolution de problème car il se base sur
la représentation de domaine de problème dans un schéma multi-niveaux, chaque niveau
définit une vue différente de résolution avec un niveau de détail élevé.
2 Architecture générale
Dans la figure 11 on montre les différentes parties d’un modèle de fouille de donnée
basé sur le GrC:
30
3. Structure granulaire : permet de définir la hiérarchie des granules, pour
cela il faut placer les granules d’une abstraction élevé dans un niveau
élevé et le contraire pour les granules ayant une abstraction faible.
Calcul avec les granules : est un mécanisme qui permet à partir de la
description d’un nouveau cas de dériver une solution, deux mécanismes
existent:
1. le mécanisme de raisonnement dans un niveau donné, il utilise les
granules d’information pour dériver une solution dans le niveau
courant.
2. Le mécanisme d’exploration des niveaux dans la structure granulaire,
dans ce cas il faut prendre en considération les résultats obtenus dans
un niveau supérieur.
31
Base de données
Granulation d’information
Granule
Représentation des granules
Structure granulaire
Entrée Sortie
Figure 11: Architecture générale d’un modèle de fouille de données basé sur le Granular Computing
3 Granulation d’information :
La granulation d’information est un algorithme qui permet de rechercher des granules
d’informations dans les données. Comme les granules sont définis par un ensemble d’objet
rassemblés par un critère de ressemblance, fonctionnalité ou dépendance, intuitivement les
algorithmes de Clustering sont très adéquats pour la recherche des granules informations.
32
Les méthodes de Clustering [27], [16] sont des méthodes non-supervisées qui ont pour
objectif de déterminer les classes auxquelles appartiennent les objets en se basant sur
certaines caractéristiques. Cependant le grand problème des algorithmes de clustering et la
définition du nombre de cluster, pour cela des indices de validité sont employés pour définir
le nombre de cluster optimal.
3.1.1 K-means :
L’algorithme de K-means[28] est un outil de fouille de données qui vise à partitionner
en différentes classes l’ensemble des individus. On cherche à regrouper autant que possible
les individus les plus semblables tout en séparant les classes les unes des autres.
Généralement, cet algorithme est efficace mais présente quelques faiblesses comme
l’initialisation des centres des clusters qui conditionne le résultat final (des initialisations
différentes mènent à des clusters différents). Il peut arriver qu’un cluster ne contienne que son
centre.
33
Figure 12: illustration de l’algorithme K-means
34
Figure 13: Exemple de dendrogramme de 5 éléments
Algorithme :
Soient :
- Une population X de n individus
- Une fonction de distance dis s’appliquant aux paires de sous-ensembles de X.
( ) ( ) [ ]
Etape 1 : Initialiser n clusters chacun réduit à un individu de X.
Etape 2 : fusionner la paire de cluster ( ) de distance minimale.
( ) ( ) (3)
( ) ([ ( )] [ ( )])
35
Saut minimal (single linkage) : cette méthode a tendance de regrouper les deux
clusters les plus similaires, et tend à agréer un pont à un cluster déjà existant
plutôt qu’à donner naissance à un nouveau cluster. Elle crée des clusters
allongés car un seul membre proche suffit pour effectuer le regroupement.
( ) ( ( )) (4)
36
Méthode des centroïdes : dans cette méthode, la distances entres les classes est
déterminée par la distance entre leur centres.
( ) ( )
( ) ( ∑ ∑ ) (7)
( ) ( )
Les méthodes polythétiques qui utilisent tous les variables pour les divisions
successives.
37
Les méthodes monothétiques qui utilisent une seule variable pour les divisions
successives.
Algorithme :
Soient :
- Une population X de n individus
- Un critère [ ] [ ]
Etape 1 : Initialiser C à l’ensemble vide.
Etape 2 :
pour chaque individu x de X
pour chaque k cluster de C, recalculer ( ) en considérant que x est dans .
on construit un nouveau cluster {x} et on le met dans C et on recalcule ( ).
parmi les k+1 possibilités on choisit celle qui la plus grande valeur de ( )
L’algorithme FCM [29] est parmi les algorithmes non-supervisés les plus connus dans
le domaine de la reconnaissance de forme. FCM vise à minimiser la fonction objective
suivante :
( ) ∑ ∑ ‖ ‖ (9)
∑ (10)
Où :
38
désigne la donnée i.
: l’indice de fuzzification.
: le centre du cluster.
Etape 4 : Refaire les étapes 2 et 3 si jamais le critère d’arrêt n’est pas vérifié.
Les algorithmes de type FCM sont sensibles au bruit et aux point aberrants. Les faibles
valeurs associées aux points bruits peuvent exprimer la contamination du bruit, cependant,
comme on peut voir dans (12), les degrés d’appartenance générés en respectant la contrainte
(10), sont des nombres relatifs. Cela veut dire que les point bruits et les points aberrants vont
avoir au moins la valeur de 1/c pour tous les clusters. Chaque augmentation de la valeur
d’appartenance à un cluster implique la diminution des degrés d’appartenance aux autres
clusters. Ce dernier fait, conduit à l’idée que les points bruits peuvent avoir des degrés
d’appartenances élevés, ce qui va influencer sur l’estimation des paramètres des prototypes.
39
possibilité d’appartenance d’un point à une classe. Un degré de possibilité d’appartenance
peut mieux être adapté pour la théorie des ensembles flous théoriques.
Indices de validité interne : basés sur les informations tirées des données
seulement.
Indices de validité externes : basée sur la connaissance préalable des données.
( ) ( ) (13)
Où n est le nombre d’objets, L est la vraisemblance des paramètres que génèrent les
données dans le modèle, et v est le nombre de paramètres libres dans le modèle gaussien.
L’indice de BIC prend en considération l’ajustement du modèle aux données et sa complexité.
Le modèle dont l’indice de BIC est petit, est le meilleur à retenir.
( )
( )
(14)
40
3.2.1.3 Indice de Davies-Bouldin (DB) :
Cet indice essaie d’identifier des ensembles de clusters qui sont compacts et bien
séparés. Il est défini ainsi :
( ) ( )
∑ { (15)
( )
() ()
() (16)
( ( ) ( ))
Où a(i) est la distance moyenne entre le i-ème élément et les élément du cluster , et
b(i) est la distance moyenne minimale entre le i-ème élément et les éléments des autres
clusters.
( )
{ { } (17)
( ( ))
∑ ∑ ( )
(18)
( )
41
Où désigne le degré d’appartenance flou de l’élément au cluster , et n est le
taille de l’ensemble des données.
3.2.2.1 F-Measure :
Il combine entre le concept du rappel et celui de la précision issus de la recherche
d’information. On calcule la précision et le rappel de chaque cluster pour chaque classe
comme suit :
( ) (20)
Et
( ) (21)
( ) ( )
( ) (22)
( ) ( )
Les valeurs de F-Measure sont comprises entre [0,1] et la valeur la plus grande indique
le clustering de plus haute qualité.
3.2.2.2 Pureté :
La pureté est similaire à l’entropie. Pour calculer la pureté de l’ensemble des clusters,
on calcule la pureté de chaque cluster :
( ) (23)
∑ (24)
42
3.2.2.3 L’entropie :
L’entropie mesure la pureté des labels de la classe des clusters. Par conséquent, si
chaque cluster contient des objets qui ont tous le même label de la classe, l’entropie sera égale
à 0. Pour calculer l’entropie d’un ensemble de donnée, nous avons besoin de calculer la
distribution des classes des objets dans chaque cluster comme suit :
∑ ( ) (25)
L’entropie totale pour un ensemble de clusters est calculée par l’équation suivante :
∑ (26)
A cet égard, un granule est représenté par une règle floue (figure 18) contenant en
entrée les variables linguistiques qui décrivent un cas et en sortie le terme linguistique de la
solution.
Représentation de granule
SI A alors B
43
5 Structure granulaire
Une structure granulaire permet de définir le nombre de niveau de détail dans un
domaine, cependant il n’est pas toujours nécessaire de construire plusieurs niveaux pour
améliorer le résultat du système, en effet parfois un seul niveau est suffisant, dans ce sens, il
existe deux types de structure granulaire qu’on peut définir :
Structure simple : elle contient un seul niveau, on peut obtenir cette structure
par l’application de clustering et la représentation des granules obtenus.
Structure multi-niveaux : elle contient plusieurs niveaux où chaque niveau
définit un degré de détail. Pour obtenir une structure multi-niveaux, l’approche
de clustering successive [4] est la plus utilisée. Cette approche permet
d’effectuer la granulation d’information dans chaque niveau en prenant en
considération le contexte du niveau précédent.
6 Conclusion :
Dans cette section, on décrit d’une manière détaillée les éléments de base du GrC,
ainsi que les éléments d’un modèle à base du GrC flou, lequel on va exploiter pour résoudre
des problèmes de la classification supervisée du monde réel.
44
Chapitre 3 : Application à la
classification supervisée
45
1 Introduction :
Parmi les domaines d’intérêt de la fouille de donnée, on trouve la classification
supervisée dans laquelle on chercher à prédire la classe d’un nouvel élément en se basant sur
une base d’exemples. A partie de cette base, on essaie de dériver des classifieurs qui vont
nous aider à effectuer cette tâche, l’ensemble de ces classifieurs constitue ce qu’on appelle un
système de classification. Dans ce chapitre, on va voir comment appliquer un modèle de
classification supervisée basé sur le granular computing
{( )
47
Figure 20: Exemple de règles floues utilisées pour le problème de classification de la base de données
Iris
Une interface de fuzzification qui transforme les entrées nettes à des degrés de
correspondance avec des valeurs linguistiques, en d’autre terme elle affecte à chaque
attribut d’une certaine entrée, un degré d’appartenance aux ensembles flous
correspondants.
Figure 21: fuzzifcation d'un nouvelle entrée d'iris par l'interface de la figure 19
48
Un moteur d’inférence flou qui effectue des opérations d’inférence sur les règles.Elle
effectue effectue la conjonction des degrés d’appartenances via des opérateurs T-
normes (voir tableau) spécifiques pour obtenir la sortie de chaque règle. Enfin, on
combine les sorties par un opérateur T-conorme pour obtenir la sortie totale.
Figure 22: inférence de l'entrée précédente à l’aide d’un FIS Mamdani en utilisant « min » comme T-norme et « max »
comme T-conorme
Une interface de défuzzification qui transforme les résultats d’inférence à une sortie
nette, en utilisant certaine techniques. Parmi celle les plus connues : la technique du
centroïde de la surface qui consiste à calculer le centre de gravité de la surface de la
sortie totale, et celle de la moyenne des maximas dont laquelle la sortie nette est la
moyenne des valeurs de la sortie totale qui atteignent la valeur maximale.
49
Figure 23: défuzzification
Plusieurs types du raisonnement flou ont été proposés dans la littérature. En se basant
sur les types du raisonnement et les règles floues employées, on peut classifier les SIF en trois
catégories :
1er type : La sortie globale est la moyenne des sorties nettes de chaque règle
induites par fonctions d’appartenance de sortie pondérées par les poids des
règles. Les fonctions d’appartenance de sortie utilisées dans ce schéma doivent
être monotones.
2ème type : La sortie globale floue est calculée en appliquant l’opérateur
« max » aux sorties floues qualifiées (chaque sortie est égale au minimum du
poids de la règle et la fonction d’appartenance de la sortie). Plusieurs schémas
ont été proposés à ce stade pour choisir la sortie nette basée sur la sortie
globale floue, parmi lesquels on trouve : critère du maximum, la moyenne des
maximas, …
3ème type : Ce type utilise les règles floues de Takagi et Sugeno. La sortie de
chaque règle est une combinaison linéaire des variables des entrées plus une
constante, et la sortie finale est la moyenne pondérée des sorties de chaque
règle.
50
4 Modèle de classification supervisée basé sur le GrC
51
Figure 24: La 1ère étape du DC; clustering multidimensionnel des données
Les prototypes multidimensionnels obtenus par la première étape sont projetés sur
chaque dimension d’attribut. On effectue ensuite un Clustering sur ces projections pour
obtenir le nombre de prototypes monodimensionnel pour chaque attribut.
Figure 25: La 2ème étape du DC; clustering des projections des prototypes sur chaque dimension
52
ensembles flous. De plus, ces ensembles flous sont construits d’une façon répondante à la
contrainte d’interprétabilité qui permet une description qualitative des granules de
l’information.
Figure 26: 3ème étape; dérivation des ensembles flous pour chaque dimension
() { }
pour . Dans la deuxième étape, les points de chaque C(j) subit un Clustering
monodimensionnel, menant à n ensembles de prototypes monodimensionnels :
Généralement, on utilise le clustering hiérarchique ascendant car le nombre des centres est
petit.
53
La dernière étape du DC nécessite la représentation des granules floues
d’informations. Cela est atteint premièrement par la fuzzification des granules
monodimensionnel définis par les prototypes pour chaque P(j), et deuxièmement par
l’agrégation des ensembles flous monodimensionnels pour former les granules flous
d’information multidimensionnels.
Pour extraire une base de règle, chaque granule extrait sera divisé en deux parties :
prémisse et conséquence. La partie de la prémisse sera définie par la représentation
linguistique des granules d’information, tandis que la conclusion sera présentée par la
conjonction des fréquences relatives des observations de chaque classe appartenant à ce
granule-ci.
Donc, les règles floues construites à partir des granules d’information seront sous cette
forme-ci :
54
( ) ( )
Où,
( ) (27)
Et,
∑ ( )
∑
(28)
( )
Ainsi, étant donné une entrée x, les sorties du classifieur seront calculées selon la
formule suivante :
∑ ( )
( ) ∑
(29)
( )
Le double clustering multi-niveaux exploite la structure extraite par le double clustering, pour
donner une vue multiple des données, donc le résultat du premier niveau, sera considéré
comme le contexte du deuxième niveau.
55
Figure 27: granulation multi-niveaux obtenue par le ML-DC
Le processus peut être répété pour plusieurs niveaux. Cependant une granulation à
deux niveaux est adéquate pour obtenir deux vues du problème (une vue qualitative et autre
quantitative), de manière à obtenir un compromis équilibré entre l’exactitude et
l’interprétabilité des données. Les granules du premier niveau sont utilisés pour décrire les
données par des labels linguistiques qualitatifs, tandis que les granules du deuxième niveau
décrivent les granules du premier niveau.
La granulation du 2ème niveau est effectuée avec le même schéma du DC, mais on doit
prendre en considération le contexte généré par chaque granule d’information du premier
niveau. Sinon, si on ignore ce contexte la granulation du 2ème niveau sera identique à celle du
premier niveau. Pour assurer cela, on utilise l’algorithme du CFCM (FCM conditionnel) qui
est une extension de l’algorithme connu FCM, les deux algorithmes minimisent la même
fonction objective et calculent les centres et la matrice d’appartenance de la même manière.
La seule différence qui existe dans la contrainte :
∑ (30)
Pour la granulation du deuxième niveau, le contexte est défini par chaque granule flou
d’information par
( ) (31)
Le classifieur SIF conçu via la granulation de l’information du premier niveau est très
compact, mais il n’est pas précis. Les granules d’informations du deuxième niveau peuvent
être exploités pour améliorer la précision de la classification. Ainsi, pour chaque granule
d’information du premier niveau, ML-DC donne un ensemble de granules d’informations du
deuxième niveau qu’on va utiliser pour générer un SIF correspondant qui possède le même
schéma de celui du premier niveau, donc on aura comme résultat un ensemble de p SIF
générés. Ces SIF sont interconnectés pour former un comité hiérarchique à partir duquel la
correspondance entre les entrées et les sorties est déduite.
Les sorties du ce FIS hiérarchique sera définie comme la somme pondérée des sorties
de chaque FIS appartenant à ce comité.
Formellement, étant donnée une entrée , La sortie du comité des FIS est
calculée comme suit :
∑ ( ) ( )
( ) ∑
(32)
( )
57
5 Conclusion :
L’approche multiniveaux décrite précédemment se promet d’être efficace, car elle permet la
représentation du domaine, ainsi, elle donne la possibilité de se contenter d’un niveau de
détail selon le besoin de la problématique. Pour déterminer la puissance d’un modèle basé sur
cette approche, on va l’expérimenter sur des problèmes de la classification supervisée et le
comparer avec des modèles connus
58
Chapitre 4 : Expérimentations
59
1 Introduction
L’objectif de ce chapitre est d’analyser la classification supervisée à base du GrC.
Nous allons expérimenter les deux types de structure granulaire; à un seul niveau et multi-
niveaux, ainsi les expérimentations seront réalisées dans plusieurs bases de données issues de
différents domaines. Les résultats obtenus sont comparés avec d’autres modèles de
classifications. Dans la suite, on présente la configuration des expérimentations et l’analyse
des résultats.
Chaque base et divisé en deux parties : 70% pour la phase d’apprentissage, pendant
que 30% sera utilisé pour la phase de test.
60
2.3 Paramètre du modèle de classification
On a expérimenté deux structures granulaires, la première avec un seul niveau (N1) de
granulation, quant à la deuxième, elle est multiniveaux (N2), ainsi les deux approches sont
réalisées par la méthode de double clustering. Les deux étapes du clustering sont réalisées
par :
L’algorithme CFCM,
Clustering hiérarchique.
Les deux clustering sont exécutés avec divers nombres de clusters dans l’intervalle
[2,9], après le résultat est validé par l’indice Xie-Beni.
3 Résultats
(a) (b)
Figure 29: (a) résultat de la granulation d’information pour les deux niveaux (b) structure originale de la base
Appendicites
61
(b)
(a)
Figure 30: (a) résultat de la granulation d’information pour les deux niveaux (b) structure originale de la base Balance
(a) (b)
Figure 31: (a) résultat de la granulation d’information pour les deux niveaux (b) structure originale de la base Glass
62
(a) (b)
Figure 32:(a) résultat de la granulation d’information pour les deux niveaux (b) structure originale de la base IRIS
(a) (b)
Figure 33: résultat de la granulation d’information pour les deux niveaux (b) structure originale de la base Pima
Tableau 3: représentation linguistiques des granules obtenus dans le niveau 1 pour la base d'Iris
Si Alors
Longueur du Largeur du Longueur du Largeur du P(Iris Setosa) P(Iris-versicolor) P(iris-virginica)
sépale sépale pétale pétale = = =
Très petite moyenne Très petite Petite 100% 0% 0%
petite grande Très petite Petite 99.16% 0.84% 0%
petite petite petite Moyenne 1.55%% 96.72% 1.73%%
moyenne moyenne moyenne Moyenne 0.13%% 75.42% 24.45%%
grande moyenne Très grande Grande 0% 8.16% 91.84%
moyenne moyenne grande Grande 0% 25.13% 74.87%
63
classification plus élevé que celui de N1 dans les bases Appendicitis, Balance, Glass et iris.
Par contre dans le cas de la base Pima N1 donne le meilleur taux, ce qui signifie qu’il n’est
pas toujours évident de descendre vers un niveau bas d’abstraction pour obtenir un résultat
optimale.
Tableau 4: Taux de précision de classification pour le modèle d'un seul niveau et multi niveaux
N1 (%) N2(%)
Appendicitis 88,88 91,66
Balance 55,57 74,03
Glass 50 61,11
Iris 94 98
Pima 66,01 65,23
3.3 Comparaison
Les résultats obtenus par la classification à base de GrC sont comparés avec celle du
RN et du AD (Tableau 5). La comparaison des moyennes des taux de précision montre que la
méthode à base de GrC est très performante que la classification à base de l’AD, tandis que la
classification à base de RN donne une meilleur performance que les deux. En effet dans la
littérature [11], le RN est utilisé dans les domaines où l’interprétabilité est négligeable, alors
que l’AD et utilisé essentiellement dans le but de concevoir un modèle interprétable.
D’ailleurs la classification à base de GrC peut être une meilleur alternative que l’AD, ainsi il
peut être plus performant que la RN comme le montre le tableau (5), le GrC est efficient que
RN dans les bases Appendicitis et Iris.
Tableau 5: Comparaison des taux de précision de classification par les modèles : MLDC, AD et RN
64
4 Conclusion
Les résultats expérimentaux ont montré que le GrC flou est un outil puissant en terme
de représentation des connaissances, ainsi qu’il peut être un bon concurrent pour les modèles
qui visé seulement la précision, qu’on peut améliorer si on arrive à définir le niveau
d’abstraction convenable pour la résolution des problèmes.
65
Conclusion
Dans ce travail, on a présenté les différents problèmes que rencontrent la fouille de
données dans divers domaines, on a mis l’accent sur l’adaptation avec le domaine,
l’interpérabilité, l’imprécision et l’incertitude. A cet égard, on a développé un modèle basé sur
la logique floue pour permettre la tolérance aux imprécisions et la gestion des incertitudes
pendant le raisonnement, aussi l’approche GrC qui permet la représentation du domaine dans
une structure granulaire interprétable et fournit une méthode de résolution de problème avec
une multitude de niveau d’abstraction.
66
Références
[1] J. Han, M. Kamber, and J. Pei, Data mining: concepts and techniques. Elsevier, 2011.
[5] E. Hüllermeier, “Fuzzy methods in machine learning and data mining: Status and
prospects,” Fuzzy sets Syst., vol. 156, no. 3, pp. 387–406, 2005.
[9] J. A. Hartigan, Clustering algorithms. John Wiley & Sons, Inc., 1975.
[11] S. P. Curram and J. Mingers, “Neural networks, decision tree induction and
discriminant analysis: An empirical comparison,” J. Oper. Res. Soc., pp. 440–450,
1994.
[13] A. Gelman and J. Hill, Data analysis using regression and multilevel/hierarchical
models. Cambridge University Press, 2006.
67
[16] R. Xu and D. Wunsch, “Survey of clustering algorithms,” Neural Networks, IEEE
Trans., vol. 16, no. 3, pp. 645–678, 2005.
[17] J. Grabmeier and A. Rudolph, “Techniques of cluster algorithms in data mining,” Data
Min. Knowl. Discov., vol. 6, no. 4, pp. 303–360, 2002.
[18] I. H. Witten and E. Frank, Data Mining: Practical machine learning tools and
techniques. Morgan Kaufmann, 2005.
[19] L. A. Zadeh, “Fuzzy sets,” Inf. Control, vol. 8, no. 3, pp. 338–353, 1965.
[23] W. Pedrycz, Granular computing: an emerging paradigm, vol. 70. Springer Science &
Business Media, 2001.
[24] A. Bargiela and W. Pedrycz, Granular computing: an introduction, vol. 717. Springer
Science & Business Media, 2012.
[26] Y. Yao and N. Zhong, “Granular computing,” Wiley Encycl. Comput. Sci. Eng., 2008.
[29] J. C. Bezdek, R. Ehrlich, and W. Full, “FCM: The fuzzy c-means clustering algorithm,”
Comput. Geosci., vol. 10, no. 2, pp. 191–203, 1984.
[31] X. L. Xie and G. Beni, “A validity measure for fuzzy clustering,” IEEE Trans. Pattern
Anal. Mach. Intell., no. 8, pp. 841–847, 1991.
68
[32] J.-S. R. Jang, “ANFIS: Adaptive-Network-Based Fuzzy Inference System Jyh-Shing
Roger Jang Department of Electrical Engineering and Computer Science University of
California, Berkeley, CA 94720.”
[33] G. Castellano, A. M. Fanelli, and C. Mencar, “DCf: a double clustering framework for
fuzzy information granulation,” in Granular Computing, 2005 IEEE International
Conference on, 2005, vol. 2, pp. 397–400.
[35] W. Du and Z. Zhan, “Building decision tree classifier on private data,” in Proceedings
of the IEEE international conference on Privacy, security and data mining-Volume 14,
2002, pp. 1–8.
[36] M. F. Møller, “A scaled conjugate gradient algorithm for fast supervised learning,”
Neural networks, vol. 6, no. 4, pp. 525–533, 1993.
69