45
45
45
Universit Dr MOULAY Tahar de Sada, Facult des sciences et technologie, Dpartement dInformatique, Tel : 0554380115, hamoureda@yahoo.fr
Universit Djillali Liabes de Sidi Bel Abbes, Facult des science de lingnieur, Dpartement dInformatique, elhir@yahoo.com
Rsum : Dans cet article nous prsentons un automate cellulaire (Class_AC) pour rsoudre un problme de text mining en loccurrence la classification non supervise (Clustering). Avant de procder lexprimentation par lautomate cellulaire, nous avons vectoriss nos donnes en procdant lindexation des documents textuels provenant de la base de donne REUTERS 21578 par lapproche Wordnet. Lautomate que nous proposons dans cet article est une grille de cellules de structure plane avec un voisinage dcoulant de cette structure (planaire). Trois fonctions de transitions ont servi faire varier lautomate ayant quatre tats pour chaque cellule. Les rsultats obtenus montrent que la machine virtuelle calcul parallle (Class_AC) regroupe efficacement des documents similaires un seuil prs. Mots Cls : Classification des donnes, Automates cellulaires, Mthodes biomimtiques, Data mining, Clustering et segmentation, Classification non supervise.
1 Introduction
Le biomimtisme dans un sens littraire est limitation de la vie. La biologie a toujours t une source d'inspiration pour les chercheurs dans diffrents domaines. Ces derniers ont trouv un modle presque idal dans lobservation des phnomnes naturels et leur adaptation en vue de rsoudre des problmes. Parmi ces modles on trouve les algorithmes gntiques, les colonies de fourmis, les essaims particulaires, nuages des insectes volants [Mon 2003] et bien entendu les automates cellulaires qui sont lobjet de notre tude. Les premires approches cites sont des mthodes reconnues et largement tudies par contre les automates cellulaires sont des mthodes trs peu utilises et notamment dans le domaine de la classification non supervise et a a t notre motivation quant lutilisation de cette mthode dans ce domaine. Cette mthode est connue de la communaut scientifique comme tant un outil dimplmentation de machine et autre (Un Automate Cellulaire (AC) est avant tout une machine formelle) par contre dans cet article la mthode des automates cellulaires est utilise comme tant une mthode biomimtique. Depuis les annes 50, le biomimtisme n'a cess de progresser de faon constante et est un des principaux enjeux de la recherche actuelle.
Le biomimtisme est une pratique scientifique consistant imiter, ou s'inspirer de systmes naturels, ou vivants. Parmi les exemples de ce domaine, on retrouve entre autres : formes de poissons pour l'arodynamisme de voitures, ou autres vhicules, ou encore l'algorithme de colonies de fourmis pour la recherche du plus court chemin dans un graphe... Le Text mining, est lensemble des techniques et des mthodes destines au traitement automatique des donnes textuelles en langage naturel, est une analyse multidimensionnelle des donnes textuelles qui vise analyser et dcouvrir des connaissances et des relations partir des documents disponibles. Dans le text mining les similarits sont utilises pour produire des reprsentations synthtiques de vaste collection de documents. Le text mining comprend une succession dtapes permettant de passer des documents au texte, du texte au nombre, du nombre lanalyse, de lanalyse la prise de dcision. Nous commenons par un tat de lart, les techniques dindexations des documents utilises, une description gnrale de lautomate cellulaire pour le clustering, des rsultats et nous donnerons une conclusion et les perspectives.
Etat de lart
Pour mettre en uvre des mthodes de classification il faut faire un choix d'un mode de reprsentation des documents [Seb 2002], car il n'existe actuellement aucune mthode d'apprentissage capable de reprsenter directement des donnes non structures (textes). Ensuite, il est ncessaire de choisir une mesure de similarit et enfin, de choisir un algorithme de classification non supervise. a. Reprsentation des documents textuels Un document (texte) di est reprsent par un vecteur numrique de la faon suivante : di = (V1i, V2i, ..., V | T | i) O T est l'ensemble des termes (ou descripteurs) qui apparaissent au moins une fois dans le corpus. (|T| est la taille du vocabulaire), et Vki reprsente le poids (ou la frquence). La reprsentation la plus simple des documents textuels est appel reprsentation sac de mots [Aas 1999], elle consiste transformer des textes en vecteurs o chaque lment reprsente un mot. Cette reprsentation de textes exclut toute forme d'analyse grammaticales et de toute notion de distance entre les mots. Une autre reprsentation, appele "sac de phrases", assure une slection de phrases (squences de mots dans les textes, et non pas le lexme "phrases"), en favorisant ceux qui sont susceptibles de porter une signification. Logiquement, une telle reprsentation doit fournir de meilleurs rsultats que ceux obtenus par la reprsentation "sac de mots". Une autre mthode pour la reprsentation des textes est celle base sur les techniques de lemmatisation et consiste chercher la racine lexicale d'un terme [Sah 1999], par exemple, la forme de l'infinitif singulier pour les verbes et les noms. Une autre mthode de reprsentation, qui a plusieurs avantages (principalement, cette mthode traite les documents textuels indpendamment de la langue utilise), est base sur les "n-grammes" (un "n-gramme" est une squence de n caractres conscutifs).
Il existe diffrentes mthodes pour calculer le poids Vki sachant que, pour chaque terme, il est possible de calculer non seulement sa frquence dans le corpus, mais aussi le nombre de documents contenant ce terme. La plupart des approches [Seb 2002] sont centres sur la reprsentation vectorielle des textes en utilisant la mesure TF x IDF. TF : reprsente Term Frequency : nombre d'occurrences du terme dans le corpus. IDF : reprsente le nombre de documents contenant le terme. Ces deux concepts sont combins (par produit), en vue d'attribuer un plus fort poids aux termes qui apparaissent souvent dans un document et rarement dans l'ensemble du corpus. b. Mesure de similarit Plusieurs mesures de similarit entre documents ont t proposes dans la littrature en particulier on trouve la distance euclidienne, Manhattan et Cosinus que lon dtaillera dans la section 3. c. Algorithme de classifications non supervise La classification non supervise ou "clustering" est l'une des techniques fondamentales de l'extraction de donnes structures ou non structures. Plusieurs mthodes ont t proposes: Classification hirarchique : arbre de classes Classification hirarchique ascendante : Agglomrations successives Classification hirarchique descendante : Divisions successives Classification plat : algorithme des k-moyennes : Partition
pour vectoriser (numriser) nos textes (sans perdre la smantique) et appliquer ensuite notre automate cellulaire. La premire tape de lindexation est le prtraitement qui consiste liminer tout symbole qui ne correspond pas une lettre de l'alphabet (points, virgules, traits d'union, chiffres etc.). Cette opration est motive par le fait que ces caractres ne sont pas lis au contenu des documents et ne change rien au sens sils sont omis et par consquent ils peuvent tre ngligs. La deuxime tape est appele stopping qui correspond la suppression de tous les mots qui sont trop frquents (ils n'aident donc pas distinguer entre les documents) ou jouent un rle purement fonctionnel dans la construction des phrases (articles, prpositions, etc.). Le rsultat du stopping est que le nombre de mots dans la collection, ce qu'on appelle la masse des mots, est rduit en moyenne de 50%. Les mots liminer, connus comme stopwords, sont rcolts dans la stoplist qui contient en gnral entre 300 et 400 lments puis vient ltape du stemming qui consiste remplacer chaque mot du document par sa racine comme par exemple : national, nationalit et nationalisation sont remplacs par leur racine national et les verbes conjugus par leur infinitifs. Le stemming n'a pas d'impact sur la masse des mots, mais rduit de 30% en moyenne la taille du document. Nous avons utiliss lalgorithme de PORTER pour remdier cette tape. Ensuite nous avons la lemmatisation en utilisant lapproche Wordnet qui reprsente une base de donne lexicale, un dictionnaire informatis dveloppe par des linguistes. Les mots dans WORDNET sont reprsents par leur forme canonique ou encore appel lemme. Cette tape est utilise pour prparer la suivante qui est ltape cruciale de lindexation savoir la vectorisation (numrisation). La lemmatisation consiste remplacer chaque mot du document par son synset (synonyme dans la base lexicale). Nous avons utiliss WORDNET comme base de donne lexicale (car REUTERS 21578 est un corpus de dpches en anglais). La vectorisation est ralis par la mthode TF-IDF (Term Frequency / Inverse Document Frequency) qui est driv d'un algorithme de recherche d'information. L'ide de base est de reprsenter les documents par des vecteurs et de mesurer la proximit entre documents par l'angle entre les vecteurs, cet angle tant donc suppos reprsenter une distance smantique. Le principe est de coder chaque lment du sac de mot par un scalaire (nombre) appel tfidf pour donner un aspect mathmatique aux documents textes.
N tf id f = t f ( i , j ) .id f ( i ) = tf ( i , j ). lo g o : Ni tf(i,j) est le term Frequency : frquence du terme ti dans le document dj idf(i) est linverse document frequency : le logarithme du rapport entre le nombre N de documents dans le corpus et le nombre Ni de documents qui contiennent le terme ti . Un document di du corpus aprs vectorisation est : di = (x1,x2,.,xm) o m est le nombre de mot du ime sac de mot et xj est son tf-idf Ce schma d'indexation donne plus de poids aux termes qui apparaissent avec une haute frquence dans peu de documents. L'ide sous-jacente est que de tels mots aident discriminer entre textes ayant diffrent sujet. Le tf-idf a deux limites fondamentales : La premire est que les documents plus longs ont typiquement des poids plut forts parce qu'ils contiennent plus de mots, donc les term frequencies tendent tre plus leves. La deuxime est que la dpendance de la term
frequency est trop importante. Si un mot apparat deux fois dans un document dj, cela ne veut pas ncessairement dire qu'il a deux fois plus d'importance que dans un document dk o il n'apparat qu'une seule fois.
10 11 12 13
14 15 16
. .
41 42 43 44 45 46 47 48 49 50
5 16 18 29 11 40 2 25 7 46 38 13 15 19 26 28 30 32 37 41 49 2 4 7 9 21 18 36 1 44 35
8x8
16 x 16
Fig 3.a : Exemple de grille pour 50 documents
3-1 Le Voisinage Le voisinage utilis dans lautomate que nous proposons est un voisinage hybride contenant le voisinage de Moore qui est le voisinage de rayon 1 contenant 8 cellules autour de la cellule elle-mme et deux voisinages de rayon de 1 dcoulant du fait que la grille est planaire. Puisque la grille est planaire le voisinage des quatre extrmits contient seulement trois (3) cellules voisines et le voisinage dune cellule (i,j) appartenant au primtre de la grille (Sans les extrmits) est lensemble de cinq (5) cellules avoisinant la cellule (i,j) de rayon 1. (Fig 3.b)
3-2 La fonction de transition de lautomate Class_AC Rgle 1 : Si la cellule Ci,j est morte alors la cellule Ci,j donne Voisinage Ci,j devient vivant Rgle 2 : Si cellule Ci,j Vivante alors Vrifier voisinage Si voisinage contient au moins une cellule active Alors Ci,j donne similaire Voisinage Ci,j devient vivant Sinon Voisinage Ci,j devient isol
Fin Fin
Rgle 3 : Si une cellule est isole alors inchang (Reste isole) 3-3 La matrice de similarit Nous avons expriments notre classification en utilisant trois (3) distances diffrentes en loccurrence la distance euclidienne, Manhattan et cosinus. 3-3-1 : La distance Euclidienne Distances entre vecteurs Ti et Tj dans espace multidimensionnel est
D (T i , T j ) =
(x
k
( T i ) x k ( T j )) 2
3-3-2 : La distance Manhattan Distances entre vecteurs Ti et Tj dans espace multidimensionnel est
D (T i , T j ) =
| ( x k (T i ) x k (T j ) ) |
3-3-3 : La distance Cosinus Distances entre vecteurs Ti et Tj dans espace multidimensionnel est
C o s (T i , T
) =
T i .T
j j
|| T i || . || T
||
O Ti . Tj reprsente le produit scalaire des vecteurs Ti et Tj || Ti || et || Tj || reprsentent respectivement les normes de Ti et Tj La matrice de similarit est une matrice symtrique de dimension N x N, o N est le nombre de documents classifier, de diagonale nulle (pour les distances euclidiennes et Manhattan) et de diagonale gale 1 (pour la distance cosinus), et dont les indices reprsentent les numro (index) des documents du corpus classifier. 3-4 Description de lalgorithme Class_AC - Indexer les documents du corpus classifier. - Vectoriser chaque document texte du corpus par la mthode TF-IDF. - Calculer la matrice de similarit partir des vecteurs trouvs : sim(i,j)=D(di,dj). - Initialiser toutes les cellules de lautomate ltat Morte (tat=0). - Rpter ( chaque instant t) - Pour chaque cellule de lautomate faire Si cellule est morte Alors
Cellule devient Active Voisinage cellule devient Vivante Fin Si Si cellule est vivante Alors Vrifier voisinage Si voisinage contient au moins 1 cellule active Alors Cellule devient active (Donne Similaire) Voisinage cellule devient vivant Sinon Voisinage cellule devient isol Fin Si Si Cellule est isole Alors Cellule reste isole (Inchang) - Fin Pour - Jusqu Fin donne. A chaque itration de lalgorithme, les cellules vont changs leurs tat selon les rgles de transition dfinies par lautomate cellulaire qui vont tendre regrouper des tats similaires pour les cellules actives (contenant lindex des documents).La classification est recouvrante (Les donnes peuvent apparatre plusieurs fois dans la grille).
M : tat de cellule morte V : tat de cellule vivante A : tat de cellule active I : tat de cellule isole
4- Exprimentation
Aprs exprimentation de lalgorithme Class_AC, sur des documents issus du corpus Reuters 21578, nous avons obtenu les rsultats suivants en nombre de classes et puret des clusters. En ce qui concerne la puret dun cluster nous avons utiliss un seuil de similarit qui reprsente la distance entre deux documents. Si cette distance est infrieure ou gale au seuil alors les documents sont similaires. Pour la distance cosinus ce seuil est compar la valeur |1 cos(Vi,Vj)|.
Puisquon a utilis un seuil donc on naura pas besoin de calculer lentropie qui mesure la puret du cluster trouv ni de la F-mesure pour valuer les taux derreurs en classification.
Dfinition du seuil Seuil 1 : Pour les distances euclidiennes et Manhattan et aprs normalisation de la matrice de similarit (distance comprise dans [0,1]) nous avons tolrs un taux derreur de 10% (seuil 1=0,1) et pour la distance cosinus nous avons tolrs 20%. Seuil 2 : Un seuil de 15% (seuil 2=0,15) pour les distances euclidiennes et Manhattan par contre seuil 2=0,25 (25%) pour la distance cosinus. Ces valeurs de seuil ont t choisies aprs exprimentation de la classification par lautomate cellulaire. Commentaires Nous avons expriment notre automate cellulaire sur le corpus REUTERS 21578, nous avons procd lextraction des 50 premiers textes que nous avons indexs. On a ensuite calcul leur matrice de similarit. En terme de rsultats (Tab1 et Tab2), nous avons obtenus diffrentes classes par les trois distances utilises en variant le seuil de similarit. Les classes trouves correspondent un regroupement de documents similaires guid en quelque sorte par le seuil tabli (Tableau : Tab1). En terme de puret du cluster, la similarit intra classe nest rien dautre que le seuil car la distance entre deux documents dune mme classe doit tre infrieure ou gale au seuil, et la distance entre deux documents de classe diffrente est suprieure strictement au seuil (la similarit extra classe). Donc on navait pas rsoudre un problme de recherche oprationnelle sous contrainte (minimiser la similarit intra classe et maximiser la similarit extra classe) mais simplement choisir un bon seuil pour avoir une bonne classification. Tab1 : Rsultats de classification (Cosinus, Seuil 2)
Automate Cellulaire (Distance CosinusSeuil 2) Automate Cellulaire (Distance CosinusSeuil 2)
Classe 0 1 2 3 4 5 6 7 8 9 10 11 12
Classe 13 14 15 16 17 18 19 20 21 22 23 24
Seuil 2
Euclidienne Manhattan
40 0,04688
39 0,0625
5 0,0625
25 0,04688
3 0 ,0625
1 0,0625
En terme de temps, la convergence de lalgorithme est trs rapide (moins de 1 seconde) et par consquent ce qui a t dit dans la littrature sur les automates cellulaires est respect dans notre tude. Nous avons remarqus que le temps dexcution tait en croissance avec le nombre de documents. A titre indicatif lexprimentation a t ralise su PC Pentium IV cadenc 1,6 Mhz avec 512 Mo de mmoire vive. Rsultats de classification pour 20, 30 et 50 documents Seuil 1
Nombre de Classe par rapport nombre de documents
50 Nombre de classes 40 30 20 10 0 Cosinus Euclidienne Manhattan
Nombre de classe
Seuil 2
Nombre de classe par rapport au nombre de documents
30 25 20 15 10 5 0 Cosinus Euclidienne Manhattan
20
Documents
30
50
20 1
30 2
Documents
50 3
5- Conclusion et perspectives
En conclusion, nous avons propos un premier algorithme de classification non supervise (Clustering) en utilisant les automates cellulaires. Aprs exprimentation nous avons prouv que cet algorithme peut rsoudre un problme de text mining quest le clustering en regroupant efficacement des documents textuels issus du corpus REUTERS. La fonction de transition utilise dans notre automate le fait volu en formant des groupes (cluster) similaires un certain seuil prs. Les mthodes dindexation des documents textuels tel que TF-IDF et lapproche Wordnet
nous ont aids numriser nos documents et ainsi pouvoir utiliser notre automate cellulaire sur des vecteurs numriques. Donc les passages des documents au texte, du texte au nombre, du nombre lanalyse par les automates cellulaires et de lanalyse la prise de dcision sur la classification ainsi trouve ont fait lobjet de cette tude dans cet article. Cet algorithme sera, dans le futur proche, compar un algorithme utilisant lapprentissage par les cartes auto organisatrice de KOHONEN. Lalgorithme peut contribuer ainsi la problmatique de la fouille de donne textuelle et de la classification non supervise. Dans cet article, nous avons propos un algorithme qui rsout un problme de data mining en loccurrence le text mining par une mthode biomimtique (Automates cellulaires). Cet algorithme sera dans le futur expriment pour dautres types de donnes tels que les images et les donnes multimdias en gnral pour rsoudre une autre problmatique de fouille de donnes.
Rfrences
[NEU 1966] VON NEUMANN J., Theory of Self Reproducing Automata., University of Illinois Press, Urbana Champaign, Illinois, 1966. [LUM 94] LUMER E., FAIETA B., Diversity and adaption in populations of clustering ants. In Proceedings of the Third International Conference on Simulation of Adaptive Behaviour: From Animals to Animats 3, pages 501-508. MIT Press, Cambridge, MA, 1994. [BOC 1994] Efficient and effective clustering methods for spatial data mining. In J. BOCCA, M. JARKE & C. ZANIOLO, Eds., 20th Int. Conf. on Very Large Data Bases, p. 144155, Santiago, Chile : Morgan Kaufmann Publishers. [APT 1994] APT C., DAMERAU F., , WEISS S., Automated learning decision rules for text categorization, ACM Transactions on Information Systems, vol. 12, no 3, 1994, pp. 233-251. [BUR 1998] BURGES C., A tutorial on Support Vector Machines for pattern recognition, Data Mining and Knowledge Discovery, vol. 2, no 2, 1998, pp. 121-1. [Aas 1999] Aas, K., Eikvil, L.: Text categorization: a survey. Technical report, Norwegian Computing Center,1999. [Sah 1999] Sahami, M.: Using Machine Learning to Improve Information Access. PhD thesis, Computer Science Department, Stanford University, 1999. [Han 2000] J. Hansohm. Two-mode clustering with genetic algorithms. In Classification, Automation, and New Media: Proceedings of the 24th Annual Conference of the Gesellschaft Fur Klassifikation E.V., pages 8794, 2000. [Seb 2002] Sebastiani, F.: Machine learning in automated text categorization. ACM Computing Surveys, 34(1),147, 2002. [GAN 2003] GANGULY N., SIKDAR B. K., DEUTSCH A., CANRIGHT G., CHAUDHURI P. P., A Survey on Cellular Automata. Technical Report Centre for High Performance Computing, Dresden University of Technology, December 2003. [Mon 2003] Nicolas Monmarch, Christiane Guinot,Gilles Venturini, Fouille visuelle et classification de donnes par nuage dinsectes volants, Laboratoire dInformatique de lUniversit de Tours, cole Polytechnique de lUniversit de Tours - Dpartement Informatique.
[CAN 2004] Laurent Candillier, Isabelle Tellier, Fabien Torre. Tuareg : Classification non supervise contextualise - Universit Charles de Gaulle - Lille 3 France. [AZZ 2004] AZZAG H., PICAROUGNE F., GUINOT C., VENTURINI G., Un survol des algorithmes biomimtiques pour la classification. Classification Et Fouille de Donne, pages 13-24, RNTI-C-1, Cpadus. 2004. [AZZ 2005] Classification de donnes par automate cellulaire, H. Azzag, F. Picarougne, C. Guinot, G. Venturini, Universit Franois-Rabelais de Tours, Laboratoire dInformatique (EA 2101) [Aga 2005] Agata Kramm, AUTOMATES CELLULAIRES, Mmoire de matrise dinformatique, Universite Paris VIII, Septembre 2005 [AZZ 2005-A] H. Azzag, F. Picarougne, C. Guinot, G. Venturini. VRMiner: a tool for multimedia databases mining with virtual reality. Processing and Managing Complex Data for Decision Support (2005). J. Darmont and O. Boussaid, Editors. [ALE 2006] Alessandro Vinciarelli, Indexation de Documents Manuscrits Offline [Amine et al., 2008] A. Amine, Z. Elberrichi, M. Simonet, L. Bellatreche and M. Malki. SOM pour la Classification Automatique Non supervise de Documents Textuels bass sur Wordnet. Extraction et gestion des connaissances (EGC'2008) INRIA-Sophia Antipolis -France-. Volume 1. Revue des Nouvelles Technologies de l'Information RNTI-E-11 Cpadus-ditions 2008. ISSN : 1764-1667.