Modèle d&#39;entrepôt de ressources hétérogènes pour le traitement sémantique des documents

Nizar Ghoula

MODÈLE D'ENTREPÔT DE RESSOURCES HÉTÉROGÈNES POUR LE TRAITEMENT SÉMANTIQUE DES DOCUMENTS Nizar Ghoula et al. Lavoisier | Document numérique 2010/2 - Vol. 13 pages 97 à 124 ISSN 1279-5127 Article disponible en ligne à l'adresse: -------------------------------------------------------------------------------------------------------------------http://www.cairn.info/revue-document-numerique-2010-2-page-97.htm Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Pour citer cet article : -------------------------------------------------------------------------------------------------------------------Ghoula Nizar et al., « Modèle d'entrepôt de ressources hétérogènes pour le traitement sémantique des documents » , Document numérique, 2010/2 Vol. 13, p. 97-124. -------------------------------------------------------------------------------------------------------------------- Distribution électronique Cairn.info pour Lavoisier. © Lavoisier. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier -------------------------------------------------------------------------------------------------------------------- Modèle d’entrepôt de ressources hétérogènes pour le traitement sémantique des documents Nizar Ghoula — Gilles Falquet — Jacques Guyot Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier RÉSUMÉ. Les ressources documentaires sont riches en connaissances d’un domaine donné. L’extraction et la représentation de ces connaissances est un problème largement exploré dont la solution est basée sur l’utilisation de ressources ontologiques, terminologiques et linguistiques. Ces ressources ont des types et des modèles de représentations hétérogènes. Nous effectuons des représentations multiples des ressources à l’aide de différents modèles de contenus. Ceci est modélisé par une ontologie générique qui formalise les modèles des ressources, les opérations que nous pouvons effectuer sur ces ressources et les processus de gestion de connaissances. L’ontologie de ressources permet de construire un entrepôt de ressources hétérogènes et facilite leur interopérabilité. Multiple sources of information can improve knowledge mangement if they are properly combined and processed. Knowledge engineering usually relies on knowledge resources, typically ontologies. We propose a domain-independent framework which models, combines and represents heterogenous sources of information. Our aim is to build a resources repository and afford operations of loading, storing, indexing, translating, generating and matching different resources. We propose an ontology as a model of these resources and we explain how can we represent, annotate and load new resources into our repository. These resources are treated to fit a specific need in a knowledge management process. ABSTRACT. MOTS-CLÉS : ontologie de ressources, multilingues, terminologie, alignement, entrepôt de ressources. KEYWORDS: ontology of resources, multilingual, terminology, alignment, resources repository. DOI:10.3166/DN.13.2.97-124 © 2010 Lavoisier, Paris RSTI - DN – 13/2010. Applications à base de SOC hétérogènes, pages 97 à 124 Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Centre universitaire d’informatique Université de Genève 7, route de Drize CH-1227 Carouge, Suisse {Nizar.Ghoula, Gilles.Falquet}@unige.ch, jacques@simple-shift.com 98 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes 1. Introduction Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Le développement et la mise à disposition d’un nombre croissant de ressources de connaissances sur le web pose la question de la recherche des ressources les plus adéquates pour un traitement sémantique donné. Des moteurs et services de recherche spécialisés ont été développés à cet effet. Le système Swoogle1 indexe environs 10 000 ontologies, d’autres services comme DAML2 et BioPortal3 (Noy et al., 2008), offrent une possibilité de recherche plus fine sur les ontologies en exprimant des requêtes sur les entités des ontologies (Ding et al., 2001). Dans le même contexte d’utilisation, le moteur de recherche d’ontologies Watson4 permet de repérer et d’indexer les ontologies du web sémantique en gardant des références vers leurs entités. Pour une requête basée sur des mots-clés, Watson (Sabou et al., 2007) renvoie une réponse sous forme d’une liste d’entités ontologiques avec des liens vers les ontologies correspondantes. D’autres systèmes existants offrent l’accès à des thésaurus, glossaires ou dictionnaires multilingues dont le portail TermSciences5 (pour les ressources terminologiques) et le portail CNRTL6 (pour les ressources linguistiques). L’utilisation d’une ressource de connaissance se réduit parfois à l’utilisation d’un fragment de celle-ci, par exemple, un ensemble d’entités (concepts, propriétés et/ou axiomes) (Bouquet et al., 2003) d’une ontologie, ou un sous-ensemble des textes d’un corpus. Dans d’autres cas, on aura besoin de plusieurs ressources, éventuellement hétérogènes et dans différentes langues, pour réaliser un traitement (Lopez et al., 2009). À titre d’exemple, si une tâche d’indexation sémantique des documents nécessite une ontologie en français7 inexistante dans les entrepôts de ressources, un utilisateur peut vouloir la générer à partir d’une ontologie existante de même type, en anglais, et d’un 1. http://swoogle.umbc.edu. 2. http://www.daml.org/ontologies. 3. http://bioportal.bioontology.org/. 4. http://watson.kmi.open.ac.uk/WatsonWUI/. 5. http://www.termsciences.fr/spip.php?rubrique23. 6. Centre national de ressources textuelles et lexicales : http ://www.cnrtl.fr/. 7. Par “ontologie en français” nous entendons une ontologie dont les concepts sont étiquetés par des termes en français. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Le traitement sémantique des documents, qu’il s’agisse d’indexation sémantique, d’alignement de textes, de désambiguïsation, de traduction, etc., requiert des connaissances de nature linguistique, terminologique et ontologique. Ces connaissances existent actuellement sous forme de ressources de différents types, telles que les terminologies, les glossaires, les ontologies (générales ou de domaine), les dictionnaires multilingues ou encore les corpus de textes (simples ou parallèles). À cette hétérogénéité des types il faut ajouter l’hétérogénéité des représentations. Il existe en effet, pour chaque type de ressource, de multiples formalismes, langages et formats de représentation. Par exemple, les ontologies peuvent s’exprimer, en logique des prédicats, dans une logique de description, sous forme de réseaux sémantiques ou avec d’autres formalismes. Tout système de gestion de connaissances pour le traitement sémantique des documents devra donc prendre en compte cette hétérogénéité. Modèle de ressources hétérogènes 99 dictionnaire de traduction anglais-français et/ou d’un ensemble d’alignements entre des concepts d’ontologies. De ce fait, les nouveaux usages créent de nouvelles ressources qui pourront elles-mêmes, à condition d’être correctement décrites et stockées, servir pour d’autres traitements. Notre objectif est de créer un système de gestion de connaissances capable de gérer les différents types de ressources intervenant dans les traitements sémantiques. Il s’agit d’une part de décrire les caractéristiques des ressources, sous forme de métadonnées, pour faciliter leur indexation. D’autre part il faut permettre de générer, par sélection, compositions, et d’autres opérations, de nouvelles ressources répondant à des besoins particuliers. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier La deuxième section est consacrée à l’identification des ressources que nous traitons et des modèles proposés dans la littérature. La troisième section décrit les niveaux de notre approche de représentation et modélisation des ressources hétérogènes. La quatrième section décrit le modèle de ressources hétérogènes que nous avons réalisé sous forme d’ontologie appelée TOK_Onto. La dernière section décrit un processus d’importation et de stockage de ces ressources et montre une implémentation de ce modèle. 2. Les ressources Ce travail fait partie d’une réflexion sur l’exploitation des ressources de connaissances et leur traitement dans un même contexte. Autour de cette réflexion, on identifie plusieurs problématiques : Comment utiliser ces ressources dans un même contexte ? Comment représenter des ressources hétérogènes ? Peut-on prendre en compte “toutes” les connaissances que contiendrait une ressource ? Quelle est la nature des ressources d’information ou de connaissances ? . . . Nous traitons la problématique relative à l’hétérogénéité des représentations des ressources8 . Nous allons tout d’abord déterminer la nature des ressources d’information et de connaissances dont on veut définir un modèle commun. 2.1. Périmètre des ressources L’objet de base de notre approche est un modèle de description des ressources. Ces ressources ont plusieurs utilisations et définitions. Leur représentation dépend de leur 8. Le terme ressource dans ce qui suit désigne une ressource terminologique, ontologique ou linguistique. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Dans cette contribution, nous présentons notre approche fondée sur la définition des métadonnées et de modèles de représentation dans une ontologie de ressources et la définition d’opérateurs de traitement des ressources. 100 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes usage. En nous basant sur une étude des ressources, nous avons organisé celles-ci en deux catégories principales. 2.1.1. Ressources autonomes Les ressources autonomes désignent la catégorie des ressources dont l’existence est indépendante des autres ressources. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Dans le traitement des documents les ontologies servent, entre autres choses, à représenter le sens des termes d’un document (levée d’ambiguïté), comme référence lors de l’annotation sémantique des documents (principe du web sémantique), comme base de raisonnement pour les systèmes de recherche d’information précise ou les systèmes question-réponse. – Ressources terminologiques : elles représentent des termes rigoureusement définis pour un domaine spécifique (Wright et al., 1997). Ces ressources sont le résultat d’une étude théorique des dénominations des objets ou des concepts utilisés par un domaine de l’activité humaine. Cette étude se focalise sur le fonctionnement dans la langue des unités terminologiques et sur les problèmes de traduction, de classement et de documentation. Beaucoup de travaux de recherche se sont focalisés sur l’étude des terminologies (Zhu et al., 2009) surtout dans le domaine biomédical. Parmi ces ressources, on trouve les thesaurus pour les systèmes d’indexation automatique, les référentiels terminologiques pour les systèmes de gestion de données techniques, les bases de données terminologiques pour l’aide à la traduction, etc. Les thesaurus sont généralement utilisés pour la recherche d’information. Chaque ressource de connaissances peut être associée à un ou plusieurs concepts représentés à l’aide d’un ensemble de termes. Dans les thesaurus les termes sont organisés suivant un nombre restreint de relations (hiérarchiques, d’équivalence et associatives) (Foskett, 1980). – Ressources linguistiques : elles représentent les types de données et informations sur la langue. Ces ressources sont plus généralement utilisées pour le traitement automatique de la langue, l’apprentissage (pour entraîner les programmes de traduction automatique par des approches statistiques). Dans ce type de ressources on trouve les documents, les corpus, les hyperdocuments, etc. Les corpus sont des ressources contenant d’autres ressources (documents) et caractérisés par la taille, le langage, le registre de langue et le temps couvert par les entités de corpus. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier – Les ressources ontologiques : une ontologie a pour but de représenter une conceptualisation d’un domaine (Gruber, 1995). Cette conceptualisation consiste essentiellement en une définition des concepts du domaine et des relations existant entre ces concepts. Les ontologies sont exprimées à l’aide de formalismes (Wang et al., 2007) qui fournissent des constructeurs pour la définition des entités ontologiques. Suivant le formalisme utilisé, les entités peuvent être des classes, propriétés, individus et axiomes (dans les logiques de description), des concepts et relations (dans les réseaux sémantiques), des classes, objets et associations (dans les modèles à objets), etc. Le choix du formalisme dépend de l’objectif pratique poursuivi lors de la construction de l’ontologie : échange de connaissances, référence commune, raisonnement automatique (inférences logiques), structuration de données, etc. Modèle de ressources hétérogènes 101 En résumé, les ressources ontologiques définissent les concepts, les ressources terminologiques permettent de décrire les termes associés à chaque concept dans une langue et les ressources linguistiques servent à décrire les langues (dans lesquelles les concepts sont exprimés). 2.1.2. Ressources d’enrichissement Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier – Ressources d’indexation : résultent d’un processus par lequel les ressources appartenant à une collection sont étiquetées pour représenter les caractéristiques des ressources et les rendre exploitables par des services de recherche d’information. Les index peuvent avoir plusieurs formes en fonction des ressources utilisées. Parmi ces ressources on trouve : (i) les index par mots-clés basés sur les ressources linguistiques et les index hypertextuels (tels que les cartes des sites) structurés pour la navigation dans les documentations techniques électroniques ou sur les sites web ; et (ii) les index ontologiques ou conceptuels (annotations sémantiques) qui enrichissent la ressource initiale en associant à son contenu des éléments conceptuels lui permettant d’être utilisable, accessible et reconnue par un ensemble d’acteurs ou d’agents. Une annotation sémantique est une formalisation de l’interprétation du texte sous forme de métadonnées (Kiryakov et al., 2004). – Ressources d’alignement : des ressources ayant un degré d’expressivité variable et des formes simples ou complexes et résultant de l’application d’une procédure de mise en correspondance entre deux ressources de même type. Cette catégorie de ressource est utilisée dans les applications de gestion de connaissances. L’alignement sert à trouver des entités similaires dans des ressources différentes tout en préservant l’indépendance et l’intégrité de ces ressources. Parmi ces ressources on trouve (i) les alignements des termes et des ressources terminologiques ; (ii) les alignement des ressources linguistiques telles que les corpus de textes alignées dans différentes langues ; et (iii) les alignements d’ontologies, qui servent à mettre en correspondance les concepts des deux ontologies. Ces correspondances peuvent être l’inclusion, l’équivalence, la disjonction etc. (Euzenat et al., 2007). À ces deux catégories de ressources on peut ajouter un autre type de ressources autonomes qui s’inscrit sous le cadre de ressources complexes ou composées. Ce type de ressources peut combiner des ressources linguistiques, terminologiques et ontologiques ou des ressources autonomes avec des ressources d’enrichissement. Par exemple, un corpus comparable ou un corpus parallèle est une sorte de ressource complexe puisqu’il contient des documents (ressources autonomes) et des alignements entre textes (ressources d’enrichissement). Les hypertextes sémantiques sont des ressources complexes combinant des ressources linguistiques indexées par des concepts ou termes figurant dans des ressources ontologiques. Wikipédia est une ressource complexe composée de plusieurs types de ressources autonomes (documents, catégories etc.) et des ressources d’enrichissement (alignements de textes pour la traduction, etc.). Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Les ressources d’enrichissement désignent les ressources résultant de l’application d’un processus (automatique ou humain) sur les ressources autonomes. 102 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes La diversité de représentation des connaissances dans les ressources s’explique par leurs utilisations différentes. Lorsque les connaissances à construire sont issues de documents, l’ingénierie de connaissances s’appuie sur des méthodologies développées dans le domaine de la linguistique et du traitement automatique des langues pour assurer une compréhension du contenu des documents considérés. Pour répondre à ces besoins en termes d’ingénierie de connaissance et recherche d’information, il faut offrir des modèles et des systèmes capables de représenter et d’utiliser les connaissances provenant de plusieurs ressources. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier S’il existe de nombreux modèles et langages de représentation des connaissances, ceux-ci sont généralement centrés sur un ou deux aspects : ontologique, terminologique, lexical, textuel, documentaire, etc. On trouve plus difficilement des modèles permettant de représenter divers aspects de la connaissance ou des ressources de différentes natures : (i) très peu de formalismes supportent l’utilisation de ressources complexes, beaucoup de formalismes se focalisent sur un niveau de représentation (linguistique, terminologique ou ontologique) ; (ii) même dans le cas où on peu mélanger les formalismes pour avoir des ressources plus riches, très peu d’utilisateurs le font, par exemple, on peut mélanger du OWL et SKOS pour avoir une ontologie et un thesaurus. Le modèle proposé par (Jimenez-Ruiz et al., 2007), permet de représenter les ontologies et leurs entités indépendamment du formalisme de nomenclature. Ce modèle est lié à un langage de requêtes appelé OntoPath qui extrait des fragments des ontologies larges avec une possibilité de spécifier le niveau de détail dans la hiérarchie des concepts. Les fragments extraits sont stockés dans une base sous forme de graphes. La généralité de ce modèle est due à sa capacité de reprendre les éléments communs dans les modèles d’ontologies et sa définition des relations abstraites entre ces entités. L’utilisation de ce modèle engendre une création de nouvelles classes et relations explicites à partir des axiomes de l’ontologie d’origine. Dans le contexte de gestion de ressources hétérogènes, ce modèle n’est pas applicable sur d’autres ressources à part les ontologies. Une modélisation de l’aspect multilingue dans les ontologies à été proposée par (Montiel-Ponsoda et al., 2008). Le modèle conçu est une association entre le métamodèle des ontologies et un modèle linguistique. Un modèle pour unifier la gestion de ressources linguistiques en contexte multilingue à été élaboré afin de centraliser la gestion des ressources linguistiques dans la plate-forme Intuition (Cailliau, 2006). Ce modèle se caractérise par son exploration de la structure des formes linguistiques. L’application de ce modèle permet de représenter des entités ontologiques et de les identifier par des unités lexicales en tenant compte des relations syntaxiques, sémantiques et multilingues. Cette représentation est centrée sur les ontologies, chaque représentation commence par l’entité conceptuelle dans une ontologie et décrit par la Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier 2.2. Modèles de représentation des ressources Modèle de ressources hétérogènes 103 suite l’unité lexicale correspondante. Ce modèle n’ayant pas de lien avec des entités ontologiques, ne permet pas de représenter des ressources linguistiques pures. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Pour l’intégration de ressources hétérogènes, (Vandenbussche et al., 2009) ont proposé un métamodèle de représentation de terminologies et d’ontologies. Ce modèle propose un formalisme de représentation plus général que les formalismes existants et fournit de nouveaux constructeurs qui apportent une expressivité supplémentaire aux ressources terminologiques. Cette représentation est basée sur la différenciation des entités de ressources, et reste fidèle à la représentation de chaque modèle de ressource, mais en utilisant des entités abstraites communes. Une partie de ce modèle est centrée sur la terminologie et reprend des entités des modèles de thésaurus (Hall, 2001; Manh Hung, 2004). Des outils comme OWLIM (Kiryakov et al., 2005) de Ontotext11 et ITM (Delaporte et al., 2004) de Mondeca12 permettent de regrouper des connaissances provenant des ontologies hétérogènes dans les formats RDF(S), OWL ou Topic Maps. Les modèles permettant de représenter ces connaissances et sur lesquels ces outils sont basés représentent les entités ontologiques ou terminologiques. OWLIM est un entrepôt sémantique, utilisant la plate-forme sesame13 pour le stockage des triplets RDF. ITM est un outil basé sur les ontologies pour la classification du contenu et la gestion des taxonomies, thésaurus, lexiques, etc. Dans la majorité des modèles que nous venons de décrire nous remarquons un attachement aux ressources, on ne peut pas représenter de nouvelles ressources différentes de celles pour lesquelles ces modèles ont été prévus. Le modèle à proposer doit avoir un niveau d’abstraction plus élevé afin de pouvoir représenter toutes les ressources avec des métadonnées communes. C’est le critère de notre modèle de ressources, il permet de représenter les ressources indépendamment de leurs types. L’originalité de 9. Yet Another Great Ontology. 10. Relatifs à l’ensemble des données existants dans une base de connaissances. 11. http://www.ontotext.com/. 12. http://www.mondeca.com/. 13. Un entrepôt RDF très populaires : http://www.openrdf.org/. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Dans le contexte de mise en correspondance de ressources linguistiques et ontologiques, (Suchanek et al., 2007) ont proposé une approche d’intégration et de fusion de Wikipédia et WordNet pour étendre une ontologie (YAGO9 ). L’ontologie est extraite de ces deux ressources par l’ajout des nouveaux faits10 extraits de Wikipédia sous forme d’individus et de classes issus des catégories conceptuelles de Wikipédia et de chaque "synset" de WordNet. Le processus d’extraction est basé sur l’identification d’un certain nombre de relations tels que ; Type, SubClassOf, Means, Context. Le modèle de l’ontologie résultante est défini en fonction de la ressource à utiliser et est dédié à la représentation de faits. Cette approche montre que la combinaison de plusieurs ressources permet de construire et d’enrichir de nouvelles ressources. Si on dispose d’un modèle générique capable de représenter les ressources, l’extraction et les combinaisons de leurs entités deviendraient des tâches moins complexes et moins coûteuses que celles proposées. 104 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes notre modèle est sa capacité à représenter les contenus des ressources avec des modèles multiples. Un modèle de contenu utilise l’ensemble des entités de la ressource qu’il décrit dans le but de rendre cette ressource utilisable par plusieurs processus de gestion de connaissances. 3. Approche de représentation des ressources Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Niveau Définition Représentation Ressource Fonction définition des métadonnées et des modèles de représentation du contenu représentation des ressources - métadonnées - représentation (abstraite) du contenu stockage de chaque ressource (dans son format d’origine) Tableau 1. Niveaux du modèle TOK Les niveaux définition et représentation forment une base de connaissances sur les ressources. Le niveau définition est assuré par la partie terminologique d’une ontologie (TOK_Onto) exprimée en logique de description. Elle comprend des descriptions de classes, propriétés et axiomes qui permettent la représentation des ressources. La représentation d’une ressource est une instance (d’une sous-classe) de la classe TOK_Resource de l’ontologie, associée à des instances d’autres classes représentant les métadonnées et le contenu de la ressource. 3.1. Métadonnées Les éléments de métadonnées sont utilisés pour décrire une ressource et faciliter son indexation dans l’entrepôt. Ces informations vont permettre d’effectuer des recherches avancées en tenant compte des critères spécifiques. Pour élaborer un modèle Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier L’approche que nous proposons repose sur un modèle d’entrepôt de ressources constitué de trois niveaux : ressource, représentation et définition, présentés dans le tableau 1. Lorsqu’une nouvelle ressource est importée dans le système on en stocke une copie (niveau ressource). Si la ressource est très volumineuse (p.ex. Wikipedia) on peut ne garder qu’une référence pointant vers la ressource originale. Une représentation de la ressource est ensuite générée et stockée au niveau représentation. Cette représentation joue deux rôles : 1) décrire globalement la ressource par des métadonnées et 2) décrire le contenu de la ressource. Le niveau définition sert à définir les métadonnées et les modèles de représentation du contenu d’une ressource. Modèle de ressources hétérogènes 105 ou un formalisme pivot capable de représenter des ressources hétérogènes nous avons suivi une démarche d’observation et de spécification des caractéristiques de ces ressources. Nos travaux précédents nous ont permis d’avoir la base théorique pour la description des ressources. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier – le domaine sert à déterminer le secteur d’activité humaine décrit par la ressource. Il existe des ressources qui couvrent plusieurs domaines tels que Wikipédia. Ce type de ressource fait référence à une liste de domaines. Nous pouvons représenter cette ressource comme une collection d’autres ressources décrivant chacune un domaine particulier. Pour la représentation des domaines nous pouvons faire référence à une ontologie ou une classification des domaines de l’activité humaine ; – le formalisme sert à la représentation de connaissances associées à la ressource. Une ressource peut être représentée par plusieurs formalismes, dans ce cas elle est représentée par des représentations selon plusieurs modèles de contenu. Pour les formalismes on trouve les approches logiques (logique de description, logique des prédicats, etc.) et les approches non logiques (graphes conceptuels, réseaux sémantiques, etc.) ; Formalisme Langage Syntaxe concrète logique de description OWL-DL OWL/XML Figure 1. Chaque formalisme est représenté par un langage ayant une syntaxe donnée – le Langage sert à déterminer le langage de représentation dans lequel le formalisme de la ressource est exprimé (cf. figure 1) ; – la catégorie sert à déterminer le type de ressource. Une ressource peut être de type ontologie, terminologie, linguistique ou ressource d’indexation, d’alignement ou d’annotation. Ce critère permet de classer les ressources pour pouvoir les réutiliser et les associer à des formats bien déterminés ; – la langue sert à indiquer la liste des langues de la ressource. Pour les ressources multilingues ce critère est défini par des valeurs multiples au niveau de la ressource et spécifié aussi chez ses entités ; – l’usage sert à indiquer les ressources dont l’usage est bien défini. Par exemple, un corpus peut être utilisé pour l’apprentissage ou le test. Une ontologie peut être utilisée Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier En effet, nos travaux sur (i) les annotations sémantiques et les documents techniques (Ghoula et al., 2007), (ii) les bibliothèques numériques sémantiques (Falquet et al., 2009) et (iii) l’indexation conceptuelle (Guyot et al., 2008) et la désambiguïsation (Guyot et al., 2005), nous ont permis de modéliser, manipuler et générer ces ressources. En se basant sur ces travaux et sur l’étude des ressources (cf. 2.1) nous avons pu déterminer les éléments des métadonnées et les caractéristiques internes et externes de chaque type de ces ressources : 106 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes pour l’annotation ou la recherche d’information. Un alignement peut être utilisé pour la fusion des ressources ou la réécriture des requêtes, etc. ; – la version sert à spécifier une version de la ressource. Une ressource peut avoir plusieurs versions, ce critère assure une bonne exploitation des ressources afin de gérer la compatibilité, par exemple, si un alignement a été élaboré entre deux ontologies, cet alignement n’est plus forcément utile avec une nouvelle version d’une des deux ontologies ; – la source sert à spécifier la personne ou l’organisme qui a conçu la ressource. L’origine de la ressource permet de savoir pour quelle raison et pour quelle utilisation une ressource a été créée ; – la taille ou volume et le degré d’expressivité de la ressource. Ces critères permettent de nous donner une information sur l’importance de la ressource et son utilité pour des opérations particulières. Afin d’avoir accès aux ressources pertinentes le concepteur peut interroger l’ontologie TOK_Onto pour chercher toutes les ressources décrivant le domaine de l’aéronautique, ayant pour langues le français et/ou l’anglais. Comme résultat de sa requête, le système de recherche basé sur TOK_Onto retourne un certain nombre de ressources, par exemple, un corpus parallèle anglais-français de textes concernant l’aéronautique, des articles de Wikipedia dans ce même domaine, classés par catégorie, et un dictionnaire des synonymes en anglais de l’aéronautique, etc. 3.2. Contenu Étant donné la diversité des ressources de connaissances terminologiques, ontologiques et linguistiques et la variété des formalismes et langages de représentation des connaissances, il serait vain de tenter de définir un modèle unifié capable de représenter le contenu de n’importe quelle ressource. L’approche que nous proposons consiste plutôt à définir un ensemble de modèles abstraits de contenus et à représenter le contenu d’une ressource à l’aide d’un ou de plusieurs modèles, en fonction des besoins. Lors de l’importation dans l’entrepôt on pourra choisir les modèles de représentation nécessaires à l’exécution des tâches pour lesquelles la ressource est requise. Ces représentations ne préservent en général pas toute la connaissance contenue dans la ressource mais en extraient les parties nécessaires à un traitement donné. Un exemple typique du besoin de modèles simplifiés est l’alignement d’ontologies. La majorité des algorithmes d’alignement actuels peuvent aligner des ontologies en OWL mais ils n’utilisent pas toute la sémantique exprimée par ce formalisme. Ils Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier À titre d’exemple, un ontologue veut enrichir une ontologie dans le domaine de l’aéronautique. Cette ontologie est sous la forme d’une hiérarchie de concepts. Il veut ajouter des définitions dans deux langues ; anglais et français, aux concepts de cette ontologie. Il veut également raffiner la classification par l’ajout de nouvelles classes. Pour réaliser cette tâche, il lui faut des ressources externes telles que des glossaires, terminologies ou dictionnaires bilingues dans les langues en question. Modèle de ressources hétérogènes 107 sont souvent basés sur les étiquettes textuelles attachées à chaque classe dans la structure de l’ontologie. La structure est généralement un graphe représentant la hiérarchie des classes et les propriétés qui font le lien entre deux classes (e.g. Il y a un lien d’étiquette P entre les classes C1 et C2 , s’il existe un axiome de la forme C1 ⊑ P only/some C2 ). Dans ce cas, il est plus approprié de représenter une ontologie en OWL par un graphe de structure au lieu d’utiliser le modèle complet de la logique de description OWL. Les algorithmes d’alignement vont être plus faciles à écrire et ils vont permettre d’aligner plusieurs types d’ontologies pouvant être représentées par un graphe étiqueté. Au niveau de la base de connaissances, nous créons une instance représentant la ressource et des instances représentant ses entités. Selon les traitements que nous avons besoin d’appliquer, cette représentation peut utiliser un certain type de modèle. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier 3.3. Traitement des ressources La gestion et le traitement des ressources dans l’entrepôt consistent essentiellement à importer des ressources, puis à appliquer des processus sur leurs représentations pour générer de nouvelles ressources. Si l’on revient à l’exemple de la section 3.1 concernant l’ontologie aéronautique, le processus d’extension ou d’enrichissement pourrait être décrit comme suit : – recherche de glossaires, terminologies ou dictionnaires de termes en anglais et français relatifs au domaine de l’aéronautique (par sélection sur les métadonnées) – application d’opération de transformation (mapping) pour obtenir des représentations de leur contenu sous forme d’ontologies lexicales (chaque terme donne lieu à un concept avec sa définition sous forme d’annotation) ; – application d’opérations d’alignement d’ontologies pour faire correspondre les concepts de ces ontologie avec ceux de l’ontologie à étendre ; – fusion des ontologies ainsi alignées pour produire une nouvelle ontologie enrichie ; – exportation de cette ontologie dans le format désiré. Chaque processus de traitement de ressources peut être décrit comme une séquence d’opérations élémentaires sur les représentations de ressources. Ces opérations peuvent être de différents types : transformations de représentations (pour passer d’un modèle à un autre), sélection d’un sous-ensemble des entités d’une représentation, fu- Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier En outre, la même ressource peut être impliquée dans des processus qui supportent chacun un format spécifique. Ainsi, grâce aux représentations multiples une même ressource peut être utilisée dans plusieurs processus car son contenu est représenté par plusieurs modèles. Par exemple, un algorithme d’alignement ne peut accepter des ontologies au format OWL, tandis qu’un autre algorithme nécessite des ontologies dans un format de type WordNet. 108 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes sion, alignement, composition d’alignement, annotation, etc. Mis à part l’importation et l’exportation toutes ces opérations agissent au niveau représentation et non pas directement sur les ressources elles-mêmes. Chaque opération est caractérisée par le ou les modèles de représentation auxquels elle s’applique et les algorithmes ou heuristiques utilisés. La modélisation des processus et opérations a deux objectifs principaux : 1) trouver les opérations applicables à une ressource ou inversement trouver les ressources sur lesquelles on pourrait appliquer une opération ; 2) mémoriser les processus de création de ressources dérivées, ce qui permettra, entre autres, de ré-exécuter les processus sur de nouvelles versions des ressources. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 2. Exemple d’un scénario d’utilisation de TOK_Onto 4. Ontologie de ressources 4.1. Modélisation des métadonnées des ressources L’étude des ressources selon les critères identifiés précédemment nous a permis de construire une classification des ressources et d’élaborer la première couche de notre ontologie générale TOK_Onto14 . La classe ‘TOK_Resource’ permet de modéliser les ressources, elle comporte plusieurs sous-classes en fonction du type des ressources étudiées. Les critères communs 14. Disponible sur internet à http://cui.unige.ch/isi/onto/tok/OWL_Doc/. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier La figure 2 montre comment les différents nivaux du modèle TOK sont impliqués dans le traitement des ressources tels que l’importation, la recherche et la génération, etc. Modèle de ressources hétérogènes 109 Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 3. Vue partielle de la classification des ressources de connaissances dans TOK_Onto Cette ontologie décrit l’ensemble des ressources de connaissances hétérogènes. TOK_Onto, a été développée en format OWL avec le degré d’expressivité SRIQ(D) en utilisant l’éditeur d’ontologies Protégé. TOK_Onto contient 195 concepts (nommés et non nommés), 120 propriétés, 450 axiomes, et 2 000 annotations. La figure 4 décrit la classe ‘TOK_Resource’ et ses liens avec les autres classes à travers des propriétés. Une ressource peut contenir, importer ou être alignée avec d’autre ressources. Les entités d’une ressource sont modélisées par la classe ‘TOK_Entity’, ces entités peuvent avoir des relations entre elles de type association, alignement, traduction, description. La relation entre une classe et une propriété dans une ontologie est de type ‘source -> destination’. Chaque élément (concept, propriété, axiome, individu, terme, etc.) est traité comme une entité de connaissances ontologiques, terminologiques ou linguistiques Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier de ces ressources sont représentés dans cette classe et les critères spécifiques font l’objet d’une description dans des sous-classes. 110 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 4. Modèle de ressources TOK Les relations entre les entités sont représentées par des instances de "Entity_Relation" qui permettent de catégoriser ces relations par type (relation entre concepts, relation entre termes, relation entre concepts et propriétés, relation entre concepts et individus, relation entre termes et concepts, etc.). La relation entre les concepts peut avoir plusieurs types comme l’équivalence, la subsomption, l’intersection, la disjonction, etc. 4.2. Modélisation multiple du contenu des ressources Un modèle de contenu est composé d’un ensemble de classes, correspondant aux diverses entités du modèle, de propriétés et d’un ensemble d’axiomes définissant les relations entre ces classes. La représentation du contenu d’une ressource est composée d’instances des classes satisfaisant les axiomes du modèle. Le modèle de contenu Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier (TOK_Entity) et lié à une ressource à travers la relation "uses" entre le modèle de la ressource et l’entité. Modèle de ressources hétérogènes 111 joue le rôle du lien entre la ressource et ses entités, puisqu’une représentation d’une ressource par un modèle spécifique utilise une partie ou la totalité de ses entités. Métadonnées Contenu Content Representation Resource Entity TOK_Onto classes M1 “OWL” language content M2 uses c1 r 2010-03 creation content c2 uses Représentation e.x. Fichier OWL, corpus, ... Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 5. Représentation d’une ressource avec ses métadonnées et deux représentations de son contenu (c1 et c2). Les éléments de représentation sont des instances des classes de TOK_Onto Nous avons décrit un ensemble de modèles de représentation du contenu à l’aide des axiomes et concepts dans notre ontologie de ressources. TOK_Onto permet de décrire : – les modèles (figure 6) relatifs à la représentation de la ressource selon la démarche décrite dans la section (3.2) ; Figure 6. La classification des modèles de représentation du contenu des ressources dans l’ontologie TOK_Onto Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Resource 112 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 7. La classification des entités dans l’ontologie TOK_Onto Exemple : représentation de la ressource WordNet à l’aide de l’ontologie TOK_Onto. WordNet (Fellbaum, 1998) est un ensemble de formes lexicales ayant des liens entre elles. La composante atomique sur laquelle repose le système entier est le synset (synonym set), un groupe de mots interchangeables, dénotant un sens ou un usage particulier. Nous avons construit un modèle de représentation du contenu de la ressource WordNet et nous l’avons appelé WN_Like (WordNet like). Ce modèle est composé des classes Concept, Term, LexicalForm, Sentence, Part_of_speech et des classes associatives Sem_Relation, Term_Relation et Form_Relation (entre autres). Dans ce type de modèle on part des entités conceptuelles, liées entre elles par des relations sémantiques, vers les entités terminologiques reliées avec les concepts par des relations de description ou étiquetage. Les termes sont décrits par des formes lexicales qui sont des entités linguistiques permettant de désigner un terme dans une langue donnée. La figure 8 présente le modèle de cette ressource dont les correspondances avec ses entités initiales. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier – les détails des entités appartenant aux ressources (figure 7) et leurs particularités. Cette description est modélisée par la classe TOK_Entity. Les types d’entités sont décrits comme des sous-classes de TOK_Entity. Modèle de ressources hétérogènes 113 Part_of_speech ispos Sem_Relation dest Sentence Concept def ined_by subClassOf src Holonym described_by src dest Term_Relation dest Meronym Term f orm Lexical_Form subClassOf src Form_Relation subClassOf Translation Synonym Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier 4.3. Représentation des opérateurs Pour compléter la définition d’un modèle de représentation du contenu, il faut lui associer un ensemble d’opérateurs. Les opérateurs permettent d’utiliser une représentation du contenu pour effectuer un traitement sur les entités qu’elle utilise. Par exemple, à chaque modèle de représentation du contenu on associe un opérateur ou plusieurs opérateurs d’importation et d’exportation qui permettent de représenter une ressource exclusivement à l’aide des éléments de ce modèle. Nous avons conçu un modèle d’opérateurs élémentaires et complexes (cf. figure 9) en nous basant sur nos travaux antérieurs sur des opérateurs pour la gestion des ontologies (Falquet et al., 2008). Selection Import Alignment subClassOf has_impl Algorithm uses Implementation uses Method Operator has_parameter Parameter Figure 9. Partie de la description du modèle d’opérateurs type Model Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 8. Partie de la description du modèle WordNet_Like 114 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes 5. Stockage des représentations des ressources Nous avons construit un espace de stockage permettant à la fois de représenter des ressources, leurs entités et les relations entre elles. Cet espace de stockage est la base du reste du travail qui sera la détection des alignements entre concepts ou entités, la traduction et l’alignement multilingue des unités lexicales, ainsi que d’autres opérations. La possibilité de stocker directement des triplets RDF dans l’entrepôt a été explorée grâce au modèle RDF offert par Oracle15 . En réalisant une expérimentation avec ce mécanisme de stockage en triplet nous avons réalisé une expansion importante de la taille de données ce qui nécessite un espace mémoire plus volumineux. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Nous avons utilisé la structure de stockage correspondant au modèle des ressources car elle est équivalente au modèle RDF. Cette structure est sous la forme d’un modèle nœud-lien qui ressemble à des triplets RDF16 . Le modèle nœud-lien se caractérise par (i) des éléments qui sont sous formes de nœuds (entités) tels que les concepts, les termes, les formes lexicales, les phrases, etc., (ii) des liens entre les nœuds tels que les relations hiérarchiques, les relations sémantiques et d’autres types de relations provenant des modèles de représentation des ressources, (iii) les sources de données et (iv) les modèles de représentation de ces sources. Ce modèle a servi pour la définition du schéma de la base de données de l’entrepôt de ressources. L’utilisation des bases de données se justifie par la taille importante des ressources à traiter. Nous voulons exploiter les performances de ce type de stockage avec son langage de requêtes simple et efficace. Les instances permettent de faire le lien avec les ressources physiques dans la base de données. Chaque élément d’une ressource est associé à une classe de TOK_Onto. La table NODES est décrite de la façon suivante : NODES ( IDN : identifiant unique de l’entité, IDN_EXTERN : identifiant original de l’entité dans la ressource, KIND : type de l’entité (Concept, Terme, . . . , LANG : langue de l’entité si défini, SOURCE : le ressource d’origine de l’entité (clé étrangère vers la table SOURCES), STATUS : statut de l’entité dans le version de la ressource (valable ou invalide), LIB : label de l’entité si défini, EXTENSION : référence vers la description de l’entité, COM : commentaires et annotations, EXT_TYPE : type de l’extension de référence (fichier, texte, . . . ) ) 15. http://www.oracle.com/technology/tech/semantic_technologies/index.html 16. Nous sommes entrain de migrer vers les entrepôts RDF sous Jena ou Sesame Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier 5.1. Modèle de stockage Modèle de ressources hétérogènes 115 La table LINKS est décrite de la manière suivante : LINKS ( REL : identifiant de la relation utilisée (clé étrangère vers la table RELATIONS, IDNFROM : identifiant unique de l’entité source (clé étrangère vers la table NODES), IDNTO : identifiant unique de l’entité cible (clé étrangère vers la table NODES), RELINV : identifiant unique de la relation inverse source (clé étrangère vers la table RELATIONS), SOURCE : identifiant unique de la ressource en question (clé étrangère vers la table SOURCES), SEQ : numéro de séquence de la relation (exemple : n˚ de synset pour WordNet), CONFIDENCE : degré de confidence du lien entre les 2 entités, STATUS : statut du lien entre les 2 entités dans le version de la ressource (valable ou invalide), COM : commentaires et annotations, ) Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Notre technique d’importation des ressources dans la structure de stockage permet de formaliser et stocker les ressources TOK dans un seul entrepôt. Cette méthodologie est décrite à travers un processus de chargement de ressources composé de quatre modules. Figure 10. Description de processus de chargement de ressources dans l’espace de stockage Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier 5.2. Importation des ressources 116 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes 1) Un module d’extraction, basé sur une interaction entre trois niveaux de représentation de connaissances : – identifier les entités de chaque ressource en utilisant l’ontologie TOK_Onto, chaque nouvelle entité est considérée comme instance d’un concept de l’ontologie ; – extraire les relations hiérarchiques et de structure de la ressource. Ceci étant utile pour l’exportation de la ressource en question et pour la classification des entités ; – extraire les axiomes et les représenter à l’aide de l’ontologie TOK_Onto pour garder la sémantique des concepts de la ressource. 2) Un module de stockage et d’indexation des entités, qui permet de construire de nouveaux enregistrements dans la base de données pour stocker les entités extraites (instances de TOK_Entity). 3) Un module d’extraction des relations, assurant l’inférence des dépendances entre les entités stockées. Ces dépendances sont généralement des subsomptions, des relations hiérarchiques simples, ou des relations complexes entre concepts et propriétés. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Le modèle TOK est en cours d’utilisation. Nous ajoutons progressivement de nouvelles ressources. Nous avons ajouté AGROVOC17 en 17 langues, WordNet en anglais, allemand, Catalan, Espagnol, etc., UNL18 en Français, Arabe, Japonais, CityGML19 , URBAMET20 , etc. Nous avons stocké ces ressources et nous avons pu générer un ensemble d’entités conceptuelles et terminologiques. Ces entités ont été reliées entre elles par des relations d’indexation de catégorie "Term_Concept" et des relations de traduction et de hiérarchie de catégorie "Term_Term". Ces liens ont été établis par l’implémentation du module d’extraction des relations. L’algorithme d’extraction permet de repérer les relations entre entités, nous allons l’étendre pour détecter des relations complexes et des alignements multilingues. La figure 11 montre un extrait des ressources importées dans l’entrepôt. La colonne de gauche est une liste des modèles utilisés. La colonne de droite montre la 17. AGROVOC est un vocabulaire multilingue structuré, développé par la FAO, couvrant la terminologie de tous les domaines ayant trait à l’agriculture, à la pêche, à l’alimentation et aux domaines connexes (l’environnement, par exemple). 18. Universal Networking Language, est un langage artificiel qui peut être utilisé comme langage pivot pour des systèmes de traduction automatique ou comme un langage de représentation des connaissances dans les applications de recherche d’information. 19. CityGML est un modèle d’information commun pour la représentation des objets 3D en milieu urbain. 20. URBAMET est une base de données bibliographiques française sur l’urbanisme, l’aménagement du territoire, les villes, l’habitat et le logement, l’architecture, les équipements collectifs, les transports, les collectivités locales etc. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier 4) Un module d’indexation d’axiomes permettant de les décrire et d’identifier les entités utilisées dans chaque axiome. Modèle de ressources hétérogènes 117 Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 11. Les ressources importées dans l’entrepôt classées par modèle 5.3. Usage de l’entrepôt Actuellement, notre entrepôt compte environ 950 000 formes lexicales différentes dans 24 langues, 173 000 concepts d’ontologies et 335 000 phrases provenant tous de 13 ressources différentes. Pour importer ces ressources, nous avons développé plusieurs outils pour faire la correspondance entre les formats et les langages de représentation des ressources (OWL/XML, WordNet, AGROVOC, XML Schema, les pages HTML liées, . . . ) pour supporter des modèles tels que WordNet_Like, mémoire de traduction, . . . Exemple : génération d’une ontologie lexicale à partir de Wikipédia Pour importer des éléments de la ressource Wikipédia nous avons utilisé un modèle de représentation simplifié (Wikipédia_Like) et nous l’avons enrichi par le biais du processus d’extraction de termes, des descriptions et des liens dans les articles. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier liste des ressources qui utilisent un modèle sélectionné, dans ce cas c’est le modèle WordNet_Like. 118 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes Wikipedia import 1 w1 : WP_Like inf er 2 w2 : WP_Like 3 trans O : WN_Like Figure 12. Importation des articles de la ressource wikipédia dans l’entrepôt Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier 1) L’importation d’un ensemble d’éléments de la ressource Wikipédia se fait par l’identification des documents hypertextes, leur type et leurs métadonnées dans le modèle WP_Like : Page de Wiki —> Hypertext_Doc (classe définie dans TOK_Onto) ; Suffixe de l’URL —> name (propriété définie dans TOK_Onto) ; Liens vers des pages dans d’autres langues —> Translation_Link ; Contenu HTML —> Doc_Part ; f rom X name Hypertext_Doc has_P art Y role Doc_Part Hypertext_Link to subClassOf Translation_Link Figure 13. Partie de la description du modèle Wikipédia_Like 2) L’identification des éléments d’annotation et de traduction se fait pas une heuristique qui attribue le rôle ‘Definition’ (définition) à la partie du document qui permet de décrire le concept représenté par la page. Cette heuristique permet de parcourir toutes les pages wikipedia, figurant comme traduction de la page de référence, et d’extraire les formes lexicales avec leurs langues correspondantes comme des candidats de traduction pour la forme lexicale source. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Wikipédia est une ressource de type corpus structurée et organisée par catégories. C’est une collection d’articles ayant la forme d’un document hypertexte, ce document contenant plusieurs sections relatives à la définition, traduction, classification et désambiguïsation d’un terme. Modèle de ressources hétérogènes 119 3) Le changement de modèle se fait par la transformation de la représentation de la ressource importée du modèle WP_Like vers le modèle WN_Like. Le mapping entre les deux modèles se fait sur la base des correspondances suivantes : Hypertext_Doc → Concept l’URL du document devient un concept name → Lexical_Form avec spécification de la langue Translation_Link → form avec la construction du Term qui fait le lien entre le concept et la forme lexicale ... ; Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 14. Parcours des termes et concepts extraits à partir des pages Wikipédia Les opérations d’enrichissement des ressources permettent de générer de nouveaux alignements ou annotations sur des ressources existantes. Elles sont généralement basées sur des algorithmes spécifiques (ou des heuristiques) et utilisent des ressources auxiliaires. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier La figure 14 représente une interface permettant de parcourir les entités importées à partir de la ressource Wikipédia dans l’espace de stockage TOK_Base. 120 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes Une opération d’alignement prend comme entrée deux contenus de ressources, représentés par le même modèle (M1 ) et produit un contenu de type alignement dans le même modèle que nous notons Aln < M1 > Exemple : enrichissement de la ressource WordNet en anglais par des formes lexicales d’autres langues. Ceci est un exemple plus spécifique d’une opération d’alignement de ressources représentées par le modèleWN_Like. Nous avons conçu un algorithme d’alignement simple que nous avons appelé AL_HS permettant de collecter les alignements évidents par similarité de parent sur le modèle WordNet_Like. Le modèle de cet opérateur est appelé ALG-ISI1. La signature de cet opérateur est : alignAL_HS : (AL_SP : W N _Like, W N _Like → Aln < W N _Like >) alignAL_HS :→ implemAL_HS < ALG − ISI1 > (implémentation) WN_Like WN_Like WN_Like . . align AlAgWn AlUnWn Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Nous avons aligné la version en Anglais de WordNet avec d’autres ressources, comme AGROVOC, URBAMET, UNL, qui ont des formes lexicales dans plusieurs langues. Cela nous a permis l’importation de ces formes lexicales dans la version en Anglais de WordNet et de les associer aux concepts correspondants, obtenant ainsi un enrichissement WordNet. Similirarité du parent et enfants table F F T T = Source X furniture C table = UC C parent parent C C T T F F Source Y furniture Figure 15. Alignement par similarité dans le modèle TOK Des alignements et des correspondances s’effectuent par le biais de la similarité des formes. Ces correspondances déduites (819 alignements), permettent la désambiguïsation des termes. Dans cet exemple (figure 16), le concept numéro 161185 est décrit par le terme "table" en Anglais qui est un terme ambigu, son alignement avec le Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier import AGROVOC WordNet UNL Modèle de ressources hétérogènes 121 terme "mesa" en Espagnol (non ambigu), permet de déduire que le concept "161185" appartenant à la catégorie des meubles. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier L’importation du contenu d’une ressource ne permet pas nécessairement de préserver tout son contenu. En particulier, si le modèle de représentation du contenu est moins expressif que le modèle original de la ressource, il est évident qu’au cours du processus d’importation certaines informationss vont être perdues. À titre d’exemple, en important des ontologies en OWL vers le modèle WN_Like nous avons perdu la sémantique des concepts exprimée par les axiomes. Le problème de perte d’information n’est pas considéré comme un handicape puisque nous gardons une version originale de la ressource. 6. Conclusion Notre travail est centré sur les ressources de connaissances terminologiques, ontologiques et linguistiques. Nous avons proposé un modèle de représentation de ces ressources et nous avons expliqué sa construction et son usage. Ce modèle intervient dans (i) le traitement d’un large spectre de ressources représentées dans différents formalismes ; (ii) la définition d’un processus de transformation et de sauvegarde des ressources ; (iii) la perspective de définir un ensemble d’opérateurs pour la traitement sémantique des ressources et la détection des alignements. L’objectif principal de notre approche est de pouvoir générer de nouvelles ressources à partir de la composition des ressources existantes dans l’entrepôt et instanciées dans l’ontologie. Ainsi, l’enrichissement des connaissances dans l’entrepôt s’effectue à chaque utilisation. En se basant sur l’espace de stockage élaboré, les traitements sur les connaissances devront permettre l’utilisation, la génération, l’intégration de connaissances et la production de nouvelles ressources dans différents formalismes. Cette boîte à outils est basée sur l’entrepôt de données TOK_Base, l’ontologie TOK_Onto et l’implémentation de l’ensemble des opérateurs. L’entrepôt a été implé- Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Figure 16. Exemple d’entités alignées dans deux ressources 122 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes menté à l’aide des technologies de bases de données relationnelles et d’applications Java. Il possède une interface web pour son utilisation interactive. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier L’application de notre approche crée de nouvelles connaissances et fournit plusieurs composantes pour l’entrepôt de ressources interagissant toute avec TOK_Onto : (1) le dictionnaire de modèles de représentation du contenu, modélisant des formalismes existants ou fournissant de nouvelles représentations des ressources ; (2) l’entrepôt de ressources, utilisant l’ontologie TOK_Onto avec les modèles de représentations ; (3) le dictionnaire des opérations, qui contient des opérations simples ou complexes pour la manipulation des ressources en fonction du modèle de représentation et (4) le dictionnaire de processus, basé sur la modélisation des processus de gestion de connaissances. Cette modélisation prend en compte la possibilité de combiner des opérateurs fournis par le dictionnaire des opérations et des modèles existants dans le dictionnaire des modèles et des instances des ressources dans l’entrepôt. Dans ce dictionnaire on peut modéliser les processus d’alignement, d’annotation sémantique, l’indexation conceptuelle, la traduction, etc. Une prochaine étape du travail consiste à définir des règles et des axiomes permettant d’associer à chaque tâche l’ensemble des ressources à utiliser, la représentation correspondante, les opérateurs disponibles ou la combinaison des opérateurs permettant d’effectuer cette tâche. Pour assurer la réalisation de cette perspective nous devons : (i) définir un modèle pour chaque tâche de traitement de connaissances utilisant les ressources TOK, ces modèles de tâches seront le résultat d’une réflexion sur un ensemble de cas d’utilisation ; (ii) étudier les besoins et définir des règles permettant de rattacher à chaque tâche l’ensemble des ressources candidates pour être utiles à son accomplissement ; (iii) définir une algèbre ou un langage de composition d’opérateurs de sélection, génération, intégration, projection ou alignement afin de construire un nouvel opérateur relatif à la tâche demandée par l’utilisateur ; (iv) définir et appliquer un ensemble d’heuristiques pour la déduction des correspondances pour construire des alignements entre les ressources lors de l’exécution d’une tâche quelconque. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Comme nous l’avons décrit au début, nous voulons par la suite modéliser l’usage des ressources. Ces usages vont permettre d’associer à une tâche de gestion de connaissances un type de ressource bien déterminé. Les tâches sont à définir sous forme d’opérateurs abstraits. Ces opérateurs devront permettre à l’utilisateur de générer la connaissance qui répond à son besoin en toute simplicité et transparence. De ce fait, il faut concevoir par la suite un métalangage des opérateurs. La définition de ces opérateurs dépend des traitements sur les ressources collectées. Ainsi, faut-t-il connaître les besoins des utilisateurs potentiels d’un tel système de gestion de connaissances. Chaque opérateur peut être implémenté de plusieurs façons en fonction de la nature des ressources utilisées. Ces implémentations doivent construire un Framework d’outils que l’utilisateur peut parcourir afin de sélectionner un opérateur de son choix. Modèle de ressources hétérogènes 123 7. Bibliographie Bouquet P., Giunchiglia F., van Harmelen F., Serafini L., Stuckenschmidt H., « COWL : Contextualizing Ontologies », Second International Semantic Web Conference, vol. 2870 of Lecture Notes in Computer Science, Springer Verlag, p. 164-179, 2003. Cailliau F., « Un modèle pour unifier la gestion de ressources linguistiques en contexte multilingue », in P. Mertens (ed.), Verbum ex machina : actes de la 13e Conférence sur le Traitement Automatique des Langues Naturelles, Presses univ. de Louvain, p. 454-461, 2006. Delaporte G., Amardeilh F., « ITM et intelligence ééconomique : MONDECA = ITM software and competitive intelligence : MONDECA », , vol. 2, p. 365-366, 2004. Ding Y., Fensel D., « Ontology Library Systems : The key to successful Ontology Re-use », Stanford University 2001 ; S, p. 93-112, 2001. Euzenat J., Shvaiko P., Ontology matching, Springer-Verlag, Heidelberg (DE), 2007. Falquet G., Jiang C.-L. M., Guyot J., « Un modèle et une algèbre pour les systèmes de gestion d’ontologies », EGC, p. 697-702, 2008. Falquet G., Nerima L., Ziswiler J.-C., « Hyperbooks », in S. R. Kruk, B. McDaniel (eds), Semantic Digital Libraries, Springer, p. 179-196, 2009. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Foskett D. J., « Thesaurus », in A. Kent, H. Lancour, J. E. Daily (eds), Encyclopedia of Library and Information Science, vol. 30, Marcel Dekker, New York, p. 416-462, 1980. Ghoula N., Khelif K., Dieng-Kuntz R., « Supporting Patent Mining by using Ontology-based Semantic Annotations », Web Intelligence, IEEE Computer Society, p. 435-438, 2007. Gruber T. R., « Toward principles for the design of ontologies used for knowledge sharing ? », Int. J. Hum.-Comput. Stud., vol. 43, n˚ 5-6, p. 907-928, 1995. Guyot J., Falquet G., Radhouani S., Benzineb K., « Analysis of Word Sense DisambiguationBased Information Retrieval », in C. Peters, T. Deselaers, N. Ferro, J. Gonzalo, G. J. F. Jones, M. Kurimo, T. Mandl, A. Peñas, V. Petras (eds), CLEF, vol. 5706 of Lecture Notes in Computer Science, Springer, p. 146-154, 2008. Guyot J., Radhouani S., Falquet G., « Conceptual Indexing for Multilingual Information Retrieval », in C. Peters, F. C. Gey, J. Gonzalo, H. Müller, G. J. F. Jones, M. Kluck, B. Magnini, M. de Rijke (eds), CLEF, vol. 4022 of Lecture Notes in Computer Science, Springer, p. 102112, 2005. Hall M., « CALL Thesaurus Ontology in DAML », 2001. Jimenez-Ruiz E., Llavori R. B., Nebot V., Sanz I., « OntoPath : A Language for Retrieving Ontology Fragments. », in R. Meersman, Z. Tari (eds), OTM Conferences (1), vol. 4803 of Lecture Notes in Computer Science, Springer, p. 897-914, 2007. Kiryakov A., Ognyanov D., Manov D., « OWLIM - A Pragmatic Semantic Repository for OWL », WISE Workshops, p. 182-192, 2005. Kiryakov A., Popov B., Ognyanoff D., Manov D., Goranov K. M., « Semantic annotation, indexing, and retrieval », Journal of Web Semantics, vol. 2, p. 49-79, 2004. Lopez P., Romary L., « Multiple Retrieval Models and Regression Models for Prior Art Search », CoRR, 2009. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Fellbaum C. (ed.), WordNet : An Electronic Lexical Database, Language, Speech, and Communication, MIT Press, Cambridge, Mass., 1998. 124 RSTI - DN – 13/2010. Applications à base de SOC hétérogènes Manh Hung N., « Thesaurus Implementation in Integrated System of Information Resources (ISIR) », Program. Comput. Softw., vol. 30, n˚ 4, p. 230-240, 2004. Montiel-Ponsoda E., Aguado de Cea G., Gómez-Pérez A., Peters W., « Modelling Multilinguality in Ontologies », Companion volume : Posters, Coling 2008 Organizing Committee, Manchester, UK, p. 67-70, August, 2008. Noy N. F., Shah N., Dai B., Dorf M., Griffith N., Jonquet C., Montegut M., Rubin D. L., Youn C., Musen M. A., « BioPortal : A Web Repository for Biomedical Ontologies and Data Resources », in C. Bizer, A. Joshi (eds), International Semantic Web Conference (Posters & Demos), vol. 401 of CEUR Workshop Proceedings, CEUR-WS.org, 2008. Sabou M., Dzbor M., Baldassarre C., Angeletou S., Motta E., « WATSON : A Gateway for the Semantic Web », Poster session of the European Semantic Web Conference, ESWC, 2007. Suchanek F., Kasneci G., Weikum G., « YAGO : A Core of Semantic Knowledge - Unifying WordNet and Wikipedia », in C. L. Williamson, M. E. Zurko, P. J. Patel-Schneider, Peter F. Shenoy (eds), 16th International World Wide Web Conference (WWW 2007), ACM, Banff, Canada, p. 697-706, 2007. Vandenbussche P.-Y., Charlet J., « Méta-modèle général de description de ressources terminologiques et ontologiques », in F. L. Gandon (ed.), Actes d’IC, PUG, p. 193-204, 2009. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Wright S. E., Budin G. (eds), Handbook of Terminology Management, vol. 1 — Basic Aspects of Terminology Management, John Benjamins, Amsterdam, 1997. Zhu X., Fan J.-W., Baorto D. M., Weng C., Cimino J. J., « A review of auditing methods applied to the content of controlled biomedical terminologies », Journal of Biomedical Informatics, vol. 42, n˚ 3, p. 413 - 425, 2009. Auditing of Terminologies. Document téléchargé depuis www.cairn.info - univ_geneve - - 129.194.8.73 - 30/11/2011 14h21. © Lavoisier Wang Y., Haase P., Bao J., « A Survey of Formalisms for Modular Ontologies », International Joint Conference on Artificial Intelligence Workshop SWeCKa, Hyderabad, India, JAN, 2007.

RELATED PAPERS

RELATED TOPICS

Log In

Modèle d'entrepôt de ressources hétérogènes pour le traitement sémantique des documents

Modèle d'entrepôt de ressources hétérogènes pour le traitement sémantique des documents

Related Papers

RELATED PAPERS

RELATED TOPICS