Recensement et description des mots composés - méthodes et applications - TEL - Thèses en ligne
  Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Thèse Année : 2000

Recensement et description des mots composés - méthodes et applications

Agata Savary

Résumé

This dissertation describes a natural language processing research in the field of nominal compounds in general and technical English. The starting point for the studies presented was INTEX, a tool for automatic treatment of large corpora.
While analyzing the problem of large coverage listing and describing of compounds, we addressed the following issues:
1) Which methods of compound description should be used ?
2) For what kind of applications is this description useful ?
The first issue is treated in the context of electronic lexical databases such as they are admitted in the INTEX system. We analyze the inflectional morphology of compounds in French, English and Polish. We propose a method of automatic generation of their inflected forms. We describe the construction of two electronic dictionaries: one for general English compounds, and the other for simple and compound terms of the computer science technical English. We also present a library of finite-state automata and transducers for the recognition of English cardinal and ordinal numerals.
The utility of large coverage compound dictionaries is verified through their application to two kinds of natural language processing tasks. First, we describe a method of acquisition of terms based on initial terminological resources. Secondly, we propose an automatic spelling checking algorithm of simple and compound words in a finite-state automaton dictionary.
Ce mémoire décrit les recherches en informatique linguistique menées par l'auteur dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé. Le point de départ pour toutes les recherches présentées a été le système de traitement automatique de grands corpus, INTEX?.
Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes :
1) Comment ce recensement peut être effectué ?
2) Est-il utile de le réaliser ?
La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous analysons la morphologie flexionnelle des noms composés en trois langues : le français, l'anglais et le polonais. Nous proposons une méthode formelle de description du comportement flexionnel des composés, ainsi qu'un algorithme qui génère automatiquement leurs formes fléchies. Nous décrivons la construction de deux dictionnaires électroniques : l'un pour les mots composés de l'anglais général, l'autre pour les termes simples et composés anglais du domaine de l'informatique. Nous présentons une bibliothèque d'automates et de transducteurs finis pour la reconnaissance des déterminants numéraux cardinaux et ordinaux de l'anglais.
L'intérêt de la création de bases lexicales pour les mots composés est vérifié dans deux types d'applications du TALN. Premièrement, nous présentons une méthode d'acquisition de terminologie, basée sur l'emploi de ressources terminologiques initiales. Deuxièmement, nous proposons un algorithme de correction orthographique des mots simples et composés, basé sur la consultation d'un dictionnaire sous format d'automate fini.
Fichier principal
Vignette du fichier
tel-00003584.pdf (980.89 Ko) Télécharger le fichier
tel-00003584.doc (95.5 Ko) Télécharger le fichier
Format Autre
Loading...

Dates et versions

tel-00003584 , version 1 (16-10-2003)

Identifiants

  • HAL Id : tel-00003584 , version 1

Citer

Agata Savary. Recensement et description des mots composés - méthodes et applications. Autre [cs.OH]. Université de Marne la Vallée, 2000. Français. ⟨NNT : ⟩. ⟨tel-00003584⟩
747 Consultations
4895 Téléchargements

Partager

More