Research Interests:
This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the geographical and/or historical frame and gives information about his or her nature and functions. Special attention has been given to noting... more
This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the geographical and/or historical frame and gives information about his or her nature and functions. Special attention has been given to noting the different spellings. Although the first source of information was a set of specialized books (most of them French), the Internet has been widely used, after carefully selecting and checking the data.Le dictionnaire présenté offre une large couverture (plus de 8 000 entrées et plus de 10 000 variantes). Il indique, pour chaque divinité, le domaine géographique et/ou historique, et donne des indications sur sa nature et ses fonctions. Une attention particulière a été accordée à la notation des différentes graphies. Bien que la source première ait été constituée par un corpus d'ouvrages spécialisés (français pour la plupart), le Web a été largement pris en compte, après un filtrage rigoureux des données
Research Interests:
Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d'autres... more
Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d'autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu. Abstract. French Contemporary Morphological Dictionaries : Morfetik Database, Elements of a Model for Computational Linguistics In this article, we present a morphological linguistic resource for Contemporary French called Morfetik. We first detail its composition, features and coverage. We compare it to other available morpholo...
Research Interests:
Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes permettant de decrire, a partir de la liste des lemmes, toutes les formes flechies correspondantes (mise au pluriel et, pour les adjectifs, au... more
Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes permettant de decrire, a partir de la liste des lemmes, toutes les formes flechies correspondantes (mise au pluriel et, pour les adjectifs, au feminin). Il prend en compte la diversite des formes (plusieurs centaines de types morphologiques pour les noms composes) et la complexite de certains schemas flexionnels, notamment pour les mots a trait d'union (FRANCS-comtois mais FRANC-comtoises, arriere-GRAND-meres ou arriere-GRANDS-meres). Le systeme propose se veut suffisamment flexible pour pouvoir prendre en charge tous les cas de figure.
Research Interests:
Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures paradigmatiques". A partir d'une base de donnees de large couverture (plus de cent mille unites lexicales de toutes categories :... more
Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures paradigmatiques". A partir d'une base de donnees de large couverture (plus de cent mille unites lexicales de toutes categories : noms composes, locutions verbales, etc.), plusieurs tests sont mis en oeuvre, impliquant differents types de commutation : substitution de synonymes (devenir chevre / *devenir bique), d'antonymes (avec une analyse plus detaillee des composes de type Adjectif Nom : un haut fonctionnaire / *un bas fonctionnaire) ou d'elements d'une meme classe semantique (un temps de chien / *un temps de chat). Ce dernier point permet d'affiner et de generaliser l'analyse. Il faut compter aussi avec les cas de defigement, dont on trouve de nombreux exemples sur le Web (journee portes fermees) et la possibilite de double interpretation (les deux sens de table ronde). Si les irregularites distributionnelles ne sont pas le seul element de l'idiomatic...
Research Interests:
Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement du point de vue syntaxique et semantique, mais aussi en termes de domaines. Cette information ouvre la voie a plusieurs applications, telles... more
Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement du point de vue syntaxique et semantique, mais aussi en termes de domaines. Cette information ouvre la voie a plusieurs applications, telles que l'elimination des ambiguites, la realisation de glossaires ou l'identification du sujet d'un texte. Pour ce faire, il est utile de distinguer deux niveaux de description, le domaine et le sous-domaine. On montrera ici l'interet de cette information pour le traitement automatique des langues, en precisant le lien entre les deux categories et la methode de codage proposee.
Research Interests: Philosophy and Indexation
Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du... more
Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.
Research Interests: Computer Science and Art
Les verbes peuvent etre categorises dans des classes homogenes, a la fois du point de vue semantique et du point de vue syntaxique. Chaque classe offre une serie de proprietes communes : schema d'arguments, type semantique (action,... more
Les verbes peuvent etre categorises dans des classes homogenes, a la fois du point de vue semantique et du point de vue syntaxique. Chaque classe offre une serie de proprietes communes : schema d'arguments, type semantique (action, etat, evenement), adverbiaux appropries, reconstructions specifiques, proprietes morphologiques. Cette factorisation permet une description formalisee du fonctionnement des verbes et un traitement plus precis de la polysemie.
Research Interests:
La description des noms composes se limite souvent a un petit nombre de classes morphologiques (preposition + nom, verbe + nom, nom + nom, nom + adjectif, etc.). Une analyse plus fine permet de mettre evidence, bien au contraire,... more
La description des noms composes se limite souvent a un petit nombre de classes morphologiques (preposition + nom, verbe + nom, nom + nom, nom + adjectif, etc.). Une analyse plus fine permet de mettre evidence, bien au contraire, l'extreme richesse des formes de composition. Dans cette etude, plus de 700 types sont identifies, allant des formes les plus simples (par ex. les onomatopees : "du bla-bla") aux structures les plus complexes ("des pommes de terre en robe de chambre", "une lettre recommandee avec accuse de reception"). Ce niveau de precision est indispensable pour tout traitement approprie de la langue.
Research Interests:
A partir de l'analyse d'une douzaine de titres, cet article tente de definir la problematique des dictionnaires d'orthographe. Trois types sont a distinguer : (1) les dictionnaires elementaires (listes de mots assorties de... more
A partir de l'analyse d'une douzaine de titres, cet article tente de definir la problematique des dictionnaires d'orthographe. Trois types sont a distinguer : (1) les dictionnaires elementaires (listes de mots assorties de breves indications) : (2) les dictionnaires complementaires (associes a des guides) ; (3) les dictionnaires commentes (beaucoup plus riches en informations). L'identification d'un certain nombre de lacunes conduit l'auteur a proposer un nouveau type de dictionnaire qui, en multipliant les renvois entre tous les types d'entrees, sortirait les mots de leur isolement et permettrait de percevoir les graphies de maniere plus synthetique et plus intelligible. Un dictionnaire ainsi concu pourrait contribuer efficacement a la comprehension et a la maitrise de l'orthographe.
Research Interests:
Cet article montre, a propos de l'exemple des verbes, l'importance du principe de contextualite pour la lexicographie informatique. Un dictionnaire electronique doit indiquer, pour chaque verbe, les elements syntaxiques et... more
Cet article montre, a propos de l'exemple des verbes, l'importance du principe de contextualite pour la lexicographie informatique. Un dictionnaire electronique doit indiquer, pour chaque verbe, les elements syntaxiques et semantiques qui caracterisent le contexte, i.e. les types de sujets et de complements qui lui sont associes dans le cadre de la phrase. En cas de polysemie, il faut prevoir autant de schemas d'arguments que d'emplois differents : cette disposition permet une representation plus fine des proprietes linguistiques (et un meilleur traitement des traductions dans les dictionnaires multilingues). Dans un deuxieme temps, l'auteur montre que cette methode, initialement concue pour la description de la langue generale, merite d'etre appliquee aux langues specialisees. Celles-ci ne se reduisent pas a des nomenclatures terminologiques, mais constituent de veritables « langues » faites de verbes et de phrases. La description linguistique et le traiteme...
Le calcul d'un concordancier se definit classiquement par trois parametres : l'expression d'un pivot, la delimitation du contexte donne pour chaque occurrence relevee du pivot, et l'organisation des extraits par un tri... more
Le calcul d'un concordancier se definit classiquement par trois parametres : l'expression d'un pivot, la delimitation du contexte donne pour chaque occurrence relevee du pivot, et l'organisation des extraits par un tri facilitant le depouillement. L'efficacite propre a cette technique tient essentiellement aux effets d'alignement et de regroupement issus de la presentation du pivot sur une colonne et des tris sur le pivot et son environnement. Nous proposons donc une generalisation de la technique des concordances avec l'articulation interne du pivot en plusieurs zones, focalisant et demultipliant les possibilites d'alignement et de tri. Nous prenons appui sur cette reflexion pour developper un concordancier (KWAC-LLI) adapte aux besoins linguistiques d'une semantique distributionnelle, en l'occurrence la theorie des classes d'objets. Une combinatoire de quatre strategies d'exploration de corpus peut etre ainsi outillee, selon que l...
Research Interests:
Le dictionnaire presente offre une large couverture (plus de 8 000 entrees et plus de 10 000 variantes). Il indique, pour chaque divinite, le domaine geographique et/ou historique, et donne des indications sur sa nature et ses fonctions.... more
Le dictionnaire presente offre une large couverture (plus de 8 000 entrees et plus de 10 000 variantes). Il indique, pour chaque divinite, le domaine geographique et/ou historique, et donne des indications sur sa nature et ses fonctions. Une attention particuliere a ete accordee a la notation des differentes graphies. Bien que la source premiere ait ete constituee par un corpus d'ouvrages specialises (francais pour la plupart), le Web a ete largement pris en compte, apres un filtrage rigoureux des donnees.
Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou... more
Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou l'interet d'un recensement systematique, presente sous la forme d'un dictionnaire electronique. Chaque entree donne lieu a un codage formel et semantique : description morphotogique (type de composition, categorie grammaticale, flexion) ; particularites orthographiques (notation des variantes) ; informations semantiques (traits, domaines, classes d'objets et registres). Au total, plus de 17000 unites se trouvent ainsi decrites. Le format adopte permet une analyse precise des parametres en presence. La reflexion porte en particulier sur la morphologie, l'orthographe et la typologie (etude des formes de composition : plus de trois cents types repertories). Le dictionnaire est complete par un lecique de 1900 locutions impliquant un trait d'union (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) et par une presentation des principaux modeles productifs regissant les neologismes et les creations libres. Au-dela des particularites liees au trait d'union, l'accent est mis, du point de vue methodologique, sur les modalites de representation de l'information lexicale dans un dictionnaire electronique : le degroupement des entrees permet de prendre en charge, a cote de la description morphologique des unites, leur caracterisation semantique (notamment les domaines et les "classes d'objets"). Ce type d'information s'avere indispensable pour l'utilisation effective du dictionnaire dans des applications informatiques.
Research Interests: Philosophy and Humanities
Automatic language processing requires as rigorous a lexical inventory as possible. For this purpose, we have developed a morphological dictionary for French, conceived as the starting point of a modular system (Morfetik) which includes... more
Automatic language processing requires as rigorous a lexical inventory as possible. For this purpose, we have developed a morphological dictionary for French, conceived as the starting point of a modular system (Morfetik) which includes an inflection generator, user interfaces and operating tools. In this paper, we briefly describe the basic dictionary (lexicon of simple words) and detail some of
Research Interests:
Research Interests:
Résumé Le traitement automatique des langues de spécialité exige une description qui rende compte de son fonctionnement. Le travail descriptif…
Research Interests:
Orthographic variations of compound words in le Petit Larousse and le Petit Robert. The analysis of the two most common French dictionaries — le Petit Larousse and le Petit Robert — brings into relief the orthographic instability of... more
Orthographic variations of compound words in le Petit Larousse and le Petit Robert. The analysis of the two most common French dictionaries — le Petit Larousse and le Petit Robert — brings into relief the orthographic instability of compound words. This study notes many disagreements between the two works, as well as a number of internal contradictions. Hesitation concerns mainly the use of the hyphen (audio-visuel or audiovisuel, fille-mère or fille mère) and plural marks (un corps de troupe/un corps de troupes, des essuie-glace/des essuie-glaces). Whatever may be the best way to correct such contradictions — admission of variants or normalization — it is urgent that dictionaries be coherent.
Research Interests:
Syntax of the Hyphen: Complex Patterns Among the different values of the hyphen in French (typographical uses, grammatical uses, lexical uses, etc.), this study focuses on a specific set of complex patterns. Three models are developed: a)... more
Syntax of the Hyphen: Complex Patterns Among the different values of the hyphen in French (typographical uses, grammatical uses, lexical uses, etc.), this study focuses on a specific set of complex patterns. Three models are developed: a) correlative models, based on the particle mi- (mi-sérieux, mi-plaisant); b) juxtaposed models, particularly the pattern NO N1-N2 (V opposition consonne-voyelles, le vol Paris-Londres), which allows a typological description based on the nature of the introductory term (NO); c) double-compound models (conférence de presse-marathon, ex-homme de gauche), characterized by a form of discrepancy between the morphological pattern and the graphic boundaries (*presse-marathon, *ex-homme). They can combine with the first two models (mi-salle de billard, mi-cabinet de travail; l'interaction recherche fondamentale-recherche appliquée). These patterns are analyzed with a view to an automatic treatment of hyphenated forms.
Research Interests:
... un certain nombre de contradictions internes, à l'intérieur d'un même dictionnaire : le Petit Robert (1991) écrit bateau-mouche à « bateau », mais bateau mouche à « mouche » , bébé-éprouvette sous « bébé » , mais... more
... un certain nombre de contradictions internes, à l'intérieur d'un même dictionnaire : le Petit Robert (1991) écrit bateau-mouche à « bateau », mais bateau mouche à « mouche » , bébé-éprouvette sous « bébé » , mais bébé éprouvette sous ... bec-en-cimeterre croc-en-jambe. ...
Research Interests:
Research Interests:
... À côté de quelques noms propres autonomes (les Champs-Elysées), on trouve essentiellement des structures binaires, constituées d'un nom commun de voie spécifié par un autre nom (notamment Npropre, de Npropre, de Ncommun). ...
Research Interests:
... Mais peut-on vraiment dire que l'on mange un « concret » ou qu'un « concret » est bourratif ? ... L'étude extensive de la méronymie que nous menons en utilisant les classes d'objets devrait nous... more
... Mais peut-on vraiment dire que l'on mange un « concret » ou qu'un « concret » est bourratif ? ... L'étude extensive de la méronymie que nous menons en utilisant les classes d'objets devrait nous permettre de faire des progrès dans la connaissance de ce phénomène. 25. 6.4. ...