Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Skip to main content
Michel Mathieu-Colas

    Michel Mathieu-Colas

    This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the geographical and/or historical frame and gives information about his or her nature and functions. Special attention has been given to noting... more
    This dictionary includes over 8 000 names (and 10 000 variants). For each deity, it specifies the geographical and/or historical frame and gives information about his or her nature and functions. Special attention has been given to noting the different spellings. Although the first source of information was a set of specialized books (most of them French), the Internet has been widely used, after carefully selecting and checking the data.Le dictionnaire présenté offre une large couverture (plus de 8 000 entrées et plus de 10 000 variantes). Il indique, pour chaque divinité, le domaine géographique et/ou historique, et donne des indications sur sa nature et ses fonctions. Une attention particulière a été accordée à la notation des différentes graphies. Bien que la source première ait été constituée par un corpus d'ouvrages spécialisés (français pour la plupart), le Web a été largement pris en compte, après un filtrage rigoureux des données
    Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d'autres... more
    Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d'autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu. Abstract. French Contemporary Morphological Dictionaries : Morfetik Database, Elements of a Model for Computational Linguistics In this article, we present a morphological linguistic resource for Contemporary French called Morfetik. We first detail its composition, features and coverage. We compare it to other available morpholo...
    Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes permettant de decrire, a partir de la liste des lemmes, toutes les formes flechies correspondantes (mise au pluriel et, pour les adjectifs, au... more
    Cette etude presente dans le detail un systeme de codage des noms et des adjectifs composes permettant de decrire, a partir de la liste des lemmes, toutes les formes flechies correspondantes (mise au pluriel et, pour les adjectifs, au feminin). Il prend en compte la diversite des formes (plusieurs centaines de types morphologiques pour les noms composes) et la complexite de certains schemas flexionnels, notamment pour les mots a trait d'union (FRANCS-comtois mais FRANC-comtoises, arriere-GRAND-meres ou arriere-GRANDS-meres). Le systeme propose se veut suffisamment flexible pour pouvoir prendre en charge tous les cas de figure.
    Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures paradigmatiques". A partir d'une base de donnees de large couverture (plus de cent mille unites lexicales de toutes categories :... more
    Cette etude met l'accent sur un des parametres constitutifs du figement : les "ruptures paradigmatiques". A partir d'une base de donnees de large couverture (plus de cent mille unites lexicales de toutes categories : noms composes, locutions verbales, etc.), plusieurs tests sont mis en oeuvre, impliquant differents types de commutation : substitution de synonymes (devenir chevre / *devenir bique), d'antonymes (avec une analyse plus detaillee des composes de type Adjectif Nom : un haut fonctionnaire / *un bas fonctionnaire) ou d'elements d'une meme classe semantique (un temps de chien / *un temps de chat). Ce dernier point permet d'affiner et de generaliser l'analyse. Il faut compter aussi avec les cas de defigement, dont on trouve de nombreux exemples sur le Web (journee portes fermees) et la possibilite de double interpretation (les deux sens de table ronde). Si les irregularites distributionnelles ne sont pas le seul element de l'idiomatic...
    Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement du point de vue syntaxique et semantique, mais aussi en termes de domaines. Cette information ouvre la voie a plusieurs applications, telles... more
    Dans un dictionnaire electronique, toutes les unites lexicales doivent etre codees non seulement du point de vue syntaxique et semantique, mais aussi en termes de domaines. Cette information ouvre la voie a plusieurs applications, telles que l'elimination des ambiguites, la realisation de glossaires ou l'identification du sujet d'un texte. Pour ce faire, il est utile de distinguer deux niveaux de description, le domaine et le sous-domaine. On montrera ici l'interet de cette information pour le traitement automatique des langues, en precisant le lien entre les deux categories et la methode de codage proposee.
    Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du... more
    Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.
    Les verbes peuvent etre categorises dans des classes homogenes, a la fois du point de vue semantique et du point de vue syntaxique. Chaque classe offre une serie de proprietes communes : schema d'arguments, type semantique (action,... more
    Les verbes peuvent etre categorises dans des classes homogenes, a la fois du point de vue semantique et du point de vue syntaxique. Chaque classe offre une serie de proprietes communes : schema d'arguments, type semantique (action, etat, evenement), adverbiaux appropries, reconstructions specifiques, proprietes morphologiques. Cette factorisation permet une description formalisee du fonctionnement des verbes et un traitement plus precis de la polysemie.
    La description des noms composes se limite souvent a un petit nombre de classes morphologiques (preposition + nom, verbe + nom, nom + nom, nom + adjectif, etc.). Une analyse plus fine permet de mettre evidence, bien au contraire,... more
    La description des noms composes se limite souvent a un petit nombre de classes morphologiques (preposition + nom, verbe + nom, nom + nom, nom + adjectif, etc.). Une analyse plus fine permet de mettre evidence, bien au contraire, l'extreme richesse des formes de composition. Dans cette etude, plus de 700 types sont identifies, allant des formes les plus simples (par ex. les onomatopees : "du bla-bla") aux structures les plus complexes ("des pommes de terre en robe de chambre", "une lettre recommandee avec accuse de reception"). Ce niveau de precision est indispensable pour tout traitement approprie de la langue.
    A partir de l'analyse d'une douzaine de titres, cet article tente de definir la problematique des dictionnaires d'orthographe. Trois types sont a distinguer : (1) les dictionnaires elementaires (listes de mots assorties de... more
    A partir de l'analyse d'une douzaine de titres, cet article tente de definir la problematique des dictionnaires d'orthographe. Trois types sont a distinguer : (1) les dictionnaires elementaires (listes de mots assorties de breves indications) : (2) les dictionnaires complementaires (associes a des guides) ; (3) les dictionnaires commentes (beaucoup plus riches en informations). L'identification d'un certain nombre de lacunes conduit l'auteur a proposer un nouveau type de dictionnaire qui, en multipliant les renvois entre tous les types d'entrees, sortirait les mots de leur isolement et permettrait de percevoir les graphies de maniere plus synthetique et plus intelligible. Un dictionnaire ainsi concu pourrait contribuer efficacement a la comprehension et a la maitrise de l'orthographe.
    Cet article montre, a propos de l'exemple des verbes, l'importance du principe de contextualite pour la lexicographie informatique. Un dictionnaire electronique doit indiquer, pour chaque verbe, les elements syntaxiques et... more
    Cet article montre, a propos de l'exemple des verbes, l'importance du principe de contextualite pour la lexicographie informatique. Un dictionnaire electronique doit indiquer, pour chaque verbe, les elements syntaxiques et semantiques qui caracterisent le contexte, i.e. les types de sujets et de complements qui lui sont associes dans le cadre de la phrase. En cas de polysemie, il faut prevoir autant de schemas d'arguments que d'emplois differents : cette disposition permet une representation plus fine des proprietes linguistiques (et un meilleur traitement des traductions dans les dictionnaires multilingues). Dans un deuxieme temps, l'auteur montre que cette methode, initialement concue pour la description de la langue generale, merite d'etre appliquee aux langues specialisees. Celles-ci ne se reduisent pas a des nomenclatures terminologiques, mais constituent de veritables « langues » faites de verbes et de phrases. La description linguistique et le traiteme...
    Le calcul d'un concordancier se definit classiquement par trois parametres : l'expression d'un pivot, la delimitation du contexte donne pour chaque occurrence relevee du pivot, et l'organisation des extraits par un tri... more
    Le calcul d'un concordancier se definit classiquement par trois parametres : l'expression d'un pivot, la delimitation du contexte donne pour chaque occurrence relevee du pivot, et l'organisation des extraits par un tri facilitant le depouillement. L'efficacite propre a cette technique tient essentiellement aux effets d'alignement et de regroupement issus de la presentation du pivot sur une colonne et des tris sur le pivot et son environnement. Nous proposons donc une generalisation de la technique des concordances avec l'articulation interne du pivot en plusieurs zones, focalisant et demultipliant les possibilites d'alignement et de tri. Nous prenons appui sur cette reflexion pour developper un concordancier (KWAC-LLI) adapte aux besoins linguistiques d'une semantique distributionnelle, en l'occurrence la theorie des classes d'objets. Une combinatoire de quatre strategies d'exploration de corpus peut etre ainsi outillee, selon que l&#3...
    Le dictionnaire presente offre une large couverture (plus de 8 000 entrees et plus de 10 000 variantes). Il indique, pour chaque divinite, le domaine geographique et/ou historique, et donne des indications sur sa nature et ses fonctions.... more
    Le dictionnaire presente offre une large couverture (plus de 8 000 entrees et plus de 10 000 variantes). Il indique, pour chaque divinite, le domaine geographique et/ou historique, et donne des indications sur sa nature et ses fonctions. Une attention particuliere a ete accordee a la notation des differentes graphies. Bien que la source premiere ait ete constituee par un corpus d'ouvrages specialises (francais pour la plupart), le Web a ete largement pris en compte, apres un filtrage rigoureux des donnees.
    Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou... more
    Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou l'interet d'un recensement systematique, presente sous la forme d'un dictionnaire electronique. Chaque entree donne lieu a un codage formel et semantique : description morphotogique (type de composition, categorie grammaticale, flexion) ; particularites orthographiques (notation des variantes) ; informations semantiques (traits, domaines, classes d'objets et registres). Au total, plus de 17000 unites se trouvent ainsi decrites. Le format adopte permet une analyse precise des parametres en presence. La reflexion porte en particulier sur la morphologie, l'orthographe et la typologie (etude des formes de composition : plus de trois cents types repertories). Le dictionnaire est complete par un lecique de 1900 locutions impliquant un trait d'union (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) et par une presentation des principaux modeles productifs regissant les neologismes et les creations libres. Au-dela des particularites liees au trait d'union, l'accent est mis, du point de vue methodologique, sur les modalites de representation de l'information lexicale dans un dictionnaire electronique : le degroupement des entrees permet de prendre en charge, a cote de la description morphologique des unites, leur caracterisation semantique (notamment les domaines et les "classes d'objets"). Ce type d'information s'avere indispensable pour l'utilisation effective du dictionnaire dans des applications informatiques.
    Automatic language processing requires as rigorous a lexical inventory as possible. For this purpose, we have developed a morphological dictionary for French, conceived as the starting point of a modular system (Morfetik) which includes... more
    Automatic language processing requires as rigorous a lexical inventory as possible. For this purpose, we have developed a morphological dictionary for French, conceived as the starting point of a modular system (Morfetik) which includes an inflection generator, user interfaces and operating tools. In this paper, we briefly describe the basic dictionary (lexicon of simple words) and detail some of
    Résumé Le traitement automatique des langues de spécialité exige une description qui rende compte de son fonctionnement. Le travail descriptif…
    Orthographic variations of compound words in le Petit Larousse and le Petit Robert. The analysis of the two most common French dictionaries — le Petit Larousse and le Petit Robert — brings into relief the orthographic instability of... more
    Orthographic variations of compound words in le Petit Larousse and le Petit Robert. The analysis of the two most common French dictionaries — le Petit Larousse and le Petit Robert — brings into relief the orthographic instability of compound words. This study notes many disagreements between the two works, as well as a number of internal contradictions. Hesitation concerns mainly the use of the hyphen (audio-visuel or audiovisuel, fille-mère or fille mère) and plural marks (un corps de troupe/un corps de troupes, des essuie-glace/des essuie-glaces). Whatever may be the best way to correct such contradictions — admission of variants or normalization — it is urgent that dictionaries be coherent.
    Syntax of the Hyphen: Complex Patterns Among the different values of the hyphen in French (typographical uses, grammatical uses, lexical uses, etc.), this study focuses on a specific set of complex patterns. Three models are developed: a)... more
    Syntax of the Hyphen: Complex Patterns Among the different values of the hyphen in French (typographical uses, grammatical uses, lexical uses, etc.), this study focuses on a specific set of complex patterns. Three models are developed: a) correlative models, based on the particle mi- (mi-sérieux, mi-plaisant); b) juxtaposed models, particularly the pattern NO N1-N2 (V opposition consonne-voyelles, le vol Paris-Londres), which allows a typological description based on the nature of the introductory term (NO); c) double-compound models (conférence de presse-marathon, ex-homme de gauche), characterized by a form of discrepancy between the morphological pattern and the graphic boundaries (*presse-marathon, *ex-homme). They can combine with the first two models (mi-salle de billard, mi-cabinet de travail; l'interaction recherche fondamentale-recherche appliquée). These patterns are analyzed with a view to an automatic treatment of hyphenated forms.
    ... un certain nombre de contradictions internes, à l'intérieur d'un même dictionnaire : le Petit Robert (1991) écrit bateau-mouche à « bateau », mais bateau mouche à « mouche » , bébé-éprouvette sous « bébé » , mais... more
    ... un certain nombre de contradictions internes, à l'intérieur d'un même dictionnaire : le Petit Robert (1991) écrit bateau-mouche à « bateau », mais bateau mouche à « mouche » , bébé-éprouvette sous « bébé » , mais bébé éprouvette sous ... bec-en-cimeterre croc-en-jambe. ...
    ... À côté de quelques noms propres autonomes (les Champs-Elysées), on trouve essentiellement des structures binaires, constituées d'un nom commun de voie spécifié par un autre nom (notamment Npropre, de Npropre, de Ncommun). ...
    ... Mais peut-on vraiment dire que l'on mange un « concret » ou qu'un « concret » est bourratif ? ... L'étude extensive de la méronymie que nous menons en utilisant les classes d'objets devrait nous... more
    ... Mais peut-on vraiment dire que l'on mange un « concret » ou qu'un « concret » est bourratif ? ... L'étude extensive de la méronymie que nous menons en utilisant les classes d'objets devrait nous permettre de faire des progrès dans la connaissance de ce phénomène. 25. 6.4. ...