Articlesemlexicale
Articlesemlexicale
Articlesemlexicale
Sabine Ploux
1 Introduction
Comprendre une phrase, interpréter un texte, traduire, communiquer... sont autant d'activités
cognitives qui supposent que les mots ont un sens véhiculé à travers leurs emplois. La
question du sens a souvent pu paraître, par nature, moins objectivable que d'autres domaines
linguistiques comme celui de la syntaxe. Certains auteurs pensent même qu'elle résiste à toute
tentative de modélisation computationnelle. Cette réticence à la formalisation tient à une
appréciation d'inadéquation entre d'une part l'objet de la sémantique et d'autre part les cadres
mathématiques couramment utilisés et les implémentations dont ils ont fait l'objet. Nous
commencerons par introduire très rapidement une partie de la sémantique : celle qui a donné
lieu à des travaux de modélisation. Nous préciserons ensuite ce que nous entendons par
modélisation. Ceci nous permettra d'aborder la question d'une éventuelle adéquation. Pour
cela, nous nous limiterons à l'étude des modèles en sémantique lexicale à travers l'examen de
quelques-uns d'entre eux choisis pour représenter la diversité des cadres formels dans lesquels
ils ont été développés. Les résultats de la modélisation seront ensuite envisagés de deux points
de vue : celui du traitement automatique des langues et celui de leur pertinence cognitive.
l'étude du sens lexical. Les méthodes mises en œuvre pour cela utilisent le plus
souvent :
o les proximités lexicales : synonymie (logement est un synonyme d'habitation),
hypo et hyperonymie (chat est un hyponyme d'animal et inversement animal
est un hyperonyme de chat), métonymie (dans l'expression boire un verre, le
contenant verre est métonyme de la boisson qu'il contient)...
o la décomposition des mots en traits sémantiques (/transport/ est un trait
sémantique partagé par les mots métro, train, autobus, etc.. /ferré/ est un trait
qui différencie autobus de train (exemple tiré de [Rastier, 1987]) ;
l'étude du sens des combinaisons de mots, des phrases ou des textes. Ce domaine
comprend le plus souvent :
o le calcul de la signification d'une combinaison de mots en contexte (un bon
livre est un livre qui se lit avec plaisir, un bon marcheur est une personne qui
parcourt de longues distances avec facilité; le sens d'un adjectif peut donc
varier en fonction du nom sur lequel il porte);
o le calcul de la signification de la phrase ou du discours par l'étude de leur
forme logique. Ce calcul comprend en particulier la détermination des
conditions de vérité d'un énoncé mais aussi le calcul de la portée sémantique
des unités de la phrase à l'œuvre dans les anaphores, la négation, la
quantification...
En psycholinguistique, ce domaine recouvre généralement l'étude de la représentation des
concepts en mémoire. Les concepts lexicaux étudiés appartiennent le plus souvent à des
catégories larges comme la distinction vivant (animaux, plantes, parties du corps...)/non
vivant (outils...)
La diversité entre les différents types d'approche témoigne d'un état à la fois créatif et
transitoire de la recherche. La plupart des auteurs ([Gharbia et al., 1998,
, Moeschler and Auchlin, 2000]) s'accordent cependant sur le fait que la sémantique est l'étude
des significations et que « la signification est quelque chose qui n'est pas du langage »
([Moeschler, 2004]). On a donc une mise en relation de deux espaces de nature hétérogène :
celui des signes linguistiques d'une part et celui d'un autre domaine prélinguistique d'autre
part. Cet autre domaine est variable. Il peut être celui des notions, des concepts ou des
référents (individus, choses, événements ou états du monde), des conditions de vérité... Pour
certains auteurs, ce domaine substrat est cognitif, pour d'autres il renvoie directement aux
objets du monde. Se pose alors la question de l'existence d'un modèle formel qui permettrait
de synthétiser et de théoriser ce lien.
Modélisation Un exemple paradigmatique de la recherche de modèles est la naissance du
calcul différentiel au XVIIème siècle. Ce cadre a permis de répondre aux attentes de la
physique et plus précisément à celui de la théorisation du mouvement des corps. Cet exemple
montre que pour aborder un champ disciplinaire, il peut être nécessaire de créer des idéalités
mathématiques. Actuellement, en sciences du langage, il n'existe pas de consensus sur le
choix du cadre formel à adopter. On peut citer le recours à des modèles logico-algébriques
comme l'ont initialement proposé Chomsky en syntaxe [Chomsky, 1969] ou Montague en
sémantique [Montague, 1974, Dowty et al., 1981] ou encore des modèles qui utilisent la
théorie des graphes, les espaces vectoriels, la théorie des singularités, la géométrie, les
systèmes dynamiques... Ce manque de convergence résulte peut être d'une part de l'absence de
modèle tout à fait adéquat et qui resterait à construire et d'autre part du fait que peu d'auteurs
se saisissent de la question si ce n'est à travers une dispute entre les tenants des modèles
discrets et ceux des modèles continus.
Informatique L'informatique est la troisième composante des travaux en sémantique. Elle a
permis, quand cela a été possible, l'implémentation des modèles, donné lieu au
développement d'outils, élargi le champ des expérimentations linguistiques. On pourra se
reporter à [Habert et al., 1997] pour un panorama très complet. Comme tout médiateur,
l'informatique représente une contrainte. En particulier, nous essaierons de montrer que la
relation entre le modèle et son implémentation informatique est une conversion qui impose
des limites. Ces limites sont plus ou moins fortes suivant l'adéquation entre cadre formel et
machine numérique. Cependant, si l'outil n'est jamais le prolongement fidèle d'une intention
théorique, il ouvre l'accès à de nouvelles possibilités : la gestion d'immenses masses de
données textuelles a permis l'émergence d'une linguistique expérimentale aussi appelée
linguistique de corpus. Enfin, la recherche de modèles computationnels en sémantique est un
champ d'étude très productif aujourd'hui. Car de ces modèles dépend la performance des
systèmes d'acquisition et de représentation des connaissances, de recherche d'information, de
traduction automatique...
Les liens sémantiques entre unités lexicales dépendent du corpus utilisé et ne sont
donc pas fixés a priori. Le mot connaissance n'aura pas les mêmes voisins
sémantiques selon qu'on aura choisi un corpus général ou un corpus de spécialité en
philosophie.
Les structures initiales du corpus sont : le mot, la phrase, le paragraphe et le texte, tous
repérés par des séparateurs : blanc, ponctuation, saut de ligne... La donnée de ces
unités, même très basiques, constitue cependant un choix crucial puisque, dans cette
perspective, pomme de terre, par exemple, n'est pas constitué d'une mais de trois
unités lexicales, et que maison et maisons sont deux unités lexicales distinctes.
Enfin, la représentation associée à un mot est atomique (comme l'est aussi un synset),
mais aussi unique en ce sens que les différentes composantes du vecteur ne sont pas
directement interprétables en caractéristiques sémantiques séparées : dans ce
formalisme, le vecteur constitue une unité indécomposable. Il en découle, que les
valeurs sémantiques d'un mot ne sont pas représentées pour elles-mêmes, seule est
donnée une liste de mots voisins qui, bien qu'associés chacun à une ou plusieurs de ces
valeurs ne permettent pas de les distinguer. Par exemple, les plus proches voisins de
party construits à partir du corpus General_Reading_up_to_12th_Grade sur le site
http://lsa.colorado.edu/ sont par ordre de proximités décroissantes : (le chiffre
correspond à la valeur du cosinus) 0,83 parties, 0,73 prohibitionists, 0,73 prohibitionist,
0,73 spokesperson, 0,72 democrats, 0,71 antifederalists, 0,67 sorauf, 0,67 chairpersons,
0,66 tuba, 0,66 democratic, 0,66 partisanship, 0,65 nominating, 0,65 candidates, 0,65
invite, 0,65 birthday, 0,64 railwaymen, 0,64 eec, 0,63 whig, 0,63 factions. Les voisins
relatifs à party au sens de parti politique sont mêlés à ceux relatifs à party au sens de
fête.
Enfin, les modèles vectoriels sont tout à fait adaptés à une implémentation informatique. Leur
mise en oeuvre ne nécessite qu'un corpus de taille suffisante et des algorithmes matriciels
relativement classiques.
Les cliques contrairement aux synsets ne sont pas des unités de langage ni donc d'un
métalangage. Il est difficile à la fois de les désigner et de nommer leurs différences.
On pourra s'en persuader à travers l'exemple des trois cliques suivantes contenant le
mot insensible :
o cruel, dur, féroce, impitoyable, implacable, inexorable, inhumain, insensible
o cruel, dur, impitoyable, implacable, inexorable, inflexible, inhumain,
insensible
o cruel, dur, impitoyable, implacable, inexorable, inflexible, insensible, sévère
Il existe une topologie sous-jacente à l'ensemble des cliques associées à un mot qui
permet de distinguer des valeurs et de passer par des chemins continus d'une valeur à
une autre qui lui est proche. Ainsi, les cliques données ci-dessus sont des exemples de
cliques relatives à la valeur « morale » du mot insensible ; les cliques
o endormi, engourdi, inerte, insensible
o engourdi, froid, inerte, insensible
à une valeur « perceptuelle » qui contraire aux précédentes valeurs ne désignent pas
une personne mais un phénomène externe. L'examen de l'ensemble des cliques met en
évidence l'existence de chemins de cliques dans lesquels une clique partage au moins
un mot avec la suivante, et qui font passer de façon progressive d'une valeur à une
autre.
La construction de la forme associée au mot initial, ici insensible, permet de faire la synthèse
de l'ensemble des liens de proximité. Pour cela, de façon similaire à ce que fait LSA sur une
matrice de paragraphes et de mots, on utilise une analyse factorielle des correspondances
[Benzécri, 1980] sur la matrice qui comprend des cliques en ligne et des mots en colonne.
Cette méthode permet de calculer les coordonnées des cliques représentées par des points
dans un espace multidimensionnel. Les mots eux sont représentés par l'enveloppe des points-
cliques qu'ils contiennent. Enfin, un algorithme de classification permet de distinguer à partir
du nuage de points formé par les cliques les différentes valeurs du mot. La figure 5 donne le
résultat pour le mot insensible.
Ce résultat met en évidence la capacité du modèle (i) à déterminer une valeur générique
(quand elle existe) ; cette valeur est positionnée près de l'origine des axes (ii) à déterminer des
valeurs proches et des valeurs homonymiques ou quasi-homonymiques qui sont nettement
séparées des autres sur la carte. En somme, la modélisation géométrique est une modélisation
continue qui associe à un mot non plus un atome ou plusieurs atomes de sens (vecteur ou
noeud d'un graphe) mais un domaine qui permet la représentation de l'organisation de ses
différentes valeurs sémantiques.
Comme les modèles précédents, les modèles géométriques sont des modèles de représentation
qui, sans outils supplémentaires, ne rendent pas compte des processus de calcul du sens ou de
la forme argumentale ou schématique d'une unité lexicale.
de la possible créativité du sens d'un mot dans un contexte inédit (Pustejovsky prend
pour exemple l'adaptation du sens des adjectifs comme good (bon), voir exemple plus
haut° ;
du partage possible du sens des mots (par exemple des verbes bake (cuire), cook
(cuisiner) ou fry (frire)) ;
des multiples réalisations syntaxiques des mots (par exemple, le verbe forget (oublier)
pour lequel les différents types de compléments déterminent l'interprétation
sémantique : oublier d'où l'on vient, c'est oublier la réponse à la question sous-jacente,
contrairement à oublier son parapluie qui ne met pas en jeu une question).
L'idée est de remplacer la donnée d'un ensemble de valeurs sémantiques fixées a priori par
une capacité calculatoire à déterminer le sens en contexte. Pour réaliser ce projet J.
Pustejovsky a choisi le lambda-calcul. Ce choix prolonge l'entreprise de la grammaire
générative par la détermination des phrases non plus seulement syntaxiquement mais aussi
sémantiquement bien formées. Comme en syntaxe, la détermination du sens en contexte est
réalisée par un ensemble d'axiomes et des règles de dérivation. Les axiomes ici sont
l'ensemble des unités lexicales munies d'une structure de type attribut-valeur. Cette structure
comprend (i) un composant argumental (par exemple le verbe bake a une structure
argumentale formée de deux éléments : le premier est de type animé, le second est de type «
massif ») , (ii) des composants événementiels (trois éventualités : l'état, le procès et la
transition), (ii) des composants de type qualia, et (iv) des liens d'héritage au sein du réseau
lexical. Les composants de type qualia comportent eux-mêmes quatre aspects :
12 Quelles perspectives ?
En somme, les différents modèles s'adaptent à un aspect du traitement ou de la représentation
sémantique des mots mais rencontrent des difficultés à intégrer l'ensemble des aspects.
L'atomisme associé à des modèles formels (graphes ou espace vectoriels) permet des
réalisations à large couverture lexicale (WordNet ou LSA) mais ne permet pas de rendre
compte d'une organisation logique du sens. Cette logique du sens est le coeur des modèles
génératifs, mais l'appariement entre le processus et le modèle choisi pose des problèmes de
validation. Les réseaux de neurones, s'ils répondent à la distribution révélée par l'imagerie
cérébrale, ne rendent pas compte des phénomènes de recouvrements sémantiques. Enfin, les
modèles hiérarchiques, vectoriels et géométriques privilégient la représentation du système
des mots au détriment d'une forme schématique et argumentale propre à chaque unité.
Inversement, les modèles qui cherchent à décrire cette forme schématique privilégient le
contenu des unités au détriment de la représentation du système des analogies et des
différences lexicales.
Un modèle synthétique devrait faire la somme des différentes caractéristiques. Au niveau
global, il faudrait pouvoir distinguer les catégories mais aussi les valeurs sémantiques d'un
mot et représenter les proximités et les différences. Au niveau de l'unité, il faudrait pouvoir
construire un schéma décrivant la structure argumentale d'une unité et le mode de
composition avec les autres unités d'un énoncé. Ce modèle devrait aussi permettre le passage
et la cohérence entre ces deux niveaux d'organisation.
Figure 1 : Figuration d'une hiérarchie lexicale telle qu'elle est présentée par Miller [Fellbaum, 1998b].
Figure 2 : Figuration du lien formes-contenu dans un modèle géométrique.
Figure 3 : Figuration de l'intersection des aires associées à des mots d'une même clique.
Figure 4 : Représentation géométrique associée au mot insensible, d'après [Ploux and Ji, 2003].
Figure 5 : Figure représentant des bassins d'attraction. Des lignes de crêtes séparant trois des bassins ont été ajoutées
au trait.
Figure 6 : Morphologies archétypiques des verbes séparer, traverser, couper (S pour sujet, O pour objet, I pour
instrument, m représente la part de l'objet qui en a été détachée). Extrait de [Thom, 1977].
Footnotes:
1
Une analyse factorielle est une méthode statistique d'analyse des données, [Bouroche and
Saporta, 2002].
2
Un formant est une valeur du spectre sonore, maximale en énergie.
3
Une clique est un objet mathématique qui désigne un sous-graphe maximal, complet,
connexe (il s'agit des plus grands sous-graphes possibles dont tous les sommets sont liés les
uns les autres). Ici le graphe considéré est un ensemble de mots (les sommets) et de relations
(ou arcs) qui lient ces mots.
Références
[Benzécri, 1980] Benzécri, J.-P. (1980). L’analyse des données : l’analyse des
correspondances. Bordas, Paris.
[Bouroche and Saporta, 2002] Bouroche, J.-M. and Saporta, G. (2002).
L’Analyse des données. Que sais-je ? PUF, Paris.
[Burgess and Lund, 1997] Burgess, C. and Lund, K. (1997). Modelling parsing constraints
with high-dimensional context space. Language and Cognitive Processes, 12 :177–210.
[Chomsky, 1969] Chomsky, N. (1969). Structures syntaxiques. Paris, Seuil.
[Dowty et al., 1981] Dowty, D., Wall, R., and Peters, S. (1981). Introduction to Montague
Semantics. D. Reidel Publishing Company, Dordrecht.
[Fairbanks and Grubb, 1961] Fairbanks, G. and Grubb, P. (1961). A psychophysical
investigation on vowel formants. Journal of Speech and Hearing Research, 1 :203–219.
[Fellbaum, 1998a] Fellbaum, C. (1998a). A semantic Network of English Verbs, pages 23–46.
MIT Press.
[Fellbaum, 1998b] Fellbaum, C., editor (1998b). Wordnet, An Electronic Lexical Database.
MIT Press, Cambridge, Massachusetts.
[Forde and Humphreys, 2002] Forde, E. M. and Humphreys, G. W., editors (2002). Category-
specificity in brain and mind. Psychology Press., East Sussex, UK.
[Gärdenfors, 2000] Gärdenfors, P. (2000). Conceptual Spaces, the Geometry of Thought. MIT
Press, Cambridge, Massachusetts.
[Grefenstette, 1998] Grefenstette, G. (1998). Cross-language information retrieval, volume 2
of The Kluwer international series on information retrieval. Kluwer Academic, Boston,
London.
[Habert et al., 1997] Habert, B., Nazarenko, A., and Salem, A. (1997). Les linguistiques de
corpus. Armand Colin, Paris.
[Hauk et al., 2004] Hauk, O., Johnsrude, I., and F., P. (2004). Somatotopic representation of
action words in human motor and premotor cortex. Neuron, 39(41) :301–307.
[Ji, 2004] Ji, H. (2004). A Computational Model for Word Sense Representation Using
Contextual Relations. Mémoire de thèse en sciences cognitives.
[Ji et al., 2008] Ji, H., Lemaire, B., Choo, H., and Ploux, S. (2008). Testing the Cognitive
Relevance of a Geometric Model on a Word-Association Task : A Comparison of Humans,
ACOM, and LSA. Behavior Reseach Methods, 40(4) :926–934.
[Ji et al., 2003] Ji, H., Ploux, S., and Wehrli, E. (2003). Lexical knowledge representation
with contexonyms. Proceedings of the 9th Machine Translation
Summit, pages 194–201.
[Kintsch, 2001] Kintsch, W. (2001). Predication. Cognitive Science, 25 :173– 202.
[Laham, 1997] Laham, D. (1997). Proceedings of the 19th annual meeting of the Cognitive
Science Society, chapter Latent Semantic Analysis Approaches to Categorization, page 979.
Mawhwah, NJ : Erlbaum.
[Landauer et al., 1998] Landauer, T. K., Foltz, P., and Laham, D. (1998). Introduction to
Latent Semantic Analysis. Discourse Processes, 25 :259– 284.
[Lund et al., 1996] Lund, K., Burgess, C., and Audet, C. (1996). Dissociating semantic and
associative word relashionships using high-dimensional
semantic space. Cognitive Science Proceedings LEA, pages 603–608.
[Masson, 1995] Masson, M. (1995). A distributed memory model of semantic priming.
Journal of Experimental Psychology : Learning, Memory, and Cognition, 21(1) :3–23.
[Miller, 1998] Miller, G. A. (1998). Nouns in WordNet, pages 23–46. MIT Press, Cambridge,
Massachusetts.
[Moeschler, 2004] Moeschler, J. (2003-2004). Séminaire de pragmatique du discours.
www.unige.ch/lettres/linge/ moeschler/ semantique2/sp2/sp2.ppt, Université de Genève.
[Moeschler and Auchlin, 2000] Moeschler, J. and Auchlin, A. (2000). Introduction à la
linguistique contemporaine. Armand Colin, Paris.
[Montague, 1974] Montague, R. (1974). Formal Philosophy. Selected Papers of Richard
Montague. Yale University Press, New Haven.
[Petitot-Cocorda, 1985] Petitot-Cocorda, J. (1985). Morphogenèse du sens. Presses
Universitaires de France, Paris.
[Ploux, 1997] Ploux, S. (1997). Modélisation et traitement informatique de la synonymie.
Linguisticae Investigationes, 21(1) :1–28.
[Ploux and Ji, 2003] Ploux, S. and Ji, H. (2003). A model for matching semantic maps
between languages (French/English, English/French). Computational Linguistics, 29(2) :155–
178.
[Ploux and Victorri, 1998] Ploux, S. and Victorri, B. (1998). Construction d’espaces
sémantiques à l’aide de dictionnaires informatisés des synonymes. Traitement Automatique
des Langues, 39(1) :161–182.
[Pustejovsky, 1998] Pustejovsky, J. (1998). The Generative Lexicon. MIT Press, Cambridge,
Massachusetts.
[Rastier, 1987] Rastier, F. (1987). Sémantique interprétative. PUF, Paris.
[Rosch, 1983] Rosch, E. (1983). New Trends in Cognitive Representation : Challenges to
Piaget’s Theory, chapter Prototype classification and logical classification : The two systems,
pages 73–86. NJ : Lawrence Erlbaum Associates.
[Ruppenhofer et al., 2005] Ruppenhofer, J., Ellsworth, M., Petruck, M., and Johnson, C.
(2005). FrameNet : Theory and Practice. http ://framenet. icsi.berkeley.edu/book/book.html.
[Smith et al., 1974] Smith, E. E., Shoben, E. J., and Rips, L. J. (1974). Structure and process
in semantic memory : A featural model for semantic decisions. Psychological Review,
81(3) :214–241.
[Thom, 1977] Thom, R. (1977). Stabilité structurelle et morphogénèse. InterEditions, Paris.
[Thom, 1980] Thom, R. (1980). Modèles mathématiques de la morphogénèse. Christian
Bourgeois Editeur, Paris.
[Victorri and Fuchs, 1996] Victorri, B. and Fuchs, C. (1996). Polysémie et construction
dynamique du sens. Hermès, Paris.
[Vigliocco et al., 2004] Vigliocco, G., Vinson, D., Lewis, W., and Garrett, M.(2004).
Representing the meanings of object and action words : The featural and unitary semantic
system (fuss) hypothesis. Cognitive Psychology, 48 :422–488.
[Vossen, 2003] Vossen, P. (2003). The Oxford Handbook of Computational Linguistics,
chapter Ontologies, pages 464–482. Oxford University Press.