Manuel Lexique.3
Manuel Lexique.3
Manuel Lexique.3
1
Laboratoire de Psychologie et Neurocognition
CNRS UMR 5105
Université Savoie Mont Blanc
Rue Jean-Baptiste Richard, 73000 Jacob-Bellecombette
BP 1104
F-73011 Chambery Cedex France
2
Unité de neuroimagerie cognitive INSERM U562
Service Hospitalier Frédéric Joliot, CEA
F91401 Orsay FRANCE
Remerciements: Nous remercions Agnès Bontemps-New qui a eu l'idée de constituer un corpus à base de
dialogues films. Nous remercions le projet Technolangue qui nous a permis de financer une partie de Lexique 3.
Nous tenons aussi à remercier l'ATILF, Jacques Dendien, Jean-Marie Pierrel, Claude de Loupy, et Jean Veronis
pour leur précieuse aide.
Si vous cherchez une information particulière et ne connaissez rien à Lexique, nous vous conseillons de procéder
de la façon suivante :
Bibliographie 27
Tableau 4: Nombre et exemples de lemmes selon leur fréquence (corpus de sous-titres) .................................... 14
Tableau 6: Nombre de mots dans Lexique 3 en fonction du nombre de syllabes et du nombre de lettres ............ 15
Tableau 8 Présentation des opérateurs utilisés dans les expressions régulières .................................................... 22
Manuel Lexique 3 - Etat de l'art des bases de données lexicales en français 5
Ce manuel explique pourquoi et comment utiliser la base de données Lexique 3. Si Lexique 1 et 2 avaient apporté
quelques avantages importants par rapport aux bases de données existant à l'époque (présence des formes
fléchies, actualisation, différents indices de fréquence), il y avait encore des améliorations possibles. En effet, les
fréquences étaient basées sur de la langue écrites exclusivement (et pas de fréquences orales), il n'était pas
possible d'obtenir les fréquences de cooccurrences de mots (ou fréquences d'expressions), les mots composés
n'étaient pas présentés, et nous n'avions pas accès aux fréquences des différentes formes grammaticales d'un
même mot (p.ex. fréquence de danse utilisé comme nom ou utilisé comme verbe). Ce sont tous ces avantages
que cette nouvelle version de Lexique apporte.
Brulex connaissait cependant trois limitations importantes. La première était l’absence des formes fléchies telles
que les verbes conjugués ou certaines formes écrites plurielles ou féminines. Cela pose problème par exemple
pour toutes les études concernant les formes fléchies en français ou pour estimer des fréquences d’unités telles
que les syllabes, les lettres, les bigrammes, ou les phonèmes. La seconde était que les fréquences étaient basées
uniquement sur des textes relativement anciens de surcroît (le plus récent datant de 1964). La troisième de ces
Manuel Lexique 3 - Etat de l'art des bases de données lexicales en français 7
limitations était l'absence de mise à jour. Les auteurs avaient clairement indiqués que leur base ne serait pas mise
à jour par de nouvelles champs ou des corrections aux données déjà existantes.
Manulex ou NOVLEX sont deux bases de données plus récente (Lambert et Chesnet, 2001), qui fournissent les
formes fléchies et leurs fréquences. En revanche, elles se fondent sur des corpus de manuels scolaires pour les
enfants (Novlex: CE2, 417000 mots; Manulex: CP-CM2, 1,9 millions de mots).
Morphalou (Romary, Salmon-Alt et Francopoulo, 2004) est une base encore plus récentes comprenant 539 413
formes ainsi que des informations morpho-syntaxiques (catégorie grammaticale, genre, nombre et lemme).
Cependant Morphalou ne contient ni les mots composés (garde-chasse, pomme de terre), ni les fréquences de ces
entrées. Vocolex est encore une autre base de données qui fournit un ensemble d'indicateurs statistiques sur les
similarités entre mots de la langue française. MHATLex (Pérennou et Calmès, 2000) est une base payante qui
contient 81 000 lemmes et 854 000 formes fléchies ainsi leurs représentations phonologiques, des informations
morpho-syntaxiques et fréquentielles.
Afin d'avoir une base de données comprenant les formes fléchies, ainsi que des estimations de fréquences plus
actuelles, nous avons créé la base de données Lexique 1 puis Lexique 2. Les fréquences de Lexique 1 & 2 furent
constituées à partir d'une sélection de textes publiés après 1950 du corpus de textes Frantext. Lexique 2
comprenait ainsi 130 000 formes fléchies ainsi que leur fréquence. Si Lexique 2 apportait un certain nombre
d'innovations comparativement aux bases de données existantes, il subsistait encore quelques limitations. Ainsi,
les mots composés n'étaient pas présents dans la base. Un autre défaut provenait du fait que n'ayant pas eu accès
aux textes, nous n'avions pas la fréquence des formes homographes telles que danse (dans sa forme nominale (la
danse) et dans sa forme verbale (je danse)). Nous avons donc développé Lexique 3 afin de lever ces limitations.
Pour avoir la fréquence des formes homographes, il nous fallait avoir accès à d'importants corpus de textes.
Nous avons donc demandé aux auteurs de Frantext, l'autorisation d'utiliser la partie la plus récente de leur
corpus. Cependant, Frantext est un corpus de textes littéraires (ex d'auteurs: Françoise Sagan, Michel Tournier,
mais aussi Georges Perec ou Marguerite Duras). Il y a donc un style assez soutenu et le vocabulaire utilisé ne
reflète peut-être pas toujours l'usage de la langue française.
Pour cette raison, nous avons recherché un deuxième corpus reflétant davantage l'usage de la langue. Nous avons
d'abord pensé au corpus du journal "Le Monde" mais le style utilisé était encore une fois assez élaboré et, du
coup, paraissait éloigné de l'usage courant de la langue française.
Ensuite, nous avons eu l'idée de télécharger un corpus de pages web. Pour autant le contenu textuel des pages
web n'est pas utilisable directement en raison des menus, des mentions légales, etc. Il exige donc un important
travail de prétraitement des données différent pour chaque site web téléchargé. Ce travail de prétraitement
rendait donc difficile l'obtention d'un gros corpus.
En troisième tentative, nous avons essayé de scanner des livres ou des journaux populaires tels que des romans
de gare ou des journaux télé. Là encore, la tâche s'est révélée ardue en raison de la mise en page relativement
Manuel Lexique 3 - Constitution des corpus 8
complexe des magazines. Se posait aussi le problème du temps de scannage des ouvrages afin d'obtenir un
corpus conséquent.
Enfin, nous avons eu l'idée de travailler sur des dialogues de films et de séries et plus précisément sur les sous-
titres. En effet les sous-titres de films et de séries présentent trois avantages non négligeables:
-ils proviennent de films et de séries souvent américaines très populaires (ex: Ally McBeal, 24h) qui
correspondent donc à ce qui peut être entendu en regardant la télévision.
-enfin, ils correspondent à des dialogues parlés et peuvent, de ce fait, servir à estimer l'usage de la langue parlée
Attention ce sont deux corpus de sous-titres différents qui ont été utilisés pour Lexique avant la version 3.40 et
celui utilisé pour la version 3.40 et les versions ultérieures.
Tous les détails sur la constitution de ce corpus sont dans l’article ci-joint :
New, B., Brysbaert, M., Veronis, J., & Pallier, C. (in press). The use of film subtitles to estimate word
frequencies. Applied Psycholinguistics.
Nous avons téléchargé les sous-titres de 9474 films ou saisons de séries représentant en tout 50 millions de mots.
Ces films ont été classés en 4 catégories :
1. sous-titres de films français : 1.9 millions de mots (e.g., Camille Claudel,
C’est arrive pr`es de chez vous),
2. sous-titres de films anglo-saxons : 26.5 millions de mots (e.g.,
Arizona Dream, Schindler’s List),
3. sous-titres de films et series anglo-saxonnes: 19.5 millions de mots
(e.g., Friends, Ally Mc Beal), and
4. sous-titres de films européens non anglo-saxons 2.5 million words
(e.g., Cria Cuervos, Good Bye Lenin!).
Manuel Lexique 3 - Estimation de la fiabilité des fréquences 9
Comme beaucoup de sous-titres avaient été obtenues par reconnaissance automatique de caractères, nous avons
d'abord du effectuer un gros travail de sélection et de correction des fautes d'OCR. (p.ex. "i" remplacé par "l").
Nous avons calculé la fréquence des mots pour chacun de ces sous-corpus. Une fois ceci effectué, nous avons
calculé la fréquence moyenne de chacun de ces mots à traver les 4 corpus. De cette façon, nos fréquences étaient
basées sur le corpus le plus large possible et nous évitions une trop forte influence des films et séries américaines
très fortement représentés.
L’avantage de ce corpus est de se baser davantage sur le langage oral que le corpus de livres. En effet les sous-
titres de films sont composés quasiment uniquement de dialogues très proches de ce qu’entendent les gens à la
télévision. Ces fréquences ont montré dans plusieurs analyses un avantage, assez souvent non négligeables, en
terme d’explication de la variance des temps de réaction de tâche de décision lexicale par rapport aux fréquences
de livres.
Nous avons obtenu une liste de 293 000 items distincts incluant les mots composés ainsi que leur fréquence Ces
items comprenaient des symboles (dont la ponctuation), des abréviations, des mots étrangers et des noms
propres. Pour "nettoyer" cette liste, nous avons employé Aspell, le dictionnaire Francais-Gutenberg 1.0
(Pythoud, 1996) et le dictionnaire Le Grand Robert (Robert, 1996). Le résultat de ce filtrage a produit une liste
de 157 920 items.
Cet effet n'existe pas uniquement entre les mots très fréquents et les mots très peu fréquent (comme entre porte et
osselet) mais il joue aussi pour des différences plus subtiles (comme entre danger et nuage). C'est donc un
facteur extrêmement important à contrôler dès lors que l'on veut mettre en évidence l'importance d'un autre
facteur dans la reconnaissance de mots.
Gernsbacher (1984) a suggéré que les fréquences basées sur des corpus écrit (comme les fréquences de Brulex
ou de Lexique 1 et 2) n'étaient pas de très bons estimateurs de la fréquence d'usage. Elle a notamment
argumenté que ces fréquences écrites "classiques" ne prennent pas en compte la fréquence d'occurrence parlée.
De plus ces fréquences reposent souvent sur des corpus anciens et non actualisés. Elle a ainsi montré que la
familiarité pouvait être un meilleur prédicteur des temps de décision lexicale (notamment pour les mots de basse
Manuel Lexique 3 - Avantages du corpus de sous-titres 10
fréquence) que les fréquences utilisées à l'époque. Il ressort donc de ces études qu'il est crucial d'avoir les
fréquences les plus actualisées et les plus proches de l'usage parlé possible.
Dans Lexique 3, nous proposons deux estimateurs des fréquences d’usage : le premier est fondé sur un sous-
ensemble de de textes littéraires récents (romans) tirés du corpus Frantext; le second repose sur un corpus de
sous-titres de films.
Un second avantage provient du fait que les fréquences de termes caractéristiques du langage parlé tels que
Salut, Bonjour, Au revoir, Oui, ou Non sont au moins 5 fois plus fréquents dans le corpus de sous-titres que dans
le corpus de livres.
Enfin, un dernier avantage provient du fait qu'il sera très facile de réactualiser ce corpus très régulièrement.
1_ortho 2_phono 3_lemme 4_cgram 5_genre 6_nombre 7_freqlemfilms 8_freqlemlivres 9_freqfilms 10_freqlivres 11_infover 12_nbhomogr 13_nbhomoph 14_islem
dansant d@s@ danser VER 108.14 92.57 2.34 5.54 par:pas; 2 3 0
dansante d@s@t dansant ADJ f s 1.65 6.89 0.48 1.76 1 2 0
dansantes d@s@t dansant ADJ f p 1.65 6.89 0.21 1.96 1 2 0
dansants d@s@ dansant ADJ m p 1.65 6.89 0.37 0.61 1 3 0
danse d@s danse NOM f s 41.06 35.14 38.62 29.19 2 8 1
danse d@s danser VER 108.14 92.57 18.46 9.8 imp:pre:2s;ind:pre:1s;ind:pre:3s;
2 8 0
dansé d@se danser VER m s 108.14 92.57 5.27 4.32 par:pas; 1 4 0
dansée d@se danser VER f s 108.14 92.57 0.11 0.27 par:pas; 1 4 0
dansent d@s danser VER 108.14 92.57 3.14 5.54 ind:pre:3p; 1 8 0
1_ortho 15_nblettres 16_nbphons17_cvcv 18_p_cvcv 19_voisorth20_voisphon21_puorth22_puphon23_syll 24_nbsyll 25_cv-cv 26_orthrenv 27_phonrenv 28_orthosyll
dansant 7 4 CVCCVCC CVCV 3 14 5 4 d@-s@ 2 CV-CV tnasnad @s@d dan-sant
dansante 8 5 CVCCVCCV CVCVC 1 3 0 0 d@-s@t 2 CV-CVC etnasnad t@s@d dan-san-te
dansantes 9 5 CVCCVCCVC CVCVC 0 3 0 0 d@-s@t 2 CV-CVC setnasnad t@s@d dan-san-tes
dansants 8 4 CVCCVCCC CVCV 1 14 0 4 d@-s@ 2 CV-CV stnasnad @s@d dan-sants
danse 5 3 CVCCV CVC 6 18 5 3 d@s 1 CVC esnad s@d dan-se
danse 5 3 CVCCV CVC 6 18 5 3 d@s 1 CVC esnad s@d dan-se
dansé 5 4 CVCCé CVCV 4 54 0 4 d@-se 2 CV-CV ésnad es@d dan-sé
dansée 6 4 CVCCéV CVCV 2 54 0 4 d@-se 2 CV-CV eésnad es@d dan-sée
dansent 7 3 CVCCVCC CVC 2 18 0 3 d@s 1 CVC tnesnad s@d dan-sent
Légende: ortho: le mot; phon: les formes phonologiques du mot; lemme: les lemmes de ce mot; cgram: les catégories grammaticales de ce mot; genre: le genre; nombre: le nombre;
freqlemfilms: la fréquence du lemme selon le corpus de sous-titres (par million d’occurrences); freqlemlivres: la fréquence du lemme selon le corpus de livres (par million d’occurrences);
freqfilms: la fréquence du mot selon le corpus de sous-titres (par million d’occurrences); freqlivres: la fréquence du mot selon le corpus de livres (par million d’occurrences);infover: modes,
temps, et personnes possibles pour les verbes; nbhomogr: nombre d'homographes; nbhomoph: nombre d'homophones; islem: indique si c'est un lemme ou pas; nblettres: le nombre de
lettres; nbphons: nombre de phonèmes; cvcv: la structure orthographique; p-cvcv: la structure phonologique; voisorth: nombre de voisins orthographiques; voisphon: nombre de voisins
phonologiques; puorth: point d'unicité orthographique; puphon: point d'unicité phonologique; syll: forme phonologique syllabée; nbsyll: nombre de syllabes ; cv-cv : structure phonologique
syllabée; orthrenv: forme orthograhique inversée; phonrenv: forme phonologique inversée; orthosyll: forme orthographique syllabée
Manuel de Lexique 3 - Organisation de la base Lexique 3 12
-Mot (ortho): La graphie est la forme orthographique du mot (p. ex.chienne) Attention, les mots correspondent
seulement aux mots qui sont apparus au moins une fois dans notre corpus (16 + 50 millions de mots). Il peut
ainsi y avoir des lemmes de certains mots apparus dans le corpus qui ne sont pas listés comme entrées
indépendante car il n’y sont pas apparus en tant que tels (seul le mot dérivé était dans le corpus). Lexique 2
comprenait 129 000 entrées tandis que Lexique 3 en comprenait 135 000 et Lexique 3.5 142 000.
-Phonie (phon): Représentation phonologique du mot. Les codes phonémiques utilisés sont présentés dans le
Tableau 2. L'historique complet de la génération de ce champs est présenté dans l'Annexe B: Historique de
l'obtention des codes phonologiques de Lexique.
Voyelles Consonnes
Codes Sons Codes Sons
Exemples Symbole API Exemples Symbole API
Lexique nommés Lexique nommés
a bat, plat A /a/ p père, soupe p (occlusive) /p/
i lit, émis I /i/ b bon, robe b (occlusive) /b/
y lu U /y/ t terre, vite t (occlusive) /t/
u roue Ou /u/ d dans, aide d (occlusive) /d/
o peau, mot o (fermé) /o/ k carré, laque k (occlusive) /k/
O éloge, fort o (ouvert) /ɔ/ g gare, bague g (occlusive) /g/
e été e-fermé /e/ f feu, neuf f (fricative) /f/
E paire, treize e-ouvert /ɛ/ v vous, rêve v (fricative) /v/
° abordera schwa élidable /ə/ s sale, dessous s (fricative) /s/
2 deux eu-fermé /ø/ z zéro, maison z (fricative) /z/
9 œuf, peur eu-ouvert /œ/ S chat, tâche ch (fricative) /ʃ/
in (voy.
5 cinq, linge /ɛ/ Z gilet, mijoter ge (fricative) /ʒ/
Nasale)
un (voy. m (cons.
1 un, parfum /œ/ m main, femme /m/
nasale) nasale)
an (voy. n (cons.
@ ange / / n nous, tonne /n/
nasale) nasale)
on (voy. gn (c. nasale
§ on, savon /ɔ/ N agneau, vigne
nasale) palat.)
schwa non
3 parvenu l lent, sol l (liquide) /l/
élidable
Semi-Voyelles R rue, venir R /ʁ/
y (semi- jota (emprunt
j yeux, paille /j/ x jota
voyelle) espagn.)
ui (semi- ng (emprunt
8 huit, lui /ɥ/ G camping
voyelle) angl.)
w (semi-
w oui, nouer /w/
voyelle)
Manuel de Lexique 3 - Organisation de la base Lexique 3 13
- Lemme (lemme) : Le lemme est la forme canonique, c’est à dire l’infinitif pour un verbe, la masculin
singulier pour un nom ou un adjectif. Par exemple, l'item chienne a pour lemme chien.
- Classe grammaticale (cgram) : Les différents codes utilisés pour représenter les catégories
grammaticales sont présentés dans le Tableau 3.
- Fréquence du lemme par million selon le corpus de films (freqlemfilm2) : Elle correspond à la somme des
fréquences des formes fléchies de chaque lemme fournie par notre sélection de films. Ex: freq (arbre) = freq
("arbre") + freq ("arbres")
Pour advantage de détails sur cette fréquence : New, B., Brysbaert, M., Veronis, J., & Pallier, C. (in press). The
use of film subtitles to estimate word frequencies. Applied Psycholinguistics.
Attention cette fréquence a changé à partir de Lexique 3.40. (Elle est alors basée sur un plus gros corpus et un
moyennage sur les sous-corpus)
Manuel de Lexique 3 - Organisation de la base Lexique 3 14
Nombre
Limite Limite
de Noms Adjectifs Verbes Adverbes
inférieure supérieure
lemmes
1 000 30 000 117 aller, faire, voir
100 1 000 589 porte, voiture, désolé, grand, bon fermer, couper, beaucoup, même,
café, police courir souvent
50 100 490 coin, conseil, calme, idiot, sympa laver, traverser, doucement, ailleurs,
danger regretter pourtant
20 50 1 165 secteur, sable, malin, joyeux, curieux creuser, exciter parfaitement,
nuage désormais,
lentement
10 20 1 137 atmosphère, classique, féminin, fidèle boucher, désigner, soudain, clairement,
bouquin, individu étrangler volontiers
- Fréquence du lemme par million selon le corpus de livres (freqlemlivre) : Elle correspond à la somme des
fréquences des formes fléchies de chaque lemme fournie par notre sélection de livres de Frantext, normalisée par
une division par 14,8 (le corpus original comprenant 14,7 millions d'occurrences).
- Fréquence par million selon le corpus de films (freqfilm2) : Elle correspond à la fréquence par million
d'occurrences du mot selon notre corpus de sous-titres. Contrairement à Lexique 2, danse aura deux entrées et
deux fréquences, une pour sa forme nominale (p.ex. la danse) et une pour sa forme verbale (je danse). Attention,
cette fréquence a changé à partir de Lexique 3.40.
- Fréquence par million selon le corpus de livres (freqlivre) : Elle correspond à la fréquence par million
d'occurrences du mot selon notre corpus de livres. (14,7 millions de mots).
- Informations verbales (infover): Ce sont les informations de mode, de temps, et de personne que sont
susceptibles de prendre les formes verbales
- Nombre d'homographes (nbhomogr): Nombre d'entrées ayant la même forme orthographique mais pouvant
différer de par leur catégorie grammaticale ou de par leur lemme.
Manuel de Lexique 3 - Organisation de la base Lexique 3 15
Tableau 6: Nombre de mots (lemmes et formes fléchies) dans Lexique 3 en fonction du nombre de syllabes et du
nombre de lettres
- Structure orthographique (cvcv) : Elle décrit la structure orthographique. Les voyelles sont notées V, les
consonnes sont notées par C. Ainsi chienne est représentée par ccvvccv.
-Structure de la forme phonologique (p-cvcv) : C'est un découpage du mot en voyelles (V) et consonnes (C)
selon sa représentation phonologique.
- Nombre de voisins phonologiques (voisphon) : Les voisins phonologiques d'un mot sont des mots qui peuvent
être créés en changeant un phonème sans modifier les autres. Ils ont aussi été calculés à partir de toutes les
entrées phonologiques de la base Lexique3.
Manuel de Lexique 3 - Organisation de la base Lexique 3 17
-Point d’unicité orthographique (puorth) : Le point d’unicité orthographique correspond au rang de la lettre en
partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Nous avons calculé les points
d'unicité sur la base des lemmes pour que les formes plurielles ne parasitent pas les calculs (sinon toutes les
formes ayant un pluriel ont un point d'unicité égale à leur longueur). Pour les formes orthographiques n'étant pas
lemmes, le point d'unicité orthographique est de 0.[avant la version 2.60 les voisins n’étaient pas calculés sur les
lemmes mais sur toutes les entrées de Lexique3s]
- Point d’unicité phonologique (puphon) : Le point d’unicité phonologique correspond au rang du phonème en
partant de la gauche à partir duquel le mot peut être identifié sans ambiguïté. Le point d'unicité phonologique a
aussi été calculé sur la base des lemmes. Pour certains lemmes très rares nous n'avions pas leurs représentations
phonologiques (les représentations phonologiques ont été calculées sur les formes orthographiques). Pour les
formes orthographiques n'étant pas lemmes, le point d'unicité phonologique est de 0.
- Syllabation (syll) : Les formes phonologiques ont été syllabées selon un algorithme de syllabation décrit dans
Dufour, Peereman, Pallier et Radeau (sous presse). Une version mise à jour de l’article décrivant l’algorithme
utilisé est présente à l’adresse suivante En résumé, nous avons retenu la syllabation adoptée par Pallier (1994).
La syllabation est calculée sur la représentation phonologique présente dans Lexique dont on a enlevé les
schwas finaux. Cette syllabation est basée sur le principe général d'une segmentation syllabique entre deux
consonnes sauf dans les cas des occlusives + liquides ou d'une fricative labio-dentale suivie d'une liquide. Le
script de syllabation (syllabation.awk) est distribué avec lexique.
- Structure phonologique syllabique (cv-cv) : Elle décrit la structure phonologique du mot syllabé. Les
consonnes sont notées C, les voyelles sont notées V et les semi-voyelles Y
- Représentation orthographique inversée (orthrenv) : Ex: erbra (arbre). Ce type de champs, une fois trié, est
très utile pour les personnes travaillant sur les terminaisons (p.ex. en morphologie)
- Représentation phonologique inversée (phonrenv) : Ex: RbRa (aRbR). Même champs que précédemment
mais pour la représentation phonologique.
-Catégories grammaticales possibles de la forme orthographique (cgramortho): Champs qui indique les
différentes catégories grammaticales possibles pour une représentation orthographique donnée. P.ex. danse sera
catégorisée comme "NOM,VER" c'est-à-dire un mot qui peut être soit un nom, soit un verbe.
Manuel de Lexique 3 - Organisation de la base Lexique 3 18
-Nombre de personnes ayant répondu pour la définition de ce lemme (defobs). Ce champs indique le nombre
de personnes à partir duquel nous avons construit le pourcentage du champs précédent (deflem).
-Distance de Levenshtein orthographique (old20) Récemment Yarkoni, Balota et Yap (2008) ont remis essayé
d'améliorer l'indice de voisinage donné par le nombre de voisins. Pour cela, pour un mot donné, ils ont calculé sa
distance de Levenshtein1 en fonction de tous les autres mots anglais. Enfin, ils ont calculé la distance moyenne
des 20 mots les plus proches. Dans une série de régressions multiples ils trouvent que cette distance de
Levenshtein moyenne explique davantage de variance que le nombre de voisins orthographiques. Nous avons ici
calculé la distance de Levenshtein des 20 mots les plus proches en ayant calculé préalablement la distance de
Levenshtein de chaque mot avec les 125 653 entrées orthographiquement différentes de la base Lexique 3.6.
Le Tableau 7 présente en résumé les principales caractéristiques de tous les champs sous formes numériques.
er ème
Tableau 7: Minimum, 1 quartile, médiane, moyenne, 3 quartile et maximum pour les
champs numériques
3eme
Champs Min 1er Qu Médiane Moyenne Qu Max
Fréquence du lemme (films) 0 0.12 1.02 64.83 7.71 33959.88
Fréquence du lemmes (livres) 0 0.54 2.64 48.37 13.31 38943.65
1
Distance de Levenshtein: Nombre de transformations (ajout, suppression, remplacement) pour arriver
d'une chaîne de caractères à une autre. P.ex. la distance de Levenshtein entre jupe et juge est de 1 et de 2 entre
jupe et juger.
Manuel de Lexique 3 - Les autres bases 19
7 Les Outils
Afin de rendre Lexique disponible au plus grand public, nous avons mis à disposition plusieurs outils gratuits
permettant de l'interroger. Il existe trois moteurs de recherche "en ligne" facilement utilisables: un moteur
permettant de connaître la fréquence de n'importe quelle chaîne de caractères dans l'un des deux corpus (corpus
de sous-titres ou corpus de livres),un moteur permettant de faire des requêtes à partir d'une simple liste de mots,
et enfin un moteur permettant de connaître tous les mots partageant certaines propriétés.
Manuel de Lexique 3 - Les Outils 20
C'est un nouvel outil de recherche disponible avec Lexique 3 qui permet de connaître la fréquence de n'importe
quelle chaîne de caractères. Il est ainsi possible de savoir dans combien de fois apparaissent sel et poivre dans la
même phrase. Il est aussi possible de savoir dans combien de phrases apparaît le syntagme "pomme d'Adam" ou
encore "la pomme d'Adam". Cela permet d'effectuer tout un pan de nouvelles recherches qui n'étaient pas
possible auparavant telles que des recherches concernant les relations associatives ou sémantiques entre les
termes, ou encore des recherches sur les expressions idiomatiques (broyer du noir, monts et merveilles).
Ce moteur permet aux personnes désirant obtenir une certaine caractéristique donnée pour une liste de mots de
l'obtenir instantanément. Ce moteur permet à l'utilisateur de choisir sa base, taper son ou ses mots et de lancer sa
recherche. Celle-ci apparaît alors dans un tableau qu'il peut par exemple copier et coller dans un tableur tel
qu'Excel. La figure Erreur ! Source du renvoi introuvable. présente un exemple d'un tel type de requête.
Le deuxième moteur de recherche permet d'effectuer des recherches par propriétés sur Lexique et d'autres bases
simultanément.
Pour cela, l'utilisateur choisit la ou les bases sur lesquelles il désire procéder à son interrogation. Dans un
deuxième temps, il choisit le type de recherche qu'il désire effectuer : il peut effectuer : 1) soit une recherche
simple permettant d'utiliser quelques opérateurs basiques Ces opérateurs sont présentés dans le tableau ci-
dessous.
Manuel de Lexique 3 - Les Outils 21
2) soit une recherche utilisant à la fois les opérateurs disponibles en recherche simple et les expressions
régulières. Les expressions régulières permettent d'effectuer des recherches très complexes de chaînes de
caractères. Tous les opérateurs disponibles dans la recherche par "Expressions Régulières" sont présentés dans le
Erreur ! Source du renvoi introuvable.. Un exemple de recherche complexe utilisant les expressions régulières
est la recherche ^[^aeiouyàâçèéêôîû]*[aeiouyàâçèéêôîû][^aeiouyàâçèéêôîû]*$ qui permet de rechercher tous les
mots ne contenant qu'une seule voyelle.
Ensuite il sélectionne les champs sur lesquels il effectue sa recherche puis tape l'expression recherchée.
L'utilisateur peut aussi choisir les colonnes qu'il désire afficher et sur quelle colonne il désire qu'un tri soit
effectué. Une requête est présentée dans la Erreur ! Source du renvoi introuvable.. Cette requête utilise les
expressions régulières et demande tous les mots commençant par la lettre a suivie d'un f ou d'un g, qui soient
nom ou adjectif, dont la fréquence est supérieure à 10 occurrences par million et dont la représentation
phonémique comprend la fricative /f/. Cette requête demande en outre que les résultats soient triés selon leur
fréquence par ordre croissant et de n'afficher que 4 colonnes (le mot, sa représentation phonémique, sa catégorie
grammaticale et sa fréquence).
Manuel de Lexique 3 - Les Outils 22
Le nombre de résultats et les entrées correspondant à la requête sont alors affichés dans un tableau que
l'utilisateur pourra copier et coller dans un tableur par exemple, afin de les retravailler. Pour de ne pas rendre les
recherches trop lourdes pour le serveur, nous avons limité celles-ci à 2 000. Si la requête de l'utilisateur dépasse
les 500 résultats, celui-ci pourra naviguer 2 000 par 2 000. La Erreur ! Source du renvoi introuvable. présente
les résultats obtenus suite à la requête présentée dans la Erreur ! Source du renvoi introuvable..
Manuel de Lexique 3 - Les Outils 23
Figure 3 Résultats obtenus suite à la requête présentée dans la Erreur ! Source du renvoi
introuvable.
De plus, deux pages html présentent beaucoup d'exemples d'utilisation à la fois de la recherche simple et de la
recherche par expressions régulières.
Nous demandons ici tous les mots de 2 syllabes selon Lexique3 qui ont 3 homographes selon Brulex.
Manuel de Lexique 3 - Les Outils 24
Pour l'instant, les bases interrogeables en plus des bases de Lexiqu3 et de Lexique 2 sont les bases Manulex (Lété
et al., 2004), la base d'Alario et Ferrand (1999), Brulex (Content et al., 1990) et la base sur l'âge d'acquisition de
Ferrand, Grainger et New (sous presse). Open Lexique permet donc aux utilisateurs de Lexique d'accéder, pour
certains items, à l'âge d'acquisition, le nombre de voisins orthographiques et phonologiques, le nombre
d'homographes et d'homophones, le nombre d'homonymes sémantiques, la valence d'imagerie, etc.
Ainsi, nous avons regroupé dans une application facilement utilisable dénommée Undows
(http://undows.lexique.org/) des outils libres tels que gawk, perl, bash, et les textutils. Nous avons choisi
d'utiliser les outils awk et perl car ce sont des langages de programmation spécialisés dans le traitement de
données de type "texte". Ces langages permettent d'effectuer facilement des requêtes simples de types "sélection
de données" ou des programmes beaucoup plus complexes. En démarrant cette application, l'utilisateur a accès à
plusieurs exemples de recherches courantes à effectuer sur Lexique telles qu'une recherche sur tous les mots
ayant la catégorie grammaticale NOM, tous les mots commençant par b, tous les mots finissant par t, ou tous les
mots compris dans une certaine gamme de fréquence. La Erreur ! Source du renvoi introuvable. présente des
exemples de requêtes effectuées avec ces outils.
Des exemples de scripts awk ou perl sont aussi inclus qui permettent de faire des opérations plus complexes
telles que l'écriture des mots de la base à l'envers, le calcul des points d'unicité, l'algorithme de syllabation utilisé
Manuel de Lexique 3 - Disponibilité et site web 25
pour la constitution des formes syllabées de Lexique, le calcul des voisins (orthographiques ou phonologiques) et
de leurs fréquences, etc.
De plus nous mettons à disposition de nombreuses documentations avec les outils "hors ligne". Cet ensemble de
documentation comprend toutes les documentations officielles des outils disponibles ainsi que deux
documentations que nous avons rédigées. Nous avons notamment écrit une rubrique "Foire Aux Questions"
essayant de répondre aux principales questions des utilisateurs concernant l'utilisation de Undows avec Lexique
ainsi qu'une documentation expliquant comment utiliser le langage awk afin d'interroger Lexique.
9 Licence
Un des objectifs de Lexique est de rendre disponible publiquement une base de données qui soit la plus grande et
la plus fiable possible. Pour cela Lexique est publié sous une licence qui autorise toute personne à utiliser, copier,
et même modifier la base, du moment que celle-ci reste sous cette même licence.
Cette licence correspond à la "Licence Publique Générale" existant dans le monde des logiciels libres. Nous
avons choisi cette licence afin de garantir la gratuité des futures versions de Lexique, ainsi que pour encourager
les différents utilisateurs à participer à l'élaboration de cette base, ce qui a déjà été le cas avec la collaboration de
Peereman et Dufour (sous presse) pour ne citer qu'un exemple.
Cette licence présente aussi l'avantage de garantir une certaine pérennité à cette base. En effet, la célèbre base de
données développée par l'Institut de Nimejgen, Celex a toujours été distribuée sous une licence propriétaire.
Maintenant que les sources de financement de ce projet ont été coupées, le développement de Celex semble
définitivement arrêté. C'est un problème auquel ne sera pas confronté Lexique. Cette licence garantit que si un
jour le projet ne devait plus être soutenu par les auteurs à l'origine du projet, un autre laboratoire pourrait tout à
fait télécharger la base, la modifier et la redistribuer.
10 Conclusion
Depuis plus d'une dizaine d'années, les psycholinguistes travaillant sur l'anglais, l'allemand ou le hollandais
disposaient de Celex, une base de données donnant les fréquences des formes ambiguës grammaticalement, des
formes fléchies, et des fréquences des mots à l'écrit et à l'oral. Si Brulex puis Lexique 1 & 2 ont permis
Manuel de Lexique 3 - Conclusion 26
progressivement de combler ce retard il restait encore un certains nombres de caractéristiques absentes pour la
langue française (fréquences orales, fréquences des homographes). Lexique 3 permet non seulement de rattraper
ce retard mais apporte aussi un certain nombre de nouveautés par rapport aux bases de données existantes.
D'autre part, les estimations de la fréquence d'usage à l'oral sont basées sur un corpus plus important que ceux
disponibles jusqu'alors. (19 millions de mots vs 5 millions de mots pour Celex anglais).
Lexique 3 dispose aussi d'un nouvel outil permettant de chercher la fréquence de cooccurrence de n'importe
quelle suite de mots. A notre connaissance, c'est la première fois qu'un outil de ce type est disponible pour des
corpus aussi larges.
Enfin, la façon dont le corpus estimant l'usage de la langue oral permettra d'étendre et de mettre à jour ces
fréquences très facilement. En effet la langue était quelque chose de vivant, il est très important de ne pas
disposer de fréquences figées mais au contraire d'avoir des fréquences qui suivent l'évolution de cette langue
Manuel de Lexique 3 - Conclusion 27
Bibliographie
Alario F-X., Ferrand L., Laganaro M., New B., Frauenfelder U., & Segui J. (2004) Predictors of Picture
Naming Speed. Behavior Research Methods, Instruments, & Computers,36 (1), 140-155.
Baayen, R. H., Dijkstra, T., & Schreuder, R. (1997). Singulars and plurals in Dutch: Evidence for a parallel
dual-route model. Journal of Memory and Language, 37, 94–117.
Black, A.W. and Lenzo, K. and Pagel, V. (1998). Issues in building general Letter to Sound Rules.
Proceedings of 3rd ESCA/COCSADA Workshop on Speech Synthesis, 77-81.
Bonin, P., Chalard, M., Méot, A., & Fayol, M. (2001). Age-of-acquisition and word frequency in the lexical
decision task: Further evidence from the French language. Current Psychology of Cognition, 20, 401-443.
Bonin, P., Barry, C., Méot, A., & Chalard, M. (2004). The influence of age of acquisition in word reading
and other tasks: A never ending story? Journal of Memory and Language, 50, 456-476.
Coltheart, M., Davelaar, E., Jonasson, J.T., & Besner, D. (1977). Access to the internal lexicon. In S. Dornic
(Ed.), Attention and Performance (Vol. 6, pp. 535-555). New York : Academic Press.
Content, A., Mousty, P., & Radeau, M. (1990). BRULEX: Une base de données lexicales informatisée pour
le Français écrit et parlé [A lexical computerized database for written and spoken French]. L’Année
Psychologique, 90, 551-566.
Dufour, S., Peereman, R., Pallier, C, Radeau, M. (2002). VoColex: A lexical database on phonological
similarity between French words. L'Année Psychologique, 102, 725-746.
Gernsbacher, M. A. (1984). Resolving 20 years of inconsistent interactions between lexical familiarity and
orthography, concreteness, and polysemy. Journal of Experimental Psychology: General, 113, 256-281.
Keller, E., & Zellner, B. (1998). Motivations for the prosodic predictive chain. Proceedings of ESCA
Symposium on Speech Synthesis, 76, 137-141.
Lambert, E., & Chesnet, D. (2001). NOVLEX: Une base de données lexicales pour les élèves de primaire.
L’Année Psychologique, 101, 277-288. [Available: http://www2.mshs.univ-poitiers.fr/novlex/]
Lété, B., Sprenger-Charolles, L., & Colé, P. (2004). MANULEX: A grade-level lexical database from
French elementary school readers. Behavior Research Methods, Instruments, & Computers, 36, 156-166.
Manuel de Lexique 3 - Conclusion 28
Monsell S. (1991). The nature and locus of word frequency effects in reading, in D. Besner (Edit) et G.
Humphreys (Edit), Basic processes in reading: Visual word recognition, Hillsdale, NJ, (Lawrence Erlbaum
Associates), 148-197.
Morrison C., Ellis A. (1995). Roles of word frequency and age of acquisition in word naming and lexical
decision, Journal of Experimental Psychology: Learning, Memory, and Cognition, 21, (1), 116-133.
Namer F. (2003). Automatiser l'analyse morpho-sémantique non affixale: le système DériF. Cahiers de
Grammaire, Nabil Hathout, Michel Roché et Nicole Serna (éds). Toulouse: ERSS, pp.31-48.
New, B., Brysbaert, M., Segui, Ferrand, L., Rastle, K. (2004) The Processing of singular and plural nouns in
French and English. Journal of Memory and Language, 51, 568–585.
Pagel, V. and Black, A.W. and Lenzo, K. (1998). Letter-to-Sound Rules for Accented Lexicon
Compression. Proceedings of ICSLP'98, 252-255.
Peereman, R., & Dufour, S. (2003). Un correctif aux notations phonétiques de la base de données LEXIQUE
[A corrective to the phonetic notations of the LEXIQUE database]. L’Année Psychologique, 103, 103-108.
Romary L., Salmon-Alt S., Francopoulo G. (2004). Standards going concrete : from LMF to Morphalou.
Workshop on Electronic Dictionaries, Coling Geneva, Switzerland.
Yarkoni, T, Balota, D.A., & Yap, M.J. (2008). Moving Beyond Coltheart's N: A New Measure of
Orthographic Similarity. Psychonomic Bulletin & Review, 15, 971-979.
Manuel de Lexique 3 - Conclusion 29
A quoi correspond les différents champs de telle ou telle base (comment les informations ont-elles été
obtenues) ?
400AoA (Ferrand, Grainger & New) : Article de Ferrand, Grainger & New
Le problème de l'obtention des codes phonologiques de Lexique provient du fait que Lexique a toujours compris
un grand nombre de formes fléchies. Nous n'avons donc pas pu utiliser de dictionnaire comme c'était le cas pour
Brulex.
Lexique 1
Pour Lexique 1, nous avons dérivé la forme phonologique de nos entrées grâce au logiciel LAIPTTS 1.13 (Keller
& Zellner, 1998). Ce logiciel utilise un noyau de 500 règles de conversion graphème-phonème rendant compte
de plus de 86% des prononciations. Afin de traiter les exceptions, il dispose aussi d’un dictionnaire composé de
6 000 mots ayant des prononciations exceptionnelles. Sur 4 000 phrases du quotidien Le Monde, l’auteur
rapporte que son logiciel a un taux d’erreur de 0,001 %. Cependant, ce logiciel (LAIPTTS) était un logiciel prévu
pour générer de la parole à partir de textes continus et non de mots isolés (cadre dans lequel nous l'avons utilisé).
Lexique 2
Pour Lexique 2, Peereman et Dufour (sous presse) ont examiné, les codes phonémiques de Lexique 1 en les
comparant aux notations phonémiques données par Brulex (elles-mêmes basées sur le dictionnaire Le Petit
Robert). Ils ont ainsi détecté 2 500 différences (sur les 30 000 entrées que contient Brulex) de codifications
phonémiques entre Lexique et Brulex. Ces 2 500 différences relevaient soit de mots à prononciation
exceptionnelle, soit de problèmes de règles de conversion utilisées par le logiciel. Ils ont donc corrigé ces
entrées. Ils ont aussi retraité l'ensemble des codes phonémiques pour le positionnement des schwas. Afin de
rendre les codes phonémiques les plus cohérents possibles, les auteurs de ces corrections ont aussi supprimé la
distinction entre les deux types de "a" et les deux types de "o", les deux types de "r", l'arrêt glottique, ainsi que la
marque d'aspiration "h".
Lexique 3
Pour Lexique 3, les représentations phonologiques ont été obtenues à partir de Lexique 2 pour les entrées qui le
permettaient. Pour les entrées ne le permettant pas, nous avons utilisé le logiciel Multitel Elite 2.0.1 (Pagel,
Manuel de Lexique 3 - Conclusion 31
Black et Lenzo, 1998; Black, Lenzo et Pagel, 1998). Comme pour tout logiciel de "text to speech" adapté à la
parole continue et employant un système de règles, des erreurs ont pu être introduites, notamment sur les mots
d'origine étrangère. Nous en avons d'ores et déjà corrigé un certain nombre mais il peut en rester. Si vous en
trouvez, n'hésitez pas à en faire part sur le forum de Lexique
Lexique 3.2
Pour Lexique 3.2, Christian Lachaud a effectué un grand nombre de corrections. Il a tout d'abord réintroduit
après un gros travail de vérification manuelle la différence entre o ouvert (noté o) et o fermé (noté O). Il a
supprimé la présence du phonème h qui indiquait la possibilité d'une liaison ou pas. En outre, il a corrigé environ
1400 entrées (1% du Lexique) pour des problèmes diverses:
Nous avons commencé par utiliser les codes du premier logiciel de text2speech que nous avons employé.
(LAIPTTS). Ensuite nous avons légèrement changé ces codes pour le rendre plus pratique (remplacement du
schwa * par ° pour que les recherches soient plus faciles)
Nous n'utilisons pas API car nos fichiers sont des fichiers textes (nous passerons à l'unicode, une fois que celui-
ci sera parfaitement supporté par toutes les applications), et pas X-Sampa car nous voulons que chaque phonème
soit représenté par un seul caractère. Nous voulions aussi que tous ces caractères soient facilement utilisables par
des anglo-saxons. Normalement, notre code phonétique est relativement proche de X-Sampa. Voici les
changements de X-Sampa vers Lexique :
X-Sampa Lexique
e~ 5
a~ @
o~ §
9~ 1
A a
N G
J N
H 8
@ °