Linginfo Panckhurst Mela
Linginfo Panckhurst Mela
Linginfo Panckhurst Mela
Linguistique-informatique
Plan de la présentation
Bibliographie
Bouillon P., Vandooren F., Da Sylva L., Jacqmin L., Lehmann S., Russell G.,
Viegas E., (1998), Traitement automatique des langues, Paris, Bruxelles :
Duculot. Disponible : Montpellier BU Lettres.
Fuchs C., Danlos L., Lacheret-Dujour A., Luzzati D., Victorri B., 1993,
Linguistique et traitements automatiques des langues, Paris : Hachette.
Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.
Habert B., Nazarenko A., Salem A., (1997), Les linguistiques de corpus, Paris :
Armand Colin. Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.
Linguiste-informaticien
Documentaliste, lexicographe, terminologue
Ergolinguiste
Assistant de recherche (ou recherchiste)
Rédacteur technique, multi-support (web, tablette, téléphonie
mobile, etc.)
1
Les sciences du langage : champs, applications et débouchés
Cours 7 : Mardi 8, mercredi 9, jeudi 10 novembre 2011
Linguistique-informatique
2
taille (des phrases, des mots, etc.), émanant d’une langue, des langues,
du langage (cf. Fuchs, 1993, p. 10-11 pour une précision langue/langage
dans ce contexte).
Pourquoi ajoute-t-on « dans une langue dite naturelle » ? Parce qu’il s’agit
de traiter de manière automatique des données linguistiques émanant
d’une langue, qui n’est pas artificielle ; un langage de programmation est
un langage artificiel, tandis que le français est une langue naturelle.
Lire les deux citations suivantes pour vous aider dans votre réflexion pour
la réponse à cette question.
3
Certains considèrent le TAL comme étant un sous-ensemble de
l'intelligence artificielle. L’intelligence artificielle fait intervenir à son tour
d'autres disciplines connexes : la logique, la psychologie, la neurologie,
l'épistémologie…
la traduction automatisée/automatique
traduire des données textuelles d’une langue à l’autre, par
exemple, la visualisation de pages Web émanant d'une autre
langue dans sa langue maternelle ;
4
l'indexation transforme le texte en une représentation, qui
sera utilisée par la suite lors de la recherche documentaire
afin de retrouver des informations, des documents, des
références… ;
l'extraction terminologique
par exemple, pour déterminer le vocabulaire spécialisé d’un
domaine particulier ;
la reconnaissance de la parole
interphones, systèmes de reconnaissance de dictée — par
exemple, dans le domaine médical ou juridique pour effectuer
des dictées immédiatement reconnues par la machine et
affichées à l’écrit à l’écran ;
la synthèse de la parole
montres pour mal-voyants, aide à l'éducation de la parole
pour enfants mal-entendants, vocalisation de SMS pour
personnes aveugles, etc.
5
Par rapport au langage naturel, si le travail du linguiste consiste à
identifier les propriétés qui caractérisent le langage et à en donner des
descriptions formelles, alors le linguiste-informaticien se préoccupe
d'implémenter (c'est-à-dire élaborer pour mettre en machine) des outils
(prototypes et/ou logiciels) pour le traitement du langage naturel par
ordinateur dans lesquels il aura injecté les théories et les descriptions
linguistiques particulières. Dans ce contexte, la linguistique théorique doit
fournir des descriptions entièrement explicites et organisées dans des
théories cohérentes du savoir linguistique, et ce au niveau de toutes les
composantes d’une langue. Vaste projet !
Références :
Bouillon P., Vandooren F., Da Sylva L., Jacqmin L., Lehmann S., Russell G.,
Viegas E., (1998), Traitement automatique des langues, Paris, Bruxelles :
Duculot. Disponible : Montpellier BU Lettres.
Fuchs C., Danlos L., Lacheret-Dujour A., Luzzati D., Victorri B., 1993,
Linguistique et traitements automatiques des langues, Paris : Hachette.
Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.
Discussion, pour approfondir : Une différenciation des objectifs du TAL par rapport à ceux des
IdL s’impose, et derrière la définition consensuelle de Fuchs et al. se logent des enjeux théoriques
importants. Les IdL impliquent nécessairement un objet (la langue) qui peut se vendre. Pour le
linguiste-informaticien œuvrant dans le domaine du TAL, la vente de produits linguistiques n’est
pas obligatoirement le but ultime ; ce qui importe, c’est avant tout une théorisation linguistique
importante au départ, avant que ne soient réalisées ensuite des implémentations informatiques
(qui peuvent être soit des prototypes, soit des logiciels commercialisables, mais pas
nécessairement). Cette distinction, entre linguistique théorique et applications industrielles ne se
réduit pas à une bataille terminologique : les orientations des deux approches conduisent à des
résultats fort différents. Mais, dans ce domaine précis, il est certain que l’on ne peut pas consacrer
des années à une recherche fondamentale sans qu’elle soit appliquée, d’une part, et, par ailleurs,
élaborer des outils (commercialisables) à la va-vite sans qu’il y ait un réel travail théorique sous-
jacent. L’idéal serait que les linguistes et les informaticiens collaborent ensemble, vraiment, que
l’informaticien implémente les théories linguistiques proposées par le linguiste, mais à l’heure
actuelle, c’est encore une position plutôt utopique.
6
2. Traitement informatisé de corpus
L'utilisation de ces données n'est pas récente ; par contre, ce qui change
est l'accès facilité aux données (via le réseau Internet, notamment) et
l'augmentation de la taille de celles-ci. Le traitement informatisé de corpus
(comme pour tout traitement du langage naturel écrit) implique
l’annotation automatique ou automatisé des données textuelles en une
représentation (un étiquetage, une arborescence) et, par la suite, la
recherche et l’extraction d'informations à partir de cette annotation.
7
programme qui s’appelle un étiqueteur (tagger, en anglais) ; parfois les
corpus sont annotés manuellement.
Définitions
Termes employés :
Lexicostatistique
Concordance
8
Statistique lexicale
Références :
Habert B., Nazarenko A., Salem A., (1997), Les linguistiques de corpus, Paris :
Armand Colin. Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.