Statut et utilisation des corpus en linguistique

Laurence Durroux

Statut et utilisation des corpus en linguistique

2013, Corela

Corela Cognition, représentation, langage HS-13 | 2013 Statut et utilisation des corpus en linguistique Statut et utilisation des corpus en linguistique Laurence Vincent-Durroux et Philip Carr Édition électronique URL : http://journals.openedition.org/corela/3004 DOI : 10.4000/corela.3004 ISSN : 1638-573X Éditeur Cercle linguistique du Centre et de l'Ouest - CerLICO Référence électronique Laurence Vincent-Durroux et Philip Carr, « Statut et utilisation des corpus en linguistique », Corela [En ligne], HS-13 | 2013, mis en ligne le 07 janvier 2014, consulté le 01 mai 2019. URL : http:// journals.openedition.org/corela/3004 ; DOI : 10.4000/corela.3004 Ce document a été généré automatiquement le 1 mai 2019. Corela – cognition, représentation, langage est mis à disposition selon les termes de la licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International. Statut et utilisation des corpus en linguistique Statut et utilisation des corpus en linguistique Laurence Vincent-Durroux et Philip Carr 1 La recherche en linguistique s'appuie de plus en plus sur des corpus, et ce, dans des domaines variés de la linguistique, qu'il s'agisse de la sociolinguistique (Docherty & Foulkes, 2000), de la syntaxe (Sampson, 1996, 2001), de la phonologie (Durand & Eychenne, 2004) ou encore de l'apprentissage des langues étrangères (Gregg, 2003). Les contributions rassemblées ici abordent les questions cruciales qui se posent aux linguistes quant au statut et à l'utilisation de corpus dans leurs travaux, questions, d'ordre métathéorique, théorique ou méthodologique. 2 Ces contributions font suite à deux journées d'étude organisées par l'Équipe EMMA (Études Montpelliéraines du Monde Anglophone), Université Montpellier III, les 1 er et 2 juin 2012, journées suscitées par les questionnements suivants. 3 L'objet de l'analyse linguistique est-il constitué d'énoncés regroupés ? Les données des corpus devraient-elles venir en complément des jugements intuitifs d'acceptabilité (Durand, 2009) ou bien avoir préséance sur eux, voire les remplacer ainsi que le suggèrent Sampson (2005) pour la syntaxe et Pierrehumbert et al. (2000) pour la phonologie ? Ou bien Itkonen (1978) a-t-il raison de poser que l'analyse grammaticale repose fondamentalement sur des jugements intuitifs d'acceptabilité, puisque, selon lui, ces jugements sont accessibles grâce à une connaissance des conventions sociales plutôt que grâce aux phénomènes observables (raison pour laquelle Itkonen affirme que le travail sur corpus pour l'analyse grammaticale ne sert à rien ; voir la discussion dans Riemer, 2009a, 2009b et Lopez-Serena, 2009). 4 L'utilisation de corpus est-elle une garantie du statut empirique et / ou scientifique de l'analyse menée ? Que signifient exactement les termes "empirique" et "scientifique" ? Si l'analyse menée sur corpus est empirique, une telle analyse conforte-t-elle une certaine version de l'empirisme en linguistique ? 5 Le travail sur corpus conduit-il à favoriser une approche théorique plutôt qu'une autre ? Par exemple, Arndt-Lappe (2011) affirme que l'analyse des composés nominaux en anglais Corela, HS-13 | 2013 1 Statut et utilisation des corpus en linguistique dans des corpus plaide en faveur de la théorie des instances (" exemplar theory ": voir Bybee, 2001, Pierrehumbert et al. 2001) plutôt que des approches génératives (Giegerich, 2004 et Liberman & Sproat, 1992). L'analyse sur corpus peut-elle éclairer, et si oui de quelle manière, le rôle joué par la fréquence des occurrences, rôle auquel font appel les approches linguistiques fondées sur la théorie des instances ? 6 Dans quel sens différents corpus (tels que le Brown corpus, le LOB corpus, le British National Corpus) peuvent-ils être considérés comme représentatifs ? Et représentatifs de quoi, précisément ? Dans quelle mesure des corpus peuvent-ils être utilisés par des chercheurs qui ne les ont pas constitués ? Les corpus nous donnent-ils accès à des données "objectives", non liées à une théorie et renvoyant à une forme de réalité ? Ou bien Scheer (2004) a-t-il raison d'affirmer qu'"il n'existe pas de corpus sans théorie" et que "le corpus ne représente pas la réalité: il représente la réalité de celui qui l'a construit" ? 7 Les trois premières contributions (T. Scheer, P. ten Hacken et R. Panocová, N. Arbach et S. Ali) présentées dans ce volume abordent ces questions des points de vue métathéorique et théorique. Dans les quatre contributions suivantes (C. Brasart, L. David, J. Sauvage, C. Dodane, F. Hirsch et M. Barkat-Defradas, P. Artero et A. Şerban), les auteurs illustrent et débattent de ces questions en se fondant sur l'analyse de la méthodologie de leurs travaux respectifs. 8 La contribution de Tobias Scheer (Université de Nice, France) permet de situer les corpus en rapport avec l'engouement technologique de ces dernières décennies et dans le cadre de la confusion fréquente entre les données elles-mêmes et les connaissances que celles-ci sont susceptibles d'apporter. T. Scheer montre que les corpus véhiculent un a apriori d'objectivité, et ce, à tort, puisqu'en tant qu'outils, ils sont constitués dans un but précis et dans un cadre théorique. De plus, les corpus présentent de multiples limites puisqu'ils ne peuvent attester de ce qu'ils ne comportent pas et ne font état que de la performance. La réflexion de T. Scheer porte également sur la linguistique de corpus. 9 Pius ten Hacken (Swansea University) et Renáta Panocová (P.J. Šafárik University, Košice) abordent les corpus sous l'angle de leur nécessité ou de leur caractère non indispensable selon la recherche menée. Le contexte observé est celui de la formation des mots, et plus particulièrement l'étude de la productivité. En comparant trois approches de l’étude de la productivité, celle de Baayen, celle de la linguistique chomskyenne et celle de Štekauer qui distingue la productivité et la fréquence et définit celle-là de telle façon qu’on peut se passer de l'utilisation d’un corpus, les auteurs montrent qu'une utilisation systématique de corpus permettrait de renforcer les conclusions obtenues sur la productivité. 10 Najib Arbach et Saandia Ali (Université Rennes 2) consacrent leur article au critère de représentativité des corpus en illustrant ses différents aspects et en présentant des méthodologies susceptibles d'être utilisées pour rechercher à atteindre le caractère représentatif d'un corpus : catégorisations, échantillonnage, volume des données. Les auteurs portent un regard critique sur deux courants méthodologiques : la « stratification en amont » représenté par Biber et le courant des monitor corpus représenté par Sinclair. 11 Charles Brasart (Université Paris 4) démontre le caractère indispensable d'un travail croisé sur différents corpus dans le domaine de l'alternance codique chez les sujets bilingues. C. Brasart montre que l'alternance codique est un phénomène discursif qui ne peut être caractérisé par les jugements d'acceptabilité mais dont peut rendre compte une analyse croisée de corpus émanant de locuteurs bilingues avec différents couples de langues. L'étude présentée porte sur les couples de langues Français / Anglais et Corela, HS-13 | 2013 2 Statut et utilisation des corpus en linguistique Allemand / Anglais et fait apparaître que l'alternance codique se fait selon les mêmes modalités dans les deux groupes et concerne des éléments de la langue qui, jusque là, étaient souvent considérés comme étant non affectés par l'alternance codique. 12 Laurent David (Université Paris 3) met en relation d'une part, différentes approches théoriques sur le Present Perfect en anglais, d'autre part les études psycholinguistiques antérieures sur l'acquisition du Present Perfect , en vue de sélectionner les paramètres que doit avoir un corpus destiné à l'analyse de l'acquisition du Present Perfect. Cela a guidé son choix de corpus issus du projet CHILDES. Sur ces données, la mise en œuvre conjointe d'analyses quantitatives (distinction entre les formes reprises et les formes initiées par l'enfant) et qualitatives (étude du développement morpho-syntaxique, sémantique et pragmatique) permet de montrer le rapport entre le développement linguistique et l'émergence des capacités cognitives de l'enfant. 13 Jérémi Sauvage, Christelle Dodane, Fabrice Hirsch et Melissa Barkat-Defradas (Université Montpellier 3) abordent les difficultés de construire un corpus leur permettant d'allier des analyses en synchronie et une approche longitudinale dans le cadre d'une étude sur les liens entre le niveau de développement du langage de l’enfant et la structure acoustique du rire. Cela soulève des questionnements pour ce type d'étude quant à la pertinence des grands corpus mutualisés de données enfantines, quant au choix des indicateurs à extraire et à analyser, et quant à la mise en œuvre conjointe d'approches quantitatives et qualitatives. 14 15 Paola Artero et Adriana Şerban (Université Montpellier 3) situent leur réflexion dans le domaine de la traductologie où les corpus ont pu être utilisés pour décrire des normes et des protocoles se révélant indépendants des langues traduites et pour fonder la discipline sur des bases empiriques. Les analyses quantitatives permettant notamment de situer les fréquences d'emplois de mots ou d'expression constituent aussi une aide majeure en traduction. Toutefois, l'apport d'analyses contextualisées et qualitatives aux analyses quantitatives semble indiscutable pour les auteurs qui appliquent cette méthodologie à une analyse de la traduction de Narnia afin de faire apparaître des tendances chez les traducteurs. Comité scientifique : Philip Carr, Laurence Vincent-Durroux (EMMA - Université Montpellier 3), Jacques Durand (Université de Toulouse Le Mirail) BIBLIOGRAPHIE ARNDT-LAPPE, S. (2011). ‘Towards an exemplar-based model of stress in English noun-noun compounds’. Journal of Linguistics 47 (3) : 549-585. BYBEE, J. (2001). Phonology and language use. Cambridge : Cambridge University Press. DOCHERTY, G. & P. FOULKES (2000). ‘Speaker, speech and knowledge of sounds’ In Burton-Roberts, N., P. Carr & G. Docherty (eds) Phonological knowledge: conceptual and empirical issues. Oxford : Oxford University Press. 105-130. Corela, HS-13 | 2013 3 Statut et utilisation des corpus en linguistique DURAND, J. (2009). ‘On the scope of linguistics: data, intuitions, corpora’. In Y. Kawaguchi, M. Minegishi & J. Durand (eds), Corpus and Variation in Linguistic Description and Language Education. Amsterdam/Philadelphia : John Benjamins. 25-52. DURAND, J. & J. EYCHENNE (2004). ‘Le schwa en français: pourquoi des corpus?’ In Scheer, T. (ed.) Usage des corpus en phonologie. Corpus 3 : 311-356. GIEGERICH, H. (2004). ‘Compound or phrase? English noun-plus-noun constructions and the stress criterion.’ English Language and Linguistics 8 (1) : 1-24. GREGG, K.R. (2003). ‘SLA theory: construction and assessment.’ In Doughty & Long (eds) The Handbook of Second Language Assessment. Oxford : Blackwell. 831-865. ITKONEN, E. (1978). Grammatical theory and metascience. Amsterdam : Benjamins. LIBERMAN, M. & R. SPROAT (1992). ‘The stress and structure of modified noun phrases in English.’ In Sag, I. & Szabolcsi (eds) Lexical matters. Stanford : CSLI publications. 131-181. LOPEZ-SERENA , A. (2009). ‘Intuition, acceptability and grammaticality: a reply to Riemer.’ Language Sciences 31 (5) : 634-648. PIERREHUMBERT, & P; HOPPER J. (2001). ‘Exemplar dynamics: word frequency, lenition, and contrast.’ In BYBEE, J (eds.) Frequency effects and the emergence of lexical structure. Amsterdam : Benjamins. 137-157. PIERREHUMBERT, J., M.E. BECKMAN & D.R. LADD (2000). ‘Conceptual foundations of phonology as laboratory science. In Burton-Roberts, N., P. Carr & G. Docherty (eds.) Phonological knowledge: conceptual and empirical issues. Oxford : Oxford University Press. 273-304 RIEMER, N. (20079). ‘Grammaticality as evidence and as prediction in a Galilean linguistics’. Language Sciences 31 (5) : 612-633. RIEMER, N. (2009b). ‘On not having read Itkonen: empiricism and intuitions in the generative data debate.’ Language Sciences 31.5: 649-662. SAMPSON , G. (1996). ‘From central embedding to corpus linguistics’. In Thomas, J. & M. Short (eds.) Using corpora for language research. Londres : Longman. Reproduit dans Sampson (2001). SAMPSON, G. (2001). Empirical linguistics. Londres : Continuum. SAMPSON, G. (2005). The ‘language instinct’ debate. Londres : Continuum. SCHEER, T. (2004). ‘Le corpus heuristique: un outil qui montre mais ne démontre pas’. In SCHEER, T. (ed.) Usage des corpus en phonologie. Corpus 3 : 153-192. AUTEURS LAURENCE VINCENT-DURROUX Université Montpellier 3 / EMMA EA 471 PHILIP CARR Université Montpellier 3 / EMMA EA 471 Corela, HS-13 | 2013 4

Log In

Statut et utilisation des corpus en linguistique

Related papers

Related papers

Related topics