Les corpus plurilingues, entre linguistique de corpus
et linguistique de contact : réflexions et méthodes*
issues du projet CLAPOTY
Isabelle Léglise** et Sophie Alby***
Le domaine de la linguistique de contact est en pleine expansion depuis une
quinzaine d’années mais fragmenté en plusieurs traditions de recherches. Une
première approche, diachronique, tend à se focaliser sur la description
linguistique des conséquences du contact sur les langues (étude des contactinduced language change). Une seconde approche, synchronique, vise plus à
décrire les effets du plurilinguisme et du sens socialement attribué par les
locuteurs à l’alternance des langues (étude en particulier du codeswitching). Peu
de travaux tentent de tenir compte des avancées de ces deux traditions de
recherche. Nous voudrions ici montrer quelle méthodologie précise, dans
l’analyse minutieuse des corpus, peut être mise en œuvre afin de prendre en
compte à la fois les phénomènes synchroniques (de variation et mélanges de
langues) et diachroniques (de changement) et quelles questions épistémologiques
se posent dans le traitement des données. Pour ce faire, nous nous appuyons sur
la méthodologie mise en place dans le projet CLAPOTY. Après avoir présenté le
champ de la linguistique de contact et l’optique de la linguistique de corpus, nous
présentons notre corpus plurilingue et discutons des choix effectués au regard des
standards actuels des travaux en linguistique de corpus. Nous présentons ensuite
les méthodes de repérage et d’analyse mises en place afin de pouvoir proposer
des explications plurifactorielles au contact de langues.
1. LE DOMAINE DU CONTACT DE LANGUES
La prise en compte d’une pluralité de langues en présence sur le terrain est
devenue un incontournable pour les linguistes travaillant à la description des
*
Contacts de Langues : Analyses Plurifactorielles assistées par Ordinateur et
conséquences TYpologiques (projet ANR-09-JCJC-0121-01). La tâche 1, présentée ici et
dont nous sommes responsables, s’attache à la réalisation d’un corpus commun et à la
création d’un modèle d’analyse de phénomènes de contact. Ont également participé à
cette tâche : E. Adamou (CNRS, Lacito), C. Chamoreau (CNRS, SeDyL-CELIA), G.
Ledegen (Rennes 2), B. Migge (UCDublin et SeDyL-CELIA), C. Saillard (Paris Diderot,
LLF), D. Troiani (CNRS, SeDyL-CELIA), et P. Vaillant (Paris Nord, Lim&Bio).
** CNRS, SeDyL-CELIA. Courriel : leglise@vjf.cnrs.fr
*** UAG, SeDyL. Courriel : Alby.sophie@gmail.com
96
Isabelle Léglise et Sophie Alby
langues en général ; les situations de multilinguisme sociétal sont la généralité et
le monolinguisme individuel, un cas particulier (Wurm, 1996). Les situations de
communication ordinaires prennent ainsi place, non pas dans des communautés
linguistiques monolingues vues comme «homogènes», mais dans une «zone de
contact» multilingue. Toutefois, les phénomènes de contact sont encore souvent
traités à la marge, comme des épiphénomènes (Nicolaï, 2007 : 2). Issue de la
linguistique historique moderne, la linguistique de contact (Goebl, Nelde, Starý
& Wölck, 1996) met les phénomènes de contact au centre de ses préoccupations.
Si toutes les langues sont mixtes, au sens faible du terme, (Thomason, 2003 : 21),
beaucoup de travaux se sont penchés sur les langues mixtes, au sens fort, c’est-àdire sur les langues qu’on ne peut génétiquement affilier à une seule langue.
L’étude des créoles et pidgins a notamment démontré l’importance des facteurs
socio-historiques dans le changement linguistique car les mécanismes et
processus linguistiques intervenant lors de la genèse des créoles sont les mêmes
que dans des situations «classiques» (Winford, 1997, Thomason, 1993). Winford
(2003) insiste sur l’importance des facteurs sociaux dans la typologie des
situations de contact qu’il propose. Toutefois, son travail s’intéresse
essentiellement aux similarités et différences des résultats linguistiques du
contact et peu aux éléments de contexte micro et macro-social – probablement
parce qu’il étudie des situations anciennes pour lesquelles peu de données
sociales sont disponibles (Léglise & Migge, 2005). Beaucoup de travaux se sont
consacrés aux changements linguistiques induits par contact – contact-induced
language change – en s’intéressant aux types de phénomènes susceptibles
d’apparaître en fonction des caractéristiques typologiques des langues en
présence (cf. Heine & Kuteva, 2005, Thomason, 2001b, Ross, 1999). En se
focalisant sur des caractéristiques morphosyntaxiques ou typologiques, ces
travaux ont toutefois laissé de côté les considérations sociales ou contextuelles du
contact de langues. Dans une perspective fonctionnaliste par exemple Matras
(2009) considère les répertoires plurilingues des locuteurs et les innovations
individuelles comme agents du changement.
En synchronie, l’étude de l’alternance de langues et des parlers bilingues s’est
développée dans une tradition autonome, se subdivisant elle-même en deux
approches, l’une grammaticale, l’autre pragmatique. La première vise à
déterminer la structure linguistique des productions bilingues (Poplack, 1980,
Muysken, 1995, 2011, Myers-Scotton, 1993b, 2002, Backus, 2003). Différents
modèles ont été proposés pour prédire la bonne formation des alternances et les
contraintes linguistiques pesant sur elles (cf. par exemple celui de la langue
matrice proposé par Myers-Scotton, 1993b). La seconde approche s’intéresse au
rôle et aux significations sociales de l’alternance de langues (Auer 1995, 1999,
Myers-Scotton, 1993a). Les travaux visent alors à déterminer la fonction
communicative des alternances ainsi que leur fonction sociale, en tant que
marque identitaire permettant de distinguer des groupes sociaux.
En France, la co-existence de deux expressions, l’étude des «contacts de
langues» et celle des «langues en contact», dessine des lignes de partage tant
disciplinaires que méthodologiques ou théoriques (Léglise, 2007a). L’étude des
«contacts de langues» renvoie majoritairement, depuis une quinzaine d’années, à
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
97
des travaux dans une perspective de sociologie du langage et d’écologie des
langues ayant mené à de très nombreuses publications (cf. entre autres Deprez,
1994, Juillard, 1995, Boyer, 1997, Canut & Caubet, 2002, Billiez, 2003). Ils
s’intéressent à l’étude d’un ensemble de phénomènes : multilinguisme sociétal,
diglossie, interactions plurilingues, ou abordent le contact à un niveau
épistémologique, critiquant la notion saussurienne de langue et proposant de
déplacer les frontières linguistiques à un autre niveau – celui des discours (Canut,
2001) ou celui des répertoires linguistiques (Nicolaï, 2005). Plus récemment,
l’étude des «langues en contact» s’est développée parmi les linguistes
descriptivistes avec un intérêt particulier pour les conséquences linguistiques des
contacts dans une perspective structurale ou fonctionnaliste (cf. entre autres
Kriegel, 2003, Chamoreau & Lastra, 2005, Chamoreau & Goury, 2012).
Influencés par les travaux de Croft (2000), Field (2002), Heine & Kuteva (2005),
Matras (2009), ou encore Ross (2007), ces auteurs se penchent sur des
phénomènes de restructuration tels que l’emprunt, le calque, ou la
grammaticalisation. Quelle que soit l’approche, on note un grand éclatement
actuel des travaux, tant dans le domaine sociolinguistique où les études
s’attachent à décrire des situations de contact variées, uniques et étrangères les
unes aux autres, que dans le domaine descriptif, où les données sur lesquelles
s’appuient les chercheurs sont spécifiques à la langue sur laquelle ils travaillent et
ne sont que peu comparées entre elles.
On sait que le changement en situation de contact de langues a presque
toujours des causes multiples (Thomason, 2001a). En diachronie, pour rendre
compte d’évolutions phonétiques ou morphosyntaxiques, les travaux s’appuient
sur des tendances internes aux langues et mentionnent souvent le contexte sociohistorique qui permet de justifier un potentiel effet du contact de langues. Ces
facteurs explicatifs sont toutefois encore rarement intégrés ensemble (Chamoreau
& Léglise, 2012). En synchronie, les travaux descriptifs, en se concentrant sur
des facteurs linguistiques ou typologiques laissent peu la place à des facteurs
explicatifs liés au contexte des interactions et aux locuteurs qui y sont impliqués.
Quant aux travaux sociolinguistiques, ils ne s’intéressent généralement pas à
expliquer les conséquences linguistiques du contact de langues – mais se
concentrent plutôt sur le contexte ou l’usage.
Le projet CLAPOTY (Léglise, 2009) part du constat de la fragmentation de ce
champ de recherche en traditions n’ayant pas pour habitude de dialoguer. Ces
deux traditions se rejoignent sur l’impact des facteurs sociaux sur le changement
linguistique et sur les phénomènes de contact, ce qui constitue une avancée
majeure dans la mesure où la linguistique historique s’est longtemps contentée
d’étudier les motivations internes au changement (Thomason & Kaufman, 1988 :
1). Mais l’analyse précise des situations de contact, que ce soit au niveau macrosocial ou au niveau micro-social, telle qu’appelée de ses vœux par Weinreich
(1953) pour comprendre les phénomènes de contact, est loin d’être réalisée. Le
projet CLAPOTY s’est donné pour objectif de prendre en compte des phénomènes
synchroniques et diachroniques dans toute leur complexité en mettant en relation
les facteurs sociaux habituellement pris en compte dans le cadre de
l’anthropologie linguistique, de la pragmatique ou de la sociolinguistique, tout en
98
Isabelle Léglise et Sophie Alby
affinant les facteurs linguistiques traditionnellement pris en compte par la
linguistique descriptive et typologique. L’ambition du projet est d’analyser,
rendre compte et expliquer les phénomènes de contact en mettant en place une
méthode d’analyse qui prenne en compte les connaissances issues de ces
différents sous-domaines, et qui s’allie à des outils informatiques de recherche
puissants élaborés spécifiquement pour ce programme. Par ce biais, les
chercheurs impliqués espèrent pouvoir créer un cadre explicatif multi-niveaux et
multi-factoriel des phénomènes de contact en se basant sur des langues
typologiquement variées et des situations sociolinguistiques diverses.
Dans cet article, nous rendons compte de la démarche mise en œuvre et des
méthodes et procédures mises en place pour analyser les conséquences
linguistiques des contacts de langues au travers de cinq niveaux d’analyse :
morphosyntaxique, interactionnel, sociolinguistique, pragmatique et typologique.
2. LINGUISTIQUE DE CORPUS ET CORPUS PLURILINGUES
En linguistique de corpus, une longue tradition de travail s’est instituée ces
quinze dernières années sur les corpus multilingues – c’est-à-dire des corpus
comprenant des textes dans différentes langues, ces textes étant a priori chacun
monolingue. Si possible, la linguistique de corpus sur corpus multilingues
s’effectue sur des corpus de textes comparables (dans chaque langue le nombre et
le genre ou type de textes sont comparables) (cf. notamment McEnery et al.
2000 ; Déjean, Gaussier et Sadat, 2002), parfois sur des corpus parallèles (c'està-dire, des textes et leurs traductions (Véronis, 2000 pour une présentation))
voire sur des corpus parallèles multilingues alignés (des corpus parallèles pour
lesquels on a des relations d’équivalence de traduction entre des éléments qui
composent les textes), cf. notamment (Véronis, 2002, Zweigenbaum et al., 2011).
Pour différencier de ces corpus multilingues, les corpus sur lesquels se
penchent les linguistes de contact que nous sommes, nous utilisons ici le terme de
«corpus plurilingues» c'est-à-dire de corpus comprenant plusieurs langues au sein
de mêmes textes (interactions spontanées plurilingues illustrant des phénomènes
de codeswitching ou de mélange entre plusieurs langues par exemple). Ces
corpus plurilingues, à la différence des corpus multilingues précédemment cités,
sont encore peu nombreux, peu disponibles à la communauté des linguistes, et
peu «outillés» du point de vue des traitements informatisés disponibles. On peut
citer la base ICOR de la plateforme CLAPI1 qui comporte quelques données
plurilingues, le projet LIPPS/LIDES2 dont l’objectif était de développer des
standards de transcription pour les langues mixtes et le codeswitching ou la base
Bilingbank accesssible sous Talkbank3.
Dans le domaine de la typologie linguistique et des études de la variation interou translinguistique, les corpus parallèles ont progressivement fait leur apparition
(Dahl, 2007, Stolz, 2007) à côté des travaux par comparaison de questionnaires
1
Cf. http://clapi.univ-lyon2.fr et http://icar.univ-lyon2.fr/projets/corinte/.
Cf. http://www.ling.lancs.ac.uk/staff/ruthanna/lipps/lipps.htm.
3 Cf. http://talkbank.org
2
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
99
(Matras et Sakel 2007). De larges corpus ont été constitués quelle que soit la
méthode de recueil (traductions comparables et parallèles ou réponses à des
questionnaires). Des bases de données ont également été développées mais,
comme les corpus sur lesquels ces études se fondent, elles sont toutefois
composées, pour la plupart, de données monolingues comparées4. Le phénomène
de l’emprunt (borrowing) fait par exemple l’objet d’annotations particulières
dans les corpus monolingues ; c’est le cas dans la base de données sur le romani5
qui annote la «profondeur» de l’emprunt (Matras,White et Elšík, à paraître).
Les corpus plurilingues sont pourtant particulièrement intéressants car les
problèmes de variation et de formes non-standard, souvent ignorés par les grands
corpus, ou contrôlés par des paramètres généraux (comme les types de textes ou
de discours recueillis), y sont centraux. Ils illustrent souvent non seulement ce
qu’on considère généralement comme de la variation interne aux langues – par
exemple des variations morphosyntaxiques ou lexicales (et que l’on peut parfois
relier à des pratiques stylistiques ou dialectales) mais également des formes
difficile à catégoriser. Les corpus présentant du codeswitching ou du codemixing produits par des locuteurs plurilingues aux compétences variées (parfois
en cours d’acquisition) posent en effet – comme nous le verrons plus loin – de
redoutables problèmes non seulement d’identification des formes mais aussi de
transcription et d’annotation. De même, la définition même des corpus
plurilingues et le choix des situations de parole à documenter dépassent aussi ce
qui est réalisé dans le domaine de la documentation des langues peu décrites
(Migge & Léglise, 2013) et pour des grands corpus de référence.
Le projet CLAPOTY se situe dans une linguistique de corpus sensible aux
corpus hétérogènes et a développé des outils pour travailler sur ces corpus.
Toutes ces questions – de repérage, notation, annotation – ont fait l'objet de
longues discussions parmi les membres du projet. Nous présentons quelques-unes
des solutions retenues ci-dessous en explicitant les choix méthodologiques et
épistémologiques qui se posaient à chaque fois que possible.
3. LE CORPUS CLAPOTY
3.1. La constitution d’un corpus commun : une nécessaire harmonisation
Pour remédier au manque de corpus plurilingues disponibles dans la littérature
et pour avoir une base de travail commune à toute l’équipe, un corpus commun a
été réalisé. Il est constitué de discours spontanés qui avaient été transcrits au
départ selon des traditions et avec des objectifs assez différents comme le
montrent les trois exemples ci-dessous :
(1) Clapoty_Léglise (nengee – variété de français non native ou langue seconde)
J
— Ken san i e suku e fuufeli a ini maman chambre anda ?
«Ken qu’est-ce que tu cherches ? tu es en train de déranger la chambre de
maman»
4
5
Par exemple Database Typological Research http://languagelink.let.uu.nl/tds/index.html
Projet dirigé par Y. Matras (Romani Morpho-Syntactic Database Project, Université de
Manchester, http://romani.humanities.manchester.ac.uk/rms/).
100
Isabelle Léglise et Sophie Alby
M
K
M
— a na faansi i mu taki a djuka
«tu ne dois pas parler français mais ndyuka»
— Ken san i meki a sikoo tide ?
«Ken qu’est-ce que tu as fait à l’école aujourd’hui ?»
— ce que je faire à l’école ? […] tide mi meki bonhomme a sikoo anga plus
«Ce que j’ai fait à l’école ? Aujourd’hui j’ai dessiné des bonhommes et aussi
j’ai fait des additions»
— pikin man i mu taki
«Petits hommes tu dois dire»
(2) Clapoty_Alby (français-kali’na)
1 E Aino’ yemamɨ kapɨlɨ ɨwa man’ yemamɨ molo man6 ++ ayalanatoko loten7
«Attends ! Je dois faire mon travail. Ca c’est mon travail. Vous n’avez qu’à
parler.»
2 D Kosi'
«Flute !»
3 Y Non’ sérieux’ Otɨ poko awu wekatuya’ + c’est pas que akinupewa to’8
«Non, sérieux ! Pourquoi est-ce que je cours ? C’est pas que je sois
paresseux !»
4 E [caf] man mei’
«Tu étais avec une fille ?»
(3) Clapoty_Chamoreau (purepecha-espagnol)9
inte acha
mas
khéri-e-s-ti
ke de xo anapu
dem homme
plus
grand-PRED-AOR-ASS3 que de ici origine
yamintu
tout
Cet homme est plus âgé que tous ceux d’ici. (Lit. Cet homme est plus âgé que
de tous)
L’exemple 1 montre l’alternance entre un créole à base anglaise, le nengee, et
des éléments en français. Ce qui intéressait son auteur à l’origine (Léglise,
2007b), c’était de pouvoir visualiser l’alternance entre ces différentes langues,
d’où le choix de codes graphiques différents (gras pour marquer les éléments en
français et times normal pour marquer les éléments en nengee). La notation des
locuteurs était par ailleurs importante afin de repérer qui procède à quel type
d’alternance et quelles sont les compétences linguistiques en compréhension et en
production ainsi mises en œuvre par ces derniers. Dans l’extrait choisi, M
s’exprime toujours en nengee, à la différence de K et de J qui intègrent des
6
7
8
9
E. explique qu’il doit enregistrer leurs conversations.
Il leur dit de parler, de dire n’importe quoi, de ne pas faire attention au magnétophone.
Y. dit n’importe quoi, juste pour tester l’enregistrement, pour commencer à parler.
Liste des abréviations utilisées : 2,3 (deuxième, troisième personne), ADP (adposition),
ADV (adverbe), CAUS (causatif), DEM (démonstratif), DET (déterminant), FOC (focus), FT
(formatif) GEN (génitif), GN (groupe nominal), HAB (habituel), IND (indépendant), INT
(interrogatif), N (nom), OBJ (objet), PRT (particule), PRS (présent), PRTEN (particule
énonciative).
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
101
éléments de français dans leurs énoncés en nengee. Mais, à la dernière ligne, M
reformule «bonhomme» dans sa langue, montrant ainsi qu’elle comprend le
français. Un autre élément intéressant concerne la forme des éléments français
observés : à la première ligne, «maman chambre» suit l’ordre des constituants du
nengee ; à la quatrième ligne, la forme verbale infinitive observée «ce que je
faire» illustre la compétence partielle du jeune locuteur, en cours d’acquisition et
d’apprentissage scolaire du français.
La transcription de l’exemple 2 visait au départ à fournir les indications
nécessaires pour la réalisation d'une analyse interactionnelle portant sur les
discours bilingues kali'na/français produits par des enfants et adolescents d'un
village du nord-ouest de la Guyane (Alby, 2001). Les interlocuteurs à qui chaque
locuteur s’adresse sont identifiés (E s'adresse à Y ligne 4, Y s'adresse à
l'ensemble du groupe ligne 3), les prises de parole sont numérotées, de même que
les montées intonatives, marquées par l’apostrophe (kosi' ligne 2), etc. Ces
différents éléments permettent de mieux comprendre la fonction des alternances
codiques, comme l’emphase (Y ligne 3) ; mais aussi de décrire les
caractéristiques du mode mixte utilisé par les interlocuteurs lorsqu'ils sont au sein
d'un groupe de pairs. Par exemple, ligne 3, on observe une absence de pause dans
l'énonce "c'est pas que akinupe wa to" ce qui peut indiquer que le passage d'une
langue à l'autre n'est pas à considérer comme un problème de compétence, mais
comme le signe d'une variété bilingue correspondant à un groupe socialement
identifié.
L'exemple 3 (Chamoreau 2012a) pour sa part – qui illustre également
l’insertion d’une structure comparative espagnole «mas que… de» dans un
énoncé en purépecha, une langue amérindienne du Mexique – avait été transcrit
afin de donner à voir la composition morphosyntaxique de l’énoncé avec une
ligne de glose interlinéaire obligatoire, mais sans mention des locuteurs ou des
tours de parole. L'intérêt du chercheur était ici la description grammaticale des
phénomènes sans prise en compte d'aspects interactionnels. C’est la comparaison
de cet exemple ‘décontextualisé’ et d’autres exemples similaires (par exemple les
énoncés présentés dans (Chamoreau, 1995) qui donne son sens au choix de
transcription (morphème par morphème avec repérage des langues).
Comme on le voit, les éléments communs au départ parmi les différents
linguistes participants au projet étaient minimes et se résumaient à 1) travailler
sur des données de première main transcrites soit orthographiquement soit en
API, 2) traduire ces données (avec au moins une traduction libre), 3) vouloir
travailler sur l’hétérogénéité de ces corpus en traitant à la fois de faits de
variation et de faits d’alternance des langues. Le projet CLAPOTY a donc
nécessité de très longues discussions parmi ses membres sur l’harmonisation des
transcriptions et des annotations10.
10
Nous entendons ici par «annotation» tout enrichissement, par les linguistes, de la
transcription, en particulier les annotations qui précisent de quelle langue il s’agit, les
annotations morphosyntaxiques, les parties du discours etc. Nous préciserons plus loin
lorsqu’il s’agit de métadonnées de différents ordres (typologiques, sociolinguistiques
etc.).
102
Isabelle Léglise et Sophie Alby
3.2. Un corpus plurilingue et hétérogène
Les enregistrements à verser dans notre corpus commun ont été choisis à partir
des données des différents participants, en fonction de l’intérêt qu’ils
représentaient du point de vue de leur hétérogénéité intrinsèque, mais aussi du
point de vue de la diversité des langues en général (en terme de diversité
géographique et typologique). Nous travaillons pour la plupart sur des langues
(ou des variétés de langues) peu décrites11 en contact parfois avec des langues
pour lesquelles une grande tradition grammaticale existe. Le corpus Clapoty
compte à ce jour 40 langues dont 25 pour lesquelles les membres sont
«spécialistes» (les initiales des membres sont notées entre crochets).
Groupes de langues
amérindiennes
Langues présentes dans les corpus
kali’na [SA] ; nahuatl, purépecha (et différentes variétés
géographiques) [CC]
créoles à base française
antillais (guadeloupéen, martiniquais) [PV] ; guyanais
[IL, PV] ; réunionnais [GL], haïtien
créoles à base anglaise
nengee (ndjuka, pamaka, aluku) [BM] ; sranan tongo
[BM]
créoles à base portugaise
casamançais [JFN]
romanes
français [IL, GL] (et différents variétés, stylistiques, et
géographiques) ; espagnol (et différents variétés,
notamment du Mexique) ; portugais (du Brésil)
germaniques
anglais (et différentes variétés, notamment de la
Caraïbe) ; néerlandais
balkaniques
grec ; romani [EA] ; turc
est asiatiques
chinois (mandarin, minnan) [CS] ; langues aborigènes de
Taiwan (amis, taroko) [CS] ; japonais
niger-congo (atlantique)
wolof
Tableau 1 : langues représentées dans le corpus Clapoty
A cette diversité typologique et géographique recherchée, s’ajoute une
diversité souhaitée en termes de situations sociolinguistiques représentées dans
les corpus ; ces derniers illustrent à la fois des contacts entre variétés dialectales
de la même langue (par exemple différentes variétés de purepecha en contact, ou
différentes variétés de nengee en contact), des contacts entre des variétés
stylistiques d’une même langue (par exemple des éléments assimilables à une
façon de «parler jeune» que nous identifions comme tels intégrés dans une façon
«standard» ou «ordinaire» de parler telle langue), des contacts entre des langues
vernaculaires, des contacts entre des langues vernaculaires et des langues
véhiculaires, des contacts entre des langues dites «de grande diffusion»
internationale, des contacts entre des langues considérées comme minoritaires ou
majoritaires etc. (cf. plus loin la manière dont nous procédons pour prendre en
compte ces différents paramètres).
L’hétérogénéité des corpus s’actualise enfin au niveau de la diversité des types
d’interactions représentées. Notre corpus commun comptabilise actuellement 170
11
Et qui nécessitent un travail de description minutieuse.
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
103
enregistrements transcrits, soit 170 transcriptions se présentant – pour reprendre
la typologie proposée par Vion (1992) – sous la forme d’interactions à structure
d’échange et d’interactions sans structure d’échange.
Ces interactions comportent toutes au moins deux (variétés de) langues, et
comptent parfois jusqu’à une dizaine de langues en présence. La majorité des
interactions à structure d’échange de notre corpus est par ailleurs composée d’au
moins trois interlocuteurs et compte parfois une dizaine ou une trentaine
d’interlocuteurs. Afin de donner à voir ici la diversité de situations de
communication, nous pouvons répartir ces interactions en grands
domaines (Fishman, 1972) et en types de textes : par exemple, les 13 interactions
sans structure d’échange, peuvent être déclinées en quatre catégories : compterendu politique, monologue dans les médias, conte, récit. Nous pouvons par
ailleurs sous-catégoriser les interactions à structure d’échange selon les relations
que les interlocuteurs entretiennent et donc selon la symétrie ou l’asymétrie de
leurs rôles respectifs : interactions symétriques et interactions asymétriques
(Vion, 1992). On comptabilise ainsi 67 interactions symétriques et 77
interactions asymétriques. Les interactions symétriques correspondent à des
interactions entre enfants dans des contextes familiaux ou scolaire, des
interactions entre adolescents dans un cadre amical ou dans un cadre scolaire ;
des interactions entre adultes dans un cadre amical, familial, dans les médias ou
au travail.
Nous pouvons répartir les interactions asymétriques en quatre grandes
catégories : interactions ayant eu lieu dans un cadre scolaire (qu’il s’agisse
d’enregistrements réalisés dans des écoles, collèges ou lycées), interactions dans
un cadre familial (repas de familles, discussions informelles entre plusieurs
générations) ; situations d’entretiens ou d’interviews (en particulier avec un
chercheur) ; interactions relevant du domaine professionnel ou des interactions de
service (dans les domaine du commerce : sur le marché ou dans un magasin par
exemple, de la santé avec un certain nombre d’enregistrements à l’hôpital entre
soignants et patients, des services avec un certain nombre d’enregistrements entre
agent et client). Le tableau suivant donne un aperçu de la diversité des
interactions du corpus. Nous avons donc recherché une hétérogénéité maximale
pour le corpus - hétérogénéité externe (liée aux types de textes et d’interactions
du corpus) et interne (variation morphosyntaxique et présence d’éléments
plurilingues).
Interactions à plusieurs participants
en famille
à l’école
entre amis
dans les médias
en situation de travail
entretiens
Interactions sans structure d’échange
discours politiques, récits, contes, …
Tableau 2 : types d’interactions du corpus
Total
12
15
24
15
51
27
Total
13
104
Isabelle Léglise et Sophie Alby
3.3. Annotation et encodage des corpus
Nos corpus sont balisés sous xml grâce à un éditeur, Jaxe12, adapté par P.
Vaillant au système d’annotation que nous avons élaboré. Nous renvoyons à
Vaillant, Léglise & Alby (en préparation) pour de plus amples détails techniques
sur le système d’annotation mis en place. A ce stade, il est important de noter que
le schéma de document Corpus-Contact que nous avons créé s’inspire de normes
de la TEI (Text Encoding Intiative)13, adaptées pour nos besoins. Nous voudrions
noter ici deux adaptations importantes.
La TEI découpe les textes en phrases. Dans notre cas, l’unité minimale dans
laquelle nous souhaitons décomposer nos enregistrements est loin d’être la
phrase, unité qui n’a pas de sens à l’oral, mais plutôt le tour de parole, suivant en
cela la tradition initiée par Sacks, Schegloff & Jefferson (1974). Nous repérions
déjà ces tours dans les exemples 1 et 2 présentés précédemment soit par l’initiale
du locuteur, soit par le signe « – » voire par un numéro permettant ensuite de
mieux citer le passage précis. Les prises de parole des locuteurs nous sont en
effet apparues comme le découpage de nos transcriptions le moins discutable
possible ; ce choix est conforme au cadre global des conventions adoptées par
exemple par le groupe ICOR (2007) qui a développé des conventions de
transcription en vue d’analyses interactionnelles plus spécifiques que nous ne
suivons qu’en partie. Ce choix est également conforme aux choix réalisés dans
d’autres projets de grande envergure sur l’oral, tels TalkBank et CHILDES sous
CLAN (MacWhinney 2000, 2007).
La TEI propose de noter la langue de base de chaque phrase et, si un élément
d’une autre langue intervient, elle le note entre chevrons, comme <élément
étranger appartenant à la langue x>. Ce choix est également celui qui est réalisé
dans le cadre du projet ANR CorpAfroas (Mettouchi & Chanard, 2010, cf.
notamment Manfredi et al. (sous presse) qui s’intéressent à des phénomènes de
codeswitching dans leur corpus de langues jusqu’alors peu décrites et peu
documentées. Après avoir, dans un premier temps essayé d’associer aussi une
langue14 à chaque prise de parole, nous avons progressivement renoncé à
l’attribution systématique d’une seule langue à chaque tour. Dans la plupart des
cas, nous observons en effet plusieurs langues en présence dans le même tour, à
l’intérieur de la même prise de parole par le même locuteur et nous avons décidé
de noter ces tours comme «multilingues», et à l’intérieur de ces tours
multilingues, nous identifions des «segments» associables à telle ou telle langue.
Par exemple, la prise de parole suivante montre un début d’énoncé en français
qui se poursuit en kali’na. Plutôt que de choisir – souvent arbitrairement – une
langue matrice à l’énoncé, nous considérons que le tour est multilingue – ce que
visuellement nous représentons par un surlignage jaune – et constitué de
12
http://jaxe.sourceforge.net/fr/ dont les auteurs sont D. Guillaume, S. Ayadi, B.
Tasche,O. Kykal, C. Dedieu, L. Guillon, B. Delacretaz, S. Kitschke
13 http://www.tei-c.org
14 Nous utilisons les codes ISO pour les langues. Cf. Vaillant, Léglise et Alby (en
préparation) pour plus de détails.
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
105
plusieurs segments (ici deux langues différentes, repérées par les codes gras pour
le français / normal pour le kali'na).
(4) match de foot (corpus Clapoty_Alby)
003-03 ce n'est pas que akinupe
paresseux
Je ne suis pourtant pas paresseux !
wa
1.être
to
PRTEN
De la même manière, des éléments peuvent appartenir à plusieurs langues
possibles : dans des corpus d’alternance de langues enregistrés à la frontière entre
la Guyane et le Surinam, l’adjectif [diʀɛkt] peut être considéré comme du
français, de l’anglais, du néerlandais ou comme un emprunt à l’une de ces trois
langues et, lors de nos transcriptions (ou de l’annotation de nos transcriptions),
nous avons bien souvent expérimenté la difficulté qu’il y aurait à trancher. Ainsi,
plutôt que de trancher, nous avons décidé d’étiqueter ces éléments comme euxmêmes «multilingues» et d’identifier ensuite l’ensemble des possibilités
associées. Visuellement, nous avons souhaité adopter un système de transcription
qui montre les différentes possibilités. Pour des cas où les deux langues partagent
un certain nombre de traits (en particulier lexicaux), comme une langue créole et
sa langue lexificatrice, Ledegen (2012) a proposé d’utiliser une double
transcription dite «flottante» afin de visualiser les deux interprétations possibles
s’offrant au descripteur. Nous avons étendu cette notion à tous les cas où
plusieurs transcriptions et plusieurs langues étaient possibles, même lorsque les
langues ne sont a priori pas si «proches», par exemple, dans l’extrait suivant, un
médecin tente de dire quelques mots dans la langue de sa patiente, il prononce
ligne 11 «a go bon» (une forme que nous considérons comme non native) qui
correspondrait à la forme standard «a e go bung» en nengee (la prononciation
attendue de la finale nasale ‘ung’ étant un peu moins ouverte que le ‘on’
français). Il nous semble alors important de noter – lors de la transcription
alternative – la proximité de ce qui a été prononcé avec d’une part l’adjectif
«bon» qui semble sélectionné et d’autre part avec l’adjectif «bung» qui est peutêtre la forme standard visée par le locuteur.
(5) kosokoso (corpus Clapoty_Léglise)
010 Inf1:
tu parles qu'elle va mieux qu'hier !
011 Méd:
a go
bon ?
bung
aller bien ?
012 F1:
a e mama / mama fu mi e go ?
ma mère elle va ?
013 Méd:
mama ça go bon ?
go bung ?
la mère ça aller bien ?
Dans cet exemple, les transcriptions alternatives font parfois intervenir plus
que deux langues, comme c’est le cas de la ligne 013 qui comprend des éléments
attribuables au français (ça et bon), des éléments de nengee non natif (mama et
bung), et un élément, go, qui peut être catégorisé comme du nengee ou comme de
l’anglais. L’utilisation de cette méthode a ainsi permis de mettre en évidence que,
106
Isabelle Léglise et Sophie Alby
dans certains corpus, la quasi-totalité des prises de parole pouvait être attribuées
à l’une ou l’autre langue comme dans l’exemple 6 :
(6) discussion entre hommes dans un bar à Saint-Laurent (corpus Clapoty_Migge)
002.B: a
fu den man
dati
ya
a
fu den man
FOC pour l’homme
DEM
oui
C’est à cause de ces hommes, oui
003.C: i wani go
na dape a didon
i wani go
a didon
2 vouloir aller là
3 allonger
Tu veux aller là où il est allongé ?
Notre choix assumé de faire figurer l’ensemble des possibles sur les
transcriptions transforme ainsi le regard que nous portions sur les corpus. Plutôt
que de considérer l’extrait 6 comme du nengee dans lequel quelques éléments de
sranan tongo s’insèrent, on peut dès lors considérer que les locuteurs utilisent
préférentiellement des éléments communs aux deux langues lorsqu’ils
s’expriment et que par moment, ils sélectionnent telle ou telle marque dans
l’autre des langues (Migge & Léglise, 2011) appartenant à leur répertoire
linguistique.
4. MÉTHODES POUR UNE DESCRIPTION ET UNE ANALYSE MULTINIVEAUX DES
«PHÉNOMÈNES REMARQUABLES»
L’un des défis majeurs posés par ce type de données est de se doter d’outils
pour décrire (puis analyser et expliquer) les phénomènes linguistiques observés
dans des corpus plurilingues, qu’il s’agisse de phénomènes attribuables à de la
variation (classiquement considérée comme interne ou due au contact de langues
(Léglise et Chamoreau, 2013) ou de phénomènes de contacts plus évidents tels
que le codeswitching ou le code-mixing. Le choix méthodologique que nous
avons effectué est de qualifier (et d’annoter) tous les phénomènes sur lesquels
nous souhaitions travailler comme «phénomènes remarquables». Nous utilisons
«remarquable» dans les deux sens de l’adjectif : soit les phénomènes observés
sortent de l’ordinaire (de la langue ordinaire) – et nous partons d’un sentiment
d’écart par rapport à la forme attendue ou de référence (Léglise, 2012) pour
qualifier la forme observée de «remarquable», c'est-à-dire digne d’un intérêt
particulier, soit les phénomènes observés nous paraissent exemplaires de
phénomènes connus et bien décrits dans la littérature sur le contact de langues –
et nous partons d’un sentiment de fréquence ou d’exemplarité. Ce choix est
minimaliste du point de vue de la terminologie choisie, il évite ainsi tous les
termes particulièrement foisonnants dans le domaine du contact de langues et très
souvent contradictoires (d’un auteur à l’autre ou d’un cadre à l’autre).
Il permet de ne pas entrer dans des débats terminologiques sans fin comme
ceux qui existent sur la distinction entre emprunt et codeswitching15 par exemple
15
Plusieurs années de débats internes et infructueux entre emprunts et codeswitching
nous ont finalement convaincus de la nécessité de ne pas nommer les phénomènes mais
plutôt d’observer leur fonctionnement.
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
107
ou encore calque, interférence ou transfert, etc. (Mackey, 1976 ; Zentella, 1997).
La position retenue est d’employer des termes les plus «neutres» possibles en
regroupant les phénomènes intéressants à observer en méta-catégories regroupées
selon leur comportement ou leurs caractéristiques : phénomènes remarquables
morphosyntaxiques (PREMS), phénomènes remarquables interactionnels
(PRINT), phénomènes remarquables discursifs (PREDISC). Une fois les
phénomènes remarquables annotés, ils apparaissent alors surlignés en gris comme
en (7), il s’agit de les décrire, par une approche multi-niveaux, puis de les
expliquer (cf. 4.4 ci-dessous).
16
(7) conseil municipal (corpus Lescure /Alby)
001
oti noki molo CCOG compti-li
rappeler poko
s-i-yan
o'wainen
euh euh DEM CCOG compte-GEN rappeler occupé.à 1-mettre-PRS 2.vous
je vous rappelle le compte de la CCOG
4.1. Les PREMS
Le premier niveau d’appréhension des phénomènes remarquables concerne le
matériau linguistique produit, au niveau de la chaine parlée, et la suite de ses
caractéristiques morphosyntaxiques habituelles ou inhabituelles17. Pour décrire ce
qui est remarquable, nous proposons d’utiliser une notation fondée sur nos
catégories d’annotation des langues. Ce premier descripteur concerne l’endroit
où se situe le phénomène remarquable dans la chaine parlée : ci-dessous le
phénomène remarquable est noté entre crochet [ ], il peut concerner la présence
consécutive d’un élément d’une langue A et d’un élément d’une langue B, ou la
forme particulière d’un élément d’une langue A, ou encore l’insertion d’un
élément d’une langue A dans une langue B etc. Nous présentons un exemple de
chaque type ci-dessous :
a) [<segment de langue A><segment de langue B>] : la suite A + B est
remarquable.
(8) le président Cardenas à Tanaco (corpus Clapoty Chamoreau)
006.M para ampe=i wé-ka-sïn-i
t'u
ima-ni
ú-ra-ni
pour que=2 vouloir-FT-HAB-INT
2IND
DEM-OBJ faire-CAUS-INF
pourquoi veux tu faire cela ?
[<para><ampe=ri ...>]18
16
Cet extrait illustre des phénomènes de contact entre le kali'na (qui apparaît en times
normal) et le français (noté en gras). L’abréviation CCOG est couramment utilisée pour :
Communauté des Communes de l’Ouest Guyanais.
17 Les caractéristiques phoniques et prosodiques bien qu’intéressantes ne sont pas traitées
actuellement et feront partie de développements futurs.
18 Selon C. Chamoreau, ce qui est remarquable c’est la suite para + ampé «que, quoi»
pour former un interrogatif para ampé «pourquoi» alors qu’il existe en purepecha est un
interrogatif anti «pourquoi» dont l’utilisation est fréquente.
108
Isabelle Léglise et Sophie Alby
b) <segment de langue A [><] segment de langue B> : la jointure entre A et B
est remarquable.
(9) ABC (corpus Clapoty Lescure_Alby)
001-16 oti réserve molo la Basse Mana
euh réserve DEM la Basse Mana
euh la réserve de la Basse Mana
[<molo><la] basse mana>19
c) <SgA [<SgB>]> : la présence du segment B à l’intérieur du segment A est
remarquable.
(10) kosokoso (corpus Clapoty Léglise)
132.F1: efu yu wani sabi ala sani fa la famille da mi mu sabi fi yu seefi
si tu veux tout savoir de la famille, alors je dois aussi pouvoir savoir des
choses sur la tienne
20
<sabi ala sani fa[<la famille>]da mi …>
d) <SgA [ ]> : ce qui est remarquable se situe à l’intérieur du segment A.
(11) je suis pas ton blada (corpus Clapoty Léglise)
013.K: oh mais c'est le ga
qui tire ça dans ma main bay
gars
oh mais c’est le type qui me prend ça, donne !.
<tire ça dans ma main>21
C’est seulement à l’issue de cette première étape descriptive que nous
expliquons en quoi le phénomène nous paraît intéressant et que nous renvoyons à
la littérature sur la question si le phénomène est déjà traité. Nous identifions
comme PREMS de nombreux phénomènes, qu’il est possible ensuite de
catégoriser en fonction des éléments morphosyntaxiques concernés. Nous avons
ainsi adopté une typologie des PREMS afin de définir des espaces de
comparaison parmi tous nos corpus : PREMS concernant le groupe verbal,
PREMS concernant le groupe nominal etc. Par exemple, nous sommes en train de
travailler collectivement sur les PREMS touchant les groupes nominaux
(détermination, possession etc.). Le groupe nominal constitue un des domaines
majeurs des structures grammaticales (Heine et Kuteva, 2008 ; MacSwan, 1997).
Du fait de la définition large et a minima des «phénomènes remarquables»
présentée plus haut, nous nous intéressons tant à des GN où deux langues sont
19
Selon S. Alby, ce qui est remarquable c’est la jonction entre un démonstratif médial
inanimé kali’na (démonstratifs qui par ailleurs pourraient être en phase de changement
linguistique de type démonstratif vs. article défini) et un article défini français (dont la
fonction grammaticale pose par ailleurs question).
20 Selon I. Léglise, l’insertion d’un élément français composé d’un nom et de son
déterminant dans un énoncé en nengee est remarquable, la plupart des autres cas de N
français dans des environnements de nengee apparaissent en effet sans déterminant.
21 D’après I. Léglise, la forme attendue serait «prendre ça dans ma main» plutôt que «tirer
ça dans ma main» observé, et donc remarquable.
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
109
exprimées comme dans : [<owi> <maison>] (une maison) ou [<titre de
propriété> <a>] (le titre de propriété), qu’à des GN où plusieurs langues
possibles ont été identifiées (comme dans [tout papier/papié a] analysable
comme <tout><papier> <a> ou <tout papié a> (tous les papiers)) qu’à des
variations au sein d’une même langue (comme dans l’exemple <[le] maison>]) ou
encore à des phénomènes de changement (comme dans l'exemple [<ma
achati22>] (un homme)).
Les exemples ici présentés montrent des phénomènes de contacts sur lesquels
une longue littérature existe en linguistique de contact, par exemple en ce qui
concerne l’ordre des mots (qui suit ou non celui de la langue où le nom est
exprimé) dans les recherches sur le codeswitching (entre autres Belazi, Rubin et
Toribio, 1994 ; Nishimura, 1985 ; Bentahila et Davies, 1983 ; Mahootian, 1993 ;
Gumperz, 1976 ; Bokamba, 1989 ; Poplack, 1981, MacSwan, 1997); mais aussi
en ce qui concerne des phénomènes de restructuration comme la
grammaticalisation du numéral en article indéfini ou celle du démonstratif en
article défini (cf. entre autres Givon, 1981; Heine, 1997; Dryer, 2005a, 2005b).
4.2. Les PRINT
Les corpus plurilingues regorgent également de phénomènes intéressants au
niveau interactionnel, c'est-à-dire au niveau des choix de langues effectués par les
interlocuteurs. Ces choix et alternances peuvent se situer au sein même des tours
ou prises de parole, auquel cas nous traitons le phénomène comme PREMS, mais
ils se situent surtout, et le plus souvent, entre différentes prises de parole. Il s’est
donc avéré nécessaire de pouvoir qualifier certaines séquences comme
«remarquables». Pour ce faire, nous avons opté pour une approche structurelle
des interactions basée sur le principe de leur séquentialité.
Les alternances codiques produisent des effets variés dans l’interaction (Auer,
1995 ; Alby et Migge, 2007) qui ont fait l’objet de nombreuses descriptions dans
le but d’identifier les fonctions communicatives qui leur sont sous-jacentes23. Ces
études ont conduit à la création de listes de fonctions attribuables aux alternances
conversationnelles24 dépendantes soit des langues soit des situations observées,
22
Grammaticalisation en purepecha du numéral "un" en un article indéfini (Chamoreau,
2012b).
23 Notons en outre que des auteurs comme Poplack et Sankoff (1988) insistent sur la
nécessité de ne pas différencier sur ce point les stratégies conversationnelles des
monolingues (changement de registre) de celles des bilingues, la seule différence se
situant dans l’utilisation de deux variétés de langues différentes chez les bilingues.
24 Zentella (1997) en dénombre 22 regroupées dans trois catégories (alternances liées à un
changement de rôle des interlocuteurs ou au contrôle du comportement de l’interlocuteur,
alternances visant à une clarification ou à une emphase, alternances «béquilles» qui
servent à combler une lacune lexicale ou autre). Pour Alvarez-Caccamo (1990) c’est le
style conversationnel qui permet d’expliquer les passages d’une langue à l’autre (mode
humoristique, de la dispute, du discours rapporté). Tandis que Deprez (1991) considère
que le «code-switching conversationnel» permet de produire des effets de sens variés
dirigés vers l’interlocuteur ou vers le propos.
110
Isabelle Léglise et Sophie Alby
or ces listes sont infinies du fait même de la créativité inhérente à l’alternance.
Auer (1995, 1999) propose comme alternative une typologie basée sur la
séquentialité qui s’appuie sur le modèle de l’analyse conversationnelle. Nous
l’avons adoptée pour coder, dans nos corpus plurilingues, les langues et les
interlocuteurs par des chiffres et des lettres afin de pouvoir mettre en évidence les
séquences interactionnelles faisant apparaître des changements de langues.
Concrètement, la codification se situe au niveau de la prise de parole. Chaque
langue est identifiée par une lettre dans l’ordre d’apparition du corpus (il n’y a
pas de hiérarchisation du type la langue «A» est la langue «la plus utilisée») et
chaque locuteur est identifié par un numéro selon le même principe comme nous
le voyons dans l’extrait (12). Par la suite nous portons notre attention soit sur la
forme de l’ensemble de l’interaction, soit sur des séries d’échanges. Ainsi, dans
l’exemple suivant, la première langue (français) est codée A et le premier
locuteur (J.) est codé 1, la deuxième langue dans l’ordre d’apparition (kali’na) est
codée B et le deuxième locuteur dans l’ordre d’apparition (S.) est codé 225.
(12) je lui parle en français ? (corpus Clapoty Alby)
023.S: une panier?
A1
024.J: oui
A2
025.S: (elle chante) // j'ai fini / ça y est!
A1
026.J: oeneko te senepoya owa
B2
regarde, je te le montre
027.S: uwa
B1
non
028.J: c'est bon?
A2
L’échange peut se décrire de la façon suivante : «A1 A2 A1 A2 : le locuteur 1
et le locuteur 2 parlent tous les deux dans la variété A» jusqu’à la ligne 026 où le
locuteur 1 passe à la variété B et est suivi par le locuteur 2 à la ligne suivante.
Puis à partir de la ligne 028, les deux locuteurs recommencent à utiliser la variété
A. Une telle approche permet de traiter aussi des cas où plusieurs langues sont
employées dans la même prise de parole comme dans l’exemple (13) où l’on
observe l’insertion d’éléments de la variété B (français) dans un discours qui
semble par ailleurs être organisé selon les caractéristiques morphosyntaxiques de
la variété A. L’insertion est marquée par l’utilisation des crochets.
(13) conversation informelle entre ABC (corpus Clapoty Lescure_Alby)
001-15 molo oti nature garde
le garde chasse
001-16 oti réserve molo la Basse Mana
euh la réserve de la Basse Mana
001-17 asito ami man ne telapa moko kali'na / oti inewala katako?
c'est un peu déjà le Kali'na, euh comment dit-on ?
001-18 moko kali'na oti terrain de chassili kanaiyan sipoli pamen
le terrain de chasse du Kali'na comme dit le Blanc
25
A[B]1
A[B]1
A1
A[B]1
Lorsque deux variétés d’une même langue sont présentes nous proposons d’employer
les formes A’, A’’, etc.
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
111
Ainsi A[B]1 se lit «le locuteur 1 parle en variété A (kali’na, apparaissant en
times normal) en insérant des éléments de la variété B (français, noté en gras)».
Nous traitons de la même manière les cas où trois, quatre, cinq langues sont en
présence dans un même corpus ou au sein du même tour. Nos corpus sont
particulièrement intéressants car ils font la plupart du temps intervenir plus de
deux locuteurs et plus de deux langues ce qui n’a jusqu’à présent pas fait l’objet
de typologies dans la littérature. En effet, les modèles proposés se basent sur
deux langues et deux locuteurs, par exemple l’analyse séquentielle proposée par
Auer (1995, 1999) se base sur la présence de deux langues (A & B), de même
que la typologie des interactions verbales proposée par de Pietro (1988) est un
modèle bilingue et non plurilingue.
L’intérêt d’un tel mode de description est que, comme pour les PREMS, elle
est réalisée a minima. Ce n’est que dans un retour réflexif sur la totalité des
corpus, que nous pourrons, sur la base de toutes les séquences identifiées, revenir
sur l’organisation structurelle des interactions dans les contextes plurilingues
variés qui caractérisent nos corpus. Au cours de l’analyse, nous chercherons
ensuite à vérifier dans quelle mesure les typologies proposées dans la littérature
sont validées ou invalidées par nos données. Nous sommes actuellement en train
d’essayer de résoudre le problème technique qui consiste à pouvoir annoter
plusieurs lignes de corpus simultanément. Il est en effet essentiel que les
caractéristiques interactionnelles puissent être annotées de manière à pouvoir
ensuite comparer des séquences ayant des structures similaires et à pouvoir les
relier aisément aux métadonnées présentées en 4.5. Obtenir ce résultat
constituerait une véritable avancée dans le domaine dans la mesure où jusqu’à
présent les modèles proposés se fondent sur des outils «manuels» ou sur des
analyses de contenu (Matthey et de Pietro, 1997 ; Alfonzetti, 1998 ; AlvarezCaccamo, 1990).
4.3. Les PREDISC
La littérature sur les contacts de langues abonde sur les phénomènes touchant
les «petits mots» du discours (Vincent, 1993; Traverso, 1999) tels que les
ponctuants, les ligateurs, les marqueurs de structuration discursive, etc. qui
illustrent des points d’alternance : ils sont très souvent dans une langue alors que
le reste de l’énoncé est dans une autre (Matras, 1998). L’exemple suivant illustre
ce phénomène avec l’emploi de «bon» et de «quoi» en français dans un discours
bilingue kali’na-français.
(14a) conversation informelle entre ABC (corpus Clapoty Lescure_Alby
057
côté
molo bon palanakili ami-kon tameli tanepo man kali'na wa
kote
d'un certain côté, le Blanc a montré son mode de vie au Kali'na
ami
(14b) conversation informelle entre ABC (corpus Clapoty Lescure_Alby)
E:
wewe epeli ke soso molokon soso oti frais quoi soso oti
le fruit des arbres avec des choses comme ça, toujours des choses fraîches
quoi ! Toujours des choses.
112
Isabelle Léglise et Sophie Alby
De ce point de vue, nos corpus, dont beaucoup illustrent ces phénomènes, ne
sont pas «remarquables» au sens où ils seraient étonnants – ils illustrent des
phénomènes attendus et sont donc particulièrement remarquables en terme
d’exemplarité. Nous avons développé également une annotation systématique de
tous les PREDISC de manière à pouvoir discuter des propositions de la littérature
sur la base de la diversité de nos corpus et des informations disponibles pour
chacun d’eux.
4.4. Méthode d’analyse des phénomènes remarquables
Une fois les différents phénomènes remarquables identifiés, il s’agit de les
décrire, de les analyser puis de tenter de les expliquer. Une méthode d’analyse
multi-niveaux a été proposée pour essayer de rendre compte des phénomènes de
chacune de ces catégories, PREMS, PREDISC et PRINT. A titre d’exemple, nous
citons la démarche élaborée pour les PREMS ; elle s’appuie sur la démarche
proposée par Léglise (2012, 2013), qui favorise une analyse séparée des facteurs
d’explication (inter et intrasystémiques) avant de montrer leur interaction dans le
résultat linguistique observé, en systématisant l’entrée par différents niveaux
d’analyse. Les linguistes identifiant des phénomènes remarquables sont invités à
se pencher sur un ensemble de niveaux d’analyse :
a) Analyse propre à la langue A : se demander s’il existe d’autres exemples
déjà documentés du même phénomène dans la langue A et proposer une analyse
– exemple : une variation de ce type a été observée dans la situation X (variation
géographique par exemple)
b) Analyse liée à un groupe de langues (au sens de familles linguistiques mais
pas exclusivement) : se demander s’il existe d’autres exemples déjà documentés
dans des langues proches de la langue A) – exemple : les langues romanes
connaissent généralement des réductions de paradigme au niveau des pronoms
personnels (nombreux exemples attestés dans telle et telle variété)
c) Analyse liée au contact (en fonction des caractéristiques linguistiques ou
typologiques des langues en contact) : se demander si le PREMS peut être lié à
une caractéristique de la langue B – par exemple l’ordre des constituants observé
ne correspond pas à celui de la langue A dans laquelle l’énoncé est produit mais à
celui de la langue B également présente dans la situation de contact
d) Analyse liée à chacune des langues dans d’autres situations de contact : se
demander si d’autres exemples sont documentés – et de la langue A – et de la
langue B, en contact avec d’autres langues C, D, et produisant le même type
d’effets – exemple : la situation de contact actuelle comprend du français et du
créole ; le français, en contact avec des langues africaines, produit le même type
de phénomènes que ceux observés dans la situation actuelle ; par ailleurs, le
créole, en contact avec une autre langue (le néerlandais), produit / ou ne produit
pas le même type de phénomènes que ceux observés dans la situation actuelle.
e) Analyse liée au contact indépendante des caractéristiques des langues en
contact : vérifier si la littérature fait état de phénomènes identiques dans des
situations mettant en scène d’autres langues – par exemple, un schéma de
grammaticalisation habituel dans les langues, ou un processus graduel déjà
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
113
identifié montrant que la création des articles suit un schéma classique, du
numéral vers l’indéfini, puis de l’indéfini vers le défini (Heine et Kuteva 2003,
Dryer 2005a, 2005b)
f) Analyse sociolinguistique : décrire la situation de communication en terme
d’interlocuteurs (leur âge, leur situation sociale ou professionnelle, leurs
rapports), se demander si l’énoncé produit renvoie à une variété stylistique
particulière, etc.
g) Analyse pragmatique : si le phénomène inclut un changement de langue, se
demander quelle fonction on peut attribuer à ce changement, quel est le thème de
l’échange, quel type de séquence (explicitation par exemple) est concerné etc.
L’idée de cette démarche, pas à pas, et contraignante pour le descripteur, est
d’étendre la possibilité d’explication des phénomènes qui reste trop souvent
confinée au transfert de structures de la langue B vers la langue A (Léglise,
2013). En proposant une analyse multi-niveaux, on fait le pari que plusieurs de
ces niveaux sont (la plupart du temps) concernés dans les résultats linguistiques
observés. Suivre une telle démarche permet de rendre visibles ces différents
niveaux et d’identifier des possibilités d’explication. L’étape suivante consiste à
montrer que ces niveaux interagissent et à démonter comment. On sera alors en
mesure de proposer des explications plurifactorielles aux phénomènes observés.
4.5. Des métadonnées fines et nombreuses pour une analyse plurifactorielle
Nous avons enrichi chaque corpus transcrit d’un grand nombre de
métadonnées qui concernent la situation de contact, les langues et les locuteurs
concernés. Elles s’inspirent des facteurs linguistiques et des facteurs sociaux
identifiés par la linguistique de contact (en particulier Thomason 2001b, Winford
2003) augmentés de connaissances issues des domaines de la typologie des
langues, de l’acquisition/apprentissage des langues, de l’anthropologie
linguistique et de la sociolinguistique. Avec une vision maximaliste des
possibilités offertes par l’annotation d’informations secondaires sur nos données,
nous avons souhaité que ces métadonnées soient les plus riches possibles afin que
nous puissions ensuite interroger chacun de ces critères comme un facteur
potentiellement pertinent dans la réalisation des phénomènes remarquables
observés. Pour ce faire, elles ont été structurées par P. Vaillant dans une base de
données qui est renseignée pour chaque texte ou corpus. Nous renvoyons à
Vaillant, Léglise & Alby (en préparation) pour des détails sur la conception et
l’architecture de la base de données. Nous présentons ci-dessous cinq grandes
catégories de métadonnées que nous renseignons.
Premièrement, nous avons voulu catégoriser chacun de nos corpus selon trois
typologies majeures de la linguistique de contact. En fonction des critères donnés
par chacun des auteurs suivants, nous avons tenté d’inscrire nos corpus dans les
typologies concernées :
- La typologie de Winford (2003) sur les situations de contacts distingue entre
des situations de contacts marginales (voyages, explorations, conquêtes, médias,
apprentissage de langues étrangères, etc.), des situations où les locuteurs évoluent
114
Isabelle Léglise et Sophie Alby
dans la même communauté mais avec un contact entre un groupe dominant et un
groupe minoritaire (immigration, invasion, conquête militaire, modifications des
frontières des états, contacts intergroupaux liés à du commerce, des mariages,
etc.), et des situations de bilinguisme plus «égalitaires». Selon le degré du
contact, Winford cherche à évaluer les effets sur les langues pouvant aller
d’emprunts lexicaux uniquement jusqu’à des emprunts structuraux massifs ayant
des effets sur la typologie des langues.
- La typologie des interactions verbales de de Pietro (1988) propose
d’identifier différents types de situations d’interactions entre des bilingues ou des
monolingues, entre des locuteurs natifs ou non, partageant ou non les mêmes
langues. Il propose un axe unilingue-bilingue et un axe endolingue-exolingue
définissant ainsi quatre cas de figures. Les observables linguistiques identifiés
dans les interactions sont ainsi explicités en fonction de la situation de
communication verbale telle qu’elle a été définie dans la typologie.
- La typologie de Auer (1999) sur les discours bilingues distingue entre
l’alternance conversationnelle (ou codeswitching) «pour les cas où la
juxtaposition des deux codes est perçue et interprétée comme localement
significative par les participants», le mélange de langues (ou language mixing)
«où c’est la juxtaposition des deux langues en elles-mêmes qui est significative
pour les participants, non pas localement (contextuellement) mais dans le fait
même d’employer ce type de discours», et enfin la fusion de lectes (ou fused
lects) pour les cas correspondant à des variétés mixtes stabilisées «où les
locuteurs n’ont plus conscience de la mixité de leur discours», où la mixité est
constitutive de la langue ainsi créée (Alby et Migge, 2007 : 52).
L’objectif de la catégorisation de nos corpus selon ces trois typologies est de
vérifier si les effets et phénomènes linguistiques attendus dans certaines de ces
situations correspondent bien à ceux que nous observons dans nos corpus, il
s’agit donc en quelque sorte de «tester» ces typologies et de vérifier si elles
permettent d’expliciter les phénomènes observés. Le cas échéant nous serons
peut-être à même de compléter ces typologies.
Deuxièmement, en ce qui concerne les différentes langues présentes dans nos
enregistrements, il nous a paru important de noter quelles relations ces différentes
langues entretiennent d’un point de vue génétique ou typologique : sont-elles
apparentées ? (même famille linguistique ?, intercompréhension relative ?,
variétés stylistiques ou dialectales de la même langue ? etc.), peut-on considérer
– et selon quel critère – qu’elles sont typologiquement «proches» ou éloignées ?
La question de la distance typologique entre les langues n’est pas triviale et peutêtre abordée de différentes manières, notamment en fonction d’une distance
objective – que certains tentent de mesurer et que nous nous contentons de noter
localement dans le cadre de sous-systèmes linguistiques ou domaines particuliers
– ou d’une distance subjective ou perçue (Kellerman & Sharwood Smith, 1986,
Giacalone Ramat, 1994) particulièrement importante en situation d’acquisition
des langues et que nous prenons également en compte dans nos analyses (cf.
idéologie linguistique mentionnées plus bas). Bien que complexe, c’est une
question essentielle dans le domaine du contact. Thomason (2010 : 40) insiste sur
l’importance de connaître le degré de distance typologique entre des sous-
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
115
systèmes (ou domaines) particuliers des langues en contact car cela aide à prédire
le type d’interférence (nous dirions ici de phénomène remarquable) qui peut se
produire –en fonction également de l’intensité du contact. Lorsque la distance
typologique est étroite, des sous-systèmes - pour lesquels on observe rarement de
changement induit par contact – peuvent être affectés par le contact. Thomason
donne le cas de la morphologie inflexionnelle qui est habituellement peu touchée
par le contact. Une distance typologique «minimale» est responsable de la
fréquence d’interférences interdialectales impliquant des traits inflexionnels
rarement transférés dans le cas de langues plus distantes. Ce n’est, selon l’auteur,
pas l’effet déclencheur mais un facteur explicatif important.
Voici quelles métadonnées nous renseignons concrètement pour les relations
génétiques ou typologiques : pour un corpus illustrant des contacts entre le
kali’na (langue amérindienne de la famille caribe) et le français (langue romane),
nous notons qu’il s’agit de langues typologiquement éloignées par exemple du
point de vue de l’ordre des constituants dans la phrase – et plus particulièrement
de l’ordre dans le groupe nominal. Pour un corpus illustrant des contacts entre le
pamaka (créole à base anglaise) et l’aluku (créole à base anglaise), nous
considérons qu’il s’agit de variétés dialectales de la même langue (le nengee) et
pour le contact entre le pamaka (créole à base anglaise) et l’anglais (langue
germanique), on considère qu’au niveau génétique (cet adjectif étant pris ici au
sens large), il s’agit du contact entre une langue créole et sa langue lexificatrice
mais qu’au niveau typologique, ces langues ont des caractéristiques relativement
éloignées du point de vue de l’expression des marques de TAM par exemple. Ces
informations nous semblent importantes pour vérifier si les effets observés du
contact peuvent être liés à des apparentements et ressemblances génétiques ou
typologiques.
Troisièmement, la littérature sur le contact insiste sur la durée et la stabilité du
contact entre les langues comme un critère important intervenant dans les
résultats de ce contact (Thomason 2001a, Winford 2003). Ce sont généralement
les données sociales ou sociolinguistiques intégrées dans les études sur le contact,
les «social factors» du «scenario de contact» pertinents, qui ont un pouvoir
explicatif. Nous avons décidé de préciser ces éléments pour chacune des paires
ou trio de langues présents dans nos corpus – nous réalisons cette annotation à
deux niveaux : au niveau généralement considéré dans la littérature, qui est celui
de la «communauté linguistique», et au niveau qui nous paraît également
pertinent pour expliquer les phénomènes, celui du locuteur et de sa famille.
Quatrièmement, notre connaissance des terrains et des travaux en acquisition et
anthropologie linguistique nous ont fait préciser un certain nombre de données
secondaires qui nous semblent pouvoir jouer un rôle explicatif important dans les
résultats du contact – rôle que nous souhaitons en tout cas tester. Le lieu et le
moyen d’acquisition des langues par les locuteurs nous semblent des données
importantes et nous avons souhaité les noter systématiquement : telle langue a-telle été transmise en famille lorsque le locuteur était enfant, est-ce la (ou l’une
des) langue(s) de socialisation majoritaire pour lui, a-t-il appris cette langue à
l’école ou dans un contexte formel comparable, a-t-il acquis cette langue dans des
116
Isabelle Léglise et Sophie Alby
contextes informels (avec des pairs) ou dans l’espace public, ou encore est-on
dans un cas de rupture de transmission intergénérationnelle ?
Cinquièmement, le statut des différentes langues dans la situation de
communication correspondant au corpus est également un élément à prendre en
compte – et nous souhaitons également tester le rôle que ces éléments peuvent
jouer : quelles sont les fonctions jouées par les différentes langues sur le territoire
concerné ? Quels sont leurs statuts (de jure et de dicto) respectifs ? Quels sont les
équilibres numériques en présence (langue majoritaire ou minoritaire
numériquement parlant dans la micro-situation concernée, dans la ville où
l’enregistrement est réalisé, sur le territoire global) ? Quels sont les rapports
idéologiquement parlant entre les langues : au niveau du territoire, la langue A
est-elle idéologiquement minoritaire ou dévalorisée ?, au niveau de la région ou
de la ville concernée, la langue A et la langue B sont-elles également valorisées ?
au niveau de la micro-situation considérée, la langue B est-elle considérée
comme appropriée à la situation / valorisée, à la différence de la langue A par
exemple ?
Toutes ces questions nous semblent pertinentes, nous les considérons comme
autant de données secondaires intéressantes à noter – et à interroger ensuite, pour
valider ou invalider leur rôle dans les résultats linguistiques observés, voire, si
leur rôle s’avère montré, permettre de mieux expliquer ces résultats.
CONCLUSION
Nos corpus et méthodes permettent de travailler sur des données hétérogènes,
qu’elles soient plurilingues, pluri-dialectales, ou pluri-stylistiques ou qu’il
s’agisse de variations observées dans ce que l’on considère habituellement
comme des productions monolingues. La méthode d’annotation du corpus que
nous avons mise en place est un révélateur d’hétérogénéité car la démarche pas à
pas oblige le linguiste à se poser des questions qu’il ne se posait pas forcément
lors de la transcription, elle oblige également à ouvrir l’univers des possibles, à
chaque instant en se demandant si une transcription alternative est possible et si
l’élément ainsi noté pourrait appartenir à d’autres langues que celle qui vient
spontanément à l’esprit du transcripteur.
De la même manière, la méthode d’analyse des phénomènes remarquables et le
renseignement des données sociales obligent également le linguiste, par une
démarche pas à pas, à s’intéresser à ses données en ayant en tête un ensemble
ouvert de possibilités à aller chercher et renseigner. Seul cet esprit d’ouverture
est garant de possibles analyses multiniveaux et explications plurifactorielles. Le
parti pris résolument choisi est celui d’analyses à un niveau «micro du micro» tant au niveau des données linguistiques que des données sociales - qui
nécessitent un travail de fourmi sur les enregistrements et dans les analyses, nous
croyons, à la suite de Léglise (1999) que c’est à ce prix que l’on peut trouver des
régularités (en particulier statistiques) et des explications aux phénomènes
observés.
Le projet Clapoty constitue une fabuleuse aventure humaine. En croisant des
méthodes et des points de vue, issus de plusieurs traditions en sciences du
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
117
langage, il adopte de fait deux approches, l’une inductive, l’autre déductive. Il
cherche à la fois à ouvrir l’éventail des possibilités d’explication par une analyse
manuelle et complexe des phénomènes repérés et d’autre part à tester des
hypothèses par des vérifications informatiques à partir des bases de données
créées à partir des centaines d’annotations manuelles réalisées.
BIBLIOGRAPHIE
Alby S., 2001, Contacts de langues en Guyane française : une description du
parler bilingue kali’na-français, Thèse de doctorat sous la direction de J-C.
Pochard, Université Lumière Lyon II, Lyon.
Alby S. & Migge B., 2007, Alternances codiques en Guyane française. Les cas
du kali’na et du nenge, in I. Léglise, B. Migge (éds), Pratiques et
représentations linguistiques en Guyane : regards croisés, Paris, IRD
Editions, p. 49-72.
Alfonzetti G., 1998, The conversational dimension in codeswitching between
italian and dialect in Sicily, in P. Auer (ed), Codeswitching in conversation,
Londres, Routledge, p. 180-214.
Alvarez Caccamo C., 1990, Rethinking conversational code-switching: codes,
speech varieties and contextualisation, Communication au colloque
Proceedings of the sixteenth annual meeting of the Berkeley Linguistics
Society, 16-19 février, Berkeley.
Auer P., 1995, The pragmatics of code-switching: a sequential approach, in L.
Milroy & P. Muysken (eds), One speaker, two languages: cross disciplinary
perspectives on code-switching, Cambridge, Cambrige University Press,
p. 115-135.
Auer P., 1999, From codeswitching via language mixing to fused lects: toward a
dynamic typology of bilingual speech, The International Journal of
Bilingualism 3-4, p. 309-332.
Backus A. 2003. Units in codeswitching: evidence for multimorphemic elements
in the lexicon. Linguistics, 41(1), p. 83-132
Belazi H. M., Rubin E. & Toribio A. J., 1994, Code Switching and X-Bar theory:
the functional head constraint, Linguistic Inquiry 25-2, p.221-237.
Bentahila A. & Davies E. E., 1983, The syntax of Arabic-French code-switching,
Lingua, 59, p. 301-330.
Billiez J. (éd), 2003, Contacts de langues. Modèles, typologies, interventions,
Paris, L’Harmattan.
Bokamba E. G., 1989, Are there syntactic constraints on Code-Mixing ?, World
Englishes 8, p. 277-293.
Boyer H., 1997, Conflits d’usages, conflits d’images, in H. Boyer (éd),
Plurilinguisme : «contact» ou «conflit» de langues, Paris, L’Harmattan, p. 935.
Canut C., 2001, A la frontière des langues. Figures de la démarcation, Cahiers
d’Etudes Africaines 163-164, p. 443-463.
Canut C. & Caubet D. (éds), 2002, Comment les langues se mélangent.
Codeswitching en francophonie, Paris, L’Harmattan.
Chamoreau C., 1995, La comparaison en purepecha. Un exemple d'évolution
syntaxique, Faits de Langues 5, p. 140-143.
118
Isabelle Léglise et Sophie Alby
Chamoreau C., 2012a, Constructions périphrastiques du passif en purepecha. Une
explication multifactorielle du changement linguistique, in C. Chamoreau &
L. Goury (éds), Changement linguistique et langues en contact. Approches
plurielles du domaine prédicatif, Paris, CNRS Editions, p. 251-270.
Chamoreau C., 2012b, Développement de l'article indéfini ma en purepecha,
Communication au séminaire de la Fédération "Typologie et Universaux
Linguistiques", Evolution des structures morphosyntaxiques. Vers une
typologie intégrative, 10 mai 2012.
Chamoreau C. & Lastra Y. (ed), 2005, Dynamica linguistica de las lenguas en
contacto, Sonora, Universidad de Hermosillo.
Chamoreau C. & Goury, L. (éds), 2012, Changement linguistique et langues en
contact. Approches plurielles du domaine prédicatif, Paris, CNRS Editions.
Chamoreau C. & Léglise, I., 2012, A multi-model approach to contact-induced
language change, in C. Chamoreau & I. Léglise (éds) Dynamics of contactinduced language change, Mouton de Gruyter, p. 1-15.
Croft W., 2000, Explaining language change, Harlow, Pearson Education
Limited.
Dahl Ö., 2007. From questionnaires to parallel corpora in typology,
Sprachtypologie und Universalienforschung 60 (2), p. 172-81.
Déjean H., Gaussier E. & Sadat F., 2002, Bilingual terminology extraction: an
approach based on a multilingual thesaurus applicable to comparable corpora,
Proceedings of COLING’ 2002, Taipei, Japon.
De Pietro J.-F., 1988, Vers une typologie des situations de contacts linguistiques,
Langage et Sociétés 43, p. 65-89.
Deprez C., 1994, Les enfants bilingues : langues et familles, Paris, Didier.
Dryer M. S., 2005a, Definite articles, in M. S. Dryer & M. Haspelmath (eds), The
world atlas of language structures, LIEU, EDITEUR?, p. 154-155.
Dryer M.S., 2005b, Indefinite articles, in M. S. Dryer & M. Haspelmath (eds),
The world atlas of language structures, LIEU, EDITEUR?, p. 158-159.
Fishman, J. 1972, Domains and the relationship between micro and
macrosociolinguistics, in J. J. Gumperz & D. Hymes, Directions in
sociolinguistics. The ethnography of communication, New York, Holt,
Rinehart & Winston, p. 435-453.
Field F. W., 2002, Linguistic borrowing in bilingual contexts,
Amsterdam/Philadelphia, John Benjamins Publishing Company.
Giacalone Ramat A., 1994, Il ruolo della tipologia linguistica nell’acquisizione di
lingue seconde, in A. Giacalone Ramat & M. Vedovelli (eds), Italiano lingua
seconda/lingua straniera. Atti del XXVI Congresso della Società di
Linguistica Italiana, Roma, Bulzoni, p. 27-43.
Givon T., 1981, On the development of the numeral 'one' as an indefinite marker,
Folia Linguistica Historica 2-1, p. 35-53.
Goebl H., Nelde P. H., Stary Z. & Wölck W. (eds), 1996, Contact linguistics. An
international handbook of contemporary research, vol.1, Berlin/New York,
De Gruyter.
Gumperz J. J., 1976, The sociolinguistic significance of conversational CodeSwitching, Papers on Language and Context: Working Papers 46, p. 1-46.
Groupe ICOR, 2007, Variations interactionnelles et changement catégoriel :
l’exemple de ‘attends’, in AUTEUR(S)?, La mise en œuvre des langues dans
l’interaction, Paris, L’Harmattan, p. 299-320.
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
119
Heiden S., 2006, Un modèle de données pour la textométrie : contribution à une
interopérabilité entre outils in J-M. Viprey et al. Archives, Bases, Corpus, vol
1, Presses Universitaires de Franche-Comté, Besançon, p. 747-487.
Heine B., 1997, Cognitive foundations of grammar, Oxford, Oxford University
Press.
Heine B. & Kuteva T., 2003, On contact-induced grammaticalization, Studies in
Language 27-3, p. 529-572.
Heine B. & Kuteva T., 2005, Language contact and grammatical change,
Cambridge, Cambridge University Press.
Heine B. & Kuteva T., 2008, Constraints on contact-induced linguistic change,
Journal of Language Contact, Thema 2, p. 57-90.
ICOR, 2007, Conventions de transcription. Accessible en ligne, http://icar.univlyon2.fr/projets/corinte/bandeau_droit/convention_icor.htm
(consulté
le
06/12/2012).
Juillard C., 1995, Sociolinguistique urbaine : la vie des langues à Zinguichor,
Paris, CNRS Editions.
Kellerman E. & Sharwood Smith M. (eds), 1986, Crosslinguistic influence in
Second Language Acquisition. New York, Pergamon Press.
Kriegel S. (ed), 2003, Grammaticalisation et réanalyse. Approche de la
variation créole et française, Paris, CNRS Editions.
Ledegen G., 2012, Prédicats «flottants» entre le créole acrolectal et le français à
la Réunion : exploration d’une zone ambiguë, in C. Chamoreau, L. Goury
(ed), Changement linguistique et langues en contact. Approches plurielles du
domaine prédicatif, Paris, CNRS Editions, p. 251-270.
Léglise I., 1999, Contraintes de l'activité de travail et contraintes sémantiques
sur l'apparition des unités et l'interprétation des situations, Thèse de
doctorat, Université Paris 7-Denis Diderot.
Léglise I., 2007a., Explaining language contact phenomena in a prospective
diachronic perspective: discussion of a methodological frame, Language
Contact Symposium, Max Planck Institut, Leipzig, May 10-13.
Léglise I., 2007b, Des langues des domaines, des régions. Pratiques, variations,
attitudes linguistiques en Guyane, in I. Léglise & B. Migge (éds), Pratiques et
représentations linguistiques en Guyane : regards croisés, Paris, IRD
Editions, p. 29-47.
Léglise I., 2009, Contacts de langues : analyses plurifactorielles assistées par
ordinateurs et conséquences typologiques, Projet de recherche soumis à
l’ANR.
Léglise I., 2012, Variations autour du verbe et de ses pronoms objets en français
parlé en Guyane : rôle du contact de langues et de la variation
intrasystémique, in C. Chamoreau et L. Goury (éds) Changement linguistique
et langues en contact, CNRS editions, p. 203-230.
Léglise I., 2013, The interplay of inherent tendencies and language contact on
French object clitics: an example of variation in a French Guianese contact
setting, in I. Léglise I. & C. Chamoreau, (eds), The interplay of variation and
change in contact settings – Morphosyntactic studies, John Benjamins,
p. 137-163.
Léglise I. & Chamoreau C., 2013, The interplay of variation and change in
contact settings, in I. Léglise & C. Chamoreau, (eds), The interplay of
variation and change in contact settings John Benjamins, p. 1-20.
Léglise I. & Migge B., 2005, Pour une étude des contacts de langues en
synchronie : quelques exemples tirés du cas guyanais, TRACE 47, p. 113-131.
120
Isabelle Léglise et Sophie Alby
Mackey W. F., 1976, Bilinguisme et contact des langues, Paris, Klincksieck.
MacSwan J., 1997, A minimalist approach to intrasentential code switching:
Spanish-Nahuatl bilingualism in Central Mexico, University of California,
Los Angeles.
MacWhinney B., 2000, The Childes Project: tools for analyzing talk, Mahwah,
NJ, Lawrence Erlbaum Associates.
MacWhinney B., 2007, The TalkBank Project, Departement of Psychology,
Paper 174, http://repository.cmu.edu/psychology/174.
Mahootian S., 1993, A null theory of codeswitching, thèse de doctorat,
Northwestern University.
Matras Y., 1998, Utterance modifiers and universals of grammatical borrowing,
Linguistics, 36-2, p. 281-331.
Matras, Y., 2009, Language contact, Cambridge, Cambridge University Press.
Matras Y. & Sakel J. (eds), 2007, Grammatical Borrowing in Cross-Linguistic
Perspective, Berlin, Walter de Gruyter.
Matras Y., White C. & Elšík V. à paraître, The Romani Morpho-Syntax (RMS)
Database, in M. Everaert & S. Musgrave (eds). Linguistic databases. Berlin,
Mouton de Gruyter.
Matthey M. & De Pietro J.-F., 1997, Utopie souhaitable ou domination acceptée
?, in H. Boyer (éd), Plurilinguisme : ‘contact’ ou ‘conflit’ de langues, Paris,
L’Harmattan, p. 133-190.
Botley S. P., McEnery A. M. & Wilson A. (eds), 2000, Multilingual corpora in
teaching and research, Amsterdam, Rodopi.
Manfredi S., Simeone-Senelle M. C. & Tosco M., sous presse, Codeswitching
and borrowing in CorpAfroAs, in Mettouchi A. et al. CorpAfroAs: A Corpus
for Afro-Asiatic Languages, Amsterdam, Benjamins.
Mettouchi A. & Chanard C., 2010, From fieldwork to annotated corpora: the
CorpAfroAs Project, Faits de Langue – Les Cahiers 2, p. 255-265.
Migge B. & Léglise I., 2011, On the emergence of new language varieties: The
case of the Eastern Maroon Creole in French Guiana, in L. Hinrichs, J.
Farquharson (eds), Variation in the Caribbean, Amsterdam, John Benjamins,
p. 181-199.
Migge B. & Léglise I., 2013, Exploring Language in a Multilingual Context:
Variation, Interaction and Ideology in language documentation, Cambridge
University Press.
Myers-Scotton C., 1993a, Social motivations for code-switching: evidence from
Africa, Oxford, Clarendon Press.
Myers-Scotton C., 1993b, Duelling languages: grammatical structure in
codeswitching, Oxford, Clarendon Press.
Myers-Scotton C., 2002, Contact Linguistics: Bilingual Encounters and
Grammatical Outcomes. Oxford: Oxford University Press.
Muysken P., 1995, Code-switching and grammatical theory, in L. Milroy & P.
Muysken (eds), One speaker, two languages: cross-disciplinary perspectives
on code-switching, Cambridge, Cambridge University Press, p. 177-198.
Muysken P., 2011, Codeswitching, in R. Mesthrie (ed.), The Cambridge
Handbook of sociolinguistics, Cambridge University Press, 301-314.
Nicolaï R., 2005, Language processes, theory and description of language
change, and building on the past: lessons from Songhay, in Z. Frajzyngier, A.
Hodges & D. S. Rood (eds), Linguistic diversity and language theories,
Amsterdam/Philadelphia, John Benjamins, p. 81-104.
Les corpus plurilingues, entre linguistique de corpus et linguistique de contact.
121
Nicolaï R., 2007, Le contact des langues, point aveugle du ‘linguistique’, Journal
of Language and Contact 1, p. 1-21.
Nishimura M., 1985, Intrasentential Code-Switching in Japanese and English,
Thèse de doctorat, Université de Pennsylvania.
Poplack S., 1980, Sometimes I’ll start a sentence in Spanish y termino en
Espanol, Linguistics, 18, p.581-618.
Poplack S., 1981, The syntactic structure and social function of code-switching,
in R. P. Duran (ed), Latino language and communicative behavior, Norwood,
New Jersey, Ablex, p. 169-184.
Ross M., 1999, Exploring metatypy: how does contact-induced typological
change come about?, Communication à Australian Linguistic Society’s
annual meeting, Perth (http://rspas.anu.edu.au/linguistics/mdr/Metatypy.pdf).
Ross, M., 2001, Contact-induced change in Oceanic languages in North-West
Melanesia, in A. Aikhenvald & R. Dixon (eds), Areal diffusion and genetic
inheritance, Oxford, Oxford University Press, p. 134-166.
Ross, M., 2007, Calquing and metatypy, Journal of Language Contact
(http://cgi.server.unifrankfurt.de/fb09/ifas/JLCCMS/issues/THEMA_1/JLC_
THEMA_1_2007_06R_oss.pdf)
Sacks H., Schegloff E. & Jefferson G., 1974, A simplest systematics for the
organisation of turn-taking for conversation, Language, 50-4, p. 696-735.
Stolz T., 2007, Harry Potter meets Le Petit Prince – On the usefulness of parallel
corpora
in
crosslinguistic
investigations,
Sprachtypologie
und
Universalienforschung 60 (2), p. 100-117.
Thomason S., 1993, On identifying the sources of creole structures, in S.
Mufwene (ed), Africanisms in Afro-American language varieties, Athens,
GA, University of Georgia Press, p. 280-295.
Thomason S., 2001a, Language contact: an introduction, Edinbourg, Edinburg
University Press.
Thomason S., 2001b, Contact-induced typological change, in M. Haspelmath, E.
Koenig, W. Oesterreicher & W. Raible (eds), Language typology and
language universals, Sprachtypologie und sprachliche universalien, vol.2,
Berlin/New York, Walter de Gruyter, p. 1640-1648.
Thomason S., 2010, Contact Explanations in Linguistics, in R. Hickey (ED?),
The Handbook of Language Contact, Wiley-Blackwell, p.31-47
Thomason S. & Kaufman T., 1988, Language contact, creolization, and genetic
linguistics, Oxford/Berkeley, University of California Press.
Traverso V., 1999, L’Analyse des conversations, Paris, Nathan.
Vaillant, P., Léglise I. & Alby S., en préparation, Le schéma de document
Corpus Contact.
Véronis J. (ed) 2000, Parallel Text Processing. Alignment and Use of
Translation Corpora, Kluwer Academic Publishers.
Véronis J. (ed), 2002, Alignement lexical dans les corpus multilingues,
Lexicometrica (http://lexicometrica.univ-paris3.fr/thema/thema6.htm).
Vion R., 1992, La communication verbale. Analyse des interactions, Paris,
Hachette.
Vincent D., 1993, Les ponctuants de la langue et autres mots du discours,
Québec, Nuits Blanches.
Weinreich U., 1953, Languages in contact: findings and problems, New York,
The Linguistic Circle of New York.
Winford D., 1997, Creoles in the context of contact linguistics, Journal of Pidgin
and Creole Languages 12, p. 131-151.
122
Isabelle Léglise et Sophie Alby
Winford D., 2003, An introduction to Contact Linguistics, Oxford, Blackwell.
Wurm S.A., 1996, Atlas des langues en péril dans le monde, Paris/Camberra,
Editions UNESCO/Pacific Linguistics.
Zentella A-C., 1997, Growing up bilingual: Puerto Rican children in New York,
Oxford, Blackwell Publishers.
Zweingebaum P., Rapp R., Sharoff S. (ed), 2011, Proceedings of the 4th
Workshop on Building and Using Comparable Corpora: Comparable
Corpora and the Web, Association for Computational Linguistics, Portland.