Driss ABLALI
LASELDI, Université de Franche-Comté
Linguistique des genres. Exploration sur corpus
1. Introduction
Évoquer la question des genres, c’est nécessairement s’installer dans la
pluralité des disciplines et des points de vue. Comme nous ne prétendons
pas ici en faire l’histoire, ni lui trouver une solution, nous voudrions
souligner, d’entrée de jeu, que la rencontre, dans le titre de cette
contribution, entre le deux substantifs « linguistique » et « genres », ne se
fait pas encore dans le giron des sciences du langage dans des conditions
pleinement euphoriques. Il existe bien, c’est entendu, une réflexion
linguistique sur les genres textuels, mais elle a encore du mal à s’imposer
sur le devant de la scène des recherches linguistiques. On imagine bien que
ce n’est pas la seule : la question du genre a pendant longtemps fait l’objet
des questions les plus commentées dans les théories littéraires, alors que
dans l’histoire des idées linguistiques, elle était jugée comme dénuée de
sens pour la linguistique, restée cantonnée pendant longtemps à observer
l’étude du phonème, du morphème et du syntagme. Autre aspect du
problème, que nous ne faisons également que signaler : les linguistes,
jugeant la phrase comme palier infranchissable, considéraient la question de
savoir ce qu’est un genre textuel revenait en fait à se demander ce qu’est la
littérature. Il faut toutefois apporter à cette affirmation légèrement
pessimiste quelque tempérament : la linguistique ne peut plus ignorer la
question des genres, et un déplacement de l’attention des exemples
artificiels vers les textes devient imminent. Franchir le seuil de la phrase
revient à établir des lois de corrélation entre la langue et le discours dans le
cadre d’une description linguistique des genres textuels.
La question à laquelle nous essaierons de répondre est la suivante : dans
quelle mesure la linguistique renouvelle-t-elle l’approche des genres
textuels ? Sur quels critères peut-on solidement fonder les catégories
génériques, et à quel niveau de l'analyse se placent-elles ? En somme, que
doit-on faire pour entrer dans la définition linguistique d'un genre, et
comment peut-on justifier, sinon prouver, son existence comme une unité
qui ne soit plus liée à l'intuition ? Comme le dit clairement D. Maingueneau,
« il s’agit d’appréhender dans un même espace toutes les formes de
généricité, de refuser les partages qui ne reposent que sur des habitudes ».
(2004 : 118).
Driss Ablali
250
Nous adopterons pour avancer ces propositions, un point de vue
résolument épistémologique, ancré dans la réflexion de la sémantique
interprétative de F. Rastier. Après quelques mots sur la question des genres
pour situer épistémologiquement notre propos, on essaiera de décrire, dans
la première partie de cette exploration, la caractérisation formelle du genre
de l’article de recherche. Dans une perspective linguistique et avec des
outils lexicométriques, il s’agit de voir si le discours universitaire s’institue
à travers des écarts, que ménagent et symbolisent le philosophe, le linguiste
et l’historien, etc., ou bien aucun d’eux ne saurait s’abstraire de l’ensemble
qui est les sciences humaines. Existe-t-il une identité morphosyntaxique du
genre de l’article scientifique universitaire qui transcende l’hétérogénéité
des disciplines ? Existe-t-il des signes de ponctuation qui caractérisent
chaque domaine en sciences humaines, et qui définissent une posture
discursive originale ? La deuxième partie sera consacrée au niveau lexical,
avec comme pour objectif l’examen des constantes et des variations entre
sept disciplines différentes au sein du même genre, afin d'identifier les
éléments fondamentaux de l'écriture pour ce dernier. Notre propos ne vise
pas tant à classer qu'à étudier, à partir de l’article de recherche, ce qui peut
rapprocher diverses disciplines appartenant à la même configuration
académique.
2. Morphologie du genre
Tout texte s’inscrit dans un genre dont les normes le contraignent
absolument. Dans les théories littéraires, voici par exemple quelques
définitions des genres littéraires :
- Confessions : racontant sa vie, l'auteur peut avouer ses erreurs et
chercher à les justifier
- Journal intime : l'auteur confie au jour le jour à ses carnets
anecdotes et réflexions.
- On appelle roman un texte en prose ou en vers écrit en langue
romane (Le roman de la Rose, Le Roman de Renart). Dès le XVI°
siècle, il désigne un récit en prose d'aventures imaginaires. Le genre
romanesque, après avoir été longtemps considéré comme inférieur
parce qu'il était lu de préférence dans la classe bourgeoise, arrive à
son apogée avec elle au XIX° siècle. Il est depuis lors un genre
protéiforme, où se sont accomplies toutes les expériences.
- Le haïku est un petit poème composé de trois vers respectivement
de 5, 7 et 5 syllabes. Il comporte toujours une référence à la nature.
Il exprime une sensation ténue, une impression ineffable, il rend
compte d'une sorte d'illumination, d'étonnement éprouvé par le poète
Linguistique des genres. Exploration sur corpus
251
devant des choses communes, banales: le bruit de la pluie, le reflet
de la lune dans l'étang, un objet, un animal, un marcheur solitaire,
etc.
On le voit : les définitions données ci-dessus portent beaucoup plus sur
le contenu que sur la forme. Elles sont axées sur l’intention du texte et sur
son type d'organisation. Or un genre est un ensemble de caractéristiques de
fond et de forme qui assurent à une production textuelle un certain type de
décodage. Il convient avant de poursuivre de rappeler qu’il est en réalité
plusieurs moyens d'aborder le problème des genres textuels. Et la
linguistique aussi a son mot à dire là-dessus. Les travaux de J.-M. Adam et
de D. Maingueneau, comme les travaux de J.-P. Bronckart et de F. Rastier
sont significatifs à cet égard. Différentes perspectives sont donc offertes
pour l’étude des genres, car un genre peut être appréhendé sur différents
niveaux, ce qui veut dire que son identité est toujours relative. Il serait peu
pertinent de privilégier un niveau d’analyse linguistique particulier pour
caractériser un genre dans son intégrité : un genre n’est pas un ancrageénonciatif déterminé, ni des prescriptions thématiques explicites, mais un
lieu de contraintes, d’oppositions et de corrélations linguistiques entre fond
et forme.
Plusieurs approches ont en effet proposé d’adopter une unité, ou plus
largement, une seule modalité de description du texte. L’une des voies
possibles, quoiqu’elle reste l’une des moins aisées, consiste à dresser le
portait-type d’un genre quelconque en regroupant plusieurs caractéristiques
sous lesquelles les genres sont définissables : structure du paragraphe,
formes de l’intertextualité, présence de l’énonciateur ou de l’auditoire, traits
grammaticaux, signes de ponctuation, etc. C’est une demeure encore
lointaine et difficile d’accès, mais malheureusement elle reste l’une des
voies, pour ne pas dire la seule possible, qui permette de mettre sous le
même toit des configurations de marques différentes pour caractériser un
genre textuel, et d’apporter une moisson de détails curieux pour dégager
peut-être une sorte de « koinè », faite d’un mélange assez étonnant et
hybride entre syntaxe, lexique et style. L’objectif est d’éviter des
définitions, qui n’ont d’autres justifications que des habitudes personnelles
ou des découpages académiques.
Par morphologie du genre, nous essaierons d’examiner les modalités
grammaticales et syntaxiques sous lesquelles on pourrait esquisser les traits
caractéristiques d’un genre précis. Pour ne pas rester dans la pure réflexion
théorique, nous proposons de faire une exploration linguistique de l’écriture
universitaire. Que nous apporte l’étude des catégories grammaticales, des
signes de ponctuation, de la longueur de la phrase, par exemple, dans
l’analyse des textes ? Nous partirons, pour cela, d’une phrase de F. Rastier,
252
Driss Ablali
qui dit qu’« aucun texte n’est écrit seulement “dans une langue” : il est écrit
dans un genre et au sein d’un discours, en tenant compte évidemment des
contraintes d’une langue.» (Rastier 2006 : 7). A cet égard, une remarque
s’impose. Il s’agit d’aller au-delà de l’identité morpho-syntaxique des
formes linguistiques pour voir si leur insertion dans un genre précis infléchit
ou pas leur sens : le rôle de l’impératif dans une recette de cuisine n’obéit
pas aux mêmes règles que celui du roman. On pourra aussi remarquer la
même chose sur le rôle de la ponctuation : quel est le rôle des trois points de
suspension dans un discours politique de l’extrême droite, et leur
signification dramaturgique dans le discours littéraire chez Racine ? Cette
interrogation pose clairement l’influence décisive du genre sur les formes
textuelles, d’où l’importance d’aller au-delà des formes pour voir s’il y a
des inflexions instituées par le genre ou pas.
Sur un corpus d’articles de revues universitaires de sept domaines en
sciences humaines, lemmatisé par Cordial 1 , nous essaierons d’explorer, à
l’aide du logiciel Hyperbase 2 dans sa version 6,5, les traits discriminants
permettant d’identifier les caractéristiques du genre de l’article universitaire
en sciences humaines : existe-t-il une identité morphosyntaxique du genre
de l’article scientifique qui résiste à la spécificité du domaine ? Existe-t-il
un style, des catégories grammaticales, des signes de ponctuation qui
caractérisent chaque domaine en sciences humaines, et qui définissent une
posture générique originale ? Avant d’entrer dans le vif du sujet, nous
voudrions d’abord insister sur le fait que nul ne peut contester la typologie
intuitive qui classe l’article scientifique dans le discours universitaire écrit,
à côté des autres genres comme le rapport de thèse ou le compte-rendu
critique. Mais derrière l’intuition, il faudra trouver comment le niveau du
discours scientifique institue des contraintes linguistiques sur le genre de
l’article, qu’il institue également sur le texte.
3. L’article scientifique comme genre
L’objectif de ce travail consiste à décrire les similitudes et les points de
divergence pour le même genre, l’article de recherche, au sein du discours
scientifique. A travers la comparaison de sept domaines parmi les plus
représentatifs des sciences humaines, (linguistique, littérature, philosophie,
sociologie, anthropologie, histoire et géographie), il s’agit d’examiner les
constantes et les variations entre les domaines étudiés, et d'identifier les
1. Des informations sur ce lemmatiseur sont à consulter à l’adresse suivante :
http://www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htm.
2. Des informations détaillées sur le logiciel Hyperbase sont disponibles à l’adresse suivante :
www.unice.fr/bcl.
Linguistique des genres. Exploration sur corpus
253
éléments fondamentaux de cette écriture que permettent d’observer les
méthodes exploratoires de données textuelles.
Le parcours que présente cet article, on l’aura compris, ne prétend pas à
l’objectivation : aucun des corpus utilisés ne peut prétendre représenter son
discours d’appartenance. L’essentiel est d’ouvrir un espace de
confrontations sur la question de la typologie dans le domaine de la
linguistique de corpus pour montrer que la caractérisation d’un genre ne
peut se fonder que sur corpus.
Le corpus compte 5. 656. 084 occurrences. Il comprend uniquement des
articles intégraux et non des extraits. Il se répartit sur sept discours dont la
réunion est justifiée par une proximité académique : leur appartenance au
domaine des sciences humaines. Ils partagent également le même espace
éditorial, ce sont tous des articles de recherche publiés dans des revues
universitaires, et vu la taille de ce corpus, on pense que l’on peut le
considérer comme un corpus de référence, un échantillon de la population
des sciences humaines, sans qu’il soit menacé ni par « random error » ou
« bias error », pour parler comme Biber, (1993 : 243). Le tableau ci-dessous
rend compte des caractéristiques de notre corpus :
Discours
Géographie
Sociologie
Littérature
Ethnologie
Philosophie
Histoire
Linguistique
Revues
Cybergéo
Les Cahiers de géographie du Québec
Criminologie
Sociologie et société
Recherches sociographiques
Enfances, familles, générations
Revue interdisciplinaire sur les textes
modernes
Etudes françaises
Etudes littéraires
Textes.
Anthropologie et société
Etudes inuit studies
Methodos
Philosophiques
Revue d’histoire du 19ème siècle
Revue d’histoire de l’Amérique
Les Cahiers d’histoire
Cahiers de praxématique
Recherches linguistique de Vincennes
Cahiers de linguistique française
Revue québécoise de linguistique
Figure n° 1: Le corpus
Occurrences
714.057
841.499
715.178
931.034
875.804
847.701
730.811
254
Driss Ablali
Le corpus est constitué de 700 articles, extraits de 21 revues
francophones de sciences humaines, publiées entre 1990 et 2007. Les textes
du corpus sont de taille comparable. Le graphique ci-dessous, réalisé avec
Hyperbase, permet de visualiser ces variations :
Figure n°2 : Étendue relative du corpus « sciences humaines »
La démarche contrastive adoptée ici peut être un moyen de pallier
l’absence de représentativité des corpus de discours : aucun des corpus
utilisés ne peut prétendre représenter son discours d’appartenance. Les
points de contraste offrent donc des indices précieux pour les caractériser et
les opposer avec des discours proches. La démarche contrastive a un second
versant : la mise à jour de points de proximité entre les corpus, qui
pourraient être des indices d’un éventuel noyau dur des sciences humaines.
Là encore, la réunion des sept corpus ne peut prétendre représenter les
sciences humaines – c’est au contraire une certaine proximité au sein de
celles-ci, qui garantit la pertinence de la méthode contrastive. En
questionnant les modalités grammaticales et syntaxiques du genre de
l’article scientifique en sciences humaines, le but est d’identifier un régime
singulier du genre de l’article pour confirmer ou infirmer l’influence des
discours sur les genres. Quelles en sont les caractéristiques et sous quelles
formes se manifestent-t-elles ? Interroger le même genre au sein de sept
corpus différents, c’est donc analyser les liens qu’il tisse entre morphologie
et syntaxe.
Linguistique des genres. Exploration sur corpus
255
4. La phrase scientifique
L’analyse de la manière dont sont agencés les mots et les signes de
ponctuation pour construire des phrases, des textes, des discours, ainsi que
l’examen de la distribution des catégories grammaticales, peuvent révéler
certaines caractéristiques de l’écriture d’un genre ou du style d’un auteur.
Hyperbase nous permet de calculer, grâce aux sorties statistiques de cordial,
la fréquence et la distribution des signes de ponctuation, que l’on peut
regrouper dans deux régimes : la ponctuation forte : le point, le point
d’exclamation, le point d’interrogation et les points de suspension, et la
ponctuation faible : la virgule, les deux points, les paires de parenthèses et
le point-virgule.
Afin d’explorer les spécificités de chaque domaine de notre corpus, une
première démarche consiste à comparer l'écart entre les sept domaines pour
chaque variable, en se basant sur les moyennes des valeurs des sept discours
constituant l’ensemble du corpus. Ici il s’agit de faire une exploration
morphosyntaxique du corpus pour voir la manière dont sont agencées les
phrases, ainsi que l’examen de la distribution quantitative des mots à
l’intérieur des segments, de la longueur des mots, tous rendus possibles par
la lemmatisation de Cordial. Ces recherches offrent la possibilité,
indépendamment du contenu lexical, de contraster la structure formelle des
textes afin de pouvoir comparer, au niveau endogène, les sept corpus en
sciences humaines. Les données morphosyntaxiques dont nous disposons
pour mener cette étude ont été produites par la société Synapse, à l'aide du
logiciel Cordial.
La longueur moyenne de la phrase s’obtient en divisant le nombre
d’occurrences du corpus par le nombre de ponctuations fortes. La division
des 5. 656. 084 occurrences de notre corpus par les 353.343 signes de
ponctuation forte permet ainsi d’établir la longueur moyenne de la phrase
du discours universitaire qui est de 16,00 3 mots par phrase.
3. Ici on peut rappeler quelques moyennes tirées du livre de M. Kastberg (2006) : Zola est
15.82 mots, Hugo 15 mots, Chateaubriand contenant 22.23 mots, Rousseau 27.71 mots, Le
Clézio qui est de 21.09 mots par phrase. La phrase la plus longue est évidemment celle de
Proust avec 30.9 mots.
Driss Ablali
256
Corpus
Littérature
Linguistique
Philosophie
Histoire
Sociologie
Ethnologie
Géographie
Nombre
d’occurrences
715.178
730.811
875.804
847.701
841.499
931.034
714.057
Ponctuation
forte
44782
45000
55082
53114
52202
57542
43807
Longueur moyenne
de la phrase
15,97
16,24
15,92
15,96
16,12
16,18
16,30
Figure n°3 : structure de la phrase.
L’étude de la longueur de la phrase à l’intérieur d’une œuvre ou d’un
corpus apporte des informations discriminantes. Nous constatons que la
phrase scientifique ne change pas beaucoup d’un corpus à l’autre, qu’il n’y
a aucune tendance disciplinaire. La longueur de la phrase dépend, en réalité,
surtout des discours et des genres. Ici, on le voit, la discipline n’a pas
d’influence considérable sur le rythme de la phrase, dès lors que le genre est
le même.
L’exploration du rythme du texte peut être envisagée aussi du côté de la
longueur du mot, qui peut être mesurée en comptant par exemple le nombre
de phonèmes, de lettres ou de syllabes. Mais comme dans la plupart des
travaux lexicométriques, nous nous appuierons sur le nombre de lettres par
mot. A ce propos E. Brunet 4 écrit que « en général, le volume d’un mot
n’est qu’un critère secondaire, auquel l’écrivain ne prête guère attention. Si
certains s’en préoccupent, c’est pour trouver le mot court, celui qui donne à
l’écriture concision et nervosité ». Lorsqu’on regarde les fréquences réelles,
entre la plus basse fréquence de la littérature, 4,58, et la plus haute, 5,03,
enregistrée par la géographie, l’écart n’est pas vraiment énorme :
Corpus
Littérature
Linguistique
Philosophie
Histoire
Sociologie
Ethnologie
Géographie
Moyenne de lettres par mot.
4,58
4,89
4,79
4,89
4,92
4,99
5,03
Figure n°4 : Moyenne de lettres par mot.
4. E. Brunet (1988 : 99).
Linguistique des genres. Exploration sur corpus
257
Malgré quelques changements, les moyennes mises au jour demeurent
(fort heureusement) stabilisées, ce qui valide – ou du moins n’infirme pas –
les axes d’organisation générique mis au jour par les résultats précédents.
Le genre de l’article résiste encore une fois à la diversité des domaines en
instituant des contraintes linguistiques sur le texte. Mais comme le genre
n’est pas un objet syntaxique, ni morphologique, mais un lieu de
contraintes, que la longueur des mots et des phrases ne suffit pas à elle seule
à caractériser, on va prendre en compte aussi les marques de ponctuation. A
cet égard, il est intéressant d’abord de noter que l’usage de la ponctuation
varie en fonction des genres et des discours : le point n’est pratiquement pas
employé sur les tchats, et la virgule y est relativement rare aussi,
contrairement au point d’interrogation qui reste le signe le plus dominant.
Comme on peut constater aussi que les trois points de suspension sont plus
rares dans l’écriture journalistique que dans le roman.
Et pour insister encore sur la dimension morphologique des genres,
décidément capitale dans la caractérisation des textes, nous remarquons
qu’une fréquence ou un pourcentage ne saurait devenir « caractéristique »
que contrastée avec un autre, donc par référence à un texte ou à des corpus
de la même étendue. C’est ce qu’on propose maintenant de faire en essayant
de caractériser le genre de l’article par rapport à d’autres genres et types de
discours, comme le Essais, le discours juridique et le roman sérieux.
Comme l’illustre le graphique suivant, qui rassemble les résultats obtenus à
partir des sorties de l’analyseur Cordial, les différences notables observées
entre les quatre corpus concernent les signes de ponctuation :
P.
E Po
P. xcla int
In m s
te at
i
r
P. rog on
Su at
sp ion
en
P. sio
n
De Virg
ux ule
po
i
Vi nts
Pa rg
re ule
nt s
Cr
hè
oc
se
he
s
ts Tir
‐A et
cc s
ol
...
60
50
40
30
20
10
0
ROMANS SERIEUX
ARTICLES
JURIDIQUE
ESSAIS
Figure n°5 : Répartition par genre en pourcentage des signes de ponctuation
258
Driss Ablali
Le tableau permet de faire la même observation que dans toutes les
autres études du même caractère : les plus grands effectifs dans les quatre
genres observés se trouvent du côté des points et des virgules, les signes les
plus discriminants pour l’article sont en effet ceux des parenthèses qui
enregistrent presque la même fréquence que les points. On remarquera
également la représentation significative des deux points, pour introduire
diverses catégories de segments, comme la citation, la définition ou
l’énumération. La structure argumentative et démonstrative de l’article
scientifique, dont la thèse constitue le parangon, en explique également la
haute fréquence. Cette constatation n’a rien d’étonnant, le chercheur écrit
pour répondre à une problématique, développe des hypothèses, qu’il
construit clairement dès l’introduction de son article avec des interrogations
soit directes, soit indirectes On constate également la fréquence élevée,
moins visibles sur le graphique, des tirets, crochets et accolades, indices de
la présence d’un métalangage et de marques de formalisation. C. Poudat,
dans sa thèse sur l’article linguistique, le confirme dans l’extrait suivant :
« L’article est en outre bien connu pour ses formalisations, qui requièrent
l’utilisation d’une sémiotique textuelle particulière impliquant l’usage de
ponctuations aussi spécifiques que les crochets et les accolades » (2006 :
140). Au sein de l’article il y a donc des homogénéités qui résistent aux
domaines, et qui émergent dès qu’on les contraste avec d’autres discours
comme éléments caractérisants du discours scientifique, d’où notre intérêt
pour la dimension lexicale de notre corpus.
5. Exploration lexicale
Quelles sont les caractéristiques thématiques de notre corpus ? Ce ne
sont pas les thèmes à proprement dit qui nous intéressent, mais plutôt leur
textualité. En d’autres termes, il s’agit de voir si derrière la spécificité
terminologique de chaque domaine, il existe un noyau dur au niveau lexical
qui maintient un équilibre global en présence de déséquilibres partiels
générés par chaque discipline. Nous avons cherché les items lexicaux
spécifiques de ce discours avec le recours au logiciel Hyperbase qui, de
façon très précise, permet d’analyser les spécificités des différents textes.
L’analyse des spécificités est une démarche classique, que le logiciel
accomplit en s'appuyant sur Frantext, et plus précisément sur le corpus du
XXe siècle ; elle permet, au niveau exogène, de mettre en relief les
spécificités lexicales de notre corpus. La liste ci-dessous donne à voir pour
chaque item répertorié, de gauche à droite, l’écart, mesurant la spécificité, le
nombre d’occurrences dans le corpus de référence, et sous la rubrique
« texte », le nombre d’occurrences dans le corpus faisant l’objet de notre
Linguistique des genres. Exploration sur corpus
259
recherche. Il est aisé de constater dans cette liste hiérarchique la présence de
mots caractérisant 5 le discours scientifique en tête de liste :
Écart
Corpus
626.30
585.39
579.24
450.12
356.72
347.26
328.82
296.44
276.11
262.60
261.08
257.04
237.33
237.11
222.33
203.18
201.09
200.38
187.87
186.63
184.30
183.93
182.05
181.00
180.45
178.91
178.73
177.87
177.43
175.47
173.00
175.47
40921
96
40245
120
513
142
69
121
660
469
248
339
389
166
866
73
138
538
528
535
979
323745
108
646
256
433
432
505
1227
390
1371
390
Texte
50558
2034
46765
1754
2920
1478
972
1166
2594
2071
1484
1716
1705
1100
2430
622
852
1715
1597
1598
2173
83832
682
1714
1054
1374
1371
1481
2367
1277
2455
1277
Mot
)
processus
(
canada
analyse
activités
sociologie
sartre
social
relation
structure
pratiques
sociales
sociaux
sociale
facteurs
représentation
théorie
notamment
données
culture
des
caractéristique
développement
sociétés
identité
sciences
université
texte
économique
recherche
économique
Écart
173.00
172.72
167.45
165.08
162.96
161.11
160.99
159.39
158.01
157.17
155.28
154.14
154.02
152.25
151.48
150.17
149.10
148.98
148.14
146.74
146.24
142.96
142.64
141.75
141.07
140.70
140.52
138.88
138.54
131.71
131.26
131.21
Corpus
1371
187
185
517
303
2281
2326
274
100
1049
108
777
119
399
308
206
810
813
179
224
115
474
131
140
550
1279768
1306
4038
2273
153
459
770
Texte
Mot
2455
859
829
1397
1043
3041
3072
969
571
1945
584
1626
609
1129
981
789
1612
1614
724
806
569
1165
594
611
1245
241744
1978
3694
2656
596
1057
1394
recherche
dimension
catégories
construction
interprétation
discours
rapport
définition
utilisation
permet
analyses
niveau
contraintes
production
poincaré
information
fonction
cadre
économiques
philosophique
médicaments
textes
mathématique
international
population
de
système
selon
espace
constituent
individus
notion
Figure n°6 : Vocabulaire spécifique du corpus
Nous trouvons d’un côté les mots qui structurent le travail, l’analyse et
la recherche scientifiques, avec des items comme analyse, activité,
structure, pratiques, théorie, développement, sciences, université, recherche
etc., et de l’autre les termes désignant l’objet du travail scientifique comme
sociologie, social, société, texte, économique, discours etc. Au niveau de la
ponctuation, des signes comme les parenthèses permettent de caractériser ce
genre d’écriture. Cette construction phrastique particulière est due à la
structure argumentative et démonstrative de l’article scientifique, dont la
5. Pour éviter certaines ambiguïtés nous nous basons dans cette analyse sur la forme graphique
et non sur le lemme.
260
Driss Ablali
thèse constitue le parangon. Cette économie de pensée est un principe
épistémologique résultant de processus cognitifs aussi importants que
l’objectivation et la rationalisation. Et comme le dit J.-M. Berthelot (2003 :
28) « La science réduit les dimensions du réel, résumé les expériences,
épure son vocabulaire ».
On peut constater que cette liste ne contient pas de verbe, ni même
d’adjectif ou d’adverbe. Il n’y a aucune articulation du discours : la phrase
semble constituée de substantifs juxtaposés. Il s’agit ici évidemment d’un
effet de genre textuel, reflété par la grande présence d’un discours
intellectuel, faisant appel au substantif. Cet intérêt prononcé pour le
substantif n’est pas fortuit, il détermine le recours aux candidats concepts
des différents domaines du corpus, comme il renvoie aux méthodologies
scientifiques à l’œuvre. On peut aussi noter que, comme l’auteur n’est pas
supposé se mettre en valeur de manière explicite, les adjectifs et les
adverbes qui renforcent et valorisent la première personne sont moins
présents dans la phrase scientifique.
Or, dans la liste ci-dessous nous trouvons les spécificités négatives,
c’est-à-dire les mots statistiquement sous-employés dans le corpus. Ici, nous
pouvons constater encore le même effet du genre avec un déficit important
de pronoms personnels, bien plus représentés dans le corpus de référence
que dans notre corpus. L’écriture scientifique emploie davantage de
pronoms personnels nous et on au détriment de la première personne
comme je, me, moi et mon. Le chercheur en effet n’écrit pas en tant que
sujet de la vie quotidienne, mais en tant que figure appartenant à un
domaine d’activité. On note aussi la même chose concernant les auxiliaires
à la première personne du singulier, ai, suis, nous, référant à la personne
privilégiée par l’auteur pour actualiser son discours et développer ses
hypothèses de recherche.
Notons au passage aussi le déficit des différents signes du dialogue
ainsi que du point, reflétant une autre caractéristique de ce discours : une
phrase longue et énumérative. Le déficit du point est compensé par
l’excédent de la virgule, ce qui permet également de confirmer la longueur
de la phrase scientifique. Ce discours est en effet caractérisé par des phrases
énumératives qui procèdent par accumulation, donnant au discours un
caractère parfois répétitif, à cause du peu de variété syntaxique et de
l’itération des mêmes structures. Ainsi, nous constatons que la phrase
scientifique ne change pas beaucoup d’un corpus à l’autre, qu’il n’y a
aucune tendance disciplinaire. La longueur de la phrase dépend, en réalité,
surtout du genre. Ici, pour le rappeler, c’est le même genre qui est en
question, mais dans des disciplines différentes. En d’autres termes, la
Linguistique des genres. Exploration sur corpus
261
discipline n’a pas d’influence considérable sur la ponctuation de la phrase,
dès lors que le genre est le même.
Quant à l’énumération, elle est liée aux objets étudiés, aux exemples
cités ainsi qu’aux ouvrages mentionnés. Cette énumération développe une
stratégie textuelle qui assure une gestion scientifique pour la lisibilité et
pour l’aspect démonstratif de l’article. Elle correspond à des normes de
nature prescriptive, qui réguleraient les pratiques d’écriture de l’article :
Écart
-226.94
-178.98
-159.10
-140.55
-139.96
-132.04
-127.43
-122.28
-116.64
-115.12
-113.62
-113.27
-108.69
-106.68
-106.35
-102.92
-100.29
-99.09
Corpus
396110
576485
171164
157060
141768
235834
148707
124605
89602
305816
147626
92788
267396
92692
300597
82020
79885
1652388
-89.65
-88.95
136791
58150
Texte
7169
35782
1652
3171
2010
11634
4270
2877
704
21951
6044
1311
19002
2010
23078
1519
1607
194888.
Mot
je
il
vous
j'
me
elle
était
avait
tu
pas
ui
m'
ne
ai
qu'
moi
mon
Écart
-88.70
-86.93
-82.97
-74.19
-72.94
-71.82
-71.78
-70.63
-67.54
-56.10
-65.02
-62.50
-62.08
-61.29
-61.18
-60.22
-58.28
-58.06
Corpus
72487
205106
55831
51679
62241
431159
41150
51596
115651
35823
103601
143578
157506
30000
31842
446799
97700
36888
Texte
2107
15894
1196
1558
2622
45949
842
1836
8691
1458
7661
12492
14175
614
775
50650
7760
1425
8170
883
tout
ça
-57.14
-56.38
90585
202774
7086
20479
Mot
dit
n'
ma
rien
là
que
suis
quand
sa
jamais
si
son
mais
yeux
mes
un
bien
puis
ses
se
Figure n°7 : Vocabulaire spécifique négative du corpus
6. De l’autonomie du lexique
Le logiciel permet également l’observation du vocabulaire spécifique
de chacun des sous-corpus, c’est-à-dire une comparaison endogène. Cette
spécificité est déterminée par le calcul de l’écart réduit pour chaque forme
dans chaque partie du corpus. Les textes sont comparés, les uns après les
autres, avec le corpus dans son ensemble. Ces comparaisons internes se
justifient facilement, puisque le corpus est expressément conçu pour mettre
en valeur les différences qui opposent les textes dans ce même ensemble.
S’il est homogène, le calcul relèvera, comme ici, toujours des écarts
intéressants.
Driss Ablali
262
Littérature
Linguistique
Philosophie
personnage
autobiographie
tournant
narrateur
autobiographique
autofiction
récit
écrire
roman
écriture
énoncé
linguistique
corpus
verbe
locuteur
dénomination
lexical
sémantique
syntaxique
exemple
Poincaré
mathématique
Kant
physique
géométrie
mathématique
texte
Descartes
science
Locke
Histoire
Sociologie
Ethnologie
Géographie
historien
révolution
histoire
siècle
Canada
Montréal
Québec
français
madawaska
républicain
sociologie
goût
couple
social
artiste
Bourdieu
parental
enfant
galerie
famille
médicament
anthropologie
maladie
autochtone
culture
communauté
anthropologue
musulman
islam
tuberculose
eau
quartier
échelle
spatial
mer
géographie
géographique
pôle
port
bungalow
Figure n°8 : Spécificités lexicales des sous-corpus
Les résultats sont très nets, les dix premiers mots reflètent parfaitement
le profil caractéristique de chaque domaine. Si l’on jette un coup d’œil sur
les spécificités lexicales de la « géographie », par exemple, on a des
lexèmes tels que : territoire, sud, eau, géographie, urbain, silicium, spatiale
et quartier. Le corpus « linguistique » est caractérisé par des mots comme
linguistique, corpus, langues, sémantique, dénomination, verbe, syntaxique
et phonologie, ce qui n’est pas très étonnant. En revanche, on se rend
compte facilement que la forme langue, objet pourtant intuitivement
premier de la linguistique, est détrônée par d’autres formes, comme énoncé,
corpus, verbe, et surtout exemple, qui montre clairement que l’exemple,
comme données attestées, reste l’objet de prédilection des linguistes. La
linguistique, qui vise à l’objectivation, s’intéresse en effet davantage à ses
observables qu’à d’éventuelles thématiques. Un autre fait, non des
moindres, à souligner concernant la philosophie, qui compte parmi ses dix
premiers mots, et contre toute attente, un lexème comme texte, auquel on
s’attendait en linguistique. Mais cela ne fait que confirmer l’idée que le
texte a encore du mal à s’imposer dans le giron de la linguistique, qui fait de
la phrase son principal cheval de bataille.
Avant d’aller plus loin dans notre exploration, regardons d’abord ce qui
lie et divise les sept domaines en fonction de leur lexique ; c’est donc par
l’analyse de la distance – ou connexion – lexicale, que nous nous proposons
de commencer cette partie de notre analyse.
L’analyse arborée 6 de la distance lexicale de notre corpus fait apparaître
immédiatement les spécificités du lexique scientifique.
6. La technique de l’analyse arborée élaborée par Xuan Luong permet de représenter les
résultats du calcul de la distance lexicale d’une façon différente. L’algorithme produit des
graphes qui rendent compte de la proximité, ou de l’éloignement des textes étudiés en une
Linguistique des genres. Exploration sur corpus
263
Figure n°9 : Analyse arborée de la distance lexicale des sous-corpus
Le calcul de la distance entre les vocabulaires des sept corpus vise en
effet à répondre à la question suivante : quels sont les textes les plus proches
et les plus éloignés du point de vue de leur contenu lexical et thématique ?
Les branches de l’arbre permettent de constater plusieurs regroupements de
textes et rend compte de la spécificité et la proximité, ou de l’éloignement
thématique, des textes. En bas de l’arbre, et sur la même branche, se
trouvent ensemble « philosophie », « linguistique » et « littérature ». Cette
réunion est justifiée par une proximité domaniale. En effet, les trois
disciplines partagent en grande partie le même univers lexical : l’étude du
sens et de la signification, de la subjectivité et du sujet, de l’homme et des
textes. Il s’agit d’un savoir totalisant une réflexion visant une interprétation
globale du monde, du langage et des œuvres. La proximité s’observe ainsi
sur fond d’un lexique partagé qui témoigne d’emprunts réciproques entre les
trois corpus. En haut de l’arbre, l’ethnologie et la sociologie sont attachées
également à une même branche : la connexion thématique entre les deux
seule représentation graphique, sous forme radiale. Le modèle de l’arbre est un graphe connexe
et sans circuit, et il est caractérisé par l’ensemble des distances entre ses éléments, la longueur
des branches représentant fidèlement la distance entre les textes. Par ailleurs, sa structure est
aussi importante, faisant apparaître l’ordre et la force des regroupements ou des oppositions
entre les différents éléments. L’avantage de cette technique par rapport à l’analyse factorielle,
est qu’on n’a plus à distinguer et à croiser des facteurs, dont chacun n’explique qu’une partie
de
la
variance.
L’analyse arborée permet également, grâce à la représentation par branches, d’éviter les
inconvénients du saut minimal, la technique employée dans les dendrogrammes.
264
Driss Ablali
corpus s’explique par la nature de l’objet d’étude qui concerne l'ensemble
des caractères sociaux et culturels des groupes humains. A la gauche de
l’arbre sur une autre branche se trouve, à l’écart des autres, la géographie.
Le discours du géographe, il faut le rappeler, est le seul qui ne puisse se
passer des graphiques. Ce qui signifie que l’étude de l'espace des sociétés,
ou de la dimension spatiale du social, c'est-à-dire la façon dont les sociétés
établissent les distances qui séparent leur composants (individus,
entreprises, États, ressources, etc.), a une autre assise, autre que lexicale. Ce
qui pourrait expliquer sa grande distance par rapport au lexique des autres
corpus. Quant au discours de l’historien dont l’objet est l’étude des faits et
des événements du passé, il développe également ses thématiques dans un
lexique et un vocabulaire à l’écart des autres. Les différents domaines
semblent en effet sensibles au lexique, qui les divise assez nettement, tout
comme les structures encadrantes semblent les réunir.
7. Conclusion
Les résultats proposés ici demandent à être testés plus largement : sur
d’autres corpus, en les contrastant avec d’autres genres du même discours,
et en mesurant d’autres paramètres. Dans son état actuel, l’exploration
morpho-lexicale nous a permis de voir le bien fondé des études sur corpus
dans l’observation des pratiques langagières, qui sont à même de donner
une représentation objective du sens en fonction des genres et des discours
dans lesquels le texte prend place. L’objectif de cette étude n’était pas de
dresser un parangon du genre de l’article scientifique. Car malgré cette
exploration, nous ne sommes pas encore en mesure d’esquisser une
véritable structure du genre. Elle n’avait pas non plus la prétention de traiter
de tous les aspects sous lesquels on pourrait définir ce genre. Mais elle aura
montré que l’insertion d’un genre dans un discours donné n’est pas sans
influence sur l’aspect morphosyntaxique et lexical du texte. Car le facteur
prédominant de ces divergences semble être celui du discours. En effet, le
profil morphosyntaxique qui émerge de nos différentes analyses est celui
d’une écriture qui exprime, en fonction de la situation des discours, à la fois
les spécificités et la diversité du genre. Un genre privilégiant une écriture
concise et technique, un style préférant les mots courts, les parenthèses, les
tirets et les accolades. L’exploration des sept corpus nous a permis
d’observer une plus grande intersection entre les textes, que l’on retrouve
aux niveaux morphosyntaxique et lexical. Il conviendra naturellement
d’approfondir et de préciser les observations mises à jour, en examinant
également les temps verbaux et les catégories grammaticales. C'est donc sur
une typologie des discours que se fondera une typologie des genres, à
travers laquelle nous pourrons regrouper et typer les textes loin des partages
Linguistique des genres. Exploration sur corpus
265
qui ne reposent sur l’intuition. Car une langue comme le français n’est pas
faite de phrases, mais de textes, de genres et de discours.
Références
Ablali, D. 2006. « Contribution de la lexicométrie à l’approche sémantique des
corpus. La forme “texte” dans un corpus des études littéraires »,
http://web.univ-bs.fr/corpus/jlc4/acteJLC2005_6_ablali.pdfLORIENT
Ablali, D. 2007. « Écrire en critique: exploration morpho-syntaxique sur corpus »,
Corpus en Lettres et Sciences sociales: des documents numériques à
l'interprétation, Rastier, F. et Ballabriga, M. (dir.). Toulouse, Presses
Universitaires de Toulouse Le Mirail, p. 207-214.
Ablali, D. (in press). « La fabrique de l’article scientifique en sciences humaines.
Exploration sur corpus », in Williams G. (éditeur) Les 5èmes journées de la
Linguistique du corpus, Rennes, Presses universitaires de Rennes.
Adam, J.-M. 2008 2005. La linguistique textuelle. Introduction à l’analyse textuelle
des discours, Paris, A. Colin, coll. Cursus.
Berthelot, J.-M. 2003. Figures du texte scientifique, Paris, PUF.
Biber, D. 1993. « Using register-diversified corpora for general language studies »,
in Computational Linguistics, 19(2), p. 243-258.
Brunet, E. 1988. Le vocabulaire de Victor Hugo, Paris-Genève, ChampionSlatkine.
Loiseau, S, Poudat, C. Ablali, D. 2006. « Exploration contrastive de trois corpus de
sciences humaines », Journées internationales d'analyse statistique des
données textuelles (JADT 2006), Besançon, Les cahiers de la MSH Ledoux,
p.631-642.
Kastberg Sjöblom, M. 2006. L’écriture de J.M.G. Le Clézio. Des mots aux thèmes.
Paris, Honoré Champion, 2006.
Maingueneau, D. 2004. « Retour sur une catégorie: le genre », Texte et discours :
catégories pour l’analyse, Adam, J.-M., J.-B. Grize, M. A. Bouacha, Dijon,
Editions Universitaires de Dijon, p.107-118.
Poudat, C. 2006. Étude contrastive de l'article scientifique de revue linguistique
dans une perspective d'analyse des genres, Thèse de Doctorat présentée et
soutenue le 20 juin 2006.
Rastier, F. 2001. Arts et sciences du texte, Paris, PUF.
Rastier, F. 2005. « Enjeux épistémologiques de la linguistique de corpus », G.
Williams (éd.). La Linguistique de corpus, Rennes : Presses Universitaires de
Rennes, p. 31-46.
Rastier, F. 2006. « Saussure au futur. Ecrits retrouvés et nouvelles réceptions.
Introduction à une relecture de Saussure », in La Linguistique, N.42, Paris,
PUF, p.3-18.