Linguistique des genres sur corpus

Driss Ablali

Driss ABLALI LASELDI, Université de Franche-Comté Linguistique des genres. Exploration sur corpus 1. Introduction Évoquer la question des genres, c’est nécessairement s’installer dans la pluralité des disciplines et des points de vue. Comme nous ne prétendons pas ici en faire l’histoire, ni lui trouver une solution, nous voudrions souligner, d’entrée de jeu, que la rencontre, dans le titre de cette contribution, entre le deux substantifs « linguistique » et « genres », ne se fait pas encore dans le giron des sciences du langage dans des conditions pleinement euphoriques. Il existe bien, c’est entendu, une réflexion linguistique sur les genres textuels, mais elle a encore du mal à s’imposer sur le devant de la scène des recherches linguistiques. On imagine bien que ce n’est pas la seule : la question du genre a pendant longtemps fait l’objet des questions les plus commentées dans les théories littéraires, alors que dans l’histoire des idées linguistiques, elle était jugée comme dénuée de sens pour la linguistique, restée cantonnée pendant longtemps à observer l’étude du phonème, du morphème et du syntagme. Autre aspect du problème, que nous ne faisons également que signaler : les linguistes, jugeant la phrase comme palier infranchissable, considéraient la question de savoir ce qu’est un genre textuel revenait en fait à se demander ce qu’est la littérature. Il faut toutefois apporter à cette affirmation légèrement pessimiste quelque tempérament : la linguistique ne peut plus ignorer la question des genres, et un déplacement de l’attention des exemples artificiels vers les textes devient imminent. Franchir le seuil de la phrase revient à établir des lois de corrélation entre la langue et le discours dans le cadre d’une description linguistique des genres textuels. La question à laquelle nous essaierons de répondre est la suivante : dans quelle mesure la linguistique renouvelle-t-elle l’approche des genres textuels ? Sur quels critères peut-on solidement fonder les catégories génériques, et à quel niveau de l'analyse se placent-elles ? En somme, que doit-on faire pour entrer dans la définition linguistique d'un genre, et comment peut-on justifier, sinon prouver, son existence comme une unité qui ne soit plus liée à l'intuition ? Comme le dit clairement D. Maingueneau, « il s’agit d’appréhender dans un même espace toutes les formes de généricité, de refuser les partages qui ne reposent que sur des habitudes ». (2004 : 118). Driss Ablali 250 Nous adopterons pour avancer ces propositions, un point de vue résolument épistémologique, ancré dans la réflexion de la sémantique interprétative de F. Rastier. Après quelques mots sur la question des genres pour situer épistémologiquement notre propos, on essaiera de décrire, dans la première partie de cette exploration, la caractérisation formelle du genre de l’article de recherche. Dans une perspective linguistique et avec des outils lexicométriques, il s’agit de voir si le discours universitaire s’institue à travers des écarts, que ménagent et symbolisent le philosophe, le linguiste et l’historien, etc., ou bien aucun d’eux ne saurait s’abstraire de l’ensemble qui est les sciences humaines. Existe-t-il une identité morphosyntaxique du genre de l’article scientifique universitaire qui transcende l’hétérogénéité des disciplines ? Existe-t-il des signes de ponctuation qui caractérisent chaque domaine en sciences humaines, et qui définissent une posture discursive originale ? La deuxième partie sera consacrée au niveau lexical, avec comme pour objectif l’examen des constantes et des variations entre sept disciplines différentes au sein du même genre, afin d'identifier les éléments fondamentaux de l'écriture pour ce dernier. Notre propos ne vise pas tant à classer qu'à étudier, à partir de l’article de recherche, ce qui peut rapprocher diverses disciplines appartenant à la même configuration académique. 2. Morphologie du genre Tout texte s’inscrit dans un genre dont les normes le contraignent absolument. Dans les théories littéraires, voici par exemple quelques définitions des genres littéraires : - Confessions : racontant sa vie, l'auteur peut avouer ses erreurs et chercher à les justifier - Journal intime : l'auteur confie au jour le jour à ses carnets anecdotes et réflexions. - On appelle roman un texte en prose ou en vers écrit en langue romane (Le roman de la Rose, Le Roman de Renart). Dès le XVI° siècle, il désigne un récit en prose d'aventures imaginaires. Le genre romanesque, après avoir été longtemps considéré comme inférieur parce qu'il était lu de préférence dans la classe bourgeoise, arrive à son apogée avec elle au XIX° siècle. Il est depuis lors un genre protéiforme, où se sont accomplies toutes les expériences. - Le haïku est un petit poème composé de trois vers respectivement de 5, 7 et 5 syllabes. Il comporte toujours une référence à la nature. Il exprime une sensation ténue, une impression ineffable, il rend compte d'une sorte d'illumination, d'étonnement éprouvé par le poète Linguistique des genres. Exploration sur corpus 251 devant des choses communes, banales: le bruit de la pluie, le reflet de la lune dans l'étang, un objet, un animal, un marcheur solitaire, etc. On le voit : les définitions données ci-dessus portent beaucoup plus sur le contenu que sur la forme. Elles sont axées sur l’intention du texte et sur son type d'organisation. Or un genre est un ensemble de caractéristiques de fond et de forme qui assurent à une production textuelle un certain type de décodage. Il convient avant de poursuivre de rappeler qu’il est en réalité plusieurs moyens d'aborder le problème des genres textuels. Et la linguistique aussi a son mot à dire là-dessus. Les travaux de J.-M. Adam et de D. Maingueneau, comme les travaux de J.-P. Bronckart et de F. Rastier sont significatifs à cet égard. Différentes perspectives sont donc offertes pour l’étude des genres, car un genre peut être appréhendé sur différents niveaux, ce qui veut dire que son identité est toujours relative. Il serait peu pertinent de privilégier un niveau d’analyse linguistique particulier pour caractériser un genre dans son intégrité : un genre n’est pas un ancrageénonciatif déterminé, ni des prescriptions thématiques explicites, mais un lieu de contraintes, d’oppositions et de corrélations linguistiques entre fond et forme. Plusieurs approches ont en effet proposé d’adopter une unité, ou plus largement, une seule modalité de description du texte. L’une des voies possibles, quoiqu’elle reste l’une des moins aisées, consiste à dresser le portait-type d’un genre quelconque en regroupant plusieurs caractéristiques sous lesquelles les genres sont définissables : structure du paragraphe, formes de l’intertextualité, présence de l’énonciateur ou de l’auditoire, traits grammaticaux, signes de ponctuation, etc. C’est une demeure encore lointaine et difficile d’accès, mais malheureusement elle reste l’une des voies, pour ne pas dire la seule possible, qui permette de mettre sous le même toit des configurations de marques différentes pour caractériser un genre textuel, et d’apporter une moisson de détails curieux pour dégager peut-être une sorte de « koinè », faite d’un mélange assez étonnant et hybride entre syntaxe, lexique et style. L’objectif est d’éviter des définitions, qui n’ont d’autres justifications que des habitudes personnelles ou des découpages académiques. Par morphologie du genre, nous essaierons d’examiner les modalités grammaticales et syntaxiques sous lesquelles on pourrait esquisser les traits caractéristiques d’un genre précis. Pour ne pas rester dans la pure réflexion théorique, nous proposons de faire une exploration linguistique de l’écriture universitaire. Que nous apporte l’étude des catégories grammaticales, des signes de ponctuation, de la longueur de la phrase, par exemple, dans l’analyse des textes ? Nous partirons, pour cela, d’une phrase de F. Rastier, 252 Driss Ablali qui dit qu’« aucun texte n’est écrit seulement “dans une langue” : il est écrit dans un genre et au sein d’un discours, en tenant compte évidemment des contraintes d’une langue.» (Rastier 2006 : 7). A cet égard, une remarque s’impose. Il s’agit d’aller au-delà de l’identité morpho-syntaxique des formes linguistiques pour voir si leur insertion dans un genre précis infléchit ou pas leur sens : le rôle de l’impératif dans une recette de cuisine n’obéit pas aux mêmes règles que celui du roman. On pourra aussi remarquer la même chose sur le rôle de la ponctuation : quel est le rôle des trois points de suspension dans un discours politique de l’extrême droite, et leur signification dramaturgique dans le discours littéraire chez Racine ? Cette interrogation pose clairement l’influence décisive du genre sur les formes textuelles, d’où l’importance d’aller au-delà des formes pour voir s’il y a des inflexions instituées par le genre ou pas. Sur un corpus d’articles de revues universitaires de sept domaines en sciences humaines, lemmatisé par Cordial 1 , nous essaierons d’explorer, à l’aide du logiciel Hyperbase 2 dans sa version 6,5, les traits discriminants permettant d’identifier les caractéristiques du genre de l’article universitaire en sciences humaines : existe-t-il une identité morphosyntaxique du genre de l’article scientifique qui résiste à la spécificité du domaine ? Existe-t-il un style, des catégories grammaticales, des signes de ponctuation qui caractérisent chaque domaine en sciences humaines, et qui définissent une posture générique originale ? Avant d’entrer dans le vif du sujet, nous voudrions d’abord insister sur le fait que nul ne peut contester la typologie intuitive qui classe l’article scientifique dans le discours universitaire écrit, à côté des autres genres comme le rapport de thèse ou le compte-rendu critique. Mais derrière l’intuition, il faudra trouver comment le niveau du discours scientifique institue des contraintes linguistiques sur le genre de l’article, qu’il institue également sur le texte. 3. L’article scientifique comme genre L’objectif de ce travail consiste à décrire les similitudes et les points de divergence pour le même genre, l’article de recherche, au sein du discours scientifique. A travers la comparaison de sept domaines parmi les plus représentatifs des sciences humaines, (linguistique, littérature, philosophie, sociologie, anthropologie, histoire et géographie), il s’agit d’examiner les constantes et les variations entre les domaines étudiés, et d'identifier les 1. Des informations sur ce lemmatiseur sont à consulter à l’adresse suivante : http://www.synapse-fr.com/Cordial_Analyseur/Presentation_Cordial_Analyseur.htm. 2. Des informations détaillées sur le logiciel Hyperbase sont disponibles à l’adresse suivante : www.unice.fr/bcl. Linguistique des genres. Exploration sur corpus 253 éléments fondamentaux de cette écriture que permettent d’observer les méthodes exploratoires de données textuelles. Le parcours que présente cet article, on l’aura compris, ne prétend pas à l’objectivation : aucun des corpus utilisés ne peut prétendre représenter son discours d’appartenance. L’essentiel est d’ouvrir un espace de confrontations sur la question de la typologie dans le domaine de la linguistique de corpus pour montrer que la caractérisation d’un genre ne peut se fonder que sur corpus. Le corpus compte 5. 656. 084 occurrences. Il comprend uniquement des articles intégraux et non des extraits. Il se répartit sur sept discours dont la réunion est justifiée par une proximité académique : leur appartenance au domaine des sciences humaines. Ils partagent également le même espace éditorial, ce sont tous des articles de recherche publiés dans des revues universitaires, et vu la taille de ce corpus, on pense que l’on peut le considérer comme un corpus de référence, un échantillon de la population des sciences humaines, sans qu’il soit menacé ni par « random error » ou « bias error », pour parler comme Biber, (1993 : 243). Le tableau ci-dessous rend compte des caractéristiques de notre corpus : Discours Géographie Sociologie Littérature Ethnologie Philosophie Histoire Linguistique Revues Cybergéo Les Cahiers de géographie du Québec Criminologie Sociologie et société Recherches sociographiques Enfances, familles, générations Revue interdisciplinaire sur les textes modernes Etudes françaises Etudes littéraires Textes. Anthropologie et société Etudes inuit studies Methodos Philosophiques Revue d’histoire du 19ème siècle Revue d’histoire de l’Amérique Les Cahiers d’histoire Cahiers de praxématique Recherches linguistique de Vincennes Cahiers de linguistique française Revue québécoise de linguistique Figure n° 1: Le corpus Occurrences 714.057 841.499 715.178 931.034 875.804 847.701 730.811 254 Driss Ablali Le corpus est constitué de 700 articles, extraits de 21 revues francophones de sciences humaines, publiées entre 1990 et 2007. Les textes du corpus sont de taille comparable. Le graphique ci-dessous, réalisé avec Hyperbase, permet de visualiser ces variations : Figure n°2 : Étendue relative du corpus « sciences humaines » La démarche contrastive adoptée ici peut être un moyen de pallier l’absence de représentativité des corpus de discours : aucun des corpus utilisés ne peut prétendre représenter son discours d’appartenance. Les points de contraste offrent donc des indices précieux pour les caractériser et les opposer avec des discours proches. La démarche contrastive a un second versant : la mise à jour de points de proximité entre les corpus, qui pourraient être des indices d’un éventuel noyau dur des sciences humaines. Là encore, la réunion des sept corpus ne peut prétendre représenter les sciences humaines – c’est au contraire une certaine proximité au sein de celles-ci, qui garantit la pertinence de la méthode contrastive. En questionnant les modalités grammaticales et syntaxiques du genre de l’article scientifique en sciences humaines, le but est d’identifier un régime singulier du genre de l’article pour confirmer ou infirmer l’influence des discours sur les genres. Quelles en sont les caractéristiques et sous quelles formes se manifestent-t-elles ? Interroger le même genre au sein de sept corpus différents, c’est donc analyser les liens qu’il tisse entre morphologie et syntaxe. Linguistique des genres. Exploration sur corpus 255 4. La phrase scientifique L’analyse de la manière dont sont agencés les mots et les signes de ponctuation pour construire des phrases, des textes, des discours, ainsi que l’examen de la distribution des catégories grammaticales, peuvent révéler certaines caractéristiques de l’écriture d’un genre ou du style d’un auteur. Hyperbase nous permet de calculer, grâce aux sorties statistiques de cordial, la fréquence et la distribution des signes de ponctuation, que l’on peut regrouper dans deux régimes : la ponctuation forte : le point, le point d’exclamation, le point d’interrogation et les points de suspension, et la ponctuation faible : la virgule, les deux points, les paires de parenthèses et le point-virgule. Afin d’explorer les spécificités de chaque domaine de notre corpus, une première démarche consiste à comparer l'écart entre les sept domaines pour chaque variable, en se basant sur les moyennes des valeurs des sept discours constituant l’ensemble du corpus. Ici il s’agit de faire une exploration morphosyntaxique du corpus pour voir la manière dont sont agencées les phrases, ainsi que l’examen de la distribution quantitative des mots à l’intérieur des segments, de la longueur des mots, tous rendus possibles par la lemmatisation de Cordial. Ces recherches offrent la possibilité, indépendamment du contenu lexical, de contraster la structure formelle des textes afin de pouvoir comparer, au niveau endogène, les sept corpus en sciences humaines. Les données morphosyntaxiques dont nous disposons pour mener cette étude ont été produites par la société Synapse, à l'aide du logiciel Cordial. La longueur moyenne de la phrase s’obtient en divisant le nombre d’occurrences du corpus par le nombre de ponctuations fortes. La division des 5. 656. 084 occurrences de notre corpus par les 353.343 signes de ponctuation forte permet ainsi d’établir la longueur moyenne de la phrase du discours universitaire qui est de 16,00 3 mots par phrase. 3. Ici on peut rappeler quelques moyennes tirées du livre de M. Kastberg (2006) : Zola est 15.82 mots, Hugo 15 mots, Chateaubriand contenant 22.23 mots, Rousseau 27.71 mots, Le Clézio qui est de 21.09 mots par phrase. La phrase la plus longue est évidemment celle de Proust avec 30.9 mots. Driss Ablali 256 Corpus Littérature Linguistique Philosophie Histoire Sociologie Ethnologie Géographie Nombre d’occurrences 715.178 730.811 875.804 847.701 841.499 931.034 714.057 Ponctuation forte 44782 45000 55082 53114 52202 57542 43807 Longueur moyenne de la phrase 15,97 16,24 15,92 15,96 16,12 16,18 16,30 Figure n°3 : structure de la phrase. L’étude de la longueur de la phrase à l’intérieur d’une œuvre ou d’un corpus apporte des informations discriminantes. Nous constatons que la phrase scientifique ne change pas beaucoup d’un corpus à l’autre, qu’il n’y a aucune tendance disciplinaire. La longueur de la phrase dépend, en réalité, surtout des discours et des genres. Ici, on le voit, la discipline n’a pas d’influence considérable sur le rythme de la phrase, dès lors que le genre est le même. L’exploration du rythme du texte peut être envisagée aussi du côté de la longueur du mot, qui peut être mesurée en comptant par exemple le nombre de phonèmes, de lettres ou de syllabes. Mais comme dans la plupart des travaux lexicométriques, nous nous appuierons sur le nombre de lettres par mot. A ce propos E. Brunet 4 écrit que « en général, le volume d’un mot n’est qu’un critère secondaire, auquel l’écrivain ne prête guère attention. Si certains s’en préoccupent, c’est pour trouver le mot court, celui qui donne à l’écriture concision et nervosité ». Lorsqu’on regarde les fréquences réelles, entre la plus basse fréquence de la littérature, 4,58, et la plus haute, 5,03, enregistrée par la géographie, l’écart n’est pas vraiment énorme : Corpus Littérature Linguistique Philosophie Histoire Sociologie Ethnologie Géographie Moyenne de lettres par mot. 4,58 4,89 4,79 4,89 4,92 4,99 5,03 Figure n°4 : Moyenne de lettres par mot. 4. E. Brunet (1988 : 99). Linguistique des genres. Exploration sur corpus 257 Malgré quelques changements, les moyennes mises au jour demeurent (fort heureusement) stabilisées, ce qui valide – ou du moins n’infirme pas – les axes d’organisation générique mis au jour par les résultats précédents. Le genre de l’article résiste encore une fois à la diversité des domaines en instituant des contraintes linguistiques sur le texte. Mais comme le genre n’est pas un objet syntaxique, ni morphologique, mais un lieu de contraintes, que la longueur des mots et des phrases ne suffit pas à elle seule à caractériser, on va prendre en compte aussi les marques de ponctuation. A cet égard, il est intéressant d’abord de noter que l’usage de la ponctuation varie en fonction des genres et des discours : le point n’est pratiquement pas employé sur les tchats, et la virgule y est relativement rare aussi, contrairement au point d’interrogation qui reste le signe le plus dominant. Comme on peut constater aussi que les trois points de suspension sont plus rares dans l’écriture journalistique que dans le roman. Et pour insister encore sur la dimension morphologique des genres, décidément capitale dans la caractérisation des textes, nous remarquons qu’une fréquence ou un pourcentage ne saurait devenir « caractéristique » que contrastée avec un autre, donc par référence à un texte ou à des corpus de la même étendue. C’est ce qu’on propose maintenant de faire en essayant de caractériser le genre de l’article par rapport à d’autres genres et types de discours, comme le Essais, le discours juridique et le roman sérieux. Comme l’illustre le graphique suivant, qui rassemble les résultats obtenus à partir des sorties de l’analyseur Cordial, les différences notables observées entre les quatre corpus concernent les signes de ponctuation : P. E Po P. xcla int In m s te at i r P. rog on Su at sp ion en P. sio n De Virg ux ule po i Vi nts Pa rg re ule nt s Cr hè oc se he s ts Tir ‐A et cc s ol ... 60 50 40 30 20 10 0 ROMANS SERIEUX ARTICLES JURIDIQUE ESSAIS Figure n°5 : Répartition par genre en pourcentage des signes de ponctuation 258 Driss Ablali Le tableau permet de faire la même observation que dans toutes les autres études du même caractère : les plus grands effectifs dans les quatre genres observés se trouvent du côté des points et des virgules, les signes les plus discriminants pour l’article sont en effet ceux des parenthèses qui enregistrent presque la même fréquence que les points. On remarquera également la représentation significative des deux points, pour introduire diverses catégories de segments, comme la citation, la définition ou l’énumération. La structure argumentative et démonstrative de l’article scientifique, dont la thèse constitue le parangon, en explique également la haute fréquence. Cette constatation n’a rien d’étonnant, le chercheur écrit pour répondre à une problématique, développe des hypothèses, qu’il construit clairement dès l’introduction de son article avec des interrogations soit directes, soit indirectes On constate également la fréquence élevée, moins visibles sur le graphique, des tirets, crochets et accolades, indices de la présence d’un métalangage et de marques de formalisation. C. Poudat, dans sa thèse sur l’article linguistique, le confirme dans l’extrait suivant : « L’article est en outre bien connu pour ses formalisations, qui requièrent l’utilisation d’une sémiotique textuelle particulière impliquant l’usage de ponctuations aussi spécifiques que les crochets et les accolades » (2006 : 140). Au sein de l’article il y a donc des homogénéités qui résistent aux domaines, et qui émergent dès qu’on les contraste avec d’autres discours comme éléments caractérisants du discours scientifique, d’où notre intérêt pour la dimension lexicale de notre corpus. 5. Exploration lexicale Quelles sont les caractéristiques thématiques de notre corpus ? Ce ne sont pas les thèmes à proprement dit qui nous intéressent, mais plutôt leur textualité. En d’autres termes, il s’agit de voir si derrière la spécificité terminologique de chaque domaine, il existe un noyau dur au niveau lexical qui maintient un équilibre global en présence de déséquilibres partiels générés par chaque discipline. Nous avons cherché les items lexicaux spécifiques de ce discours avec le recours au logiciel Hyperbase qui, de façon très précise, permet d’analyser les spécificités des différents textes. L’analyse des spécificités est une démarche classique, que le logiciel accomplit en s'appuyant sur Frantext, et plus précisément sur le corpus du XXe siècle ; elle permet, au niveau exogène, de mettre en relief les spécificités lexicales de notre corpus. La liste ci-dessous donne à voir pour chaque item répertorié, de gauche à droite, l’écart, mesurant la spécificité, le nombre d’occurrences dans le corpus de référence, et sous la rubrique « texte », le nombre d’occurrences dans le corpus faisant l’objet de notre Linguistique des genres. Exploration sur corpus 259 recherche. Il est aisé de constater dans cette liste hiérarchique la présence de mots caractérisant 5 le discours scientifique en tête de liste : Écart Corpus 626.30 585.39 579.24 450.12 356.72 347.26 328.82 296.44 276.11 262.60 261.08 257.04 237.33 237.11 222.33 203.18 201.09 200.38 187.87 186.63 184.30 183.93 182.05 181.00 180.45 178.91 178.73 177.87 177.43 175.47 173.00 175.47 40921 96 40245 120 513 142 69 121 660 469 248 339 389 166 866 73 138 538 528 535 979 323745 108 646 256 433 432 505 1227 390 1371 390 Texte 50558 2034 46765 1754 2920 1478 972 1166 2594 2071 1484 1716 1705 1100 2430 622 852 1715 1597 1598 2173 83832 682 1714 1054 1374 1371 1481 2367 1277 2455 1277 Mot ) processus ( canada analyse activités sociologie sartre social relation structure pratiques sociales sociaux sociale facteurs représentation théorie notamment données culture des caractéristique développement sociétés identité sciences université texte économique recherche économique Écart 173.00 172.72 167.45 165.08 162.96 161.11 160.99 159.39 158.01 157.17 155.28 154.14 154.02 152.25 151.48 150.17 149.10 148.98 148.14 146.74 146.24 142.96 142.64 141.75 141.07 140.70 140.52 138.88 138.54 131.71 131.26 131.21 Corpus 1371 187 185 517 303 2281 2326 274 100 1049 108 777 119 399 308 206 810 813 179 224 115 474 131 140 550 1279768 1306 4038 2273 153 459 770 Texte Mot 2455 859 829 1397 1043 3041 3072 969 571 1945 584 1626 609 1129 981 789 1612 1614 724 806 569 1165 594 611 1245 241744 1978 3694 2656 596 1057 1394 recherche dimension catégories construction interprétation discours rapport définition utilisation permet analyses niveau contraintes production poincaré information fonction cadre économiques philosophique médicaments textes mathématique international population de système selon espace constituent individus notion Figure n°6 : Vocabulaire spécifique du corpus Nous trouvons d’un côté les mots qui structurent le travail, l’analyse et la recherche scientifiques, avec des items comme analyse, activité, structure, pratiques, théorie, développement, sciences, université, recherche etc., et de l’autre les termes désignant l’objet du travail scientifique comme sociologie, social, société, texte, économique, discours etc. Au niveau de la ponctuation, des signes comme les parenthèses permettent de caractériser ce genre d’écriture. Cette construction phrastique particulière est due à la structure argumentative et démonstrative de l’article scientifique, dont la 5. Pour éviter certaines ambiguïtés nous nous basons dans cette analyse sur la forme graphique et non sur le lemme. 260 Driss Ablali thèse constitue le parangon. Cette économie de pensée est un principe épistémologique résultant de processus cognitifs aussi importants que l’objectivation et la rationalisation. Et comme le dit J.-M. Berthelot (2003 : 28) « La science réduit les dimensions du réel, résumé les expériences, épure son vocabulaire ». On peut constater que cette liste ne contient pas de verbe, ni même d’adjectif ou d’adverbe. Il n’y a aucune articulation du discours : la phrase semble constituée de substantifs juxtaposés. Il s’agit ici évidemment d’un effet de genre textuel, reflété par la grande présence d’un discours intellectuel, faisant appel au substantif. Cet intérêt prononcé pour le substantif n’est pas fortuit, il détermine le recours aux candidats concepts des différents domaines du corpus, comme il renvoie aux méthodologies scientifiques à l’œuvre. On peut aussi noter que, comme l’auteur n’est pas supposé se mettre en valeur de manière explicite, les adjectifs et les adverbes qui renforcent et valorisent la première personne sont moins présents dans la phrase scientifique. Or, dans la liste ci-dessous nous trouvons les spécificités négatives, c’est-à-dire les mots statistiquement sous-employés dans le corpus. Ici, nous pouvons constater encore le même effet du genre avec un déficit important de pronoms personnels, bien plus représentés dans le corpus de référence que dans notre corpus. L’écriture scientifique emploie davantage de pronoms personnels nous et on au détriment de la première personne comme je, me, moi et mon. Le chercheur en effet n’écrit pas en tant que sujet de la vie quotidienne, mais en tant que figure appartenant à un domaine d’activité. On note aussi la même chose concernant les auxiliaires à la première personne du singulier, ai, suis, nous, référant à la personne privilégiée par l’auteur pour actualiser son discours et développer ses hypothèses de recherche. Notons au passage aussi le déficit des différents signes du dialogue ainsi que du point, reflétant une autre caractéristique de ce discours : une phrase longue et énumérative. Le déficit du point est compensé par l’excédent de la virgule, ce qui permet également de confirmer la longueur de la phrase scientifique. Ce discours est en effet caractérisé par des phrases énumératives qui procèdent par accumulation, donnant au discours un caractère parfois répétitif, à cause du peu de variété syntaxique et de l’itération des mêmes structures. Ainsi, nous constatons que la phrase scientifique ne change pas beaucoup d’un corpus à l’autre, qu’il n’y a aucune tendance disciplinaire. La longueur de la phrase dépend, en réalité, surtout du genre. Ici, pour le rappeler, c’est le même genre qui est en question, mais dans des disciplines différentes. En d’autres termes, la Linguistique des genres. Exploration sur corpus 261 discipline n’a pas d’influence considérable sur la ponctuation de la phrase, dès lors que le genre est le même. Quant à l’énumération, elle est liée aux objets étudiés, aux exemples cités ainsi qu’aux ouvrages mentionnés. Cette énumération développe une stratégie textuelle qui assure une gestion scientifique pour la lisibilité et pour l’aspect démonstratif de l’article. Elle correspond à des normes de nature prescriptive, qui réguleraient les pratiques d’écriture de l’article : Écart -226.94 -178.98 -159.10 -140.55 -139.96 -132.04 -127.43 -122.28 -116.64 -115.12 -113.62 -113.27 -108.69 -106.68 -106.35 -102.92 -100.29 -99.09 Corpus 396110 576485 171164 157060 141768 235834 148707 124605 89602 305816 147626 92788 267396 92692 300597 82020 79885 1652388 -89.65 -88.95 136791 58150 Texte 7169 35782 1652 3171 2010 11634 4270 2877 704 21951 6044 1311 19002 2010 23078 1519 1607 194888. Mot je il vous j' me elle était avait tu pas ui m' ne ai qu' moi mon Écart -88.70 -86.93 -82.97 -74.19 -72.94 -71.82 -71.78 -70.63 -67.54 -56.10 -65.02 -62.50 -62.08 -61.29 -61.18 -60.22 -58.28 -58.06 Corpus 72487 205106 55831 51679 62241 431159 41150 51596 115651 35823 103601 143578 157506 30000 31842 446799 97700 36888 Texte 2107 15894 1196 1558 2622 45949 842 1836 8691 1458 7661 12492 14175 614 775 50650 7760 1425 8170 883 tout ça -57.14 -56.38 90585 202774 7086 20479 Mot dit n' ma rien là que suis quand sa jamais si son mais yeux mes un bien puis ses se Figure n°7 : Vocabulaire spécifique négative du corpus 6. De l’autonomie du lexique Le logiciel permet également l’observation du vocabulaire spécifique de chacun des sous-corpus, c’est-à-dire une comparaison endogène. Cette spécificité est déterminée par le calcul de l’écart réduit pour chaque forme dans chaque partie du corpus. Les textes sont comparés, les uns après les autres, avec le corpus dans son ensemble. Ces comparaisons internes se justifient facilement, puisque le corpus est expressément conçu pour mettre en valeur les différences qui opposent les textes dans ce même ensemble. S’il est homogène, le calcul relèvera, comme ici, toujours des écarts intéressants. Driss Ablali 262 Littérature Linguistique Philosophie personnage autobiographie tournant narrateur autobiographique autofiction récit écrire roman écriture énoncé linguistique corpus verbe locuteur dénomination lexical sémantique syntaxique exemple Poincaré mathématique Kant physique géométrie mathématique texte Descartes science Locke Histoire Sociologie Ethnologie Géographie historien révolution histoire siècle Canada Montréal Québec français madawaska républicain sociologie goût couple social artiste Bourdieu parental enfant galerie famille médicament anthropologie maladie autochtone culture communauté anthropologue musulman islam tuberculose eau quartier échelle spatial mer géographie géographique pôle port bungalow Figure n°8 : Spécificités lexicales des sous-corpus Les résultats sont très nets, les dix premiers mots reflètent parfaitement le profil caractéristique de chaque domaine. Si l’on jette un coup d’œil sur les spécificités lexicales de la « géographie », par exemple, on a des lexèmes tels que : territoire, sud, eau, géographie, urbain, silicium, spatiale et quartier. Le corpus « linguistique » est caractérisé par des mots comme linguistique, corpus, langues, sémantique, dénomination, verbe, syntaxique et phonologie, ce qui n’est pas très étonnant. En revanche, on se rend compte facilement que la forme langue, objet pourtant intuitivement premier de la linguistique, est détrônée par d’autres formes, comme énoncé, corpus, verbe, et surtout exemple, qui montre clairement que l’exemple, comme données attestées, reste l’objet de prédilection des linguistes. La linguistique, qui vise à l’objectivation, s’intéresse en effet davantage à ses observables qu’à d’éventuelles thématiques. Un autre fait, non des moindres, à souligner concernant la philosophie, qui compte parmi ses dix premiers mots, et contre toute attente, un lexème comme texte, auquel on s’attendait en linguistique. Mais cela ne fait que confirmer l’idée que le texte a encore du mal à s’imposer dans le giron de la linguistique, qui fait de la phrase son principal cheval de bataille. Avant d’aller plus loin dans notre exploration, regardons d’abord ce qui lie et divise les sept domaines en fonction de leur lexique ; c’est donc par l’analyse de la distance – ou connexion – lexicale, que nous nous proposons de commencer cette partie de notre analyse. L’analyse arborée 6 de la distance lexicale de notre corpus fait apparaître immédiatement les spécificités du lexique scientifique. 6. La technique de l’analyse arborée élaborée par Xuan Luong permet de représenter les résultats du calcul de la distance lexicale d’une façon différente. L’algorithme produit des graphes qui rendent compte de la proximité, ou de l’éloignement des textes étudiés en une Linguistique des genres. Exploration sur corpus 263 Figure n°9 : Analyse arborée de la distance lexicale des sous-corpus Le calcul de la distance entre les vocabulaires des sept corpus vise en effet à répondre à la question suivante : quels sont les textes les plus proches et les plus éloignés du point de vue de leur contenu lexical et thématique ? Les branches de l’arbre permettent de constater plusieurs regroupements de textes et rend compte de la spécificité et la proximité, ou de l’éloignement thématique, des textes. En bas de l’arbre, et sur la même branche, se trouvent ensemble « philosophie », « linguistique » et « littérature ». Cette réunion est justifiée par une proximité domaniale. En effet, les trois disciplines partagent en grande partie le même univers lexical : l’étude du sens et de la signification, de la subjectivité et du sujet, de l’homme et des textes. Il s’agit d’un savoir totalisant une réflexion visant une interprétation globale du monde, du langage et des œuvres. La proximité s’observe ainsi sur fond d’un lexique partagé qui témoigne d’emprunts réciproques entre les trois corpus. En haut de l’arbre, l’ethnologie et la sociologie sont attachées également à une même branche : la connexion thématique entre les deux seule représentation graphique, sous forme radiale. Le modèle de l’arbre est un graphe connexe et sans circuit, et il est caractérisé par l’ensemble des distances entre ses éléments, la longueur des branches représentant fidèlement la distance entre les textes. Par ailleurs, sa structure est aussi importante, faisant apparaître l’ordre et la force des regroupements ou des oppositions entre les différents éléments. L’avantage de cette technique par rapport à l’analyse factorielle, est qu’on n’a plus à distinguer et à croiser des facteurs, dont chacun n’explique qu’une partie de la variance. L’analyse arborée permet également, grâce à la représentation par branches, d’éviter les inconvénients du saut minimal, la technique employée dans les dendrogrammes. 264 Driss Ablali corpus s’explique par la nature de l’objet d’étude qui concerne l'ensemble des caractères sociaux et culturels des groupes humains. A la gauche de l’arbre sur une autre branche se trouve, à l’écart des autres, la géographie. Le discours du géographe, il faut le rappeler, est le seul qui ne puisse se passer des graphiques. Ce qui signifie que l’étude de l'espace des sociétés, ou de la dimension spatiale du social, c'est-à-dire la façon dont les sociétés établissent les distances qui séparent leur composants (individus, entreprises, États, ressources, etc.), a une autre assise, autre que lexicale. Ce qui pourrait expliquer sa grande distance par rapport au lexique des autres corpus. Quant au discours de l’historien dont l’objet est l’étude des faits et des événements du passé, il développe également ses thématiques dans un lexique et un vocabulaire à l’écart des autres. Les différents domaines semblent en effet sensibles au lexique, qui les divise assez nettement, tout comme les structures encadrantes semblent les réunir. 7. Conclusion Les résultats proposés ici demandent à être testés plus largement : sur d’autres corpus, en les contrastant avec d’autres genres du même discours, et en mesurant d’autres paramètres. Dans son état actuel, l’exploration morpho-lexicale nous a permis de voir le bien fondé des études sur corpus dans l’observation des pratiques langagières, qui sont à même de donner une représentation objective du sens en fonction des genres et des discours dans lesquels le texte prend place. L’objectif de cette étude n’était pas de dresser un parangon du genre de l’article scientifique. Car malgré cette exploration, nous ne sommes pas encore en mesure d’esquisser une véritable structure du genre. Elle n’avait pas non plus la prétention de traiter de tous les aspects sous lesquels on pourrait définir ce genre. Mais elle aura montré que l’insertion d’un genre dans un discours donné n’est pas sans influence sur l’aspect morphosyntaxique et lexical du texte. Car le facteur prédominant de ces divergences semble être celui du discours. En effet, le profil morphosyntaxique qui émerge de nos différentes analyses est celui d’une écriture qui exprime, en fonction de la situation des discours, à la fois les spécificités et la diversité du genre. Un genre privilégiant une écriture concise et technique, un style préférant les mots courts, les parenthèses, les tirets et les accolades. L’exploration des sept corpus nous a permis d’observer une plus grande intersection entre les textes, que l’on retrouve aux niveaux morphosyntaxique et lexical. Il conviendra naturellement d’approfondir et de préciser les observations mises à jour, en examinant également les temps verbaux et les catégories grammaticales. C'est donc sur une typologie des discours que se fondera une typologie des genres, à travers laquelle nous pourrons regrouper et typer les textes loin des partages Linguistique des genres. Exploration sur corpus 265 qui ne reposent sur l’intuition. Car une langue comme le français n’est pas faite de phrases, mais de textes, de genres et de discours. Références Ablali, D. 2006. « Contribution de la lexicométrie à l’approche sémantique des corpus. La forme “texte” dans un corpus des études littéraires », http://web.univ-bs.fr/corpus/jlc4/acteJLC2005_6_ablali.pdfLORIENT Ablali, D. 2007. « Écrire en critique: exploration morpho-syntaxique sur corpus », Corpus en Lettres et Sciences sociales: des documents numériques à l'interprétation, Rastier, F. et Ballabriga, M. (dir.). Toulouse, Presses Universitaires de Toulouse Le Mirail, p. 207-214. Ablali, D. (in press). « La fabrique de l’article scientifique en sciences humaines. Exploration sur corpus », in Williams G. (éditeur) Les 5èmes journées de la Linguistique du corpus, Rennes, Presses universitaires de Rennes. Adam, J.-M. 2008 2005. La linguistique textuelle. Introduction à l’analyse textuelle des discours, Paris, A. Colin, coll. Cursus. Berthelot, J.-M. 2003. Figures du texte scientifique, Paris, PUF. Biber, D. 1993. « Using register-diversified corpora for general language studies », in Computational Linguistics, 19(2), p. 243-258. Brunet, E. 1988. Le vocabulaire de Victor Hugo, Paris-Genève, ChampionSlatkine. Loiseau, S, Poudat, C. Ablali, D. 2006. « Exploration contrastive de trois corpus de sciences humaines », Journées internationales d'analyse statistique des données textuelles (JADT 2006), Besançon, Les cahiers de la MSH Ledoux, p.631-642. Kastberg Sjöblom, M. 2006. L’écriture de J.M.G. Le Clézio. Des mots aux thèmes. Paris, Honoré Champion, 2006. Maingueneau, D. 2004. « Retour sur une catégorie: le genre », Texte et discours : catégories pour l’analyse, Adam, J.-M., J.-B. Grize, M. A. Bouacha, Dijon, Editions Universitaires de Dijon, p.107-118. Poudat, C. 2006. Étude contrastive de l'article scientifique de revue linguistique dans une perspective d'analyse des genres, Thèse de Doctorat présentée et soutenue le 20 juin 2006. Rastier, F. 2001. Arts et sciences du texte, Paris, PUF. Rastier, F. 2005. « Enjeux épistémologiques de la linguistique de corpus », G. Williams (éd.). La Linguistique de corpus, Rennes : Presses Universitaires de Rennes, p. 31-46. Rastier, F. 2006. « Saussure au futur. Ecrits retrouvés et nouvelles réceptions. Introduction à une relecture de Saussure », in La Linguistique, N.42, Paris, PUF, p.3-18.

RELATED PAPERS

RELATED TOPICS

Log In

Linguistique des genres sur corpus

Linguistique des genres sur corpus

Related Papers

RELATED PAPERS

RELATED TOPICS