ABSTRACT In two corpora of approximately 10,000 words each in English and in French, around 3,500 NPs (1,700 in English and 1,800 in French) were manually labelled and inventoried according to several syntactic parameters, including...
moreABSTRACT In two corpora of approximately 10,000 words each in English and in French, around 3,500 NPs (1,700 in English and 1,800 in French) were manually labelled and inventoried according to several syntactic parameters, including qualification by attributive or predicative adjectives. During the inventory process it was observed that the number of occurrences of attributive adjectives was roughly 4 times greater than the number of predicative adjectives, and that the frequency of intensifiers was much higher among predicative adjectives compared to attributive adjectives (25-30% instead of 10%). Both of these tendencies were then studied on a larger scale using two corpora in English and French of around 5 million words each, tagged for part of speech using TreeTagger. Python regex formulae were developed to specifically target attributive and predicative occurrences, as well as certain intensifiers (“très”/“very”, “trop”/“too”, “si”/“so”, as well as comparative and superlative forms), and were used to inventory the corresponding types of occurrences in each tagged corpus for around 250 adjectival lexemes previously included in the manual inventories. The reliability of the results obtained by regex searches was evaluated by selecting 4 adjectives in English and 5 in French corresponding to the median number of occurrences in each corpus, and the median for each parameter under investigation (attributive and predicative occurrences, intensifiers, with a supplementary distinction in French between pre-nominal and post-nominal occurrences), which were then submitted to a new manual inventory, the results of which were then compared with the results obtained by regex formulae. The data were then used to calculate for each adjective its predisposition for attributive or predicative function and for intensification. The two indicators were then combined and submitted to a correlation test (Spearman's rank correlation test) which indicated a relatively strong correlation between the two (ρ=0.44 in English, 0.55 in French) with a very low null-hypothesis probability (p <0.01). The number of simultaneously graded and predicative occurrences was estimated for the most commonly predicative and degree modified adjectives and judged to be insufficient to account entirely for the correlation between predicative use and degree modification, which thus may be considered to involve both non-predicative graded occurrences, and non-graded predicative occurrences as well. A graphical representation of certain intuitively recognizable semantic families (e.g. adjectives of colour, emotion or disposition toward others) then showed that their members tend to share common predispositions in regard to predicative function and degree modification. One semantic family, adjectives of physical dimensions, however, was found to go against the general tendency, insofar as its members are both moderately to strongly predisposed to attributive function, and generally compatible with degree modification.
RÉSUMÉ Dans deux corpus en anglais et en français d'environ 10 000 mots chacun, quelque 3 500 SN (environ 1 700 en anglais et 1 800 en français) ont été étiquetés et inventoriés manuellement selon plusieurs paramètres syntaxiques, dont la qualification par des adjectifs épithètes ou attributs. Lors de ce travail de recensement, il a été observé, d'une part, que le nombre d'occurrences d'adjectifs épithètes dans chaque langue était environ 4 fois plus élevé que le nombre d'occurrences d'adjectifs attributs, et, d'autre part, que le taux de gradation était nettement plus élevé parmi les occurrences attributives (25-30 % au lieu de 10 %). Ensuite, ces deux tendances ont été étudiées à plus grande échelle dans deux corpus électroniques en anglais et en français d'environ 5 millions de mots chacun, étiquetés par catégories grammaticales avec le logiciel TreeTagger. Des expressions rationnelles en Python visant les fonctions syntaxiques d'épithète, d'attribut après « be » ou « être », ainsi que certaines marques de gradation (« très »/« very », « trop »/« too », « si »/« so », et les marques du comparatif/superlatif) ont été élaborées, et ont servi à inventorier dans les deux corpus électroniques les occurrences d'environ 250 lexèmes adjectivaux dans chaque langue recensés précédemment dans les deux corpus étiquetés manuellement. La fiabilité des résultats automatiques a été contrôlée en soumettant à un nouveau tri manuel 4 adjectifs en anglais et 5 adjectifs en français correspondant au nombre médian d'occurrences par corpus, et au nombre médian d'occurrences pour chacun des paramètres étudiés (épithète, attribut, gradation, avec une distinction supplémentaire en français entre les épithètes antéposées et postposées). À partir des données ainsi récoltées, la prédisposition de chaque lexème à une fonction ou à l'autre a été calculée, et la compatibilité avec la gradation a été évaluée en termes de pourcentage des occurrences graduées par rapport au nombre total d'occurrences dans chaque corpus. Ensuite ces deux indicateurs ont été croisés et soumis à un test de corrélation (test par rangs de valeur de Spearman) qui a révélé un coefficient de corrélation relativement important dans les deux langues (ρ=0.44 pour l'anglais, 0.55 pour le français, avec une probabilité de H0 <0.01) entre la compatibilité avec la gradation et la disponibilité à la fonction attributive. Le nombre d'occurrences simultanément attributives et graduées a été estimé pour les adjectifs les plus souvent gradués et les plus souvent attributifs, et a été jugé insuffisant à rendre compte de cette corrélation, qui concerne donc aussi bien les occurrences graduées non-attributives que les occurrences attributives non-graduées. La représentation graphique de certaines familles sémantiques (entre autres les adjectifs de couleur, d'émotion ou de disposition à l'égard d'autrui) a montré que celles-ci ont tendance à partager les mêmes prédispositions en termes de compatibilité ou d'incompatibilité avec l'attribution et la gradation. En revanche, les adjectifs de dimension physique font exception à la tendance générale, étant à la fois prédisposés à la fonction épithète, et plutôt compatibles avec la gradation.