Ce volume réunit les contributions présentées lors du quatrième colloque de la Société française ... more Ce volume réunit les contributions présentées lors du quatrième colloque de la Société française des études japonaises, organisé à Paris en décembre 2000, dans des domaines aussi divers que la linguistique et l'économie, les arts, la littérature, l'histoire, la société, la pensée. Avec une même exigence les vingt-six chercheurs révèlent des facettes inconnues ou peu explorées de l'objet d'études que représente le Japon, approfondissant certaines questions considérées comme marginales et par là même démontrent leur importance, actualisent les faits du passé en renouvelant leur analyse. C'est ainsi que le recueil se clôt sur deux études de spécialistes renommés, Koyasu Nobukuni et James MacMullen, qui montrent tous deux l'actualité de la réflexion linguistique et littéraire chez Motoori Norinaga, le grand penseur du XVIIe siècle japonais.
Nous présentons un système de constitution de portail sur le cinéma et les sorties de films à par... more Nous présentons un système de constitution de portail sur le cinéma et les sorties de films à partir de sites spécialisés multilingues d'internet. L'expérience consiste à extraire, analyser et ré-exploiter des données et du vocabulaire acquis sur des sites spécialisés. Le système n'a aucune ressource au départ et doit donc les construire. La fouille de sites et l'analyse des pages nécessite une technique robuste. Les données extraites alimentent une base de données sur le cinéma. Le robot devineur alimente une base de données en recoupant les informations issues de plusieurs sites. L'interface permet l'interrogation dans plusieurs langues européennes, et la consultation des critiques dans la langue de l'utilisateur. L'ajout d'une langue se fait par ajout d'une collection de liens sur des sites spécialisés.
Data mining and text mining address the interactive and iterative knowledge discovery processes f... more Data mining and text mining address the interactive and iterative knowledge discovery processes from large databases and collections of texts. We meet such a challenge in classifying academic articles in English prior to copy editing. We classify a large corpus to discriminate well-written versus poorly-written academic articles in an English corpus. The aim is to inform computer-aided copy editing by focussing attention on poorly-written articles. We also wish to skip correct (i. e. with no mistake) segments and highlighting correct segments in these articles in order to save time. The training corpus includes forty academic articles written by authors who use English as first or second language with varying mastering of English in academic settings. We use pairs of articles allowing comparison between two successive versions, before and after human copy editing. The task is challenging, because correctness in style is difficult to define. This corpus of great interest requires an original text-mining method discovering rules from the linguistic corpus on correct and incorrect segments. The main feature presented here is the use of several different text segments, or textual measures, where stylistic mistakes or improper use can be detected at diffrent scales. Each text is thus divided into parts, sections, paragraphs and sentences, in order to circumscribe textual semantic units. Results stemmed from cross breeding between novel text-mining and textual linguistics approaches. The level-specification of forms and the top-down positional inheritance are essential to extract associations concluding on correct or incorrect segments. It would be hopeless to rely on words alone. Furthermore, owing to the large number of segments, efficient data mining tools are required. We use MVMiner, a prototype that is able to extract all associations in a data set above a frequency threshold. Associations are given in a special condensed representation allowing relevant rules characterising classes to be exhibited.
Citations I: Citer à travers les formes. Intersémiotique de la citation. A. Jaubert, J. M. López Muñoz, S. Marnette, L. Rosier and C. Stolz. Bruxelles, Harmattan Academia. 1: 261-279., 2011
Les forums sur Internet sont une nouvelle forme de communication écrite, la citation y est déclin... more Les forums sur Internet sont une nouvelle forme de communication écrite, la citation y est déclinée sous différentes formes. La citation d’extraits de discours d’un autre participant (ou de plusieurs autres) en cours de discussion, dite citation interactionnelle, et la citation de maximes ou aphorismes près de la signature, dite citation emblématique sont les plus connues. Des patrons discursifs sont perceptibles dans les forums, dès lors que l’on considère ces citations non plus comme des caractéristiques individuelles de messages, mais comme des marques exploitables à l’échelle de la discussion collective. Les citations en reprise sont cohésives à l’échelle de groupes de messages et par rapport au thème traité, tandis que les citations emblématiques sont des indicateurs des relations interpersonnelles à l’échelle du forum. La troisième forme de marque qui complète ce duo est la citation du problème, une citation d’énoncé selon Jakobson.
Ce volume réunit les contributions présentées lors du quatrième colloque de la Société française ... more Ce volume réunit les contributions présentées lors du quatrième colloque de la Société française des études japonaises, organisé à Paris en décembre 2000, dans des domaines aussi divers que la linguistique et l'économie, les arts, la littérature, l'histoire, la société, la pensée. Avec une même exigence les vingt-six chercheurs révèlent des facettes inconnues ou peu explorées de l'objet d'études que représente le Japon, approfondissant certaines questions considérées comme marginales et par là même démontrent leur importance, actualisent les faits du passé en renouvelant leur analyse. C'est ainsi que le recueil se clôt sur deux études de spécialistes renommés, Koyasu Nobukuni et James MacMullen, qui montrent tous deux l'actualité de la réflexion linguistique et littéraire chez Motoori Norinaga, le grand penseur du XVIIe siècle japonais.
Nous présentons un système de constitution de portail sur le cinéma et les sorties de films à par... more Nous présentons un système de constitution de portail sur le cinéma et les sorties de films à partir de sites spécialisés multilingues d'internet. L'expérience consiste à extraire, analyser et ré-exploiter des données et du vocabulaire acquis sur des sites spécialisés. Le système n'a aucune ressource au départ et doit donc les construire. La fouille de sites et l'analyse des pages nécessite une technique robuste. Les données extraites alimentent une base de données sur le cinéma. Le robot devineur alimente une base de données en recoupant les informations issues de plusieurs sites. L'interface permet l'interrogation dans plusieurs langues européennes, et la consultation des critiques dans la langue de l'utilisateur. L'ajout d'une langue se fait par ajout d'une collection de liens sur des sites spécialisés.
Data mining and text mining address the interactive and iterative knowledge discovery processes f... more Data mining and text mining address the interactive and iterative knowledge discovery processes from large databases and collections of texts. We meet such a challenge in classifying academic articles in English prior to copy editing. We classify a large corpus to discriminate well-written versus poorly-written academic articles in an English corpus. The aim is to inform computer-aided copy editing by focussing attention on poorly-written articles. We also wish to skip correct (i. e. with no mistake) segments and highlighting correct segments in these articles in order to save time. The training corpus includes forty academic articles written by authors who use English as first or second language with varying mastering of English in academic settings. We use pairs of articles allowing comparison between two successive versions, before and after human copy editing. The task is challenging, because correctness in style is difficult to define. This corpus of great interest requires an original text-mining method discovering rules from the linguistic corpus on correct and incorrect segments. The main feature presented here is the use of several different text segments, or textual measures, where stylistic mistakes or improper use can be detected at diffrent scales. Each text is thus divided into parts, sections, paragraphs and sentences, in order to circumscribe textual semantic units. Results stemmed from cross breeding between novel text-mining and textual linguistics approaches. The level-specification of forms and the top-down positional inheritance are essential to extract associations concluding on correct or incorrect segments. It would be hopeless to rely on words alone. Furthermore, owing to the large number of segments, efficient data mining tools are required. We use MVMiner, a prototype that is able to extract all associations in a data set above a frequency threshold. Associations are given in a special condensed representation allowing relevant rules characterising classes to be exhibited.
Citations I: Citer à travers les formes. Intersémiotique de la citation. A. Jaubert, J. M. López Muñoz, S. Marnette, L. Rosier and C. Stolz. Bruxelles, Harmattan Academia. 1: 261-279., 2011
Les forums sur Internet sont une nouvelle forme de communication écrite, la citation y est déclin... more Les forums sur Internet sont une nouvelle forme de communication écrite, la citation y est déclinée sous différentes formes. La citation d’extraits de discours d’un autre participant (ou de plusieurs autres) en cours de discussion, dite citation interactionnelle, et la citation de maximes ou aphorismes près de la signature, dite citation emblématique sont les plus connues. Des patrons discursifs sont perceptibles dans les forums, dès lors que l’on considère ces citations non plus comme des caractéristiques individuelles de messages, mais comme des marques exploitables à l’échelle de la discussion collective. Les citations en reprise sont cohésives à l’échelle de groupes de messages et par rapport au thème traité, tandis que les citations emblématiques sont des indicateurs des relations interpersonnelles à l’échelle du forum. La troisième forme de marque qui complète ce duo est la citation du problème, une citation d’énoncé selon Jakobson.
Le mémoire " Modélisation différentielle du texte, de la linguistique aux algorithmes " porte sur... more Le mémoire " Modélisation différentielle du texte, de la linguistique aux algorithmes " porte sur mon positionnement épistémologique et spécialement sur l'interface entre modélisation en linguistique théorique et modélisation en informatique. Dès le départ j'ai pris l'étude des corpus et le multilinguisme comme base de travail. Les méthodes utilisées se placent dans la filiation de l'école de Prague (Jakobson, mais aussi les informaticiens) et elles ont une parenté avec d'autres recherches au Japon et dans les pays nordiques. Alors que la plupart des travaux du TAL concernent la syntaxe ou le lexique, j'ai pris le point de vue de l'analyse du discours écrit dans son intégralité et d'un point de vue relationnel, endogène, pour trouver les moyens de traiter automatiquement des textes entiers et des corpus de textes. La première dimension originale est le multilinguisme conçu comme hypothèse normale de travail, et non comme nécessité de cumul de pratiques monolingues. La seconde dimension est l'angle de vision multi échelle, qui permet d'analyser les collections et les documents avec leur mise en forme matérielle, en repérant les marques qui structurent les textes indépendamment de la langue, en posant des observations sur les grains d'analyse pertinents. Le mémoire contient de nombreux exemples d'applications, décrits en profondeur, avec les enjeux, les techniques utilisées et des illustrations des résultats obtenus.
The "differential modeling of text, linguistic algorithms" memory is about my epistemological position and especially on the interface between modeling in theoretical linguistics and computer modeling. From the start I took the study of corpus and multilingualism as a working basis. The methods used are placed in the tradition of the Prague school (Jakobson, but also the computer) and have a relationship with other research in Japan and the Nordic countries. While most of the work of TAL concerning the syntax or vocabulary, I took the point of view of the analysis of the written speech in its entirety and a relational perspective, endogenous, to find ways of dealing automatically whole texts and text corpus. The first dimension is the original multilingualism designed as normal working hypothesis, not need rollup monolingual practices. The second dimension is the angle of multi-scale vision for analyzing collections and documents with their material formatting, identifying marks that structure texts regardless of language, asking for comments on the grains analysis relevant. The memory contains many examples of applications described in depth with the issues, techniques and illustrations of the results. (in French)
Peu d'études de discours adoptent une méthode tenant compte de l'examen des formes et de leur age... more Peu d'études de discours adoptent une méthode tenant compte de l'examen des formes et de leur agencement c'est-à-dire de la morpho-syntaxe, en dehors du cadre de la phrase. Il nous semble pourtant que l'organisation morpho-syntaxique est un fait de langue et non pas un fait de phrase. Nous avons adopté la démarche comparative pour étudier les formes dans le cadre du paragraphe. L'examen d'un corpus d'articles scientifiques en japonais et en français fournit un cadre de comparaison acceptable: la situation de communication est la même, l'objectif est reconnu comme étant le même, les langues diffèrent. Nous nous plaçons délibérément dans une optique distributionnaliste et examinons des unités typographiques, les paragraphes, dont la phrase est le segment minimal. Il s'agit d'observer si les phrases présentent ou non des caractéristiques formelles susceptibles de marquer des paragraphes. Nous observons si la répartition de ces marqueurs permet de dégager des classes de formes apparaissant en position stable, dégageant ainsi une structure.Nous observons l'agencement des segments marqués et non marqués, et proposons une grammaire descriptive ou ensemble de règles rendant compte de configurations attestées. Ceci permettra éventuellement de donner un sens aux relations séquentielles ou hiérarchiques observées et de formuler une grammaire prédictive. Pour des raisons de commodité, qui tiennent à la taille des exemples, et sont plus matérielles qu'épistémologiques, nous nous limiterons ici à présenter la morpho-syntaxe au niveau du paragraphe, sans supposer que ce soit le seul segment utile en morpho-syntaxe textuelle.
Les phrases nominales se trouvent dans tous les genres en japonais, et beaucoup plus fréquemment ... more Les phrases nominales se trouvent dans tous les genres en japonais, et beaucoup plus fréquemment qu'en français. Nous entendons par phrase nominale une phrase qui se distingue des autres parce qu'elle se termine par un nom au lieu d'un verbe ou d'un adjectif en fonction conclusive. Suzuki (1972) en fait une catégorie nommée meishi-bun. Pourtant, la plupart des linguistes japonais ne retiennent pas cette description pour constituer des types de phrases, car elle est peu valide en diachronie. Les phrases nominales ont diverses fonctions, phrases d'introduction mais aussi phrases de jugement (handan-bun) par exemple. Devant cette diversité, nous avons cherché à établir leur rôle en discours, à la frontière de la stylistique et de la grammaire de discours. Le genre journalistique fait l'objet de nombreux travaux. Les articles de journaux et les dépêches de presse en japonais sont intéressants à étudier car ce sont des textes courts, qui peuvent être comparés facilement dans différentes langues. Nous avons exploité principalement le site de presse Kyôdô en japonais et en anglais. La phrase nominale n'est pas une forme réservée au titre en japonais (si l'on donne au titre le statut de phrase). Les phrases nominales sont presque toujours utilisées dans le corps de texte, quel que soit le sujet traité et quelle que soit la longueur de l'article. Elles jouent un rôle important dans la structuration des ensembles thématiques, dans la vision japonaise du discours, mais aussi dans la constitution des plans, vision plus européenne. Nous envisageons ici l'emploi des phrases nominales comme un moyen de contraste, permettant la diathèse. D'autres langues ont à leur disposition d'autres variations pour la réaliser, par exemple la détermination des groupes nominaux ou l'emploi des temps composés ou de la voix pour les verbes. Nous étudierons successivement les contextes pour une ou quelques occurrences de phrases nominales, puis pour leur emploi massif ou absent dans la presse.
Qu'est-ce que la disposition? La disposition est à peu près l'équivalent de la construction, mais... more Qu'est-ce que la disposition? La disposition est à peu près l'équivalent de la construction, mais ce terme s'applique à un discours: un texte ou une grande unité linguistique, par exemple un article scientifique; alors que construction s'applique généralement à une proposition ou une petite unité linguistique. Ce qui nous intéressera ici est l'ordre des éléments d'une structure argumentée dans les articles académiques et la façon dont il sont marqués par des connecteurs de discours en fin ou début de partie.
Les forums se présentent comme une discussion écrite, dont le style est intermédiaire entre oral ... more Les forums se présentent comme une discussion écrite, dont le style est intermédiaire entre oral et écrit. Mais aussi comme une unité à plusieurs voix, donc comme dialogue (ou polylogue). Mais s'agit-il d'un ou de plusieurs textes, d'un document, d'un discours ou des discours? Les interventions pourraient-elles être prises comme un tout ? Les analyses de chat ou de forum basées sur le contenu ont pour but de rassembler les différents points abordés et de présenter les fils de discussion organisées thématiquement, dans le sens courant du terme, pour notre exemple les interventions concernant l'élaboration d'une charte, ou la formation des élèves (Clouet, 2004). Cette analyse est fondée principalement sur le lexique. D'autres approches mettent en valeur les interactions entre participants et les réseaux sociaux ou encore les interactions entre contenu et intervenants (Baker, 2004). Ces approches sont de type ascendant, elles consistent à relier des interventions entre elles et souvent d'abord deux à deux. Dans le souci d'apporter une vision complémentaire, nous avons étudié la structure globale du forum et l'élaboration collective d'un récit. L'approche est donc descendante.
Proceedings of the 4th Financial Narrative Processing Workshop @ LREC 2022, 2022
In this paper, we present our contribution to the FinTOC-2022 Shared Task “Financial Document Str... more In this paper, we present our contribution to the FinTOC-2022 Shared Task “Financial Document Structure Extraction”. We participated in the three tracks dedicated to English, French and Spanish document processing. Our main contribution consists in considering financial prospectus as a bundle of documents, i.e., a set of merged documents, each with their own layout and structure. Therefore, Document Layout and Structure Analysis (DLSA) first starts with the boundary detection of each document using general layout features. Then, the process applies inside each single document, taking advantage of the local properties. DLSA is achieved considering simultaneously text content, vectorial shapes and images embedded in the native PDF document. For the Title Detection task in English and French, we observed a significant improvement of the F-measures for Title Detection compared with those obtained during our previous participation.
Cet article présente une approche originale de la fouille de données textuelles, faisant coopérer... more Cet article présente une approche originale de la fouille de données textuelles, faisant coopérer des outils de fouille de textes et la linguistique de discours. Dans un premier temps, nous décrivons les marqueurs linguistiques établis pour la détection de l'absence et la présence de fautes de style dans des articles scientifiques en anglais. Ces marqueurs sont issus de connaissances et d'hypothèses linguistiques fortes, conduisant à une méthode plus élaborée que celles habituellement mises en place : cette approche souligne l'importance des positions relatives des marqueurs du texte alors que les techniques traditionnelles n'introduisent pas de critères positionnels. Elle met aussi en avant la nécessité de garder le contexte d'un marqueur textuel, nécessité patente dans notre cadre de détection de fautes. Dans un deuxième temps, l'article présente les techniques de recherche d'associations mises en oeuvre, toujours dans l'objectif de caractériser les fautes dans des articles scientifiques en anglais. Enfin, nous montrons les résultats obtenus par l'application de ces techniques à nos hypothèses linguistiques et nous montrons que celles-ci sont valides. L'article conclut sur l'apport des techniques de fouilles de textes pour des problèmes linguistiques et, simultanément, met en valeur les hypothèses linguistiques ainsi validées et leur apport dans ce domaine. MOTS-CLÉS : fouille de textes, linguistique textuelle, règles d'association, caractérisation de classes, détection de fautes d'anglais. Abstract : This paper presents an original text mining approach, mixing text mining techniques and text linguistics. First, we describe the linguistic markers designed for detecting mistakes in scientific papers in English. These markers come from sound linguistic knowledge and hypothesis, emphasizing the relative positions and the context of textual markers. Secondly, the paper explains the text mining methods and more precisely the techniques to extract associations and rules characterizing classes. Experiment results achieved by our approach show the usefulness of our linguistic hypothesis. The paper concludes on the text mining benefits for linguistic tasks.
This study aims at developing a news surveillance system able to address multilingual web corpora... more This study aims at developing a news surveillance system able to address multilingual web corpora. As an example of a domain where multilingual capacity is crucial, we focus on Epidemic Surveillance. This task necessitates worldwide coverage of news in order to detect new events as quickly as possible, anywhere, whatever the language it is rst reported in. In this study, text-genre is used rather than sentence analysis. The news-genre properties allow us to assess the thematic relevance of news, ltered with the help of a specialised lexicon that is automatically collected on Wikipedia. Afterwards, a more detailed analysis of text specic properties is applied to relevant documents to better characterize the epidemic event (i.e., which disease spreads where?). Results from 400 documents in each language demonstrate the interest of this multilingual approach with light resources. DAnIEL achieves an F1-measure score around 85%. Two issues are addressed: the rst is morphology rich languages, e.g. Greek, Polish and Russian as compared to English. The second is event location detection as related to disease detection. This system provides a reliable alternative to the generic IE architecture that is constrained by the lack of numerous components in many languages.
OBJECTIVE:
This paper presents a multilingual news surveillance system applied to tele-epidemiol... more OBJECTIVE:
This paper presents a multilingual news surveillance system applied to tele-epidemiology. It has been shown that multilingual approaches improve timeliness in detection of epidemic events across the globe, eliminating the wait for local news to be translated into major languages. We present here a system to extract epidemic events in potentially any language, provided a Wikipedia seed for common disease names exists. METHODS:
The Daniel system presented herein relies on properties that are common to news writing (the journalistic genre), the most useful being repetition and saliency. Wikipedia is used to screen common disease names to be matched with repeated characters strings. Language variations, such as declensions, are handled by processing text at the character-level, rather than at the word level. This additionally makes it possible to handle various writing systems in a similar fashion. MATERIAL:
As no multilingual ground truth existed to evaluate the Daniel system, we built a multilingual corpus from the Web, and collected annotations from native speakers of Chinese, English, Greek, Polish and Russian, with no connection or interest in the Daniel system. This data set is available online freely, and can be used for the evaluation of other event extraction systems. RESULTS:
Experiments for 5 languages out of 17 tested are detailed in this paper: Chinese, English, Greek, Polish and Russian. The Daniel system achieves an average F-measure of 82% in these 5 languages. It reaches 87% on BEcorpus, the state-of-the-art corpus in English, slightly below top-performing systems, which are tailored with numerous language-specific resources. The consistent performance of Daniel on multiple languages is an important contribution to the reactivity and the coverage of epidemiological event detection systems. CONCLUSIONS:
Most event extraction systems rely on extensive resources that are language-specific. While their sophistication induces excellent results (over 90% precision and recall), it restricts their coverage in terms of languages and geographic areas. In contrast, in order to detect epidemic events in any language, the Daniel system only requires a list of a few hundreds of disease names and locations, which can actually be acquired automatically. The system can perform consistently well on any language, with precision and recall around 82% on average, according to this paper's evaluation. Daniel's character-based approach is especially interesting for morphologically-rich and low-resourced languages. The lack of resources to be exploited and the state of the art string matching algorithms imply that Daniel can process thousands of documents per minute on a simple laptop. In the context of epidemic surveillance, reactivity and geographic coverage are of primary importance, since no one knows where the next event will strike, and therefore in what vernacular language it will first be reported. By being able to process any language, the Daniel system offers unique coverage for poorly endowed languages, and can complete state of the art techniques for major languages.
La norme ISO/CEI 10646 que l’on appelle couramment Unicode est passée assez discrètement dans les... more La norme ISO/CEI 10646 que l’on appelle couramment Unicode est passée assez discrètement dans les faits. Sa manifestation la plus claire est la possibilité de consulter des sites du monde entier, sans plus être pénalisé par l’incompatibilité des systèmes d’échange et d’affichage des données texte. Donner à voir des documents dans des graphies très diverses, ou « multiscript » mais aussi indexer, traiter l’information automatiquement est désormais possible. Face à ce progrès technique, les réactions sont plus ou moins rapides. Nous présentons ici un exemple de réalisation d’automate de collecte et traitement d’information à partir de documents multiscript, et évoquerons les difficultés ou réticences constatées par ailleurs.
Le standard d’usage couramment appelé Unicode, basé sur la norme ISO/CEI 10646 permet de traiter ... more Le standard d’usage couramment appelé Unicode, basé sur la norme ISO/CEI 10646 permet de traiter de façon unifiée les écritures codées sur deux octets, notamment les écritures idéographiques, un temps méprisées, Unihan, base d’idéogrammes, et le code de conversion UTF permettent l’échange d’information entre pays du monde sinisé mais aussi avec les autres zones culturelles. Le japonais représente un cas particulier, par la conjonction d’une histoire complexe de l’écriture et d’un savoir-faire technologique de pointe. L’intégration d’Unicode permet l’accès à des ressources documentaires de toute origine, indépendamment du codage, ainsi que leur traitement et stockage informatique. Une aubaine pour le Japon, qui cultive l’ouverture au monde.
This article tackle multilingual automatic alignment. Alignment refers to the process by which se... more This article tackle multilingual automatic alignment. Alignment refers to the process by which segments that are translation of one another are automatically matched. Instead of comparing only pairs of languages at sentence level, as it is usually done to conform to human process in translation, the computer is used here for its capacity to infer semantic alignment from a collection of texts that are translations of the same content. The corpus contains press releases from Europa, the European Community website, available in up to 23 languages. The alignment process takes advantage of frequency similarity between different linguistic versions of a document by computing matching features for each repeated string in all versions. This is done to find reliable anchors in the process of linking versions. The question of the best granularity is raised to bring out some semantic equivalences, when comparing two linguistic versions, character N-grams or word N-grams. The alignment systems are traditionally based on word N-grams splitting. The observation of the morphological variety of languages, even inside a single linguistic family, quickly shows that the word granularity is inadequate to provide a widely multilingual system, i.e. a language independent system able to handle flexional languages as well as positional languages. Instead, when starting from a multilingual collection to focus on pairs of texts,we defend that character N-grams alignment is more efficient than word N-grams alignment.
In information retrieval systems, the indexation task is usually conducted irrespective of the do... more In information retrieval systems, the indexation task is usually conducted irrespective of the document structure. We introduce here a module which allows preprocessing of documents prior to indexation techniques. It detects the physical lay-out of text and labels text zones, such as title and text-body. The method relies on pattern recognition and applies to a wide range of documents. This ensures the correct routing of selected parts of a document towards adequate tools for analysis. Examples of text identification and segmentation at rough and minute grain are presented. Document structure identification offers an opportunity to balance the calculation of the inputs of an index according to the nature of the zones in which the terms appear (title or text-body for instance).
Uploads
Papers by Nadine Lucas
The training corpus includes forty academic articles written by authors who use English as first or second language with varying mastering of English in academic settings. We use pairs of articles allowing comparison between two successive versions, before and after human copy editing. The task is challenging, because correctness in style is difficult to define. This corpus of great interest requires an original text-mining method discovering rules from the linguistic corpus on correct and incorrect segments. The main feature presented here is the use of several different text segments, or textual measures, where stylistic mistakes or improper use can be detected at diffrent scales. Each text is thus divided into parts, sections, paragraphs and sentences, in order to circumscribe textual semantic units.
Results stemmed from cross breeding between novel text-mining and textual linguistics approaches. The level-specification of forms and the top-down positional inheritance are essential to extract associations concluding on correct or incorrect segments. It would be hopeless to rely on words alone. Furthermore, owing to the large number of segments, efficient data mining tools are required. We use MVMiner, a prototype that is able to extract all associations in a data set above a frequency threshold. Associations are given in a special condensed representation allowing relevant rules characterising classes to be exhibited.
The training corpus includes forty academic articles written by authors who use English as first or second language with varying mastering of English in academic settings. We use pairs of articles allowing comparison between two successive versions, before and after human copy editing. The task is challenging, because correctness in style is difficult to define. This corpus of great interest requires an original text-mining method discovering rules from the linguistic corpus on correct and incorrect segments. The main feature presented here is the use of several different text segments, or textual measures, where stylistic mistakes or improper use can be detected at diffrent scales. Each text is thus divided into parts, sections, paragraphs and sentences, in order to circumscribe textual semantic units.
Results stemmed from cross breeding between novel text-mining and textual linguistics approaches. The level-specification of forms and the top-down positional inheritance are essential to extract associations concluding on correct or incorrect segments. It would be hopeless to rely on words alone. Furthermore, owing to the large number of segments, efficient data mining tools are required. We use MVMiner, a prototype that is able to extract all associations in a data set above a frequency threshold. Associations are given in a special condensed representation allowing relevant rules characterising classes to be exhibited.
The "differential modeling of text, linguistic algorithms" memory is about my epistemological position and especially on the interface between modeling in theoretical linguistics and computer modeling. From the start I took the study of corpus and multilingualism as a working basis. The methods used are placed in the tradition of the Prague school (Jakobson, but also the computer) and have a relationship with other research in Japan and the Nordic countries. While most of the work of TAL concerning the syntax or vocabulary, I took the point of view of the analysis of the written speech in its entirety and a relational perspective, endogenous, to find ways of dealing automatically whole texts and text corpus. The first dimension is the original multilingualism designed as normal working hypothesis, not need rollup monolingual practices. The second dimension is the angle of multi-scale vision for analyzing collections and documents with their material formatting, identifying marks that structure texts regardless of language, asking for comments on the grains analysis relevant. The memory contains many examples of applications described in depth with the issues, techniques and illustrations of the results. (in French)
L'examen d'un corpus d'articles scientifiques en japonais et en français fournit un cadre de comparaison acceptable: la situation de communication est la même, l'objectif est reconnu comme étant le même, les langues diffèrent.
Nous nous plaçons délibérément dans une optique distributionnaliste et examinons des unités typographiques, les paragraphes, dont la phrase est le segment minimal. Il s'agit d'observer si les phrases présentent ou non des caractéristiques formelles susceptibles de marquer des paragraphes. Nous observons si la répartition de ces marqueurs permet de dégager des classes de formes apparaissant en position stable, dégageant ainsi une structure.Nous observons l'agencement des segments marqués et non marqués, et proposons une grammaire descriptive ou ensemble de règles rendant compte de configurations attestées. Ceci permettra éventuellement de donner un sens aux relations séquentielles ou hiérarchiques observées et de formuler une grammaire prédictive.
Pour des raisons de commodité, qui tiennent à la taille des exemples, et sont plus matérielles qu'épistémologiques, nous nous limiterons ici à présenter la morpho-syntaxe au niveau du paragraphe, sans supposer que ce soit le seul segment utile en morpho-syntaxe textuelle.
Le genre journalistique fait l'objet de nombreux travaux. Les articles de journaux et les dépêches de presse en japonais sont intéressants à étudier car ce sont des textes courts, qui peuvent être comparés facilement dans différentes langues. Nous avons
exploité principalement le site de presse Kyôdô en japonais et en anglais.
La phrase nominale n'est pas une forme réservée au titre en japonais (si l'on
donne au titre le statut de phrase). Les phrases nominales sont presque toujours
utilisées dans le corps de texte, quel que soit le sujet traité et quelle que soit la
longueur de l'article. Elles jouent un rôle important dans la structuration des
ensembles thématiques, dans la vision japonaise du discours, mais
aussi dans la constitution des plans, vision plus européenne. Nous envisageons ici l'emploi des phrases nominales comme un moyen de contraste, permettant la diathèse. D'autres langues ont à leur disposition d'autres variations pour la réaliser, par exemple la détermination des groupes nominaux ou l'emploi des temps composés ou de la voix pour les verbes. Nous étudierons successivement les contextes pour une ou quelques occurrences de phrases nominales, puis pour leur emploi massif ou absent dans la presse.
Les interventions pourraient-elles être prises comme un tout ? Les analyses de chat ou de forum basées sur le contenu ont pour but de rassembler les différents points abordés et de présenter les fils de discussion organisées thématiquement, dans le sens courant du terme, pour notre exemple les interventions concernant l'élaboration d'une charte, ou la formation des élèves (Clouet, 2004). Cette analyse est fondée principalement sur le lexique. D'autres approches mettent en valeur les interactions entre participants et les réseaux sociaux ou encore les interactions entre contenu et intervenants (Baker, 2004). Ces approches sont de type ascendant, elles consistent à relier des interventions entre elles et souvent d'abord deux à deux. Dans le souci d'apporter une vision complémentaire, nous avons étudié la structure globale du forum et l'élaboration collective d'un récit. L'approche est donc descendante.
using general layout features. Then, the process applies inside each single document, taking advantage of the local properties.
DLSA is achieved considering simultaneously text content, vectorial shapes and images embedded in the native PDF document.
For the Title Detection task in English and French, we observed a significant improvement of the F-measures for Title Detection
compared with those obtained during our previous participation.
This task necessitates worldwide coverage of news in order to detect new events as quickly as possible, anywhere, whatever the language it is rst reported in. In this study, text-genre is used rather than sentence analysis. The news-genre properties allow us to assess the thematic relevance of news, ltered with the help of a specialised lexicon that is automatically collected on Wikipedia. Afterwards, a more detailed analysis of text specic properties is applied to relevant documents to better characterize the epidemic event (i.e., which disease spreads where?). Results from 400 documents in each language demonstrate the interest of this multilingual approach with light resources. DAnIEL achieves an F1-measure score around 85%. Two issues are addressed: the rst is morphology rich languages, e.g. Greek, Polish and Russian as compared to English. The second is event location detection as related to disease detection. This system provides a reliable alternative to the generic IE architecture that is constrained by the lack of numerous components in many languages.
This paper presents a multilingual news surveillance system applied to tele-epidemiology. It has been shown that multilingual approaches improve timeliness in detection of epidemic events across the globe, eliminating the wait for local news to be translated into major languages. We present here a system to extract epidemic events in potentially any language, provided a Wikipedia seed for common disease names exists.
METHODS:
The Daniel system presented herein relies on properties that are common to news writing (the journalistic genre), the most useful being repetition and saliency. Wikipedia is used to screen common disease names to be matched with repeated characters strings. Language variations, such as declensions, are handled by processing text at the character-level, rather than at the word level. This additionally makes it possible to handle various writing systems in a similar fashion.
MATERIAL:
As no multilingual ground truth existed to evaluate the Daniel system, we built a multilingual corpus from the Web, and collected annotations from native speakers of Chinese, English, Greek, Polish and Russian, with no connection or interest in the Daniel system. This data set is available online freely, and can be used for the evaluation of other event extraction systems.
RESULTS:
Experiments for 5 languages out of 17 tested are detailed in this paper: Chinese, English, Greek, Polish and Russian. The Daniel system achieves an average F-measure of 82% in these 5 languages. It reaches 87% on BEcorpus, the state-of-the-art corpus in English, slightly below top-performing systems, which are tailored with numerous language-specific resources. The consistent performance of Daniel on multiple languages is an important contribution to the reactivity and the coverage of epidemiological event detection systems.
CONCLUSIONS:
Most event extraction systems rely on extensive resources that are language-specific. While their sophistication induces excellent results (over 90% precision and recall), it restricts their coverage in terms of languages and geographic areas. In contrast, in order to detect epidemic events in any language, the Daniel system only requires a list of a few hundreds of disease names and locations, which can actually be acquired automatically. The system can perform consistently well on any language, with precision and recall around 82% on average, according to this paper's evaluation. Daniel's character-based approach is especially interesting for morphologically-rich and low-resourced languages. The lack of resources to be exploited and the state of the art string matching algorithms imply that Daniel can process thousands of documents per minute on a simple laptop. In the context of epidemic surveillance, reactivity and geographic coverage are of primary importance, since no one knows where the next event will strike, and therefore in what vernacular language it will first be reported. By being able to process any language, the Daniel system offers unique coverage for poorly endowed languages, and can complete state of the art techniques for major languages.
avec les autres zones culturelles. Le japonais représente un cas particulier, par la conjonction d’une histoire complexe de l’écriture et d’un savoir-faire technologique de pointe. L’intégration d’Unicode permet l’accès à des ressources documentaires de toute origine, indépendamment du codage, ainsi que leur traitement et stockage informatique. Une aubaine pour le Japon, qui cultive l’ouverture au monde.
one another are automatically matched. Instead of comparing only pairs of languages at sentence level, as it is usually done to
conform to human process in translation, the computer is used here for its capacity to infer semantic alignment from a collection of texts that are translations of the same content. The corpus contains press releases from Europa, the European Community website, available in up to 23 languages. The alignment process takes advantage of frequency similarity between different linguistic versions of a document by computing matching features for each repeated string in all versions. This is done to find reliable anchors in the process of linking versions. The question of the best granularity is raised to bring out some semantic equivalences, when comparing two linguistic versions, character N-grams or word N-grams. The alignment systems are traditionally based on word N-grams splitting. The observation of the morphological variety of languages, even inside a single linguistic family, quickly shows
that the word granularity is inadequate to provide a widely multilingual system, i.e. a language independent system able to handle flexional languages as well as positional languages. Instead, when starting from a multilingual collection to focus on pairs of texts,we defend that character N-grams alignment is more efficient than word N-grams alignment.