@inproceedings{mutuvi-etal-2022-fine,
title = "Fine-tuning de mod{\`e}les de langues pour la veille {\'e}pid{\'e}miologique multilingue avec peu de ressources (Fine-tuning Language Models for Low-resource Multilingual Epidemic Surveillance)",
author = {Mutuvi, Stephen and
Boros, Emanuela and
Doucet, Antoine and
Jatowt, Adam and
Lejeune, Ga{\"e}l and
Odeo, Moses},
editor = "Est{\`e}ve, Yannick and
Jim{\'e}nez, Tania and
Parcollet, Titouan and
Zanon Boito, Marcely",
booktitle = "Actes de la 29e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conf{\'e}rence principale",
month = "6",
year = "2022",
address = "Avignon, France",
publisher = "ATALA",
url = "https://aclanthology.org/2022.jeptalnrecital-taln.34",
pages = "345--354",
abstract = "Les mod{\`e}les de langues pr{\'e}-entra{\^\i}n{\'e}s connaissent un tr{\`e}s grand succ{\`e}s en TAL, en particulier dans les situations o{\`u} l{'}on dispose de suffisamment de donn{\'e}es d{'}entra{\^\i}nement. Cependant, il reste difficile d{'}obtenir des r{\'e}sultats similaires dans des environnements multilingues avec peu de donn{\'e}es d{'}entra{\^\i}nement, en particulier dans des domaines sp{\'e}cialis{\'e}s tels que la surveillance des {\'e}pid{\'e}mies. Dans cet article, nous explorons plusieurs hypoth{\`e}ses concernant les facteurs qui pourraient avoir une influence sur les performances d{'}un syst{\`e}me d{'}extraction d{'}{\'e}v{\'e}nements {\'e}pid{\'e}miologiques dans un sc{\'e}nario multilingue {\`a} faibles ressources : le type de mod{\`e}le pr{\'e}-entra{\^\i}n{\'e}, la qualit{\'e} du tokenizer ainsi que les caract{\'e}ristiques des entit{\'e}s {\`a} extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corr{\'e}lation importante, quoique variable ; entre ces caract{\'e}ristiques et les performances observ{\'e}es sur la base d{'}une t{\^a}che de veille {\'e}pid{\'e}miologique multilingue {\`a} faibles ressources. Nous proposons aussi d{'}adapter les mod{\`e}les de langues {\`a} cette t{\^a}che en {\'e}tendant le vocabulaire du tokenizer pr{\'e}-entra{\^\i}n{\'e} avec les entit{\'e}s continues, qui sont des entit{\'e}s qui ont {\'e}t{\'e} divis{\'e}es en plusieurs sous-mots. Suite {\`a} cette adaptation, nous observons une am{\'e}lioration notable des performances pour la plupart des mod{\`e}les et des langues {\'e}valu{\'e}s.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="mutuvi-etal-2022-fine">
<titleInfo>
<title>Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources (Fine-tuning Language Models for Low-resource Multilingual Epidemic Surveillance)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Stephen</namePart>
<namePart type="family">Mutuvi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Emanuela</namePart>
<namePart type="family">Boros</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antoine</namePart>
<namePart type="family">Doucet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adam</namePart>
<namePart type="family">Jatowt</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gaël</namePart>
<namePart type="family">Lejeune</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Moses</namePart>
<namePart type="family">Odeo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2022-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale</title>
</titleInfo>
<name type="personal">
<namePart type="given">Yannick</namePart>
<namePart type="family">Estève</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Tania</namePart>
<namePart type="family">Jiménez</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Titouan</namePart>
<namePart type="family">Parcollet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Marcely</namePart>
<namePart type="family">Zanon Boito</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Avignon, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.</abstract>
<identifier type="citekey">mutuvi-etal-2022-fine</identifier>
<location>
<url>https://aclanthology.org/2022.jeptalnrecital-taln.34</url>
</location>
<part>
<date>2022-6</date>
<extent unit="page">
<start>345</start>
<end>354</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources (Fine-tuning Language Models for Low-resource Multilingual Epidemic Surveillance)
%A Mutuvi, Stephen
%A Boros, Emanuela
%A Doucet, Antoine
%A Jatowt, Adam
%A Lejeune, Gaël
%A Odeo, Moses
%Y Estève, Yannick
%Y Jiménez, Tania
%Y Parcollet, Titouan
%Y Zanon Boito, Marcely
%S Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
%D 2022
%8 June
%I ATALA
%C Avignon, France
%G French
%F mutuvi-etal-2022-fine
%X Les modèles de langues pré-entraînés connaissent un très grand succès en TAL, en particulier dans les situations où l’on dispose de suffisamment de données d’entraînement. Cependant, il reste difficile d’obtenir des résultats similaires dans des environnements multilingues avec peu de données d’entraînement, en particulier dans des domaines spécialisés tels que la surveillance des épidémies. Dans cet article, nous explorons plusieurs hypothèses concernant les facteurs qui pourraient avoir une influence sur les performances d’un système d’extraction d’événements épidémiologiques dans un scénario multilingue à faibles ressources : le type de modèle pré-entraîné, la qualité du tokenizer ainsi que les caractéristiques des entités à extraire. Nous proposons une analyse exhaustive de ces facteurs et observons une corrélation importante, quoique variable ; entre ces caractéristiques et les performances observées sur la base d’une tâche de veille épidémiologique multilingue à faibles ressources. Nous proposons aussi d’adapter les modèles de langues à cette tâche en étendant le vocabulaire du tokenizer pré-entraîné avec les entités continues, qui sont des entités qui ont été divisées en plusieurs sous-mots. Suite à cette adaptation, nous observons une amélioration notable des performances pour la plupart des modèles et des langues évalués.
%U https://aclanthology.org/2022.jeptalnrecital-taln.34
%P 345-354
Markdown (Informal)
[Fine-tuning de modèles de langues pour la veille épidémiologique multilingue avec peu de ressources (Fine-tuning Language Models for Low-resource Multilingual Epidemic Surveillance)](https://aclanthology.org/2022.jeptalnrecital-taln.34) (Mutuvi et al., JEP/TALN/RECITAL 2022)
ACL