TempoWordNet: A Lexical Resource for Temporal Information Retrieval
TempoWordNet : une ressource lexicale pour l'extraction d'information temporelle
Résumé
The ability to capture the time information conveyed in natural language, where that information is expressed either explicitly, or implicitly, or connotative, is essential to many natural language processing applications such as information retrieval, question answering, automatic summarization, targeted marketing, loan repayment forecasting, and understanding economic patterns. Associating word senses with temporal orientation to grasp the temporal information in language is relatively straightforward task for humans by using world knowledge. With this in mind,
a lexical temporal knowledge-base associating word senses automatically with their underlying temporal orientation would be crucial for the computational tasks aiming at interpretation of language of time in text. In this research, we introduce a temporal ontology namely TempoWordNet where all the synsets of WordNet are augmented with their intrinsic temporal dimensions: atemporal, past, present, and future. We study and experiment different strategies to build TempoWordNet namely lexico-semantic, probabilistic, and hybrid. The resource is evaluated both intrinsically and extrinsically, the underlying idea being that a reliable resource must evidence high quality time-tagging as well as improved performance for some external tasks. Both the evaluations results confirm the quality and usefulness of the resource. To complement our research we also experiment how a search application can benefit from this resource. Feedback from TempoWordNet users advocate for more reliable resource. At the end, we propose a strategy that shows steady improvements over the previous versions of TempoWordNet.
La capacité à capturer l’information temporelle dans le langage naturel, qu’elle soit exprimée de manière explicite, implicite, ou par connotation, est essentielle pour de nombreuses applications telles l’extraction d’information, les systèmes de question-réponse, le résumé automatique. Associer une orientation temporelle au sens des mots pour capter l’information temporelle en langue est une tâche relativement directe pour les humains utilisant leurs connaissances sur le monde. Une base de connaissances lexicales associant automatiquement cette orientation au sens des mots serait de fait cruciale pour les tâches automatiques visant à interpréter la temporalité dans les textes.
Dans cette recherche, nous présentons une ontologie temporelle, TempoWordNet, où les synsets de WordNet sont enrichis avec une information sur leur temporalité intrinsèque : atemporel, passé, présent et futur. Nous étudions et expérimentons différentes stratégies de construction, lexico-sémantique, probabiliste et hybride.
TempoWordNet est évalué de manière intrinsèque et extrinsèque, une ressource fiable devant à la fois contenir un étiquetage temporel de haute qualité et améliorer les performances de certaines tâches externes. Les deux types d’évaluations montrent la qualité et l’intérêt de la ressource. Pour compléter nos travaux, nous étudions aussi comment une application de recherche telle un moteur de recherche peut tirer parti de cette ressource. Le retour des utilisateurs de TempoWordNet a encouragé à améliorer encore la ressource. Nous terminons donc en proposant une nouvelle stratégie de construction permettant d’améliorer de manière conséquente TempoWordNet.
Loading...