Séquence de lemmes vers formes de surface

Premier travail pratique du cours IFT 6285 donné par Philippe Langlais à la session d'hiver 2018.

Ennoncé: http://www-labs.iro.umontreal.ca/~felipe/IFT6285-Hiver2018/frontal.php?page=devoir1.html

Nous comparons plusieurs types de modèles pour résoudre ce problème. Le rapport est disponible à https://www.overleaf.com/read/szdkwqxgsnmw.

Getting started

Prérequis

Vous aurez besoin de Python 3+ et des packages suivants et de leur dépendances:

gzip
glop
keras
spacy
textacy
hmmlearn

Structure de répertoire recommandée

A la racine, un dossier data qui contient dev, train, test:

./data/
    |
    + dev/
    |
    + test/
    |
    + train/

Chaque dossier contient des fichiers de donnée.

Format des données

Un fichier de donnée est gzippé. Les sous-dossiers de data/ ne devraient donc contenir en principe des fichiers *.gz. Le contenu des fichiers est dans le format suivant:

#begin document 21541630	
Qalaye	qalaye
Niazi	niazi
is	be
an	a
ancient	ancient
fortified	fortified
area	area
in	in
Paktia	paktia
province	province
in	in
Afghanistan	afghanistan
.	.

Les mots de la première colonne constituent la phrase originale et les mots de la colonne de droite est la séquence de lemme associée. Les deux colonnes sont séparées par un caractère de tabluation \t.

LSTM

Dans le cas où vous voulez utiliser le modèle LSTM, il y a deux versions: un script python et un notebook jupiter. Le notebook jupiter a été optimisé pour être lancé sur Google Colaboratory.

Name		Name	Last commit message	Last commit date
Latest commit History 89 Commits
output		output
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
baseline.py		baseline.py
loader.py		loader.py
metric.py		metric.py
model-bi-gramms.py		model-bi-gramms.py
model-hmm.py		model-hmm.py
model-lazy-frequency.py		model-lazy-frequency.py
model-lstm.ipynb		model-lstm.ipynb
model-lstm.py		model-lstm.py
test-metric.py		test-metric.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Séquence de lemmes vers formes de surface

Getting started

Prérequis

Structure de répertoire recommandée

Format des données

LSTM

About

Releases

Packages

Contributors 2

Languages

License

Thomsch/lemma2text

Folders and files

Latest commit

History

Repository files navigation

Séquence de lemmes vers formes de surface

Getting started

Prérequis

Structure de répertoire recommandée

Format des données

LSTM

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages