Un gold standard pour la reconnaissance d'entités nommées

Ce corpus contient 7 romans entièrement annotés pour la tâche de repérage d'entités nommées et la tâche de résolution d'alias pour les personnages.

Roman	Auteur	Année de publication	Nombre de tokens	Nombre de personnages
Les Trois Mousquetaires	Alexandre Dumas	1849	294 989	213
Le Rouge et le Noir	Stendhal	1854	216 445	318
Eugénie Grandet	Honoré de Balzac	1855	80 659	107
Germinal	Émile Zola	1885	220 273	102
Bel-Ami	Guy de Maupassant	1901	138 156	150
Notre-Dame de Paris	Victor Hugo	1904	221 351	536
Madame Bovary	Gustave Flaubert	1910	148 861	175

Ce gold standard a été réalisé dans le cadre d'un projet à ObTIC-Sorbonne université, dirigé par Motasem Alrahabi, et annoté par Perrine Maurel, Una Faller et Romaric Parnasse.

Le corpus a été ensuite utilisé pour entrainer un nouveau modèle NER, en collaboration avec Arthur Amalvy et Vincent Labatut (université d'Avignon).

Le jeu de données est disponible :

Dans ce repository :
- Dossier ner sous format CoNLL-2002 pour la REN
- Dossier alias-resolution sous format csv pour la résolution d'alias
Sur HuggingFace :
- compnet-renard/7-romans-ner
- compnet-renard/7-romans-alias-resolution

Modèle et reproduction des résultats

Pour reproduire nos résultats concernant notre modèle de REN basé sur CamemBERT, installez d'abord les dépendances Python, soit :

avec uv: uv sync
avec pip: pip install -r requirements.txt

Pour reproduire l'expérience principale, il suffit de lancer le script xp_main.sh. Ce script entraîne et évalue notre modèle sur chaque roman du jeu de données par validation croisée. Il évalue également le modèle sur la tâche d'extraction de réseaux de personnages grâce à Renard. Un GPU avec au moins 8Gb de RAM est conseillé pour l'entraînement. Ce script produit un dossier dans le dossier "runs", contenant tous les résultats (voir notamment le fichier metrics.json).

Le script xp_train.sh permet d'entraîner le modèle sur les 7 romans (utilisé pour produire le modèle huggingface).

Citation

Si vous utilisez le corpus dans vos recherches, vous pouvez citer :

@InProceedings{Maurel2025,
  authors = {Maurel, P. and Amalvy, A. and Labatut, V. and Alrahabi, M.},
  title = {Du repérage à l’analyse : un modèle pour la reconnaissance d’entités nommées dans les textes littéraires en français},
  booktitle = {Digital Humanities 2025},
  year = {2025},
}

Name		Name	Last commit message	Last commit date
Latest commit History 56 Commits
alias-resolution		alias-resolution
ner		ner
.gitignore		.gitignore
7 romans.zip		7 romans.zip
README.md		README.md
data.py		data.py
extract_conll.py		extract_conll.py
format_results.py		format_results.py
measures.py		measures.py
ner.py		ner.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
upload_alias_resolution_hgdataset.py		upload_alias_resolution_hgdataset.py
upload_ner_hgdataset.py		upload_ner_hgdataset.py
utils.py		utils.py
uv.lock		uv.lock
xp_main.py		xp_main.py
xp_main.sh		xp_main.sh
xp_main_large.sh		xp_main_large.sh
xp_train.py		xp_train.py
xp_train.sh		xp_train.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Un gold standard pour la reconnaissance d'entités nommées

Modèle et reproduction des résultats

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Un gold standard pour la reconnaissance d'entités nommées

Modèle et reproduction des résultats

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages