Projet NLP — Classification de textes

Ce projet a pour objectif d’explorer différentes approches de Traitement Automatique du Langage (TAL - NLP) appliquées à deux tâches de classification :

La classification d’avis de films (sentiment analysis).
L’attribution de phrases à Chirac ou Mitterrand (auteur de discours politiques).

Nous avons testé à la fois des méthodes classiques (Bag-of-Words, TF-IDF, Naïve Bayes, SVM, Régression Logistique…) et des approches modernes utilisant des transformers (BERT, RoBERTa, CamemBERT).

Résumé du projet

Le projet se découpe en plusieurs étapes :

1. Analyse des jeux de données

Movies : Vocabulaire riche, très lié au domaine du cinéma. Présence de bruit (fautes, contexte filmique, noms propres).
Présidents : Discours politiques structurés mais dataset très déséquilibré (80 % Chirac / 20 % Mitterrand).

2. Préprocessing

Mise en minuscule, suppression ponctuation / chiffres.
Suppression des stopwords.
Lemmatisation ou stemming.
Suppression des mots trop fréquents / trop rares.
Pour le dataset président :
- → Tests de sur-échantillonnage, sous-échantillonnage et SMOTE.

3. Apprentissage

Entraînement de modèles classiques : SVC, Naïve Bayes, Logistic Regression.
Mise en place de validation croisée stratifiée (StratifiedKFold).
Suivi de nombreuses métriques (F1, ROC-AUC, AP, accuracy).

4. Transformers

Movies : BERT et RoBERTa → excellents résultats ($F1 \approx 91$).
Présidents : RoBERTa (anglais) inefficace, mais CamemBERT donne de très bons scores ($F1 \approx 81$).

Problèmes rencontrés

Déséquilibre important des classes sur les données Présidents → mauvais ROC-AUC sans équilibrage.
Sur les movies : sur-apprentissage observé sur BoW/TF-IDF.
RoBERTa (anglais) inefficace pour des discours français → nécessité d’utiliser des modèles FR (CamemBERT).
Les résultats sur le dataset non labellisé sont souvent moins bons que sur les données d’entraînement, signe de difficulté à généraliser.
Limitations matérielles pour les modèles transformers (taille séquence, batch size).

Structure du projet

Projet_TAL/
│
├── src/
│   ├── movies_bow.ipynb
│   ├── movies_transformers.ipynb
│   ├── pres_bow.ipynb
│   └── pres_transformers.ipynb
│
├── TME/
│   └── (notebooks de prise de compétences et essais exploratoires)
│
└── rapport/

    └── Projet_TAL.pdf

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
TME		TME
src		src
README.md		README.md
Rapport.pdf		Rapport.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projet NLP — Classification de textes

Résumé du projet

1. Analyse des jeux de données

2. Préprocessing

3. Apprentissage

4. Transformers

Problèmes rencontrés

Structure du projet

About

Uh oh!

Releases

Packages

Languages

Marchma0/Classification-de-discours-politique

Folders and files

Latest commit

History

Repository files navigation

Projet NLP — Classification de textes

Résumé du projet

1. Analyse des jeux de données

2. Préprocessing

3. Apprentissage

4. Transformers

Problèmes rencontrés

Structure du projet

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages