Ce projet a pour objectif d’explorer différentes approches de Traitement Automatique du Langage (TAL - NLP) appliquées à deux tâches de classification :
- La classification d’avis de films (sentiment analysis).
- L’attribution de phrases à Chirac ou Mitterrand (auteur de discours politiques).
Nous avons testé à la fois des méthodes classiques (Bag-of-Words, TF-IDF, Naïve Bayes, SVM, Régression Logistique…) et des approches modernes utilisant des transformers (BERT, RoBERTa, CamemBERT).
Le projet se découpe en plusieurs étapes :
- Movies : Vocabulaire riche, très lié au domaine du cinéma. Présence de bruit (fautes, contexte filmique, noms propres).
- Présidents : Discours politiques structurés mais dataset très déséquilibré (80 % Chirac / 20 % Mitterrand).
- Mise en minuscule, suppression ponctuation / chiffres.
- Suppression des stopwords.
- Lemmatisation ou stemming.
- Suppression des mots trop fréquents / trop rares.
- Pour le dataset président :
- → Tests de sur-échantillonnage, sous-échantillonnage et SMOTE.
- Entraînement de modèles classiques : SVC, Naïve Bayes, Logistic Regression.
- Mise en place de validation croisée stratifiée (StratifiedKFold).
- Suivi de nombreuses métriques (F1, ROC-AUC, AP, accuracy).
-
Movies : BERT et RoBERTa → excellents résultats (
$F1 \approx 91$ ). -
Présidents : RoBERTa (anglais) inefficace, mais CamemBERT donne de très bons scores (
$F1 \approx 81$ ).
- Déséquilibre important des classes sur les données Présidents → mauvais ROC-AUC sans équilibrage.
- Sur les movies : sur-apprentissage observé sur BoW/TF-IDF.
- RoBERTa (anglais) inefficace pour des discours français → nécessité d’utiliser des modèles FR (CamemBERT).
- Les résultats sur le dataset non labellisé sont souvent moins bons que sur les données d’entraînement, signe de difficulté à généraliser.
- Limitations matérielles pour les modèles transformers (taille séquence, batch size).
Projet_TAL/
│
├── src/
│ ├── movies_bow.ipynb
│ ├── movies_transformers.ipynb
│ ├── pres_bow.ipynb
│ └── pres_transformers.ipynb
│
├── TME/
│ └── (notebooks de prise de compétences et essais exploratoires)
│
└── rapport/
└── Projet_TAL.pdf