Skip to content

Marchma0/Classification-de-discours-politique

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Projet NLP — Classification de textes

Ce projet a pour objectif d’explorer différentes approches de Traitement Automatique du Langage (TAL - NLP) appliquées à deux tâches de classification :

  • La classification d’avis de films (sentiment analysis).
  • L’attribution de phrases à Chirac ou Mitterrand (auteur de discours politiques).

Nous avons testé à la fois des méthodes classiques (Bag-of-Words, TF-IDF, Naïve Bayes, SVM, Régression Logistique…) et des approches modernes utilisant des transformers (BERT, RoBERTa, CamemBERT).


Résumé du projet

Le projet se découpe en plusieurs étapes :

1. Analyse des jeux de données

  • Movies : Vocabulaire riche, très lié au domaine du cinéma. Présence de bruit (fautes, contexte filmique, noms propres).
  • Présidents : Discours politiques structurés mais dataset très déséquilibré (80 % Chirac / 20 % Mitterrand).

2. Préprocessing

  • Mise en minuscule, suppression ponctuation / chiffres.
  • Suppression des stopwords.
  • Lemmatisation ou stemming.
  • Suppression des mots trop fréquents / trop rares.
  • Pour le dataset président :
    • → Tests de sur-échantillonnage, sous-échantillonnage et SMOTE.

3. Apprentissage

  • Entraînement de modèles classiques : SVC, Naïve Bayes, Logistic Regression.
  • Mise en place de validation croisée stratifiée (StratifiedKFold).
  • Suivi de nombreuses métriques (F1, ROC-AUC, AP, accuracy).

4. Transformers

  • Movies : BERT et RoBERTa → excellents résultats ($F1 \approx 91$).
  • Présidents : RoBERTa (anglais) inefficace, mais CamemBERT donne de très bons scores ($F1 \approx 81$).

Problèmes rencontrés

  • Déséquilibre important des classes sur les données Présidents → mauvais ROC-AUC sans équilibrage.
  • Sur les movies : sur-apprentissage observé sur BoW/TF-IDF.
  • RoBERTa (anglais) inefficace pour des discours français → nécessité d’utiliser des modèles FR (CamemBERT).
  • Les résultats sur le dataset non labellisé sont souvent moins bons que sur les données d’entraînement, signe de difficulté à généraliser.
  • Limitations matérielles pour les modèles transformers (taille séquence, batch size).

Structure du projet

Projet_TAL/
│
├── src/
│   ├── movies_bow.ipynb
│   ├── movies_transformers.ipynb
│   ├── pres_bow.ipynb
│   └── pres_transformers.ipynb
│
├── TME/
│   └── (notebooks de prise de compétences et essais exploratoires)
│
└── rapport/

    └── Projet_TAL.pdf

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published