Dernier délai : 18 Décembre 2023
Le traitement automatique de la langue est un domaine multidisciplinaire impliquant la linguistique, l'informatique et l'intelligence artificielle. Il vise à créer des outils de traitement de la langue naturelle pour diverses applications. Parmi ces applications, nous pouvons citer celles qui relèvent du traitement des réseaux sociaux. Les sites de médias sociaux, tels que Twitter, sont une source riche de nombreux types d'informations, notamment en matière de santé. Ce projet consiste à développer des modèles de classification des sentiments (positive, negative ou neutre) sur les réseaux sociaux avec trois architectures différentes (LSTM, BERT, et GPT), et à évaluer le meilleur d’entre eux.
Dataset est le site Kaggle: training.1600000.processed.noemoticon.csv
- Import et load dataset
- Data processing
- Tokenization
- Padding
- Data splitting
- Encoder
- Embedding
- Modeling
- Evaluation
This notebook contains the code for a sentiment analysis model using BERT (Bidirectional Encoder Representations from Transformers). The model is trained on a dataset for sentiment classification.
- Data preparing
- Tokenization
- Model Training ( a small version of BERT Model for sequenceClassificaton )
- Evaluation (accuracy = 0.97 , loss = 0.10)
- Interference / predictions