Модель, которую я создал, является лишь прототипом. Результат на тестовой выборкии (accuracy), состовляет 0.778. Схожий результат можно добиться, если вы будете использовать модели: MultinomialNB, DecisionTreeClassifier, BaggingClassifier и др. Возможно, если бы я использовал токинизацию вместо векторизации, а также Embedding и Attention Layers, модель работала лучше. (Конечно, можно было бы использовать готовую модель трансформер (я так и хотел по-началу), но вычислительно слишком сложно)
Для обучении модели я использовал следующий набор данных: YouTube Comments Dataset.
Комментарии имели следуюшие категории:
- Позитивные (positive)
- Нейтральные (neutral)
- Негативные (negative)
Была использована библиотека PyTorch. Для обучения модели использовал LSTM слои.