deeplearning-papernotes/notes/very-short-texts.md at master · sld/deeplearning-papernotes

Ссылка на статью: arXiv

В данной статье предлагается метод для получения векторного представления коротких текстов (10-30 слов). Семантически близкие тексты должны быть близкими и в векторном пространстве.

Тексты t_1, t_2 считаются похожими, если d(t_1, t_2) < T, где d - функция расстояния (косинусное расстояние, евклидово расстояние и т.д.), T - порог.

Текст t представляется как взвешенная сумма векторов слов. Подбор оптимальных весов в этой сумме и является ключевой задачей статьи.

Для подбора весов они предлагают т.н. median-based loss: берется батч, где в батче половина пар текстов являются похожими, а другая наоборот. Считается медиана по парам текстов в батче. Далее используя эту медиану они строят median-based loss (измененная cross-entropy).

Изначально их метод ориентирован на тексты фиксированной длинны. Для работы с текстами разной длины они предлагают подход с использованием линейной интерполяции.

Данные для оценки качества предложенного метода авторы статьи генерировали автоматически. Для генерации похожих пар текстов они брали начало параграфа из википедии, пропускали 2 слова в нем и брали конец параграфа. Для получение непохожих пар текстов брались параграфы из разных статей. Также они брали новостные ленты из твиттера - искали похожие по хэштэгам и словам.

Эксперименты показывают не очень большой прирост по сравнению с бэйслайном (подсчет средне-арифметического векторного представления или min/max по измерениям). Также имеется плохо документированный код: https://github.com/cedricdeboom/RepresentationLearning

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

FilesExpand file tree

very-short-texts.md

Latest commit

History

very-short-texts.md

File metadata and controls