Skip to content

umu-art/Askorium

Repository files navigation

Askorium

ArgoCD

Данная курсовая работа направлена на разработку системы семантического поиска «Аскориум», предназначенной для работы в рамках одного сайта. Система автоматически собирает актуальный контент, обрабатывает запрос на естественном языке и выдает ответ на основе источников.

Инструмент

Имеет в себе контент некоторого объекта (сайт, набор документов, документация, услуги и тп) Реализует осмысленный поиск по контенту, берет запрос и идет с ним нахуй

Проблема поиска информации в обширном контенте

Две стороны: быстрый и качественный скраппинг на горячую + надо где то хранить и не очень понятно в каком формате + семантический поиск по этому дерьму

Требования

Скраппинг, требования:

  • Подумать над инструментами скреппинга, покопать туда
  • Уметь собирать текст со страниц сайта + ссылки откуда взять
  • Не только текст, но и вложения (документы, презентации, таблицы и тп) + отдельный вид ссылок на них с пониманием на что эти ссылки, возможно пережимать их контекст
  • Подумать как обрабатывать каждый тип документов + учитывать веса слов фраз оттуда
  • Уметь хорошо этот процесс параллелить не перегружая
  • Определить интервал скраппинга
  • Научиться использовать прокси + найти прокси
  • Научиться нормально тестить скраппер

Хранение, требования: под часть с поиском

  • Продумать как хранить данные так чтобы оно работало быстро / в несколько режимов
  • не ахуеть и не заскраппить петабайты данных
  • Уметь следить за “дополнением данных“ + “деактуализировать то что пропало“

Семантический поиск, требования:

  • По запросу находить релевантные текста в источнике с указанием откуда они
  • По запросу и результата поиска загонять в gpt
  • Время ответа на запрос (2 года?)?
  • Продумать режимы поиска по времени ответа юзеру (10 секунд / 5 минут / 8 лет)
  • Долгий режим поиска - спускаемся внутрь документов / содержимого и тп
  • А можем ли мы детектить что нам не хватило более быстрого поиска и уходить в глубокий
  • Потенциальный кэш результатов на частые запросы (популярные страницы / популярные фрагменты текста)
  • Потенциальный кэш на частые запросы
  • Учитывать дату создания страницы / документа / статьи при поиске
  • Собрать датасет для тестирования системы
    • FAQ
    • Обратный режим (страницы → (gpt) → вопросы по страницам)
    • Опросы студентов: что вы искали
    • При тестировании метрику потерь делать умной
  • Подумать над фильтрами корректности запросов

Хотим требовать:

  • Автодополнение поискового запроса?
  • МОНИТОРИНГ
  • Фидбэк от юзеров? (Юзер ввел запрос, и перешел ли он по предложенному варианту / отказ после ответа; отказ не дождавшись ответа; лайк не лайк)
  • Я метрика везде

Посмотреть метрики у perplexity и подобных ребят

Поресечить сайт вышки по структуре

Внешний вид ответа:

  • Ссылки и краткие выдержки из источников + даты (мелко)
  • Ответ по ним
  • Если поиск зафейлился, уметь обрабатывать: не нашли релевантных статей / по релевантным источникам не смогли составить ответ

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors