Данная курсовая работа направлена на разработку системы семантического поиска «Аскориум», предназначенной для работы в рамках одного сайта. Система автоматически собирает актуальный контент, обрабатывает запрос на естественном языке и выдает ответ на основе источников.
Имеет в себе контент некоторого объекта (сайт, набор документов, документация, услуги и тп) Реализует осмысленный поиск по контенту, берет запрос и идет с ним нахуй
Проблема поиска информации в обширном контенте
Две стороны: быстрый и качественный скраппинг на горячую + надо где то хранить и не очень понятно в каком формате + семантический поиск по этому дерьму
- Подумать над инструментами скреппинга, покопать туда
- Уметь собирать текст со страниц сайта + ссылки откуда взять
- Не только текст, но и вложения (документы, презентации, таблицы и тп) + отдельный вид ссылок на них с пониманием на что эти ссылки, возможно пережимать их контекст
- Подумать как обрабатывать каждый тип документов + учитывать веса слов фраз оттуда
- Уметь хорошо этот процесс параллелить не перегружая
- Определить интервал скраппинга
- Научиться использовать прокси + найти прокси
- Научиться нормально тестить скраппер
- Продумать как хранить данные так чтобы оно работало быстро / в несколько режимов
- не ахуеть и не заскраппить петабайты данных
- Уметь следить за “дополнением данных“ + “деактуализировать то что пропало“
- По запросу находить релевантные текста в источнике с указанием откуда они
- По запросу и результата поиска загонять в gpt
- Время ответа на запрос (2 года?)?
- Продумать режимы поиска по времени ответа юзеру (10 секунд / 5 минут / 8 лет)
- Долгий режим поиска - спускаемся внутрь документов / содержимого и тп
- А можем ли мы детектить что нам не хватило более быстрого поиска и уходить в глубокий
- Потенциальный кэш результатов на частые запросы (популярные страницы / популярные фрагменты текста)
- Потенциальный кэш на частые запросы
- Учитывать дату создания страницы / документа / статьи при поиске
- Собрать датасет для тестирования системы
- FAQ
- Обратный режим (страницы → (gpt) → вопросы по страницам)
- Опросы студентов: что вы искали
- При тестировании метрику потерь делать умной
- Подумать над фильтрами корректности запросов
- Автодополнение поискового запроса?
- МОНИТОРИНГ
- Фидбэк от юзеров? (Юзер ввел запрос, и перешел ли он по предложенному варианту / отказ после ответа; отказ не дождавшись ответа; лайк не лайк)
- Я метрика везде
Посмотреть метрики у perplexity и подобных ребят
Поресечить сайт вышки по структуре
- Ссылки и краткие выдержки из источников + даты (мелко)
- Ответ по ним
- Если поиск зафейлился, уметь обрабатывать: не нашли релевантных статей / по релевантным источникам не смогли составить ответ