Askorium

Данная курсовая работа направлена на разработку системы семантического поиска «Аскориум», предназначенной для работы в рамках одного сайта. Система автоматически собирает актуальный контент, обрабатывает запрос на естественном языке и выдает ответ на основе источников.

Инструмент

Имеет в себе контент некоторого объекта (сайт, набор документов, документация, услуги и тп) Реализует осмысленный поиск по контенту, берет запрос и идет с ним нахуй

Проблема поиска информации в обширном контенте

Две стороны: быстрый и качественный скраппинг на горячую + надо где то хранить и не очень понятно в каком формате + семантический поиск по этому дерьму

Требования

Скраппинг, требования:

Подумать над инструментами скреппинга, покопать туда
Уметь собирать текст со страниц сайта + ссылки откуда взять
Не только текст, но и вложения (документы, презентации, таблицы и тп) + отдельный вид ссылок на них с пониманием на что эти ссылки, возможно пережимать их контекст
Подумать как обрабатывать каждый тип документов + учитывать веса слов фраз оттуда
Уметь хорошо этот процесс параллелить не перегружая
Определить интервал скраппинга
Научиться использовать прокси + найти прокси
Научиться нормально тестить скраппер

Хранение, требования: под часть с поиском

Продумать как хранить данные так чтобы оно работало быстро / в несколько режимов
не ахуеть и не заскраппить петабайты данных
Уметь следить за “дополнением данных“ + “деактуализировать то что пропало“

Семантический поиск, требования:

По запросу находить релевантные текста в источнике с указанием откуда они
По запросу и результата поиска загонять в gpt
Время ответа на запрос (2 года?)?
Продумать режимы поиска по времени ответа юзеру (10 секунд / 5 минут / 8 лет)
Долгий режим поиска - спускаемся внутрь документов / содержимого и тп
А можем ли мы детектить что нам не хватило более быстрого поиска и уходить в глубокий
Потенциальный кэш результатов на частые запросы (популярные страницы / популярные фрагменты текста)
Потенциальный кэш на частые запросы
Учитывать дату создания страницы / документа / статьи при поиске
Собрать датасет для тестирования системы
- FAQ
- Обратный режим (страницы → (gpt) → вопросы по страницам)
- Опросы студентов: что вы искали
- При тестировании метрику потерь делать умной
Подумать над фильтрами корректности запросов

Хотим требовать:

Автодополнение поискового запроса?
МОНИТОРИНГ
Фидбэк от юзеров? (Юзер ввел запрос, и перешел ли он по предложенному варианту / отказ после ответа; отказ не дождавшись ответа; лайк не лайк)
Я метрика везде

Посмотреть метрики у perplexity и подобных ребят

Поресечить сайт вышки по структуре

Внешний вид ответа:

Ссылки и краткие выдержки из источников + даты (мелко)
Ответ по ним
Если поиск зафейлился, уметь обрабатывать: не нашли релевантных статей / по релевантным источникам не смогли составить ответ

Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
.github/workflows		.github/workflows
api		api
ask-core		ask-core
ask-encoder		ask-encoder
ask-ui		ask-ui
iac		iac
.gitignore		.gitignore
ARCHITECTURE.md		ARCHITECTURE.md
README.md		README.md
SEARCH.md		SEARCH.md
docker-compose.yaml		docker-compose.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Askorium

Инструмент

Требования

Скраппинг, требования:

Хранение, требования: под часть с поиском

Семантический поиск, требования:

Хотим требовать:

Внешний вид ответа:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Askorium

Инструмент

Требования

Скраппинг, требования:

Хранение, требования: под часть с поиском

Семантический поиск, требования:

Хотим требовать:

Внешний вид ответа:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages