Репозиторий проекта RuAdapt.
Препринт: https://arxiv.org/pdf/2312.02598.pdf
Tikhomirov, M. M., Chernyshev D. I. Impact of Tokenization on LLaMa Russian Adaptation, Proceedings of Ivannikov ISPRAS Open Conference (2023)
Код для instruction tuning полностью основан на https://github.com/IlyaGusev/saiga
Код для расширения токенизации частично основан на коде модели Qwen https://github.com/QwenLM/Qwen
-
Составить нормально базовые конфиги
-
Отладить pipeline
-
ft - transformers, sft & kto unsloth
