|
| 1 | +  |
| 2 | + |
| 3 | + # Kairos Automatic Speech Recognition (Hugging Face) |
| 4 | + |
| 5 | + [GitHub: Alenkar/kairos-asr](https://github.com/Alenkar/kairos-asr) |
| 6 | + |
| 7 | +## 📄 Описание |
| 8 | + |
| 9 | +**Kairos ASR** — высокопроизводительная библиотека распознавания русской речи на базе [GigaAM-style RNN-T](https://github.com/salute-developers/GigaAM) и **ONNX**. Фокус: скорость, точность и простая интеграция в микросервисы и десктопы. |
| 10 | + |
| 11 | +Основные возможности: |
| 12 | +- Оптимизированный ONNX-инференс |
| 13 | +- **CPU** и **GPU (CUDA, extra `[gpu]`)** |
| 14 | +- Временные метки (**word-level**, **sentence-level**) |
| 15 | +- Итеративная обработка с прогрессом и ETA |
| 16 | +- Встроенный **Voice-Activity-Detection (VAD)** |
| 17 | +- Поддержка длинных аудио |
| 18 | +- Поддержка **Windows** и **Linux** |
| 19 | + |
| 20 | +## 📦 Файлы в этом репозитории HF |
| 21 | + |
| 22 | +Модельный репозиторий `Alenkar/KairosASR` содержит: |
| 23 | +- `kairos_asr_encoder.onnx` |
| 24 | +- `kairos_asr_decoder.onnx` |
| 25 | +- `kairos_asr_joint.onnx` |
| 26 | +- `kairos_asr_tokenizer.model` |
| 27 | + |
| 28 | +`kairos-asr` загружает эти файлы через `huggingface_hub` автоматически. Можно скачать вручную: |
| 29 | + |
| 30 | +```python |
| 31 | +from huggingface_hub import hf_hub_download |
| 32 | + |
| 33 | +path = hf_hub_download("Alenkar/KairosASR", "kairos_asr_encoder.onnx") |
| 34 | +print(path) |
| 35 | +``` |
| 36 | + |
| 37 | +## ⚡ Быстрый старт |
| 38 | + |
| 39 | +```bash |
| 40 | +pip install kairos-asr[cpu] |
| 41 | +# для GPU: pip install kairos-asr[gpu] |
| 42 | +``` |
| 43 | + |
| 44 | +Если нужна конкретная сборка Torch под вашу CUDA: |
| 45 | + |
| 46 | +```bash |
| 47 | +# пример под CUDA 12.1/12.2 (cu121) |
| 48 | +pip install torch==2.6.0 torchaudio==2.6.0 \ |
| 49 | + --index-url https://download.pytorch.org/whl/cu121 --upgrade |
| 50 | +``` |
| 51 | + |
| 52 | +## 🚀 Использование (Python) |
| 53 | + |
| 54 | +Минимальный пример: |
| 55 | + |
| 56 | +```python |
| 57 | +from kairos_asr import KairosASR |
| 58 | + |
| 59 | +asr = KairosASR() # авто-загрузка весов с HF |
| 60 | +result = asr.transcribe(wav_file="audio.wav") |
| 61 | +print(result.full_text) |
| 62 | +``` |
| 63 | + |
| 64 | +Требования к аудио: |
| 65 | +- Любые форматы, поддерживаемые `ffmpeg`; ресемплинг до 16 kHz. |
| 66 | +- WAV PCM 16-bit mono (рекомендуется); стерео приводится к моно. |
| 67 | +- Длинные записи режутся Silero VAD на ~15–25 c (жёсткий лимит ~30 c) и объединяются. |
| 68 | + |
| 69 | +## 🖥️ Использование (CLI) |
| 70 | + |
| 71 | +Установите пакет, затем: |
| 72 | + |
| 73 | +```bash |
| 74 | +# Проверить окружение |
| 75 | +kairos-asr doctor |
| 76 | + |
| 77 | +# Список локальных/доступных моделей |
| 78 | +kairos-asr list |
| 79 | + |
| 80 | +# Скачать все модели заранее |
| 81 | +kairos-asr download |
| 82 | + |
| 83 | +# Перевести файл в текст |
| 84 | +kairos-asr transcribe <wav_file> |
| 85 | +``` |
| 86 | + |
| 87 | +## ⚙️ Системные требования |
| 88 | +- `ffmpeg` должен быть доступен в `PATH` (загрузка и ресемплинг аудио). |
| 89 | +- Доступ в интернет при первом запуске: скачивание весов моделей. Для ускорения и избежания лимитов задайте `HF_TOKEN` (`huggingface-cli login` или экспорт переменной окружения). |
| 90 | + |
| 91 | +## Больше информации |
| 92 | + |
| 93 | +Для получения дополнительной информации об исходной модели смотрите ее [карточку модели](https://huggingface.co/ai-sage/GigaAM-v3). |
0 commit comments