Скрипт преобразовывает звуковой файл в формате WAV в текст. Есть поддержка стерео записей при условии - один диктор в одном канале.
Требования:
- FFMPEG
- Python 3.6
- Голосовая модель VOSK (https://alphacephei.com/vosk/models) - подойдет vosk-model-small-ru-0.22
Установка:
- Клонируем репозиторий
- Устанавливаем необходимые модули pip install -r requirements.txt
- В последней строке скрипта правим путь к аудиофайлу и запускаем