一个基于 sherpa-onnx 和 SenseVoice 模型的音频/视频转字幕工具。
- 支持多种音频和视频格式输入
- 使用 SenseVoice 模型进行高精度语音识别
- 利用 VAD (Voice Activity Detection) 技术进行语音片段分割
- 输出标准 SRT 字幕文件
- 支持多语言识别
pip install -r requirements.txt
需要额外安装 ffmpeg 用于音频提取。
Python version >= 3.11
python sensevoice_transcriber.py --sense-voice models/model.int8.onnx --tokens models/tokens.txt --vad-model models/silero_vad.onnx input.mp4
项目需要以下模型文件放置在 models
目录下:
- SenseVoice 语音识别模型 (model.int8.onnx 或 model.onnx)
- tokens.txt 词表文件
- silero_vad.onnx VAD模型文件
下载:
https://k2-fsa.github.io/sherpa/onnx/sense-voice/pretrained.html
MIT License