Skip to content

Gitnapp/subTranscriber

Repository files navigation

subTranscriber

一个基于 sherpa-onnx 和 SenseVoice 模型的音频/视频转字幕工具。

功能特点

  • 支持多种音频和视频格式输入
  • 使用 SenseVoice 模型进行高精度语音识别
  • 利用 VAD (Voice Activity Detection) 技术进行语音片段分割
  • 输出标准 SRT 字幕文件
  • 支持多语言识别

安装依赖

pip install -r requirements.txt

需要额外安装 ffmpeg 用于音频提取。

使用方法

基本用法

Python version >= 3.11

python sensevoice_transcriber.py --sense-voice models/model.int8.onnx --tokens models/tokens.txt --vad-model models/silero_vad.onnx input.mp4

依赖模型

项目需要以下模型文件放置在 models 目录下:

  1. SenseVoice 语音识别模型 (model.int8.onnx 或 model.onnx)
  2. tokens.txt 词表文件
  3. silero_vad.onnx VAD模型文件

下载:

https://k2-fsa.github.io/sherpa/onnx/sense-voice/pretrained.html

https://huggingface.co/deepghs/silero-vad-onnx

许可证

MIT License

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages