subTranscriber

一个基于 sherpa-onnx 和 SenseVoice 模型的音频/视频转字幕工具。

功能特点

支持多种音频和视频格式输入
使用 SenseVoice 模型进行高精度语音识别
利用 VAD (Voice Activity Detection) 技术进行语音片段分割
输出标准 SRT 字幕文件
支持多语言识别

安装依赖

pip install -r requirements.txt

需要额外安装 ffmpeg 用于音频提取。

使用方法

基本用法

Python version >= 3.11

python sensevoice_transcriber.py --sense-voice models/model.int8.onnx --tokens models/tokens.txt --vad-model models/silero_vad.onnx input.mp4

依赖模型

项目需要以下模型文件放置在 models 目录下：

SenseVoice 语音识别模型 (model.int8.onnx 或 model.onnx)
tokens.txt 词表文件
silero_vad.onnx VAD模型文件

下载：

https://k2-fsa.github.io/sherpa/onnx/sense-voice/pretrained.html

https://huggingface.co/deepghs/silero-vad-onnx

许可证

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
sherpa-onnx		sherpa-onnx
.gitignore		.gitignore
pyproject.toml		pyproject.toml
readme.md		readme.md
requirements.txt		requirements.txt
sensevoice_transcriber.py		sensevoice_transcriber.py
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

subTranscriber

功能特点

安装依赖

使用方法

基本用法

依赖模型

许可证

About

Uh oh!

Releases

Packages

Languages

Gitnapp/subTranscriber

Folders and files

Latest commit

History

Repository files navigation

subTranscriber

功能特点

安装依赖

使用方法

基本用法

依赖模型

许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages