VoiceTransl是一站式离线AI视频字幕生成和翻译软件,从视频下载,音频提取,听写打轴,字幕翻译,视频合成,字幕总结各个环节为翻译者提供便利。本项目基于Galtransl,采用GPLv3许可。使用说明请见 视频教程。
- 支持多种翻译模型,包括在线模型(Deepseek及任意OpenAI兼容接口)和本地模型(Sakura、Galtransl及任意llama.cpp,Ollama模型)。
- 支持AMD/NVIDIA/Intel GPU加速,翻译引擎支持调整显存占用。
- 支持多种输入格式,包括音频、视频、SRT字幕。
- 支持多种输出格式,包括SRT字幕、LRC字幕。
- 支持多种语言,包括日语,英语,韩语,俄语,法语。
- 支持字典功能,可以自定义翻译字典,替换输入输出。
- 支持从YouTube/Bilibili直接下载视频。
- 支持文件和链接批量处理,自动识别文件类型。
- 支持音频切分,字幕合并和视频合成。
- 支持字幕总结,可以自定义Prompt。
从Release页面下载最新版本的VoiceTransl,解压后运行app.exe。
- 本项目使用whisper.cpp模型,引擎已经为Vulkan编译配置好,兼容N卡/A卡/I卡。模型需要自行下载,请选择合适的whisper.cpp模型下载然后放到
whisper文件夹。
| 名称 | 磁盘 | 显存 | 链接 |
|---|---|---|---|
| ggml-small.bin | 466 MiB | ~852 MB | 下载 |
| ggml-medium.bin | 1.5 GiB | ~2.1 GB | 下载 |
| ggml-large-v2.bin | 2.9 GiB | ~3.9 GB | 下载 |
- NVIDIA显卡可以使用faster-whisper模型,支持更高的速度和VAD功能。请根据配置要求下载文件。模型需要自行下载,请选择合适的模型下载然后放到
whisper-faster文件夹。
| 名称 | 磁盘 | 显存 | 链接 |
|---|---|---|---|
| faster-whisper-small | 463 MiB | ~1 GB | 下载 |
| faster-whisper-medium | 1.42 GiB | ~2 GB | 下载 |
| faster-whisper-large-v3 | 2.87 GiB | ~3 GB | 下载 |
faster-whisper模型请参考下面的文件夹结构,必须要以faster-whisper-开头。
faster-whisper-xxx/
config.json
model.bin
preprocessor_config.json
tokenizer.json
vocabulary.json
-
在线翻译模型支持DeepSeek(
deepseek-chat)以及任意的OpenAI兼容接口。请使用gpt-custom,配置自定义OpenAI地址(例如https://api.openai.com,默认会自动添加/v1/chat/completions),并填写自定义OpenAI模型。 -
以下是一些OpenAI兼容接口的地址:
- Moonshot系列请使用
https://api.moonshot.cn作为地址。 - GLM系列请使用
https://open.bigmodel.cn/api/paas作为地址,特殊后缀已支持。 - Minimax系列请使用
https://api.minimax.chat作为地址,特殊后缀已支持。 - Doubao系列请使用
https://ark.cn-beijing.volces.com/api作为地址,特殊后缀已支持。 - Qwen系列请使用
https://dashscope.aliyuncs.com/compatible-mode作为地址。 - Gemini系列请使用
https://generativelanguage.googleapis.com作为地址,特殊后缀已支持。 - Ollama引擎请使用
http://localhost:11434。
- Moonshot系列请使用
-
本地翻译模型基于llama.cpp引擎,已经为Vulkan编译配置好,兼容N卡/A卡/I卡。
-
NVIDIA显卡可以使用为CUDA编译的版本,支持更高的速度和显存占用,请解压到
llama文件夹覆盖原有文件。
cudart-llama-bin-win-cu12.4-x64.zip
llama-bxxxx-bin-win-cuda-cu12.4-x64.zip
- 模型需要自行下载,请选择合适的llama.cpp模型下载然后放到
llama文件夹。选择模型的时候请使用对应代码,并选择模型。非日语模型请使用qwen-local作为代码。
| 名称 | 语言 | 代码 | 磁盘 | 显存 | 链接 |
|---|---|---|---|---|---|
| Sakura-7B-v1.0-Q4 | 日语 | sakura-010 | ~5 GiB | ~8 GB | 下载 |
| Sakura-GalTransl-7B-v3 | 日语 | galtransl | ~5 GiB | ~8 GB | 下载 |
| Sakura-14B-v1.0-Q4 | 日语 | sakura-010 | ~9 GiB | ~16 GB | 下载 |
| Qwen-2.5-7B-Q4 | 英语 | qwen-local | ~5 GiB | ~8 GB | 下载 |
| Qwen-2.5-14B-Q4 | 英语 | qwen-local | ~9 GiB | ~16 GB | 下载 |
本软件支持四种模式,分别是下载模式,翻译模式,听写模式和完整模式。
- 下载模式:支持从YouTube/Bilibili直接下载视频。请填写视频链接,语音识别选择不进行听写,字幕翻译选择不进行翻译,然后点击运行按钮。
- 翻译模式:支持字幕翻译,支持多种翻译模型。请填写字幕文件,语音识别选择不进行听写,字幕翻译选择模型,然后点击运行按钮。
- 听写模式:支持音频听写,支持多种听写模型。请填写音视频文件或视频链接,语音识别选择模型,字幕翻译选择不进行翻译,然后点击运行按钮。
- 完整模式:支持从下载到翻译的完整流程。请填写音视频文件或视频链接,语音识别选择模型,字幕翻译选择模型,然后点击运行按钮。
- 翻译时提示网络连接错误
- 在线模型请检查网络连接是否正常,或者尝试更换代理。
- 离线模型出现连接错误,先检查是否超显存,把离线参数从0开始逐步增加10;然后确认关闭所有的代理软件,在系统设置-网络和Internet-代理里面应该是空的。
- 多次使用之后闪退
缓存文件中可能存在问题,可以尝试清理下载缓存,或者重新解压程序到一个新的目录。
- 命令行输出乱码
请检查系统编码是否为UTF-8,Windows控制面板-区域-更改日期、时间或数字格式-管理-更改系统区域设置-使用UTF-8提供全球语言支持。
- 不是Windows系统可以用吗
Linux可以使用服务器部署进行运行,详细请参考server分支。MacOS暂时不支持,用户可以使用镜像部署。
- 没有显卡/手机可以用吗
可以使用在线镜像进行运行,不需要显卡,手机也可以用,详细请参考镜像部署。
- 安装依赖
pip install -r requirements.txt
- 构建程序
pyinstaller app.spec
本软件仅供学习交流使用,不得用于商业用途。本软件不对任何使用者的行为负责,不保证翻译结果的准确性。使用本软件即代表您同意自行承担使用本软件的风险,包括但不限于版权风险、法律风险等。请遵守当地法律法规,不要使用本软件进行任何违法行为。
