Skip to content

VoiceTrans是一站式离线AI视频字幕生成和翻译软件,从视频下载,音频提取,听写打轴,字幕翻译,视频合成,字幕总结各个环节为翻译者提供便利。

License

Notifications You must be signed in to change notification settings

Lanzord/VoiceTransl

 
 

Repository files navigation

VoiceTransl

VoiceTransl是一站式离线AI视频字幕生成和翻译软件,从视频下载,音频提取,听写打轴,字幕翻译,视频合成,字幕总结各个环节为翻译者提供便利。本项目基于Galtransl,采用GPLv3许可。使用说明请见 视频教程

title

特色

  • 支持多种翻译模型,包括在线模型(Deepseek及任意OpenAI兼容接口)和本地模型(Sakura、Galtransl及任意llama.cpp,Ollama模型)。
  • 支持AMD/NVIDIA/Intel GPU加速,翻译引擎支持调整显存占用。
  • 支持多种输入格式,包括音频、视频、SRT字幕。
  • 支持多种输出格式,包括SRT字幕、LRC字幕。
  • 支持多种语言,包括日语,英语,韩语,俄语,法语。
  • 支持字典功能,可以自定义翻译字典,替换输入输出。
  • 支持从YouTube/Bilibili直接下载视频。
  • 支持文件和链接批量处理,自动识别文件类型。
  • 支持音频切分,字幕合并和视频合成。
  • 支持字幕总结,可以自定义Prompt。

下载

从Release页面下载最新版本的VoiceTransl,解压后运行app.exe

听写

  • 本项目使用whisper.cpp模型,引擎已经为Vulkan编译配置好,兼容N卡/A卡/I卡。模型需要自行下载,请选择合适的whisper.cpp模型下载然后放到whisper文件夹。
名称 磁盘 显存 链接
ggml-small.bin 466 MiB ~852 MB 下载
ggml-medium.bin 1.5 GiB ~2.1 GB 下载
ggml-large-v2.bin 2.9 GiB ~3.9 GB 下载
  • NVIDIA显卡可以使用faster-whisper模型,支持更高的速度和VAD功能。请根据配置要求下载文件。模型需要自行下载,请选择合适的模型下载然后放到whisper-faster文件夹。
名称 磁盘 显存 链接
faster-whisper-small 463 MiB ~1 GB 下载
faster-whisper-medium 1.42 GiB ~2 GB 下载
faster-whisper-large-v3 2.87 GiB ~3 GB 下载

faster-whisper模型请参考下面的文件夹结构,必须要以faster-whisper-开头。

faster-whisper-xxx/
    config.json
    model.bin
    preprocessor_config.json
    tokenizer.json
    vocabulary.json

在线翻译

  • 在线翻译模型支持DeepSeek(deepseek-chat)以及任意的OpenAI兼容接口。请使用gpt-custom,配置自定义OpenAI地址(例如https://api.openai.com,默认会自动添加/v1/chat/completions),并填写自定义OpenAI模型。

  • 以下是一些OpenAI兼容接口的地址:

    • Moonshot系列请使用https://api.moonshot.cn作为地址。
    • GLM系列请使用https://open.bigmodel.cn/api/paas作为地址,特殊后缀已支持。
    • Minimax系列请使用https://api.minimax.chat作为地址,特殊后缀已支持。
    • Doubao系列请使用https://ark.cn-beijing.volces.com/api作为地址,特殊后缀已支持。
    • Qwen系列请使用https://dashscope.aliyuncs.com/compatible-mode作为地址。
    • Gemini系列请使用https://generativelanguage.googleapis.com作为地址,特殊后缀已支持。
    • Ollama引擎请使用http://localhost:11434

离线翻译

  • 本地翻译模型基于llama.cpp引擎,已经为Vulkan编译配置好,兼容N卡/A卡/I卡。

  • NVIDIA显卡可以使用为CUDA编译的版本,支持更高的速度和显存占用,请解压到llama文件夹覆盖原有文件。

cudart-llama-bin-win-cu12.4-x64.zip
llama-bxxxx-bin-win-cuda-cu12.4-x64.zip
  • 模型需要自行下载,请选择合适的llama.cpp模型下载然后放到llama文件夹。选择模型的时候请使用对应代码,并选择模型。非日语模型请使用qwen-local作为代码。
名称 语言 代码 磁盘 显存 链接
Sakura-7B-v1.0-Q4 日语 sakura-010 ~5 GiB ~8 GB 下载
Sakura-GalTransl-7B-v3 日语 galtransl ~5 GiB ~8 GB 下载
Sakura-14B-v1.0-Q4 日语 sakura-010 ~9 GiB ~16 GB 下载
Qwen-2.5-7B-Q4 英语 qwen-local ~5 GiB ~8 GB 下载
Qwen-2.5-14B-Q4 英语 qwen-local ~9 GiB ~16 GB 下载

模式

本软件支持四种模式,分别是下载模式,翻译模式,听写模式和完整模式。

  1. 下载模式:支持从YouTube/Bilibili直接下载视频。请填写视频链接,语音识别选择不进行听写,字幕翻译选择不进行翻译,然后点击运行按钮。
  2. 翻译模式:支持字幕翻译,支持多种翻译模型。请填写字幕文件,语音识别选择不进行听写,字幕翻译选择模型,然后点击运行按钮。
  3. 听写模式:支持音频听写,支持多种听写模型。请填写音视频文件或视频链接,语音识别选择模型,字幕翻译选择不进行翻译,然后点击运行按钮。
  4. 完整模式:支持从下载到翻译的完整流程。请填写音视频文件或视频链接,语音识别选择模型,字幕翻译选择模型,然后点击运行按钮。

常见问题

  1. 翻译时提示网络连接错误
  • 在线模型请检查网络连接是否正常,或者尝试更换代理。
  • 离线模型出现连接错误,先检查是否超显存,把离线参数从0开始逐步增加10;然后确认关闭所有的代理软件,在系统设置-网络和Internet-代理里面应该是空的。
  1. 多次使用之后闪退

缓存文件中可能存在问题,可以尝试清理下载缓存,或者重新解压程序到一个新的目录。

  1. 命令行输出乱码

请检查系统编码是否为UTF-8,Windows控制面板-区域-更改日期、时间或数字格式-管理-更改系统区域设置-使用UTF-8提供全球语言支持。

  1. 不是Windows系统可以用吗

Linux可以使用服务器部署进行运行,详细请参考server分支。MacOS暂时不支持,用户可以使用镜像部署

  1. 没有显卡/手机可以用吗

可以使用在线镜像进行运行,不需要显卡,手机也可以用,详细请参考镜像部署

开发

  1. 安装依赖
pip install -r requirements.txt
  1. 构建程序
pyinstaller app.spec

声明

本软件仅供学习交流使用,不得用于商业用途。本软件不对任何使用者的行为负责,不保证翻译结果的准确性。使用本软件即代表您同意自行承担使用本软件的风险,包括但不限于版权风险、法律风险等。请遵守当地法律法规,不要使用本软件进行任何违法行为。

如果对你有帮助的话请给一个Star!

Star History Chart

About

VoiceTrans是一站式离线AI视频字幕生成和翻译软件,从视频下载,音频提取,听写打轴,字幕翻译,视频合成,字幕总结各个环节为翻译者提供便利。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%