VAT 的翻译引擎(反思翻译)、字幕优化、智能断句(分块 + LLM)、ASS 渲染的实现均基于此项目,在其基础上做了修改和扩展。
VideoCaptioner 的翻译引擎基于 GalTransl。VAT 间接受益于其翻译思路。
项目最初的想法来源。VoiceTransl 面向 GUI(Gradio)的用户侧设计不适合服务器端批量处理,因此创建了 VAT。早期版本的 ASR 和翻译部分复用过其代码,后已完全替换。
- faster-whisper — 语音识别引擎
- yt-dlp — 视频下载
- biliup — B 站上传(合集管理基于其 API 自行实现)
- Mel-Band-Roformer — 人声分离模型
- WhisperJAV — ASR 后处理参考(幻觉检测、重复清理、日语标点处理)
- faster-whisper-GUI #159 — Whisper 参数调优参考