本文档记录已知但尚未修复的问题,以及 LLM 成本参考信息。已修复的问题归档在 docs/archive/ 目录。
各阶段按能力需求分配不同模型。每个视频处理完成后,实际使用的模型配置会记录到 metadata['stage_models'] 中,在 WebUI 详情页和 B站简介中展示。
| 阶段 | 当前模型 | 来源 | 说明 |
|---|---|---|---|
| Split(断句) | gpt-4o-mini | 中转站 | 断句对模型要求低;国产模型测试过度断句(在日语条件句ば后、宾格を后错误断开) |
| Optimize(优化) | kimi-k2.5 | 火山引擎方舟 | 同语言 ASR 纠错能力好(能修正人名、自我介绍等),节省 Gemini 额度 |
| Translate(翻译) | gemini-3-flash | Google API | 质量最优,ASR 乱码纠错能力无可替代 |
详细评测数据见 翻译评测报告。
Reflect 不是多次 LLM 调用,而是单次调用中输出 3 个字段(initial_translation + reflection + native_translation)。 实际开销增量:output token 约 2.5-3x,综合成本约 1.5-2x(取决于 batch_size 对 prompt 开销的摊薄)。
- 现象:频率很低,但会漏掉整句
- 原因:faster-whisper 本身的局限
- 状态:暂无解决方案,等待上游改进
- 现象:BGM 较大的歌唱、音调明显偏离正常讲话的语调,ASR 会漏检
- 补充:一旦 ASR 能识别到,翻译效果依然理想
- 状态:暂无解决方案。可考虑 two-pass 方案(常规识别 + 歌唱专用参数),但开发成本高
- 现象:多人同时讲话时 ASR 识别质量下降
- 状态:暂无解决方案。测试过 kotoba-whisper + diarizers,效果不如 faster-whisper large-v3
- 注意(dedup 相关):当前
dedup_adjacent_segments基于时间重叠比判定重复段。由于 faster-whisper 是单流输出(无说话人分离),不会产生多讲话人的合法时间重叠,因此 dedup 不会误删。但若未来启用 diarization(说话人分离),ASR 可能输出不同说话人的合法重叠段,届时 dedup 需结合speaker_id区分——仅对同一说话人的重叠去重,不同说话人的保留
- 现象:日语场景尤其严重——片假名、平假名、汉字三种写法读音可能相同但含义不同
- 影响:下游 optimize 阶段的 diff 校验可能将合法的同义替换误判为非法修改。已通过片假名→平假名归一化缓解
- 状态:部分缓解,无法完全解决
- 现象:VTuber 直播无声序幕(只有画面、无语音)容易产生幻觉文本
- 缓解:默认关闭
condition_on_previous_text,防止幻觉蔓延 - 状态:已有后处理检测(幻觉检测模块),但无法 100% 消除
- 现象:测试了多种写法,绝大部分情况效果变差
- 状态:暂不使用。详见 ASR 参数指南
ASR-7、Split-1、Split-2 已修复,归档至 docs/archive/fixed_issues.md
- 现象:翻译阶段按 chunk 并行处理,chunk 之间无上下文传递(Optimize 阶段已改为带上下文的线性处理)
- 状态:理论上添加 chunk 间上下文可提升连贯性,但会将并行改为串行。收益与成本待评估
Upload-1 ~ Upload-7 已修复,归档至 docs/archive/fixed_issues.md