VAT 已知问题

本文档记录已知但尚未修复的问题，以及 LLM 成本参考信息。已修复的问题归档在 docs/archive/ 目录。

一、LLM 各阶段模型配置

各阶段按能力需求分配不同模型。每个视频处理完成后，实际使用的模型配置会记录到 metadata['stage_models'] 中，在 WebUI 详情页和 B站简介中展示。

阶段	当前模型	来源	说明
Split（断句）	gpt-4o-mini	中转站	断句对模型要求低；国产模型测试过度断句（在日语条件句ば后、宾格を后错误断开）
Optimize（优化）	kimi-k2.5	火山引擎方舟	同语言 ASR 纠错能力好（能修正人名、自我介绍等），节省 Gemini 额度
Translate（翻译）	gemini-3-flash	Google API	质量最优，ASR 乱码纠错能力无可替代

详细评测数据见翻译评测报告。

Reflect 开销说明

Reflect 不是多次 LLM 调用，而是单次调用中输出 3 个字段（initial_translation + reflection + native_translation）。实际开销增量：output token 约 2.5-3x，综合成本约 1.5-2x（取决于 batch_size 对 prompt 开销的摊薄）。

二、ASR（语音识别）

ASR-1: 偶发漏句

现象：频率很低，但会漏掉整句
原因：faster-whisper 本身的局限
状态：暂无解决方案，等待上游改进

ASR-2: BGM/歌唱场景识别差

现象：BGM 较大的歌唱、音调明显偏离正常讲话的语调，ASR 会漏检
补充：一旦 ASR 能识别到，翻译效果依然理想
状态：暂无解决方案。可考虑 two-pass 方案（常规识别 + 歌唱专用参数），但开发成本高

ASR-3: 多讲话人问题

现象：多人同时讲话时 ASR 识别质量下降
状态：暂无解决方案。测试过 kotoba-whisper + diarizers，效果不如 faster-whisper large-v3
注意（dedup 相关）：当前 dedup_adjacent_segments 基于时间重叠比判定重复段。由于 faster-whisper 是单流输出（无说话人分离），不会产生多讲话人的合法时间重叠，因此 dedup 不会误删。但若未来启用 diarization（说话人分离），ASR 可能输出不同说话人的合法重叠段，届时 dedup 需结合 speaker_id 区分——仅对同一说话人的重叠去重，不同说话人的保留

ASR-4: 漏字、错字与同音异字

现象：日语场景尤其严重——片假名、平假名、汉字三种写法读音可能相同但含义不同
影响：下游 optimize 阶段的 diff 校验可能将合法的同义替换误判为非法修改。已通过片假名→平假名归一化缓解
状态：部分缓解，无法完全解决

ASR-5: 幻觉输出

现象：VTuber 直播无声序幕（只有画面、无语音）容易产生幻觉文本
缓解：默认关闭 condition_on_previous_text，防止幻觉蔓延
状态：已有后处理检测（幻觉检测模块），但无法 100% 消除

ASR-6: initial_prompt 无通用有效方案

现象：测试了多种写法，绝大部分情况效果变差
状态：暂不使用。详见 ASR 参数指南

ASR-7、Split-1、Split-2 已修复，归档至 docs/archive/fixed_issues.md

三、Translate（翻译）

Translate-1: chunk 间上下文传递

现象：翻译阶段按 chunk 并行处理，chunk 之间无上下文传递（Optimize 阶段已改为带上下文的线性处理）
状态：理论上添加 chunk 间上下文可提升连贯性，但会将并行改为串行。收益与成本待评估

四、B 站上传

Upload-1 ~ Upload-7 已修复，归档至 docs/archive/fixed_issues.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

VAT 已知问题

一、LLM 各阶段模型配置

Reflect 开销说明

二、ASR（语音识别）

ASR-1: 偶发漏句

ASR-2: BGM/歌唱场景识别差

ASR-3: 多讲话人问题

ASR-4: 漏字、错字与同音异字

ASR-5: 幻觉输出

ASR-6: initial_prompt 无通用有效方案

三、Translate（翻译）

Translate-1: chunk 间上下文传递

四、B 站上传

FilesExpand file tree

known_issues.md

Latest commit

History

known_issues.md

File metadata and controls

VAT 已知问题

一、LLM 各阶段模型配置

Reflect 开销说明

二、ASR（语音识别）

ASR-1: 偶发漏句

ASR-2: BGM/歌唱场景识别差

ASR-3: 多讲话人问题

ASR-4: 漏字、错字与同音异字

ASR-5: 幻觉输出

ASR-6: initial_prompt 无通用有效方案

三、Translate（翻译）

Translate-1: chunk 间上下文传递

四、B 站上传