Skip to content

Latest commit

 

History

History
78 lines (48 loc) · 3.82 KB

File metadata and controls

78 lines (48 loc) · 3.82 KB

VAT 已知问题

本文档记录已知但尚未修复的问题,以及 LLM 成本参考信息。已修复的问题归档在 docs/archive/ 目录。


一、LLM 各阶段模型配置

各阶段按能力需求分配不同模型。每个视频处理完成后,实际使用的模型配置会记录到 metadata['stage_models'] 中,在 WebUI 详情页和 B站简介中展示。

阶段 当前模型 来源 说明
Split(断句) gpt-4o-mini 中转站 断句对模型要求低;国产模型测试过度断句(在日语条件句ば后、宾格を后错误断开)
Optimize(优化) kimi-k2.5 火山引擎方舟 同语言 ASR 纠错能力好(能修正人名、自我介绍等),节省 Gemini 额度
Translate(翻译) gemini-3-flash Google API 质量最优,ASR 乱码纠错能力无可替代

详细评测数据见 翻译评测报告

Reflect 开销说明

Reflect 不是多次 LLM 调用,而是单次调用中输出 3 个字段(initial_translation + reflection + native_translation)。 实际开销增量:output token 约 2.5-3x,综合成本约 1.5-2x(取决于 batch_size 对 prompt 开销的摊薄)。


二、ASR(语音识别)

ASR-1: 偶发漏句

  • 现象:频率很低,但会漏掉整句
  • 原因:faster-whisper 本身的局限
  • 状态:暂无解决方案,等待上游改进

ASR-2: BGM/歌唱场景识别差

  • 现象:BGM 较大的歌唱、音调明显偏离正常讲话的语调,ASR 会漏检
  • 补充:一旦 ASR 能识别到,翻译效果依然理想
  • 状态:暂无解决方案。可考虑 two-pass 方案(常规识别 + 歌唱专用参数),但开发成本高

ASR-3: 多讲话人问题

  • 现象:多人同时讲话时 ASR 识别质量下降
  • 状态:暂无解决方案。测试过 kotoba-whisper + diarizers,效果不如 faster-whisper large-v3
  • 注意(dedup 相关):当前 dedup_adjacent_segments 基于时间重叠比判定重复段。由于 faster-whisper 是单流输出(无说话人分离),不会产生多讲话人的合法时间重叠,因此 dedup 不会误删。但若未来启用 diarization(说话人分离),ASR 可能输出不同说话人的合法重叠段,届时 dedup 需结合 speaker_id 区分——仅对同一说话人的重叠去重,不同说话人的保留

ASR-4: 漏字、错字与同音异字

  • 现象:日语场景尤其严重——片假名、平假名、汉字三种写法读音可能相同但含义不同
  • 影响:下游 optimize 阶段的 diff 校验可能将合法的同义替换误判为非法修改。已通过片假名→平假名归一化缓解
  • 状态:部分缓解,无法完全解决

ASR-5: 幻觉输出

  • 现象:VTuber 直播无声序幕(只有画面、无语音)容易产生幻觉文本
  • 缓解:默认关闭 condition_on_previous_text,防止幻觉蔓延
  • 状态:已有后处理检测(幻觉检测模块),但无法 100% 消除

ASR-6: initial_prompt 无通用有效方案

  • 现象:测试了多种写法,绝大部分情况效果变差
  • 状态:暂不使用。详见 ASR 参数指南

ASR-7、Split-1、Split-2 已修复,归档至 docs/archive/fixed_issues.md


三、Translate(翻译)

Translate-1: chunk 间上下文传递

  • 现象:翻译阶段按 chunk 并行处理,chunk 之间无上下文传递(Optimize 阶段已改为带上下文的线性处理)
  • 状态:理论上添加 chunk 间上下文可提升连贯性,但会将并行改为串行。收益与成本待评估

四、B 站上传

Upload-1 ~ Upload-7 已修复,归档至 docs/archive/fixed_issues.md