实验时间:2026年2月28日 - 3月2日
测试环境:4×RTX 4090, faster-whisper 1.2.1, large-v3
测试数据:20个带人工日语字幕的 Hololive VTuber 视频(非歌曲,GT≥100字,日语比例≥30%)
实验规模:20个方案,400+个ASR任务
当前生产配置(vad_filter: false + large-v3 + beam_size: 7)已接近最优。
- 关闭VAD是最有效的改进(CER -7.5%),当前配置已采用
- 降噪预处理有~2%收益,但2/20视频变差且无法自动判定何时启用,不适合集成
- 人声分离在通用视频上反而变差,按场景自动启用的现有策略是正确的
- 所有置信度/概率过滤方案均失败——VTuber口语天然置信度偏低
- beam_size=5 vs 7差异<1%,无需调整
- 进一步提升需要从模型层面(日语专用模型等)入手,预处理/后处理空间已穷尽
pipeline 最大瓶颈是 ASR 质量(见 docs/TRANSLATION_AND_ASR_EVALUATION.md)。之前 350 视频参数评测显示参数调优收益有限(~1-3% CER),本实验探索更多维度:音频预处理、VAD策略、置信度过滤、人声分离等。
当前生产配置对应 no_vad(★),baseline 是开启 VAD 的对照组。
| 排名 | 方案 | CER | vs baseline | vs 当前(no_vad) | 类别 |
|---|---|---|---|---|---|
| 1 | no_vad_nr | 49.82% | -9.4% | -2.0% ✅ | 关VAD+降噪(0.5) |
| 2 | no_vad ★ | 50.86% | -7.5% | 0% | 当前配置 |
| 3 | no_vad_wc | 51.27% | -6.8% | +0.8% | 关VAD+词过滤 |
| 4 | vocal_sep | 52.02% | -5.4% | +2.3% | 人声分离 |
| 5 | vocal_sep_turbo | 53.07% | -3.5% | +4.4% | 人声分离+turbo |
| 6 | vad_relaxed | 53.77% | -2.3% | +5.7% | 宽松VAD |
| 7-8 | noise_reduce / word_conf_filter | ~54% | ~-1.7% | ~+6.3% | 降噪 / 词过滤 |
| 9-10 | no_vad_nr_postfilter / no_vad_postfilter | ~54.3% | ~-1.2% | ~+6.8% | 关VAD+no_speech过滤 |
| 11-13 | highpass / nr_strong / normalize | ~54.9% | ~-0.1% | ~+8% | 音频预处理 |
| 14 | baseline (VAD开) | 55.01% | 0% | +8.2% | 对照组 |
| 15-17 | combo_nr_hp / turbo / vad_agg | 55-57% | +0.4~+4.3% | 更差 | — |
| 18-19 | relaxed_vad_postfilter / conf_filter | 58-64% | +6.6~+15.9% | 更差 | — |
| 配置 | CER | vs baseline |
|---|---|---|
| no_vad(关闭) | 50.86% | -7.5% |
| vad_relaxed(阈值0.3) | 53.77% | -2.3% |
| baseline(默认) | 55.01% | 0% |
| vad_aggressive(阈值0.6) | 57.40% | +4.3% |
VAD 越激进 CER 越高。Silero VAD 在 VTuber 直播场景下(BGM、音效、笑声)误杀有效语音。关闭 VAD 让 Whisper 用内部静音检测,更鲁棒。
no_vad 的副作用(逐片段验证):
- 幻觉率从 0.7% 升到 1.4%,4/20 视频变差
- 核心问题是纯音乐段落被误转录(如"チャカナカマカマカ"乱码),而非通常意义的幻觉
- 典型改善案例:ZezL7jHGKCA baseline 仅2段(VAD误杀) → no_vad 34段,CER 94%→28%
- CER改善确实来自"捕获更多有效内容"(开头问候、快速口语),经逐段内容对比验证
温和降噪(0.5)有-1.8%帮助,但强降噪(0.8)反而有害。高通滤波、归一化效果微乎其微。组合预处理反而比单独方案差(预处理链越长越可能引入失真)。
Whisper 训练数据包含各种噪声环境,传统降噪改变频谱表示后可能偏离训练分布。
测试了降噪与当前配置的组合:
| 方案 | CER | vs 当前 | 改善/变差/持平 |
|---|---|---|---|
| no_vad_nr (0.5) | 49.82% | -2.0% | 5/3/12 |
| no_vad_nr_light (0.3) | 49.60% | -2.5% | 5/2/13 |
不适合集成:
- 2/20视频变差(最大+5%),变差视频均为低音量音频(RMS < -26dB)
- 尝试用 RMS 阈值自动判断何时启用,但有益视频 RMS(-28.4~-21.6dB) 与有害视频 RMS(-30.4~-29.3dB) 范围重叠,无法可靠区分
- 收益不够稳定,不值得增加复杂度
| 方案 | CER | vs 当前 |
|---|---|---|
| vocal_sep | 52.02% | +2.3% ❌ |
| vocal_sep_turbo | 53.07% | +4.4% ❌ |
通用视频上反而变差——对无强BGM的视频过度处理了清晰音频。项目已有按场景(gaming/music_live)自动启用的策略,这是正确的。
所有过滤方案均比当前配置差3-13%。no_speech_prob 和 avg_logprob 在 VTuber 口语场景下不是可靠的质量指标——快语速、有BGM的有效内容也天然偏低。
turbo(55.64%) 稍差于 v3(55.01%),差距 1.1%。turbo 速度快 3-4 倍,速度优先场景可选用。
CER 移除标点后计算。50-55% 的绝对值主要来自汉字/假名写法差异(如"私"vs"わたし"),实际内容基本正确。CER 的相对变化在 20 视频样本上是可靠趋势,7.5% 的改善可感知,1-2% 的改善感知差异较小。
- kotoba-whisper:日语专用蒸馏模型(基于 large-v3 蒸馏)
- WhisperX 风格分段:VAD分段 → 逐段ASR → wav2vec2对齐
- 超长视频验证:当前测试 3-10 分钟,需验证 30+ 分钟视频
- beam_size=5:之前评测建议,速度提升~10%,质量差异<1%
python scripts/asr_evaluation/asr_enhancement_experiment.py --list # 列出实验
python scripts/asr_evaluation/asr_enhancement_experiment.py -e all -n 20 --gpu 0 # 运行全部
python scripts/asr_evaluation/asr_enhancement_experiment.py --report # 生成报告实验数据:/local/gzy/4090-48/vat/experiments/ground_truth/vtuber_channels/enhancement_results/
最后更新: 2026-03-02