Skip to content

Latest commit

 

History

History
133 lines (90 loc) · 5.79 KB

File metadata and controls

133 lines (90 loc) · 5.79 KB

ASR 增强实验报告

实验时间:2026年2月28日 - 3月2日
测试环境:4×RTX 4090, faster-whisper 1.2.1, large-v3
测试数据:20个带人工日语字幕的 Hololive VTuber 视频(非歌曲,GT≥100字,日语比例≥30%)
实验规模:20个方案,400+个ASR任务

结论

当前生产配置(vad_filter: false + large-v3 + beam_size: 7)已接近最优。

  • 关闭VAD是最有效的改进(CER -7.5%),当前配置已采用
  • 降噪预处理有~2%收益,但2/20视频变差且无法自动判定何时启用,不适合集成
  • 人声分离在通用视频上反而变差,按场景自动启用的现有策略是正确的
  • 所有置信度/概率过滤方案均失败——VTuber口语天然置信度偏低
  • beam_size=5 vs 7差异<1%,无需调整
  • 进一步提升需要从模型层面(日语专用模型等)入手,预处理/后处理空间已穷尽

一、背景

pipeline 最大瓶颈是 ASR 质量(见 docs/TRANSLATION_AND_ASR_EVALUATION.md)。之前 350 视频参数评测显示参数调优收益有限(~1-3% CER),本实验探索更多维度:音频预处理、VAD策略、置信度过滤、人声分离等。


二、实验排名

当前生产配置对应 no_vad(★),baseline 是开启 VAD 的对照组。

排名 方案 CER vs baseline vs 当前(no_vad) 类别
1 no_vad_nr 49.82% -9.4% -2.0% ✅ 关VAD+降噪(0.5)
2 no_vad 50.86% -7.5% 0% 当前配置
3 no_vad_wc 51.27% -6.8% +0.8% 关VAD+词过滤
4 vocal_sep 52.02% -5.4% +2.3% 人声分离
5 vocal_sep_turbo 53.07% -3.5% +4.4% 人声分离+turbo
6 vad_relaxed 53.77% -2.3% +5.7% 宽松VAD
7-8 noise_reduce / word_conf_filter ~54% ~-1.7% ~+6.3% 降噪 / 词过滤
9-10 no_vad_nr_postfilter / no_vad_postfilter ~54.3% ~-1.2% ~+6.8% 关VAD+no_speech过滤
11-13 highpass / nr_strong / normalize ~54.9% ~-0.1% ~+8% 音频预处理
14 baseline (VAD开) 55.01% 0% +8.2% 对照组
15-17 combo_nr_hp / turbo / vad_agg 55-57% +0.4~+4.3% 更差
18-19 relaxed_vad_postfilter / conf_filter 58-64% +6.6~+15.9% 更差

三、关键发现

3.1 VAD策略

配置 CER vs baseline
no_vad(关闭) 50.86% -7.5%
vad_relaxed(阈值0.3) 53.77% -2.3%
baseline(默认) 55.01% 0%
vad_aggressive(阈值0.6) 57.40% +4.3%

VAD 越激进 CER 越高。Silero VAD 在 VTuber 直播场景下(BGM、音效、笑声)误杀有效语音。关闭 VAD 让 Whisper 用内部静音检测,更鲁棒。

no_vad 的副作用(逐片段验证):

  • 幻觉率从 0.7% 升到 1.4%,4/20 视频变差
  • 核心问题是纯音乐段落被误转录(如"チャカナカマカマカ"乱码),而非通常意义的幻觉
  • 典型改善案例:ZezL7jHGKCA baseline 仅2段(VAD误杀) → no_vad 34段,CER 94%→28%
  • CER改善确实来自"捕获更多有效内容"(开头问候、快速口语),经逐段内容对比验证

3.2 音频预处理

温和降噪(0.5)有-1.8%帮助,但强降噪(0.8)反而有害。高通滤波、归一化效果微乎其微。组合预处理反而比单独方案差(预处理链越长越可能引入失真)。

Whisper 训练数据包含各种噪声环境,传统降噪改变频谱表示后可能偏离训练分布。

3.3 降噪集成评估

测试了降噪与当前配置的组合:

方案 CER vs 当前 改善/变差/持平
no_vad_nr (0.5) 49.82% -2.0% 5/3/12
no_vad_nr_light (0.3) 49.60% -2.5% 5/2/13

不适合集成

  • 2/20视频变差(最大+5%),变差视频均为低音量音频(RMS < -26dB)
  • 尝试用 RMS 阈值自动判断何时启用,但有益视频 RMS(-28.4~-21.6dB) 与有害视频 RMS(-30.4~-29.3dB) 范围重叠,无法可靠区分
  • 收益不够稳定,不值得增加复杂度

3.4 人声分离

方案 CER vs 当前
vocal_sep 52.02% +2.3% ❌
vocal_sep_turbo 53.07% +4.4% ❌

通用视频上反而变差——对无强BGM的视频过度处理了清晰音频。项目已有按场景(gaming/music_live)自动启用的策略,这是正确的。

3.5 置信度/概率过滤

所有过滤方案均比当前配置差3-13%。no_speech_probavg_logprob 在 VTuber 口语场景下不是可靠的质量指标——快语速、有BGM的有效内容也天然偏低。

3.6 模型对比

turbo(55.64%) 稍差于 v3(55.01%),差距 1.1%。turbo 速度快 3-4 倍,速度优先场景可选用。


四、CER 指标说明

CER 移除标点后计算。50-55% 的绝对值主要来自汉字/假名写法差异(如"私"vs"わたし"),实际内容基本正确。CER 的相对变化在 20 视频样本上是可靠趋势,7.5% 的改善可感知,1-2% 的改善感知差异较小。


五、后续可探索方向

  1. kotoba-whisper:日语专用蒸馏模型(基于 large-v3 蒸馏)
  2. WhisperX 风格分段:VAD分段 → 逐段ASR → wav2vec2对齐
  3. 超长视频验证:当前测试 3-10 分钟,需验证 30+ 分钟视频
  4. beam_size=5:之前评测建议,速度提升~10%,质量差异<1%

六、实验工具

python scripts/asr_evaluation/asr_enhancement_experiment.py --list    # 列出实验
python scripts/asr_evaluation/asr_enhancement_experiment.py -e all -n 20 --gpu 0  # 运行全部
python scripts/asr_evaluation/asr_enhancement_experiment.py --report  # 生成报告

实验数据:/local/gzy/4090-48/vat/experiments/ground_truth/vtuber_channels/enhancement_results/


最后更新: 2026-03-02