ASR 增强实验报告

实验时间：2026年2月28日 - 3月2日
测试环境：4×RTX 4090, faster-whisper 1.2.1, large-v3
测试数据：20个带人工日语字幕的 Hololive VTuber 视频（非歌曲，GT≥100字，日语比例≥30%）
实验规模：20个方案，400+个ASR任务

结论

当前生产配置（vad_filter: false + large-v3 + beam_size: 7）已接近最优。

关闭VAD是最有效的改进（CER -7.5%），当前配置已采用
降噪预处理有~2%收益，但2/20视频变差且无法自动判定何时启用，不适合集成
人声分离在通用视频上反而变差，按场景自动启用的现有策略是正确的
所有置信度/概率过滤方案均失败——VTuber口语天然置信度偏低
beam_size=5 vs 7差异<1%，无需调整
进一步提升需要从模型层面（日语专用模型等）入手，预处理/后处理空间已穷尽

一、背景

pipeline 最大瓶颈是 ASR 质量（见 docs/TRANSLATION_AND_ASR_EVALUATION.md）。之前 350 视频参数评测显示参数调优收益有限（~1-3% CER），本实验探索更多维度：音频预处理、VAD策略、置信度过滤、人声分离等。

二、实验排名

当前生产配置对应 no_vad（★），baseline 是开启 VAD 的对照组。

排名	方案	CER	vs baseline	vs 当前(no_vad)	类别
1	no_vad_nr	49.82%	-9.4%	-2.0% ✅	关VAD+降噪(0.5)
2	no_vad ★	50.86%	-7.5%	0%	当前配置
3	no_vad_wc	51.27%	-6.8%	+0.8%	关VAD+词过滤
4	vocal_sep	52.02%	-5.4%	+2.3%	人声分离
5	vocal_sep_turbo	53.07%	-3.5%	+4.4%	人声分离+turbo
6	vad_relaxed	53.77%	-2.3%	+5.7%	宽松VAD
7-8	noise_reduce / word_conf_filter	~54%	~-1.7%	~+6.3%	降噪 / 词过滤
9-10	no_vad_nr_postfilter / no_vad_postfilter	~54.3%	~-1.2%	~+6.8%	关VAD+no_speech过滤
11-13	highpass / nr_strong / normalize	~54.9%	~-0.1%	~+8%	音频预处理
14	baseline (VAD开)	55.01%	0%	+8.2%	对照组
15-17	combo_nr_hp / turbo / vad_agg	55-57%	+0.4~+4.3%	更差	—
18-19	relaxed_vad_postfilter / conf_filter	58-64%	+6.6~+15.9%	更差	—

三、关键发现

3.1 VAD策略

配置	CER	vs baseline
no_vad（关闭）	50.86%	-7.5%
vad_relaxed（阈值0.3）	53.77%	-2.3%
baseline（默认）	55.01%	0%
vad_aggressive（阈值0.6）	57.40%	+4.3%

VAD 越激进 CER 越高。Silero VAD 在 VTuber 直播场景下（BGM、音效、笑声）误杀有效语音。关闭 VAD 让 Whisper 用内部静音检测，更鲁棒。

no_vad 的副作用（逐片段验证）：

幻觉率从 0.7% 升到 1.4%，4/20 视频变差
核心问题是纯音乐段落被误转录（如"チャカナカマカマカ"乱码），而非通常意义的幻觉
典型改善案例：ZezL7jHGKCA baseline 仅2段(VAD误杀) → no_vad 34段，CER 94%→28%
CER改善确实来自"捕获更多有效内容"（开头问候、快速口语），经逐段内容对比验证

3.2 音频预处理

温和降噪(0.5)有-1.8%帮助，但强降噪(0.8)反而有害。高通滤波、归一化效果微乎其微。组合预处理反而比单独方案差（预处理链越长越可能引入失真）。

Whisper 训练数据包含各种噪声环境，传统降噪改变频谱表示后可能偏离训练分布。

3.3 降噪集成评估

测试了降噪与当前配置的组合：

方案	CER	vs 当前	改善/变差/持平
no_vad_nr (0.5)	49.82%	-2.0%	5/3/12
no_vad_nr_light (0.3)	49.60%	-2.5%	5/2/13

不适合集成：

2/20视频变差（最大+5%），变差视频均为低音量音频（RMS < -26dB）
尝试用 RMS 阈值自动判断何时启用，但有益视频 RMS(-28.4~-21.6dB) 与有害视频 RMS(-30.4~-29.3dB) 范围重叠，无法可靠区分
收益不够稳定，不值得增加复杂度

3.4 人声分离

方案	CER	vs 当前
vocal_sep	52.02%	+2.3% ❌
vocal_sep_turbo	53.07%	+4.4% ❌

通用视频上反而变差——对无强BGM的视频过度处理了清晰音频。项目已有按场景(gaming/music_live)自动启用的策略，这是正确的。

3.5 置信度/概率过滤

所有过滤方案均比当前配置差3-13%。no_speech_prob 和 avg_logprob 在 VTuber 口语场景下不是可靠的质量指标——快语速、有BGM的有效内容也天然偏低。

3.6 模型对比

turbo(55.64%) 稍差于 v3(55.01%)，差距 1.1%。turbo 速度快 3-4 倍，速度优先场景可选用。

四、CER 指标说明

CER 移除标点后计算。50-55% 的绝对值主要来自汉字/假名写法差异（如"私"vs"わたし"），实际内容基本正确。CER 的相对变化在 20 视频样本上是可靠趋势，7.5% 的改善可感知，1-2% 的改善感知差异较小。

五、后续可探索方向

kotoba-whisper：日语专用蒸馏模型（基于 large-v3 蒸馏）
WhisperX 风格分段：VAD分段 → 逐段ASR → wav2vec2对齐
超长视频验证：当前测试 3-10 分钟，需验证 30+ 分钟视频
beam_size=5：之前评测建议，速度提升~10%，质量差异<1%

六、实验工具

python scripts/asr_evaluation/asr_enhancement_experiment.py --list    # 列出实验
python scripts/asr_evaluation/asr_enhancement_experiment.py -e all -n 20 --gpu 0  # 运行全部
python scripts/asr_evaluation/asr_enhancement_experiment.py --report  # 生成报告

实验数据：/local/gzy/4090-48/vat/experiments/ground_truth/vtuber_channels/enhancement_results/

最后更新: 2026-03-02

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ASR 增强实验报告

结论

一、背景

二、实验排名

三、关键发现

3.1 VAD策略

3.2 音频预处理

3.3 降噪集成评估

3.4 人声分离

3.5 置信度/概率过滤

3.6 模型对比

四、CER 指标说明

五、后续可探索方向

六、实验工具

FilesExpand file tree

ASR_ENHANCEMENT_EXPERIMENT.md

Latest commit

History

ASR_ENHANCEMENT_EXPERIMENT.md

File metadata and controls

ASR 增强实验报告

结论

一、背景

二、实验排名

三、关键发现

3.1 VAD策略

3.2 音频预处理

3.3 降噪集成评估

3.4 人声分离

3.5 置信度/概率过滤

3.6 模型对比

四、CER 指标说明

五、后续可探索方向

六、实验工具