-
Notifications
You must be signed in to change notification settings - Fork 51
Description
问题描述:
我在使用自己训练的ASR模型在WenetSpeech的测试集上进行测试时,发现测试集中一部分音频与其标注的标签产生了错位,具体表现为:
{"key:": "TEST_NET_Y0000000112_v8N3rTrUaAw_S00140", "pre:": "周易也找到老张的两个孩子把他们送到王玉手中", "label:": "最后还有一事未了那就是送雷哥上路", "cer:": 1.25}
{"key:": "TEST_NET_Y0000000112_v8N3rTrUaAw_S00141", "pre:": "最后还有一事未了那就是送雷哥上路", "label:": "这就是张艺谋导演的悬崖之上", "cer:": 1.1538461538461537}
{"key:": "TEST_NET_Y0000000112_v8N3rTrUaAw_S00142", "pre:": "这就是张一谋导演的悬崖之上", "label:": "它表面演的是一次我党特工营救七三幺受害者的秘密行动", "cer:": 0.92}
等,尚未全部定位
问题原因:
初步判断为,音频的切分产生错误,如下所示:
{"key:": "TEST_NET_Y0000000112_v8N3rTrUaAw_S00138", "pre:": "这位司机老韩正是药店老板周怡的联络人至此乌特拉行动宣告成功", "label:": "周乙要走小兰儿的药片儿他知道自己随时可能暴露而小兰儿这样的新生力量必须活下去看到黎明", "cer:": 0.9761904761904762}
而这个音频片段,音频的内容确实是“这位司机老韩正是药店老板周怡的联络人至此乌特拉行动宣告成功”,但是这个转录文本在meta数据中并不存在
下面数据同理:
{"key:": "TEST_NET_Y0000000066_TdmtONdJFjk_S00089", "pre:": "不管是现在的九九六加班文化", "label:": "还是要做好自己的事情就OK了", "cer:": 1.0}
解决方案:
我目前的解决方案是根据音频实际内容手动修正对应meta文件的文本标注,保持最小改动原则,仍在排查更多案例