你好,我对这项工作十分感兴趣,但是我在尝试的时候,发现对于10s以内的音频来说重建效果非常不错,而对于相对较长的音频(比如30s)来说,重建效果并不稳定,会出现基本听不清内容的问题,想问一下你们是否在实验时有发现过这个问题,感谢解答