想请教一下,在经过扩散模型之前的声学模型,也就是从hubert 到 mel的这个阶段,这个出来的mel直接送到声码器,为啥会有电音现象呀,按理来说,hubert已经包含足够多的信息了,为什么生成的mel谱还有那么多平行的共振峰呢?楼主有没有试过用wavLM替代hubert呀?