感谢您提供的开源代码!我在阅读 SafeSpeech 项目时,针对 protect.py 文件有以下问题想请教:
-
关于 loss_mel 的梯度传播
在 protect.py 中计算 loss_mel 时,p_wav 似乎未进行 detach() 操作。在反向传播时,梯度是否会通过两条路径传播到 p_wav?
- 一条路径:通过 TTS 模型传播。
- 另一条路径:直接传播到
p_wav,不经过 TTS 模型。
-
关于 p_wav 和 wav_hat 的长度一致性
在您的实现中,TTS 模型如何保证 p_wav 和 wav_hat 的长度相同?这两个音频是否基于相同的文本内容生成?