如何提升训练声音质量?
#3131
Replies: 1 comment 3 replies
-
语速是和duration相关的,我最近在ft的时候发现当训练还不充分的时候出来的语速也是很快,但是随着epoch增加,duration loss慢慢下降语速就会好很多。我是在100+句上ft了100+epoch才会好一点 |
Beta Was this translation helpful? Give feedback.
3 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
各位大佬好,我目前,other/tts_finetune/tts3流程训练了女声和男声。
1、女声一千句效果就很好了,效果如下:
default.mp4
这里发现一个问题,生成时长超过15s,后面的音频生成质量越来越差,大家可以听上面音频最后一句,基本上失真了,但是我用同样的文字单独生成效果很好,如下:
nv-1.mp4
2、男声先是训练1000多句,效果较差,然后提升到3000句提升比较明显,但还是机器人很重,3000句效果如下(大概2小时音频量):
4.3.mp4
我继续增加到4500句(大概3小时音频量),基本没任何提升了,目前epoch,200, 400,600都试过,lost基本上到1.4左右就下不去,
4月10最新进展:训练提高到5小时音频量,已经没有任何提升了。
请问各位:
1、为什么生成文字长,大概15s以上的生成质量直线下降?(见女声两个音频文件对比)
2、我应该怎么继续提升男声音频训练的质量呢?epoch通常设置多少呢?继续增加数据量吗,但是目前发现增加数据量没提升?
3、我训练的音色,语速和断句都特别快,请问这个是什么原因呢?特别是每句的间隔是如何调整的呢?
4、我看讨论说fastspeech2_mix_ckpt_1.2.0里面女性音色较多,所以女性容易出结果,官方有fastspeech2_male男性单一音色模型,我基于这个模型训练了下男声3000句,出的音色效果很差。如果是微调,是不是fastspeech2_mix基础上要比fastspeech2_male好?
5、官方的fastspeech2_male这个音色能不能说一下音频训练量大概在多少小时?
希望各位一起讨论,给小弟指点一下,感谢。
Beta Was this translation helpful? Give feedback.
All reactions