Voice Conversion 调研 #2789
yt605155624
started this conversation in
Show and tell
Replies: 0 comments
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
1 基本概念
1.1 根据是否对语音特征进行解耦(如 timbre/content/pitch/rhythm 等的解耦)
Feature Disentangle
Direct Transformation
1.2 根据单个 VC 系统可以支持的源说话者和目标说话者的数量
one-to-one
many-to-one
many-to-many
any-to-many
any-to-any (one-shot / free shot VC)
FreeVC 中提到 text-based VC and text-free VC
2 参考资料
3 Feature Disentangle
3.1 Text-Free Voice Conversion
VITS-VC
[27 Oct 2022] FreeVC
[2 Jun 2021] NVC-Net
[Interspeech 2022 18 Aug 2022] SRD-VC
[ICASSP 2022]SpeechSplit2
[PMLR 2020]SpeechSplit
[31 Mar 2022]DYGANVC
[29 Sep 2021]ClsVC
[Interspeech 2021]VQMIVC
cascaded ASR+TTS
[Interspeech 2020]SkipVQVC
(VQVC+)
[31 Oct 2020]AGAIN-VC
[27 Oct 2020]FragmentVC
[ICML 2019 14 May 2019] AutoVC
[Interspeech 2019 10 Apr 2019] AdaIN-VC
3.2 Text-based Voice Conversion 基于 PPG 的 VC
[12 Oct 2021]S3PRL-VC
[TASLP 2021]BNE-PPG-VC
[ICASSP 2021 3 Feb 2021]FastSpeech VC
Q:
1.PPG extractor 是在中文数据集训练的还是英文数据集,是音素级别还是字级别
2.是否使用了 Log-F0 特征,用什么工具提取的
3.提取 PPG 的声学参数(fs, hop_size, windows_size )是否和 TTS 的声学参数一致,是否做了长度映射(因为输出 mel 特征长度要和 PPG 长度一致)
A:
1.英文场景用的是英文的 asr,音素级别。其实用模型中间的隐状态会更好一些
2.pitch,好像没有取 log,应该取一下 log 的,用的是 pyworld
3.是一样的,asr 和 tts 的 hop_size 一样,所以帧数就一样。都是 10ms 还是12ms 来着。如果不一样做一个插值将长度对齐就行,fs,windows_size 关系都不大,主要和 hop size 的时间有关
[INTERSPEECH 2020 16 Oct 2020]
Tacotron2 VC
PaddleSpeech/paddlespeech/s2t/models/u2/u2.py
Line 737 in 96d76c8
PaddleSpeech/paddlespeech/s2t/models/u2/u2.py
Line 379 in 96d76c8
4 Direct Transformation
[Interspeech 2021Best Paper Award]StarGANv2-VC
5 音频 demo 听感结论
从 SRD-VC 的 demo 听效果:
SRDVC > ClsVC(更清晰,但是语调不符合 source) > VQMIVC > SkipVQVC(咬字不清) > AutoVC(沙哑)> AdaIN-VC(发声困难)
音色相似度上 VQMIVC 最像
5.1 One-Shot
从 AGAIN-VC 的 demo 听效果
不太自然
从 DYGANVC 的 demo 听效果
DYGAN-VC 效果不错 > cascaded ASR+TTS
从 AutoVC 的 demo 听效果
AutoVC > StarGAN VC
LIMIVC 和 FragmentVC 效果比较
LIMIVC() > FragmentVC(沙哑)
良杰的判断
SRDVC > LIMIVC > FragmentVC
SRD-VC、DYGANVC、StarGANv2-VC、VQMIVC、LIMIVC 择优复现
5.2 text-based
从 BNE-PPG-VC demo 听效果
any-to-many 的音色不太像,any-to-any 的音质比 any-to-many 要差
从 FastSpeech VC demo 听效果
同语言的听起来FastSpeech VC 的音色比 BNE-PPG-VC 更像一点
VITS-VC -> 是 GlowTTS 的能力
pr:
#2268
相关细节:
TODO
freevc 、fastspeech VC VQMIVC 择优选择
Beta Was this translation helpful? Give feedback.
All reactions