中英文混合的时候,经常会要么出现乱音,要么会丢部分内容。
我用的是Fun-CosyVoice3-0.5B模型,克隆的语音是中文语音。
比如:生成内容文本为:
“”“
Look at the photo. Who are the people? 是 family, friends, 还是 people at a sports game?
我觉得是 family! 他们看起来很亲密。
Good observation! 家人、朋友,都是我们生活中重要的人。
”“”
结果前面出现一段乱音,中间又丢失了部分内容。