中英文混合的时候，经常会要么出现乱音，要么会丢部分内容。

中英文混合的时候，经常会要么出现乱音，要么会丢部分内容。
我用的是Fun-CosyVoice3-0.5B模型，克隆的语音是中文语音。
比如：生成内容文本为：
“”“
  Look at the photo. Who are the people? 是 family, friends, 还是 people at a sports game?
  我觉得是 family! 他们看起来很亲密。
  Good observation! 家人、朋友，都是我们生活中重要的人。
”“”

结果前面出现一段乱音，中间又丢失了部分内容。