<img width="1086" height="1074" alt="Image" src="https://github.com/user-attachments/assets/42e8c997-9c2b-48fc-a562-4c3d54852416" /> 我现在将图片经过Semantic VQ的离散化,模拟LLM的生成token,在经过Diffusion Decoder的解码,想请教下是出了什么问题呢?