如题 Kimi-VL-A3B-Instruct用vllm部署之后 推理时延很不稳定 并且还经常输出乱码,但是thinking版本就还不错,但是目前我们需要一个时延比较低的版本,Instruct版本偶尔时延比较低,但是指令遵循能力太差,而且输出不稳定,时延也不稳定。 <img width="1840" height="426" alt="Image" src="https://github.com/user-attachments/assets/282a8457-5d20-446d-8c96-5b0684bfe4fa" /> <img width="1768" height="392" alt="Image" src="https://github.com/user-attachments/assets/4499b233-e5ce-41b6-a87a-75d854814b81" /> <img width="1868" height="478" alt="Image" src="https://github.com/user-attachments/assets/225c17ca-f1ed-4682-82ea-2a5d434c3c74" />