3.5的模型如果cuda graph不放在显存中，吞吐量会大幅下降 #99

cowcomic · 2026-03-20T03:16:23Z

cowcomic
Mar 20, 2026

我用vllm部署qwen3.5的时候用eager模式把cuda graph放到内存中，结果吞吐量会大幅下降，只有1/4到1/3。
但是qewn2.5就不会这样，虽然也会下降但很有限，至少还能保持9/10。
这是为啥呢？