运行时卡住

在运行模型时，模型能够正常请求，但是请求几个后，会卡住，流式输出的时候生成几个token后停止输出。此时， 几张卡的aicore飙到100%，但是有一张卡是0，这个时候就卡住了，如下图所示

<img width="707" height="401" alt="Image" src="https://github.com/user-attachments/assets/920b3a57-3115-4fae-8429-6121d2f6ceed" />