Remove unrecognized vllm args from gpt-oss-120b

Evrard-Nil · Evrard-Nil · commit b9e685ae3418 · 2026-03-06T19:20:12.000+01:00
Remove --max-cudagraph-capture-size and --stream-interval which are
not recognized by the current vLLM api_server.py.
diff --git a/small-models.yaml b/small-models.yaml
@@ -74,12 +74,10 @@ x-gpt-oss-common: &gpt-oss-common
       --enable-prefix-caching
       --async-scheduling
       --max-num-seqs 64
-      --max-cudagraph-capture-size 2048
       --tool-call-parser openai
       --enable-auto-tool-choice
       --max-model-len 128K
       --max-num-batched-tokens 16K
-      --stream-interval 20
       --speculative-config '{"model":"nvidia/gpt-oss-120b-Eagle3-v2","num_speculative_tokens":3,"method":"eagle3","draft_tensor_parallel_size":1}'
       --load-format runai_streamer
       --model-loader-extra-config '{"distributed":true, "concurrency":48}'