[Bugfix] Fix failing GPT-OSS initialization test (#22557)

Isotr0py · web-flow · commit 7920e9b1c5e1 · 2025-08-09T00:03:26.000-07:00
Signed-off-by: Isotr0py &lt;mozf@mail2.sysu.edu.cn&gt;
diff --git a/tests/models/registry.py b/tests/models/registry.py
@@ -200,7 +200,7 @@ def check_available_online(
                                        {"6b": "EleutherAI/gpt-j-6b"}),
     "GPTNeoXForCausalLM": _HfExamplesInfo("EleutherAI/pythia-70m",
                                           {"1b": "EleutherAI/pythia-1.4b"}),
-    "GptOssForCausalLM": _HfExamplesInfo("openai/gpt-oss-20b"),
+    "GptOssForCausalLM": _HfExamplesInfo("lmsys/gpt-oss-20b-bf16"),
     "GraniteForCausalLM": _HfExamplesInfo("ibm/PowerLM-3b"),
     "GraniteMoeForCausalLM": _HfExamplesInfo("ibm/PowerMoE-3b"),
     "GraniteMoeHybridForCausalLM": _HfExamplesInfo("ibm-granite/granite-4.0-tiny-preview"),  # noqa: E501
diff --git a/tests/models/test_initialization.py b/tests/models/test_initialization.py
@@ -68,6 +68,11 @@ def _initialize_kv_caches_v1(self, vllm_config):
         if model_arch == "Phi4FlashForCausalLM":
             # Phi4FlashForCausalLM only supports DIFFERENTIAL_FLASH_ATTN backend
             m.setenv("VLLM_ATTENTION_BACKEND", "DIFFERENTIAL_FLASH_ATTN")
+        if model_arch == "GptOssForCausalLM":
+            # FIXME: A hack to bypass FA3 assertion because our CI's L4 GPU
+            # has cc==8.9 which hasn't supported FA3 yet. Remove this hack when
+            # L4 supports FA3.
+            m.setenv("VLLM_ATTENTION_BACKEND", "TRITON_ATTN_VLLM_V1")
         LLM(
             model_info.default,
             tokenizer=model_info.tokenizer,