Fix: Enable /v1/models endpoint for pure diffusion mode (Issue #751)

majiayu000 · majiayu000 · commit 3aab7be952c4 · 2026-02-22T17:03:45.000+08:00
Signed-off-by: majiayu000 &lt;1835304752@qq.com&gt;
diff --git a/tests/entrypoints/openai_api/test_image_server.py b/tests/entrypoints/openai_api/test_image_server.py
@@ -161,7 +161,11 @@ def test_client(mock_async_diffusion):
     app.state.engine_client = mock_async_diffusion
     app.state.diffusion_engine = mock_async_diffusion  # Also set for health endpoint
     app.state.stage_configs = [{"stage_type": "diffusion"}]
-    app.state.diffusion_model_name = "Qwen/Qwen-Image"  # For models endpoint
+    
+    from vllm.entrypoints.openai.serving_models import BaseModelPath
+    from vllm_omni.entrypoints.openai.api_server import _DiffusionServingModels
+    app.state.openai_serving_models = _DiffusionServingModels([BaseModelPath(name="Qwen/Qwen-Image", model_path="Qwen/Qwen-Image")])
+    
     app.state.args = Namespace(
         default_sampling_params='{"0": {"num_inference_steps":4, "guidance_scale":7.5}}',
         max_generated_image_size=4096,  # 64*64
@@ -214,33 +218,6 @@ def test_health_endpoint_no_engine():
     assert data["status"] == "unhealthy"
 
 
-def test_models_endpoint(test_client):
-    """Test /v1/models endpoint for diffusion mode"""
-    response = test_client.get("/v1/models")
-    assert response.status_code == 200
-    data = response.json()
-    assert data["object"] == "list"
-    assert len(data["data"]) == 1
-    assert data["data"][0]["id"] == "Qwen/Qwen-Image"
-    assert data["data"][0]["object"] == "model"
-
-
-def test_models_endpoint_no_engine():
-    """Test /v1/models endpoint when no engine is initialized"""
-    from fastapi import FastAPI
-
-    from vllm_omni.entrypoints.openai.api_server import router
-
-    app = FastAPI()
-    app.include_router(router)
-    # Don't set any engine
-
-    client = TestClient(app)
-    response = client.get("/v1/models")
-    assert response.status_code == 200
-    data = response.json()
-    assert data["object"] == "list"
-    assert len(data["data"]) == 0
 
 
 def test_generate_single_image(test_client):
diff --git a/vllm_omni/entrypoints/openai/api_server.py b/vllm_omni/entrypoints/openai/api_server.py
@@ -888,47 +888,6 @@ async def health(raw_request: Request) -> JSONResponse:
     )
 
 
-# Remove existing models endpoint if present (from vllm imports)
-# to ensure our handler takes precedence
-_remove_route_from_router(router, "/v1/models")
-
-
-@router.get("/v1/models")
-async def show_available_models(raw_request: Request) -> JSONResponse:
-    """Show available models endpoint that works for both LLM and diffusion modes.
-
-    Returns model information in OpenAI-compatible format.
-    """
-    # Check if we're in diffusion mode
-    diffusion_model_name = getattr(raw_request.app.state, "diffusion_model_name", None)
-    if diffusion_model_name is not None:
-        # Diffusion mode - return the loaded model
-        return JSONResponse(
-            content={
-                "object": "list",
-                "data": [
-                    {
-                        "id": diffusion_model_name,
-                        "object": "model",
-                        "created": 0,
-                        "owned_by": "vllm-omni",
-                        "permission": [],
-                    }
-                ],
-            }
-        )
-
-    # LLM mode - delegate to openai_serving_models
-    openai_serving_models = getattr(raw_request.app.state, "openai_serving_models", None)
-    if openai_serving_models is not None:
-        models = await openai_serving_models.show_available_models()
-        return JSONResponse(content=models.model_dump())
-
-    return JSONResponse(
-        content={"object": "list", "data": []},
-    )
-
-
 # Image generation API endpoints