vllm-project
diff --git a/‎.github/workflows/vllm_ascend_test.yaml
Lines changed: 3 additions & 9 deletions b/‎.github/workflows/vllm_ascend_test.yaml
Lines changed: 3 additions & 9 deletions
diff --git a/‎.github/workflows/vllm_ascend_test_310p.yaml
Lines changed: 1 addition & 1 deletion b/‎.github/workflows/vllm_ascend_test_310p.yaml
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source/tutorials/multi_node_kimi.md
Lines changed: 1 addition & 1 deletion b/‎docs/source/tutorials/multi_node_kimi.md
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/source/tutorials/single_npu_qwen3_quantization.md
Lines changed: 5 additions & 2 deletions b/‎docs/source/tutorials/single_npu_qwen3_quantization.md
Lines changed: 5 additions & 2 deletions
diff --git a/‎docs/source/user_guide/feature_guide/quantization.md
Lines changed: 2 additions & 1 deletion b/‎docs/source/user_guide/feature_guide/quantization.md
Lines changed: 2 additions & 1 deletion
diff --git a/‎tests/ut/core/test_scheduler.py
Lines changed: 1 addition & 1 deletion b/‎tests/ut/core/test_scheduler.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/ut/kv_connector/test_remote_decode_lifecycle.py
Lines changed: 8 additions & 15 deletions b/‎tests/ut/kv_connector/test_remote_decode_lifecycle.py
Lines changed: 8 additions & 15 deletions
diff --git a/‎tests/ut/kv_connector/test_remote_prefill_lifecycle.py
Lines changed: 8 additions & 15 deletions b/‎tests/ut/kv_connector/test_remote_prefill_lifecycle.py
Lines changed: 8 additions & 15 deletions
diff --git a/‎tests/ut/kv_connector/utils.py
Lines changed: 6 additions & 14 deletions b/‎tests/ut/kv_connector/utils.py
Lines changed: 6 additions & 14 deletions
diff --git a/‎tests/ut/ops/test_layernorm.py
Lines changed: 53 additions & 0 deletions b/‎tests/ut/ops/test_layernorm.py
Lines changed: 53 additions & 0 deletions
@@ -81,7 +81,7 @@ jobs:
         VLLM_USE_MODELSCOPE: True
     strategy:
       matrix:
-        vllm_version: [main, v0.10.0]
+        vllm_version: [main]
     steps:
       - name: Install packages
         run: |
@@ -137,7 +137,7 @@ jobs:
       max-parallel: 2
       matrix:
         os: [linux-aarch64-a2-1]
-        vllm_version: [main, v0.10.0]
+        vllm_version: [main]
     name: singlecard e2e test
     runs-on: ${{ matrix.os }}
     container:
@@ -185,9 +185,6 @@ jobs:
         run: |
           pip install -r requirements-dev.txt
           pip install -v -e .
-          if [[ "${{ matrix.vllm_version }}" == "v0.10.0" ]]; then
-            pip install "transformers<4.54.0"
-          fi
 
       - name: Run e2e test
         env:
@@ -222,7 +219,7 @@ jobs:
       max-parallel: 2
       matrix:
         os: [linux-aarch64-a2-2]
-        vllm_version: [main, v0.10.0]
+        vllm_version: [main]
     name: multicard e2e test
     runs-on: ${{ matrix.os }}
     container:
@@ -270,9 +267,6 @@ jobs:
         run: |
           pip install -r requirements-dev.txt
           pip install -v -e .
-          if [[ "${{ matrix.vllm_version }}" == "v0.10.0" ]]; then
-            pip install "transformers<4.54.0"
-          fi
 
       - name: Run vllm-project/vllm-ascend test
         env:
 
@@ -53,7 +53,7 @@ jobs:
       max-parallel: 2
       matrix:
         os: [linux-aarch64-310p-1, linux-aarch64-310p-4]
-        vllm_version: [main, v0.10.0]
+        vllm_version: [main]
     name: 310p e2e test
     runs-on: ${{ matrix.os }}
     container:
 
@@ -5,7 +5,7 @@
 referring to [multi_node.md](https://vllm-ascend.readthedocs.io/en/latest/tutorials/multi_node.html#verification-process)
 
 ## Run with docker
-Assume you have two Atlas 800 A3(64G*16) nodes(or 4 *A2* 8), and want to deploy the `Kimi-K2-Instruct-W8A8` quantitative model across multi-node.
+Assume you have two Atlas 800 A3(64G*16) nodes(or 4 * A2), and want to deploy the `Kimi-K2-Instruct-W8A8` quantitative model across multi-node.
 
 ```{code-block} bash
    :substitutions:
 
@@ -32,12 +32,15 @@ see https://www.modelscope.cn/models/vllm-ascend/Qwen3-8B-W4A8
 :::
 
 ```bash
+git clone https://gitee.com/ascend/msit
+cd msit/msmodelslim
+
 # Optional, this commit has been verified
-git clone https://gitee.com/ascend/msit -b f8ab35a772a6c1ee7675368a2aa4bafba3bedd1a
+git checkout f8ab35a772a6c1ee7675368a2aa4bafba3bedd1a
 
-cd msit/msmodelslim
 # Install by run this script
 bash install.sh
+pip install accelerate
 
 cd example/Qwen
 # Original weight path, Replace with your local model path
 
@@ -12,10 +12,11 @@ Install modelslim:
 
 ```bash
 git clone https://gitee.com/ascend/msit
+cd msit/msmodelslim
+
 # Optional, this commit has been verified
 git checkout f8ab35a772a6c1ee7675368a2aa4bafba3bedd1a
 
-cd msit/msmodelslim
 bash install.sh
 pip install accelerate
 ```
 
@@ -50,7 +50,7 @@ def create_requests(
             request_id=f"{i}",
             prompt_token_ids=[i] * num_tokens,
             sampling_params=sampling_params,
-            multi_modal_inputs=mm_inputs,
+            multi_modal_kwargs=mm_inputs,
             multi_modal_placeholders=mm_position,
             multi_modal_hashes=None,
             eos_token_id=EOS_TOKEN_ID,
 
@@ -25,7 +25,6 @@
                                          create_model_runner_output,
                                          create_request, create_scheduler,
                                          create_vllm_config)
-from vllm_ascend.utils import vllm_version_is
 
 
 def test_basic_lifecycle():
@@ -103,13 +102,10 @@ def test_basic_lifecycle():
 
     # (3b): execute_model()
     model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
-    if vllm_version_is("0.10.0"):
-        model_runner_output.finished_sending = [request_id]
-    else:
-        from vllm.v1.worker.kv_connector_model_runner_mixin import \
-            KVConnectorOutput  # type: ignore  # noqa
-        model_runner_output.kv_connector_output = KVConnectorOutput(
-            finished_sending=[request_id])
+    from vllm.v1.worker.kv_connector_model_runner_mixin import \
+        KVConnectorOutput  # type: ignore  # noqa
+    model_runner_output.kv_connector_output = KVConnectorOutput(
+        finished_sending=[request_id])
 
     # (3c): update_from_output()
     scheduler.update_from_output(scheduler_output, model_runner_output)
@@ -164,13 +160,10 @@ def test_prefix_cache_lifecycle():
     scheduler_output = scheduler.schedule()
     scheduler.schedule()
     model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
-    if vllm_version_is("0.10.0"):
-        model_runner_output.finished_sending = [request_remote.request_id]
-    else:
-        from vllm.v1.worker.kv_connector_model_runner_mixin import \
-            KVConnectorOutput  # noqa
-        model_runner_output.kv_connector_output = KVConnectorOutput(
-            finished_sending=[request_remote.request_id])
+    from vllm.v1.worker.kv_connector_model_runner_mixin import \
+        KVConnectorOutput  # noqa
+    model_runner_output.kv_connector_output = KVConnectorOutput(
+        finished_sending=[request_remote.request_id])
     scheduler.update_from_output(scheduler_output, model_runner_output)
     _ = scheduler.schedule()
     assert_scheduler_empty(scheduler)
@@ -25,7 +25,6 @@
                                          create_model_runner_output,
                                          create_request, create_scheduler,
                                          create_vllm_config)
-from vllm_ascend.utils import vllm_version_is
 
 
 def test_basic_lifecycle():
@@ -91,13 +90,10 @@ def test_basic_lifecycle():
 
     # (2b): forward(): request finishes recv.
     model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
-    if vllm_version_is("0.10.0"):
-        model_runner_output.finished_recving = [request_id]
-    else:
-        from vllm.v1.worker.kv_connector_model_runner_mixin import \
-            KVConnectorOutput  # type: ignore  # noqa
-        model_runner_output.kv_connector_output = KVConnectorOutput(
-            finished_recving=[request_id])
+    from vllm.v1.worker.kv_connector_model_runner_mixin import \
+        KVConnectorOutput  # type: ignore  # noqa
+    model_runner_output.kv_connector_output = KVConnectorOutput(
+        finished_recving=[request_id])
 
     # (2c): update_from_output():
     engine_core_outputs = scheduler.update_from_output(scheduler_output,
@@ -211,13 +207,10 @@ def test_full_block_prompt():
     # # STEP (2): Recv.
     scheduler_output = scheduler.schedule()
     model_runner_output = copy.deepcopy(EMPTY_MODEL_RUNNER_OUTPUT)
-    if vllm_version_is("0.10.0"):
-        model_runner_output.finished_recving = [request_id]
-    else:
-        from vllm.v1.worker.kv_connector_model_runner_mixin import \
-            KVConnectorOutput  # type: ignore  # noqa
-        model_runner_output.kv_connector_output = KVConnectorOutput(
-            finished_recving=[request_id])
+    from vllm.v1.worker.kv_connector_model_runner_mixin import \
+        KVConnectorOutput  # type: ignore  # noqa
+    model_runner_output.kv_connector_output = KVConnectorOutput(
+        finished_recving=[request_id])
     scheduler.update_from_output(scheduler_output, model_runner_output)
     assert len(scheduler.waiting) == 1
     assert (request_id in scheduler.finished_recving_kv_req_ids)
 
@@ -157,7 +157,7 @@ def create_request(
         request_id=f"id-{request_id}",
         prompt_token_ids=prompt_token_ids,
         sampling_params=sampling_params,
-        multi_modal_inputs=None,
+        multi_modal_kwargs=None,
         multi_modal_placeholders=None,
         multi_modal_hashes=None,
         **({
@@ -187,19 +187,11 @@ def create_model_runner_output(
 
     # Make output data structure.
     extra_args = {}
-    if not vllm_version_is("0.10.0"):
-        from vllm.v1.worker.kv_connector_model_runner_mixin import \
-            KVConnectorOutput  # type: ignore  # noqa
-        kv_connector_output = KVConnectorOutput(
-            finished_sending=finished_sending,
-            finished_recving=finished_recving)
-        extra_args = {"kv_connector_output": kv_connector_output}
-    else:
-        extra_args = {
-            "finished_sending": finished_sending,
-            "finished_recving": finished_recving,
-        }
-
+    from vllm.v1.worker.kv_connector_model_runner_mixin import \
+        KVConnectorOutput  # type: ignore  # noqa
+    kv_connector_output = KVConnectorOutput(finished_sending=finished_sending,
+                                            finished_recving=finished_recving)
+    extra_args = {"kv_connector_output": kv_connector_output}
     return ModelRunnerOutput(
         req_ids=req_ids,
         req_id_to_index=req_id_to_index,
 
@@ -0,0 +1,53 @@
+from unittest.mock import patch
+
+import pytest
+import torch
+from vllm.model_executor.layers.layernorm import RMSNorm
+
+
+@pytest.fixture
+def dummy_tensor():
+    return torch.randn(4, 8, dtype=torch.float16)
+
+
+def mock_rms_norm(x, weight, eps):
+    return x + 1, None
+
+
+def mock_add_rms_norm(x, residual, weight, eps):
+    return 2 * x, None, 2 * residual
+
+
+@pytest.mark.parametrize("is_310p_return", [True, False])
+@pytest.mark.parametrize("residual",
+                         [None, torch.randn(4, 8, dtype=torch.float32)])
+@patch("torch_npu.npu_rms_norm", side_effect=mock_rms_norm)
+@patch("torch_npu.npu_add_rms_norm", side_effect=mock_add_rms_norm)
+def test_RMSNorm_forward(mock_add_rmsnorm, mock_rmsnorm, is_310p_return,
+                         residual, dummy_tensor):
+
+    with patch("vllm_ascend.utils.is_310p", return_value=is_310p_return):
+        layer = RMSNorm(hidden_size=32, eps=1e-05)
+        if residual is not None:
+            out_x, out_residual = layer.forward_oot(dummy_tensor, residual)
+
+            if is_310p_return:
+                expected_arg_x = dummy_tensor + residual.to(dummy_tensor.dtype)
+                expected_out_x = expected_arg_x + 1
+                expected_out_residual = expected_arg_x.to(residual.dtype)
+
+                mock_rmsnorm.assert_called_once()
+                assert torch.allclose(out_x, expected_out_x)
+                assert torch.allclose(out_residual, expected_out_residual)
+            else:
+                expected_out_x = 2 * dummy_tensor
+                expected_out_residual = 2 * residual
+                mock_add_rmsnorm.assert_called_once()
+                assert torch.allclose(out_x, expected_out_x)
+                assert torch.allclose(out_residual, expected_out_residual)
+        else:
+            out_x = layer.forward(dummy_tensor, residual)
+            expected_out_x = dummy_tensor + 1
+
+            mock_rmsnorm.assert_called_once()
+            assert torch.allclose(out_x, expected_out_x)