Enable partial reuse for dis-agg tests on Gemma3 and GPT-OSS

eopXD · eopXD · commit 32fdea25c024 · 2025-12-31T01:54:38.000-08:00
Signed-off-by: eopXD &lt;yuehtingc@nvidia.com&gt;
diff --git a/tests/integration/defs/accuracy/test_disaggregated_serving.py b/tests/integration/defs/accuracy/test_disaggregated_serving.py
@@ -1028,12 +1028,12 @@ def test_auto_dtype(self, block_reuse):
         ctx_server_config["kv_cache_config"] = {
             "max_attention_window": [512, 512, 512, 512, 512, 32768],
             "enable_block_reuse": block_reuse,
-            "enable_partial_reuse": False,
+            "enable_partial_reuse": True,
         }
         gen_server_config["kv_cache_config"] = {
             "max_attention_window": [512, 512, 512, 512, 512, 32768],
             "enable_block_reuse": block_reuse,
-            "enable_partial_reuse": False,
+            "enable_partial_reuse": True,
         }
         disaggregated_server_config = {
             "hostname": "localhost",
@@ -1090,13 +1090,13 @@ def test_auto_dtype(self, block_reuse, mocker):
         ctx_server_config["kv_cache_config"] = {
             "max_attention_window": [128, 32768],
             "enable_block_reuse": block_reuse,
-            "enable_partial_reuse": False,
+            "enable_partial_reuse": True,
             "free_gpu_memory_fraction": 0.5,
         }
         gen_server_config["kv_cache_config"] = {
             "max_attention_window": [128, 32768],
             "enable_block_reuse": block_reuse,
-            "enable_partial_reuse": False,
+            "enable_partial_reuse": True,
             "free_gpu_memory_fraction": 0.5,
         }
         disaggregated_server_config = {