Set scheduler v1 as default

rainyfly · rainyfly · commit 57b7f22eb3e8 · 2025-09-03T21:36:58.000+08:00
diff --git a/fastdeploy/engine/common_engine.py b/fastdeploy/engine/common_engine.py
@@ -552,8 +552,6 @@ def _fetch_request():
                     get_request_pool.submit(_fetch_request)
                 # 2. Schedule requests
                 tasks = self.resource_manager.schedule()
-                main_process_metrics.num_requests_waiting.dec(len(tasks))
-                main_process_metrics.num_requests_running.inc(len(tasks))
                 # 3. Send to engine
                 if tasks:
                     self.resource_manager.get_real_bsz()
diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -123,6 +123,8 @@ def _trigger_preempt(self, request, num_new_blocks, preempted_reqs, scheduled_re
                 self.to_be_rescheduled_request_id_set.add(preempted_req.request_id)
                 preempted_reqs.append(preempted_req)
                 scheduled_reqs.append(self._prepare_preempt_task(preempted_req))
+                main_process_metrics.num_requests_waiting.inc(1)
+                main_process_metrics.num_requests_running.dec(1)
                 if preempted_req == request:
                     # No more request to preempt.
                     can_schedule = False
@@ -369,6 +371,8 @@ def schedule(self):
                             token_budget -= num_new_tokens
                             request.num_computed_tokens += num_new_tokens
                             request.status = RequestStatus.RUNNING
+                            main_process_metrics.num_requests_waiting.dec(1)
+                            main_process_metrics.num_requests_running.inc(1)
                             allocated_position = self.get_available_position()
                             request.idx = allocated_position
                             self.tasks_list[allocated_position] = request
@@ -399,6 +403,8 @@ def schedule(self):
                             token_budget -= num_new_tokens
                             request.num_computed_tokens += num_new_tokens
                             request.status = RequestStatus.RUNNING
+                            main_process_metrics.num_requests_waiting.dec(1)
+                            main_process_metrics.num_requests_running.inc(1)
                         else:
                             if self.config.cache_config.enable_prefix_caching:
                                 self._free_blocks(request)
diff --git a/tests/utils/test_config.py b/tests/utils/test_config.py
@@ -1,5 +1,6 @@
 import unittest
 
+from fastdeploy import envs
 from fastdeploy.config import (
     CacheConfig,
     FDConfig,
@@ -48,7 +49,8 @@ def test_fdconfig_max_num_tokens(self):
             ips="0.0.0.0",
             test_mode=True,
         )
-        assert fd_config.max_num_batched_tokens == 2048
+        if not envs.ENABLE_V1_KVCACHE_SCHEDULER:
+            assert fd_config.max_num_batched_tokens == 2048
 
         cache_config.enable_chunked_prefill = False
         fd_config = FDConfig(
@@ -58,7 +60,8 @@ def test_fdconfig_max_num_tokens(self):
             ips="0.0.0.0",
             test_mode=True,
         )
-        assert fd_config.max_num_batched_tokens == 8192
+        if not envs.ENABLE_V1_KVCACHE_SCHEDULER:
+            assert fd_config.max_num_batched_tokens == 8192
 
     def test_fdconfig_init_cache(self):
         parallel_config = ParallelConfig({})