xiao-yu-chen
diff --git a/‎xllm/core/framework/request/sequences_group.cpp‎
Lines changed: 1 addition & 1 deletion b/‎xllm/core/framework/request/sequences_group.cpp‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎xllm/core/scheduler/chunked_prefill_scheduler.cpp‎
Lines changed: 129 additions & 119 deletions b/‎xllm/core/scheduler/chunked_prefill_scheduler.cpp‎
Lines changed: 129 additions & 119 deletions
diff --git a/‎xllm/core/scheduler/chunked_prefill_scheduler.h‎
Lines changed: 4 additions & 15 deletions b/‎xllm/core/scheduler/chunked_prefill_scheduler.h‎
Lines changed: 4 additions & 15 deletions
diff --git a/‎xllm/core/scheduler/chunked_prefill_scheduler_test.cpp‎
Lines changed: 251 additions & 1 deletion b/‎xllm/core/scheduler/chunked_prefill_scheduler_test.cpp‎
Lines changed: 251 additions & 1 deletion
@@ -69,7 +69,7 @@ bool SequencesGroup::expand_sequences(bool share_prefix) {
   // prefill is not finished, can not expand
   // FIXME later share_prefix
   if (!share_prefix ||
-      seq->kv_state().kv_cache_tokens_num() < seq->num_prompt_tokens()) {
+      seq->kv_state().kv_cache_tokens_num() >= seq->num_prompt_tokens()) {
     while (sequences_.size() < best_of) {
       add();
     }
 
@@ -36,37 +36,26 @@ class ChunkedPrefillScheduler final : public ContinuousScheduler {
   ChunkedPrefillScheduler(Engine* engine, const Options& options);
   virtual ~ChunkedPrefillScheduler();
 
-  std::vector<Batch> prepare_batch_test() { return prepare_batch(); }
-
-  uint32_t get_waiting_requests_num() const override {
-    return waiting_priority_queue_.size();
-  };
-
  private:
   // build a batch of requests from the priority queue
   virtual std::vector<Batch> prepare_batch() override;
-  void handle_abnormal_request(
-      const std::vector<Sequence*>& candidate_sequences,
-      const std::vector<size_t>& candidate_token_budgets,
-      const size_t& allocated_tokens,
-      const size_t& allocated_seqs,
-      size_t& remaining_token_budget,
-      size_t& remaining_seq_budget,
-      bool budget_exhausted,
-      bool block_exhausted);
   void handle_running_queue_requests(
       const size_t max_tokens_per_chunk_for_prefill,
       size_t& remaining_token_budget,
       size_t& remaining_seq_budget,
       size_t& num_preempted_requests,
       std::vector<Sequence*>& prefill_stage_sequences,
+      std::unique_ptr<DecodePriorityQueue>& running_queue,
       bool& budget_exhausted,
       bool& blocks_exhausted);
   void handle_prefill_requests(
       const size_t max_tokens_per_chunk_for_prefill,
       size_t& remaining_token_budget,
       size_t& remaining_seq_budget,
+      size_t& num_preempted_requests,
       std::vector<Sequence*>& prefill_stage_sequences,
+      RequestPriorityQueue& waiting_priority_queue,
+      bool& budget_exhausted,
       bool& blocks_exhausted,
       std::vector<std::shared_ptr<Request>>& finished_requests);
   void handle_remaining_budget(size_t& remaining_token_budget,
 
@@ -82,13 +82,15 @@ ContinuousScheduler::Options create_scheduler_options(
     int32_t max_seqs_per_batch,
     int32_t num_speculative_tokens,
     int32_t max_tokens_per_chunk_for_prefill,
-    int32_t dp_size) {
+    int32_t dp_size,
+    const std::string& priority_strategy = "FCFS") {
   ContinuousScheduler::Options opt;
   opt.num_speculative_tokens_ = num_speculative_tokens;
   opt.max_tokens_per_chunk_for_prefill_ = max_tokens_per_chunk_for_prefill;
   opt.max_tokens_per_batch_ = max_tokens_per_batch;
   opt.max_seqs_per_batch_ = max_seqs_per_batch;
   opt.dp_size_ = dp_size;
+  opt.priority_strategy_ = priority_strategy;
 
   return opt;
 }
@@ -129,6 +131,51 @@ std::vector<std::shared_ptr<Request>> generate_request(
   return requests;
 }
 
+std::vector<std::shared_ptr<Request>> generate_priority_request(
+    const std::vector<int32_t>& prompt_lens,
+    const std::vector<int32_t>& max_tokens,
+    const std::vector<bool>& offlines,
+    const std::vector<int32_t>& priorities,
+    int32_t max_context_len) {
+  std::vector<std::shared_ptr<Request>> requests;
+  EXPECT_TRUE(prompt_lens.size() == max_tokens.size());
+  for (size_t i = 0; i < prompt_lens.size(); ++i) {
+    std::vector<int32_t> prompt_token_ids;
+    prompt_token_ids.resize(prompt_lens[i]);
+    RequestSamplingParam sampling_param;
+    StoppingChecker stopping_checker;
+    stopping_checker.set_max_generated_tokens(max_tokens[i]);
+    stopping_checker.set_max_context_len(max_context_len);
+    stopping_checker.set_ignore_eos(true);
+    RequestState req_state("x",
+                           prompt_token_ids,
+                           sampling_param,
+                           stopping_checker,
+                           prompt_lens[i] + 30000,
+                           1,
+                           1,
+                           false,
+                           false,
+                           false,
+                           false,
+                           false,
+                           nullptr,
+                           nullptr);
+    auto request =
+        std::make_shared<Request>("1",
+                                  "1",
+                                  "1",
+                                  std::move(req_state),
+                                  "1",
+                                  offlines[i],
+                                  0,
+                                  static_cast<RequestPriority>(priorities[i]));
+    requests.emplace_back(request);
+  }
+
+  return requests;
+}
+
 // dont not consider speculative decoding.
 void update_requests(std::vector<std::shared_ptr<Request>> requests) {
   for (auto req : requests) {
@@ -364,4 +411,207 @@ TEST(ChunkedPrefillSchedulerTest, PreemptSchedule) {
   EXPECT_TRUE(batch[0].size() == 1);
 }
 
+// TEST-5:
+// test on/offline preempt
+TEST(ChunkedPrefillSchedulerTest, OnDecodePreemptOffDecode) {
+  // set max free blocks: 9, support 9*32=288 tokens
+  // actually only 8 free blocks , because default 1 block is for padding
+  int block_num = 9;
+  int block_size = 32;
+  int max_tokens_per_chunk_for_prefill = 1024;
+  // set chunked max_tokens budgets 10000 per step
+  ContinuousScheduler::Options opt = create_scheduler_options(
+      10000, 256, 0, max_tokens_per_chunk_for_prefill, 1);
+  auto engine = std::make_unique<FakeEngine>(block_num, block_size);
+  auto scheduler = std::make_unique<ChunkedPrefillScheduler>(engine.get(), opt);
+  BlockManagerPool* block_manager_pool = engine->block_manager_pool();
+  EXPECT_TRUE(scheduler != nullptr);
+
+  std::vector<std::shared_ptr<Request>> running_requests;
+
+  // 1. schedule one online and one prefill prefill requests
+  auto requests = generate_priority_request(
+      {127, 127}, {10, 10}, {true, false}, {2, 2}, 30000);
+  running_requests = requests;
+  for (auto req : requests) {
+    scheduler->add_request(req);
+  }
+  auto batch = scheduler->prepare_batch_test();
+  EXPECT_TRUE(batch.size() == 1);
+  EXPECT_TRUE(batch[0].size() == 2);
+  update_requests(running_requests);
+
+  batch = scheduler->prepare_batch_test();
+
+  EXPECT_TRUE(batch.size() == 1);
+  EXPECT_TRUE(batch[0].size() == 2);
+  update_requests(running_requests);
+
+  int free_blocks_before_preempt =
+      util::max(block_manager_pool->num_free_blocks());
+  // 2. after 2 step, preemption should happen
+  batch = scheduler->prepare_batch_test();
+  EXPECT_TRUE(batch.size() == 1);
+  EXPECT_TRUE(batch[0].size() == 1);
+  int free_blocks_after_preempt =
+      util::max(block_manager_pool->num_free_blocks());
+  EXPECT_TRUE(free_blocks_after_preempt > free_blocks_before_preempt);
+  // check the running request is online request
+  EXPECT_TRUE(scheduler->get_running_requests().size() == 1);
+  EXPECT_TRUE(scheduler->get_running_requests()[0]->offline() == false);
+  EXPECT_TRUE(scheduler->get_waiting_requests_num() == 1);
+}
+
+// TEST-6:
+// test on/offline preempt
+TEST(ChunkedPrefillSchedulerTest, OnPrefillPreemptOffDecode) {
+  // set max free blocks: 9, support 9*32=288 tokens
+  // actually only 8 free blocks , because default 1 block is for padding
+  int block_num = 9;
+  int block_size = 32;
+  int max_tokens_per_chunk_for_prefill = 1024;
+  // set chunked max_tokens budgets 10000 per step
+  ContinuousScheduler::Options opt = create_scheduler_options(
+      10000, 256, 0, max_tokens_per_chunk_for_prefill, 1);
+  FLAGS_prefill_scheduling_memory_usage_threshold = 2;  // release threshold
+
+  {
+    // 1. two offline decode requests then one online prefill request preempt
+    // them
+    auto engine = std::make_unique<FakeEngine>(block_num, block_size);
+    auto scheduler =
+        std::make_unique<ChunkedPrefillScheduler>(engine.get(), opt);
+    BlockManagerPool* block_manager_pool = engine->block_manager_pool();
+    EXPECT_TRUE(scheduler != nullptr);
+
+    std::vector<std::shared_ptr<Request>> running_requests;
+
+    auto requests = generate_priority_request(
+        {100, 100}, {10, 10}, {true, true}, {2, 2}, 30000);
+    running_requests = requests;
+    for (auto req : requests) {
+      scheduler->add_request(req);
+    }
+    auto batch = scheduler->prepare_batch_test();
+    EXPECT_TRUE(batch.size() == 1);
+    EXPECT_TRUE(batch[0].size() == 2);
+    EXPECT_TRUE(util::max(block_manager_pool->num_free_blocks()) == 0);
+    update_requests(running_requests);
+
+    batch = scheduler->prepare_batch_test();
+    EXPECT_TRUE(batch.size() == 1);
+    EXPECT_TRUE(batch[0].size() == 2);
+    EXPECT_TRUE(util::max(block_manager_pool->num_free_blocks()) == 0);
+    update_requests(running_requests);
+
+    auto new_requests = generate_priority_request(
+        {80}, {10}, {false}, {2}, 30000);  // use 3 blocks
+    scheduler->add_request(new_requests[0]);
+    batch = scheduler->prepare_batch_test();
+    EXPECT_TRUE(batch.size() == 1);
+    EXPECT_TRUE(batch[0].size() == 2);
+
+    // online prefill request preempt offline decode request
+    EXPECT_TRUE(scheduler->get_running_requests().size() == 2);
+    EXPECT_TRUE(scheduler->get_running_requests()[0]->offline() == false);
+    EXPECT_TRUE(scheduler->get_waiting_requests_num() == 1);
+
+    // offline is evicted
+    EXPECT_TRUE(util::max(block_manager_pool->num_free_blocks()) == 1);
+  }
+
+  // 2. another case: longer online prefill request arrives, but can not evict
+  // offline because evicting offline is not enough
+  {
+    auto engine = std::make_unique<FakeEngine>(block_num, block_size);
+    auto scheduler =
+        std::make_unique<ChunkedPrefillScheduler>(engine.get(), opt);
+    BlockManagerPool* block_manager_pool = engine->block_manager_pool();
+    EXPECT_TRUE(scheduler != nullptr);
+
+    std::vector<std::shared_ptr<Request>> running_requests;
+    // 1. schedule one online and one offline
+    auto requests = generate_priority_request(
+        {100, 100}, {10, 10}, {true, false}, {2, 2}, 30000);
+    running_requests = requests;
+    for (auto req : requests) {
+      scheduler->add_request(req);
+    }
+    auto batch = scheduler->prepare_batch_test();
+    EXPECT_TRUE(batch.size() == 1);
+    EXPECT_TRUE(batch[0].size() == 2);
+    EXPECT_TRUE(util::max(block_manager_pool->num_free_blocks()) == 0);
+    update_requests(running_requests);
+
+    auto new_requests =
+        generate_priority_request({200}, {10}, {false}, {2}, 30000);
+    scheduler->add_request(new_requests[0]);
+    batch = scheduler->prepare_batch_test();
+
+    // 2. online is still waiting
+    EXPECT_TRUE(batch.size() == 1);
+    EXPECT_TRUE(batch[0].size() == 2);
+    EXPECT_TRUE(scheduler->get_waiting_requests().size() == 1);
+    EXPECT_TRUE(scheduler->get_waiting_requests()[0].get() ==
+                new_requests[0].get());
+  }
+}
+
+// TEST-7:
+// test priority schedule
+TEST(ChunkedPrefillSchedulerTest, PrioritySchedule) {
+  // set max free blocks: 12
+  // actually only 11 free blocks , because default 1 block is for padding
+  int block_num = 12;
+  int block_size = 32;
+  int max_tokens_per_chunk_for_prefill = 1024;
+  // set chunked max_tokens budgets 10000 per step
+  ContinuousScheduler::Options opt = create_scheduler_options(
+      10000, 256, 0, max_tokens_per_chunk_for_prefill, 1, "priority");
+  auto engine = std::make_unique<FakeEngine>(block_num, block_size);
+  auto scheduler = std::make_unique<ChunkedPrefillScheduler>(engine.get(), opt);
+  EXPECT_TRUE(scheduler != nullptr);
+
+  std::vector<std::shared_ptr<Request>> running_requests;
+
+  // 1: HIGH, 2: NORMAL, 3: LOW
+  auto requests = generate_priority_request(
+      {127, 127, 127}, {10, 10, 10}, {false, false, false}, {3, 3, 2}, 30000);
+  for (auto req : requests) {
+    scheduler->add_request(req);
+  }
+  auto batch = scheduler->prepare_batch_test();
+  EXPECT_TRUE(batch.size() == 1);
+  EXPECT_TRUE(batch[0].size() == 2);
+  EXPECT_TRUE(scheduler->get_running_requests().size() == 2);
+  EXPECT_TRUE(scheduler->get_running_requests()[0]->priority() ==
+              RequestPriority::NORMAL /*NORMAL*/);
+  EXPECT_TRUE(scheduler->get_running_requests()[1]->priority() ==
+              RequestPriority::LOW /*LOW*/);
+
+  running_requests = scheduler->get_running_requests();
+  update_requests(running_requests);
+
+  // new HIGH priority request arrives, its prefill starts
+  auto new_requests = generate_priority_request(
+      {32}, {10}, {false}, {1}, 30000);  // use 1 blocks
+  scheduler->add_request(new_requests[0]);
+  batch = scheduler->prepare_batch_test();
+  // check there are 3 running requests owing to decode-maximal
+  EXPECT_TRUE(batch.size() == 1);
+  EXPECT_TRUE(batch[0].size() == 3);
+  EXPECT_TRUE(scheduler->get_running_requests().size() == 3);
+  running_requests.push_back(new_requests[0]);
+  update_requests(running_requests);
+  // preemption happens, only HIGH and NORMAL decode requests
+  batch = scheduler->prepare_batch_test();
+  EXPECT_TRUE(batch.size() == 1);
+  EXPECT_TRUE(batch[0].size() == 2);
+  EXPECT_TRUE(scheduler->get_running_requests().size() == 2);
+  EXPECT_TRUE(scheduler->get_running_requests()[0]->priority() ==
+              RequestPriority::HIGH /*HIGH*/);
+  EXPECT_TRUE(scheduler->get_running_requests()[1]->priority() ==
+              RequestPriority::NORMAL /*NORMAL*/);
+}
+
 }  // namespace xllm
Original file line number	Diff line number	Diff line change
`@@ -69,7 +69,7 @@ bool SequencesGroup::expand_sequences(bool share_prefix) {`
`69`	`69`	`// prefill is not finished, can not expand`
`70`	`70`	`// FIXME later share_prefix`
`71`	`71`	`if (!share_prefix \|\|`
`72`		`- seq->kv_state().kv_cache_tokens_num() < seq->num_prompt_tokens()) {`
	`72`	`+ seq->kv_state().kv_cache_tokens_num() >= seq->num_prompt_tokens()) {`
`73`	`73`	`while (sequences_.size() < best_of) {`
`74`	`74`	`add();`
`75`	`75`	`}`