chenyushuo
diff --git a/‎tests/buffer/task_scheduler_test.py‎
Lines changed: 60 additions & 40 deletions b/‎tests/buffer/task_scheduler_test.py‎
Lines changed: 60 additions & 40 deletions
diff --git a/‎tests/cli/launcher_test.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/cli/launcher_test.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎tests/common/config_test.py‎
Lines changed: 1 addition & 1 deletion b/‎tests/common/config_test.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎trinity/buffer/reader/file_reader.py‎
Lines changed: 13 additions & 22 deletions b/‎trinity/buffer/reader/file_reader.py‎
Lines changed: 13 additions & 22 deletions
diff --git a/‎trinity/buffer/selector/selector.py‎
Lines changed: 32 additions & 32 deletions b/‎trinity/buffer/selector/selector.py‎
Lines changed: 32 additions & 32 deletions
@@ -43,125 +43,145 @@ def _check_batch_tasks(self, batch_tasks: List[Task], indices: List[Dict[str, in
                 {"selector_type": "sequential"},
                 [
                     {"index": 0, "taskset_id": 1},
-                    {"index": 1, "taskset_id": 1},
                     {"index": 0, "taskset_id": 0},
-                    {"index": 2, "taskset_id": 1},
+                    {"index": 1, "taskset_id": 1},
                     {"index": 1, "taskset_id": 0},
+                    {"index": 2, "taskset_id": 1},
                     {"index": 3, "taskset_id": 1},
-                    {"index": 4, "taskset_id": 1},
                     {"index": 2, "taskset_id": 0},
-                    {"index": 5, "taskset_id": 1},
                     {"index": 3, "taskset_id": 0},
+                    {"index": 4, "taskset_id": 1},
+                    {"index": 5, "taskset_id": 1},
+                    {"index": 6, "taskset_id": 1},
+                    {"index": 4, "taskset_id": 0},
                     {"index": 0, "taskset_id": 1},
                     {"index": 1, "taskset_id": 1},
-                    {"index": 2, "taskset_id": 1},
                     {"index": 0, "taskset_id": 0},
+                    {"index": 2, "taskset_id": 1},
+                    {"index": 3, "taskset_id": 1},
                     {"index": 1, "taskset_id": 0},
                     {"index": 2, "taskset_id": 0},
-                    {"index": 3, "taskset_id": 1},
                     {"index": 4, "taskset_id": 1},
-                    {"index": 5, "taskset_id": 1},
                     {"index": 3, "taskset_id": 0},
+                    {"index": 5, "taskset_id": 1},
+                    {"index": 6, "taskset_id": 1},
+                    {"index": 4, "taskset_id": 0},
                 ],
             ),
             (
                 {"selector_type": "shuffle", "seed": 42},
                 [
                     {"index": 3, "taskset_id": 1},
-                    {"index": 2, "taskset_id": 1},
                     {"index": 4, "taskset_id": 0},
-                    {"index": 5, "taskset_id": 1},
-                    {"index": 0, "taskset_id": 0},
+                    {"index": 2, "taskset_id": 1},
+                    {"index": 2, "taskset_id": 0},
                     {"index": 6, "taskset_id": 1},
                     {"index": 4, "taskset_id": 1},
                     {"index": 3, "taskset_id": 0},
-                    {"index": 0, "taskset_id": 1},
-                    {"index": 2, "taskset_id": 0},
+                    {"index": 1, "taskset_id": 0},
                     {"index": 1, "taskset_id": 1},
-                    {"index": 3, "taskset_id": 1},
+                    {"index": 5, "taskset_id": 1},
                     {"index": 0, "taskset_id": 1},
-                    {"index": 2, "taskset_id": 0},
                     {"index": 0, "taskset_id": 0},
-                    {"index": 1, "taskset_id": 0},
+                    {"index": 2, "taskset_id": 1},
                     {"index": 6, "taskset_id": 1},
+                    {"index": 4, "taskset_id": 0},
                     {"index": 5, "taskset_id": 1},
-                    {"index": 2, "taskset_id": 1},
+                    {"index": 1, "taskset_id": 1},
+                    {"index": 1, "taskset_id": 0},
+                    {"index": 2, "taskset_id": 0},
+                    {"index": 4, "taskset_id": 1},
+                    {"index": 0, "taskset_id": 0},
+                    {"index": 0, "taskset_id": 1},
+                    {"index": 3, "taskset_id": 1},
                     {"index": 3, "taskset_id": 0},
                 ],
             ),
             (
                 {"selector_type": "random", "seed": 42},
                 [
                     {"index": 0, "taskset_id": 1},
-                    {"index": 5, "taskset_id": 1},
                     {"index": 0, "taskset_id": 0},
+                    {"index": 3, "taskset_id": 1},
+                    {"index": 2, "taskset_id": 0},
                     {"index": 4, "taskset_id": 1},
+                    {"index": 0, "taskset_id": 1},
                     {"index": 2, "taskset_id": 0},
+                    {"index": 0, "taskset_id": 0},
                     {"index": 6, "taskset_id": 1},
                     {"index": 3, "taskset_id": 1},
-                    {"index": 3, "taskset_id": 0},
-                    {"index": 0, "taskset_id": 1},
-                    {"index": 4, "taskset_id": 0},
-                    {"index": 2, "taskset_id": 1},
                     {"index": 0, "taskset_id": 1},
-                    {"index": 5, "taskset_id": 1},
                     {"index": 2, "taskset_id": 0},
+                    {"index": 0, "taskset_id": 1},
+                    {"index": 2, "taskset_id": 1},
                     {"index": 0, "taskset_id": 0},
-                    {"index": 3, "taskset_id": 0},
                     {"index": 2, "taskset_id": 1},
                     {"index": 6, "taskset_id": 1},
-                    {"index": 5, "taskset_id": 1},
                     {"index": 0, "taskset_id": 0},
+                    {"index": 0, "taskset_id": 0},
+                    {"index": 5, "taskset_id": 1},
+                    {"index": 3, "taskset_id": 0},
+                    {"index": 2, "taskset_id": 1},
+                    {"index": 6, "taskset_id": 1},
+                    {"index": 1, "taskset_id": 0},
                 ],
             ),
             (
                 {"selector_type": "offline_easy2hard", "feature_keys": ["feature_offline"]},
                 [
                     {"index": 3, "taskset_id": 1},
-                    {"index": 4, "taskset_id": 1},
                     {"index": 3, "taskset_id": 0},
-                    {"index": 1, "taskset_id": 1},
+                    {"index": 4, "taskset_id": 1},
                     {"index": 0, "taskset_id": 0},
+                    {"index": 1, "taskset_id": 1},
                     {"index": 0, "taskset_id": 1},
-                    {"index": 6, "taskset_id": 1},
                     {"index": 2, "taskset_id": 0},
-                    {"index": 5, "taskset_id": 1},
                     {"index": 4, "taskset_id": 0},
+                    {"index": 6, "taskset_id": 1},
+                    {"index": 5, "taskset_id": 1},
+                    {"index": 2, "taskset_id": 1},
+                    {"index": 1, "taskset_id": 0},
                     {"index": 3, "taskset_id": 1},
                     {"index": 4, "taskset_id": 1},
-                    {"index": 1, "taskset_id": 1},
                     {"index": 3, "taskset_id": 0},
+                    {"index": 1, "taskset_id": 1},
+                    {"index": 0, "taskset_id": 1},
                     {"index": 0, "taskset_id": 0},
                     {"index": 2, "taskset_id": 0},
-                    {"index": 0, "taskset_id": 1},
                     {"index": 6, "taskset_id": 1},
-                    {"index": 5, "taskset_id": 1},
                     {"index": 4, "taskset_id": 0},
+                    {"index": 5, "taskset_id": 1},
+                    {"index": 2, "taskset_id": 1},
+                    {"index": 1, "taskset_id": 0},
                 ],
             ),
             (
                 {"selector_type": "diff_based", "feature_keys": ["feat_1", "feat_2"]},
                 [
                     {"index": 3, "taskset_id": 1},
-                    {"index": 0, "taskset_id": 1},
                     {"index": 3, "taskset_id": 0},
-                    {"index": 2, "taskset_id": 1},
+                    {"index": 6, "taskset_id": 1},
                     {"index": 2, "taskset_id": 0},
-                    {"index": 4, "taskset_id": 1},
                     {"index": 2, "taskset_id": 1},
-                    {"index": 2, "taskset_id": 0},
-                    {"index": 6, "taskset_id": 1},
-                    {"index": 4, "taskset_id": 0},
-                    {"index": 4, "taskset_id": 1},
                     {"index": 3, "taskset_id": 1},
+                    {"index": 2, "taskset_id": 0},
+                    {"index": 3, "taskset_id": 0},
+                    {"index": 2, "taskset_id": 1},
                     {"index": 1, "taskset_id": 1},
+                    {"index": 4, "taskset_id": 1},
                     {"index": 2, "taskset_id": 0},
+                    {"index": 3, "taskset_id": 1},
+                    {"index": 2, "taskset_id": 1},
                     {"index": 4, "taskset_id": 0},
-                    {"index": 0, "taskset_id": 0},
                     {"index": 4, "taskset_id": 1},
-                    {"index": 2, "taskset_id": 1},
                     {"index": 5, "taskset_id": 1},
+                    {"index": 4, "taskset_id": 0},
                     {"index": 3, "taskset_id": 0},
+                    {"index": 5, "taskset_id": 1},
+                    {"index": 1, "taskset_id": 0},
+                    {"index": 6, "taskset_id": 1},
+                    {"index": 6, "taskset_id": 1},
+                    {"index": 4, "taskset_id": 0},
                 ],
             ),
         ]
 
@@ -263,7 +263,7 @@ def test_debug_mode(self, mock_load):
             except Exception:
                 time.sleep(3)
         output_file = os.path.join(self.config.checkpoint_job_dir, "debug.html")
-        self.config.buffer.explorer_input.taskset = get_unittest_dataset_config("gsm8k")
+        self.config.buffer.explorer_input.tasksets = [get_unittest_dataset_config("gsm8k")]
         mock_load.return_value = self.config
         with mock.patch(
             "argparse.ArgumentParser.parse_args",
 
@@ -31,7 +31,7 @@ def test_load_default_config(self):
         self.assertEqual(config.trainer.trainer_config.trainer.project_name, config.project)
         self.assertEqual(config.trainer.trainer_config.trainer.experiment_name, config.name)
         self.assertEqual(
-            config.buffer.explorer_input.taskset.repeat_times, config.algorithm.repeat_times
+            config.buffer.explorer_input.tasksets[0].repeat_times, config.algorithm.repeat_times
         )
         self.assertEqual(config.model.model_path, config.model.critic_model_path)
         self.assertEqual(config.model.model_path, config.explorer.rollout_model.model_path)
 
@@ -45,11 +45,7 @@ def __init__(
         if total_steps:
             self.total_samples = default_batch_size * total_steps
         else:
-            if drop_last:
-                self.num_per_epoch = self.dataset_size - (self.dataset_size % default_batch_size)
-            else:
-                self.num_per_epoch = self.dataset_size
-            self.total_samples = self.num_per_epoch * total_epochs
+            self.total_samples = self.dataset_size * total_epochs
 
         if enable_progress_bar:
             from ray.experimental.tqdm_ray import tqdm
@@ -68,26 +64,21 @@ def current_seed(self):
         return self.base_seed + self.current_offset // self.dataset_size
 
     def read_batch(self, batch_size: int) -> Union[List, Iterable]:
-        if self.current_offset >= self.total_samples:
-            self.progress_bar.close()
-            raise StopIteration
-        start_epoch = self.current_offset // self.num_per_epoch
-        start_index = self.current_offset % self.num_per_epoch
-
-        batch = []
-        for i in range(start_index, start_index + batch_size):
-            if i < self.num_per_epoch:
-                batch.append(self.dataset[i])
-            else:
-                assert not self.drop_last
-                break
+        batch, indices = [], []
+        while len(batch) < batch_size:
+            if self.current_offset >= self.total_samples:
+                if not self.drop_last and len(batch) > 0:
+                    break
+                self.progress_bar.close()
+                raise StopIteration
+            index = self.current_offset % self.dataset_size
+            batch.append(self.dataset[index])
+            indices.append(index)
 
         self.current_offset += len(batch)
         self.progress_bar.update(len(batch))
-        if start_epoch != self.current_offset // self.num_per_epoch:
-            assert self.current_offset % self.num_per_epoch == 0
 
-        return batch, range(start_index, self.current_offset)
+        return batch, indices
 
     def select_batch(self, indices: List[int]) -> List:
         batch = []
@@ -99,7 +90,7 @@ def select_batch(self, indices: List[int]) -> List:
 
 class BaseFileReader(BufferReader):
     def __len__(self):
-        return self.dataset.num_per_epoch
+        return self.dataset.dataset_size
 
     @property
     def index(self) -> int:
 
@@ -83,23 +83,21 @@ class SequentialSelector(BaseSelector):
     """
     Selects data sequentially in fixed order across epochs.
 
-    Example: [0,1,2,...,B-1], then [B,B+1,...,2B-1], etc., wrapping at epoch boundaries.
-    Useful for deterministic iteration or when combined with external shuffling.
+    Example: [0,1,2,...,B-1], then [B,B+1,...,2B-1], etc.
     """
 
     def __init__(self, data_source: _HFBatchReader, config: DataSelectorConfig):
         super().__init__(data_source, config)
-        self.num_per_epoch = data_source.num_per_epoch
+        self.dataset_size = data_source.dataset_size
         self.current_index = 0
 
     def get_indices(self, batch_size: int, return_extra_info: bool = False) -> List[int]:
-        start = self.current_index % self.num_per_epoch
+        start = self.current_index % self.dataset_size
         end = start + batch_size
-        assert (
-            end <= self.num_per_epoch
-        ), f"Batch size ({batch_size}) exceeds remaining data in epoch"
         self.current_index += batch_size
-        return list(range(start, end))
+        if end <= self.dataset_size:
+            return list(range(start, end))
+        return list(range(start, self.dataset_size)) + list(range(0, end - self.dataset_size))
 
     def update(self, indices: List[int], values: List[float]) -> None:
         # No-op: sequential selection doesn't adapt based on feedback
@@ -119,41 +117,42 @@ class ShuffleSelector(BaseSelector):
     """
     Shuffles dataset once per epoch and iterates through it sequentially.
 
-    Each epoch uses a different permutation of a subset of the full dataset
-    (of size num_per_epoch). When one epoch ends, a new shuffle is triggered.
+    Each epoch uses a different permutation of a subset of the full dataset.
+    When one epoch ends, a new shuffle is triggered.
     Mimics standard PyTorch DataLoader with shuffle=True.
     """
 
     def __init__(self, data_source: _HFBatchReader, config: DataSelectorConfig):
         super().__init__(data_source, config)
         self.dataset_size = data_source.dataset_size  # Total available samples
-        self.num_per_epoch = data_source.num_per_epoch  # Samples used per epoch
         self.current_index = 0  # Progress tracker
         self.seed = config.seed  # For reproducible shuffling
-        self.order = self._get_order()  # Current shuffled index order
+        self.orders = self._get_orders()  # Current shuffled index order
 
-    def _get_order(self) -> List[int]:
+    def _get_orders(self) -> List[int]:
         """
         Generate a new shuffled order for the current epoch.
 
         Uses NumPy's PCG64 random generator seeded by epoch number for reproducibility.
         Ensures different shuffle per epoch while being deterministic if seed is fixed.
         """
-        rng = np.random.default_rng(self.seed + self.current_index // self.num_per_epoch)
-        return rng.choice(self.dataset_size, self.num_per_epoch, replace=False)
+        rng = np.random.default_rng(self.seed + self.current_index // self.dataset_size)
+        return rng.permutation(self.dataset_size).tolist()
 
     def get_indices(self, batch_size: int, return_extra_info: bool = False) -> List[int]:
-        start = self.current_index % self.num_per_epoch
+        start = self.current_index % self.dataset_size
         end = start + batch_size
-        assert end <= self.num_per_epoch, f"Batch size ({batch_size}) is too large"
-
-        # Fetch pre-shuffled indices for this batch
-        ret = self.order[start:end]
+        if end <= self.dataset_size:
+            ret = self.orders[start:end]
+            # At end of epoch, reshuffle for next epoch
+            if end == self.dataset_size:
+                self.orders = self._get_orders()
+        else:
+            ret = self.orders[start:]
+            # At end of epoch, reshuffle for next epoch
+            self.orders = self._get_orders()
+            ret += self.orders[: (end - self.dataset_size)]
         self.current_index += batch_size
-
-        # At end of epoch, reshuffle for next epoch
-        if self.current_index % self.num_per_epoch == 0:
-            self.order = self._get_order()
         return ret
 
     def update(self, indices: List[int], values: List[float]) -> None:
@@ -167,7 +166,7 @@ def state_dict(self) -> Dict:
 
     def load_state_dict(self, state_dict):
         self.current_index = state_dict.get("current_index", 0)
-        self.order = self._get_order()
+        self.orders = self._get_orders()
 
 
 @SELECTORS.register_module("random")
@@ -182,7 +181,6 @@ class RandomSelector(BaseSelector):
     def __init__(self, data_source: _HFBatchReader, config: DataSelectorConfig):
         super().__init__(data_source, config)
         self.dataset_size = data_source.dataset_size
-        self.num_per_epoch = data_source.num_per_epoch
         self.current_index = 0
         self.seed = config.seed
 
@@ -245,7 +243,7 @@ def __init__(self, data_source, config: DataSelectorConfig):
         self.sorted_index = np.array([i[-1] for i in features_with_index])
 
         # Number of samples per epoch (may be less than full dataset size)
-        self.num_per_epoch = data_source.num_per_epoch
+        self.dataset_size = data_source.dataset_size
         self.current_index = 0
 
     def update(self, indices: List[int], values: List[float]) -> None:
@@ -259,13 +257,15 @@ def get_indices(self, batch_size, return_extra_info=False):
         Batches are taken sequentially from the pre-sorted list. When epoch ends,
         it wraps around to the beginning (i.e., restarts curriculum).
         """
-        start = self.current_index % self.num_per_epoch
+        start = self.current_index % self.dataset_size
         end = start + batch_size
-        assert (
-            end <= self.num_per_epoch
-        ), f"Batch size ({batch_size}) exceeds available data in epoch"
+        if end <= self.dataset_size:
+            selected_indices = self.sorted_index[start:end]
+        else:
+            selected_indices = np.concatenate(
+                [self.sorted_index[start:], self.sorted_index[: (end - self.dataset_size)]]
+            )
         self.current_index += batch_size
-        selected_indices = self.sorted_index[start:end]
         if not return_extra_info:
             return selected_indices
         else:
Original file line number	Diff line number	Diff line change
`@@ -31,7 +31,7 @@ def test_load_default_config(self):`
`31`	`31`	`self.assertEqual(config.trainer.trainer_config.trainer.project_name, config.project)`
`32`	`32`	`self.assertEqual(config.trainer.trainer_config.trainer.experiment_name, config.name)`
`33`	`33`	`self.assertEqual(`
`34`		`- config.buffer.explorer_input.taskset.repeat_times, config.algorithm.repeat_times`
	`34`	`+ config.buffer.explorer_input.tasksets[0].repeat_times, config.algorithm.repeat_times`
`35`	`35`	`)`
`36`	`36`	`self.assertEqual(config.model.model_path, config.model.critic_model_path)`
`37`	`37`	`self.assertEqual(config.model.model_path, config.explorer.rollout_model.model_path)`