modelscope
diff --git a/‎pyproject.toml‎
Lines changed: 1 addition & 0 deletions b/‎pyproject.toml‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎tests/data/controllers/task_parser_test.py‎
Lines changed: 7 additions & 7 deletions b/‎tests/data/controllers/task_parser_test.py‎
Lines changed: 7 additions & 7 deletions
diff --git a/‎tests/data/core/dataset_test.py‎
Lines changed: 27 additions & 66 deletions b/‎tests/data/core/dataset_test.py‎
Lines changed: 27 additions & 66 deletions
diff --git a/‎tests/data/core/formatter_test.py‎
Lines changed: 59 additions & 44 deletions b/‎tests/data/core/formatter_test.py‎
Lines changed: 59 additions & 44 deletions
@@ -39,6 +39,7 @@ dependencies = [
     "requests",
     "tensorboard",
     "openai",
+    "jsonlines",
 ]
 
 [project.scripts]
 
@@ -6,7 +6,7 @@
 from agentscope.models import DashScopeChatWrapper
 from loguru import logger
 
-from trinity.common.config import Config
+from trinity.common.config import DataPipelineConfig
 from trinity.data.controllers.task_parser import DataTaskParser
 
 
@@ -50,18 +50,18 @@ def _run_test(self, rft_config, return_none=False):
             logger.info(op_weights)
 
     def test_instruction1(self):
-        rft_config = Config()
-        rft_config.data.dj_process_desc = "Please recommend a data filtering strategy for me."
+        rft_config = DataPipelineConfig()
+        rft_config.dj_process_desc = "Please recommend a data filtering strategy for me."
         self._run_test(rft_config)
 
     def test_instruction2(self):
-        rft_config = Config()
-        rft_config.data.dj_process_desc = "Do nothing."
+        rft_config = DataPipelineConfig()
+        rft_config.dj_process_desc = "Do nothing."
         self._run_test(rft_config, return_none=True)
 
     def test_instruction3(self):
-        rft_config = Config()
-        rft_config.data.dj_process_desc = "Remove samples with repeat contents."
+        rft_config = DataPipelineConfig()
+        rft_config.dj_process_desc = "Remove samples with repeat contents."
         self._run_test(rft_config)
 
 
 
@@ -3,9 +3,8 @@
 import os
 import unittest
 
-from trinity.common.config import DataProcessorConfig, FormatConfig
+from trinity.common.config import DataPipelineConfig, FormatConfig, StorageConfig
 from trinity.common.rewards import AccuracyReward
-from trinity.common.task import TaskSet
 from trinity.common.workflows import MathWorkflow, SimpleWorkflow
 from trinity.data.core.dataset import RewardSchema, RftDataset
 from trinity.data.core.formatter import BoxedMathAnswerFormatter, RLHFFormatter
@@ -15,28 +14,34 @@ class TestRftDataset(unittest.TestCase):
     """Test cases for RftDataset"""
 
     def setUp(self) -> None:
-        self.data_config = DataProcessorConfig(
-            source_data_path=os.path.join(
-                os.path.dirname(os.path.realpath(__file__)),
-                "..",
-                "..",
-                "test_data",
-                "test_10",
-            ),
+        self.data_pipeline_config = DataPipelineConfig(
+            input_buffers=[StorageConfig(
+                path=os.path.join(
+                    os.path.dirname(os.path.realpath(__file__)),
+                    "..",
+                    "..",
+                    "test_data",
+                    "test_10",
+                ),
+                raw=True,
+            )],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="solution",
                 solution_key="solution",
             ),
         )
-        self.data_config_sample_level_setting = DataProcessorConfig(
-            source_data_path=os.path.join(
-                os.path.dirname(os.path.realpath(__file__)),
-                "..",
-                "..",
-                "test_data",
-                "test_10_with_rewfn_workflow",
-            ),
+        self.data_pipeline_config_sample_level_setting = DataPipelineConfig(
+            input_buffers=[StorageConfig(
+                path=os.path.join(
+                    os.path.dirname(os.path.realpath(__file__)),
+                    "..",
+                    "..",
+                    "test_data",
+                    "test_10_with_rewfn_workflow",
+                ),
+                raw=True,
+            )],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="solution",
@@ -47,13 +52,13 @@ def setUp(self) -> None:
         )
 
     def test_rft_dataset_init(self):
-        dataset = RftDataset(data_config=self.data_config, reward_schema="default")
+        dataset = RftDataset(data_pipeline_config=self.data_pipeline_config, reward_schema="default")
 
         self.assertEqual(len(dataset), 10)
         self.assertIsInstance(dataset.reward_schema, RewardSchema)
 
     def test_format_dataset(self):
-        dataset = RftDataset(data_config=self.data_config, reward_schema="default")
+        dataset = RftDataset(data_pipeline_config=self.data_pipeline_config, reward_schema="default")
         original_data = dataset.data
         # no formatter
         dataset.format(formatters=[])
@@ -62,56 +67,12 @@ def test_format_dataset(self):
         # apply formatters
         dataset.format(
             formatters=[
-                BoxedMathAnswerFormatter(config=self.data_config.format),
-                RLHFFormatter(config=self.data_config.format),
+                BoxedMathAnswerFormatter(config=self.data_pipeline_config.format),
+                RLHFFormatter(config=self.data_pipeline_config.format),
             ]
         )
         self.assertNotEqual(dataset.data, original_data)
 
-    def test_to_taskset(self):
-        dataset = RftDataset(data_config=self.data_config, reward_schema="default")
-        taskset = dataset.to_taskset()
-        self.assertIsInstance(taskset, TaskSet)
-        self.assertEqual(len(taskset), 10)
-        self.assertIsNone(taskset.reward_fn)
-        self.assertIsNone(taskset.workflow)
-        self.assertEqual(taskset._index, 0)
-
-    def test_to_taskset_with_global_settings(self):
-        dataset = RftDataset(data_config=self.data_config, reward_schema="default")
-        taskset = dataset.to_taskset(
-            reward_fn=AccuracyReward,
-            workflow=SimpleWorkflow,
-        )
-        self.assertIsInstance(taskset, TaskSet)
-        self.assertEqual(taskset.workflow, SimpleWorkflow)
-        self.assertEqual(taskset.reward_fn, AccuracyReward)
-
-    def test_to_taskset_with_sample_level_settings(self):
-        dataset = RftDataset(
-            data_config=self.data_config_sample_level_setting, reward_schema="default"
-        )
-        taskset = dataset.to_taskset()
-        self.assertIsInstance(taskset, TaskSet)
-        for task in taskset.tasks:
-            self.assertEqual(task.workflow, MathWorkflow)
-            self.assertEqual(task.reward_fn, AccuracyReward)
-
-    def test_to_taskset_with_both_settings(self):
-        dataset = RftDataset(
-            data_config=self.data_config_sample_level_setting, reward_schema="default"
-        )
-        taskset = dataset.to_taskset(
-            reward_fn=AccuracyReward,
-            workflow=SimpleWorkflow,
-        )
-        self.assertIsInstance(taskset, TaskSet)
-        for task in taskset.tasks:
-            self.assertEqual(task.workflow, MathWorkflow)
-            self.assertEqual(task.reward_fn, AccuracyReward)
-        self.assertEqual(taskset.workflow, SimpleWorkflow)
-        self.assertEqual(taskset.reward_fn, AccuracyReward)
-
 
 if __name__ == "__main__":
     unittest.main()
@@ -3,7 +3,7 @@
 import os
 import unittest
 
-from trinity.common.config import DataProcessorConfig, FormatConfig
+from trinity.common.config import DataPipelineConfig, FormatConfig, StorageConfig
 from trinity.data.core.dataset import RftDataset
 from trinity.data.core.formatter import (
     BoxedMathAnswerFormatter,
@@ -18,14 +18,17 @@ class TestBoxedMathDataset(unittest.TestCase):
     """Test cases for RftDataset"""
 
     def setUp(self) -> None:
-        self.data_config = DataProcessorConfig(
-            source_data_path=os.path.join(
-                os.path.dirname(os.path.realpath(__file__)),
-                "..",
-                "..",
-                "test_data",
-                "test_10",
-            ),
+        self.data_config = DataPipelineConfig(
+            input_buffers=[StorageConfig(
+                path=os.path.join(
+                    os.path.dirname(os.path.realpath(__file__)),
+                    "..",
+                    "..",
+                    "test_data",
+                    "test_10",
+                ),
+                raw=True,
+            )],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="answer",
@@ -43,12 +46,12 @@ def test_init(self):
         self.assertEqual(formatter.config.chat_template, "User: {}\nAssistant: ")
         # test for default configs
         self.assertEqual(formatter.config.reward_key, "")
-        self.assertEqual(formatter.config.chosen_key, "")
-        self.assertEqual(formatter.config.rejected_key, "")
+        self.assertEqual(formatter.config.chosen_key, "chosen")
+        self.assertEqual(formatter.config.rejected_key, "rejected")
         self.assertEqual(formatter.config.label_key, "")
 
     def test_transform(self):
-        dataset = RftDataset(data_config=self.data_config, reward_schema="default")
+        dataset = RftDataset(data_pipeline_config=self.data_config, reward_schema="default")
         formatter = BoxedMathAnswerFormatter(config=self.data_config.format)
         self.assertNotIn(formatter.config.response_key, dataset.data.column_names)
         dataset.format(formatter)
@@ -59,14 +62,17 @@ class TestRLHFFormatter(unittest.TestCase):
     """Test cases for RLHFFormatter"""
 
     def setUp(self) -> None:
-        self.data_config = DataProcessorConfig(
-            source_data_path=os.path.join(
-                os.path.dirname(os.path.realpath(__file__)),
-                "..",
-                "..",
-                "test_data",
-                "test_10",
-            ),
+        self.data_config = DataPipelineConfig(
+            input_buffers=[StorageConfig(
+                path=os.path.join(
+                    os.path.dirname(os.path.realpath(__file__)),
+                    "..",
+                    "..",
+                    "test_data",
+                    "test_10",
+                ),
+                raw=True,
+            )],
             format=FormatConfig(
                 prompt_key="problem",
                 chat_template="User: {}\nAssistant: ",
@@ -107,14 +113,17 @@ class TestRewardFormatter(unittest.TestCase):
     """Test cases for RewardFormatter"""
 
     def setUp(self) -> None:
-        self.data_config = DataProcessorConfig(
-            source_data_path=os.path.join(
-                os.path.dirname(os.path.realpath(__file__)),
-                "..",
-                "..",
-                "test_data",
-                "test_10",
-            ),
+        self.data_config = DataPipelineConfig(
+            input_buffers=[StorageConfig(
+                path=os.path.join(
+                    os.path.dirname(os.path.realpath(__file__)),
+                    "..",
+                    "..",
+                    "test_data",
+                    "test_10",
+                ),
+                raw=True,
+            )],
             format=FormatConfig(
                 prompt_key="problem",
                 chosen_key="chosen",
@@ -164,14 +173,17 @@ class TestSFTFormatter(unittest.TestCase):
     """Test cases for SFTFormatter"""
 
     def setUp(self) -> None:
-        self.data_config = DataProcessorConfig(
-            source_data_path=os.path.join(
-                os.path.dirname(os.path.realpath(__file__)),
-                "..",
-                "..",
-                "test_data",
-                "test_10",
-            ),
+        self.data_config = DataPipelineConfig(
+            input_buffers=[StorageConfig(
+                path=os.path.join(
+                    os.path.dirname(os.path.realpath(__file__)),
+                    "..",
+                    "..",
+                    "test_data",
+                    "test_10",
+                ),
+                raw=True,
+            )],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="answer",
@@ -217,14 +229,17 @@ class TestComposedFormatter(unittest.TestCase):
     """Test cases for ComposedFormatter"""
 
     def setUp(self) -> None:
-        self.data_config = DataProcessorConfig(
-            source_data_path=os.path.join(
-                os.path.dirname(os.path.realpath(__file__)),
-                "..",
-                "..",
-                "test_data",
-                "test_10",
-            ),
+        self.data_config = DataPipelineConfig(
+            input_buffers=[StorageConfig(
+                path=os.path.join(
+                    os.path.dirname(os.path.realpath(__file__)),
+                    "..",
+                    "..",
+                    "test_data",
+                    "test_10",
+                ),
+                raw=True,
+            )],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="answer",
Original file line number	Diff line number	Diff line change
`@@ -39,6 +39,7 @@ dependencies = [`
`39`	`39`	`"requests",`
`40`	`40`	`"tensorboard",`
`41`	`41`	`"openai",`
	`42`	`+ "jsonlines",`
`42`	`43`	`]`
`43`	`44`
`44`	`45`	`[project.scripts]`