* after pre-commit

HYLcool · HYLcool · commit a1ce5408d21a · 2025-06-13T12:16:06.000+08:00
diff --git a/tests/data/core/dataset_test.py b/tests/data/core/dataset_test.py
@@ -4,8 +4,6 @@
 import unittest
 
 from trinity.common.config import DataPipelineConfig, FormatConfig, StorageConfig
-from trinity.common.rewards import AccuracyReward
-from trinity.common.workflows import MathWorkflow, SimpleWorkflow
 from trinity.data.core.dataset import RewardSchema, RftDataset
 from trinity.data.core.formatter import BoxedMathAnswerFormatter, RLHFFormatter
 
@@ -15,33 +13,37 @@ class TestRftDataset(unittest.TestCase):
 
     def setUp(self) -> None:
         self.data_pipeline_config = DataPipelineConfig(
-            input_buffers=[StorageConfig(
-                path=os.path.join(
-                    os.path.dirname(os.path.realpath(__file__)),
-                    "..",
-                    "..",
-                    "test_data",
-                    "test_10",
-                ),
-                raw=True,
-            )],
+            input_buffers=[
+                StorageConfig(
+                    path=os.path.join(
+                        os.path.dirname(os.path.realpath(__file__)),
+                        "..",
+                        "..",
+                        "test_data",
+                        "test_10",
+                    ),
+                    raw=True,
+                )
+            ],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="solution",
                 solution_key="solution",
             ),
         )
         self.data_pipeline_config_sample_level_setting = DataPipelineConfig(
-            input_buffers=[StorageConfig(
-                path=os.path.join(
-                    os.path.dirname(os.path.realpath(__file__)),
-                    "..",
-                    "..",
-                    "test_data",
-                    "test_10_with_rewfn_workflow",
-                ),
-                raw=True,
-            )],
+            input_buffers=[
+                StorageConfig(
+                    path=os.path.join(
+                        os.path.dirname(os.path.realpath(__file__)),
+                        "..",
+                        "..",
+                        "test_data",
+                        "test_10_with_rewfn_workflow",
+                    ),
+                    raw=True,
+                )
+            ],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="solution",
@@ -52,13 +54,17 @@ def setUp(self) -> None:
         )
 
     def test_rft_dataset_init(self):
-        dataset = RftDataset(data_pipeline_config=self.data_pipeline_config, reward_schema="default")
+        dataset = RftDataset(
+            data_pipeline_config=self.data_pipeline_config, reward_schema="default"
+        )
 
         self.assertEqual(len(dataset), 10)
         self.assertIsInstance(dataset.reward_schema, RewardSchema)
 
     def test_format_dataset(self):
-        dataset = RftDataset(data_pipeline_config=self.data_pipeline_config, reward_schema="default")
+        dataset = RftDataset(
+            data_pipeline_config=self.data_pipeline_config, reward_schema="default"
+        )
         original_data = dataset.data
         # no formatter
         dataset.format(formatters=[])
diff --git a/tests/data/core/formatter_test.py b/tests/data/core/formatter_test.py
@@ -19,16 +19,18 @@ class TestBoxedMathDataset(unittest.TestCase):
 
     def setUp(self) -> None:
         self.data_config = DataPipelineConfig(
-            input_buffers=[StorageConfig(
-                path=os.path.join(
-                    os.path.dirname(os.path.realpath(__file__)),
-                    "..",
-                    "..",
-                    "test_data",
-                    "test_10",
-                ),
-                raw=True,
-            )],
+            input_buffers=[
+                StorageConfig(
+                    path=os.path.join(
+                        os.path.dirname(os.path.realpath(__file__)),
+                        "..",
+                        "..",
+                        "test_data",
+                        "test_10",
+                    ),
+                    raw=True,
+                )
+            ],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="answer",
@@ -63,16 +65,18 @@ class TestRLHFFormatter(unittest.TestCase):
 
     def setUp(self) -> None:
         self.data_config = DataPipelineConfig(
-            input_buffers=[StorageConfig(
-                path=os.path.join(
-                    os.path.dirname(os.path.realpath(__file__)),
-                    "..",
-                    "..",
-                    "test_data",
-                    "test_10",
-                ),
-                raw=True,
-            )],
+            input_buffers=[
+                StorageConfig(
+                    path=os.path.join(
+                        os.path.dirname(os.path.realpath(__file__)),
+                        "..",
+                        "..",
+                        "test_data",
+                        "test_10",
+                    ),
+                    raw=True,
+                )
+            ],
             format=FormatConfig(
                 prompt_key="problem",
                 chat_template="User: {}\nAssistant: ",
@@ -114,16 +118,18 @@ class TestRewardFormatter(unittest.TestCase):
 
     def setUp(self) -> None:
         self.data_config = DataPipelineConfig(
-            input_buffers=[StorageConfig(
-                path=os.path.join(
-                    os.path.dirname(os.path.realpath(__file__)),
-                    "..",
-                    "..",
-                    "test_data",
-                    "test_10",
-                ),
-                raw=True,
-            )],
+            input_buffers=[
+                StorageConfig(
+                    path=os.path.join(
+                        os.path.dirname(os.path.realpath(__file__)),
+                        "..",
+                        "..",
+                        "test_data",
+                        "test_10",
+                    ),
+                    raw=True,
+                )
+            ],
             format=FormatConfig(
                 prompt_key="problem",
                 chosen_key="chosen",
@@ -174,16 +180,18 @@ class TestSFTFormatter(unittest.TestCase):
 
     def setUp(self) -> None:
         self.data_config = DataPipelineConfig(
-            input_buffers=[StorageConfig(
-                path=os.path.join(
-                    os.path.dirname(os.path.realpath(__file__)),
-                    "..",
-                    "..",
-                    "test_data",
-                    "test_10",
-                ),
-                raw=True,
-            )],
+            input_buffers=[
+                StorageConfig(
+                    path=os.path.join(
+                        os.path.dirname(os.path.realpath(__file__)),
+                        "..",
+                        "..",
+                        "test_data",
+                        "test_10",
+                    ),
+                    raw=True,
+                )
+            ],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="answer",
@@ -230,16 +238,18 @@ class TestComposedFormatter(unittest.TestCase):
 
     def setUp(self) -> None:
         self.data_config = DataPipelineConfig(
-            input_buffers=[StorageConfig(
-                path=os.path.join(
-                    os.path.dirname(os.path.realpath(__file__)),
-                    "..",
-                    "..",
-                    "test_data",
-                    "test_10",
-                ),
-                raw=True,
-            )],
+            input_buffers=[
+                StorageConfig(
+                    path=os.path.join(
+                        os.path.dirname(os.path.realpath(__file__)),
+                        "..",
+                        "..",
+                        "test_data",
+                        "test_10",
+                    ),
+                    raw=True,
+                )
+            ],
             format=FormatConfig(
                 prompt_key="problem",
                 response_key="answer",
diff --git a/trinity/buffer/reader/file_reader.py b/trinity/buffer/reader/file_reader.py
@@ -231,13 +231,11 @@ def read(self, strategy: Optional[ReadStrategy] = None):
             self.index = 0
         return task
 
+
 @FILE_READERS.register_module("raw")
 class RawDataReader(BufferReader):
-
     def __init__(self, meta: StorageConfig, config: BufferConfig):
-        self.dataset = load_dataset(
-            meta.path, name=meta.subset_name, split=meta.split
-        )
+        self.dataset = load_dataset(meta.path, name=meta.subset_name, split=meta.split)
 
     def __len__(self):
         return len(self.dataset)
diff --git a/trinity/buffer/writer/file_writer.py b/trinity/buffer/writer/file_writer.py
@@ -1,6 +1,7 @@
 """Writer of the File buffer."""
 import os
 from typing import List
+
 import jsonlines as jl
 
 from trinity.buffer.buffer_writer import BufferWriter
@@ -16,13 +17,15 @@ class RawFileWriter(BufferWriter):
 
     def __init__(self, meta: StorageConfig, config: BufferConfig):
         assert meta.storage_type == StorageType.FILE
-        ext = os.path.splitext(meta.path)
-        if ext != '.jsonl':
+        if meta.path is None:
+            raise ValueError("File path cannot be None for RawFileWriter")
+        ext = os.path.splitext(meta.path)[-1]
+        if ext != ".jsonl":
             raise ValueError(f"File path must end with .json or .jsonl, got {meta.path}")
-        self.writer = jl.open(meta.path, mode='w')
+        self.writer = jl.open(meta.path, mode="w")
 
     def write(self, data: List) -> None:
         self.writer.write_all(data)
 
     def finish(self):
-       self.writer.close()
+        self.writer.close()
diff --git a/trinity/cli/launcher.py b/trinity/cli/launcher.py
@@ -166,7 +166,9 @@ def run(config_path: str, dlc: bool = False, plugin_dir: str = None):
     # try to activate task pipeline for raw data
     data_processor_config = config.data_processor
     if data_processor_config.data_workflow_url and data_processor_config.task_pipeline:
-        activate_data_module(f'{data_processor_config.data_workflow_url}/task_pipeline', config_path)
+        activate_data_module(
+            f"{data_processor_config.data_workflow_url}/task_pipeline", config_path
+        )
     ray_namespace = f"{config.project}-{config.name}"
     if dlc:
         from trinity.utils.dlc_utils import setup_ray_cluster
diff --git a/trinity/common/config.py b/trinity/common/config.py
@@ -98,6 +98,7 @@ class StorageConfig:
     # ! DO NOT SET,  automatically set corresponding to train/eval
     task_type: TaskType = TaskType.EXPLORE
 
+
 @dataclass
 class DataPipelineConfig:
     """Config for data pipeline."""
@@ -122,6 +123,7 @@ class DataPipelineConfig:
     priority_weights: Optional[Dict[str, float]] = None
     data_dist: Optional[str] = "gaussian"  # one of ["gaussian", "uniform"]
 
+
 @dataclass
 class DataProcessorConfig:
     """Data-Juicer config"""
diff --git a/trinity/data/controllers/active_iterator.py b/trinity/data/controllers/active_iterator.py
@@ -4,7 +4,7 @@
 
 import ray
 
-from trinity.common.config import DataPipelineConfig, BufferConfig
+from trinity.common.config import BufferConfig, DataPipelineConfig
 from trinity.data.controllers.default_ops import DIMENSION_STATS_KEYS
 from trinity.data.controllers.task_parser import DataTaskParser
 from trinity.data.core.dataset import RftDataset
@@ -25,10 +25,7 @@ def __init__(
     ):
         self.config = config
         self.buffer_config = buffer_config
-        if (
-            self.config.agent_model_name is not None
-            and self.config.agent_model_config is not None
-        ):
+        if self.config.agent_model_name is not None and self.config.agent_model_config is not None:
             # get the api key
             api_key = os.environ.get("OPENAI_API_KEY")
             # initialize the agent
diff --git a/trinity/data/core/dataset.py b/trinity/data/core/dataset.py
@@ -5,8 +5,8 @@
 import networkx as nx
 from datasets import Dataset, concatenate_datasets
 
-from trinity.common.config import DataPipelineConfig, BufferConfig, StorageConfig
 from trinity.buffer import get_buffer_reader, get_buffer_writer
+from trinity.common.config import BufferConfig, DataPipelineConfig, StorageConfig
 from trinity.data.core.formatter import BaseDataFormatter
 
 
@@ -45,11 +45,11 @@ def __init__(
         input_buffer_configs = self.config.input_buffers
         if len(input_buffer_configs) == 0:
             raise ValueError("input_buffers is empty in data pipeline config")
-        self.data = []
+        datasets = []
         for input_buffer_config in input_buffer_configs:
             input_buffer = get_buffer_reader(input_buffer_config, self.buffer_config)
-            self.data.append(Dataset.from_list(input_buffer.read()))
-        self.data = concatenate_datasets(self.data)
+            datasets.append(Dataset.from_list(input_buffer.read()))
+        self.data = concatenate_datasets(datasets)
 
         self.reward_schema = self._init_reward_schema(reward_schema)
         self.stats: Dict[str, Any] = {}
@@ -65,7 +65,9 @@ def format(
         for formatter in formatters:
             self.data = formatter(self.data, num_proc)
 
-    def write_to_buffer(self, output_storage_config: StorageConfig = None, buffer_config: BufferConfig = None):
+    def write_to_buffer(
+        self, output_storage_config: StorageConfig = None, buffer_config: BufferConfig = None
+    ):
         if output_storage_config is None:
             output_storage_config = self.config.output_buffer
         if buffer_config is None:
diff --git a/trinity/data/server.py b/trinity/data/server.py
@@ -18,10 +18,12 @@ def data_workflow(pipeline_type):
 
     pipeline_config = getattr(config, pipeline_type)
     if pipeline_config is None:
-        return jsonify({
-            "return_code": -1,
-            "message": f"{pipeline_type} is not supported or the corresponding config is empty"
-        })
+        return jsonify(
+            {
+                "return_code": -1,
+                "message": f"{pipeline_type} is not supported or the corresponding config is empty",
+            }
+        )
 
     iterator = DataActiveIterator(pipeline_config, config.buffer)
     ret, msg = iterator.run()