fix: delete param parallelism for readers

ChenZiHong-Gavin · ChenZiHong-Gavin · commit 246348fb9781 · 2025-12-03T19:26:09.000+08:00
diff --git a/graphgen/models/reader/csv_reader.py b/graphgen/models/reader/csv_reader.py
@@ -14,20 +14,15 @@ class CSVReader(BaseReader):
         - if type is "text", "content" column must be present.
     """
 
-    def read(
-        self,
-        input_path: Union[str, List[str]],
-        parallelism: int = None,
-    ) -> Dataset:
+    def read(self, input_path: Union[str, List[str]]) -> Dataset:
         """
         Read CSV files and return Ray Dataset.
 
         :param input_path: Path to CSV file or list of CSV files.
-        :param parallelism: Number of blocks for Ray Dataset reading.
         :return: Ray Dataset containing validated and filtered data.
         """
 
-        ds = ray.data.read_csv(input_path, override_num_blocks=parallelism)
+        ds = ray.data.read_csv(input_path)
         ds = ds.map_batches(self._validate_batch, batch_format="pandas")
         ds = ds.filter(self._should_keep_item)
         return ds
diff --git a/graphgen/models/reader/json_reader.py b/graphgen/models/reader/json_reader.py
@@ -14,19 +14,14 @@ class JSONReader(BaseReader):
         - if type is "text", "content" column must be present.
     """
 
-    def read(
-        self,
-        input_path: Union[str, List[str]],
-        parallelism: int = 4,
-    ) -> Dataset:
+    def read(self, input_path: Union[str, List[str]]) -> Dataset:
         """
         Read JSON file and return Ray Dataset.
         :param input_path: Path to JSON/JSONL file or list of JSON/JSONL files.
-        :param parallelism: Number of parallel workers for reading files.
         :return: Ray Dataset containing validated and filtered data.
         """
 
-        ds = ray.data.read_json(input_path, override_num_blocks=parallelism)
+        ds = ray.data.read_json(input_path)
         ds = ds.map_batches(self._validate_batch, batch_format="pandas")
         ds = ds.filter(self._should_keep_item)
         return ds
diff --git a/graphgen/models/reader/parquet_reader.py b/graphgen/models/reader/parquet_reader.py
@@ -14,22 +14,17 @@ class ParquetReader(BaseReader):
     - if type is "text", "content" column must be present.
     """
 
-    def read(
-        self,
-        input_path: Union[str, List[str]],
-        parallelism: int = None,
-    ) -> Dataset:
+    def read(self, input_path: Union[str, List[str]]) -> Dataset:
         """
         Read Parquet files using Ray Data.
 
         :param input_path: Path to Parquet file or list of Parquet files.
-        :param parallelism: Number of blocks for Ray Dataset reading.
         :return: Ray Dataset containing validated documents.
         """
         if not ray.is_initialized():
             ray.init()
 
-        ds = ray.data.read_parquet(input_path, override_num_blocks=parallelism)
+        ds = ray.data.read_parquet(input_path)
         ds = ds.map_batches(self._validate_batch, batch_format="pandas")
         ds = ds.filter(self._should_keep_item)
         return ds
diff --git a/graphgen/models/reader/pdf_reader.py b/graphgen/models/reader/pdf_reader.py
@@ -68,7 +68,6 @@ def __init__(
     def read(
         self,
         input_path: Union[str, List[str]],
-        parallelism: int = 4,
         **override,
     ) -> Dataset:
 
diff --git a/graphgen/models/reader/pickle_reader.py b/graphgen/models/reader/pickle_reader.py
@@ -23,22 +23,18 @@ class PickleReader(BaseReader):
     def read(
         self,
         input_path: Union[str, List[str]],
-        parallelism: int = None,
     ) -> Dataset:
         """
         Read Pickle files using Ray Data.
 
         :param input_path: Path to pickle file or list of pickle files.
-        :param parallelism: Number of blocks for Ray Dataset reading.
         :return: Ray Dataset containing validated documents.
         """
         if not ray.is_initialized():
             ray.init()
 
         # Use read_binary_files as a reliable alternative to read_pickle
-        ds = ray.data.read_binary_files(
-            input_path, override_num_blocks=parallelism, include_paths=True
-        )
+        ds = ray.data.read_binary_files(input_path, include_paths=True)
 
         # Deserialize pickle files and flatten into individual records
         def deserialize_batch(batch: pd.DataFrame) -> pd.DataFrame:
diff --git a/graphgen/models/reader/rdf_reader.py b/graphgen/models/reader/rdf_reader.py
@@ -30,13 +30,11 @@ def __init__(self, *, text_column: str = "content", **kwargs):
     def read(
         self,
         input_path: Union[str, List[str]],
-        parallelism: int = 4,
     ) -> Dataset:
         """
         Read RDF file(s) using Ray Data.
 
         :param input_path: Path to RDF file or list of RDF files.
-        :param parallelism: Number of parallel workers for processing.
         :return: Ray Dataset containing extracted documents.
         """
         if not ray.is_initialized():
diff --git a/graphgen/models/reader/txt_reader.py b/graphgen/models/reader/txt_reader.py
@@ -10,17 +10,13 @@ class TXTReader(BaseReader):
     def read(
         self,
         input_path: Union[str, List[str]],
-        parallelism: int = 4,
     ) -> Dataset:
         """
         Read text files from the specified input path.
         :param input_path: Path to the input text file or list of text files.
-        :param parallelism: Number of blocks to override for Ray Dataset reading.
         :return: Ray Dataset containing the read text data.
         """
-        docs_ds = ray.data.read_text(
-            input_path, encoding="utf-8", override_num_blocks=parallelism
-        )
+        docs_ds = ray.data.read_text(input_path, encoding="utf-8")
 
         docs_ds = docs_ds.map(
             lambda row: {
diff --git a/graphgen/operators/__init__.py b/graphgen/operators/__init__.py
@@ -4,6 +4,6 @@
 from .init import init_llm
 from .partition import partition_kg
 from .quiz_and_judge import judge_statement, quiz
-from .read import read_files
+from .read import read
 from .search import search_all
 from .split import chunk_documents
diff --git a/graphgen/operators/evaluate.py b/graphgen/operators/evaluate.py
@@ -9,9 +9,13 @@
 from dotenv import load_dotenv
 
 from graphgen.bases.datatypes import QAPair
-
-from .models import LengthEvaluator, MTLDEvaluator, RewardEvaluator, UniEvaluator
-from .utils import logger, set_logger
+from graphgen.models import (
+    LengthEvaluator,
+    MTLDEvaluator,
+    RewardEvaluator,
+    UniEvaluator,
+)
+from graphgen.utils import logger, set_logger
 
 sys_path = os.path.abspath(os.path.dirname(__file__))
 set_logger(os.path.join(sys_path, "cache", "logs", "evaluate.log"))
diff --git a/graphgen/operators/read/__init__.py b/graphgen/operators/read/__init__.py
@@ -1 +1 @@
-from .read_files import read_files
+from .read import read
diff --git a/graphgen/operators/read/read.py b/graphgen/operators/read/read.py
@@ -47,10 +47,10 @@ def _build_reader(suffix: str, cache_dir: str | None, **reader_kwargs):
     return reader_cls(**reader_kwargs)
 
 
-def read_files(
+def read(
     input_path: Union[str, List[str]],
     allowed_suffix: Optional[List[str]] = None,
-    cache_dir: Optional[str] = None,
+    cache_dir: Optional[str] = "cache",
     parallelism: int = 4,
     recursive: bool = True,
     **reader_kwargs: Any,
@@ -101,7 +101,7 @@ def read_files(
         read_tasks = []
         for suffix, file_paths in files_by_suffix.items():
             reader = _build_reader(suffix, cache_dir, **reader_kwargs)
-            ds = reader.read(file_paths, parallelism=parallelism)
+            ds = reader.read(file_paths)
             read_tasks.append(ds)
 
         # 4. Combine all datasets
diff --git a/graphgen/operators/registry.py b/graphgen/operators/registry.py
@@ -0,0 +1,22 @@
+from .build_kg import build_kg
+from .extract import extract_info
+from .generate import generate_qas
+from .init import init_llm
+from .partition import partition_kg
+from .quiz_and_judge import judge_statement, quiz
+from .read import read
+from .search import search_all
+from .split import chunk_documents
+
+operators = {
+    "read": read,
+    "init_llm": init_llm,
+    "chunk_documents": chunk_documents,
+    "extract_info": extract_info,
+    "search_all": search_all,
+    "build_kg": build_kg,
+    "partition_kg": partition_kg,
+    "generate_qas": generate_qas,
+    "quiz": quiz,
+    "judge_statement": judge_statement,
+}

Original file line number	Diff line number	Diff line change
`@@ -1 +1 @@`
`1`		`-from .read_files import read_files`
	`1`	`+from .read import read`