Add csv export support (#17)

meln1k · web-flow · commit 279526ad6a62 · 2022-12-16T16:01:36.000+01:00
diff --git a/README.md b/README.md
@@ -96,11 +96,23 @@ destinations:
 
 ```
 destinations:
-    parquet:
-        path: /path/to/parquet/files
+    file:
+        path: /where/to/write/parquet/files/
+        format: parquet
         batch_size: 100_000
 ```
 
+#### CSV
+
+```
+destinations:
+    file:
+        path: /where/to/write/to/csv/files/
+        format: csv
+        batch_size: 100_000
+```
+
+
 #### My database is not listed here
 
 cloud2sql uses SQLAlchemy to connect to the database. If your database is not listed here, you can check if it is supported in [SQLAlchemy Dialects](https://docs.sqlalchemy.org/en/20/dialects/index.html).
diff --git a/cloud2sql/__main__.py b/cloud2sql/__main__.py
@@ -59,7 +59,7 @@ def main() -> None:
         sender = NoEventSender() if args.analytics_opt_out else PosthogEventSender()
         config = configure(args.config)
         engine = None
-        if next(iter(config["destinations"].keys()), None) == "parquet":
+        if next(iter(config["destinations"].keys()), None) == "file":
             check_parquet_driver()
         else:
             engine = create_engine(db_string_from_config(config))
diff --git a/cloud2sql/collect_plugins.py b/cloud2sql/collect_plugins.py
@@ -8,8 +8,9 @@
 from queue import Queue
 from threading import Event
 from time import sleep
-from typing import Dict, Optional, List, Any, Tuple, Set
+from typing import Dict, Optional, List, Any, Tuple, Set, Literal
 from pathlib import Path
+from dataclasses import dataclass
 
 import pkg_resources
 import yaml
@@ -33,7 +34,7 @@
 from cloud2sql.sql import SqlUpdater, sql_updater
 
 try:
-    from cloud2sql.parquet import ParquetModel, ParquetWriter
+    from cloud2sql.parquet import ArrowModel, ArrowWriter
 except ImportError:
     pass
 
@@ -59,7 +60,18 @@ def collectors(raw_config: Json, feedback: CoreFeedback) -> Dict[str, BaseCollec
     return result
 
 
+@dataclass(frozen=True)
+class FileDestination:
+    path: Path
+    format: Literal["parquet", "csv"]
+    batch_size: int
+
+
 def configure(path_to_config: Optional[str]) -> Json:
+    def require(key: str, obj: Json, msg: str):
+        if key not in obj:
+            raise ValueError(msg)
+
     config = {}
     if path_to_config:
         with open(path_to_config) as f:
@@ -70,6 +82,16 @@ def configure(path_to_config: Optional[str]) -> Json:
     if "destinations" not in config:
         raise ValueError("No destinations configured")
 
+    if "file" in (config.get("destinations", {}) or {}):
+        file_dest = config["destinations"]["file"]
+        require("format", file_dest, "No format configured for file destination")
+        if not file_dest["format"] in ["parquet", "csv"]:
+            raise ValueError("Format must be either parquet or csv")
+        require("path", file_dest, "No path configured for file destination")
+        config["destinations"]["file"] = FileDestination(
+            Path(file_dest["path"]), file_dest["format"], int(file_dest.get("batch_size", 100_000))
+        )
+
     return config
 
 
@@ -79,7 +101,9 @@ def collect(
     if engine:
         return collect_sql(collector, engine, feedback, args)
     else:
-        return collect_parquet(collector, feedback, config)
+        if "file" not in config["destinations"]:
+            raise ValueError("No file destination configured")
+        return collect_to_file(collector, feedback, config["destinations"]["file"])
 
 
 def prepare_node(node: BaseResource, collector: BaseCollectorPlugin) -> Json:
@@ -95,13 +119,15 @@ def prepare_node(node: BaseResource, collector: BaseCollectorPlugin) -> Json:
     return exported
 
 
-def collect_parquet(collector: BaseCollectorPlugin, feedback: CoreFeedback, config: Json) -> Tuple[str, int, int]:
+def collect_to_file(
+    collector: BaseCollectorPlugin, feedback: CoreFeedback, config: FileDestination
+) -> Tuple[str, int, int]:
     # collect cloud data
     feedback.progress_done(collector.cloud, 0, 1)
     collector.collect()
     # read the kinds created from this collector
     kinds = [from_json(m, Kind) for m in collector.graph.export_model(walk_subclasses=False)]
-    model = ParquetModel(Model({k.fqn: k for k in kinds}))
+    model = ArrowModel(Model({k.fqn: k for k in kinds}))
     node_edge_count = len(collector.graph.nodes) + len(collector.graph.edges)
     ne_current = 0
     progress_update = node_edge_count // 100
@@ -115,11 +141,7 @@ def collect_parquet(collector: BaseCollectorPlugin, feedback: CoreFeedback, conf
     # create the ddl metadata from the kinds
     model.create_schema(list(edges_by_kind))
     # ingest the data
-    parquet_conf = config.get("destinations", {}).get("parquet")
-    assert parquet_conf
-    parquet_path = Path(parquet_conf["path"])
-    parquet_batch_size = int(parquet_conf["batch_size"])
-    writer = ParquetWriter(model, parquet_path, parquet_batch_size)
+    writer = ArrowWriter(model, config.path, config.batch_size, config.format)
     node: BaseResource
     for node in sorted(collector.graph.nodes, key=lambda n: n.kind):
         exported = prepare_node(node, collector)
@@ -214,7 +236,7 @@ def collect_from_plugins(engine: Optional[Engine], args: Namespace, sender: Anal
     raw_config = configure(args.config)
     sources = raw_config["sources"]
     all_collectors = collectors(sources, feedback)
-    engine_name = engine.dialect.name if engine else "parquet"
+    engine_name = engine.dialect.name if engine else "file"
     analytics = {"total": len(all_collectors), "engine": engine_name} | {name: 1 for name in all_collectors}
     end = Event()
     with ThreadPoolExecutor(max_workers=4) as executor:
diff --git a/cloud2sql/parquet.py b/cloud2sql/parquet.py
@@ -1,6 +1,7 @@
 from resotoclient.models import Kind, Model, JsObject
-from typing import Dict, List, Any, NamedTuple, Optional, Tuple
+from typing import Dict, List, Any, NamedTuple, Optional, Tuple, final, Literal
 import pyarrow as pa
+import pyarrow.csv as csv
 from cloud2sql.schema_utils import (
     base_kinds,
     get_table_name,
@@ -11,9 +12,10 @@
 import pyarrow.parquet as pq
 from pathlib import Path
 from dataclasses import dataclass
+from abc import ABC
 
 
-class ParquetModel:
+class ArrowModel:
     def __init__(self, model: Model):
         self.model = model
         self.table_kinds = [
@@ -23,7 +25,7 @@ def __init__(self, model: Model):
         ]
         self.schemas: Dict[str, pa.Schema] = {}
 
-    def _parquet_type(self, kind: str) -> pa.lib.DataType:
+    def _pyarrow_type(self, kind: str) -> pa.lib.DataType:
         if kind.startswith("dict") or "[]" in kind:
             return pa.string()  # dicts and lists are converted to json strings
         elif kind == "int32":
@@ -49,7 +51,7 @@ def table_schema(kind: Kind) -> None:
                 schema = pa.schema(
                     [
                         pa.field("_id", pa.string()),
-                        *[pa.field(p.name, self._parquet_type(p.kind)) for p in properties],
+                        *[pa.field(p.name, self._pyarrow_type(p.kind)) for p in properties],
                     ]
                 )
                 self.schemas[table_name] = schema
@@ -90,41 +92,85 @@ class WriteResult(NamedTuple):
     table_name: str
 
 
+class FileWriter(ABC):
+    pass
+
+
+@final
+@dataclass(frozen=True)
+class Parquet(FileWriter):
+    parquet_writer: pq.ParquetWriter
+
+
+@final
+@dataclass(frozen=True)
+class CSV(FileWriter):
+    csv_writer: csv.CSVWriter
+
+
+@final
 @dataclass
-class ParquetBatch:
+class ArrowBatch:
     rows: List[Dict[str, Any]]
     schema: pa.Schema
-    writer: pq.ParquetWriter
+    writer: FileWriter
+
+
+def write_batch_to_file(batch: ArrowBatch) -> ArrowBatch:
+    pa_table = pa.Table.from_pylist(batch.rows, batch.schema)
+    if isinstance(batch.writer, Parquet):
+        batch.writer.parquet_writer.write_table(pa_table)
+    elif isinstance(batch.writer, CSV):
+        batch.writer.csv_writer.write_table(pa_table)
+    else:
+        raise ValueError(f"Unknown format {batch.writer}")
+    return ArrowBatch(rows=[], schema=batch.schema, writer=batch.writer)
+
 
+def close_writer(batch: ArrowBatch) -> None:
+    if isinstance(batch.writer, Parquet):
+        batch.writer.parquet_writer.close()
+    elif isinstance(batch.writer, CSV):
+        batch.writer.csv_writer.close()
+    else:
+        raise ValueError(f"Unknown format {batch.writer}")
 
-class ParquetWriter:
+
+def new_writer(
+    format: Literal["parquet", "csv"], table_name: str, schema: pa.Schema, result_dir: Path
+) -> FileWriter:
+    def ensure_path(path: Path) -> Path:
+        path.mkdir(parents=True, exist_ok=True)
+        return path
+
+    if format == "parquet":
+        return Parquet(pq.ParquetWriter(Path(ensure_path(result_dir), f"{table_name}.parquet"), schema=schema))
+    elif format == "csv":
+        return CSV(csv.CSVWriter(Path(ensure_path(result_dir), f"{table_name}.csv"), schema=schema))
+    else:
+        raise ValueError(f"Unknown format {format}")
+
+
+class ArrowWriter:
     def __init__(
-        self,
-        model: ParquetModel,
-        result_directory: Path,
-        rows_per_batch: int,
+        self, model: ArrowModel, result_directory: Path, rows_per_batch: int, output_format: Literal["parquet", "csv"]
     ):
         self.model = model
         self.kind_by_id: Dict[str, str] = {}
-        self.batches: Dict[str, ParquetBatch] = {}
-        self.rows_per_batch = rows_per_batch
-        self.result_directory = result_directory
+        self.batches: Dict[str, ArrowBatch] = {}
+        self.rows_per_batch: int = rows_per_batch
+        self.result_directory: Path = result_directory
+        self.output_format: Literal["parquet", "csv"] = output_format
 
     def insert_value(self, table_name: str, values: Any) -> Optional[WriteResult]:
         if self.model.schemas.get(table_name):
-
-            def ensure_path(path: Path) -> Path:
-                path.mkdir(parents=True, exist_ok=True)
-                return path
-
             batch = self.batches.get(
                 table_name,
-                ParquetBatch(
+                ArrowBatch(
                     [],
                     self.model.schemas[table_name],
-                    pq.ParquetWriter(
-                        Path(ensure_path(self.result_directory), f"{table_name}.parquet"),
-                        self.model.schemas[table_name],
+                    new_writer(
+                        self.output_format, table_name, self.model.schemas[table_name], self.result_directory
                     ),
                 ),
             )
@@ -134,12 +180,6 @@ def ensure_path(path: Path) -> Path:
             return WriteResult(table_name)
         return None
 
-    def write_batch_bundle(self, batch: ParquetBatch) -> None:
-        rows = batch.rows
-        batch.rows = []
-        pa_table = pa.Table.from_pylist(rows, batch.schema)
-        batch.writer.write_table(pa_table)
-
     def insert_node(self, node: JsObject) -> None:
         result = insert_node(
             node,
@@ -151,9 +191,10 @@ def insert_node(self, node: JsObject) -> None:
         should_write_batch = result and len(self.batches[result.table_name].rows) > self.rows_per_batch
         if result and should_write_batch:
             batch = self.batches[result.table_name]
-            self.write_batch_bundle(batch)
+            self.batches[result.table_name] = write_batch_to_file(batch)
 
     def close(self) -> None:
-        for batch in self.batches.values():
-            self.write_batch_bundle(batch)
-            batch.writer.close()
+        for table_name, batch in self.batches.items():
+            batch = write_batch_to_file(batch)
+            self.batches[table_name] = batch
+            close_writer(batch)
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -9,7 +9,7 @@
 from sqlalchemy.engine import create_engine, Engine
 
 from cloud2sql.sql import SqlDefaultUpdater
-from cloud2sql.parquet import ParquetModel, ParquetWriter
+from cloud2sql.parquet import ArrowModel, ArrowWriter
 from pathlib import Path
 import shutil
 import uuid
@@ -70,12 +70,12 @@ def updater(model: Model) -> SqlDefaultUpdater:
 
 @fixture()
 def parquet_writer(model: Model):
-    parquet_model = ParquetModel(model)
+    parquet_model = ArrowModel(model)
     parquet_model.create_schema([])
 
     p = Path(f"test_parquet_{uuid.uuid4()}")
     p.mkdir(exist_ok=True)
-    yield ParquetWriter(parquet_model, p, 1)
+    yield ArrowWriter(parquet_model, p, 1, "parquet")
     shutil.rmtree(p)
 
 
diff --git a/tests/parquet_test.py b/tests/parquet_test.py
@@ -1,10 +1,10 @@
 from resotoclient.models import Model
 
-from cloud2sql.parquet import ParquetModel, ParquetWriter
+from cloud2sql.parquet import ArrowModel, ArrowWriter
 
 
 def test_create_schema(model: Model) -> None:
-    parquet_model = ParquetModel(model)
+    parquet_model = ArrowModel(model)
     parquet_model.create_schema([])
 
     assert parquet_model.schemas.keys() == {"some_instance", "some_volume", "link_some_instance_some_volume"}
@@ -32,7 +32,7 @@ def test_create_schema(model: Model) -> None:
     assert set(parquet_model.schemas["link_some_instance_some_volume"].names) == {"to_id", "from_id"}
 
 
-def test_update(parquet_writer: ParquetWriter) -> None:
+def test_update(parquet_writer: ArrowWriter) -> None:
 
     parquet_writer.insert_node(  # type: ignore
         {