apache · timsaucer · Jan 11, 2025 · Dec 24, 2024 · Dec 27, 2024 · Jan 7, 2025
diff --git a/python/datafusion/dataframe.py b/python/datafusion/dataframe.py
@@ -620,16 +620,25 @@ def write_csv(self, path: str | pathlib.Path, with_header: bool = False) -> None
     def write_parquet(
         self,
         path: str | pathlib.Path,
-        compression: str = "uncompressed",
+        compression: str = "ZSTD",
         compression_level: int | None = None,
     ) -> None:
         """Execute the :py:class:`DataFrame` and write the results to a Parquet file.
 
         Args:
             path: Path of the Parquet file to write.
-            compression: Compression type to use.
-            compression_level: Compression level to use.
-        """
+            compression: Compression type to use. Default is "ZSTD".
+            compression_level: Compression level to use. For ZSTD, the
+                recommended range is 1 to 22, with the default being 4. Higher levels
+                provide better compression but slower speed.
+        """
+        if compression == "ZSTD":
 "zstd" => Compression::ZSTD( 
     ZstdLevel::try_new(verify_compression_level(compression_level)? as i32) 
         .map_err(|e| PyValueError::new_err(format!("{e}")))?, 
 ), 
 @pytest.mark.parametrize( 
     "compression, compression_level", 
     [("gzip", 12), ("brotli", 15), ("zstd", 23), ("wrong", 12)], 
 ) 
 def test_write_compressed_parquet_wrong_compression_level( 
     df, tmp_path, compression, compression_level 
 ): 
     path = tmp_path 
     with pytest.raises(ValueError): 
         df.write_parquet( 
             str(path), 
             compression=compression, 
             compression_level=compression_level, 
 "zstd" => Compression::ZSTD( 
     ZstdLevel::try_new(verify_compression_level(compression_level)? as i32) 
         .map_err(|e| PyValueError::new_err(format!("{e}")))?, 
 ), 
 @pytest.mark.parametrize( 
     "compression, compression_level", 
     [("gzip", 12), ("brotli", 15), ("zstd", 23), ("wrong", 12)], 
 ) 
 def test_write_compressed_parquet_wrong_compression_level( 
     df, tmp_path, compression, compression_level 
 ): 
     path = tmp_path 
  
     with pytest.raises(ValueError): 
         df.write_parquet( 
             str(path), 
             compression=compression, 
             compression_level=compression_level, 
+            if compression_level is None:
+                # Default compression level for ZSTD is 4 like in delta-rs
+                # https://github.com/apache/datafusion-python/pull/981#discussion_r1899871918
+                compression_level = 4
+            elif not (1 <= compression_level <= 22):
+                raise ValueError("Compression level for ZSTD must be between 1 and 22")
         self.df.write_parquet(str(path), compression, compression_level)
 
     def write_json(self, path: str | pathlib.Path) -> None: