Fix linting and test

evertlammerts · evertlammerts · commit 5cb2afbf07a0 · 2025-12-02T16:30:45.000+01:00
diff --git a/tests/fast/api/test_to_parquet.py b/tests/fast/api/test_to_parquet.py
@@ -1,4 +1,6 @@
 import os
+import pathlib
+import re
 import tempfile
 
 import pytest
@@ -184,12 +186,14 @@ def test_filename_pattern_with_index(self, pd):
         rel = duckdb.from_df(df)
         rel.to_parquet(temp_file_name, partition_by=["category"], filename_pattern="orders_{i}")
         # Check that files follow the pattern with {i}
-        files_a = os.listdir(f"{temp_file_name}/category=a")
-        files_b = os.listdir(f"{temp_file_name}/category=b")
-        files_c = os.listdir(f"{temp_file_name}/category=c")
-        assert all("orders_" in f and f.endswith(".parquet") for f in files_a)
-        assert all("orders_" in f and f.endswith(".parquet") for f in files_b)
-        assert all("orders_" in f and f.endswith(".parquet") for f in files_c)
+        files_a = list(pathlib.Path(f"{temp_file_name}/category=a").iterdir())
+        files_b = list(pathlib.Path(f"{temp_file_name}/category=b").iterdir())
+        files_c = list(pathlib.Path(f"{temp_file_name}/category=c").iterdir())
+        filename_pattern = re.compile(r"^orders_[09]+\.parquet$")
+        assert all(filename_pattern.search(str(f.name)) for f in files_a)
+        assert all(filename_pattern.search(str(f.name)) for f in files_b)
+        assert all(filename_pattern.search(str(f.name)) for f in files_c)
+
         # Verify data integrity
         result = duckdb.sql(f"FROM read_parquet('{temp_file_name}/*/*.parquet', hive_partitioning=TRUE)")
         expected = [("rei", 321.0, "a"), ("shinji", 123.0, "a"), ("asuka", 23.0, "b"), ("kaworu", 340.0, "c")]
@@ -202,14 +206,22 @@ def test_filename_pattern_with_uuid(self, pd):
             {
                 "name": ["rei", "shinji", "asuka", "kaworu"],
                 "float": [321.0, 123.0, 23.0, 340.0],
+                "category": ["a", "a", "b", "c"],
             }
         )
         rel = duckdb.from_df(df)
-        rel.to_parquet(temp_file_name, filename_pattern="file_{uuid}")
+        rel.to_parquet(temp_file_name, partition_by=["category"], filename_pattern="file_{uuid}")
         # Check that files follow the pattern with {uuid}
-        files = [f for f in os.listdir(temp_file_name) if f.endswith(".parquet")]
-        assert len(files) > 0
-        assert all(f.startswith("file_") and f.endswith(".parquet") for f in files)
+        files_a = list(pathlib.Path(f"{temp_file_name}/category=a").iterdir())
+        files_b = list(pathlib.Path(f"{temp_file_name}/category=b").iterdir())
+        files_c = list(pathlib.Path(f"{temp_file_name}/category=c").iterdir())
+        filename_pattern = re.compile(r"^file_[a-z0-9]{8}-[a-z0-9]{4}-[a-z0-9]{4}-[a-z0-9]{4}-[a-z0-9]{12}\.parquet$")
+        print(files_a)
+        assert all(filename_pattern.search(str(f.name)) for f in files_a)
+        assert all(filename_pattern.search(str(f.name)) for f in files_b)
+        assert all(filename_pattern.search(str(f.name)) for f in files_c)
+
         # Verify data integrity
-        result = duckdb.read_parquet(f"{temp_file_name}/*.parquet")
-        assert rel.execute().fetchall() == result.execute().fetchall()
+        result = duckdb.sql(f"FROM read_parquet('{temp_file_name}/*/*.parquet', hive_partitioning=TRUE)")
+        expected = [("rei", 321.0, "a"), ("shinji", 123.0, "a"), ("asuka", 23.0, "b"), ("kaworu", 340.0, "c")]
+        assert result.execute().fetchall() == expected