fix tests

nicornk · nicornk · commit 40063e151e48 · 2025-12-07T20:42:50.000+01:00
diff --git a/tests/fast/api/test_to_parquet.py b/tests/fast/api/test_to_parquet.py
@@ -226,54 +226,24 @@ def test_filename_pattern_with_uuid(self, pd):
         expected = [("rei", 321.0, "a"), ("shinji", 123.0, "a"), ("asuka", 23.0, "b"), ("kaworu", 340.0, "c")]
         assert result.execute().fetchall() == expected
 
-    @pytest.mark.parametrize("pd", [NumpyPandas(), ArrowPandas()])
     @pytest.mark.parametrize("file_size_bytes", [1000, "1k"])
-    def test_file_size_bytes_basic(self, pd, file_size_bytes):
+    def test_file_size_bytes_basic(self, file_size_bytes):
         temp_file_name = os.path.join(tempfile.mkdtemp(), next(tempfile._get_candidate_names()))  # noqa: PTH118
-        # Create a larger dataset to ensure multiple files are created
-        df = pd.DataFrame(
-            {
-                "name": [f"name_{i}" for i in range(100)],
-                "value": [i * 100.0 for i in range(100)],
-                "description": [f"description_{i}_with_more_text" for i in range(100)],
-            }
-        )
-        rel = duckdb.from_df(df)
-        rel.to_parquet(temp_file_name, file_size_bytes=file_size_bytes, per_thread_output=True)
+
+        # use same test data as external/duckdb/test/sql/copy/file_size_bytes.test
+        rel = duckdb.from_query("SELECT i AS col_a, i AS col_b FROM range(0,10000) tbl(i);")
+        rel.to_parquet(temp_file_name, file_size_bytes=file_size_bytes, row_group_size=2000)
 
         # Check that multiple files were created
         files = list(pathlib.Path(temp_file_name).iterdir())
         assert len(files) > 1, f"Expected multiple files, got {len(files)}"
 
         # Verify data integrity
         result = duckdb.read_parquet(f"{temp_file_name}/*.parquet")
-        assert len(result.execute().fetchall()) == 100
-
-    @pytest.mark.parametrize("pd", [NumpyPandas(), ArrowPandas()])
-    def test_file_size_bytes_with_partition(self, pd):
-        temp_file_name = os.path.join(tempfile.mkdtemp(), next(tempfile._get_candidate_names()))  # noqa: PTH118
-        # Create a dataset with enough data to trigger file splitting
-        df = pd.DataFrame(
-            {
-                "name": [f"name_{i}" for i in range(100)],
-                "value": [i * 100.0 for i in range(100)],
-                "category": ["a" if i < 50 else "b" for i in range(100)],
-                "description": [f"description_{i}_with_more_text_to_increase_size" for i in range(100)],
-            }
-        )
-        rel = duckdb.from_df(df)
-        rel.to_parquet(temp_file_name, partition_by=["category"], file_size_bytes="2k", per_thread_output=True)
-
-        # Check that files were created in partition directories
-        assert pathlib.Path(f"{temp_file_name}/category=a").exists()
-        assert pathlib.Path(f"{temp_file_name}/category=b").exists()
-
-        # Verify data integrity
-        result = duckdb.sql(f"FROM read_parquet('{temp_file_name}/*/*.parquet', hive_partitioning=TRUE)")
-        assert len(result.execute().fetchall()) == 100
+        assert len(result.execute().fetchall()) == 10000
 
     @pytest.mark.parametrize("pd", [NumpyPandas(), ArrowPandas()])
-    @pytest.mark.parametrize("file_size_bytes", ["1M", "1G"])
+    @pytest.mark.parametrize("file_size_bytes", ["256MB", "1G"])
     def test_file_size_bytes_human_readable(self, pd, file_size_bytes):
         temp_file_name = os.path.join(tempfile.mkdtemp(), next(tempfile._get_candidate_names()))  # noqa: PTH118
         df = pd.DataFrame(