Moar tests

Fokko · Fokko · commit 5025b4afead5 · 2024-04-10T22:32:41.000+02:00
diff --git a/pyiceberg/table/__init__.py b/pyiceberg/table/__init__.py
@@ -55,6 +55,7 @@
     And,
     BooleanExpression,
     EqualTo,
+    Not,
     Or,
     Reference,
 )
@@ -240,6 +241,8 @@ class TableProperties:
     WRITE_PARTITION_SUMMARY_LIMIT = "write.summary.partition-limit"
     WRITE_PARTITION_SUMMARY_LIMIT_DEFAULT = 0
 
+    DELETE_MODE = "write.delete.mode"
+
     DEFAULT_NAME_MAPPING = "schema.name-mapping.default"
     FORMAT_VERSION = "format-version"
     DEFAULT_FORMAT_VERSION = 2
@@ -457,11 +460,18 @@ def overwrite(
                     update_snapshot.append_data_file(data_file)
 
     def delete(self, delete_filter: BooleanExpression, snapshot_properties: Dict[str, str] = EMPTY_DICT) -> None:
+        if (mode := self.table_metadata.properties.get(TableProperties.DELETE_MODE)) and mode != 'copy-on-write':
+            warnings.warn("PyIceberg only supports copy on write")
+
         with self.update_snapshot(snapshot_properties=snapshot_properties).delete() as delete_snapshot:
             delete_snapshot.delete_by_predicate(delete_filter)  # type: ignore
 
         # Check if there are any files that require an actual rewrite of a data file
-        if delete_snapshot.rewrites_needed:  # type: ignore
+        if delete_snapshot.rewrites_needed is True:  # type: ignore
+            # When we want to filter out certain rows, we want to invert the expression
+            # delete id = 22 means that we want to look for that value, and then remove
+            # if from the Parquet file
+            delete_row_filter = Not(delete_filter)
             with self.update_snapshot(snapshot_properties=snapshot_properties).overwrite() as overwrite_snapshot:
                 # Potential optimization is where we check if the files actually contain relevant data.
                 files = self._scan(row_filter=delete_filter).plan_files()
@@ -480,7 +490,7 @@ def delete(self, delete_filter: BooleanExpression, snapshot_properties: Dict[str
                         tasks=[original_file],
                         table_metadata=self._table.metadata,
                         io=self._table.io,
-                        row_filter=delete_filter,
+                        row_filter=delete_row_filter,
                         projected_schema=self.table_metadata.schema(),
                     )
                     for data_file in _dataframe_to_data_files(
@@ -3100,11 +3110,12 @@ def _existing_manifests(self) -> List[ManifestFile]:
         if snapshot := self._transaction.table_metadata.current_snapshot():
             for manifest_file in snapshot.manifests(io=self._io):
                 entries = manifest_file.fetch_manifest_entry(io=self._io, discard_deleted=True)
-                found_deletes = [_ for entry in entries if entry in self._deleted_data_files]
+                found_deleted_data_files = [entry.data_file for entry in entries if entry.data_file in self._deleted_data_files]
 
-                if len(found_deletes) == 0:
+                if len(found_deleted_data_files) == 0:
                     existing_files.append(manifest_file)
                 else:
+                    # We have to rewrite the
                     output_file_location = _new_manifest_path(
                         location=self._transaction.table_metadata.location,
                         num=next(self._manifest_counter),
@@ -3128,7 +3139,7 @@ def _existing_manifests(self) -> List[ManifestFile]:
                                 )
                             )
                             for entry in entries
-                            if entry not in found_deletes
+                            if entry.data_file not in found_deleted_data_files
                         ]
                     existing_files.append(writer.to_manifest_file())
         return existing_files
diff --git a/tests/integration/test_deletes.py b/tests/integration/test_deletes.py
@@ -15,56 +15,159 @@
 # specific language governing permissions and limitations
 # under the License.
 # pylint:disable=redefined-outer-name
+from typing import List
+
 import pytest
-from pyspark.sql import DataFrame, SparkSession
+from pyspark.sql import SparkSession
 
 from pyiceberg.catalog.rest import RestCatalog
 from pyiceberg.expressions import EqualTo
 
 
-@pytest.fixture
-def test_deletes_table(spark: SparkSession) -> DataFrame:
+def run_spark_commands(spark: SparkSession, sqls: List[str]) -> None:
+    for sql in sqls:
+        spark.sql(sql)
+
+
+@pytest.mark.parametrize("format_version", [1, 2])
+def test_partitioned_table_delete_full_file(spark: SparkSession, session_catalog: RestCatalog, format_version: int) -> None:
     identifier = 'default.table_partitioned_delete'
 
-    spark.sql(f"DROP TABLE IF EXISTS {identifier}")
-
-    spark.sql(
-        f"""
-        CREATE TABLE {identifier} (
-            number_partitioned  int,
-            number              int
-        )
-        USING iceberg
-        PARTITIONED BY (number_partitioned)
-    """
-    )
-    spark.sql(
-        f"""
-        INSERT INTO {identifier} VALUES (10, 20), (10, 30)
-    """
-    )
-    spark.sql(
-        f"""
-        INSERT INTO {identifier} VALUES (11, 20), (11, 30)
-    """
+    run_spark_commands(
+        spark,
+        [
+            f"DROP TABLE IF EXISTS {identifier}",
+            f"""
+            CREATE TABLE {identifier} (
+                number_partitioned  int,
+                number              int
+            )
+            USING iceberg
+            PARTITIONED BY (number_partitioned)
+            TBLPROPERTIES('format-version' = {format_version})
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (10, 20), (10, 30)
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (11, 20), (11, 30)
+        """,
+        ],
     )
 
-    return spark.table(identifier)
+    tbl = session_catalog.load_table(identifier)
+    tbl.delete(EqualTo("number_partitioned", 10))
+
+    # No overwrite operation
+    assert [snapshot.summary.operation.value for snapshot in tbl.snapshots()] == ['append', 'append', 'delete']
+    assert tbl.scan().to_arrow().to_pydict() == {'number_partitioned': [11, 11], 'number': [20, 30]}
 
 
-def test_partition_deletes(test_deletes_table: DataFrame, session_catalog: RestCatalog) -> None:
+@pytest.mark.parametrize("format_version", [1, 2])
+def test_partitioned_table_rewrite(spark: SparkSession, session_catalog: RestCatalog, format_version: int) -> None:
     identifier = 'default.table_partitioned_delete'
 
+    run_spark_commands(
+        spark,
+        [
+            f"DROP TABLE IF EXISTS {identifier}",
+            f"""
+            CREATE TABLE {identifier} (
+                number_partitioned  int,
+                number              int
+            )
+            USING iceberg
+            PARTITIONED BY (number_partitioned)
+            TBLPROPERTIES('format-version' = {format_version})
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (10, 20), (10, 30)
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (11, 20), (11, 30)
+        """,
+        ],
+    )
+
     tbl = session_catalog.load_table(identifier)
-    tbl.delete(EqualTo("number_partitioned", 10))
+    tbl.delete(EqualTo("number", 20))
 
+    assert [snapshot.summary.operation.value for snapshot in tbl.snapshots()] == ['append', 'append', 'delete', 'overwrite']
     assert tbl.scan().to_arrow().to_pydict() == {'number_partitioned': [11, 11], 'number': [20, 30]}
 
 
-def test_deletes(test_deletes_table: DataFrame, session_catalog: RestCatalog) -> None:
+@pytest.mark.parametrize("format_version", [1, 2])
+def test_partitioned_table_no_match(spark: SparkSession, session_catalog: RestCatalog, format_version: int) -> None:
     identifier = 'default.table_partitioned_delete'
 
+    run_spark_commands(
+        spark,
+        [
+            f"DROP TABLE IF EXISTS {identifier}",
+            f"""
+            CREATE TABLE {identifier} (
+                number_partitioned  int,
+                number              int
+            )
+            USING iceberg
+            PARTITIONED BY (number_partitioned)
+            TBLPROPERTIES('format-version' = {format_version})
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (10, 20), (10, 30)
+        """,
+        ],
+    )
+
+    tbl = session_catalog.load_table(identifier)
+    tbl.delete(EqualTo("number_partitioned", 22))  # Does not affect any data
+
+    # Open for discussion, do we want to create a new snapshot?
+    assert [snapshot.summary.operation.value for snapshot in tbl.snapshots()] == ['append', 'delete']
+    assert tbl.scan().to_arrow().to_pydict() == {'number_partitioned': [10, 10], 'number': [20, 30]}
+
+
+def test_partitioned_table_positional_deletes(spark: SparkSession, session_catalog: RestCatalog) -> None:
+    identifier = 'default.table_partitioned_delete'
+
+    run_spark_commands(
+        spark,
+        [
+            f"DROP TABLE IF EXISTS {identifier}",
+            f"""
+            CREATE TABLE {identifier} (
+                number_partitioned  int,
+                number              int
+            )
+            USING iceberg
+            PARTITIONED BY (number_partitioned)
+            TBLPROPERTIES(
+                'format-version' = 2,
+                'write.delete.mode'='merge-on-read',
+                'write.update.mode'='merge-on-read',
+                'write.merge.mode'='merge-on-read'
+            )
+        """,
+            f"""
+            INSERT INTO {identifier} VALUES (10, 20), (10, 30), (10, 40)
+        """,
+            # Generate a positional delete
+            f"""
+            DELETE FROM {identifier} WHERE number = 30
+        """,
+        ],
+    )
+
     tbl = session_catalog.load_table(identifier)
-    tbl.delete(EqualTo("number", 30))
 
-    assert tbl.scan().to_arrow().to_pydict() == {'number_partitioned': [11, 11], 'number': [20, 20]}
+    # Assert that there is just a single Parquet file
+    assert len(list(tbl.scan().plan_files())) == 1
+
+    # Will rewrite a data file with a positional delete
+    tbl.delete(EqualTo("number", 40))
+
+    # Yet another wrong status by Spark
+    # One positional delete has been added, but an OVERWRITE status is set
+    # Related issue https://github.com/apache/iceberg/issues/9995
+    assert [snapshot.summary.operation.value for snapshot in tbl.snapshots()] == ['append', 'overwrite', 'delete']
+    assert tbl.scan().to_arrow().to_pydict() == {'number_partitioned': [10], 'number': [20]}