[DOP-23708] Add legacy indirect lineage support

dolfinus · dolfinus · commit c819d90880da · 2025-03-10T12:26:15.000+03:00
diff --git a/data_rentgen/consumer/extractors/column_lineage.py b/data_rentgen/consumer/extractors/column_lineage.py
@@ -20,6 +20,8 @@
 
 logger = logging.getLogger(__name__)
 
+TRANSFORMATION_TYPE_DIRECT = "DIRECT"
+
 TRANSFORMATION_SUBTYPE_MAP_MASKING = {
     "TRANSFORMATION": DatasetColumnRelationTypeDTO.TRANSFORMATION_MASKING,
     "AGGREGATION": DatasetColumnRelationTypeDTO.AGGREGATION_MASKING,
@@ -77,51 +79,65 @@ def extract_column_lineage(
     # Grouping column lineage by source+target dataset. This is unique combination within operation,
     # so we can use it to generate the same fingerprint for all dataset column relations
     datasets = {target_dataset_dto.unique_key: target_dataset_dto}
-    dataset_column_relations = defaultdict(list)
+    dataset_column_relations: dict[tuple, dict[tuple, DatasetColumnRelationDTO]] = defaultdict(dict)
 
     # direct lineage (source_column -> target_column)
     for field, raw_column_lineage in target_dataset.facets.columnLineage.fields.items():
         for input_field in raw_column_lineage.inputFields:
             source_dataset_dto = resolve_dataset_ref(input_field, dataset_cache)
             datasets[source_dataset_dto.unique_key] = source_dataset_dto
 
-            column_lineage_key = (source_dataset_dto.unique_key, target_dataset_dto.unique_key)
-            for transformation in input_field.transformations:
-                # OL integration for Spark before v1.23 (or with columnLineage.datasetLineageEnabled=false, which is still default)  # noqa: E501
-                # produced INDIRECT lineage for each combination source_column x target_column,
-                # which is amlost the cartesian join. It is VERY expensive to handle, just ignore.
-                # See https://github.com/OpenLineage/OpenLineage/pull/3097
-                if transformation.type == "INDIRECT":
-                    continue
+            dataset_relation_key = (source_dataset_dto.unique_key, target_dataset_dto.unique_key)
+            dataset_column_relation = dataset_column_relations[dataset_relation_key]
 
+            for transformation in input_field.transformations:
+                # OL integration for Spark before v1.23
+                # or with columnLineage.datasetLineageEnabled=false (which is still default)
+                # produces INDIRECT lineage for each combination source_column x target_column,
+                # which is almost a cartesian product.
+                # There are a lot of duplicates here, trying to avoid them by merging items immediately.
                 column_relation = DatasetColumnRelationDTO(
                     type=extract_dataset_column_relation_type(transformation),
                     source_column=input_field.field,
-                    target_column=field,
+                    target_column=field if transformation.type == TRANSFORMATION_TYPE_DIRECT else None,
                 )
-                dataset_column_relations[column_lineage_key].append(column_relation)
+                column_relation_key = column_relation.unique_key
+
+                existing_column_relation = dataset_column_relation.get(column_relation_key)
+                if existing_column_relation:
+                    dataset_column_relation[column_relation_key] = existing_column_relation.merge(column_relation)
+                else:
+                    dataset_column_relation[column_relation_key] = column_relation
 
     # indirect lineage (source_column -> target_dataset),
     # added to OL since v1.23 and send only when columnLineage.datasetLineageEnabled=true
     for input_field in target_dataset.facets.columnLineage.dataset:
         source_dataset_dto = resolve_dataset_ref(input_field, dataset_cache)
         datasets[source_dataset_dto.unique_key] = source_dataset_dto
 
-        column_lineage_key = (source_dataset_dto.unique_key, target_dataset_dto.unique_key)
+        dataset_relation_key = (source_dataset_dto.unique_key, target_dataset_dto.unique_key)
+        dataset_column_relation = dataset_column_relations[dataset_relation_key]
+
         for transformation in input_field.transformations:
             column_relation = DatasetColumnRelationDTO(
                 type=extract_dataset_column_relation_type(transformation),
                 source_column=input_field.field,
             )
-            dataset_column_relations[column_lineage_key].append(column_relation)
+            column_relation_key = column_relation.unique_key
+
+            existing_column_relation = dataset_column_relation.get(column_relation_key)
+            if existing_column_relation:
+                dataset_column_relation[column_relation_key] = existing_column_relation.merge(column_relation)
+            else:
+                dataset_column_relation[column_relation_key] = column_relation
 
     # merge results into DTO objects
     return [
         ColumnLineageDTO(
             operation=operation,
             source_dataset=datasets[source_dataset_dto_key],
             target_dataset=datasets[target_dataset_dto_key],
-            dataset_column_relations=relations,
+            dataset_column_relations=list(relations.values()),
         )
         for (source_dataset_dto_key, target_dataset_dto_key), relations in dataset_column_relations.items()
         if dataset_column_relations
diff --git a/data_rentgen/dto/column_lineage.py b/data_rentgen/dto/column_lineage.py
@@ -41,7 +41,7 @@ def column_relations(self) -> list[DatasetColumnRelationDTO]:
 
     @cached_property
     def fingerprint(self) -> UUID:
-        id_components = [(*item.unique_key, item.type) for item in self.column_relations]
+        id_components = sorted((*item.unique_key, item.type) for item in self.column_relations)
         str_components = [".".join(map(str, item)) for item in id_components]
         return generate_static_uuid(",".join(str_components))
 
diff --git a/data_rentgen/dto/dataset_column_relation.py b/data_rentgen/dto/dataset_column_relation.py
@@ -47,6 +47,9 @@ def unique_key(self) -> tuple:
         )
 
     def merge(self, new: DatasetColumnRelationDTO) -> DatasetColumnRelationDTO:
+        if new.fingerprint is None and new.type.value & self.type.value:
+            return self
+
         return DatasetColumnRelationDTO(
             source_column=self.source_column,
             target_column=self.target_column,
diff --git a/data_rentgen/dto/location.py b/data_rentgen/dto/location.py
@@ -17,7 +17,7 @@ def unique_key(self) -> tuple:
         return (self.type, self.name)
 
     def merge(self, new: LocationDTO) -> LocationDTO:
-        if new.id is None and self.addresses == new.addresses:
+        if new.id is None and new.addresses.issubset(self.addresses):
             # locations aren't changed that much, reuse them if possible
             return self
 
diff --git a/tests/test_consumer/test_extractors/fixtures/column_lineage_facets.py b/tests/test_consumer/test_extractors/fixtures/column_lineage_facets.py
@@ -96,17 +96,6 @@ def output_event_with_one_to_two_direct_and_indirect_column_lineage() -> OpenLin
                                     ),
                                 ],
                             ),
-                            OpenLineageColumnLineageDatasetFacetFieldRef(
-                                namespace="hive://test-hadoop:9083",
-                                name="mydb.mytable",
-                                field="source_col_1",
-                                transformations=[
-                                    OpenLineageColumnLineageDatasetFacetFieldTransformation(
-                                        type="INDIRECT",
-                                        subtype="JOIN",
-                                    ),
-                                ],
-                            ),
                             OpenLineageColumnLineageDatasetFacetFieldRef(
                                 namespace="hive://test-hadoop:9083",
                                 name="mydb.mytable",
@@ -127,6 +116,11 @@ def output_event_with_one_to_two_direct_and_indirect_column_lineage() -> OpenLin
                         name="mydb.mytable",
                         field="source_col_2",
                         transformations=[
+                            OpenLineageColumnLineageDatasetFacetFieldTransformation(
+                                type="INDIRECT",
+                                subtype="JOIN",
+                                masking=False,
+                            ),
                             OpenLineageColumnLineageDatasetFacetFieldTransformation(
                                 type="INDIRECT",
                                 subtype="SORT",
@@ -172,6 +166,17 @@ def output_event_with_direct_and_legacy_indirect_column_lineage() -> OpenLineage
                                     ),
                                 ],
                             ),
+                            OpenLineageColumnLineageDatasetFacetFieldRef(
+                                namespace="hive://test-hadoop:9083",
+                                name="mydb.mytable",
+                                field="source_col_4",
+                                transformations=[
+                                    OpenLineageColumnLineageDatasetFacetFieldTransformation(
+                                        type="INDIRECT",
+                                        subtype="WINDOW",
+                                    ),
+                                ],
+                            ),
                         ],
                     ),
                     "column_2": OpenLineageColumnLineageDatasetFacetField(
@@ -187,6 +192,17 @@ def output_event_with_direct_and_legacy_indirect_column_lineage() -> OpenLineage
                                     ),
                                 ],
                             ),
+                            OpenLineageColumnLineageDatasetFacetFieldRef(
+                                namespace="hive://test-hadoop:9083",
+                                name="mydb.mytable",
+                                field="source_col_2",
+                                transformations=[
+                                    OpenLineageColumnLineageDatasetFacetFieldTransformation(
+                                        type="INDIRECT",
+                                        subtype="JOIN",
+                                    ),
+                                ],
+                            ),
                             OpenLineageColumnLineageDatasetFacetFieldRef(
                                 namespace="hive://test-hadoop:9083",
                                 name="mydb.mytable",
diff --git a/tests/test_consumer/test_extractors/test_extractors_column_lineage.py b/tests/test_consumer/test_extractors/test_extractors_column_lineage.py
@@ -130,10 +130,6 @@ def test_extractors_extract_legacy_indirect_column_lineage(
     extracted_hdfs_dataset,
     output_event_with_direct_and_legacy_indirect_column_lineage,
 ):
-    """
-    The output event contains Indirect column lineage in legacy format (inside 'fields', item).
-    This test check's that this data is not included in column lineage.
-    """
     operation = extracted_spark_operation
 
     column_lineage = extract_column_lineage(
@@ -152,12 +148,24 @@ def test_extractors_extract_legacy_indirect_column_lineage(
                     target_column="column_1",
                     fingerprint=None,
                 ),
+                DatasetColumnRelationDTO(
+                    type=DatasetColumnRelationTypeDTO.JOIN,
+                    source_column="source_col_2",
+                    target_column=None,
+                    fingerprint=None,
+                ),
                 DatasetColumnRelationDTO(
                     type=DatasetColumnRelationTypeDTO.AGGREGATION,
                     source_column="source_col_3",
                     target_column="column_2",
                     fingerprint=None,
                 ),
+                DatasetColumnRelationDTO(
+                    type=DatasetColumnRelationTypeDTO.WINDOW,
+                    source_column="source_col_4",
+                    target_column=None,
+                    fingerprint=None,
+                ),
             ],
         ),
     ]
@@ -194,7 +202,7 @@ def test_extractors_extract_indirect_column_lineage(
                     fingerprint=None,
                 ),
                 DatasetColumnRelationDTO(
-                    type=DatasetColumnRelationTypeDTO.SORT,
+                    type=DatasetColumnRelationTypeDTO.JOIN | DatasetColumnRelationTypeDTO.SORT,
                     source_column="source_col_2",
                     target_column=None,
                     fingerprint=None,

Original file line number	Diff line number	Diff line change
`@@ -47,6 +47,9 @@ def unique_key(self) -> tuple:`
`47`	`47`	`)`
`48`	`48`
`49`	`49`	`def merge(self, new: DatasetColumnRelationDTO) -> DatasetColumnRelationDTO:`
	`50`	`+ if new.fingerprint is None and new.type.value & self.type.value:`
	`51`	`+ return self`
	`52`	`+`
`50`	`53`	`return DatasetColumnRelationDTO(`
`51`	`54`	`source_column=self.source_column,`
`52`	`55`	`target_column=self.target_column,`