[DOP-28706] Make name unique check case-insensitive

dolfinus · dolfinus · commit 138ec7f9323f · 2025-09-17T10:40:14.000+03:00
diff --git a/data_rentgen/consumer/extractors/generic/dataset.py b/data_rentgen/consumer/extractors/generic/dataset.py
@@ -43,7 +43,8 @@ def _extract_dataset_location(
         self,
         dataset: OpenLineageDataset | OpenLineageSymlinkIdentifier | OpenLineageColumnLineageDatasetFacetFieldRef,
     ) -> LocationDTO:
-        namespace = dataset.namespace
+        # hostname and scheme are normalized to lowercase for uniqueness
+        namespace = dataset.namespace.lower()
         if namespace == "file":
             # TODO: remove after https://github.com/OpenLineage/OpenLineage/issues/2709
             namespace = "file://"
diff --git a/data_rentgen/consumer/extractors/generic/job.py b/data_rentgen/consumer/extractors/generic/job.py
@@ -36,7 +36,8 @@ def extract_parent_job(self, job: OpenLineageJob | OpenLineageParentJob) -> JobD
         )
 
     def _extract_job_location(self, job: OpenLineageJob | OpenLineageParentJob) -> LocationDTO:
-        url = urlparse(job.namespace)
+        # hostname and scheme are normalized to lowercase for uniqueness
+        url = urlparse(job.namespace.lower())
         scheme = url.scheme or "unknown"
         netloc = url.netloc or url.path
         return LocationDTO(
@@ -50,6 +51,7 @@ def _extract_job_type(self, job: OpenLineageJob) -> JobTypeDTO | None:
             integration_type = job.facets.jobType.integration
             job_type = job.facets.jobType.jobType
             type_ = f"{integration_type}_{job_type}" if job_type else integration_type
+            # job_type are always upper case
             return JobTypeDTO(type=type_.upper())
 
         return None
diff --git a/data_rentgen/db/migrations/versions/2025-09-16_17481d3b2466_make_unique_names_case_insensitive.py b/data_rentgen/db/migrations/versions/2025-09-16_17481d3b2466_make_unique_names_case_insensitive.py
@@ -0,0 +1,98 @@
+# SPDX-FileCopyrightText: 2024-2025 MTS PJSC
+# SPDX-License-Identifier: Apache-2.0
+"""Make unique names constraints case-insensitive
+
+Revision ID: 17481d3b2466
+Revises: fc001835e473
+Create Date: 2025-09-16 11:18:01.308085
+
+"""
+
+import sqlalchemy as sa
+from alembic import op
+
+# revision identifiers, used by Alembic.
+revision = "17481d3b2466"
+down_revision = "fc001835e473"
+branch_labels = None
+depends_on = None
+
+
+def upgrade() -> None:
+    op.execute(sa.text("UPDATE location SET type = lower(type), name = lower(name)"))
+    op.execute(sa.text("UPDATE address SET url = lower(url)"))
+    op.execute(sa.text("UPDATE job_type SET type = upper(type)"))
+
+    op.create_index(
+        "ix__dataset__location_id__name_lower",
+        "dataset",
+        ["location_id", sa.literal_column("lower(name)")],
+        unique=True,
+    )
+    op.drop_constraint(op.f("uq__dataset__location_id_name"), "dataset", type_="unique")
+    op.drop_index(op.f("ix__dataset__location_id"), table_name="dataset")
+    op.drop_index(op.f("ix__dataset__name"), table_name="dataset")
+
+    op.create_index(
+        "ix__job__location_id_name_lower",
+        "job",
+        ["location_id", sa.literal_column("lower(name)")],
+        unique=True,
+    )
+    op.drop_constraint(op.f("uq__job__location_id_name"), "job", type_="unique")
+    op.drop_index(op.f("ix__job__location_id"), table_name="job")
+    op.drop_index(op.f("ix__job__name"), table_name="job")
+
+    op.create_index("ix__tag__name_lower", "tag", [sa.literal_column("lower(name)")], unique=True)
+    op.drop_constraint(op.f("uq__tag__name"), "tag", type_="unique")
+
+    op.create_index(
+        "ix__tag_value__tag_id_value_lower",
+        "tag_value",
+        ["tag_id", sa.literal_column("lower(value)")],
+        unique=True,
+    )
+    op.drop_constraint(op.f("uq__tag_value__tag_id_value"), "tag_value", type_="unique")
+    op.drop_index(op.f("ix__tag_value__tag_id"), table_name="tag_value")
+
+    op.create_index("ix__user__name_lower", "user", [sa.literal_column("lower(name)")], unique=True)
+    op.drop_index(op.f("ix__user__name"), table_name="user")
+
+
+def downgrade() -> None:
+    op.create_index(op.f("ix__user__name"), "user", ["name"], unique=True)
+    op.drop_index("ix__user__name_lower", table_name="user")
+
+    op.create_unique_constraint(
+        op.f("uq__tag_value__tag_id_value"),
+        "tag_value",
+        ["tag_id", "value"],
+        postgresql_nulls_not_distinct=False,
+    )
+    op.create_index(op.f("ix__tag_value__tag_id"), "tag_value", ["tag_id"], unique=False)
+    op.drop_index("ix__tag_value__tag_id_value_lower", table_name="tag_value")
+
+    op.create_unique_constraint(op.f("uq__tag__name"), "tag", ["name"])
+    op.drop_index("ix__tag__name_lower", table_name="tag")
+
+    op.create_unique_constraint(op.f("uq__job_type__type"), "job_type", ["type"])
+    op.create_index(op.f("ix__job_type__type"), "job_type", ["type"], unique=False)
+    op.drop_index("ix__job_type__type_lower", table_name="job_type")
+
+    op.create_index(op.f("ix__job__location_id"), "job", ["location_id"], unique=False)
+    op.create_index(op.f("ix__job__name"), "job", ["name"], unique=False)
+    op.create_unique_constraint(
+        op.f("uq__job__location_id_name"),
+        "job",
+        ["location_id", "name"],
+    )
+    op.drop_index("ix__job__location_id_name_lower", table_name="job")
+
+    op.create_unique_constraint(
+        op.f("uq__dataset__location_id_name"),
+        "dataset",
+        ["location_id", "name"],
+    )
+    op.create_index(op.f("ix__dataset__name"), "dataset", ["name"], unique=False)
+    op.create_index(op.f("ix__dataset__location_id"), "dataset", ["location_id"], unique=False)
+    op.drop_index("ix__dataset__location_id__name_lower", table_name="dataset")
diff --git a/data_rentgen/db/models/dataset.py b/data_rentgen/db/models/dataset.py
@@ -3,7 +3,7 @@
 
 from __future__ import annotations
 
-from sqlalchemy import BigInteger, Column, Computed, ForeignKey, Index, String, Table, UniqueConstraint
+from sqlalchemy import BigInteger, Column, Computed, ForeignKey, Index, String, Table, column, func
 from sqlalchemy.dialects.postgresql import TSVECTOR
 from sqlalchemy.orm import Mapped, mapped_column, relationship
 
@@ -15,7 +15,7 @@
 class Dataset(Base):
     __tablename__ = "dataset"
     __table_args__ = (
-        UniqueConstraint("location_id", "name"),
+        Index("ix__dataset__location_id__name_lower", "location_id", func.lower(column("name")), unique=True),
         Index("ix__dataset__search_vector", "search_vector", postgresql_using="gin"),
     )
 
@@ -24,7 +24,6 @@ class Dataset(Base):
     location_id: Mapped[int] = mapped_column(
         BigInteger,
         ForeignKey("location.id", ondelete="CASCADE"),
-        index=True,
         nullable=False,
         doc="Where dataset's data is actually located (database address, filesystem address)",
     )
@@ -36,7 +35,6 @@ class Dataset(Base):
 
     name: Mapped[str] = mapped_column(
         String,
-        index=True,
         nullable=False,
         doc="Dataset name, e.g. table name or filesystem path",
     )
diff --git a/data_rentgen/db/models/job.py b/data_rentgen/db/models/job.py
@@ -3,7 +3,7 @@
 
 from __future__ import annotations
 
-from sqlalchemy import BigInteger, Column, Computed, ForeignKey, Index, String, UniqueConstraint, select
+from sqlalchemy import BigInteger, Column, Computed, ForeignKey, Index, String, column, func, select
 from sqlalchemy.dialects.postgresql import TSVECTOR
 from sqlalchemy.orm import Mapped, column_property, mapped_column, relationship
 
@@ -15,7 +15,7 @@
 class Job(Base):
     __tablename__ = "job"
     __table_args__ = (
-        UniqueConstraint("location_id", "name"),
+        Index("ix__job__location_id_name_lower", "location_id", func.lower(column("name")), unique=True),
         Index("ix__job__search_vector", "search_vector", postgresql_using="gin"),
     )
 
@@ -24,15 +24,13 @@ class Job(Base):
     location_id: Mapped[int] = mapped_column(
         BigInteger,
         ForeignKey("location.id", ondelete="CASCADE"),
-        index=True,
         nullable=False,
         doc="Where job is located (Airflow instance, Spark cluster)",
     )
     location: Mapped[Location] = relationship(Location, lazy="noload")
 
     name: Mapped[str] = mapped_column(
         String,
-        index=True,
         nullable=False,
         doc="Job name, e.g. Airflow DAG name + task name, or Spark applicationName",
     )
diff --git a/data_rentgen/db/models/tag.py b/data_rentgen/db/models/tag.py
@@ -4,7 +4,7 @@
 
 from typing import TYPE_CHECKING
 
-from sqlalchemy import BigInteger, Computed, Index, String
+from sqlalchemy import BigInteger, Computed, Index, String, column, func
 from sqlalchemy.dialects.postgresql import TSVECTOR
 from sqlalchemy.orm import Mapped, mapped_column, relationship
 
@@ -16,10 +16,13 @@
 
 class Tag(Base):
     __tablename__ = "tag"
-    __table_args__ = (Index("ix__tag__search_vector", "search_vector", postgresql_using="gin"),)
+    __table_args__ = (
+        Index("ix__tag__name_lower", func.lower(column("name")), unique=True),
+        Index("ix__tag__search_vector", "search_vector", postgresql_using="gin"),
+    )
 
     id: Mapped[int] = mapped_column(BigInteger, primary_key=True)
-    name: Mapped[str] = mapped_column(String(32), nullable=False, unique=True)
+    name: Mapped[str] = mapped_column(String(32), nullable=False)
     tag_values: Mapped[list[TagValue]] = relationship(
         "TagValue",
         lazy="noload",
@@ -29,7 +32,7 @@ class Tag(Base):
     search_vector: Mapped[str] = mapped_column(
         TSVECTOR,
         Computed(
-            "to_tsvector('simple'::regconfig, name || ' ' || translate(name, '.', '  '))",
+            "to_tsvector('simple'::regconfig, name || ' ' || translate(name, '/.', '  '))",
             persisted=True,
         ),
         nullable=False,
diff --git a/data_rentgen/db/models/tag_value.py b/data_rentgen/db/models/tag_value.py
@@ -2,7 +2,7 @@
 # SPDX-License-Identifier: Apache-2.0
 from __future__ import annotations
 
-from sqlalchemy import BigInteger, Computed, ForeignKey, Index, String, UniqueConstraint
+from sqlalchemy import BigInteger, Computed, ForeignKey, Index, String, column, func
 from sqlalchemy.dialects.postgresql import TSVECTOR
 from sqlalchemy.orm import Mapped, mapped_column, relationship
 
@@ -13,15 +13,14 @@
 class TagValue(Base):
     __tablename__ = "tag_value"
     __table_args__ = (
-        UniqueConstraint("tag_id", "value"),
+        Index("ix__tag_value__tag_id_value_lower", "tag_id", func.lower(column("value")), unique=True),
         Index("ix__tag_value__search_vector", "search_vector", postgresql_using="gin"),
     )
 
     id: Mapped[int] = mapped_column(BigInteger, primary_key=True)
     tag_id: Mapped[int] = mapped_column(
         BigInteger,
         ForeignKey("tag.id", ondelete="CASCADE"),
-        index=True,
         nullable=False,
     )
 
@@ -36,7 +35,7 @@ class TagValue(Base):
     search_vector: Mapped[str] = mapped_column(
         TSVECTOR,
         Computed(
-            "to_tsvector('simple'::regconfig, value || ' ' || translate(value, '.', '  '))",
+            "to_tsvector('simple'::regconfig, value || ' ' || translate(value, '/.', '  '))",
             persisted=True,
         ),
         nullable=False,
diff --git a/data_rentgen/db/models/user.py b/data_rentgen/db/models/user.py
@@ -2,14 +2,15 @@
 # SPDX-License-Identifier: Apache-2.0
 from __future__ import annotations
 
-from sqlalchemy import BigInteger, String
+from sqlalchemy import BigInteger, Index, String, column, func
 from sqlalchemy.orm import Mapped, mapped_column
 
 from data_rentgen.db.models.base import Base
 
 
 class User(Base):
     __tablename__ = "user"
+    __table_args__ = (Index("ix__user__name_lower", func.lower(column("name")), unique=True),)
 
     id: Mapped[int] = mapped_column(BigInteger, primary_key=True)
-    name: Mapped[str] = mapped_column(String, index=True, unique=True)
+    name: Mapped[str] = mapped_column(String, nullable=False)
diff --git a/data_rentgen/db/repositories/dataset.py b/data_rentgen/db/repositories/dataset.py
@@ -144,7 +144,10 @@ async def get_stats_by_location_ids(self, location_ids: Collection[int]) -> dict
         return {row.location_id: row for row in query_result.all()}
 
     async def _get(self, dataset: DatasetDTO) -> Dataset | None:
-        statement = select(Dataset).where(Dataset.location_id == dataset.location.id, Dataset.name == dataset.name)
+        statement = select(Dataset).where(
+            Dataset.location_id == dataset.location.id,
+            func.lower(Dataset.name) == dataset.name.lower(),
+        )
         return await self._session.scalar(statement)
 
     async def _create(self, dataset: DatasetDTO) -> Dataset:
diff --git a/data_rentgen/db/repositories/job.py b/data_rentgen/db/repositories/job.py
@@ -123,7 +123,10 @@ async def get_stats_by_location_ids(self, location_ids: Collection[int]) -> dict
         return {row.location_id: row for row in query_result.all()}
 
     async def _get(self, job: JobDTO) -> Job | None:
-        statement = select(Job).where(Job.location_id == job.location.id, Job.name == job.name)
+        statement = select(Job).where(
+            Job.location_id == job.location.id,
+            func.lower(Job.name) == job.name.lower(),
+        )
         return await self._session.scalar(statement)
 
     async def _create(self, job: JobDTO) -> Job:
diff --git a/data_rentgen/db/repositories/user.py b/data_rentgen/db/repositories/user.py
@@ -1,7 +1,7 @@
 # SPDX-FileCopyrightText: 2024-2025 MTS PJSC
 # SPDX-License-Identifier: Apache-2.0
 
-from sqlalchemy import select
+from sqlalchemy import func, select
 
 from data_rentgen.db.models import User
 from data_rentgen.db.repositories.base import Repository
@@ -21,7 +21,7 @@ async def read_by_id(self, id_: int) -> User | None:
         return await self._session.scalar(statement)
 
     async def _get(self, name: str) -> User | None:
-        statement = select(User).where(User.name == name)
+        statement = select(User).where(func.lower(User.name) == name.lower())
         return await self._session.scalar(statement)
 
     async def _create(self, user: UserDTO) -> User:
diff --git a/docs/changelog/next_release/313.improvement.rst b/docs/changelog/next_release/313.improvement.rst
@@ -0,0 +1,8 @@
+* Make matching for addresses and locations more deterministic by converting them to lowercase.
+  Items ``oracle://host:1521`` and ``ORACLE://HOST:1521`` are the same item ``oracle://host:1521``.
+
+* Make matching for datasets, jobs, tags and user names case-insensitive by using unique indexes on ``lower(name)`` expression.
+  Item ``database.schema.table`` and ``DATABASE.SCHEMA.TABLE`` are the same item.
+
+  As dataset canonical name depends on database naming convention (UPPERCASE for Oracle, lowercase for Postgres),
+  we can't convert them into one specific case (upper or lower). Instead we use first received value as canonical one.