[DOP-22530] Implement GET /v1/datasets?location_type=...

dolfinus · dolfinus · commit ac8b9fc176ff · 2025-10-07T15:21:40.000+03:00
diff --git a/data_rentgen/db/repositories/dataset.py b/data_rentgen/db/repositories/dataset.py
@@ -99,14 +99,18 @@ async def paginate(
         dataset_ids: Collection[int],
         tag_value_ids: Collection[int],
         location_id: int | None,
+        location_type: Collection[str],
         search_query: str | None,
     ) -> PaginationDTO[Dataset]:
         where = []
+        location_join_clause = Location.id == Dataset.location_id
         if dataset_ids:
             where.append(Dataset.id == any_(list(dataset_ids)))  # type: ignore[arg-type]
-
         if location_id:
             where.append(Dataset.location_id == location_id)
+        if location_type:
+            location_type_lower = [location_type.lower() for location_type in location_type]
+            where.append(Location.type == any_(location_type_lower))  # type: ignore[arg-type]
 
         if tag_value_ids:
             tv_ids = list(tag_value_ids)
@@ -125,19 +129,20 @@ async def paginate(
         if search_query:
             tsquery = make_tsquery(search_query)
 
-            dataset_stmt = select(Dataset, ts_rank(Dataset.search_vector, tsquery).label("search_rank")).where(
-                ts_match(Dataset.search_vector, tsquery),
-                *where,
+            dataset_stmt = (
+                select(Dataset, ts_rank(Dataset.search_vector, tsquery).label("search_rank"))
+                .join(Location, location_join_clause)
+                .where(ts_match(Dataset.search_vector, tsquery), *where)
             )
             location_stmt = (
                 select(Dataset, ts_rank(Location.search_vector, tsquery).label("search_rank"))
-                .join(Dataset, Location.id == Dataset.location_id)
+                .join(Location, location_join_clause)
                 .where(ts_match(Location.search_vector, tsquery), *where)
             )
             address_stmt = (
                 select(Dataset, func.max(ts_rank(Address.search_vector, tsquery)).label("search_rank"))
-                .join(Location, Address.location_id == Location.id)
-                .join(Dataset, Location.id == Dataset.location_id)
+                .join(Location, location_join_clause)
+                .join(Address, Address.location_id == Dataset.location_id)
                 .where(ts_match(Address.search_vector, tsquery), *where)
                 .group_by(Dataset.id, Location.id, Address.id)
             )
@@ -152,7 +157,7 @@ async def paginate(
             ).group_by(*dataset_columns)
             order_by = [desc("search_rank"), asc("name")]
         else:
-            query = select(Dataset).where(*where)
+            query = select(Dataset).join(Location, location_join_clause).where(*where)
             order_by = [Dataset.name]
 
         options = [
diff --git a/data_rentgen/server/api/v1/router/dataset.py b/data_rentgen/server/api/v1/router/dataset.py
@@ -39,6 +39,7 @@ async def paginate_datasets(
         dataset_ids=query_args.dataset_id,
         tag_value_ids=query_args.tag_value_id,
         location_id=query_args.location_id,
+        location_type=query_args.location_type,
         search_query=query_args.search_query,
     )
     return PageResponseV1[DatasetDetailedResponseV1].from_pagination(pagination)
diff --git a/data_rentgen/server/schemas/v1/dataset.py b/data_rentgen/server/schemas/v1/dataset.py
@@ -55,13 +55,28 @@ class DatasetDetailedResponseV1(BaseModel):
 class DatasetPaginateQueryV1(PaginateQueryV1):
     """Query params for Dataset paginate request."""
 
-    dataset_id: list[int] = Field(default_factory=list, description="Dataset id")
-    tag_value_id: list[int] = Field(default_factory=list, description="Tag value id")
-    location_id: int | None = Field(default=None, description="Location id to filter dataset")
+    dataset_id: list[int] = Field(
+        default_factory=list,
+        description="Get specific datasets by their ids",
+    )
+    tag_value_id: list[int] = Field(
+        default_factory=list,
+        description="Get datasets with specific tag values (AND)",
+    )
+    location_id: int | None = Field(
+        default=None,
+        description="Get datasets by location id",
+    )
+    location_type: list[str] = Field(
+        default_factory=list,
+        description="Get datasets by location types",
+        examples=[["yarn"]],
+    )
     search_query: str | None = Field(
         default=None,
         min_length=3,
         description="Search query",
+        examples=[["my dataset"]],
     )
 
     model_config = ConfigDict(extra="forbid")
diff --git a/data_rentgen/server/services/dataset.py b/data_rentgen/server/services/dataset.py
@@ -43,6 +43,7 @@ async def paginate(
         dataset_ids: Collection[int],
         tag_value_ids: Collection[int],
         location_id: int | None,
+        location_type: Collection[str],
         search_query: str | None,
     ) -> DatasetServicePaginatedResult:
         pagination = await self._uow.dataset.paginate(
@@ -51,6 +52,7 @@ async def paginate(
             dataset_ids=dataset_ids,
             tag_value_ids=tag_value_ids,
             location_id=location_id,
+            location_type=location_type,
             search_query=search_query,
         )
 
diff --git a/docs/changelog/next_release/328.feature.3.rst b/docs/changelog/next_release/328.feature.3.rst
@@ -0,0 +1,2 @@
+Add new filter to ``GET /v1/datasets``:
+  - location_type: ``list[str]``
diff --git a/tests/test_server/test_datasets/test_get_datasets_by_location.py b/tests/test_server/test_datasets/test_get_datasets_by_location.py
@@ -0,0 +1,156 @@
+from http import HTTPStatus
+
+import pytest
+from httpx import AsyncClient
+from sqlalchemy import select
+from sqlalchemy.ext.asyncio import AsyncSession
+
+from data_rentgen.db.models import Dataset, Location
+from tests.fixtures.mocks import MockedUser
+from tests.test_server.utils.convert_to_json import dataset_to_json, tag_values_to_json
+from tests.test_server.utils.enrich import enrich_datasets
+
+pytestmark = [pytest.mark.server, pytest.mark.asyncio]
+
+
+async def test_get_datasets_by_location_id(
+    test_client: AsyncClient,
+    async_session: AsyncSession,
+    datasets_search: tuple[dict[str, Dataset], ...],
+    mocked_user: MockedUser,
+) -> None:
+    _, _, datasets_by_address = datasets_search
+    datasets = await enrich_datasets([datasets_by_address["hdfs://my-cluster-namenode:2080"]], async_session)
+    location_id = datasets[0].location_id
+
+    response = await test_client.get(
+        "/v1/datasets",
+        headers={"Authorization": f"Bearer {mocked_user.access_token}"},
+        params={"location_id": location_id},
+    )
+
+    assert response.status_code == HTTPStatus.OK, response.json()
+    assert response.json() == {
+        "meta": {
+            "has_next": False,
+            "has_previous": False,
+            "next_page": None,
+            "page": 1,
+            "page_size": 20,
+            "pages_count": 1,
+            "previous_page": None,
+            "total_count": 1,
+        },
+        "items": [
+            {
+                "id": str(dataset.id),
+                "data": dataset_to_json(dataset),
+                "tags": [],
+            }
+            for dataset in datasets
+        ],
+    }
+
+
+async def test_get_datasets_by_location_id_non_existent(
+    test_client: AsyncClient,
+    async_session: AsyncSession,
+    datasets_search: tuple[dict[str, Dataset], ...],
+    mocked_user: MockedUser,
+) -> None:
+    response = await test_client.get(
+        "/v1/datasets",
+        headers={"Authorization": f"Bearer {mocked_user.access_token}"},
+        params={"location_id": -1},
+    )
+
+    assert response.status_code == HTTPStatus.OK, response.json()
+    assert response.json() == {
+        "meta": {
+            "has_next": False,
+            "has_previous": False,
+            "next_page": None,
+            "page": 1,
+            "page_size": 20,
+            "pages_count": 1,
+            "previous_page": None,
+            "total_count": 0,
+        },
+        "items": [],
+    }
+
+
+async def test_get_datasets_by_location_type(
+    test_client: AsyncClient,
+    async_session: AsyncSession,
+    datasets_search: tuple[dict[str, Dataset], ...],
+    mocked_user: MockedUser,
+) -> None:
+    # random locations created by datasets_search fixture can also have type=hdfs
+    datasets_query = (
+        select(Dataset)
+        .join(Location, Location.id == Dataset.location_id)
+        .where(Location.type == "hdfs")
+        .order_by(Dataset.name)
+    )
+
+    dataset_scalars = await async_session.scalars(datasets_query)
+    async_session.expunge_all()
+
+    datasets = await enrich_datasets(list(dataset_scalars.all()), async_session)
+
+    response = await test_client.get(
+        "/v1/datasets",
+        headers={"Authorization": f"Bearer {mocked_user.access_token}"},
+        params={"location_type": ["HDFS"]},  # case-insensitive
+    )
+
+    assert response.status_code == HTTPStatus.OK, response.json()
+    assert response.json() == {
+        "meta": {
+            "has_next": False,
+            "has_previous": False,
+            "next_page": None,
+            "page": 1,
+            "page_size": 20,
+            "pages_count": 1,
+            "previous_page": None,
+            "total_count": len(datasets),
+        },
+        "items": [
+            {
+                "id": str(dataset.id),
+                "data": dataset_to_json(dataset),
+                "tags": [],
+            }
+            for dataset in datasets
+        ],
+    }
+
+
+async def test_get_datasets_by_location_type_non_existent(
+    test_client: AsyncClient,
+    async_session: AsyncSession,
+    datasets_search: tuple[dict[str, Dataset], ...],
+    mocked_user: MockedUser,
+) -> None:
+    response = await test_client.get(
+        "/v1/datasets",
+        headers={"Authorization": f"Bearer {mocked_user.access_token}"},
+        params={"location_type": "non_existent_location_type"},
+    )
+
+    assert response.status_code == HTTPStatus.OK, response.json()
+    assert response.json() == {
+        "meta": {
+            "has_next": False,
+            "has_previous": False,
+            "next_page": None,
+            "page": 1,
+            "page_size": 20,
+            "pages_count": 1,
+            "previous_page": None,
+            "total_count": 0,
+        },
+        "items": [],
+    }

Original file line number	Diff line number	Diff line change
`@@ -39,6 +39,7 @@ async def paginate_datasets(`
`39`	`39`	`dataset_ids=query_args.dataset_id,`
`40`	`40`	`tag_value_ids=query_args.tag_value_id,`
`41`	`41`	`location_id=query_args.location_id,`
	`42`	`+ location_type=query_args.location_type,`
`42`	`43`	`search_query=query_args.search_query,`
`43`	`44`	`)`
`44`	`45`	`return PageResponseV1[DatasetDetailedResponseV1].from_pagination(pagination)`
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,2 @@`
	`1`	+Add new filter to ``GET /v1/datasets``:
	`2`	+ - location_type: ``list[str]``