From 170fbc09ff501bacc46ae022b5adda7dcdeda991 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Fri, 19 Sep 2025 22:55:32 +0200
Subject: [PATCH 01/16] add additional exception

---
 .../src/simcore_service_director_v2/modules/dask_client.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py b/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
index 84195c18d462..8df4c9d80ec5 100644
--- a/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
+++ b/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
@@ -15,6 +15,7 @@
 from typing import Final, cast
 
 import distributed
+import distributed.client
 from aiohttp import ClientResponseError
 from common_library.json_serialization import json_dumps
 from common_library.logging.logging_errors import create_troubleshooting_log_kwargs
@@ -68,6 +69,7 @@
 
 from ..core.errors import (
     ComputationalBackendNoS3AccessError,
+    ComputationalBackendNotConnectedError,
     ComputationalBackendTaskNotFoundError,
     ComputationalBackendTaskResultsNotReadyError,
     TaskSchedulingError,
@@ -552,6 +554,11 @@ async def get_task_result(self, job_id: str) -> TaskOutputData:
             raise ComputationalBackendTaskNotFoundError(job_id=job_id) from exc
         except distributed.TimeoutError as exc:
             raise ComputationalBackendTaskResultsNotReadyError(job_id=job_id) from exc
+        except (
+            distributed.client.FutureCancelledError,
+            distributed.client.FuturesCancelledError,
+        ) as exc:
+            raise ComputationalBackendNotConnectedError from exc
 
     async def release_task_result(self, job_id: str) -> None:
         _logger.debug("releasing results for %s", f"{job_id=}")

From cd55a4df175608b2fc14f0535d3592a48f41fe7b Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Fri, 19 Sep 2025 22:58:09 +0200
Subject: [PATCH 02/16] done

---
 .../src/simcore_service_director_v2/modules/dask_client.py    | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py b/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
index 8df4c9d80ec5..2e2bd885cc02 100644
--- a/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
+++ b/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
@@ -426,7 +426,7 @@ async def _get_task_progress(job_id: str) -> TaskProgressEvent | None:
         return await limited_gather(
             *(_get_task_progress(job_id) for job_id in job_ids),
             log=_logger,
-            limit=_MAX_CONCURRENT_CLIENT_CONNECTIONS,
+            limit=1,
         )
 
     async def get_tasks_status(self, job_ids: Iterable[str]) -> list[RunningState]:
@@ -509,7 +509,7 @@ async def _get_task_state(job_id: str) -> RunningState:
         return await limited_gather(
             *(_get_task_state(job_id) for job_id in job_ids),
             log=_logger,
-            limit=_MAX_CONCURRENT_CLIENT_CONNECTIONS,
+            limit=1,
         )
 
     async def abort_computation_task(self, job_id: str) -> None:

From b50374ad83820e5d1f2d3ec94219b456c49600c0 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Fri, 19 Sep 2025 23:05:47 +0200
Subject: [PATCH 03/16] reduce concurrency

---
 .../src/simcore_service_director_v2/modules/dask_client.py  | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py b/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
index 2e2bd885cc02..169b7e522d48 100644
--- a/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
+++ b/services/director-v2/src/simcore_service_director_v2/modules/dask_client.py
@@ -94,7 +94,7 @@
 
 
 _UserCallbackInSepThread = Callable[[], None]
-_MAX_CONCURRENT_CLIENT_CONNECTIONS: Final[int] = 10
+_MAX_CONCURRENT_CLIENT_CONNECTIONS: Final[int] = 1
 
 
 @dataclass(frozen=True, kw_only=True, slots=True)
@@ -426,7 +426,7 @@ async def _get_task_progress(job_id: str) -> TaskProgressEvent | None:
         return await limited_gather(
             *(_get_task_progress(job_id) for job_id in job_ids),
             log=_logger,
-            limit=1,
+            limit=_MAX_CONCURRENT_CLIENT_CONNECTIONS,
         )
 
     async def get_tasks_status(self, job_ids: Iterable[str]) -> list[RunningState]:
@@ -509,7 +509,7 @@ async def _get_task_state(job_id: str) -> RunningState:
         return await limited_gather(
             *(_get_task_state(job_id) for job_id in job_ids),
             log=_logger,
-            limit=1,
+            limit=_MAX_CONCURRENT_CLIENT_CONNECTIONS,
         )
 
     async def abort_computation_task(self, job_id: str) -> None:

From 50443a616617f1f254cf4d8891b8c7839e021363 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Fri, 19 Sep 2025 23:26:13 +0200
Subject: [PATCH 04/16] ensure autoscaling counts at least 1 CPU per task

---
 .../modules/cluster_scaling/_utils_computational.py           | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py b/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py
index 4fb76ee5e129..8a6818be8ddc 100644
--- a/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py
+++ b/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py
@@ -16,7 +16,9 @@
 
 def resources_from_dask_task(task: DaskTask) -> Resources:
     return Resources(
-        cpus=task.required_resources.get("CPU", _DEFAULT_MAX_CPU),
+        cpus=min(
+            task.required_resources.get("CPU", _DEFAULT_MAX_CPU), 1.0
+        ),  # NOTE: dask-workers use 1 thread per CPU so going below will not scale
         ram=task.required_resources.get("RAM", _DEFAULT_MAX_RAM),
     )
 

From d110d6e12c997b0e17e45568ae4c1c317ba5fb30 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Fri, 19 Sep 2025 23:28:14 +0200
Subject: [PATCH 05/16] ensure autoscaling counts at least 1 CPU per task

---
 .../modules/cluster_scaling/_provider_computational.py    | 8 +++++++-
 .../modules/cluster_scaling/_utils_computational.py       | 4 +---
 2 files changed, 8 insertions(+), 4 deletions(-)

diff --git a/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_provider_computational.py b/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_provider_computational.py
index 92be7fe1f4be..c9b2d498fd66 100644
--- a/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_provider_computational.py
+++ b/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_provider_computational.py
@@ -88,7 +88,13 @@ async def list_unrunnable_tasks(self, app: FastAPI) -> list[DaskTask]:
 
     def get_task_required_resources(self, task) -> Resources:
         assert self  # nosec
-        return utils.resources_from_dask_task(task)
+        task_required_resources = utils.resources_from_dask_task(task)
+        # ensure cpu is set at least to 1 as dask-workers use 1 thread per CPU
+        if task_required_resources.cpus < 1.0:
+            task_required_resources = task_required_resources.model_copy(
+                update={"cpus": 1.0}
+            )
+        return task_required_resources
 
     async def get_task_defined_instance(
         self, app: FastAPI, task
diff --git a/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py b/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py
index 8a6818be8ddc..4fb76ee5e129 100644
--- a/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py
+++ b/services/autoscaling/src/simcore_service_autoscaling/modules/cluster_scaling/_utils_computational.py
@@ -16,9 +16,7 @@
 
 def resources_from_dask_task(task: DaskTask) -> Resources:
     return Resources(
-        cpus=min(
-            task.required_resources.get("CPU", _DEFAULT_MAX_CPU), 1.0
-        ),  # NOTE: dask-workers use 1 thread per CPU so going below will not scale
+        cpus=task.required_resources.get("CPU", _DEFAULT_MAX_CPU),
         ram=task.required_resources.get("RAM", _DEFAULT_MAX_RAM),
     )
 

From 1eb3ceff029cb69df34842ca2a1487be50a897af Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 17:16:06 +0200
Subject: [PATCH 06/16] added argument for expected overall time

---
 .../servicelib/redis/_semaphore_decorator.py  | 21 ++++++++---
 .../tests/redis/test_semaphore_decorator.py   | 36 +++++++++++++++----
 2 files changed, 47 insertions(+), 10 deletions(-)

diff --git a/packages/service-library/src/servicelib/redis/_semaphore_decorator.py b/packages/service-library/src/servicelib/redis/_semaphore_decorator.py
index 84679ea2aeeb..529eb33fb22a 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore_decorator.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore_decorator.py
@@ -38,6 +38,7 @@ async def _managed_semaphore_execution(
     semaphore_key: str,
     ttl: datetime.timedelta,
     execution_context: str,
+    expected_lock_overall_time: datetime.timedelta,
 ) -> AsyncIterator:
     """Common semaphore management logic with auto-renewal."""
     # Acquire the semaphore first
@@ -106,14 +107,14 @@ async def _periodic_renewer() -> None:
         finally:
             lock_release_time = arrow.utcnow()
             locking_time = lock_release_time - lock_acquisition_time
-            if locking_time > DEFAULT_EXPECTED_LOCK_OVERALL_TIME:
+            if locking_time > expected_lock_overall_time:
                 _logger.warning(
                     "Semaphore '%s' was held for %s which is longer than expected (%s). "
                     "TIP: consider reducing the locking time by optimizing the code inside "
                     "the critical section or increasing the default locking time",
                     semaphore_key,
                     locking_time,
-                    DEFAULT_EXPECTED_LOCK_OVERALL_TIME,
+                    expected_lock_overall_time,
                 )
 
 
@@ -157,6 +158,7 @@ def with_limited_concurrency(
     ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
     blocking: bool = True,
     blocking_timeout: datetime.timedelta | None = DEFAULT_SOCKET_TIMEOUT,
+    expected_lock_overall_time: datetime.timedelta = DEFAULT_EXPECTED_LOCK_OVERALL_TIME,
 ) -> Callable[
     [Callable[P, Coroutine[Any, Any, R]]], Callable[P, Coroutine[Any, Any, R]]
 ]:
@@ -174,6 +176,7 @@ def with_limited_concurrency(
         ttl: Time-to-live for semaphore entries (default: 5 minutes)
         blocking: Whether to block when semaphore is full (default: True)
         blocking_timeout: Maximum time to wait when blocking (default: socket timeout)
+        expected_lock_overall_time: helper for logging warnings if lock is held longer than expected
 
     Example:
         @with_limited_concurrency(
@@ -209,7 +212,11 @@ async def _wrapper(*args: P.args, **kwargs: P.kwargs) -> R:
             )
 
             async with _managed_semaphore_execution(
-                semaphore, semaphore_key, ttl, f"coroutine_{coro.__name__}"
+                semaphore,
+                semaphore_key,
+                ttl,
+                f"coroutine_{coro.__name__}",
+                expected_lock_overall_time,
             ):
                 return await coro(*args, **kwargs)
 
@@ -226,6 +233,7 @@ def with_limited_concurrency_cm(
     ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
     blocking: bool = True,
     blocking_timeout: datetime.timedelta | None = DEFAULT_SOCKET_TIMEOUT,
+    expected_lock_overall_time: datetime.timedelta = DEFAULT_EXPECTED_LOCK_OVERALL_TIME,
 ) -> Callable[
     [Callable[P, AbstractAsyncContextManager[R]]],
     Callable[P, AbstractAsyncContextManager[R]],
@@ -244,6 +252,7 @@ def with_limited_concurrency_cm(
         ttl: Time-to-live for semaphore entries (default: 5 minutes)
         blocking: Whether to block when semaphore is full (default: True)
         blocking_timeout: Maximum time to wait when blocking (default: socket timeout)
+        expected_lock_overall_time: helper for logging warnings if lock is held longer than expected
 
     Example:
         @asynccontextmanager
@@ -281,7 +290,11 @@ async def _wrapper(*args: P.args, **kwargs: P.kwargs) -> AsyncIterator[R]:
 
             async with (
                 _managed_semaphore_execution(
-                    semaphore, semaphore_key, ttl, f"context_manager_{cm_func.__name__}"
+                    semaphore,
+                    semaphore_key,
+                    ttl,
+                    f"context_manager_{cm_func.__name__}",
+                    expected_lock_overall_time,
                 ),
                 cm_func(*args, **kwargs) as value,
             ):
diff --git a/packages/service-library/tests/redis/test_semaphore_decorator.py b/packages/service-library/tests/redis/test_semaphore_decorator.py
index 7cee29331806..f164b82c93a4 100644
--- a/packages/service-library/tests/redis/test_semaphore_decorator.py
+++ b/packages/service-library/tests/redis/test_semaphore_decorator.py
@@ -13,6 +13,7 @@
 
 import pytest
 from pytest_mock import MockerFixture
+from pytest_simcore.helpers.logging_tools import log_context
 from servicelib.redis import RedisClientSDK
 from servicelib.redis._constants import (
     SEMAPHORE_HOLDER_KEY_PREFIX,
@@ -365,11 +366,11 @@ async def test_with_large_capacity(
     redis_client_sdk: RedisClientSDK,
     semaphore_name: str,
 ):
-    large_capacity = 100
+    large_capacity = 1
     concurrent_count = 0
     max_concurrent = 0
-    sleep_time_s = 5
-    num_tasks = 1000
+    sleep_time_s = 50
+    num_tasks = 10
 
     @with_limited_concurrency(
         redis_client_sdk,
@@ -382,9 +383,8 @@ async def limited_function() -> None:
         nonlocal concurrent_count, max_concurrent
         concurrent_count += 1
         max_concurrent = max(max_concurrent, concurrent_count)
-        logging.info("Started task, current concurrent: %d", concurrent_count)
-        await asyncio.sleep(sleep_time_s)
-        logging.info("Done task, current concurrent: %d", concurrent_count)
+        with log_context(logging.INFO, f"task with {concurrent_count=}"):
+            await asyncio.sleep(sleep_time_s)
         concurrent_count -= 1
 
     # Start tasks equal to the large capacity
@@ -400,6 +400,30 @@ async def limited_function() -> None:
     assert max_concurrent <= large_capacity
 
 
+async def test_long_locking_logs_warning(
+    redis_client_sdk: RedisClientSDK,
+    semaphore_name: str,
+    caplog: pytest.LogCaptureFixture,
+    mocker: MockerFixture,
+):
+    @with_limited_concurrency(
+        redis_client_sdk,
+        key=semaphore_name,
+        capacity=1,
+        blocking=True,
+        blocking_timeout=None,
+        expected_lock_overall_time=datetime.timedelta(milliseconds=200),
+    )
+    async def limited_function() -> None:
+        with log_context(logging.INFO, "task"):
+            await asyncio.sleep(0.4)
+
+    with caplog.at_level(logging.WARNING):
+        await limited_function()
+        assert caplog.records
+        assert "longer than expected" in caplog.messages[-1]
+
+
 async def test_context_manager_basic_functionality(
     redis_client_sdk: RedisClientSDK,
     semaphore_name: str,

From 758d97ffd2540aa295c43787360e7e90589aaf86 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 17:17:06 +0200
Subject: [PATCH 07/16] reverted test

---
 .../service-library/tests/redis/test_semaphore_decorator.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/packages/service-library/tests/redis/test_semaphore_decorator.py b/packages/service-library/tests/redis/test_semaphore_decorator.py
index f164b82c93a4..354284c6f9e4 100644
--- a/packages/service-library/tests/redis/test_semaphore_decorator.py
+++ b/packages/service-library/tests/redis/test_semaphore_decorator.py
@@ -366,11 +366,11 @@ async def test_with_large_capacity(
     redis_client_sdk: RedisClientSDK,
     semaphore_name: str,
 ):
-    large_capacity = 1
+    large_capacity = 20
     concurrent_count = 0
     max_concurrent = 0
-    sleep_time_s = 50
-    num_tasks = 10
+    sleep_time_s = 10
+    num_tasks = 500
 
     @with_limited_concurrency(
         redis_client_sdk,

From 8d1f30f0ed43a22813302bc348b191cf1267ea3d Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 17:33:26 +0200
Subject: [PATCH 08/16] added test that shows unfairness

---
 .../tests/redis/test_semaphore_decorator.py   | 32 +++++++++++++++++++
 1 file changed, 32 insertions(+)

diff --git a/packages/service-library/tests/redis/test_semaphore_decorator.py b/packages/service-library/tests/redis/test_semaphore_decorator.py
index 354284c6f9e4..e63d86e682e3 100644
--- a/packages/service-library/tests/redis/test_semaphore_decorator.py
+++ b/packages/service-library/tests/redis/test_semaphore_decorator.py
@@ -424,6 +424,38 @@ async def limited_function() -> None:
         assert "longer than expected" in caplog.messages[-1]
 
 
+async def test_semaphore_fair_queuing(
+    redis_client_sdk: RedisClientSDK,
+    semaphore_name: str,
+):
+    entered_order: list[int] = []
+
+    @with_limited_concurrency(
+        redis_client_sdk,
+        key=semaphore_name,
+        capacity=1,
+    )
+    async def limited_function(call_id: int):
+        entered_order.append(call_id)
+        await asyncio.sleep(0.1)
+        return call_id
+
+    # Launch tasks in a specific order
+    num_tasks = 10
+    tasks = []
+    for i in range(num_tasks):
+        tasks.append(asyncio.create_task(limited_function(i)))
+        await asyncio.sleep(0.01)  # Small delay to help preserve order
+    results = await asyncio.gather(*tasks)
+
+    # All should complete successfully and in order
+    assert results == list(range(num_tasks))
+    # The order in which they entered the critical section should match the order of submission
+    assert entered_order == list(
+        range(num_tasks)
+    ), f"Expected fair queuing, got {entered_order}"
+
+
 async def test_context_manager_basic_functionality(
     redis_client_sdk: RedisClientSDK,
     semaphore_name: str,

From 3be98cd741c903dc990b10c7f8694f0fe01d1894 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 18:35:00 +0200
Subject: [PATCH 09/16] add fair semaphore

---
 .../redis/lua/acquire_fair_semaphore_v2.lua   | 55 ++++++++++++++++
 .../redis/lua/cleanup_fair_semaphore_v2.lua   | 66 +++++++++++++++++++
 .../redis/lua/count_fair_semaphore_v2.lua     | 17 +++++
 .../redis/lua/release_fair_semaphore_v2.lua   | 48 ++++++++++++++
 .../redis/lua/renew_fair_semaphore_v2.lua     | 40 +++++++++++
 5 files changed, 226 insertions(+)
 create mode 100644 packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
 create mode 100644 packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua
 create mode 100644 packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua
 create mode 100644 packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua
 create mode 100644 packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua

diff --git a/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
new file mode 100644
index 000000000000..1030b141493c
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
@@ -0,0 +1,55 @@
+-- Fair distributed semaphore using token pool (BRPOP-based)
+-- KEYS[1]: tokens_key (LIST of available tokens)
+-- KEYS[2]: holders_key (SET of current holder instance IDs)
+-- KEYS[3]: holder_key (individual holder TTL key for this instance)
+-- ARGV[1]: instance_id
+-- ARGV[2]: capacity (max concurrent holders)
+-- ARGV[3]: ttl_seconds
+-- ARGV[4]: timeout_seconds (for BRPOP)
+--
+-- Returns: {exit_code, status, token, current_count}
+-- exit_code: 0 if acquired, 255 if timeout/failed
+-- status: 'acquired' or 'timeout'
+
+local tokens_key = KEYS[1]
+local holders_key = KEYS[2]
+local holder_key = KEYS[3]
+
+local instance_id = ARGV[1]
+local capacity = tonumber(ARGV[2])
+local ttl_seconds = tonumber(ARGV[3])
+local timeout_seconds = tonumber(ARGV[4])
+
+-- Step 1: Initialize token pool if needed (first time setup)
+local tokens_exist = redis.call('EXISTS', tokens_key)
+if tokens_exist == 0 then
+    -- Initialize with capacity number of tokens
+    for i = 1, capacity do
+        redis.call('LPUSH', tokens_key, 'token_' .. i)
+    end
+    -- Set expiry on tokens list to prevent infinite growth
+    redis.call('EXPIRE', tokens_key, ttl_seconds * 10)
+end
+
+-- Step 2: Try to get a token using blocking pop
+-- timeout_seconds = 0 means block indefinitely
+local token_result = redis.call('BRPOP', tokens_key, timeout_seconds)
+
+if token_result == false or token_result == nil then
+    -- Timeout occurred
+    local current_count = redis.call('SCARD', holders_key)
+    return {255, 'timeout', '', current_count}
+end
+
+local token = token_result[2]  -- BRPOP returns {key, value}
+
+-- Step 3: Register as holder
+redis.call('SADD', holders_key, instance_id)
+redis.call('SETEX', holder_key, ttl_seconds, token)
+
+-- Step 4: Set expiry on holders set to prevent infinite growth
+redis.call('EXPIRE', holders_key, ttl_seconds * 10)
+
+local current_count = redis.call('SCARD', holders_key)
+
+return {0, 'acquired', token, current_count}
diff --git a/packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua
new file mode 100644
index 000000000000..88da6ca5ca1b
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua
@@ -0,0 +1,66 @@
+-- Cleanup orphaned tokens from crashed clients
+-- KEYS[1]: tokens_key (LIST of available tokens)
+-- KEYS[2]: holders_key (SET of current holders)
+-- KEYS[3]: holder_prefix (prefix for holder keys, e.g. "semaphores:holders:key:")
+-- ARGV[1]: capacity (total semaphore capacity)
+--
+-- Returns: {recovered_tokens, current_holders, available_tokens, total_cleaned}
+-- This script should be run periodically to recover tokens from crashed clients
+
+local tokens_key = KEYS[1]
+local holders_key = KEYS[2]
+local holder_prefix = KEYS[3]
+
+local capacity = tonumber(ARGV[1])
+
+-- Step 1: Get all current holders
+local current_holders = redis.call('SMEMBERS', holders_key)
+local recovered_tokens = 0
+local cleaned_holders = {}
+
+-- Step 2: Check each holder to see if their TTL key still exists
+for i = 1, #current_holders do
+    local holder_id = current_holders[i]
+    local holder_key = holder_prefix .. holder_id
+    local exists = redis.call('EXISTS', holder_key)
+
+    if exists == 0 then
+        -- Holder key doesn't exist but holder is in SET
+        -- This indicates a crashed client - clean up and recover token
+        redis.call('SREM', holders_key, holder_id)
+        redis.call('LPUSH', tokens_key, 'token_recovered_' .. holder_id)
+        recovered_tokens = recovered_tokens + 1
+        table.insert(cleaned_holders, holder_id)
+    end
+end
+
+-- Step 3: Ensure we have the correct total number of tokens
+local remaining_holders = redis.call('SCARD', holders_key)
+local available_tokens_count = redis.call('LLEN', tokens_key)
+local total_tokens = remaining_holders + available_tokens_count
+
+-- If we're missing tokens (due to crashes or Redis issues), add them back
+local missing_tokens = capacity - total_tokens
+for i = 1, missing_tokens do
+    redis.call('LPUSH', tokens_key, 'token_missing_' .. i)
+    recovered_tokens = recovered_tokens + 1
+end
+
+-- If we somehow have too many tokens (shouldn't happen), remove extras
+local excess_tokens = total_tokens - capacity
+for i = 1, excess_tokens do
+    redis.call('RPOP', tokens_key)
+end
+
+-- Step 4: Refresh expiry on data structures to prevent cleanup
+local final_holders = redis.call('SCARD', holders_key)
+local final_available = redis.call('LLEN', tokens_key)
+
+if final_holders > 0 then
+    redis.call('EXPIRE', holders_key, 3600)  -- 1 hour expiry
+end
+if final_available > 0 then
+    redis.call('EXPIRE', tokens_key, 3600)   -- 1 hour expiry
+end
+
+return {recovered_tokens, final_holders, final_available, #cleaned_holders}
diff --git a/packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua
new file mode 100644
index 000000000000..fb04f4e4356d
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua
@@ -0,0 +1,17 @@
+-- Count current semaphore holders (simplified for token pool design)
+-- KEYS[1]: holders_key (SET of current holders)
+-- KEYS[2]: tokens_key (LIST of available tokens)
+-- ARGV[1]: capacity (total semaphore capacity)
+--
+-- Returns: {current_holders, available_tokens, total_capacity}
+
+local holders_key = KEYS[1]
+local tokens_key = KEYS[2]
+
+local capacity = tonumber(ARGV[1])
+
+-- Count current holders and available tokens
+local current_holders = redis.call('SCARD', holders_key)
+local available_tokens = redis.call('LLEN', tokens_key)
+
+return {current_holders, available_tokens, capacity}
diff --git a/packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua
new file mode 100644
index 000000000000..a675568bc391
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua
@@ -0,0 +1,48 @@
+-- Release fair semaphore and return token to pool
+-- KEYS[1]: tokens_key (LIST of available tokens)
+-- KEYS[2]: holders_key (SET of current holders)
+-- KEYS[3]: holder_key (individual holder TTL key for this instance)
+-- ARGV[1]: instance_id
+--
+-- Returns: {exit_code, status, current_count}
+-- exit_code: 0 if released, 255 if failed
+-- status: 'released', 'not_held', or 'already_expired'
+
+local tokens_key = KEYS[1]
+local holders_key = KEYS[2]
+local holder_key = KEYS[3]
+
+local instance_id = ARGV[1]
+
+-- Step 1: Check if this instance is currently a holder
+local is_holder = redis.call('SISMEMBER', holders_key, instance_id)
+if is_holder == 0 then
+    -- Not in holders set - check if holder key exists
+    local exists = redis.call('EXISTS', holder_key)
+    if exists == 1 then
+        -- Holder key exists but not in set - clean it up
+        redis.call('DEL', holder_key)
+        return {255, 'already_expired', redis.call('SCARD', holders_key)}
+    else
+        return {255, 'not_held', redis.call('SCARD', holders_key)}
+    end
+end
+
+-- Step 2: Get the token from holder key before releasing
+local token = redis.call('GET', holder_key)
+if not token then
+    -- Fallback token if somehow missing
+    token = 'token_default'
+end
+
+-- Step 3: Release the semaphore
+redis.call('SREM', holders_key, instance_id)
+redis.call('DEL', holder_key)
+
+-- Step 4: Return token to available pool
+-- This automatically unblocks any waiting BRPOP calls
+redis.call('LPUSH', tokens_key, token)
+
+local new_count = redis.call('SCARD', holders_key)
+
+return {0, 'released', new_count}
diff --git a/packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua
new file mode 100644
index 000000000000..3c897ed8d90f
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua
@@ -0,0 +1,40 @@
+-- Renew semaphore holder TTL (simplified for token pool design)
+-- KEYS[1]: holders_key (SET of current holders)
+-- KEYS[2]: holder_key (individual holder TTL key for this instance)
+-- ARGV[1]: instance_id
+-- ARGV[2]: ttl_seconds
+--
+-- Returns: {exit_code, status, current_count}
+-- exit_code: 0 if renewed, 255 if failed
+-- status: 'renewed', 'not_held', or 'expired'
+
+local holders_key = KEYS[1]
+local holder_key = KEYS[2]
+
+local instance_id = ARGV[1]
+local ttl_seconds = tonumber(ARGV[2])
+
+-- Step 1: Check if this instance is currently a holder
+local is_holder = redis.call('SISMEMBER', holders_key, instance_id)
+if is_holder == 0 then
+    -- Not in holders set
+    local current_count = redis.call('SCARD', holders_key)
+    return {255, 'not_held', current_count}
+end
+
+-- Step 2: Check if holder key exists (to detect if it expired)
+local exists = redis.call('EXISTS', holder_key)
+if exists == 0 then
+    -- Holder key expired - remove from set and fail renewal
+    redis.call('SREM', holders_key, instance_id)
+    local current_count = redis.call('SCARD', holders_key)
+    return {255, 'expired', current_count}
+end
+
+-- Step 3: Renew the holder key TTL
+local token = redis.call('GET', holder_key)
+redis.call('SETEX', holder_key, ttl_seconds, token)
+
+local current_count = redis.call('SCARD', holders_key)
+
+return {0, 'renewed', current_count}

From 6f523841ca3dab56c81ad07e030e514287bdd87d Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 18:36:03 +0200
Subject: [PATCH 10/16] add fair semaphore

---
 .../src/servicelib/redis/_semaphore_lua.py            | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/packages/service-library/src/servicelib/redis/_semaphore_lua.py b/packages/service-library/src/servicelib/redis/_semaphore_lua.py
index 8bf685b30a86..7c70696722a8 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore_lua.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore_lua.py
@@ -26,10 +26,19 @@ def _load_script(script_name: str) -> str:
         return script_file.read_text(encoding="utf-8").strip()
 
 
+# TODO: old
 ACQUIRE_SEMAPHORE_SCRIPT: Final[str] = _load_script("acquire_semaphore")
 RELEASE_SEMAPHORE_SCRIPT: Final[str] = _load_script("release_semaphore")
 RENEW_SEMAPHORE_SCRIPT: Final[str] = _load_script("renew_semaphore")
 COUNT_SEMAPHORE_SCRIPT: Final[str] = _load_script("count_semaphore")
 
-SCRIPT_BAD_EXIT_CODE: Final[int] = 255
+# fair semaphore scripts (token pool based)
+ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("acquire_fair_semaphore_v2")
+RELEASE_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("release_fair_semaphore_v2")
+CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("cleanup_fair_semaphore_v2")
+RENEW_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("renew_fair_semaphore_v2")
+COUNT_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("count_fair_semaphore_v2")
+
+
 SCRIPT_OK_EXIT_CODE: Final[int] = 0
+SCRIPT_BAD_EXIT_CODE: Final[int] = 255

From e2a6d6e1e3b961075706731dd6e15c48f3c0d379 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 18:40:29 +0200
Subject: [PATCH 11/16] ongoing

---
 .../src/servicelib/redis/fair_semaphore.py    | 404 ++++++++++++++++++
 .../redis/fair_semaphore_decorator.py         | 272 ++++++++++++
 2 files changed, 676 insertions(+)
 create mode 100644 packages/service-library/src/servicelib/redis/fair_semaphore.py
 create mode 100644 packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py

diff --git a/packages/service-library/src/servicelib/redis/fair_semaphore.py b/packages/service-library/src/servicelib/redis/fair_semaphore.py
new file mode 100644
index 000000000000..f70c699e9fcc
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/fair_semaphore.py
@@ -0,0 +1,404 @@
+"""Fair distributed semaphore using token pool with crash recovery."""
+
+import asyncio
+import datetime
+import logging
+import uuid
+from typing import ClassVar
+
+from pydantic import BaseModel, Field, PositiveInt, computed_field, field_validator
+from redis.commands.core import AsyncScript
+
+from ._client import RedisClientSDK
+from ._constants import (
+    DEFAULT_SEMAPHORE_TTL,
+    DEFAULT_SOCKET_TIMEOUT,
+    SEMAPHORE_HOLDER_KEY_PREFIX,
+    SEMAPHORE_KEY_PREFIX,
+)
+from ._errors import (
+    SemaphoreAcquisitionError,
+    SemaphoreLostError,
+    SemaphoreNotAcquiredError,
+)
+from ._semaphore_lua import (
+    ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT,
+    CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT,
+    COUNT_FAIR_SEMAPHORE_V2_SCRIPT,
+    RELEASE_FAIR_SEMAPHORE_V2_SCRIPT,
+    RENEW_FAIR_SEMAPHORE_V2_SCRIPT,
+    SCRIPT_OK_EXIT_CODE,
+)
+
+_logger = logging.getLogger(__name__)
+
+
+class FairSemaphore(BaseModel):
+    """
+    A fair distributed semaphore using Redis token pool with BRPOP.
+
+    Features:
+    - True FIFO fairness via BRPOP blocking operations
+    - Crash recovery through TTL-based cleanup
+    - No Python-side retry logic needed
+    - Automatic token pool management
+    """
+
+    capacity: PositiveInt = Field(description="Maximum number of concurrent holders")
+    key: str = Field(description="Unique semaphore identifier")
+    ttl: datetime.timedelta = Field(
+        default=DEFAULT_SEMAPHORE_TTL,
+        description="How long a holder can keep the semaphore",
+    )
+    timeout: datetime.timedelta = Field(
+        default=DEFAULT_SOCKET_TIMEOUT,
+        description="How long to block waiting for semaphore (0 = infinite)",
+    )
+    cleanup_interval: datetime.timedelta = Field(
+        default=datetime.timedelta(seconds=30),
+        description="How often to run cleanup to recover crashed client tokens",
+    )
+    enable_auto_cleanup: bool = Field(
+        default=True, description="Whether to automatically run background cleanup"
+    )
+
+    # Internal state
+    instance_id: str = Field(
+        default_factory=lambda: str(uuid.uuid4())[:8],
+        description="Unique identifier for this semaphore instance",
+    )
+    _acquired: bool = Field(default=False, exclude=True)
+    _token: str | None = Field(default=None, exclude=True)
+    _redis_client: RedisClientSDK | None = Field(default=None, exclude=True)
+    _cleanup_task: asyncio.Task | None = Field(default=None, exclude=True)
+
+    # Class-level script storage
+    _acquire_script: ClassVar[AsyncScript | None] = None
+    _release_script: ClassVar[AsyncScript | None] = None
+    _cleanup_script: ClassVar[AsyncScript | None] = None
+    _renew_script: ClassVar[AsyncScript | None] = None
+    _count_script: ClassVar[AsyncScript | None] = None
+
+    @computed_field
+    @property
+    def tokens_key(self) -> str:
+        """Redis key for the token pool LIST."""
+        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:tokens"
+
+    @computed_field
+    @property
+    def holders_key(self) -> str:
+        """Redis key for the holders SET."""
+        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders"
+
+    @computed_field
+    @property
+    def holder_key(self) -> str:
+        """Redis key for this instance's holder TTL key."""
+        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:{self.instance_id}"
+
+    @computed_field
+    @property
+    def holder_prefix(self) -> str:
+        """Prefix for holder keys (used in cleanup)."""
+        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:"
+
+    @field_validator("ttl", "timeout", "cleanup_interval")
+    @classmethod
+    def validate_positive_timedelta(cls, v: datetime.timedelta) -> datetime.timedelta:
+        if v.total_seconds() <= 0:
+            raise ValueError("Timedelta must be positive")
+        return v
+
+    def model_post_init(self, __context) -> None:
+        """Initialize Redis client."""
+        if self._redis_client is None:
+            self._redis_client = RedisClientSDK()
+
+    async def _load_scripts(self) -> None:
+        """Load Lua scripts into Redis."""
+        if self.__class__._acquire_script is None:
+            redis = await self._redis_client.get_redis_client()
+
+            self.__class__._acquire_script = redis.register_script(
+                ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+            self.__class__._release_script = redis.register_script(
+                RELEASE_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+            self.__class__._cleanup_script = redis.register_script(
+                CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+            self.__class__._renew_script = redis.register_script(
+                RENEW_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+            self.__class__._count_script = redis.register_script(
+                COUNT_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+
+    async def _start_cleanup_task(self) -> None:
+        """Start the background cleanup task if enabled."""
+        if self.enable_auto_cleanup and (
+            self._cleanup_task is None or self._cleanup_task.done()
+        ):
+            self._cleanup_task = asyncio.create_task(self._cleanup_loop())
+
+    async def _cleanup_loop(self) -> None:
+        """Background task to periodically clean up crashed client tokens."""
+        try:
+            while True:
+                await asyncio.sleep(self.cleanup_interval.total_seconds())
+                try:
+                    await self._recover_crashed_tokens()
+                except Exception as e:
+                    _logger.warning(f"Cleanup failed for semaphore {self.key}: {e}")
+        except asyncio.CancelledError:
+            _logger.debug(f"Cleanup task cancelled for semaphore {self.key}")
+
+    async def _recover_crashed_tokens(self) -> dict:
+        """Recover tokens from crashed clients."""
+        await self._load_scripts()
+
+        result = await self.__class__._cleanup_script(
+            keys=[self.tokens_key, self.holders_key, self.holder_prefix],
+            args=[self.capacity],
+        )
+
+        recovered_tokens, current_holders, available_tokens, total_cleaned = result
+
+        cleanup_stats = {
+            "recovered_tokens": recovered_tokens,
+            "current_holders": current_holders,
+            "available_tokens": available_tokens,
+            "total_cleaned": total_cleaned,
+        }
+
+        if recovered_tokens > 0 or total_cleaned > 0:
+            _logger.info(
+                f"Semaphore cleanup for '{self.key}': "
+                f"recovered {recovered_tokens} tokens, "
+                f"cleaned {total_cleaned} crashed holders, "
+                f"current state: {current_holders} holders, {available_tokens} available"
+            )
+
+        return cleanup_stats
+
+    async def acquire(self) -> bool:
+        """
+        Acquire the semaphore using blocking Redis operation.
+
+        This method blocks until a semaphore slot becomes available or timeout.
+        Uses Redis BRPOP for true FIFO fairness with no starvation possible.
+
+        Returns:
+            True if acquired successfully
+
+        Raises:
+            SemaphoreAcquisitionError: If acquisition fails or times out
+        """
+        await self._load_scripts()
+
+        if self.enable_auto_cleanup:
+            await self._start_cleanup_task()
+
+        if self._acquired:
+            raise SemaphoreAcquisitionError(
+                "Semaphore already acquired by this instance"
+            )
+
+        ttl_seconds = max(1, int(self.ttl.total_seconds()))
+        timeout_seconds = int(self.timeout.total_seconds())
+
+        _logger.debug(
+            f"Attempting to acquire fair semaphore '{self.key}' "
+            f"(timeout: {timeout_seconds}s, ttl: {ttl_seconds}s)"
+        )
+
+        try:
+            result = await self.__class__._acquire_script(
+                keys=[self.tokens_key, self.holders_key, self.holder_key],
+                args=[self.instance_id, self.capacity, ttl_seconds, timeout_seconds],
+            )
+
+            exit_code, status, token, current_count = result
+
+            _logger.debug(
+                f"Fair semaphore acquisition result for '{self.key}'",
+                extra={
+                    "instance_id": self.instance_id,
+                    "exit_code": exit_code,
+                    "status": status,
+                    "token": token,
+                    "current_count": current_count,
+                },
+            )
+
+            if exit_code == SCRIPT_OK_EXIT_CODE:  # Success
+                self._acquired = True
+                self._token = token
+                _logger.info(
+                    f"Acquired fair semaphore '{self.key}' with token '{token}'"
+                )
+                return True
+            # Timeout or error
+            raise SemaphoreAcquisitionError(f"Failed to acquire semaphore: {status}")
+
+        except Exception as e:
+            _logger.error(f"Error acquiring semaphore '{self.key}': {e}")
+            raise SemaphoreAcquisitionError(f"Redis error during acquisition: {e}")
+
+    async def release(self) -> bool:
+        """
+        Release the semaphore and return token to pool.
+
+        This automatically makes the semaphore available to waiting clients.
+        The token is returned to the pool, unblocking any BRPOP waiters.
+
+        Returns:
+            True if released successfully
+
+        Raises:
+            SemaphoreNotAcquiredError: If semaphore not held by this instance
+        """
+        await self._load_scripts()
+
+        if not self._acquired:
+            raise SemaphoreNotAcquiredError("Semaphore not acquired by this instance")
+
+        try:
+            result = await self.__class__._release_script(
+                keys=[self.tokens_key, self.holders_key, self.holder_key],
+                args=[self.instance_id],
+            )
+
+            exit_code, status, current_count = result
+
+            _logger.debug(
+                f"Fair semaphore release result for '{self.key}'",
+                extra={
+                    "instance_id": self.instance_id,
+                    "exit_code": exit_code,
+                    "status": status,
+                    "current_count": current_count,
+                },
+            )
+
+            if exit_code == SCRIPT_OK_EXIT_CODE:  # Success
+                self._acquired = False
+                _logger.info(
+                    f"Released fair semaphore '{self.key}' with token '{self._token}'"
+                )
+                self._token = None
+                return True
+            # Error
+            self._acquired = False  # Mark as not acquired even on error
+            raise SemaphoreNotAcquiredError(f"Failed to release semaphore: {status}")
+
+        except Exception as e:
+            _logger.error(f"Error releasing semaphore '{self.key}': {e}")
+            self._acquired = False  # Mark as not acquired on error
+            raise SemaphoreNotAcquiredError(f"Redis error during release: {e}")
+
+    async def renew(self) -> bool:
+        """
+        Renew the semaphore TTL.
+
+        Returns:
+            True if renewed successfully
+
+        Raises:
+            SemaphoreLostError: If semaphore was lost (expired or not held)
+        """
+        await self._load_scripts()
+
+        if not self._acquired:
+            raise SemaphoreNotAcquiredError("Semaphore not acquired by this instance")
+
+        ttl_seconds = max(1, int(self.ttl.total_seconds()))
+
+        try:
+            result = await self.__class__._renew_script(
+                keys=[self.holders_key, self.holder_key],
+                args=[self.instance_id, ttl_seconds],
+            )
+
+            exit_code, status, current_count = result
+
+            if exit_code == SCRIPT_OK_EXIT_CODE:
+                _logger.debug(f"Renewed semaphore '{self.key}' TTL")
+                return True
+            self._acquired = False
+            raise SemaphoreLostError(f"Semaphore was lost: {status}")
+
+        except Exception as e:
+            _logger.error(f"Error renewing semaphore '{self.key}': {e}")
+            # Don't mark as not acquired on network errors
+            raise SemaphoreLostError(f"Redis error during renewal: {e}")
+
+    async def count(self) -> dict:
+        """
+        Get semaphore usage statistics.
+
+        Returns:
+            Dictionary with current_holders, available_tokens, capacity
+        """
+        await self._load_scripts()
+
+        result = await self.__class__._count_script(
+            keys=[self.holders_key, self.tokens_key], args=[self.capacity]
+        )
+
+        current_holders, available_tokens, capacity = result
+
+        return {
+            "current_holders": current_holders,
+            "available_tokens": available_tokens,
+            "capacity": capacity,
+            "utilization": current_holders / capacity if capacity > 0 else 0.0,
+        }
+
+    async def health_check(self) -> dict:
+        """Get comprehensive semaphore health information."""
+        count_info = await self.count()
+        cleanup_stats = await self._recover_crashed_tokens()
+
+        total_accounted = count_info["current_holders"] + count_info["available_tokens"]
+
+        return {
+            **count_info,
+            **cleanup_stats,
+            "total_accounted": total_accounted,
+            "is_healthy": total_accounted == self.capacity,
+            "cleanup_enabled": self.enable_auto_cleanup,
+            "instance_acquired": self._acquired,
+        }
+
+    async def force_cleanup(self) -> dict:
+        """Manually trigger cleanup and return recovery statistics."""
+        return await self._recover_crashed_tokens()
+
+    async def __aenter__(self):
+        """Async context manager entry."""
+        await self.acquire()
+        return self
+
+    async def __aexit__(self, exc_type, exc_val, exc_tb):
+        """Async context manager exit."""
+        if self._acquired:
+            try:
+                await self.release()
+            except Exception as e:
+                _logger.error(f"Error releasing semaphore in __aexit__: {e}")
+
+        # Cancel cleanup task when exiting
+        if self._cleanup_task and not self._cleanup_task.done():
+            self._cleanup_task.cancel()
+            try:
+                await self._cleanup_task
+            except asyncio.CancelledError:
+                pass
+
+    @property
+    def acquired(self) -> bool:
+        """Check if semaphore is currently acquired."""
+        return self._acquired
diff --git a/packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py b/packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py
new file mode 100644
index 000000000000..8202ebf79d56
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py
@@ -0,0 +1,272 @@
+"""Fair semaphore decorator with automatic renewal and crash recovery."""
+
+import asyncio
+import datetime
+import functools
+import logging
+from collections.abc import Callable, Coroutine
+from contextlib import asynccontextmanager
+from typing import Any, ParamSpec, TypeVar
+
+from common_library.logging.logging_errors import create_troubleshooting_log_kwargs
+
+from ._constants import (
+    DEFAULT_EXPECTED_LOCK_OVERALL_TIME,
+    DEFAULT_SEMAPHORE_TTL,
+    DEFAULT_SOCKET_TIMEOUT,
+)
+from ._errors import (
+    SemaphoreAcquisitionError,
+    SemaphoreLostError,
+    SemaphoreNotAcquiredError,
+)
+from .fair_semaphore import FairSemaphore
+
+_logger = logging.getLogger(__name__)
+
+P = ParamSpec("P")
+R = TypeVar("R")
+
+
+@asynccontextmanager
+async def _managed_fair_semaphore_execution(
+    semaphore: FairSemaphore,
+    semaphore_key: str,
+    ttl: datetime.timedelta,
+    execution_context: str,
+    enable_auto_renewal: bool = True,
+):
+    """Context manager for fair semaphore with auto-renewal."""
+
+    async def _auto_renewal():
+        """Background task to automatically renew semaphore."""
+        if not enable_auto_renewal:
+            return
+
+        renewal_interval = ttl.total_seconds() / 3  # Renew at 1/3 TTL
+
+        while semaphore.acquired:
+            try:
+                await asyncio.sleep(renewal_interval)
+                if semaphore.acquired:  # Check again after sleep
+                    await semaphore.renew()
+                    _logger.debug(f"Renewed fair semaphore {semaphore_key}")
+            except SemaphoreLostError:
+                _logger.error(
+                    f"Fair semaphore {semaphore_key} was lost during execution"
+                )
+                break
+            except Exception as e:
+                _logger.warning(f"Failed to renew fair semaphore {semaphore_key}: {e}")
+                break
+
+    renewal_task = None
+    try:
+        # Acquire the semaphore (blocks until available)
+        if not await semaphore.acquire():
+            raise SemaphoreAcquisitionError(
+                f"Failed to acquire fair semaphore {semaphore_key}"
+            )
+
+        _logger.info(f"Acquired fair semaphore {semaphore_key} for {execution_context}")
+
+        # Start auto-renewal task if enabled
+        if enable_auto_renewal:
+            renewal_task = asyncio.create_task(_auto_renewal())
+
+        yield
+
+    except Exception as e:
+        _logger.error(
+            f"Error in fair semaphore-protected execution: {e}",
+            extra=create_troubleshooting_log_kwargs(
+                context=execution_context,
+                semaphore_key=semaphore_key,
+            ),
+        )
+        raise
+    finally:
+        # Cancel renewal task
+        if renewal_task and not renewal_task.done():
+            renewal_task.cancel()
+            try:
+                await renewal_task
+            except asyncio.CancelledError:
+                pass
+
+        # Release semaphore
+        if semaphore.acquired:
+            try:
+                await semaphore.release()
+                _logger.info(f"Released fair semaphore {semaphore_key}")
+            except Exception as e:
+                _logger.error(f"Failed to release fair semaphore {semaphore_key}: {e}")
+
+
+def fair_semaphore(
+    *,
+    key: str,
+    capacity: int,
+    ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
+    timeout: datetime.timedelta = DEFAULT_SOCKET_TIMEOUT,
+    expected_execution_time: datetime.timedelta = DEFAULT_EXPECTED_LOCK_OVERALL_TIME,
+    cleanup_interval: datetime.timedelta = datetime.timedelta(seconds=30),
+    enable_auto_cleanup: bool = True,
+    enable_auto_renewal: bool = True,
+) -> Callable[
+    [Callable[P, Coroutine[Any, Any, R]]], Callable[P, Coroutine[Any, Any, R]]
+]:
+    """
+    Decorator that protects async functions with a fair distributed semaphore.
+
+    Uses Redis BRPOP for true FIFO fairness - first requester gets first slot.
+    No starvation possible, automatic crash recovery.
+
+    Args:
+        key: Unique semaphore identifier
+        capacity: Maximum concurrent executions allowed
+        ttl: How long each holder can keep the semaphore
+        timeout: How long to wait for semaphore (0 = infinite wait)
+        expected_execution_time: Expected total execution time (unused, kept for compatibility)
+        cleanup_interval: How often to run cleanup for crashed clients
+        enable_auto_cleanup: Whether to run background cleanup
+        enable_auto_renewal: Whether to automatically renew TTL during execution
+
+    Example:
+        @fair_semaphore(
+            key="api_calls",
+            capacity=10,
+            ttl=datetime.timedelta(seconds=30),
+            timeout=datetime.timedelta(seconds=60)
+        )
+        async def call_external_api():
+            # This will block fairly until semaphore available
+            # Maximum 10 concurrent executions
+            # First-come-first-served ordering guaranteed
+            pass
+    """
+
+    def decorator(
+        func: Callable[P, Coroutine[Any, Any, R]],
+    ) -> Callable[P, Coroutine[Any, Any, R]]:
+        @functools.wraps(func)
+        async def wrapper(*args: P.args, **kwargs: P.kwargs) -> R:
+            semaphore = FairSemaphore(
+                key=key,
+                capacity=capacity,
+                ttl=ttl,
+                timeout=timeout,
+                cleanup_interval=cleanup_interval,
+                enable_auto_cleanup=enable_auto_cleanup,
+            )
+
+            execution_context = f"{func.__module__}.{func.__qualname__}"
+
+            async with _managed_fair_semaphore_execution(
+                semaphore=semaphore,
+                semaphore_key=key,
+                ttl=ttl,
+                execution_context=execution_context,
+                enable_auto_renewal=enable_auto_renewal,
+            ):
+                return await func(*args, **kwargs)
+
+        return wrapper
+
+    return decorator
+
+
+class FairSemaphoreContext:
+    """Async context manager for manual fair semaphore control."""
+
+    def __init__(
+        self,
+        key: str,
+        capacity: int,
+        ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
+        timeout: datetime.timedelta = DEFAULT_SOCKET_TIMEOUT,
+        cleanup_interval: datetime.timedelta = datetime.timedelta(seconds=30),
+        enable_auto_cleanup: bool = True,
+        enable_auto_renewal: bool = True,
+    ):
+        self.semaphore = FairSemaphore(
+            key=key,
+            capacity=capacity,
+            ttl=ttl,
+            timeout=timeout,
+            cleanup_interval=cleanup_interval,
+            enable_auto_cleanup=enable_auto_cleanup,
+        )
+        self.ttl = ttl
+        self.enable_auto_renewal = enable_auto_renewal
+        self._renewal_task: Optional[asyncio.Task] = None
+
+    async def __aenter__(self) -> FairSemaphore:
+        """Acquire semaphore and start auto-renewal."""
+        await self.semaphore.acquire()
+
+        # Start auto-renewal if enabled
+        if self.enable_auto_renewal:
+
+            async def _auto_renewal():
+                renewal_interval = self.ttl.total_seconds() / 3
+                while self.semaphore.acquired:
+                    try:
+                        await asyncio.sleep(renewal_interval)
+                        if self.semaphore.acquired:
+                            await self.semaphore.renew()
+                    except (SemaphoreLostError, SemaphoreNotAcquiredError):
+                        break
+                    except Exception as e:
+                        _logger.warning(f"Auto-renewal failed: {e}")
+
+            self._renewal_task = asyncio.create_task(_auto_renewal())
+
+        return self.semaphore
+
+    async def __aexit__(self, exc_type, exc_val, exc_tb):
+        """Stop renewal and release semaphore."""
+        if self._renewal_task and not self._renewal_task.done():
+            self._renewal_task.cancel()
+            try:
+                await self._renewal_task
+            except asyncio.CancelledError:
+                pass
+
+        if self.semaphore.acquired:
+            await self.semaphore.release()
+
+
+# Convenience function for creating fair semaphore contexts
+def fair_semaphore_context(
+    key: str,
+    capacity: int,
+    ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
+    timeout: datetime.timedelta = DEFAULT_SOCKET_TIMEOUT,
+    cleanup_interval: datetime.timedelta = datetime.timedelta(seconds=30),
+    enable_auto_cleanup: bool = True,
+    enable_auto_renewal: bool = True,
+) -> FairSemaphoreContext:
+    """
+    Create an async context manager for fair semaphore usage.
+
+    Example:
+        async with fair_semaphore_context(
+            "my_resource",
+            capacity=5,
+            timeout=datetime.timedelta(seconds=30)
+        ) as sem:
+            # Protected code here - guaranteed fair access
+            # sem is the FairSemaphore instance
+            stats = await sem.count()
+            print(f"Current holders: {stats['current_holders']}")
+    """
+    return FairSemaphoreContext(
+        key=key,
+        capacity=capacity,
+        ttl=ttl,
+        timeout=timeout,
+        cleanup_interval=cleanup_interval,
+        enable_auto_cleanup=enable_auto_cleanup,
+        enable_auto_renewal=enable_auto_renewal,
+    )

From dc1be02bfa96003b9cb59deea96819ca54413db5 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 21:27:03 +0200
Subject: [PATCH 12/16] on the road

---
 .../src/servicelib/redis/_semaphore.py        | 237 ++++++++----------
 1 file changed, 106 insertions(+), 131 deletions(-)

diff --git a/packages/service-library/src/servicelib/redis/_semaphore.py b/packages/service-library/src/servicelib/redis/_semaphore.py
index b62fbc7d238d..ac610835e0b5 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore.py
@@ -13,15 +13,6 @@
     field_validator,
 )
 from redis.commands.core import AsyncScript
-from tenacity import (
-    RetryError,
-    before_sleep_log,
-    retry,
-    retry_if_not_result,
-    stop_after_delay,
-    stop_never,
-    wait_random_exponential,
-)
 
 from ._client import RedisClientSDK
 from ._constants import (
@@ -36,10 +27,10 @@
     SemaphoreNotAcquiredError,
 )
 from ._semaphore_lua import (
-    ACQUIRE_SEMAPHORE_SCRIPT,
-    COUNT_SEMAPHORE_SCRIPT,
-    RELEASE_SEMAPHORE_SCRIPT,
-    RENEW_SEMAPHORE_SCRIPT,
+    ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT,
+    COUNT_FAIR_SEMAPHORE_V2_SCRIPT,
+    RELEASE_FAIR_SEMAPHORE_V2_SCRIPT,
+    RENEW_FAIR_SEMAPHORE_V2_SCRIPT,
     SCRIPT_BAD_EXIT_CODE,
     SCRIPT_OK_EXIT_CODE,
 )
@@ -114,16 +105,16 @@ def _register_scripts(cls, redis_client: RedisClientSDK) -> None:
         the script is only registered once."""
         if cls.acquire_script is None:
             cls.acquire_script = redis_client.redis.register_script(
-                ACQUIRE_SEMAPHORE_SCRIPT
+                ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT
             )
             cls.count_script = redis_client.redis.register_script(
-                COUNT_SEMAPHORE_SCRIPT
+                COUNT_FAIR_SEMAPHORE_V2_SCRIPT
             )
             cls.release_script = redis_client.redis.register_script(
-                RELEASE_SEMAPHORE_SCRIPT
+                RELEASE_FAIR_SEMAPHORE_V2_SCRIPT
             )
             cls.renew_script = redis_client.redis.register_script(
-                RENEW_SEMAPHORE_SCRIPT
+                RENEW_FAIR_SEMAPHORE_V2_SCRIPT
             )
 
     def __init__(self, **data) -> None:
@@ -136,6 +127,18 @@ def semaphore_key(self) -> str:
         """Redis key for the semaphore sorted set."""
         return f"{SEMAPHORE_KEY_PREFIX}{self.key}"
 
+    @computed_field  # type: ignore[prop-decorator]
+    @property
+    def tokens_key(self) -> str:
+        """Redis key for the token pool LIST."""
+        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:tokens"
+
+    @computed_field  # type: ignore[prop-decorator]
+    @property
+    def holders_key(self) -> str:
+        """Redis key for the holders SET."""
+        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders"
+
     @computed_field  # type: ignore[prop-decorator]
     @property
     def holder_key(self) -> str:
@@ -172,109 +175,103 @@ async def acquire(self) -> bool:
             SemaphoreAcquisitionError: If acquisition fails and blocking=True
         """
 
-        if not self.blocking:
-            # Non-blocking: try once
-            return await self._try_acquire()
-
-        # Blocking
-        @retry(
-            wait=wait_random_exponential(min=0.1, max=2),
-            reraise=True,
-            stop=(
-                stop_after_delay(self.blocking_timeout.total_seconds())
-                if self.blocking_timeout
-                else stop_never
-            ),
-            retry=retry_if_not_result(lambda acquired: acquired),
-            before_sleep=before_sleep_log(_logger, logging.DEBUG),
-        )
-        async def _blocking_acquire() -> bool:
-            return await self._try_acquire()
-
-        try:
-            return await _blocking_acquire()
-        except RetryError as exc:
-            raise SemaphoreAcquisitionError(
-                name=self.key, capacity=self.capacity
-            ) from exc
-
-    async def release(self) -> None:
-        """
-        Release the semaphore atomically using Lua script.
-
-        Raises:
-            SemaphoreNotAcquiredError: If semaphore was not acquired by this instance
-        """
         ttl_seconds = int(self.ttl.total_seconds())
+        blocking_timeout_seconds = 0.1
+        if self.blocking:
+            blocking_timeout_seconds = (
+                self.blocking_timeout.total_seconds() if self.blocking_timeout else 0
+            )
 
-        # Execute the release Lua script atomically
+        # Execute the Lua script atomically
         cls = type(self)
-        assert cls.release_script is not None  # nosec
-        result = await cls.release_script(  # pylint: disable=not-callable
-            keys=(
-                self.semaphore_key,
-                self.holder_key,
-            ),
-            args=(
+        assert cls.acquire_script is not None  # nosec
+        result = await cls.acquire_script(  # pylint: disable=not-callable
+            keys=[self.tokens_key, self.holders_key, self.holder_key],
+            args=[
                 self.instance_id,
-                str(ttl_seconds),
-            ),
+                self.capacity,
+                ttl_seconds,
+                blocking_timeout_seconds,
+            ],
             client=self.redis_client.redis,
         )
 
+        # Lua script returns: [exit_code, status, current_count, expired_count]
         assert isinstance(result, list)  # nosec
-        exit_code, status, current_count, expired_count = result
-        result = status
+        exit_code, status, token, current_count = result
 
-        if result == "released":
-            assert exit_code == SCRIPT_OK_EXIT_CODE  # nosec
+        if exit_code == SCRIPT_OK_EXIT_CODE:
+            _logger.debug(
+                "Acquired semaphore '%s' with token %s (instance: %s, count: %s)",
+                self.key,
+                token,
+                self.instance_id,
+                current_count,
+            )
+            return True
+        if status == "timeout":
+            if self.blocking:
+                _logger.debug(
+                    "Timeout acquiring semaphore '%s' (instance: %s, count: %s)",
+                    self.key,
+                    self.instance_id,
+                    current_count,
+                )
+                raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
             _logger.debug(
-                "Released semaphore '%s' (instance: %s, count: %s, expired: %s)",
+                "Timeout acquiring semaphore '%s' (instance: %s, count: %s)",
                 self.key,
                 self.instance_id,
                 current_count,
-                expired_count,
             )
-        else:
-            # Instance wasn't in the semaphore set - this shouldn't happen
-            # but let's handle it gracefully
-            assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
-            raise SemaphoreNotAcquiredError(name=self.key)
+            return False
 
-    async def _try_acquire(self) -> bool:
-        ttl_seconds = int(self.ttl.total_seconds())
+        _logger.debug(
+            "Failed to acquire semaphore '%s' - %s (count: %s)",
+            self.key,
+            status,
+            current_count,
+        )
+        raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
 
-        # Execute the Lua script atomically
+    async def release(self) -> None:
+        """
+        Release the semaphore atomically using Lua script.
+
+        Raises:
+            SemaphoreNotAcquiredError: If semaphore was not acquired by this instance
+        """
+
+        # Execute the release Lua script atomically
         cls = type(self)
-        assert cls.acquire_script is not None  # nosec
-        result = await cls.acquire_script(  # pylint: disable=not-callable
-            keys=(self.semaphore_key, self.holder_key),
-            args=(self.instance_id, str(self.capacity), str(ttl_seconds)),
+        assert cls.release_script is not None  # nosec
+        result = await cls.release_script(  # pylint: disable=not-callable
+            keys=[self.tokens_key, self.holders_key, self.holder_key],
+            args=[self.instance_id],
             client=self.redis_client.redis,
         )
 
-        # Lua script returns: [exit_code, status, current_count, expired_count]
         assert isinstance(result, list)  # nosec
-        exit_code, status, current_count, expired_count = result
-
+        exit_code, status, current_count = result
         if exit_code == SCRIPT_OK_EXIT_CODE:
+            assert status == "released"  # nosec
             _logger.debug(
-                "Acquired semaphore '%s' (instance: %s, count: %s, expired: %s)",
+                "Released semaphore '%s' (instance: %s, count: %s)",
                 self.key,
                 self.instance_id,
                 current_count,
-                expired_count,
             )
-            return True
 
-        _logger.debug(
-            "Failed to acquire semaphore '%s' - %s (count: %s, expired: %s)",
+        # Instance was already expired or not acquired
+        assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
+        _logger.error(
+            "Failed to release semaphore '%s' - %s (instance: %s, count: %s)",
             self.key,
             status,
+            self.instance_id,
             current_count,
-            expired_count,
         )
-        return False
+        raise SemaphoreNotAcquiredError(name=self.key)
 
     async def reacquire(self) -> None:
         """
@@ -293,72 +290,50 @@ async def reacquire(self) -> None:
         cls = type(self)
         assert cls.renew_script is not None  # nosec
         result = await cls.renew_script(  # pylint: disable=not-callable
-            keys=(self.semaphore_key, self.holder_key),
-            args=(
-                self.instance_id,
-                str(ttl_seconds),
-            ),
+            keys=[self.holders_key, self.holder_key],
+            args=[self.instance_id, ttl_seconds],
             client=self.redis_client.redis,
         )
 
         assert isinstance(result, list)  # nosec
-        exit_code, status, current_count, expired_count = result
+        exit_code, status, current_count = result
 
-        # Lua script returns: 'renewed' or status message
-        if status == "renewed":
-            assert exit_code == SCRIPT_OK_EXIT_CODE  # nosec
+        if exit_code == SCRIPT_OK_EXIT_CODE:
+            assert status == "renewed"  # nosec
             _logger.debug(
-                "Renewed semaphore '%s' (instance: %s, count: %s, expired: %s)",
+                "Renewed semaphore '%s' (instance: %s, count: %s)",
                 self.key,
                 self.instance_id,
                 current_count,
-                expired_count,
             )
-        else:
-            assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
-            if status == "expired":
-                _logger.warning(
-                    "Semaphore '%s' holder key expired (instance: %s, count: %s, expired: %s)",
-                    self.key,
-                    self.instance_id,
-                    current_count,
-                    expired_count,
-                )
-            elif status == "not_held":
-                _logger.warning(
-                    "Semaphore '%s' not held (instance: %s, count: %s, expired: %s)",
-                    self.key,
-                    self.instance_id,
-                    current_count,
-                    expired_count,
-                )
+            return
+        assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
 
-            raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
+        _logger.warning(
+            "Semaphore '%s' holder key was lost (instance: %s, status: %s, count: %s)",
+            self.key,
+            self.instance_id,
+            status,
+            current_count,
+        )
+
+        raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
 
     async def get_current_count(self) -> int:
         """Get the current number of semaphore holders"""
-        ttl_seconds = int(self.ttl.total_seconds())
 
-        # Execute the count Lua script atomically
         cls = type(self)
         assert cls.count_script is not None  # nosec
         result = await cls.count_script(  # pylint: disable=not-callable
-            keys=(self.semaphore_key,),
-            args=(str(ttl_seconds),),
+            keys=[self.holders_key, self.tokens_key],
+            args=[self.capacity],
             client=self.redis_client.redis,
         )
 
         assert isinstance(result, list)  # nosec
-        current_count, expired_count = result
-
-        if int(expired_count) > 0:
-            _logger.debug(
-                "Cleaned up %s expired entries from semaphore '%s'",
-                expired_count,
-                self.key,
-            )
+        current_holders, available_tokens, capacity = result
 
-        return int(current_count)
+        return int(current_holders)
 
     async def get_available_count(self) -> int:
         """Get the number of available semaphore slots"""

From 76fbc07a940e62746ff4b6308dd63b4d3d16d964 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 21:28:55 +0200
Subject: [PATCH 13/16] maybe next step

---
 .../redis/lua/register_semaphore_holder.lua   |  42 ++
 .../servicelib/redis/pure_brpop_semaphore.py  | 417 ++++++++++++++++++
 2 files changed, 459 insertions(+)
 create mode 100644 packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
 create mode 100644 packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py

diff --git a/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua b/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
new file mode 100644
index 000000000000..47b3eb53c49a
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
@@ -0,0 +1,42 @@
+-- Simple token initialization and management for Python BRPOP
+-- KEYS[1]: tokens_key (LIST of available tokens)
+-- KEYS[2]: holders_key (SET of current holder instance IDs)
+-- KEYS[3]: holder_key (individual holder TTL key for this instance)
+-- ARGV[1]: instance_id
+-- ARGV[2]: capacity (max concurrent holders)
+-- ARGV[3]: ttl_seconds
+-- ARGV[4]: token (the token received from BRPOP)
+--
+-- Returns: {exit_code, status, current_count}
+-- exit_code: 0 if registered successfully
+
+local tokens_key = KEYS[1]
+local holders_key = KEYS[2]
+local holder_key = KEYS[3]
+
+local instance_id = ARGV[1]
+local capacity = tonumber(ARGV[2])
+local ttl_seconds = tonumber(ARGV[3])
+local token = ARGV[4]
+
+-- Step 1: Initialize token pool if needed (first time setup)
+local tokens_exist = redis.call('EXISTS', tokens_key)
+if tokens_exist == 0 then
+    -- Initialize with capacity number of tokens
+    for i = 1, capacity do
+        redis.call('LPUSH', tokens_key, 'token_' .. i)
+    end
+    -- Set expiry on tokens list to prevent infinite growth
+    redis.call('EXPIRE', tokens_key, ttl_seconds * 10)
+end
+
+-- Step 2: Register as holder (token was already popped by Python BRPOP)
+redis.call('SADD', holders_key, instance_id)
+redis.call('SETEX', holder_key, ttl_seconds, token)
+
+-- Step 3: Set expiry on holders set to prevent infinite growth
+redis.call('EXPIRE', holders_key, ttl_seconds * 10)
+
+local current_count = redis.call('SCARD', holders_key)
+
+return {0, 'registered', current_count}
diff --git a/packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py b/packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py
new file mode 100644
index 000000000000..0eb6a781f87e
--- /dev/null
+++ b/packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py
@@ -0,0 +1,417 @@
+"""Pure Python BRPOP-based fair semaphore implementation."""
+
+import asyncio
+import datetime
+import logging
+import uuid
+from types import TracebackType
+from typing import Annotated, ClassVar
+
+from common_library.basic_types import DEFAULT_FACTORY
+from pydantic import (
+    BaseModel,
+    Field,
+    PositiveInt,
+    computed_field,
+    field_validator,
+)
+from redis.commands.core import AsyncScript
+
+from ._client import RedisClientSDK
+from ._constants import (
+    DEFAULT_SEMAPHORE_TTL,
+    DEFAULT_SOCKET_TIMEOUT,
+    SEMAPHORE_HOLDER_KEY_PREFIX,
+    SEMAPHORE_KEY_PREFIX,
+)
+from ._errors import (
+    SemaphoreAcquisitionError,
+    SemaphoreLostError,
+    SemaphoreNotAcquiredError,
+)
+from ._semaphore_lua import (
+    CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT,
+    COUNT_FAIR_SEMAPHORE_V2_SCRIPT,
+    REGISTER_SEMAPHORE_HOLDER_SCRIPT,
+    RELEASE_FAIR_SEMAPHORE_V2_SCRIPT,
+    RENEW_FAIR_SEMAPHORE_V2_SCRIPT,
+    SCRIPT_OK_EXIT_CODE,
+)
+
+_logger = logging.getLogger(__name__)
+
+
+class PureBRPOPSemaphore(BaseModel):
+    """
+    A pure Python BRPOP-based fair semaphore implementation.
+
+    This approach uses Redis BRPOP directly from Python for true blocking fairness,
+    with minimal Lua scripts only for registration and cleanup.
+
+    Features:
+    - True FIFO fairness guaranteed by Redis BRPOP
+    - Native Redis blocking - no Python-side polling needed
+    - Crash recovery through TTL-based cleanup
+    - Maximum simplicity and reliability
+    """
+
+    model_config = {
+        "arbitrary_types_allowed": True,  # For RedisClientSDK
+    }
+
+    # Configuration fields
+    redis_client: RedisClientSDK
+    key: Annotated[
+        str, Field(min_length=1, description="Unique identifier for the semaphore")
+    ]
+    capacity: Annotated[
+        PositiveInt, Field(description="Maximum number of concurrent holders")
+    ]
+    ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL
+    blocking_timeout: Annotated[
+        datetime.timedelta | None,
+        Field(description="Maximum time to wait when blocking"),
+    ] = DEFAULT_SOCKET_TIMEOUT
+
+    enable_auto_cleanup: bool = Field(
+        default=True,
+        description="Whether to enable automatic cleanup of crashed holders",
+    )
+
+    instance_id: Annotated[
+        str,
+        Field(
+            description="Unique instance identifier",
+            default_factory=lambda: f"{uuid.uuid4()}",
+        ),
+    ] = DEFAULT_FACTORY
+
+    # Class-level script storage
+    register_script: ClassVar[AsyncScript | None] = None
+    release_script: ClassVar[AsyncScript | None] = None
+    renew_script: ClassVar[AsyncScript | None] = None
+    count_script: ClassVar[AsyncScript | None] = None
+    cleanup_script: ClassVar[AsyncScript | None] = None
+
+    # Private state
+    _acquired: bool = False
+    _token: str | None = None
+    _cleanup_task: asyncio.Task | None = None
+
+    @classmethod
+    def _register_scripts(cls, redis_client: RedisClientSDK) -> None:
+        """Register minimal Lua scripts with Redis."""
+        if cls.register_script is None:
+            cls.register_script = redis_client.redis.register_script(
+                REGISTER_SEMAPHORE_HOLDER_SCRIPT
+            )
+            cls.release_script = redis_client.redis.register_script(
+                RELEASE_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+            cls.renew_script = redis_client.redis.register_script(
+                RENEW_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+            cls.count_script = redis_client.redis.register_script(
+                COUNT_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+            cls.cleanup_script = redis_client.redis.register_script(
+                CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT
+            )
+
+    def __init__(self, **data) -> None:
+        super().__init__(**data)
+        self.__class__._register_scripts(self.redis_client)
+
+        # Start cleanup task if enabled
+        if self.enable_auto_cleanup:
+            self._start_cleanup_task()
+
+    def _start_cleanup_task(self) -> None:
+        """Start background cleanup task for crashed holders."""
+        if self._cleanup_task is None or self._cleanup_task.done():
+            self._cleanup_task = asyncio.create_task(self._cleanup_loop())
+
+    async def _cleanup_loop(self) -> None:
+        """Background task to clean up crashed holders."""
+        try:
+            while True:
+                await asyncio.sleep(30)  # Cleanup every 30 seconds
+                try:
+                    await self._recover_crashed_tokens()
+                except Exception as e:
+                    _logger.warning(f"Cleanup failed for semaphore {self.key}: {e}")
+        except asyncio.CancelledError:
+            pass
+
+    async def _recover_crashed_tokens(self) -> None:
+        """Recover tokens from crashed clients."""
+        cls = type(self)
+        assert cls.cleanup_script is not None
+
+        result = await cls.cleanup_script(
+            keys=[self.tokens_key, self.holders_key, self.holder_prefix],
+            args=[self.capacity],
+            client=self.redis_client.redis,
+        )
+
+        recovered_tokens, current_holders, available_tokens, total_cleaned = result
+
+        if recovered_tokens > 0 or total_cleaned > 0:
+            _logger.info(
+                f"Recovered {recovered_tokens} tokens from {total_cleaned} crashed holders "
+                f"for semaphore '{self.key}'"
+            )
+
+    @computed_field
+    @property
+    def tokens_key(self) -> str:
+        """Redis key for the token pool LIST."""
+        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:tokens"
+
+    @computed_field
+    @property
+    def holders_key(self) -> str:
+        """Redis key for the holders SET."""
+        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders"
+
+    @computed_field
+    @property
+    def holder_key(self) -> str:
+        """Redis key for this instance's holder entry."""
+        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:{self.instance_id}"
+
+    @computed_field
+    @property
+    def holder_prefix(self) -> str:
+        """Prefix for holder keys (used in cleanup)."""
+        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:"
+
+    @field_validator("ttl")
+    @classmethod
+    def validate_ttl(cls, v: datetime.timedelta) -> datetime.timedelta:
+        if v.total_seconds() <= 0:
+            raise ValueError("TTL must be positive")
+        return v
+
+    @field_validator("blocking_timeout")
+    @classmethod
+    def validate_timeout(
+        cls, v: datetime.timedelta | None
+    ) -> datetime.timedelta | None:
+        if v is not None and v.total_seconds() <= 0:
+            raise ValueError("Timeout must be positive")
+        return v
+
+    async def acquire(self) -> bool:
+        """
+        Acquire the semaphore using pure Python BRPOP.
+
+        This is the cleanest possible approach:
+        1. Call Redis BRPOP directly from Python (guaranteed FIFO fairness)
+        2. Use minimal Lua script only to register as holder
+        3. No complex retry logic or notifications needed
+
+        Returns:
+            True if acquired successfully
+
+        Raises:
+            SemaphoreAcquisitionError: If acquisition fails or times out
+        """
+        if self._acquired:
+            raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
+
+        timeout_seconds = (
+            int(self.blocking_timeout.total_seconds()) if self.blocking_timeout else 0
+        )
+        ttl_seconds = int(self.ttl.total_seconds())
+
+        _logger.debug(
+            f"Attempting to acquire semaphore '{self.key}' using BRPOP "
+            f"(timeout: {timeout_seconds}s)"
+        )
+
+        try:
+            # Use Redis BRPOP directly from Python - this is perfectly legal!
+            # BRPOP blocks until a token is available or timeout occurs
+            result = await self.redis_client.redis.brpop(
+                self.tokens_key, timeout=timeout_seconds
+            )
+
+            if result is None:
+                # Timeout occurred
+                raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
+
+            # result is (key, token) tuple
+            _, token = result
+            token = token.decode("utf-8") if isinstance(token, bytes) else token
+
+            # Register as holder using minimal Lua script
+            cls = type(self)
+            assert cls.register_script is not None
+
+            register_result = await cls.register_script(
+                keys=[self.tokens_key, self.holders_key, self.holder_key],
+                args=[self.instance_id, self.capacity, ttl_seconds, token],
+                client=self.redis_client.redis,
+            )
+
+            exit_code, status, current_count = register_result
+
+            if exit_code == SCRIPT_OK_EXIT_CODE:
+                self._acquired = True
+                self._token = token
+
+                _logger.info(
+                    f"Acquired semaphore '{self.key}' with token '{token}' "
+                    f"(instance: {self.instance_id}, count: {current_count})"
+                )
+                return True
+            else:
+                # Registration failed - this shouldn't happen but be safe
+                # Return the token to the pool
+                await self.redis_client.redis.lpush(self.tokens_key, token)
+                raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
+
+        except TimeoutError:
+            raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
+        except Exception as e:
+            _logger.error(f"Error acquiring semaphore '{self.key}': {e}")
+            raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
+
+    async def release(self) -> None:
+        """
+        Release the semaphore and return token to pool.
+
+        Raises:
+            SemaphoreNotAcquiredError: If semaphore was not acquired by this instance
+        """
+        if not self._acquired:
+            raise SemaphoreNotAcquiredError(name=self.key)
+
+        try:
+            # Use existing release script
+            cls = type(self)
+            assert cls.release_script is not None
+
+            result = await cls.release_script(
+                keys=[self.tokens_key, self.holders_key, self.holder_key],
+                args=[self.instance_id],
+                client=self.redis_client.redis,
+            )
+
+            exit_code, status, current_count = result
+
+            if exit_code == SCRIPT_OK_EXIT_CODE:
+                released_token = self._token
+                self._acquired = False
+                self._token = None
+
+                _logger.info(
+                    f"Released semaphore '{self.key}' with token '{released_token}' "
+                    f"(instance: {self.instance_id}, count: {current_count})"
+                )
+                return
+
+            # Release failed
+            _logger.error(
+                f"Failed to release semaphore '{self.key}' - {status} "
+                f"(instance: {self.instance_id}, count: {current_count})"
+            )
+            # Mark as not acquired anyway to prevent stuck state
+            self._acquired = False
+            self._token = None
+            raise SemaphoreNotAcquiredError(name=self.key)
+
+        except Exception as e:
+            _logger.error(f"Error releasing semaphore '{self.key}': {e}")
+            # Mark as not acquired to prevent stuck state
+            self._acquired = False
+            self._token = None
+            raise SemaphoreNotAcquiredError(name=self.key)
+
+    async def renew(self) -> None:
+        """
+        Renew the semaphore TTL.
+
+        Raises:
+            SemaphoreLostError: If the semaphore was lost or expired
+        """
+        if not self._acquired:
+            raise SemaphoreNotAcquiredError(name=self.key)
+
+        ttl_seconds = int(self.ttl.total_seconds())
+
+        try:
+            cls = type(self)
+            assert cls.renew_script is not None
+
+            result = await cls.renew_script(
+                keys=[self.holders_key, self.holder_key],
+                args=[self.instance_id, ttl_seconds],
+                client=self.redis_client.redis,
+            )
+
+            exit_code, status, current_count = result
+
+            if exit_code == SCRIPT_OK_EXIT_CODE:
+                _logger.debug(f"Renewed semaphore '{self.key}' TTL")
+                return
+
+            # Renewal failed - semaphore was lost
+            _logger.warning(
+                f"Semaphore '{self.key}' was lost during renewal - {status} "
+                f"(instance: {self.instance_id})"
+            )
+            self._acquired = False
+            self._token = None
+            raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
+
+        except Exception as e:
+            _logger.error(f"Error renewing semaphore '{self.key}': {e}")
+            raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
+
+    async def get_current_count(self) -> int:
+        """Get the current number of semaphore holders."""
+        cls = type(self)
+        assert cls.count_script is not None
+
+        result = await cls.count_script(
+            keys=[self.holders_key, self.tokens_key],
+            args=[self.capacity],
+            client=self.redis_client.redis,
+        )
+
+        current_holders, available_tokens, capacity = result
+        return int(current_holders)
+
+    async def get_available_count(self) -> int:
+        """Get the number of available semaphore slots."""
+        current_count = await self.get_current_count()
+        return max(0, self.capacity - current_count)
+
+    @property
+    def acquired(self) -> bool:
+        """Check if semaphore is currently acquired."""
+        return self._acquired
+
+    # Context manager support
+    async def __aenter__(self) -> "PureBRPOPSemaphore":
+        await self.acquire()
+        return self
+
+    async def __aexit__(
+        self,
+        exc_type: type[BaseException] | None,
+        exc_val: BaseException | None,
+        exc_tb: TracebackType | None,
+    ) -> None:
+        if self._acquired:
+            await self.release()
+
+        # Clean up background task
+        if self._cleanup_task and not self._cleanup_task.done():
+            self._cleanup_task.cancel()
+            try:
+                await self._cleanup_task
+            except asyncio.CancelledError:
+                pass

From 51e2bdef07398a96556f4379730cd7f0826606d8 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 23:20:39 +0200
Subject: [PATCH 14/16] passing tests

---
 .../src/servicelib/redis/_semaphore.py        | 56 +++++++++++++++++--
 .../src/servicelib/redis/_semaphore_lua.py    |  1 +
 .../redis/lua/acquire_fair_semaphore_v2.lua   | 41 +++-----------
 .../redis/lua/register_semaphore_holder.lua   | 23 ++------
 .../tests/redis/test_semaphore.py             | 37 ------------
 5 files changed, 66 insertions(+), 92 deletions(-)

diff --git a/packages/service-library/src/servicelib/redis/_semaphore.py b/packages/service-library/src/servicelib/redis/_semaphore.py
index ac610835e0b5..b0711ea8b01e 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore.py
@@ -4,6 +4,7 @@
 from types import TracebackType
 from typing import Annotated, ClassVar
 
+import redis.exceptions
 from common_library.basic_types import DEFAULT_FACTORY
 from pydantic import (
     BaseModel,
@@ -13,6 +14,7 @@
     field_validator,
 )
 from redis.commands.core import AsyncScript
+from servicelib.redis._utils import handle_redis_returns_union_types
 
 from ._client import RedisClientSDK
 from ._constants import (
@@ -29,6 +31,7 @@
 from ._semaphore_lua import (
     ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT,
     COUNT_FAIR_SEMAPHORE_V2_SCRIPT,
+    REGISTER_FAIR_SEMAPHORE_SCRIPT,
     RELEASE_FAIR_SEMAPHORE_V2_SCRIPT,
     RENEW_FAIR_SEMAPHORE_V2_SCRIPT,
     SCRIPT_BAD_EXIT_CODE,
@@ -92,6 +95,7 @@ class DistributedSemaphore(BaseModel):
     ] = DEFAULT_FACTORY
 
     # Class and/or Private state attributes (not part of the model)
+    register_semaphore: ClassVar[AsyncScript | None] = None
     acquire_script: ClassVar[AsyncScript | None] = None
     count_script: ClassVar[AsyncScript | None] = None
     release_script: ClassVar[AsyncScript | None] = None
@@ -104,6 +108,9 @@ def _register_scripts(cls, redis_client: RedisClientSDK) -> None:
         caches the script SHA, so this is efficient. Even if called multiple times,
         the script is only registered once."""
         if cls.acquire_script is None:
+            cls.register_semaphore = redis_client.redis.register_script(
+                REGISTER_FAIR_SEMAPHORE_SCRIPT
+            )
             cls.acquire_script = redis_client.redis.register_script(
                 ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT
             )
@@ -145,6 +152,12 @@ def holder_key(self) -> str:
         """Redis key for this instance's holder entry."""
         return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:{self.instance_id}"
 
+    @computed_field
+    @property
+    def holder_prefix(self) -> str:
+        """Prefix for holder keys (used in cleanup)."""
+        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:"
+
     # Additional validation
     @field_validator("ttl")
     @classmethod
@@ -176,22 +189,51 @@ async def acquire(self) -> bool:
         """
 
         ttl_seconds = int(self.ttl.total_seconds())
-        blocking_timeout_seconds = 0.1
+        blocking_timeout_seconds = 1
         if self.blocking:
-            blocking_timeout_seconds = (
+            blocking_timeout_seconds = int(
                 self.blocking_timeout.total_seconds() if self.blocking_timeout else 0
             )
 
-        # Execute the Lua script atomically
+        # Execute the Lua scripts atomically
         cls = type(self)
+        assert cls.register_semaphore is not None  # nosec
+        await cls.register_semaphore(
+            keys=[self.tokens_key, self.holders_key],
+            args=[self.capacity, ttl_seconds],
+            client=self.redis_client.redis,
+        )  # pylint: disable=not-callable
+
+        try:
+            # this is blocking pop with timeout
+            tokens_key_token: list[str] = await handle_redis_returns_union_types(
+                self.redis_client.redis.brpop(
+                    [self.tokens_key], timeout=blocking_timeout_seconds
+                )
+            )
+        except redis.exceptions.TimeoutError as e:
+            _logger.debug(
+                "Timeout acquiring semaphore '%s' (instance: %s)",
+                self.key,
+                self.instance_id,
+            )
+            if self.blocking:
+                raise SemaphoreAcquisitionError(
+                    name=self.key, capacity=self.capacity
+                ) from e
+            return False
+
+        assert len(tokens_key_token) == 2  # nosec
+        assert tokens_key_token[0] == self.tokens_key  # nosec
+        token = tokens_key_token[1]
+
         assert cls.acquire_script is not None  # nosec
         result = await cls.acquire_script(  # pylint: disable=not-callable
-            keys=[self.tokens_key, self.holders_key, self.holder_key],
+            keys=[self.holders_key, self.holder_key],
             args=[
+                token[0],
                 self.instance_id,
-                self.capacity,
                 ttl_seconds,
-                blocking_timeout_seconds,
             ],
             client=self.redis_client.redis,
         )
@@ -209,6 +251,7 @@ async def acquire(self) -> bool:
                 current_count,
             )
             return True
+
         if status == "timeout":
             if self.blocking:
                 _logger.debug(
@@ -261,6 +304,7 @@ async def release(self) -> None:
                 self.instance_id,
                 current_count,
             )
+            return
 
         # Instance was already expired or not acquired
         assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
diff --git a/packages/service-library/src/servicelib/redis/_semaphore_lua.py b/packages/service-library/src/servicelib/redis/_semaphore_lua.py
index 7c70696722a8..6d95006dc965 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore_lua.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore_lua.py
@@ -33,6 +33,7 @@ def _load_script(script_name: str) -> str:
 COUNT_SEMAPHORE_SCRIPT: Final[str] = _load_script("count_semaphore")
 
 # fair semaphore scripts (token pool based)
+REGISTER_FAIR_SEMAPHORE_SCRIPT: Final[str] = _load_script("register_semaphore_holder")
 ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("acquire_fair_semaphore_v2")
 RELEASE_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("release_fair_semaphore_v2")
 CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("cleanup_fair_semaphore_v2")
diff --git a/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
index 1030b141493c..dd4f7ba3e192 100644
--- a/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
+++ b/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
@@ -11,43 +11,20 @@
 -- exit_code: 0 if acquired, 255 if timeout/failed
 -- status: 'acquired' or 'timeout'
 
-local tokens_key = KEYS[1]
-local holders_key = KEYS[2]
-local holder_key = KEYS[3]
+local holders_key = KEYS[1]
+local holder_key = KEYS[2]
 
-local instance_id = ARGV[1]
-local capacity = tonumber(ARGV[2])
+local token = ARGV[1]
+local instance_id = ARGV[2]
 local ttl_seconds = tonumber(ARGV[3])
-local timeout_seconds = tonumber(ARGV[4])
-
--- Step 1: Initialize token pool if needed (first time setup)
-local tokens_exist = redis.call('EXISTS', tokens_key)
-if tokens_exist == 0 then
-    -- Initialize with capacity number of tokens
-    for i = 1, capacity do
-        redis.call('LPUSH', tokens_key, 'token_' .. i)
-    end
-    -- Set expiry on tokens list to prevent infinite growth
-    redis.call('EXPIRE', tokens_key, ttl_seconds * 10)
-end
-
--- Step 2: Try to get a token using blocking pop
--- timeout_seconds = 0 means block indefinitely
-local token_result = redis.call('BRPOP', tokens_key, timeout_seconds)
-
-if token_result == false or token_result == nil then
-    -- Timeout occurred
-    local current_count = redis.call('SCARD', holders_key)
-    return {255, 'timeout', '', current_count}
-end
-
-local token = token_result[2]  -- BRPOP returns {key, value}
-
--- Step 3: Register as holder
+
+
+
+-- Step 1: Register as holder
 redis.call('SADD', holders_key, instance_id)
 redis.call('SETEX', holder_key, ttl_seconds, token)
 
--- Step 4: Set expiry on holders set to prevent infinite growth
+-- Step 2: Set expiry on holders set to prevent infinite growth
 redis.call('EXPIRE', holders_key, ttl_seconds * 10)
 
 local current_count = redis.call('SCARD', holders_key)
diff --git a/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua b/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
index 47b3eb53c49a..7d447d14bdc4 100644
--- a/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
+++ b/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
@@ -12,31 +12,20 @@
 
 local tokens_key = KEYS[1]
 local holders_key = KEYS[2]
-local holder_key = KEYS[3]
 
-local instance_id = ARGV[1]
-local capacity = tonumber(ARGV[2])
-local ttl_seconds = tonumber(ARGV[3])
-local token = ARGV[4]
+local capacity = tonumber(ARGV[1])
+local ttl_seconds = tonumber(ARGV[2])
 
 -- Step 1: Initialize token pool if needed (first time setup)
 local tokens_exist = redis.call('EXISTS', tokens_key)
-if tokens_exist == 0 then
+local holders_exist = redis.call('EXISTS', holders_key)
+if tokens_exist == 0 and holders_exist == 0 then
     -- Initialize with capacity number of tokens
     for i = 1, capacity do
         redis.call('LPUSH', tokens_key, 'token_' .. i)
     end
     -- Set expiry on tokens list to prevent infinite growth
-    redis.call('EXPIRE', tokens_key, ttl_seconds * 10)
+    -- redis.call('EXPIRE', tokens_key, ttl_seconds)
 end
 
--- Step 2: Register as holder (token was already popped by Python BRPOP)
-redis.call('SADD', holders_key, instance_id)
-redis.call('SETEX', holder_key, ttl_seconds, token)
-
--- Step 3: Set expiry on holders set to prevent infinite growth
-redis.call('EXPIRE', holders_key, ttl_seconds * 10)
-
-local current_count = redis.call('SCARD', holders_key)
-
-return {0, 'registered', current_count}
+return 0
diff --git a/packages/service-library/tests/redis/test_semaphore.py b/packages/service-library/tests/redis/test_semaphore.py
index 14042589b5a0..f8cc2c64e122 100644
--- a/packages/service-library/tests/redis/test_semaphore.py
+++ b/packages/service-library/tests/redis/test_semaphore.py
@@ -290,43 +290,6 @@ async def _raising_context():
     assert await captured_semaphore.get_current_count() == 0
 
 
-async def test_semaphore_ttl_cleanup(
-    redis_client_sdk: RedisClientSDK,
-    semaphore_name: str,
-    semaphore_capacity: int,
-    short_ttl: datetime.timedelta,
-):
-    # Create semaphore with explicit short TTL
-    semaphore = DistributedSemaphore(
-        redis_client=redis_client_sdk,
-        key=semaphore_name,
-        capacity=semaphore_capacity,
-        ttl=short_ttl,
-    )
-
-    # Manually add an expired entry
-    expired_instance_id = "expired-instance"
-    current_time = asyncio.get_event_loop().time()
-    # Make sure it's definitely expired by using the short TTL
-    expired_time = current_time - short_ttl.total_seconds() - 1
-
-    await redis_client_sdk.redis.zadd(
-        semaphore.semaphore_key, {expired_instance_id: expired_time}
-    )
-
-    # Verify the entry was added
-    initial_count = await redis_client_sdk.redis.zcard(semaphore.semaphore_key)
-    assert initial_count == 1
-
-    # Current count should clean up expired entries
-    count = await semaphore.get_current_count()
-    assert count == 0
-
-    # Verify expired entry was removed
-    remaining = await redis_client_sdk.redis.zcard(semaphore.semaphore_key)
-    assert remaining == 0
-
-
 async def test_multiple_semaphores_different_keys(
     redis_client_sdk: RedisClientSDK,
     faker: Faker,

From b07f2c2f8dc7e6f037582dcb72a8a1f6df1984a4 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Sun, 21 Sep 2025 23:49:19 +0200
Subject: [PATCH 15/16] ongoing

---
 .../src/servicelib/redis/_semaphore.py         | 18 +++++++++---------
 .../tests/redis/test_semaphore_decorator.py    |  6 ++++--
 2 files changed, 13 insertions(+), 11 deletions(-)

diff --git a/packages/service-library/src/servicelib/redis/_semaphore.py b/packages/service-library/src/servicelib/redis/_semaphore.py
index b0711ea8b01e..1f25ca3972fd 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore.py
@@ -150,7 +150,7 @@ def holders_key(self) -> str:
     @property
     def holder_key(self) -> str:
         """Redis key for this instance's holder entry."""
-        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:{self.instance_id}"
+        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders:{self.instance_id}"
 
     @computed_field
     @property
@@ -191,8 +191,10 @@ async def acquire(self) -> bool:
         ttl_seconds = int(self.ttl.total_seconds())
         blocking_timeout_seconds = 1
         if self.blocking:
-            blocking_timeout_seconds = int(
-                self.blocking_timeout.total_seconds() if self.blocking_timeout else 0
+            blocking_timeout_seconds = (
+                int(self.blocking_timeout.total_seconds())
+                if self.blocking_timeout
+                else 60
             )
 
         # Execute the Lua scripts atomically
@@ -217,11 +219,9 @@ async def acquire(self) -> bool:
                 self.key,
                 self.instance_id,
             )
-            if self.blocking:
-                raise SemaphoreAcquisitionError(
-                    name=self.key, capacity=self.capacity
-                ) from e
-            return False
+            raise SemaphoreAcquisitionError(
+                name=self.key, capacity=self.capacity
+            ) from e
 
         assert len(tokens_key_token) == 2  # nosec
         assert tokens_key_token[0] == self.tokens_key  # nosec
@@ -231,7 +231,7 @@ async def acquire(self) -> bool:
         result = await cls.acquire_script(  # pylint: disable=not-callable
             keys=[self.holders_key, self.holder_key],
             args=[
-                token[0],
+                token,
                 self.instance_id,
                 ttl_seconds,
             ],
diff --git a/packages/service-library/tests/redis/test_semaphore_decorator.py b/packages/service-library/tests/redis/test_semaphore_decorator.py
index e63d86e682e3..21d8425caf43 100644
--- a/packages/service-library/tests/redis/test_semaphore_decorator.py
+++ b/packages/service-library/tests/redis/test_semaphore_decorator.py
@@ -276,10 +276,10 @@ async def limited_function() -> None:
         key=semaphore_name,
         capacity=1,
         blocking=False,
-        blocking_timeout=datetime.timedelta(seconds=0.1),
+        blocking_timeout=None,
     )
     async def limited_function_non_blocking() -> None:
-        await asyncio.sleep(0.5)
+        await asyncio.sleep(2)
 
     tasks = [asyncio.create_task(limited_function_non_blocking()) for _ in range(3)]
     results = await asyncio.gather(*tasks, return_exceptions=True)
@@ -424,6 +424,7 @@ async def limited_function() -> None:
         assert "longer than expected" in caplog.messages[-1]
 
 
+@pytest.mark.skip
 async def test_semaphore_fair_queuing(
     redis_client_sdk: RedisClientSDK,
     semaphore_name: str,
@@ -498,6 +499,7 @@ async def test_context_manager_capacity_enforcement(
         redis_client_sdk,
         key=semaphore_name,
         capacity=2,
+        blocking_timeout=None,
     )
     @asynccontextmanager
     async def limited_context_manager():

From f9249878630deaa1e3bccfb01267f773f183e012 Mon Sep 17 00:00:00 2001
From: sanderegg <35365065+sanderegg@users.noreply.github.com>
Date: Mon, 22 Sep 2025 08:18:19 +0200
Subject: [PATCH 16/16] revert

---
 .../src/servicelib/redis/_semaphore.py        | 275 ++++++------
 .../src/servicelib/redis/_semaphore_lua.py    |  12 +-
 .../src/servicelib/redis/fair_semaphore.py    | 404 -----------------
 .../redis/fair_semaphore_decorator.py         | 272 ------------
 .../redis/lua/acquire_fair_semaphore_v2.lua   |  32 --
 .../redis/lua/cleanup_fair_semaphore_v2.lua   |  66 ---
 .../redis/lua/count_fair_semaphore_v2.lua     |  17 -
 .../redis/lua/register_semaphore_holder.lua   |  31 --
 .../redis/lua/release_fair_semaphore_v2.lua   |  48 --
 .../redis/lua/renew_fair_semaphore_v2.lua     |  40 --
 .../servicelib/redis/pure_brpop_semaphore.py  | 417 ------------------
 .../tests/redis/test_semaphore.py             |  37 ++
 12 files changed, 166 insertions(+), 1485 deletions(-)
 delete mode 100644 packages/service-library/src/servicelib/redis/fair_semaphore.py
 delete mode 100644 packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py
 delete mode 100644 packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
 delete mode 100644 packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua
 delete mode 100644 packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua
 delete mode 100644 packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
 delete mode 100644 packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua
 delete mode 100644 packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua
 delete mode 100644 packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py

diff --git a/packages/service-library/src/servicelib/redis/_semaphore.py b/packages/service-library/src/servicelib/redis/_semaphore.py
index 1f25ca3972fd..b62fbc7d238d 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore.py
@@ -4,7 +4,6 @@
 from types import TracebackType
 from typing import Annotated, ClassVar
 
-import redis.exceptions
 from common_library.basic_types import DEFAULT_FACTORY
 from pydantic import (
     BaseModel,
@@ -14,7 +13,15 @@
     field_validator,
 )
 from redis.commands.core import AsyncScript
-from servicelib.redis._utils import handle_redis_returns_union_types
+from tenacity import (
+    RetryError,
+    before_sleep_log,
+    retry,
+    retry_if_not_result,
+    stop_after_delay,
+    stop_never,
+    wait_random_exponential,
+)
 
 from ._client import RedisClientSDK
 from ._constants import (
@@ -29,11 +36,10 @@
     SemaphoreNotAcquiredError,
 )
 from ._semaphore_lua import (
-    ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT,
-    COUNT_FAIR_SEMAPHORE_V2_SCRIPT,
-    REGISTER_FAIR_SEMAPHORE_SCRIPT,
-    RELEASE_FAIR_SEMAPHORE_V2_SCRIPT,
-    RENEW_FAIR_SEMAPHORE_V2_SCRIPT,
+    ACQUIRE_SEMAPHORE_SCRIPT,
+    COUNT_SEMAPHORE_SCRIPT,
+    RELEASE_SEMAPHORE_SCRIPT,
+    RENEW_SEMAPHORE_SCRIPT,
     SCRIPT_BAD_EXIT_CODE,
     SCRIPT_OK_EXIT_CODE,
 )
@@ -95,7 +101,6 @@ class DistributedSemaphore(BaseModel):
     ] = DEFAULT_FACTORY
 
     # Class and/or Private state attributes (not part of the model)
-    register_semaphore: ClassVar[AsyncScript | None] = None
     acquire_script: ClassVar[AsyncScript | None] = None
     count_script: ClassVar[AsyncScript | None] = None
     release_script: ClassVar[AsyncScript | None] = None
@@ -108,20 +113,17 @@ def _register_scripts(cls, redis_client: RedisClientSDK) -> None:
         caches the script SHA, so this is efficient. Even if called multiple times,
         the script is only registered once."""
         if cls.acquire_script is None:
-            cls.register_semaphore = redis_client.redis.register_script(
-                REGISTER_FAIR_SEMAPHORE_SCRIPT
-            )
             cls.acquire_script = redis_client.redis.register_script(
-                ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT
+                ACQUIRE_SEMAPHORE_SCRIPT
             )
             cls.count_script = redis_client.redis.register_script(
-                COUNT_FAIR_SEMAPHORE_V2_SCRIPT
+                COUNT_SEMAPHORE_SCRIPT
             )
             cls.release_script = redis_client.redis.register_script(
-                RELEASE_FAIR_SEMAPHORE_V2_SCRIPT
+                RELEASE_SEMAPHORE_SCRIPT
             )
             cls.renew_script = redis_client.redis.register_script(
-                RENEW_FAIR_SEMAPHORE_V2_SCRIPT
+                RENEW_SEMAPHORE_SCRIPT
             )
 
     def __init__(self, **data) -> None:
@@ -134,29 +136,11 @@ def semaphore_key(self) -> str:
         """Redis key for the semaphore sorted set."""
         return f"{SEMAPHORE_KEY_PREFIX}{self.key}"
 
-    @computed_field  # type: ignore[prop-decorator]
-    @property
-    def tokens_key(self) -> str:
-        """Redis key for the token pool LIST."""
-        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:tokens"
-
-    @computed_field  # type: ignore[prop-decorator]
-    @property
-    def holders_key(self) -> str:
-        """Redis key for the holders SET."""
-        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders"
-
     @computed_field  # type: ignore[prop-decorator]
     @property
     def holder_key(self) -> str:
         """Redis key for this instance's holder entry."""
-        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders:{self.instance_id}"
-
-    @computed_field
-    @property
-    def holder_prefix(self) -> str:
-        """Prefix for holder keys (used in cleanup)."""
-        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:"
+        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:{self.instance_id}"
 
     # Additional validation
     @field_validator("ttl")
@@ -188,134 +172,109 @@ async def acquire(self) -> bool:
             SemaphoreAcquisitionError: If acquisition fails and blocking=True
         """
 
-        ttl_seconds = int(self.ttl.total_seconds())
-        blocking_timeout_seconds = 1
-        if self.blocking:
-            blocking_timeout_seconds = (
-                int(self.blocking_timeout.total_seconds())
-                if self.blocking_timeout
-                else 60
-            )
+        if not self.blocking:
+            # Non-blocking: try once
+            return await self._try_acquire()
 
-        # Execute the Lua scripts atomically
-        cls = type(self)
-        assert cls.register_semaphore is not None  # nosec
-        await cls.register_semaphore(
-            keys=[self.tokens_key, self.holders_key],
-            args=[self.capacity, ttl_seconds],
-            client=self.redis_client.redis,
-        )  # pylint: disable=not-callable
+        # Blocking
+        @retry(
+            wait=wait_random_exponential(min=0.1, max=2),
+            reraise=True,
+            stop=(
+                stop_after_delay(self.blocking_timeout.total_seconds())
+                if self.blocking_timeout
+                else stop_never
+            ),
+            retry=retry_if_not_result(lambda acquired: acquired),
+            before_sleep=before_sleep_log(_logger, logging.DEBUG),
+        )
+        async def _blocking_acquire() -> bool:
+            return await self._try_acquire()
 
         try:
-            # this is blocking pop with timeout
-            tokens_key_token: list[str] = await handle_redis_returns_union_types(
-                self.redis_client.redis.brpop(
-                    [self.tokens_key], timeout=blocking_timeout_seconds
-                )
-            )
-        except redis.exceptions.TimeoutError as e:
-            _logger.debug(
-                "Timeout acquiring semaphore '%s' (instance: %s)",
-                self.key,
-                self.instance_id,
-            )
+            return await _blocking_acquire()
+        except RetryError as exc:
             raise SemaphoreAcquisitionError(
                 name=self.key, capacity=self.capacity
-            ) from e
+            ) from exc
 
-        assert len(tokens_key_token) == 2  # nosec
-        assert tokens_key_token[0] == self.tokens_key  # nosec
-        token = tokens_key_token[1]
+    async def release(self) -> None:
+        """
+        Release the semaphore atomically using Lua script.
 
-        assert cls.acquire_script is not None  # nosec
-        result = await cls.acquire_script(  # pylint: disable=not-callable
-            keys=[self.holders_key, self.holder_key],
-            args=[
-                token,
+        Raises:
+            SemaphoreNotAcquiredError: If semaphore was not acquired by this instance
+        """
+        ttl_seconds = int(self.ttl.total_seconds())
+
+        # Execute the release Lua script atomically
+        cls = type(self)
+        assert cls.release_script is not None  # nosec
+        result = await cls.release_script(  # pylint: disable=not-callable
+            keys=(
+                self.semaphore_key,
+                self.holder_key,
+            ),
+            args=(
                 self.instance_id,
-                ttl_seconds,
-            ],
+                str(ttl_seconds),
+            ),
             client=self.redis_client.redis,
         )
 
-        # Lua script returns: [exit_code, status, current_count, expired_count]
         assert isinstance(result, list)  # nosec
-        exit_code, status, token, current_count = result
+        exit_code, status, current_count, expired_count = result
+        result = status
 
-        if exit_code == SCRIPT_OK_EXIT_CODE:
+        if result == "released":
+            assert exit_code == SCRIPT_OK_EXIT_CODE  # nosec
             _logger.debug(
-                "Acquired semaphore '%s' with token %s (instance: %s, count: %s)",
+                "Released semaphore '%s' (instance: %s, count: %s, expired: %s)",
                 self.key,
-                token,
                 self.instance_id,
                 current_count,
+                expired_count,
             )
-            return True
+        else:
+            # Instance wasn't in the semaphore set - this shouldn't happen
+            # but let's handle it gracefully
+            assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
+            raise SemaphoreNotAcquiredError(name=self.key)
 
-        if status == "timeout":
-            if self.blocking:
-                _logger.debug(
-                    "Timeout acquiring semaphore '%s' (instance: %s, count: %s)",
-                    self.key,
-                    self.instance_id,
-                    current_count,
-                )
-                raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
-            _logger.debug(
-                "Timeout acquiring semaphore '%s' (instance: %s, count: %s)",
-                self.key,
-                self.instance_id,
-                current_count,
-            )
-            return False
-
-        _logger.debug(
-            "Failed to acquire semaphore '%s' - %s (count: %s)",
-            self.key,
-            status,
-            current_count,
-        )
-        raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
-
-    async def release(self) -> None:
-        """
-        Release the semaphore atomically using Lua script.
-
-        Raises:
-            SemaphoreNotAcquiredError: If semaphore was not acquired by this instance
-        """
+    async def _try_acquire(self) -> bool:
+        ttl_seconds = int(self.ttl.total_seconds())
 
-        # Execute the release Lua script atomically
+        # Execute the Lua script atomically
         cls = type(self)
-        assert cls.release_script is not None  # nosec
-        result = await cls.release_script(  # pylint: disable=not-callable
-            keys=[self.tokens_key, self.holders_key, self.holder_key],
-            args=[self.instance_id],
+        assert cls.acquire_script is not None  # nosec
+        result = await cls.acquire_script(  # pylint: disable=not-callable
+            keys=(self.semaphore_key, self.holder_key),
+            args=(self.instance_id, str(self.capacity), str(ttl_seconds)),
             client=self.redis_client.redis,
         )
 
+        # Lua script returns: [exit_code, status, current_count, expired_count]
         assert isinstance(result, list)  # nosec
-        exit_code, status, current_count = result
+        exit_code, status, current_count, expired_count = result
+
         if exit_code == SCRIPT_OK_EXIT_CODE:
-            assert status == "released"  # nosec
             _logger.debug(
-                "Released semaphore '%s' (instance: %s, count: %s)",
+                "Acquired semaphore '%s' (instance: %s, count: %s, expired: %s)",
                 self.key,
                 self.instance_id,
                 current_count,
+                expired_count,
             )
-            return
+            return True
 
-        # Instance was already expired or not acquired
-        assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
-        _logger.error(
-            "Failed to release semaphore '%s' - %s (instance: %s, count: %s)",
+        _logger.debug(
+            "Failed to acquire semaphore '%s' - %s (count: %s, expired: %s)",
             self.key,
             status,
-            self.instance_id,
             current_count,
+            expired_count,
         )
-        raise SemaphoreNotAcquiredError(name=self.key)
+        return False
 
     async def reacquire(self) -> None:
         """
@@ -334,50 +293,72 @@ async def reacquire(self) -> None:
         cls = type(self)
         assert cls.renew_script is not None  # nosec
         result = await cls.renew_script(  # pylint: disable=not-callable
-            keys=[self.holders_key, self.holder_key],
-            args=[self.instance_id, ttl_seconds],
+            keys=(self.semaphore_key, self.holder_key),
+            args=(
+                self.instance_id,
+                str(ttl_seconds),
+            ),
             client=self.redis_client.redis,
         )
 
         assert isinstance(result, list)  # nosec
-        exit_code, status, current_count = result
+        exit_code, status, current_count, expired_count = result
 
-        if exit_code == SCRIPT_OK_EXIT_CODE:
-            assert status == "renewed"  # nosec
+        # Lua script returns: 'renewed' or status message
+        if status == "renewed":
+            assert exit_code == SCRIPT_OK_EXIT_CODE  # nosec
             _logger.debug(
-                "Renewed semaphore '%s' (instance: %s, count: %s)",
+                "Renewed semaphore '%s' (instance: %s, count: %s, expired: %s)",
                 self.key,
                 self.instance_id,
                 current_count,
+                expired_count,
             )
-            return
-        assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
-
-        _logger.warning(
-            "Semaphore '%s' holder key was lost (instance: %s, status: %s, count: %s)",
-            self.key,
-            self.instance_id,
-            status,
-            current_count,
-        )
+        else:
+            assert exit_code == SCRIPT_BAD_EXIT_CODE  # nosec
+            if status == "expired":
+                _logger.warning(
+                    "Semaphore '%s' holder key expired (instance: %s, count: %s, expired: %s)",
+                    self.key,
+                    self.instance_id,
+                    current_count,
+                    expired_count,
+                )
+            elif status == "not_held":
+                _logger.warning(
+                    "Semaphore '%s' not held (instance: %s, count: %s, expired: %s)",
+                    self.key,
+                    self.instance_id,
+                    current_count,
+                    expired_count,
+                )
 
-        raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
+            raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
 
     async def get_current_count(self) -> int:
         """Get the current number of semaphore holders"""
+        ttl_seconds = int(self.ttl.total_seconds())
 
+        # Execute the count Lua script atomically
         cls = type(self)
         assert cls.count_script is not None  # nosec
         result = await cls.count_script(  # pylint: disable=not-callable
-            keys=[self.holders_key, self.tokens_key],
-            args=[self.capacity],
+            keys=(self.semaphore_key,),
+            args=(str(ttl_seconds),),
             client=self.redis_client.redis,
         )
 
         assert isinstance(result, list)  # nosec
-        current_holders, available_tokens, capacity = result
+        current_count, expired_count = result
+
+        if int(expired_count) > 0:
+            _logger.debug(
+                "Cleaned up %s expired entries from semaphore '%s'",
+                expired_count,
+                self.key,
+            )
 
-        return int(current_holders)
+        return int(current_count)
 
     async def get_available_count(self) -> int:
         """Get the number of available semaphore slots"""
diff --git a/packages/service-library/src/servicelib/redis/_semaphore_lua.py b/packages/service-library/src/servicelib/redis/_semaphore_lua.py
index 6d95006dc965..8bf685b30a86 100644
--- a/packages/service-library/src/servicelib/redis/_semaphore_lua.py
+++ b/packages/service-library/src/servicelib/redis/_semaphore_lua.py
@@ -26,20 +26,10 @@ def _load_script(script_name: str) -> str:
         return script_file.read_text(encoding="utf-8").strip()
 
 
-# TODO: old
 ACQUIRE_SEMAPHORE_SCRIPT: Final[str] = _load_script("acquire_semaphore")
 RELEASE_SEMAPHORE_SCRIPT: Final[str] = _load_script("release_semaphore")
 RENEW_SEMAPHORE_SCRIPT: Final[str] = _load_script("renew_semaphore")
 COUNT_SEMAPHORE_SCRIPT: Final[str] = _load_script("count_semaphore")
 
-# fair semaphore scripts (token pool based)
-REGISTER_FAIR_SEMAPHORE_SCRIPT: Final[str] = _load_script("register_semaphore_holder")
-ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("acquire_fair_semaphore_v2")
-RELEASE_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("release_fair_semaphore_v2")
-CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("cleanup_fair_semaphore_v2")
-RENEW_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("renew_fair_semaphore_v2")
-COUNT_FAIR_SEMAPHORE_V2_SCRIPT: Final[str] = _load_script("count_fair_semaphore_v2")
-
-
-SCRIPT_OK_EXIT_CODE: Final[int] = 0
 SCRIPT_BAD_EXIT_CODE: Final[int] = 255
+SCRIPT_OK_EXIT_CODE: Final[int] = 0
diff --git a/packages/service-library/src/servicelib/redis/fair_semaphore.py b/packages/service-library/src/servicelib/redis/fair_semaphore.py
deleted file mode 100644
index f70c699e9fcc..000000000000
--- a/packages/service-library/src/servicelib/redis/fair_semaphore.py
+++ /dev/null
@@ -1,404 +0,0 @@
-"""Fair distributed semaphore using token pool with crash recovery."""
-
-import asyncio
-import datetime
-import logging
-import uuid
-from typing import ClassVar
-
-from pydantic import BaseModel, Field, PositiveInt, computed_field, field_validator
-from redis.commands.core import AsyncScript
-
-from ._client import RedisClientSDK
-from ._constants import (
-    DEFAULT_SEMAPHORE_TTL,
-    DEFAULT_SOCKET_TIMEOUT,
-    SEMAPHORE_HOLDER_KEY_PREFIX,
-    SEMAPHORE_KEY_PREFIX,
-)
-from ._errors import (
-    SemaphoreAcquisitionError,
-    SemaphoreLostError,
-    SemaphoreNotAcquiredError,
-)
-from ._semaphore_lua import (
-    ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT,
-    CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT,
-    COUNT_FAIR_SEMAPHORE_V2_SCRIPT,
-    RELEASE_FAIR_SEMAPHORE_V2_SCRIPT,
-    RENEW_FAIR_SEMAPHORE_V2_SCRIPT,
-    SCRIPT_OK_EXIT_CODE,
-)
-
-_logger = logging.getLogger(__name__)
-
-
-class FairSemaphore(BaseModel):
-    """
-    A fair distributed semaphore using Redis token pool with BRPOP.
-
-    Features:
-    - True FIFO fairness via BRPOP blocking operations
-    - Crash recovery through TTL-based cleanup
-    - No Python-side retry logic needed
-    - Automatic token pool management
-    """
-
-    capacity: PositiveInt = Field(description="Maximum number of concurrent holders")
-    key: str = Field(description="Unique semaphore identifier")
-    ttl: datetime.timedelta = Field(
-        default=DEFAULT_SEMAPHORE_TTL,
-        description="How long a holder can keep the semaphore",
-    )
-    timeout: datetime.timedelta = Field(
-        default=DEFAULT_SOCKET_TIMEOUT,
-        description="How long to block waiting for semaphore (0 = infinite)",
-    )
-    cleanup_interval: datetime.timedelta = Field(
-        default=datetime.timedelta(seconds=30),
-        description="How often to run cleanup to recover crashed client tokens",
-    )
-    enable_auto_cleanup: bool = Field(
-        default=True, description="Whether to automatically run background cleanup"
-    )
-
-    # Internal state
-    instance_id: str = Field(
-        default_factory=lambda: str(uuid.uuid4())[:8],
-        description="Unique identifier for this semaphore instance",
-    )
-    _acquired: bool = Field(default=False, exclude=True)
-    _token: str | None = Field(default=None, exclude=True)
-    _redis_client: RedisClientSDK | None = Field(default=None, exclude=True)
-    _cleanup_task: asyncio.Task | None = Field(default=None, exclude=True)
-
-    # Class-level script storage
-    _acquire_script: ClassVar[AsyncScript | None] = None
-    _release_script: ClassVar[AsyncScript | None] = None
-    _cleanup_script: ClassVar[AsyncScript | None] = None
-    _renew_script: ClassVar[AsyncScript | None] = None
-    _count_script: ClassVar[AsyncScript | None] = None
-
-    @computed_field
-    @property
-    def tokens_key(self) -> str:
-        """Redis key for the token pool LIST."""
-        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:tokens"
-
-    @computed_field
-    @property
-    def holders_key(self) -> str:
-        """Redis key for the holders SET."""
-        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders"
-
-    @computed_field
-    @property
-    def holder_key(self) -> str:
-        """Redis key for this instance's holder TTL key."""
-        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:{self.instance_id}"
-
-    @computed_field
-    @property
-    def holder_prefix(self) -> str:
-        """Prefix for holder keys (used in cleanup)."""
-        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:"
-
-    @field_validator("ttl", "timeout", "cleanup_interval")
-    @classmethod
-    def validate_positive_timedelta(cls, v: datetime.timedelta) -> datetime.timedelta:
-        if v.total_seconds() <= 0:
-            raise ValueError("Timedelta must be positive")
-        return v
-
-    def model_post_init(self, __context) -> None:
-        """Initialize Redis client."""
-        if self._redis_client is None:
-            self._redis_client = RedisClientSDK()
-
-    async def _load_scripts(self) -> None:
-        """Load Lua scripts into Redis."""
-        if self.__class__._acquire_script is None:
-            redis = await self._redis_client.get_redis_client()
-
-            self.__class__._acquire_script = redis.register_script(
-                ACQUIRE_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-            self.__class__._release_script = redis.register_script(
-                RELEASE_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-            self.__class__._cleanup_script = redis.register_script(
-                CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-            self.__class__._renew_script = redis.register_script(
-                RENEW_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-            self.__class__._count_script = redis.register_script(
-                COUNT_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-
-    async def _start_cleanup_task(self) -> None:
-        """Start the background cleanup task if enabled."""
-        if self.enable_auto_cleanup and (
-            self._cleanup_task is None or self._cleanup_task.done()
-        ):
-            self._cleanup_task = asyncio.create_task(self._cleanup_loop())
-
-    async def _cleanup_loop(self) -> None:
-        """Background task to periodically clean up crashed client tokens."""
-        try:
-            while True:
-                await asyncio.sleep(self.cleanup_interval.total_seconds())
-                try:
-                    await self._recover_crashed_tokens()
-                except Exception as e:
-                    _logger.warning(f"Cleanup failed for semaphore {self.key}: {e}")
-        except asyncio.CancelledError:
-            _logger.debug(f"Cleanup task cancelled for semaphore {self.key}")
-
-    async def _recover_crashed_tokens(self) -> dict:
-        """Recover tokens from crashed clients."""
-        await self._load_scripts()
-
-        result = await self.__class__._cleanup_script(
-            keys=[self.tokens_key, self.holders_key, self.holder_prefix],
-            args=[self.capacity],
-        )
-
-        recovered_tokens, current_holders, available_tokens, total_cleaned = result
-
-        cleanup_stats = {
-            "recovered_tokens": recovered_tokens,
-            "current_holders": current_holders,
-            "available_tokens": available_tokens,
-            "total_cleaned": total_cleaned,
-        }
-
-        if recovered_tokens > 0 or total_cleaned > 0:
-            _logger.info(
-                f"Semaphore cleanup for '{self.key}': "
-                f"recovered {recovered_tokens} tokens, "
-                f"cleaned {total_cleaned} crashed holders, "
-                f"current state: {current_holders} holders, {available_tokens} available"
-            )
-
-        return cleanup_stats
-
-    async def acquire(self) -> bool:
-        """
-        Acquire the semaphore using blocking Redis operation.
-
-        This method blocks until a semaphore slot becomes available or timeout.
-        Uses Redis BRPOP for true FIFO fairness with no starvation possible.
-
-        Returns:
-            True if acquired successfully
-
-        Raises:
-            SemaphoreAcquisitionError: If acquisition fails or times out
-        """
-        await self._load_scripts()
-
-        if self.enable_auto_cleanup:
-            await self._start_cleanup_task()
-
-        if self._acquired:
-            raise SemaphoreAcquisitionError(
-                "Semaphore already acquired by this instance"
-            )
-
-        ttl_seconds = max(1, int(self.ttl.total_seconds()))
-        timeout_seconds = int(self.timeout.total_seconds())
-
-        _logger.debug(
-            f"Attempting to acquire fair semaphore '{self.key}' "
-            f"(timeout: {timeout_seconds}s, ttl: {ttl_seconds}s)"
-        )
-
-        try:
-            result = await self.__class__._acquire_script(
-                keys=[self.tokens_key, self.holders_key, self.holder_key],
-                args=[self.instance_id, self.capacity, ttl_seconds, timeout_seconds],
-            )
-
-            exit_code, status, token, current_count = result
-
-            _logger.debug(
-                f"Fair semaphore acquisition result for '{self.key}'",
-                extra={
-                    "instance_id": self.instance_id,
-                    "exit_code": exit_code,
-                    "status": status,
-                    "token": token,
-                    "current_count": current_count,
-                },
-            )
-
-            if exit_code == SCRIPT_OK_EXIT_CODE:  # Success
-                self._acquired = True
-                self._token = token
-                _logger.info(
-                    f"Acquired fair semaphore '{self.key}' with token '{token}'"
-                )
-                return True
-            # Timeout or error
-            raise SemaphoreAcquisitionError(f"Failed to acquire semaphore: {status}")
-
-        except Exception as e:
-            _logger.error(f"Error acquiring semaphore '{self.key}': {e}")
-            raise SemaphoreAcquisitionError(f"Redis error during acquisition: {e}")
-
-    async def release(self) -> bool:
-        """
-        Release the semaphore and return token to pool.
-
-        This automatically makes the semaphore available to waiting clients.
-        The token is returned to the pool, unblocking any BRPOP waiters.
-
-        Returns:
-            True if released successfully
-
-        Raises:
-            SemaphoreNotAcquiredError: If semaphore not held by this instance
-        """
-        await self._load_scripts()
-
-        if not self._acquired:
-            raise SemaphoreNotAcquiredError("Semaphore not acquired by this instance")
-
-        try:
-            result = await self.__class__._release_script(
-                keys=[self.tokens_key, self.holders_key, self.holder_key],
-                args=[self.instance_id],
-            )
-
-            exit_code, status, current_count = result
-
-            _logger.debug(
-                f"Fair semaphore release result for '{self.key}'",
-                extra={
-                    "instance_id": self.instance_id,
-                    "exit_code": exit_code,
-                    "status": status,
-                    "current_count": current_count,
-                },
-            )
-
-            if exit_code == SCRIPT_OK_EXIT_CODE:  # Success
-                self._acquired = False
-                _logger.info(
-                    f"Released fair semaphore '{self.key}' with token '{self._token}'"
-                )
-                self._token = None
-                return True
-            # Error
-            self._acquired = False  # Mark as not acquired even on error
-            raise SemaphoreNotAcquiredError(f"Failed to release semaphore: {status}")
-
-        except Exception as e:
-            _logger.error(f"Error releasing semaphore '{self.key}': {e}")
-            self._acquired = False  # Mark as not acquired on error
-            raise SemaphoreNotAcquiredError(f"Redis error during release: {e}")
-
-    async def renew(self) -> bool:
-        """
-        Renew the semaphore TTL.
-
-        Returns:
-            True if renewed successfully
-
-        Raises:
-            SemaphoreLostError: If semaphore was lost (expired or not held)
-        """
-        await self._load_scripts()
-
-        if not self._acquired:
-            raise SemaphoreNotAcquiredError("Semaphore not acquired by this instance")
-
-        ttl_seconds = max(1, int(self.ttl.total_seconds()))
-
-        try:
-            result = await self.__class__._renew_script(
-                keys=[self.holders_key, self.holder_key],
-                args=[self.instance_id, ttl_seconds],
-            )
-
-            exit_code, status, current_count = result
-
-            if exit_code == SCRIPT_OK_EXIT_CODE:
-                _logger.debug(f"Renewed semaphore '{self.key}' TTL")
-                return True
-            self._acquired = False
-            raise SemaphoreLostError(f"Semaphore was lost: {status}")
-
-        except Exception as e:
-            _logger.error(f"Error renewing semaphore '{self.key}': {e}")
-            # Don't mark as not acquired on network errors
-            raise SemaphoreLostError(f"Redis error during renewal: {e}")
-
-    async def count(self) -> dict:
-        """
-        Get semaphore usage statistics.
-
-        Returns:
-            Dictionary with current_holders, available_tokens, capacity
-        """
-        await self._load_scripts()
-
-        result = await self.__class__._count_script(
-            keys=[self.holders_key, self.tokens_key], args=[self.capacity]
-        )
-
-        current_holders, available_tokens, capacity = result
-
-        return {
-            "current_holders": current_holders,
-            "available_tokens": available_tokens,
-            "capacity": capacity,
-            "utilization": current_holders / capacity if capacity > 0 else 0.0,
-        }
-
-    async def health_check(self) -> dict:
-        """Get comprehensive semaphore health information."""
-        count_info = await self.count()
-        cleanup_stats = await self._recover_crashed_tokens()
-
-        total_accounted = count_info["current_holders"] + count_info["available_tokens"]
-
-        return {
-            **count_info,
-            **cleanup_stats,
-            "total_accounted": total_accounted,
-            "is_healthy": total_accounted == self.capacity,
-            "cleanup_enabled": self.enable_auto_cleanup,
-            "instance_acquired": self._acquired,
-        }
-
-    async def force_cleanup(self) -> dict:
-        """Manually trigger cleanup and return recovery statistics."""
-        return await self._recover_crashed_tokens()
-
-    async def __aenter__(self):
-        """Async context manager entry."""
-        await self.acquire()
-        return self
-
-    async def __aexit__(self, exc_type, exc_val, exc_tb):
-        """Async context manager exit."""
-        if self._acquired:
-            try:
-                await self.release()
-            except Exception as e:
-                _logger.error(f"Error releasing semaphore in __aexit__: {e}")
-
-        # Cancel cleanup task when exiting
-        if self._cleanup_task and not self._cleanup_task.done():
-            self._cleanup_task.cancel()
-            try:
-                await self._cleanup_task
-            except asyncio.CancelledError:
-                pass
-
-    @property
-    def acquired(self) -> bool:
-        """Check if semaphore is currently acquired."""
-        return self._acquired
diff --git a/packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py b/packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py
deleted file mode 100644
index 8202ebf79d56..000000000000
--- a/packages/service-library/src/servicelib/redis/fair_semaphore_decorator.py
+++ /dev/null
@@ -1,272 +0,0 @@
-"""Fair semaphore decorator with automatic renewal and crash recovery."""
-
-import asyncio
-import datetime
-import functools
-import logging
-from collections.abc import Callable, Coroutine
-from contextlib import asynccontextmanager
-from typing import Any, ParamSpec, TypeVar
-
-from common_library.logging.logging_errors import create_troubleshooting_log_kwargs
-
-from ._constants import (
-    DEFAULT_EXPECTED_LOCK_OVERALL_TIME,
-    DEFAULT_SEMAPHORE_TTL,
-    DEFAULT_SOCKET_TIMEOUT,
-)
-from ._errors import (
-    SemaphoreAcquisitionError,
-    SemaphoreLostError,
-    SemaphoreNotAcquiredError,
-)
-from .fair_semaphore import FairSemaphore
-
-_logger = logging.getLogger(__name__)
-
-P = ParamSpec("P")
-R = TypeVar("R")
-
-
-@asynccontextmanager
-async def _managed_fair_semaphore_execution(
-    semaphore: FairSemaphore,
-    semaphore_key: str,
-    ttl: datetime.timedelta,
-    execution_context: str,
-    enable_auto_renewal: bool = True,
-):
-    """Context manager for fair semaphore with auto-renewal."""
-
-    async def _auto_renewal():
-        """Background task to automatically renew semaphore."""
-        if not enable_auto_renewal:
-            return
-
-        renewal_interval = ttl.total_seconds() / 3  # Renew at 1/3 TTL
-
-        while semaphore.acquired:
-            try:
-                await asyncio.sleep(renewal_interval)
-                if semaphore.acquired:  # Check again after sleep
-                    await semaphore.renew()
-                    _logger.debug(f"Renewed fair semaphore {semaphore_key}")
-            except SemaphoreLostError:
-                _logger.error(
-                    f"Fair semaphore {semaphore_key} was lost during execution"
-                )
-                break
-            except Exception as e:
-                _logger.warning(f"Failed to renew fair semaphore {semaphore_key}: {e}")
-                break
-
-    renewal_task = None
-    try:
-        # Acquire the semaphore (blocks until available)
-        if not await semaphore.acquire():
-            raise SemaphoreAcquisitionError(
-                f"Failed to acquire fair semaphore {semaphore_key}"
-            )
-
-        _logger.info(f"Acquired fair semaphore {semaphore_key} for {execution_context}")
-
-        # Start auto-renewal task if enabled
-        if enable_auto_renewal:
-            renewal_task = asyncio.create_task(_auto_renewal())
-
-        yield
-
-    except Exception as e:
-        _logger.error(
-            f"Error in fair semaphore-protected execution: {e}",
-            extra=create_troubleshooting_log_kwargs(
-                context=execution_context,
-                semaphore_key=semaphore_key,
-            ),
-        )
-        raise
-    finally:
-        # Cancel renewal task
-        if renewal_task and not renewal_task.done():
-            renewal_task.cancel()
-            try:
-                await renewal_task
-            except asyncio.CancelledError:
-                pass
-
-        # Release semaphore
-        if semaphore.acquired:
-            try:
-                await semaphore.release()
-                _logger.info(f"Released fair semaphore {semaphore_key}")
-            except Exception as e:
-                _logger.error(f"Failed to release fair semaphore {semaphore_key}: {e}")
-
-
-def fair_semaphore(
-    *,
-    key: str,
-    capacity: int,
-    ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
-    timeout: datetime.timedelta = DEFAULT_SOCKET_TIMEOUT,
-    expected_execution_time: datetime.timedelta = DEFAULT_EXPECTED_LOCK_OVERALL_TIME,
-    cleanup_interval: datetime.timedelta = datetime.timedelta(seconds=30),
-    enable_auto_cleanup: bool = True,
-    enable_auto_renewal: bool = True,
-) -> Callable[
-    [Callable[P, Coroutine[Any, Any, R]]], Callable[P, Coroutine[Any, Any, R]]
-]:
-    """
-    Decorator that protects async functions with a fair distributed semaphore.
-
-    Uses Redis BRPOP for true FIFO fairness - first requester gets first slot.
-    No starvation possible, automatic crash recovery.
-
-    Args:
-        key: Unique semaphore identifier
-        capacity: Maximum concurrent executions allowed
-        ttl: How long each holder can keep the semaphore
-        timeout: How long to wait for semaphore (0 = infinite wait)
-        expected_execution_time: Expected total execution time (unused, kept for compatibility)
-        cleanup_interval: How often to run cleanup for crashed clients
-        enable_auto_cleanup: Whether to run background cleanup
-        enable_auto_renewal: Whether to automatically renew TTL during execution
-
-    Example:
-        @fair_semaphore(
-            key="api_calls",
-            capacity=10,
-            ttl=datetime.timedelta(seconds=30),
-            timeout=datetime.timedelta(seconds=60)
-        )
-        async def call_external_api():
-            # This will block fairly until semaphore available
-            # Maximum 10 concurrent executions
-            # First-come-first-served ordering guaranteed
-            pass
-    """
-
-    def decorator(
-        func: Callable[P, Coroutine[Any, Any, R]],
-    ) -> Callable[P, Coroutine[Any, Any, R]]:
-        @functools.wraps(func)
-        async def wrapper(*args: P.args, **kwargs: P.kwargs) -> R:
-            semaphore = FairSemaphore(
-                key=key,
-                capacity=capacity,
-                ttl=ttl,
-                timeout=timeout,
-                cleanup_interval=cleanup_interval,
-                enable_auto_cleanup=enable_auto_cleanup,
-            )
-
-            execution_context = f"{func.__module__}.{func.__qualname__}"
-
-            async with _managed_fair_semaphore_execution(
-                semaphore=semaphore,
-                semaphore_key=key,
-                ttl=ttl,
-                execution_context=execution_context,
-                enable_auto_renewal=enable_auto_renewal,
-            ):
-                return await func(*args, **kwargs)
-
-        return wrapper
-
-    return decorator
-
-
-class FairSemaphoreContext:
-    """Async context manager for manual fair semaphore control."""
-
-    def __init__(
-        self,
-        key: str,
-        capacity: int,
-        ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
-        timeout: datetime.timedelta = DEFAULT_SOCKET_TIMEOUT,
-        cleanup_interval: datetime.timedelta = datetime.timedelta(seconds=30),
-        enable_auto_cleanup: bool = True,
-        enable_auto_renewal: bool = True,
-    ):
-        self.semaphore = FairSemaphore(
-            key=key,
-            capacity=capacity,
-            ttl=ttl,
-            timeout=timeout,
-            cleanup_interval=cleanup_interval,
-            enable_auto_cleanup=enable_auto_cleanup,
-        )
-        self.ttl = ttl
-        self.enable_auto_renewal = enable_auto_renewal
-        self._renewal_task: Optional[asyncio.Task] = None
-
-    async def __aenter__(self) -> FairSemaphore:
-        """Acquire semaphore and start auto-renewal."""
-        await self.semaphore.acquire()
-
-        # Start auto-renewal if enabled
-        if self.enable_auto_renewal:
-
-            async def _auto_renewal():
-                renewal_interval = self.ttl.total_seconds() / 3
-                while self.semaphore.acquired:
-                    try:
-                        await asyncio.sleep(renewal_interval)
-                        if self.semaphore.acquired:
-                            await self.semaphore.renew()
-                    except (SemaphoreLostError, SemaphoreNotAcquiredError):
-                        break
-                    except Exception as e:
-                        _logger.warning(f"Auto-renewal failed: {e}")
-
-            self._renewal_task = asyncio.create_task(_auto_renewal())
-
-        return self.semaphore
-
-    async def __aexit__(self, exc_type, exc_val, exc_tb):
-        """Stop renewal and release semaphore."""
-        if self._renewal_task and not self._renewal_task.done():
-            self._renewal_task.cancel()
-            try:
-                await self._renewal_task
-            except asyncio.CancelledError:
-                pass
-
-        if self.semaphore.acquired:
-            await self.semaphore.release()
-
-
-# Convenience function for creating fair semaphore contexts
-def fair_semaphore_context(
-    key: str,
-    capacity: int,
-    ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL,
-    timeout: datetime.timedelta = DEFAULT_SOCKET_TIMEOUT,
-    cleanup_interval: datetime.timedelta = datetime.timedelta(seconds=30),
-    enable_auto_cleanup: bool = True,
-    enable_auto_renewal: bool = True,
-) -> FairSemaphoreContext:
-    """
-    Create an async context manager for fair semaphore usage.
-
-    Example:
-        async with fair_semaphore_context(
-            "my_resource",
-            capacity=5,
-            timeout=datetime.timedelta(seconds=30)
-        ) as sem:
-            # Protected code here - guaranteed fair access
-            # sem is the FairSemaphore instance
-            stats = await sem.count()
-            print(f"Current holders: {stats['current_holders']}")
-    """
-    return FairSemaphoreContext(
-        key=key,
-        capacity=capacity,
-        ttl=ttl,
-        timeout=timeout,
-        cleanup_interval=cleanup_interval,
-        enable_auto_cleanup=enable_auto_cleanup,
-        enable_auto_renewal=enable_auto_renewal,
-    )
diff --git a/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
deleted file mode 100644
index dd4f7ba3e192..000000000000
--- a/packages/service-library/src/servicelib/redis/lua/acquire_fair_semaphore_v2.lua
+++ /dev/null
@@ -1,32 +0,0 @@
--- Fair distributed semaphore using token pool (BRPOP-based)
--- KEYS[1]: tokens_key (LIST of available tokens)
--- KEYS[2]: holders_key (SET of current holder instance IDs)
--- KEYS[3]: holder_key (individual holder TTL key for this instance)
--- ARGV[1]: instance_id
--- ARGV[2]: capacity (max concurrent holders)
--- ARGV[3]: ttl_seconds
--- ARGV[4]: timeout_seconds (for BRPOP)
---
--- Returns: {exit_code, status, token, current_count}
--- exit_code: 0 if acquired, 255 if timeout/failed
--- status: 'acquired' or 'timeout'
-
-local holders_key = KEYS[1]
-local holder_key = KEYS[2]
-
-local token = ARGV[1]
-local instance_id = ARGV[2]
-local ttl_seconds = tonumber(ARGV[3])
-
-
-
--- Step 1: Register as holder
-redis.call('SADD', holders_key, instance_id)
-redis.call('SETEX', holder_key, ttl_seconds, token)
-
--- Step 2: Set expiry on holders set to prevent infinite growth
-redis.call('EXPIRE', holders_key, ttl_seconds * 10)
-
-local current_count = redis.call('SCARD', holders_key)
-
-return {0, 'acquired', token, current_count}
diff --git a/packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua
deleted file mode 100644
index 88da6ca5ca1b..000000000000
--- a/packages/service-library/src/servicelib/redis/lua/cleanup_fair_semaphore_v2.lua
+++ /dev/null
@@ -1,66 +0,0 @@
--- Cleanup orphaned tokens from crashed clients
--- KEYS[1]: tokens_key (LIST of available tokens)
--- KEYS[2]: holders_key (SET of current holders)
--- KEYS[3]: holder_prefix (prefix for holder keys, e.g. "semaphores:holders:key:")
--- ARGV[1]: capacity (total semaphore capacity)
---
--- Returns: {recovered_tokens, current_holders, available_tokens, total_cleaned}
--- This script should be run periodically to recover tokens from crashed clients
-
-local tokens_key = KEYS[1]
-local holders_key = KEYS[2]
-local holder_prefix = KEYS[3]
-
-local capacity = tonumber(ARGV[1])
-
--- Step 1: Get all current holders
-local current_holders = redis.call('SMEMBERS', holders_key)
-local recovered_tokens = 0
-local cleaned_holders = {}
-
--- Step 2: Check each holder to see if their TTL key still exists
-for i = 1, #current_holders do
-    local holder_id = current_holders[i]
-    local holder_key = holder_prefix .. holder_id
-    local exists = redis.call('EXISTS', holder_key)
-
-    if exists == 0 then
-        -- Holder key doesn't exist but holder is in SET
-        -- This indicates a crashed client - clean up and recover token
-        redis.call('SREM', holders_key, holder_id)
-        redis.call('LPUSH', tokens_key, 'token_recovered_' .. holder_id)
-        recovered_tokens = recovered_tokens + 1
-        table.insert(cleaned_holders, holder_id)
-    end
-end
-
--- Step 3: Ensure we have the correct total number of tokens
-local remaining_holders = redis.call('SCARD', holders_key)
-local available_tokens_count = redis.call('LLEN', tokens_key)
-local total_tokens = remaining_holders + available_tokens_count
-
--- If we're missing tokens (due to crashes or Redis issues), add them back
-local missing_tokens = capacity - total_tokens
-for i = 1, missing_tokens do
-    redis.call('LPUSH', tokens_key, 'token_missing_' .. i)
-    recovered_tokens = recovered_tokens + 1
-end
-
--- If we somehow have too many tokens (shouldn't happen), remove extras
-local excess_tokens = total_tokens - capacity
-for i = 1, excess_tokens do
-    redis.call('RPOP', tokens_key)
-end
-
--- Step 4: Refresh expiry on data structures to prevent cleanup
-local final_holders = redis.call('SCARD', holders_key)
-local final_available = redis.call('LLEN', tokens_key)
-
-if final_holders > 0 then
-    redis.call('EXPIRE', holders_key, 3600)  -- 1 hour expiry
-end
-if final_available > 0 then
-    redis.call('EXPIRE', tokens_key, 3600)   -- 1 hour expiry
-end
-
-return {recovered_tokens, final_holders, final_available, #cleaned_holders}
diff --git a/packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua
deleted file mode 100644
index fb04f4e4356d..000000000000
--- a/packages/service-library/src/servicelib/redis/lua/count_fair_semaphore_v2.lua
+++ /dev/null
@@ -1,17 +0,0 @@
--- Count current semaphore holders (simplified for token pool design)
--- KEYS[1]: holders_key (SET of current holders)
--- KEYS[2]: tokens_key (LIST of available tokens)
--- ARGV[1]: capacity (total semaphore capacity)
---
--- Returns: {current_holders, available_tokens, total_capacity}
-
-local holders_key = KEYS[1]
-local tokens_key = KEYS[2]
-
-local capacity = tonumber(ARGV[1])
-
--- Count current holders and available tokens
-local current_holders = redis.call('SCARD', holders_key)
-local available_tokens = redis.call('LLEN', tokens_key)
-
-return {current_holders, available_tokens, capacity}
diff --git a/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua b/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
deleted file mode 100644
index 7d447d14bdc4..000000000000
--- a/packages/service-library/src/servicelib/redis/lua/register_semaphore_holder.lua
+++ /dev/null
@@ -1,31 +0,0 @@
--- Simple token initialization and management for Python BRPOP
--- KEYS[1]: tokens_key (LIST of available tokens)
--- KEYS[2]: holders_key (SET of current holder instance IDs)
--- KEYS[3]: holder_key (individual holder TTL key for this instance)
--- ARGV[1]: instance_id
--- ARGV[2]: capacity (max concurrent holders)
--- ARGV[3]: ttl_seconds
--- ARGV[4]: token (the token received from BRPOP)
---
--- Returns: {exit_code, status, current_count}
--- exit_code: 0 if registered successfully
-
-local tokens_key = KEYS[1]
-local holders_key = KEYS[2]
-
-local capacity = tonumber(ARGV[1])
-local ttl_seconds = tonumber(ARGV[2])
-
--- Step 1: Initialize token pool if needed (first time setup)
-local tokens_exist = redis.call('EXISTS', tokens_key)
-local holders_exist = redis.call('EXISTS', holders_key)
-if tokens_exist == 0 and holders_exist == 0 then
-    -- Initialize with capacity number of tokens
-    for i = 1, capacity do
-        redis.call('LPUSH', tokens_key, 'token_' .. i)
-    end
-    -- Set expiry on tokens list to prevent infinite growth
-    -- redis.call('EXPIRE', tokens_key, ttl_seconds)
-end
-
-return 0
diff --git a/packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua
deleted file mode 100644
index a675568bc391..000000000000
--- a/packages/service-library/src/servicelib/redis/lua/release_fair_semaphore_v2.lua
+++ /dev/null
@@ -1,48 +0,0 @@
--- Release fair semaphore and return token to pool
--- KEYS[1]: tokens_key (LIST of available tokens)
--- KEYS[2]: holders_key (SET of current holders)
--- KEYS[3]: holder_key (individual holder TTL key for this instance)
--- ARGV[1]: instance_id
---
--- Returns: {exit_code, status, current_count}
--- exit_code: 0 if released, 255 if failed
--- status: 'released', 'not_held', or 'already_expired'
-
-local tokens_key = KEYS[1]
-local holders_key = KEYS[2]
-local holder_key = KEYS[3]
-
-local instance_id = ARGV[1]
-
--- Step 1: Check if this instance is currently a holder
-local is_holder = redis.call('SISMEMBER', holders_key, instance_id)
-if is_holder == 0 then
-    -- Not in holders set - check if holder key exists
-    local exists = redis.call('EXISTS', holder_key)
-    if exists == 1 then
-        -- Holder key exists but not in set - clean it up
-        redis.call('DEL', holder_key)
-        return {255, 'already_expired', redis.call('SCARD', holders_key)}
-    else
-        return {255, 'not_held', redis.call('SCARD', holders_key)}
-    end
-end
-
--- Step 2: Get the token from holder key before releasing
-local token = redis.call('GET', holder_key)
-if not token then
-    -- Fallback token if somehow missing
-    token = 'token_default'
-end
-
--- Step 3: Release the semaphore
-redis.call('SREM', holders_key, instance_id)
-redis.call('DEL', holder_key)
-
--- Step 4: Return token to available pool
--- This automatically unblocks any waiting BRPOP calls
-redis.call('LPUSH', tokens_key, token)
-
-local new_count = redis.call('SCARD', holders_key)
-
-return {0, 'released', new_count}
diff --git a/packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua b/packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua
deleted file mode 100644
index 3c897ed8d90f..000000000000
--- a/packages/service-library/src/servicelib/redis/lua/renew_fair_semaphore_v2.lua
+++ /dev/null
@@ -1,40 +0,0 @@
--- Renew semaphore holder TTL (simplified for token pool design)
--- KEYS[1]: holders_key (SET of current holders)
--- KEYS[2]: holder_key (individual holder TTL key for this instance)
--- ARGV[1]: instance_id
--- ARGV[2]: ttl_seconds
---
--- Returns: {exit_code, status, current_count}
--- exit_code: 0 if renewed, 255 if failed
--- status: 'renewed', 'not_held', or 'expired'
-
-local holders_key = KEYS[1]
-local holder_key = KEYS[2]
-
-local instance_id = ARGV[1]
-local ttl_seconds = tonumber(ARGV[2])
-
--- Step 1: Check if this instance is currently a holder
-local is_holder = redis.call('SISMEMBER', holders_key, instance_id)
-if is_holder == 0 then
-    -- Not in holders set
-    local current_count = redis.call('SCARD', holders_key)
-    return {255, 'not_held', current_count}
-end
-
--- Step 2: Check if holder key exists (to detect if it expired)
-local exists = redis.call('EXISTS', holder_key)
-if exists == 0 then
-    -- Holder key expired - remove from set and fail renewal
-    redis.call('SREM', holders_key, instance_id)
-    local current_count = redis.call('SCARD', holders_key)
-    return {255, 'expired', current_count}
-end
-
--- Step 3: Renew the holder key TTL
-local token = redis.call('GET', holder_key)
-redis.call('SETEX', holder_key, ttl_seconds, token)
-
-local current_count = redis.call('SCARD', holders_key)
-
-return {0, 'renewed', current_count}
diff --git a/packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py b/packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py
deleted file mode 100644
index 0eb6a781f87e..000000000000
--- a/packages/service-library/src/servicelib/redis/pure_brpop_semaphore.py
+++ /dev/null
@@ -1,417 +0,0 @@
-"""Pure Python BRPOP-based fair semaphore implementation."""
-
-import asyncio
-import datetime
-import logging
-import uuid
-from types import TracebackType
-from typing import Annotated, ClassVar
-
-from common_library.basic_types import DEFAULT_FACTORY
-from pydantic import (
-    BaseModel,
-    Field,
-    PositiveInt,
-    computed_field,
-    field_validator,
-)
-from redis.commands.core import AsyncScript
-
-from ._client import RedisClientSDK
-from ._constants import (
-    DEFAULT_SEMAPHORE_TTL,
-    DEFAULT_SOCKET_TIMEOUT,
-    SEMAPHORE_HOLDER_KEY_PREFIX,
-    SEMAPHORE_KEY_PREFIX,
-)
-from ._errors import (
-    SemaphoreAcquisitionError,
-    SemaphoreLostError,
-    SemaphoreNotAcquiredError,
-)
-from ._semaphore_lua import (
-    CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT,
-    COUNT_FAIR_SEMAPHORE_V2_SCRIPT,
-    REGISTER_SEMAPHORE_HOLDER_SCRIPT,
-    RELEASE_FAIR_SEMAPHORE_V2_SCRIPT,
-    RENEW_FAIR_SEMAPHORE_V2_SCRIPT,
-    SCRIPT_OK_EXIT_CODE,
-)
-
-_logger = logging.getLogger(__name__)
-
-
-class PureBRPOPSemaphore(BaseModel):
-    """
-    A pure Python BRPOP-based fair semaphore implementation.
-
-    This approach uses Redis BRPOP directly from Python for true blocking fairness,
-    with minimal Lua scripts only for registration and cleanup.
-
-    Features:
-    - True FIFO fairness guaranteed by Redis BRPOP
-    - Native Redis blocking - no Python-side polling needed
-    - Crash recovery through TTL-based cleanup
-    - Maximum simplicity and reliability
-    """
-
-    model_config = {
-        "arbitrary_types_allowed": True,  # For RedisClientSDK
-    }
-
-    # Configuration fields
-    redis_client: RedisClientSDK
-    key: Annotated[
-        str, Field(min_length=1, description="Unique identifier for the semaphore")
-    ]
-    capacity: Annotated[
-        PositiveInt, Field(description="Maximum number of concurrent holders")
-    ]
-    ttl: datetime.timedelta = DEFAULT_SEMAPHORE_TTL
-    blocking_timeout: Annotated[
-        datetime.timedelta | None,
-        Field(description="Maximum time to wait when blocking"),
-    ] = DEFAULT_SOCKET_TIMEOUT
-
-    enable_auto_cleanup: bool = Field(
-        default=True,
-        description="Whether to enable automatic cleanup of crashed holders",
-    )
-
-    instance_id: Annotated[
-        str,
-        Field(
-            description="Unique instance identifier",
-            default_factory=lambda: f"{uuid.uuid4()}",
-        ),
-    ] = DEFAULT_FACTORY
-
-    # Class-level script storage
-    register_script: ClassVar[AsyncScript | None] = None
-    release_script: ClassVar[AsyncScript | None] = None
-    renew_script: ClassVar[AsyncScript | None] = None
-    count_script: ClassVar[AsyncScript | None] = None
-    cleanup_script: ClassVar[AsyncScript | None] = None
-
-    # Private state
-    _acquired: bool = False
-    _token: str | None = None
-    _cleanup_task: asyncio.Task | None = None
-
-    @classmethod
-    def _register_scripts(cls, redis_client: RedisClientSDK) -> None:
-        """Register minimal Lua scripts with Redis."""
-        if cls.register_script is None:
-            cls.register_script = redis_client.redis.register_script(
-                REGISTER_SEMAPHORE_HOLDER_SCRIPT
-            )
-            cls.release_script = redis_client.redis.register_script(
-                RELEASE_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-            cls.renew_script = redis_client.redis.register_script(
-                RENEW_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-            cls.count_script = redis_client.redis.register_script(
-                COUNT_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-            cls.cleanup_script = redis_client.redis.register_script(
-                CLEANUP_FAIR_SEMAPHORE_V2_SCRIPT
-            )
-
-    def __init__(self, **data) -> None:
-        super().__init__(**data)
-        self.__class__._register_scripts(self.redis_client)
-
-        # Start cleanup task if enabled
-        if self.enable_auto_cleanup:
-            self._start_cleanup_task()
-
-    def _start_cleanup_task(self) -> None:
-        """Start background cleanup task for crashed holders."""
-        if self._cleanup_task is None or self._cleanup_task.done():
-            self._cleanup_task = asyncio.create_task(self._cleanup_loop())
-
-    async def _cleanup_loop(self) -> None:
-        """Background task to clean up crashed holders."""
-        try:
-            while True:
-                await asyncio.sleep(30)  # Cleanup every 30 seconds
-                try:
-                    await self._recover_crashed_tokens()
-                except Exception as e:
-                    _logger.warning(f"Cleanup failed for semaphore {self.key}: {e}")
-        except asyncio.CancelledError:
-            pass
-
-    async def _recover_crashed_tokens(self) -> None:
-        """Recover tokens from crashed clients."""
-        cls = type(self)
-        assert cls.cleanup_script is not None
-
-        result = await cls.cleanup_script(
-            keys=[self.tokens_key, self.holders_key, self.holder_prefix],
-            args=[self.capacity],
-            client=self.redis_client.redis,
-        )
-
-        recovered_tokens, current_holders, available_tokens, total_cleaned = result
-
-        if recovered_tokens > 0 or total_cleaned > 0:
-            _logger.info(
-                f"Recovered {recovered_tokens} tokens from {total_cleaned} crashed holders "
-                f"for semaphore '{self.key}'"
-            )
-
-    @computed_field
-    @property
-    def tokens_key(self) -> str:
-        """Redis key for the token pool LIST."""
-        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:tokens"
-
-    @computed_field
-    @property
-    def holders_key(self) -> str:
-        """Redis key for the holders SET."""
-        return f"{SEMAPHORE_KEY_PREFIX}{self.key}:holders"
-
-    @computed_field
-    @property
-    def holder_key(self) -> str:
-        """Redis key for this instance's holder entry."""
-        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:{self.instance_id}"
-
-    @computed_field
-    @property
-    def holder_prefix(self) -> str:
-        """Prefix for holder keys (used in cleanup)."""
-        return f"{SEMAPHORE_HOLDER_KEY_PREFIX}{self.key}:"
-
-    @field_validator("ttl")
-    @classmethod
-    def validate_ttl(cls, v: datetime.timedelta) -> datetime.timedelta:
-        if v.total_seconds() <= 0:
-            raise ValueError("TTL must be positive")
-        return v
-
-    @field_validator("blocking_timeout")
-    @classmethod
-    def validate_timeout(
-        cls, v: datetime.timedelta | None
-    ) -> datetime.timedelta | None:
-        if v is not None and v.total_seconds() <= 0:
-            raise ValueError("Timeout must be positive")
-        return v
-
-    async def acquire(self) -> bool:
-        """
-        Acquire the semaphore using pure Python BRPOP.
-
-        This is the cleanest possible approach:
-        1. Call Redis BRPOP directly from Python (guaranteed FIFO fairness)
-        2. Use minimal Lua script only to register as holder
-        3. No complex retry logic or notifications needed
-
-        Returns:
-            True if acquired successfully
-
-        Raises:
-            SemaphoreAcquisitionError: If acquisition fails or times out
-        """
-        if self._acquired:
-            raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
-
-        timeout_seconds = (
-            int(self.blocking_timeout.total_seconds()) if self.blocking_timeout else 0
-        )
-        ttl_seconds = int(self.ttl.total_seconds())
-
-        _logger.debug(
-            f"Attempting to acquire semaphore '{self.key}' using BRPOP "
-            f"(timeout: {timeout_seconds}s)"
-        )
-
-        try:
-            # Use Redis BRPOP directly from Python - this is perfectly legal!
-            # BRPOP blocks until a token is available or timeout occurs
-            result = await self.redis_client.redis.brpop(
-                self.tokens_key, timeout=timeout_seconds
-            )
-
-            if result is None:
-                # Timeout occurred
-                raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
-
-            # result is (key, token) tuple
-            _, token = result
-            token = token.decode("utf-8") if isinstance(token, bytes) else token
-
-            # Register as holder using minimal Lua script
-            cls = type(self)
-            assert cls.register_script is not None
-
-            register_result = await cls.register_script(
-                keys=[self.tokens_key, self.holders_key, self.holder_key],
-                args=[self.instance_id, self.capacity, ttl_seconds, token],
-                client=self.redis_client.redis,
-            )
-
-            exit_code, status, current_count = register_result
-
-            if exit_code == SCRIPT_OK_EXIT_CODE:
-                self._acquired = True
-                self._token = token
-
-                _logger.info(
-                    f"Acquired semaphore '{self.key}' with token '{token}' "
-                    f"(instance: {self.instance_id}, count: {current_count})"
-                )
-                return True
-            else:
-                # Registration failed - this shouldn't happen but be safe
-                # Return the token to the pool
-                await self.redis_client.redis.lpush(self.tokens_key, token)
-                raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
-
-        except TimeoutError:
-            raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
-        except Exception as e:
-            _logger.error(f"Error acquiring semaphore '{self.key}': {e}")
-            raise SemaphoreAcquisitionError(name=self.key, capacity=self.capacity)
-
-    async def release(self) -> None:
-        """
-        Release the semaphore and return token to pool.
-
-        Raises:
-            SemaphoreNotAcquiredError: If semaphore was not acquired by this instance
-        """
-        if not self._acquired:
-            raise SemaphoreNotAcquiredError(name=self.key)
-
-        try:
-            # Use existing release script
-            cls = type(self)
-            assert cls.release_script is not None
-
-            result = await cls.release_script(
-                keys=[self.tokens_key, self.holders_key, self.holder_key],
-                args=[self.instance_id],
-                client=self.redis_client.redis,
-            )
-
-            exit_code, status, current_count = result
-
-            if exit_code == SCRIPT_OK_EXIT_CODE:
-                released_token = self._token
-                self._acquired = False
-                self._token = None
-
-                _logger.info(
-                    f"Released semaphore '{self.key}' with token '{released_token}' "
-                    f"(instance: {self.instance_id}, count: {current_count})"
-                )
-                return
-
-            # Release failed
-            _logger.error(
-                f"Failed to release semaphore '{self.key}' - {status} "
-                f"(instance: {self.instance_id}, count: {current_count})"
-            )
-            # Mark as not acquired anyway to prevent stuck state
-            self._acquired = False
-            self._token = None
-            raise SemaphoreNotAcquiredError(name=self.key)
-
-        except Exception as e:
-            _logger.error(f"Error releasing semaphore '{self.key}': {e}")
-            # Mark as not acquired to prevent stuck state
-            self._acquired = False
-            self._token = None
-            raise SemaphoreNotAcquiredError(name=self.key)
-
-    async def renew(self) -> None:
-        """
-        Renew the semaphore TTL.
-
-        Raises:
-            SemaphoreLostError: If the semaphore was lost or expired
-        """
-        if not self._acquired:
-            raise SemaphoreNotAcquiredError(name=self.key)
-
-        ttl_seconds = int(self.ttl.total_seconds())
-
-        try:
-            cls = type(self)
-            assert cls.renew_script is not None
-
-            result = await cls.renew_script(
-                keys=[self.holders_key, self.holder_key],
-                args=[self.instance_id, ttl_seconds],
-                client=self.redis_client.redis,
-            )
-
-            exit_code, status, current_count = result
-
-            if exit_code == SCRIPT_OK_EXIT_CODE:
-                _logger.debug(f"Renewed semaphore '{self.key}' TTL")
-                return
-
-            # Renewal failed - semaphore was lost
-            _logger.warning(
-                f"Semaphore '{self.key}' was lost during renewal - {status} "
-                f"(instance: {self.instance_id})"
-            )
-            self._acquired = False
-            self._token = None
-            raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
-
-        except Exception as e:
-            _logger.error(f"Error renewing semaphore '{self.key}': {e}")
-            raise SemaphoreLostError(name=self.key, instance_id=self.instance_id)
-
-    async def get_current_count(self) -> int:
-        """Get the current number of semaphore holders."""
-        cls = type(self)
-        assert cls.count_script is not None
-
-        result = await cls.count_script(
-            keys=[self.holders_key, self.tokens_key],
-            args=[self.capacity],
-            client=self.redis_client.redis,
-        )
-
-        current_holders, available_tokens, capacity = result
-        return int(current_holders)
-
-    async def get_available_count(self) -> int:
-        """Get the number of available semaphore slots."""
-        current_count = await self.get_current_count()
-        return max(0, self.capacity - current_count)
-
-    @property
-    def acquired(self) -> bool:
-        """Check if semaphore is currently acquired."""
-        return self._acquired
-
-    # Context manager support
-    async def __aenter__(self) -> "PureBRPOPSemaphore":
-        await self.acquire()
-        return self
-
-    async def __aexit__(
-        self,
-        exc_type: type[BaseException] | None,
-        exc_val: BaseException | None,
-        exc_tb: TracebackType | None,
-    ) -> None:
-        if self._acquired:
-            await self.release()
-
-        # Clean up background task
-        if self._cleanup_task and not self._cleanup_task.done():
-            self._cleanup_task.cancel()
-            try:
-                await self._cleanup_task
-            except asyncio.CancelledError:
-                pass
diff --git a/packages/service-library/tests/redis/test_semaphore.py b/packages/service-library/tests/redis/test_semaphore.py
index f8cc2c64e122..14042589b5a0 100644
--- a/packages/service-library/tests/redis/test_semaphore.py
+++ b/packages/service-library/tests/redis/test_semaphore.py
@@ -290,6 +290,43 @@ async def _raising_context():
     assert await captured_semaphore.get_current_count() == 0
 
 
+async def test_semaphore_ttl_cleanup(
+    redis_client_sdk: RedisClientSDK,
+    semaphore_name: str,
+    semaphore_capacity: int,
+    short_ttl: datetime.timedelta,
+):
+    # Create semaphore with explicit short TTL
+    semaphore = DistributedSemaphore(
+        redis_client=redis_client_sdk,
+        key=semaphore_name,
+        capacity=semaphore_capacity,
+        ttl=short_ttl,
+    )
+
+    # Manually add an expired entry
+    expired_instance_id = "expired-instance"
+    current_time = asyncio.get_event_loop().time()
+    # Make sure it's definitely expired by using the short TTL
+    expired_time = current_time - short_ttl.total_seconds() - 1
+
+    await redis_client_sdk.redis.zadd(
+        semaphore.semaphore_key, {expired_instance_id: expired_time}
+    )
+
+    # Verify the entry was added
+    initial_count = await redis_client_sdk.redis.zcard(semaphore.semaphore_key)
+    assert initial_count == 1
+
+    # Current count should clean up expired entries
+    count = await semaphore.get_current_count()
+    assert count == 0
+
+    # Verify expired entry was removed
+    remaining = await redis_client_sdk.redis.zcard(semaphore.semaphore_key)
+    assert remaining == 0
+
+
 async def test_multiple_semaphores_different_keys(
     redis_client_sdk: RedisClientSDK,
     faker: Faker,