perf: use deque for async response chunk iteration

giulio-leone · giulio-leone · commit 3f80a2a5d82f · 2026-02-28T15:41:05.000+01:00
AsyncResponse.__anext__() replays cached chunks via list.pop(0) when
the response is already done, which is O(n) per removal.  Switch to
collections.deque with popleft() for O(1).
diff --git a/llm/models.py b/llm/models.py
@@ -1,5 +1,6 @@
 import asyncio
 import base64
+from collections import deque
 from condense_json import condense_json
 from dataclasses import dataclass, field
 import datetime
@@ -1386,13 +1387,13 @@ def __aiter__(self):
         self._start = time.monotonic()
         self._start_utcnow = datetime.datetime.now(datetime.timezone.utc)
         if self._done:
-            self._iter_chunks = list(self._chunks)  # Make a copy for iteration
+            self._iter_chunks = deque(self._chunks)  # Make a copy for iteration
         return self
 
     async def __anext__(self) -> str:
         if self._done:
             if hasattr(self, "_iter_chunks") and self._iter_chunks:
-                return self._iter_chunks.pop(0)
+                return self._iter_chunks.popleft()
             raise StopAsyncIteration
 
         if not hasattr(self, "_generator"):