fix: add abort for llm2

zhangqianze · zhangqianze · commit 117daf0903bc · 2025-08-15T13:17:08.000+08:00
diff --git a/api/llm-interface.json b/api/llm-interface.json
@@ -5,6 +5,9 @@
             "name": "chat_completion",
             "property": {
                 "properties": {
+                    "request_id": {
+                        "type": "string"
+                    },
                     "model": {
                         "type": "string"
                     },
@@ -60,6 +63,16 @@
                     }
                 }
             }
+        },
+        {
+            "name": "abort",
+            "property": {
+                "properties": {
+                    "request_id": {
+                        "type": "string"
+                    }
+                }
+            }
         }
     ],
     "data_out": [
diff --git a/interface/ten_ai_base/llm2.py b/interface/ten_ai_base/llm2.py
@@ -4,10 +4,12 @@
 # See the LICENSE file for more information.
 #
 from abc import ABC, abstractmethod
+import asyncio
+import json
 import traceback
-from typing import AsyncGenerator
+from typing import AsyncGenerator, Dict, Optional
 
-from .struct import LLMRequest, LLMResponse
+from .struct import LLMRequest, LLMRequestAbort, LLMResponse
 from ten_runtime import (
     AsyncExtension,
 )
@@ -31,60 +33,172 @@ class AsyncLLM2BaseExtension(AsyncExtension, ABC):
     def __init__(self, name: str):
         super().__init__(name)
         self.ten_env: AsyncTenEnv = None
+        self._inflight: Dict[str, "AsyncLLM2BaseExtension._TaskCtx"] = {}
+        self._lock = asyncio.Lock()
+
 
     async def on_init(self, async_ten_env: AsyncTenEnv) -> None:
         await super().on_init(async_ten_env)
+        self.ten_env = async_ten_env
 
     async def on_start(self, async_ten_env: AsyncTenEnv) -> None:
         await super().on_start(async_ten_env)
-        self.ten_env = async_ten_env
 
     async def on_stop(self, async_ten_env: AsyncTenEnv) -> None:
+        await self._cancel_all()
         await super().on_stop(async_ten_env)
 
     async def on_deinit(self, async_ten_env: AsyncTenEnv) -> None:
+        await self._cancel_all()
         await super().on_deinit(async_ten_env)
 
     async def on_cmd(self, async_ten_env: AsyncTenEnv, cmd: Cmd) -> None:
-        """
-        handle default commands
-        return True if the command is handled, False otherwise
-        """
         cmd_name = cmd.get_name()
-        async_ten_env.log_debug(f"on_cmd name22 {cmd_name}")
+        async_ten_env.log_debug(f"[LLM2Base] on_cmd: {cmd_name}")
         try:
             if cmd_name == "chat_completion":
                 payload, err = cmd.get_property_to_json(None)
                 if err:
-                    raise RuntimeError(f"Failed  to get payload: {err}")
-                args = LLMRequest.model_validate_json(
-                    payload
-                )
-                response = self.on_call_chat_completion(
-                    async_ten_env, args
-                )
+                    raise RuntimeError(f"Failed to get payload: {err}")
+
+                req = LLMRequest.model_validate_json(payload)
+                rid = req.request_id
+                if not rid:
+                    raise RuntimeError("LLMRequest.request_id is required")
+
+                # Reject duplicates instead of replacing
+                async with self._lock:
+                    existing = self._inflight.get(rid)
+                    if existing and not existing.task.done():
+                        async_ten_env.log_info(
+                            f"[LLM2Base] Duplicate request_id rejected: {rid}"
+                        )
+                        cr = CmdResult.create(StatusCode.ERROR, cmd)
+                        cr.set_property_from_json(
+                            None,
+                            json.dumps({
+                                "error": "request_id_already_running",
+                                "message": "A chat_completion with this request_id is already in progress.",
+                                "request_id": rid,
+                            }),
+                        )
+                        await async_ten_env.return_result(cr)
+                        return
 
-                async for llm_choice in response:
-                    # If the response is a final output, we can return it directly
-                    cmd_result = CmdResult.create(StatusCode.OK, cmd)
-                    cmd_result.set_property_from_json(
-                        None, llm_choice.model_dump_json()
+                    # Start streaming task
+                    await self._start_locked(async_ten_env, cmd, req)
+
+                # Ack creation (streaming results will arrive from the task)
+                # await async_ten_env.return_result(CmdResult.create(StatusCode.OK, cmd))
+
+            elif cmd_name == "abort":
+                payload, err = cmd.get_property_to_json(None)
+                if err:
+                    raise RuntimeError(f"Failed to get payload: {err}")
+
+                abort = LLMRequestAbort.model_validate_json(payload)
+                req_id: Optional[str] = getattr(abort, "request_id", None)
+
+                if req_id:
+                    cancelled = await self._cancel_one(req_id)
+                    async_ten_env.log_info(
+                        f"[LLM2Base] abort: request_id={req_id}, cancelled={cancelled}"
                     )
-                    cmd_result.set_final(False)
-                    await async_ten_env.return_result(cmd_result)
+                else:
+                    await self._cancel_all()
+                    async_ten_env.log_info("[LLM2Base] abort: all requests cancelled")
+
+                await async_ten_env.return_result(CmdResult.create(StatusCode.OK, cmd))
 
-                cmd_result = CmdResult.create(StatusCode.OK, cmd)
-                cmd_result.set_final(True)
-                await async_ten_env.return_result(cmd_result)
             else:
-                await async_ten_env.return_result(
-                    CmdResult.create(StatusCode.OK, cmd)
+                await async_ten_env.return_result(CmdResult.create(StatusCode.OK, cmd))
+
+        except Exception:
+            async_ten_env.log_error(f"[LLM2Base] on_cmd error:\n{traceback.format_exc()}")
+            await async_ten_env.return_result(CmdResult.create(StatusCode.ERROR, cmd))
+
+    # ---------------------------
+    # Concurrency & task plumbing
+    # ---------------------------
+
+    class _TaskCtx:
+        __slots__ = ("task", "cmd", "request_id")
+        def __init__(self, task: asyncio.Task, cmd: Cmd, request_id: str):
+            self.task = task
+            self.cmd = cmd
+            self.request_id = request_id
+
+    async def _start_locked(self, ten_env: AsyncTenEnv, cmd: Cmd, req: LLMRequest) -> None:
+        """Call with self._lock held. Starts a task and registers it in _inflight."""
+        rid = req.request_id
+        task = asyncio.create_task(self._run_stream(ten_env, cmd, req), name=f"llm2:{rid}")
+        self._inflight[rid] = self._TaskCtx(task=task, cmd=cmd, request_id=rid)
+        task.add_done_callback(lambda t, rid=rid: asyncio.create_task(self._cleanup_after(rid)))
+
+    async def _run_stream(self, ten_env: AsyncTenEnv, cmd: Cmd, req: LLMRequest) -> None:
+        rid = req.request_id
+        try:
+            gen = self.on_call_chat_completion(ten_env, req)
+            async for chunk in gen:
+                try:
+                    cr = CmdResult.create(StatusCode.OK, cmd)
+                    cr.set_property_from_json(None, chunk.model_dump_json())
+                    cr.set_final(False)
+                    await ten_env.return_result(cr)
+                except Exception:
+                    ten_env.log_error(
+                        f"[LLM2Base] return_result streaming error (rid={rid}):\n{traceback.format_exc()}"
+                    )
+
+            final = CmdResult.create(StatusCode.OK, cmd)
+            final.set_final(True)
+            await ten_env.return_result(final)
+
+        except asyncio.CancelledError:
+            ten_env.log_info(f"[LLM2Base] stream cancelled (rid={rid})")
+            try:
+                final = CmdResult.create(StatusCode.OK, cmd)
+                # Optionally attach abort metadata:
+                # final.set_property_from_json(None, json.dumps({"aborted": True, "request_id": rid}))
+                final.set_final(True)
+                await ten_env.return_result(final)
+            except Exception:
+                ten_env.log_error(
+                    f"[LLM2Base] error returning final for cancelled stream (rid={rid}):\n{traceback.format_exc()}"
+                )
+            raise
+        except Exception:
+            ten_env.log_error(f"[LLM2Base] stream error (rid={rid}):\n{traceback.format_exc()}")
+            try:
+                err_final = CmdResult.create(StatusCode.ERROR, cmd)
+                err_final.set_final(True)
+                await ten_env.return_result(err_final)
+            except Exception:
+                ten_env.log_error(
+                    f"[LLM2Base] error returning ERROR final (rid={rid}):\n{traceback.format_exc()}"
                 )
-        except Exception as e:
-            async_ten_env.log_error(f"on_cmd error: {traceback.format_exc()}")
-            await async_ten_env.return_result(
-                CmdResult.create(StatusCode.ERROR, cmd)
-            )
+
+    async def _cleanup_after(self, request_id: str) -> None:
+        async with self._lock:
+            ctx = self._inflight.get(request_id)
+            if ctx and ctx.task.done():
+                self._inflight.pop(request_id, None)
+
+    async def _cancel_one(self, request_id: str) -> bool:
+        async with self._lock:
+            ctx = self._inflight.get(request_id)
+            if not ctx:
+                return False
+            if not ctx.task.done():
+                ctx.task.cancel()
+                return True
+            return False
+
+    async def _cancel_all(self) -> None:
+        async with self._lock:
+            for ctx in list(self._inflight.values()):
+                if not ctx.task.done():
+                    ctx.task.cancel()
 
     @abstractmethod
     def on_call_chat_completion(
diff --git a/interface/ten_ai_base/struct.py b/interface/ten_ai_base/struct.py
@@ -124,12 +124,19 @@ class LLMRequest(BaseModel):
     Model for LLM input data.
     This model is used to define the structure of the input data for LLM operations.
     """
+    request_id: str
     model: str
     messages: list[LLMMessage]
     streaming: Optional[bool] = True
     tools: Optional[list[LLMToolMetadata]] = None
     parameters: Optional[dict[str, Any]] = None
 
+class LLMRequestAbort(BaseModel):
+    """
+    Model for LLM abort request.
+    This model is used to define the structure of the request to abort an ongoing LLM operation.
+    """
+    request_id: str
 
 class EventType(str, Enum):
     MESSAGE_CONTENT_DELTA = "message_content_delta"