feat: add task_schedule_monitor

tangg555 · tangg555 · commit 480c8e3c753a · 2025-12-01T17:50:28.000+08:00
diff --git a/examples/mem_scheduler/task_stop_rerun.py b/examples/mem_scheduler/task_stop_rerun.py
@@ -76,8 +76,9 @@ def submit_tasks():
 tmp_dir = Path("tmp")
 while mem_scheduler.get_tasks_status()["remaining"] != 0:
     count = len(list(tmp_dir.glob("*.txt"))) if tmp_dir.exists() else 0
-    user_status_running = mem_scheduler.get_tasks_status()
-    print(f"[Monitor] user_status_running: {user_status_running}; Files in tmp: {count}/{expected}")
+    tasks_status = mem_scheduler.get_tasks_status()
+    mem_scheduler.print_tasks_status(tasks_status=tasks_status)
+    print(f"[Monitor] Files in tmp: {count}/{expected}")
     sleep(poll_interval)
 print(f"[Result] Final files in tmp: {len(list(tmp_dir.glob('*.txt')))})")
 
diff --git a/src/memos/mem_scheduler/base_scheduler.py b/src/memos/mem_scheduler/base_scheduler.py
@@ -21,6 +21,7 @@
 from memos.mem_scheduler.memory_manage_modules.retriever import SchedulerRetriever
 from memos.mem_scheduler.monitors.dispatcher_monitor import SchedulerDispatcherMonitor
 from memos.mem_scheduler.monitors.general_monitor import SchedulerGeneralMonitor
+from memos.mem_scheduler.monitors.task_schedule_monitor import TaskScheduleMonitor
 from memos.mem_scheduler.schemas.general_schemas import (
     DEFAULT_ACT_MEM_DUMP_PATH,
     DEFAULT_CONSUME_BATCH,
@@ -41,8 +42,6 @@
 )
 from memos.mem_scheduler.schemas.monitor_schemas import MemoryMonitorItem
 from memos.mem_scheduler.task_schedule_modules.dispatcher import SchedulerDispatcher
-from memos.mem_scheduler.task_schedule_modules.local_queue import SchedulerLocalQueue
-from memos.mem_scheduler.task_schedule_modules.redis_queue import SchedulerRedisQueue
 from memos.mem_scheduler.task_schedule_modules.task_queue import ScheduleTaskQueue
 from memos.mem_scheduler.utils import metrics
 from memos.mem_scheduler.utils.db_utils import get_utc_now
@@ -143,6 +142,13 @@ def __init__(self, config: BaseSchedulerConfig):
             metrics=self.metrics,
             submit_web_logs=self._submit_web_logs,
         )
+        # Task schedule monitor: initialize with underlying queue implementation
+        self.get_status_parallel = self.config.get("get_status_parallel", True)
+        self.task_schedule_monitor = TaskScheduleMonitor(
+            memos_message_queue=self.memos_message_queue.memos_message_queue,
+            dispatcher=self.dispatcher,
+            get_status_parallel=self.get_status_parallel,
+        )
 
         # other attributes
         self._context_lock = threading.Lock()
@@ -942,47 +948,13 @@ def get_running_tasks(self, filter_func: Callable | None = None) -> dict[str, di
 
         return result
 
-    @staticmethod
-    def init_task_status():
-        return {
-            "running": 0,
-            "remaining": 0,
-            "completed": 0,
-        }
-
     def get_tasks_status(self):
-        task_status = self.init_task_status()
-        memos_message_queue = self.memos_message_queue.memos_message_queue
-        if isinstance(memos_message_queue, SchedulerRedisQueue):
-            stream_keys = memos_message_queue.get_stream_keys(
-                stream_key_prefix=memos_message_queue.stream_key_prefix
-            )
-            for stream_key in stream_keys:
-                if stream_key not in task_status:
-                    task_status[stream_key] = self.init_task_status()
-                # For Redis queue, prefer XINFO GROUPS to compute pending
-                groups_info = memos_message_queue.redis.xinfo_groups(stream_key)
-                if groups_info:
-                    for group in groups_info:
-                        if group.get("name") == memos_message_queue.consumer_group:
-                            task_status[stream_key]["running"] += int(group.get("pending", 0))
-                            task_status[stream_key]["remaining"] += memos_message_queue.qsize()[
-                                stream_key
-                            ]
-                            task_status["running"] += int(group.get("pending", 0))
-                            task_status["remaining"] += task_status[stream_key]["remaining"]
-                            break
-
-        elif isinstance(memos_message_queue, SchedulerLocalQueue):
-            running_task_count = self.dispatcher.get_running_task_count()
-            task_status["running"] = running_task_count
-            task_status["remaining"] = sum(memos_message_queue.qsize().values())
-        else:
-            logger.error(
-                f"type of self.memos_message_queue is {memos_message_queue}, which is not supported"
-            )
-            raise NotImplementedError()
-        return task_status
+        """Delegate status collection to TaskScheduleMonitor."""
+        return self.task_schedule_monitor.get_tasks_status()
+
+    def print_tasks_status(self, tasks_status: dict | None = None) -> None:
+        """Delegate pretty printing to TaskScheduleMonitor."""
+        self.task_schedule_monitor.print_tasks_status(tasks_status=tasks_status)
 
     def _gather_queue_stats(self) -> dict:
         """Collect queue/dispatcher stats for reporting."""
diff --git a/src/memos/mem_scheduler/monitors/task_schedule_monitor.py b/src/memos/mem_scheduler/monitors/task_schedule_monitor.py
@@ -0,0 +1,262 @@
+from __future__ import annotations
+
+from memos.log import get_logger
+from memos.mem_scheduler.task_schedule_modules.local_queue import SchedulerLocalQueue
+from memos.mem_scheduler.task_schedule_modules.redis_queue import SchedulerRedisQueue
+
+
+logger = get_logger(__name__)
+
+
+class TaskScheduleMonitor:
+    """
+    Monitor for task scheduling queue status.
+
+    Initialize with the underlying `memos_message_queue` implementation
+    (either SchedulerRedisQueue or SchedulerLocalQueue) and optionally a
+    dispatcher for local running task counts.
+    """
+
+    def __init__(
+        self,
+        memos_message_queue: SchedulerRedisQueue | SchedulerLocalQueue,
+        dispatcher: object | None = None,
+        get_status_parallel: bool = False,
+    ) -> None:
+        self.queue = memos_message_queue
+        self.dispatcher = dispatcher
+        self.get_status_parallel = get_status_parallel
+
+    @staticmethod
+    def init_task_status() -> dict:
+        return {"running": 0, "remaining": 0}
+
+    def get_tasks_status(self) -> dict:
+        if isinstance(self.queue, SchedulerRedisQueue):
+            return self._get_redis_tasks_status()
+        elif isinstance(self.queue, SchedulerLocalQueue):
+            return self._get_local_tasks_status()
+        else:
+            logger.error(
+                f"Unsupported queue type for TaskScheduleMonitor: {type(self.queue).__name__}"
+            )
+            raise NotImplementedError()
+
+    def print_tasks_status(self, tasks_status: dict | None = None) -> None:
+        """
+        Nicely print task queue status grouped by "user_id:mem_cube_id".
+
+        For Redis queues, stream keys follow the pattern
+        "{prefix}:{user_id}:{mem_cube_id}:{task_label}" — group by user/mem
+        and show per-task_label counts. For local queues, only totals are
+        available, so print aggregate metrics.
+        """
+        try:
+            status = tasks_status if isinstance(tasks_status, dict) else self.get_tasks_status()
+        except Exception as e:
+            logger.warning(f"Failed to get tasks status: {e}")
+            return
+
+        if not isinstance(status, dict) or not status:
+            print("[Tasks] No status available.")
+            return
+
+        total_running = int(status.get("running", 0) or 0)
+        total_remaining = int(status.get("remaining", 0) or 0)
+
+        header = f"Task Queue Status | running={total_running}, remaining={total_remaining}"
+        print(header)
+
+        if isinstance(self.queue, SchedulerRedisQueue):
+            # Build grouping: {"user_id:mem_cube_id": {task_label: {counts}}}
+            try:
+                from collections import defaultdict
+            except Exception:
+                defaultdict = None
+
+            group_stats = (
+                defaultdict(lambda: defaultdict(lambda: {"running": 0, "remaining": 0}))
+                if defaultdict is not None
+                else {}
+            )
+
+            # Keys that look like stream entries (exclude the totals keys)
+            stream_keys = [
+                k for k in status if isinstance(k, str) and k not in ("running", "remaining")
+            ]
+
+            for stream_key in stream_keys:
+                stream_stat = status.get(stream_key, {})
+                if not isinstance(stream_stat, dict):
+                    continue
+                parts = stream_key.split(":")
+                # Safely parse from the right to avoid prefix colons
+                if len(parts) < 3:
+                    # Not enough parts to form user:mem:label — skip
+                    continue
+                task_label = parts[-1]
+                mem_cube_id = parts[-2]
+                user_id = parts[-3]
+                group_key = f"{user_id}:{mem_cube_id}"
+
+                try:
+                    group_stats[group_key][task_label]["running"] += int(
+                        stream_stat.get("running", 0) or 0
+                    )
+                    group_stats[group_key][task_label]["remaining"] += int(
+                        stream_stat.get("remaining", 0) or 0
+                    )
+                except Exception:
+                    # Keep printing robust in face of bad data
+                    pass
+
+            if not group_stats:
+                print("[Tasks] No per-stream details found.")
+                return
+
+            # Pretty print per group
+            for group_key in sorted(group_stats.keys()):
+                print("")
+                print(f"[{group_key}]")
+
+                labels = sorted(group_stats[group_key].keys())
+                label_width = max(10, max((len(label) for label in labels), default=10))
+                # Table header
+                header_line = f"{'Task Label'.ljust(label_width)}  {'Running':>7}  {'Remaining':>9}"
+                sep_line = f"{'-' * label_width}  {'-' * 7}  {'-' * 9}"
+                print(header_line)
+                print(sep_line)
+
+                for label in labels:
+                    counts = group_stats[group_key][label]
+                    line = (
+                        f"{label.ljust(label_width)}  "
+                        f"{int(counts.get('running', 0)):>7}  "
+                        f"{int(counts.get('remaining', 0)):>9}  "
+                    )
+                    print(line)
+
+        elif isinstance(self.queue, SchedulerLocalQueue):
+            # Local queue: only aggregate totals available; print them clearly
+            print("")
+            print("[Local Queue Totals]")
+            label_width = 12
+            header_line = f"{'Metric'.ljust(label_width)}  {'Value':>7}"
+            sep_line = f"{'-' * label_width}  {'-' * 7}"
+            print(header_line)
+            print(sep_line)
+            print(f"{'Running'.ljust(label_width)}  {total_running:>7}")
+            print(f"{'Remaining'.ljust(label_width)}  {total_remaining:>7}")
+
+    def _get_local_tasks_status(self) -> dict:
+        task_status = self.init_task_status()
+
+        try:
+            # remaining is the sum of per-stream qsize
+            qsize_map = self.queue.qsize()
+            task_status["remaining"] = sum(v for k, v in qsize_map.items() if isinstance(v, int))
+            # running from dispatcher if available
+            if self.dispatcher and hasattr(self.dispatcher, "get_running_task_count"):
+                task_status["running"] = int(self.dispatcher.get_running_task_count())
+        except Exception as e:
+            logger.warning(f"Failed to collect local queue status: {e}")
+        return task_status
+
+    def _get_redis_tasks_status(self) -> dict:
+        task_status = self.init_task_status()
+
+        try:
+            stream_keys = self.queue.get_stream_keys(stream_key_prefix=self.queue.stream_key_prefix)
+        except Exception as e:
+            logger.warning(f"Failed to get stream keys: {e}")
+            stream_keys = []
+
+        if not stream_keys:
+            # Still include totals from qsize if available
+            try:
+                qsize_dict = self.queue.qsize()
+                if isinstance(qsize_dict, dict):
+                    task_status["remaining"] = int(qsize_dict.get("total_size", 0))
+            except Exception:
+                pass
+            return task_status
+
+        # Parallel path: use asyncio.to_thread for blocking redis calls
+        if self.get_status_parallel:
+            try:
+                import asyncio
+
+                async def _collect_async() -> dict:
+                    qsize_task = asyncio.to_thread(self.queue.qsize)
+                    groups_tasks = [
+                        asyncio.to_thread(self.queue.redis.xinfo_groups, stream_key)
+                        for stream_key in stream_keys
+                    ]
+                    gathered = await asyncio.gather(
+                        qsize_task, *groups_tasks, return_exceptions=True
+                    )
+                    qsize_result = gathered[0] if gathered else {}
+                    groups_results = gathered[1:]
+
+                    local = self.init_task_status()
+                    for idx, stream_key in enumerate(stream_keys):
+                        local[stream_key] = self.init_task_status()
+                        groups_info = groups_results[idx] if idx < len(groups_results) else None
+                        if isinstance(groups_info, Exception):
+                            continue
+                        if groups_info:
+                            for group in groups_info:
+                                if group.get("name") == self.queue.consumer_group:
+                                    pending = int(group.get("pending", 0))
+                                    remaining = (
+                                        int(qsize_result.get(stream_key, 0))
+                                        if isinstance(qsize_result, dict)
+                                        else 0
+                                    )
+                                    local[stream_key]["running"] += pending
+                                    local[stream_key]["remaining"] += remaining
+                                    local["running"] += pending
+                                    local["remaining"] += remaining
+                                    break
+                    return local
+
+                try:
+                    loop = asyncio.get_running_loop()
+                    if loop.is_running():
+                        raise RuntimeError("event loop running")
+                except RuntimeError:
+                    loop = None
+
+                if loop is None:
+                    return asyncio.run(_collect_async())
+            except Exception as e:
+                logger.debug(f"Parallel status collection failed, fallback to sequential: {e}")
+
+        # Sequential fallback
+        try:
+            qsize_dict = self.queue.qsize()
+        except Exception:
+            qsize_dict = {}
+
+        for stream_key in stream_keys:
+            task_status[stream_key] = self.init_task_status()
+            try:
+                groups_info = self.queue.redis.xinfo_groups(stream_key)
+            except Exception:
+                groups_info = None
+            if groups_info:
+                for group in groups_info:
+                    if group.get("name") == self.queue.consumer_group:
+                        pending = int(group.get("pending", 0))
+                        remaining = (
+                            int(qsize_dict.get(stream_key, 0))
+                            if isinstance(qsize_dict, dict)
+                            else 0
+                        )
+                        task_status[stream_key]["running"] += pending
+                        task_status[stream_key]["remaining"] += remaining
+                        task_status["running"] += pending
+                        task_status["remaining"] += remaining
+                        break
+
+        return task_status
diff --git a/src/memos/mem_scheduler/task_schedule_modules/redis_queue.py b/src/memos/mem_scheduler/task_schedule_modules/redis_queue.py