Merge branch 'dev' into feat/evaluation_doc_qa

CaralHsi · web-flow · commit a8ac57c08e7c · 2025-12-09T20:42:19.000+08:00
diff --git a/src/memos/graph_dbs/polardb.py b/src/memos/graph_dbs/polardb.py
@@ -4056,7 +4056,7 @@ def _build_filter_conditions_cypher(
         if filter:
 
             def escape_cypher_string(value: str) -> str:
-                return value.replace("'", "''")
+                return value.replace("'", "\\'")
 
             def build_cypher_filter_condition(condition_dict: dict) -> str:
                 """Build a Cypher WHERE condition for a single filter item."""
diff --git a/src/memos/mem_scheduler/task_schedule_modules/redis_queue.py b/src/memos/mem_scheduler/task_schedule_modules/redis_queue.py
@@ -113,24 +113,35 @@ def __init__(
         self._stream_keys_lock = threading.Lock()
         self._stream_keys_refresh_thread: ContextThread | None = None
         self._stream_keys_refresh_stop_event = threading.Event()
+        self._initial_scan_max_keys = int(
+            os.getenv("MEMSCHEDULER_REDIS_INITIAL_SCAN_MAX_KEYS", "1000") or 1000
+        )
+        self._initial_scan_time_limit_sec = float(
+            os.getenv("MEMSCHEDULER_REDIS_INITIAL_SCAN_TIME_LIMIT_SEC", "1.0") or 1.0
+        )
 
         # Start background stream keys refresher if connected
         if self._is_connected:
-            # Refresh once synchronously to seed cache at init
             try:
-                self._refresh_stream_keys()
+                self._refresh_stream_keys(
+                    max_keys=self._initial_scan_max_keys,
+                    time_limit_sec=self._initial_scan_time_limit_sec,
+                )
             except Exception as e:
                 logger.debug(f"Initial stream keys refresh failed: {e}")
-
-            # Then start background refresher
             self._start_stream_keys_refresh_thread()
 
     def get_stream_key(self, user_id: str, mem_cube_id: str, task_label: str) -> str:
         stream_key = f"{self.stream_key_prefix}:{user_id}:{mem_cube_id}:{task_label}"
         return stream_key
 
     # --- Stream keys refresh background thread ---
-    def _refresh_stream_keys(self, stream_key_prefix: str | None = None) -> list[str]:
+    def _refresh_stream_keys(
+        self,
+        stream_key_prefix: str | None = None,
+        max_keys: int | None = None,
+        time_limit_sec: float | None = None,
+    ) -> list[str]:
         """Scan Redis and refresh cached stream keys for the queue prefix."""
         if not self._redis_conn:
             return []
@@ -140,12 +151,29 @@ def _refresh_stream_keys(self, stream_key_prefix: str | None = None) -> list[str
 
         try:
             redis_pattern = f"{stream_key_prefix}:*"
-            raw_keys_iter = self._redis_conn.scan_iter(match=redis_pattern)
-            raw_keys = list(raw_keys_iter)
+            collected: list[str] = []
+            cursor: int | str = 0
+            start_ts = time.time() if time_limit_sec else None
+            count_hint = 200
+            while True:
+                if (
+                    start_ts is not None
+                    and time_limit_sec is not None
+                    and time.time() - start_ts > time_limit_sec
+                ):
+                    break
+                cursor, keys = self._redis_conn.scan(
+                    cursor=cursor, match=redis_pattern, count=count_hint
+                )
+                collected.extend(keys)
+                if max_keys is not None and len(collected) >= max_keys:
+                    break
+                if cursor == 0 or cursor == "0":
+                    break
 
             escaped_prefix = re.escape(stream_key_prefix)
             regex_pattern = f"^{escaped_prefix}:"
-            stream_keys = [key for key in raw_keys if re.match(regex_pattern, key)]
+            stream_keys = [key for key in collected if re.match(regex_pattern, key)]
 
             if stream_key_prefix == self.stream_key_prefix:
                 with self._stream_keys_lock:
diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/bochasearch.py b/src/memos/memories/textual/tree_text_memory/retrieve/bochasearch.py
@@ -12,7 +12,11 @@
 from memos.embedders.factory import OllamaEmbedder
 from memos.log import get_logger
 from memos.mem_reader.base import BaseMemReader
-from memos.memories.textual.item import SourceMessage, TextualMemoryItem
+from memos.memories.textual.item import (
+    SearchedTreeNodeTextualMemoryMetadata,
+    SourceMessage,
+    TextualMemoryItem,
+)
 
 
 logger = get_logger(__name__)
@@ -138,7 +142,7 @@ def __init__(
         self.reader = reader
 
     def retrieve_from_internet(
-        self, query: str, top_k: int = 10, parsed_goal=None, info=None
+        self, query: str, top_k: int = 10, parsed_goal=None, info=None, mode="fast"
     ) -> list[TextualMemoryItem]:
         """
         Default internet retrieval (Web Search).
@@ -155,24 +159,24 @@ def retrieve_from_internet(
         """
         search_results = self.bocha_api.search_ai(query)  # ✅ default to
         # web-search
-        return self._convert_to_mem_items(search_results, query, parsed_goal, info)
+        return self._convert_to_mem_items(search_results, query, parsed_goal, info, mode=mode)
 
     def retrieve_from_web(
-        self, query: str, top_k: int = 10, parsed_goal=None, info=None
+        self, query: str, top_k: int = 10, parsed_goal=None, info=None, mode="fast"
     ) -> list[TextualMemoryItem]:
         """Explicitly retrieve using Bocha Web Search."""
         search_results = self.bocha_api.search_web(query)
-        return self._convert_to_mem_items(search_results, query, parsed_goal, info)
+        return self._convert_to_mem_items(search_results, query, parsed_goal, info, mode=mode)
 
     def retrieve_from_ai(
-        self, query: str, top_k: int = 10, parsed_goal=None, info=None
+        self, query: str, top_k: int = 10, parsed_goal=None, info=None, mode="fast"
     ) -> list[TextualMemoryItem]:
         """Explicitly retrieve using Bocha AI Search."""
         search_results = self.bocha_api.search_ai(query)
-        return self._convert_to_mem_items(search_results, query, parsed_goal, info)
+        return self._convert_to_mem_items(search_results, query, parsed_goal, info, mode=mode)
 
     def _convert_to_mem_items(
-        self, search_results: list[dict], query: str, parsed_goal=None, info=None
+        self, search_results: list[dict], query: str, parsed_goal=None, info=None, mode="fast"
     ):
         """Convert API search results into TextualMemoryItem objects."""
         memory_items = []
@@ -181,7 +185,7 @@ def _convert_to_mem_items(
 
         with ContextThreadPoolExecutor(max_workers=8) as executor:
             futures = [
-                executor.submit(self._process_result, r, query, parsed_goal, info)
+                executor.submit(self._process_result, r, query, parsed_goal, info, mode=mode)
                 for r in search_results
             ]
             for future in as_completed(futures):
@@ -195,7 +199,7 @@ def _convert_to_mem_items(
         return list(unique_memory_items.values())
 
     def _process_result(
-        self, result: dict, query: str, parsed_goal: str, info: dict[str, Any]
+        self, result: dict, query: str, parsed_goal: str, info: dict[str, Any], mode="fast"
     ) -> list[TextualMemoryItem]:
         """Process one Bocha search result into TextualMemoryItem."""
         title = result.get("name", "")
@@ -216,27 +220,63 @@ def _process_result(
         else:
             publish_time = datetime.now().strftime("%Y-%m-%d")
 
-        # Use reader to split and process the content into chunks
-        read_items = self.reader.get_memory([content], type="doc", info=info)
-
-        memory_items = []
-        for read_item_i in read_items[0]:
-            read_item_i.memory = (
-                f"[Outer internet view] Title: {title}\nNewsTime:"
-                f" {publish_time}\nSummary:"
-                f" {summary}\n"
-                f"Content: {read_item_i.memory}"
-            )
-            read_item_i.metadata.source = "web"
-            read_item_i.metadata.memory_type = "OuterMemory"
-            read_item_i.metadata.sources = [SourceMessage(type="web", url=url)] if url else []
-            read_item_i.metadata.visibility = "public"
-            read_item_i.metadata.internet_info = {
-                "title": title,
-                "url": url,
-                "site_name": site_name,
-                "site_icon": site_icon,
-                "summary": summary,
-            }
-            memory_items.append(read_item_i)
-        return memory_items
+        if mode == "fast":
+            info_ = info.copy()
+            user_id = info_.pop("user_id", "")
+            session_id = info_.pop("session_id", "")
+            return [
+                TextualMemoryItem(
+                    memory=(
+                        f"[Outer internet view] Title: {title}\nNewsTime:"
+                        f" {publish_time}\nSummary:"
+                        f" {summary}\n"
+                    ),
+                    metadata=SearchedTreeNodeTextualMemoryMetadata(
+                        user_id=user_id,
+                        session_id=session_id,
+                        memory_type="OuterMemory",
+                        status="activated",
+                        type="fact",
+                        source="web",
+                        sources=[SourceMessage(type="web", url=url)] if url else [],
+                        visibility="public",
+                        info=info_,
+                        background="",
+                        confidence=0.99,
+                        usage=[],
+                        embedding=self.embedder.embed([content])[0],
+                        internet_info={
+                            "title": title,
+                            "url": url,
+                            "site_name": site_name,
+                            "site_icon": site_icon,
+                            "summary": summary,
+                        },
+                    ),
+                )
+            ]
+        else:
+            # Use reader to split and process the content into chunks
+            read_items = self.reader.get_memory([content], type="doc", info=info)
+
+            memory_items = []
+            for read_item_i in read_items[0]:
+                read_item_i.memory = (
+                    f"[Outer internet view] Title: {title}\nNewsTime:"
+                    f" {publish_time}\nSummary:"
+                    f" {summary}\n"
+                    f"Content: {read_item_i.memory}"
+                )
+                read_item_i.metadata.source = "web"
+                read_item_i.metadata.memory_type = "OuterMemory"
+                read_item_i.metadata.sources = [SourceMessage(type="web", url=url)] if url else []
+                read_item_i.metadata.visibility = "public"
+                read_item_i.metadata.internet_info = {
+                    "title": title,
+                    "url": url,
+                    "site_name": site_name,
+                    "site_icon": site_icon,
+                    "summary": summary,
+                }
+                memory_items.append(read_item_i)
+            return memory_items
diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/searcher.py b/src/memos/memories/textual/tree_text_memory/retrieve/searcher.py
@@ -536,7 +536,7 @@ def _retrieve_from_internet(
             return []
         logger.info(f"[PATH-C] '{query}' Retrieving from internet...")
         items = self.internet_retriever.retrieve_from_internet(
-            query=query, top_k=top_k, parsed_goal=parsed_goal, info=info
+            query=query, top_k=top_k, parsed_goal=parsed_goal, info=info, mode=mode
         )
         logger.info(f"[PATH-C] '{query}' Retrieved from internet {len(items)} items: {items}")
         return self.reranker.rerank(
diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/xinyusearch.py b/src/memos/memories/textual/tree_text_memory/retrieve/xinyusearch.py
@@ -12,7 +12,11 @@
 from memos.embedders.factory import OllamaEmbedder
 from memos.log import get_logger
 from memos.mem_reader.base import BaseMemReader
-from memos.memories.textual.item import SourceMessage, TextualMemoryItem
+from memos.memories.textual.item import (
+    SearchedTreeNodeTextualMemoryMetadata,
+    SourceMessage,
+    TextualMemoryItem,
+)
 
 
 logger = get_logger(__name__)
@@ -132,7 +136,7 @@ def __init__(
         self.reader = reader
 
     def retrieve_from_internet(
-        self, query: str, top_k: int = 10, parsed_goal=None, info=None
+        self, query: str, top_k: int = 10, parsed_goal=None, info=None, mode="fast"
     ) -> list[TextualMemoryItem]:
         """
         Retrieve information from Xinyu search and convert to TextualMemoryItem format
@@ -153,7 +157,7 @@ def retrieve_from_internet(
 
         with ContextThreadPoolExecutor(max_workers=8) as executor:
             futures = [
-                executor.submit(self._process_result, result, query, parsed_goal, info)
+                executor.submit(self._process_result, result, query, parsed_goal, info, mode=mode)
                 for result in search_results
             ]
             for future in as_completed(futures):
@@ -303,7 +307,7 @@ def _extract_tags(self, title: str, content: str, summary: str, parsed_goal=None
         return list(set(tags))[:15]  # Limit to 15 tags
 
     def _process_result(
-        self, result: dict, query: str, parsed_goal: str, info: None
+        self, result: dict, query: str, parsed_goal: str, info: None, mode="fast"
     ) -> list[TextualMemoryItem]:
         if not info:
             info = {"user_id": "", "session_id": ""}
@@ -323,18 +327,59 @@ def _process_result(
         else:
             publish_time = datetime.now().strftime("%Y-%m-%d")
 
-        read_items = self.reader.get_memory([content], type="doc", info=info)
-
-        memory_items = []
-        for read_item_i in read_items[0]:
-            read_item_i.memory = (
-                f"Title: {title}\nNewsTime: {publish_time}\nSummary: {summary}\n"
-                f"Content: {read_item_i.memory}"
-            )
-            read_item_i.metadata.source = "web"
-            read_item_i.metadata.memory_type = "OuterMemory"
-            read_item_i.metadata.sources = [SourceMessage(type="web", url=url)] if url else []
-            read_item_i.metadata.visibility = "public"
-
-            memory_items.append(read_item_i)
-        return memory_items
+        if mode == "fast":
+            info_ = info.copy()
+            user_id = info_.pop("user_id", "")
+            session_id = info_.pop("session_id", "")
+            return [
+                TextualMemoryItem(
+                    memory=(
+                        f"[Outer internet view] Title: {title}\nNewsTime:"
+                        f" {publish_time}\nSummary:"
+                        f" {summary}\n"
+                    ),
+                    metadata=SearchedTreeNodeTextualMemoryMetadata(
+                        user_id=user_id,
+                        session_id=session_id,
+                        memory_type="OuterMemory",
+                        status="activated",
+                        type="fact",
+                        source="web",
+                        sources=[SourceMessage(type="web", url=url)] if url else [],
+                        visibility="public",
+                        info=info_,
+                        background="",
+                        confidence=0.99,
+                        usage=[],
+                        embedding=self.embedder.embed([content])[0],
+                        internet_info={
+                            "title": title,
+                            "url": url,
+                            "summary": summary,
+                            "content": content,
+                        },
+                    ),
+                )
+            ]
+        else:
+            read_items = self.reader.get_memory([content], type="doc", info=info)
+
+            memory_items = []
+            for read_item_i in read_items[0]:
+                read_item_i.memory = (
+                    f"Title: {title}\nNewsTime: {publish_time}\nSummary: {summary}\n"
+                    f"Content: {read_item_i.memory}"
+                )
+                read_item_i.metadata.source = "web"
+                read_item_i.metadata.memory_type = "OuterMemory"
+                read_item_i.metadata.sources = [SourceMessage(type="web", url=url)] if url else []
+                read_item_i.metadata.visibility = "public"
+                read_item_i.metadata.internet_info = {
+                    "title": title,
+                    "url": url,
+                    "summary": summary,
+                    "content": content,
+                }
+
+                memory_items.append(read_item_i)
+            return memory_items

Original file line number	Diff line number	Diff line change
`@@ -536,7 +536,7 @@ def _retrieve_from_internet(`
`536`	`536`	`return []`
`537`	`537`	`logger.info(f"[PATH-C] '{query}' Retrieving from internet...")`
`538`	`538`	`items = self.internet_retriever.retrieve_from_internet(`
`539`		`- query=query, top_k=top_k, parsed_goal=parsed_goal, info=info`
	`539`	`+ query=query, top_k=top_k, parsed_goal=parsed_goal, info=info, mode=mode`
`540`	`540`	`)`
`541`	`541`	`logger.info(f"[PATH-C] '{query}' Retrieved from internet {len(items)} items: {items}")`
`542`	`542`	`return self.reranker.rerank(`