feat: add bocha search

CaralHsi · CaralHsi · commit 21b01078e71e · 2025-07-30T14:29:06.000+08:00
diff --git a/examples/basic_modules/textual_memory_internet_search_example.py b/examples/basic_modules/textual_memory_internet_search_example.py
@@ -0,0 +1,63 @@
+"""
+Example: Using InternetRetrieverFactory with BochaAISearchRetriever
+"""
+
+from memos.configs.embedder import EmbedderConfigFactory
+from memos.configs.internet_retriever import InternetRetrieverConfigFactory
+from memos.embedders.factory import EmbedderFactory
+from memos.memories.textual.tree_text_memory.retrieve.internet_retriever_factory import (
+    InternetRetrieverFactory,
+)
+
+
+# ========= 1. Create an embedder =========
+embedder_config = EmbedderConfigFactory.model_validate(
+    {
+        "backend": "ollama",  # Or "sentence_transformer", etc.
+        "config": {
+            "model_name_or_path": "nomic-embed-text:latest",
+        },
+    }
+)
+embedder = EmbedderFactory.from_config(embedder_config)
+
+# ========= 2. Create retriever config for BochaAI =========
+retriever_config = InternetRetrieverConfigFactory.model_validate(
+    {
+        "backend": "bocha",
+        "config": {
+            "api_key": "sk-xxxx",  # 🔑 Your BochaAI API Key
+            "search_engine_id": "",  # Not required for BochaAI, but field exists for API consistency
+            "max_results": 5,
+            "reader": {  # Reader config for chunking web content
+                "backend": "simple",
+                "config": {},
+            },
+        },
+    }
+)
+
+# ========= 3. Build retriever instance via factory =========
+retriever = InternetRetrieverFactory.from_config(retriever_config, embedder)
+
+# ========= 4. Run BochaAI Web Search =========
+print("=== Scenario 1: Web Search (BochaAI) ===")
+query_web = "Alibaba 2024 ESG report"
+results_web = retriever.retrieve_from_web(query_web)
+
+print(f"Retrieved {len(results_web)} memory items.")
+for idx, item in enumerate(results_web, 1):
+    print(f"[{idx}] {item.memory[:100]}...")  # preview first 100 chars
+
+print("==" * 20)
+
+# ========= 5. Run BochaAI AI Search =========
+print("=== Scenario 2: AI Search (BochaAI) ===")
+query_ai = "Weather in Beijing"
+results_ai = retriever.retrieve_from_ai(query_ai)
+
+print(f"Retrieved {len(results_ai)} memory items.")
+for idx, item in enumerate(results_ai, 1):
+    print(f"[{idx}] {item.memory[:100]}...")
+
+print("==" * 20)
diff --git a/src/memos/configs/internet_retriever.py b/src/memos/configs/internet_retriever.py
@@ -55,6 +55,10 @@ class XinyuSearchConfig(BaseInternetRetrieverConfig):
     )
 
 
+class BochaSearchConfig(XinyuSearchConfig):
+    """Configuration class for Bocha Search API."""
+
+
 class InternetRetrieverConfigFactory(BaseConfig):
     """Factory class for creating internet retriever configurations."""
 
@@ -69,6 +73,7 @@ class InternetRetrieverConfigFactory(BaseConfig):
         "google": GoogleCustomSearchConfig,
         "bing": BingSearchConfig,
         "xinyu": XinyuSearchConfig,
+        "bocha": BochaSearchConfig,
     }
 
     @field_validator("backend")
diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/bochasearch.py b/src/memos/memories/textual/tree_text_memory/retrieve/bochasearch.py
@@ -0,0 +1,179 @@
+"""BochaAI Search API retriever for tree text memory."""
+
+from concurrent.futures import ThreadPoolExecutor, as_completed
+from datetime import datetime
+
+import requests
+
+from memos.embedders.factory import OllamaEmbedder
+from memos.log import get_logger
+from memos.mem_reader.base import BaseMemReader
+from memos.memories.textual.item import TextualMemoryItem
+
+
+logger = get_logger(__name__)
+
+
+class BochaAISearchAPI:
+    """BochaAI Search API Client"""
+
+    def __init__(self, api_key: str, max_results: int = 20):
+        """
+        Initialize BochaAI Search API client.
+
+        Args:
+            api_key: BochaAI API key
+            max_results: Maximum number of search results to retrieve
+        """
+        self.api_key = api_key
+        self.max_results = max_results
+
+        self.web_url = "https://api.bochaai.com/v1/web-search"
+        self.ai_url = "https://api.bochaai.com/v1/ai-search"
+
+        self.headers = {
+            "Authorization": f"Bearer {api_key}",
+            "Content-Type": "application/json",
+        }
+
+    def search_web(self, query: str, summary: bool = True, freshness="noLimit") -> list[dict]:
+        """
+        Perform a Web Search (equivalent to the first curl).
+
+        Args:
+            query: Search query string
+            summary: Whether to include summary in the results
+            freshness: Freshness filter (e.g. 'noLimit', 'day', 'week')
+
+        Returns:
+            A list of search result dicts
+        """
+        body = {
+            "query": query,
+            "summary": summary,
+            "freshness": freshness,
+            "count": self.max_results,
+        }
+        return self._post(self.web_url, body)
+
+    def search_ai(
+        self, query: str, answer: bool = False, stream: bool = False, freshness="noLimit"
+    ) -> list[dict]:
+        """
+        Perform an AI Search (equivalent to the second curl).
+
+        Args:
+            query: Search query string
+            answer: Whether BochaAI should generate an answer
+            stream: Whether to use streaming response
+            freshness: Freshness filter (e.g. 'noLimit', 'day', 'week')
+
+        Returns:
+            A list of search result dicts
+        """
+        body = {
+            "query": query,
+            "freshness": freshness,
+            "count": self.max_results,
+            "answer": answer,
+            "stream": stream,
+        }
+        return self._post(self.ai_url, body)
+
+    def _post(self, url: str, body: dict) -> list[dict]:
+        """Helper method to send POST request and return JSON results."""
+        try:
+            resp = requests.post(url, headers=self.headers, json=body)
+            resp.raise_for_status()
+            data = resp.json()
+            return data.get("results", [])
+        except Exception:
+            import traceback
+
+            logger.error(f"BochaAI search error: {traceback.format_exc()}")
+            return []
+
+
+class BochaAISearchRetriever:
+    """BochaAI retriever that converts search results into TextualMemoryItem objects"""
+
+    def __init__(
+        self, api_key: str, embedder: OllamaEmbedder, reader: BaseMemReader, max_results: int = 20
+    ):
+        """
+        Initialize BochaAI Search retriever.
+
+        Args:
+            api_key: BochaAI API key
+            embedder: Embedder instance for generating embeddings
+            reader: MemReader instance for processing internet content
+            max_results: Maximum number of search results to retrieve
+        """
+        self.bocha_api = BochaAISearchAPI(api_key, max_results=max_results)
+        self.embedder = embedder
+        self.reader = reader
+
+    def retrieve_from_web(
+        self, query: str, top_k: int = 10, parsed_goal=None, info=None
+    ) -> list[TextualMemoryItem]:
+        """Retrieve information using BochaAI Web Search."""
+        search_results = self.bocha_api.search_web(query)
+        return self._convert_to_mem_items(search_results, query, parsed_goal, info)
+
+    def retrieve_from_ai(
+        self, query: str, top_k: int = 10, parsed_goal=None, info=None
+    ) -> list[TextualMemoryItem]:
+        """Retrieve information using BochaAI AI Search."""
+        search_results = self.bocha_api.search_ai(query)
+        return self._convert_to_mem_items(search_results, query, parsed_goal, info)
+
+    def _convert_to_mem_items(
+        self, search_results: list[dict], query: str, parsed_goal=None, info=None
+    ):
+        """Convert API search results into TextualMemoryItem objects."""
+        memory_items = []
+        if not info:
+            info = {"user_id": "", "session_id": ""}
+
+        with ThreadPoolExecutor(max_workers=8) as executor:
+            futures = [
+                executor.submit(self._process_result, r, query, parsed_goal, info)
+                for r in search_results
+            ]
+            for future in as_completed(futures):
+                try:
+                    memory_items.extend(future.result())
+                except Exception as e:
+                    logger.error(f"Error processing BochaAI search result: {e}")
+
+        # Deduplicate items by memory text
+        unique_memory_items = {item.memory: item for item in memory_items}
+        return list(unique_memory_items.values())
+
+    def _process_result(
+        self, result: dict, query: str, parsed_goal: str, info: None
+    ) -> list[TextualMemoryItem]:
+        """Process a single result into one or more TextualMemoryItems."""
+        title = result.get("title", "")
+        content = result.get("content", "")
+        summary = result.get("summary", "")
+        url = result.get("url", "")
+        publish_time = datetime.now().strftime(
+            "%Y-%m-%d"
+        )  # Optional: can map to API field if exists
+
+        # Use reader to split and process the content into chunks
+        read_items = self.reader.get_memory([content], type="doc", info=info)
+
+        memory_items = []
+        for read_item_i in read_items[0]:
+            read_item_i.memory = (
+                f"Title: {title}\nNewsTime: {publish_time}\nSummary: {summary}\n"
+                f"Content: {read_item_i.memory}"
+            )
+            read_item_i.metadata.source = "web"
+            read_item_i.metadata.memory_type = "OuterMemory"
+            read_item_i.metadata.sources = [url] if url else []
+            read_item_i.metadata.visibility = "public"
+            memory_items.append(read_item_i)
+        return memory_items
diff --git a/src/memos/memories/textual/tree_text_memory/retrieve/internet_retriever_factory.py b/src/memos/memories/textual/tree_text_memory/retrieve/internet_retriever_factory.py
@@ -5,6 +5,7 @@
 from memos.configs.internet_retriever import InternetRetrieverConfigFactory
 from memos.embedders.base import BaseEmbedder
 from memos.mem_reader.factory import MemReaderFactory
+from memos.memories.textual.tree_text_memory.retrieve.bochasearch import BochaAISearchRetriever
 from memos.memories.textual.tree_text_memory.retrieve.internet_retriever import (
     InternetGoogleRetriever,
 )
@@ -18,6 +19,7 @@ class InternetRetrieverFactory:
         "google": InternetGoogleRetriever,
         "bing": InternetGoogleRetriever,  # TODO: Implement BingRetriever
         "xinyu": XinyuSearchRetriever,
+        "bocha": BochaAISearchRetriever,
     }
 
     @classmethod
@@ -62,7 +64,7 @@ def from_config(
                 max_results=config.max_results,
                 num_per_request=config.num_per_request,
             )
-        elif backend == "xinyu":
+        elif backend == "xinyu" or backend == "bocha":
             return retriever_class(
                 access_key=config.api_key,  # Use api_key as access_key for xinyu
                 search_engine_id=config.search_engine_id,

Original file line number	Diff line number	Diff line change
`@@ -55,6 +55,10 @@ class XinyuSearchConfig(BaseInternetRetrieverConfig):`
`55`	`55`	`)`
`56`	`56`
`57`	`57`
	`58`	`+class BochaSearchConfig(XinyuSearchConfig):`
	`59`	`+ """Configuration class for Bocha Search API."""`
	`60`	`+`
	`61`	`+`
`58`	`62`	`class InternetRetrieverConfigFactory(BaseConfig):`
`59`	`63`	`"""Factory class for creating internet retriever configurations."""`
`60`	`64`
`@@ -69,6 +73,7 @@ class InternetRetrieverConfigFactory(BaseConfig):`
`69`	`73`	`"google": GoogleCustomSearchConfig,`
`70`	`74`	`"bing": BingSearchConfig,`
`71`	`75`	`"xinyu": XinyuSearchConfig,`
	`76`	`+ "bocha": BochaSearchConfig,`
`72`	`77`	`}`
`73`	`78`
`74`	`79`	`@field_validator("backend")`