fix(agent): bootstrap latency caused by litellm network request

yaozheng-fang · yaozheng-fang · commit 70fdefda13ca · 2025-11-07T16:26:27.000+08:00
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "veadk-python"
-version = "0.2.20"
+version = "0.2.21"
 description = "Volcengine agent development kit, integrations with Volcengine cloud services."
 readme = "README.md"
 requires-python = ">=3.10"
diff --git a/veadk/agent.py b/veadk/agent.py
@@ -21,7 +21,6 @@
 from google.adk.agents.base_agent import BaseAgent
 from google.adk.agents.llm_agent import InstructionProvider, ToolUnion
 from google.adk.agents.run_config import StreamingMode
-from google.adk.models.lite_llm import LiteLlm
 from google.adk.runners import Runner
 from google.genai import types
 from pydantic import ConfigDict, Field
@@ -71,62 +70,6 @@ class Agent(LlmAgent):
         short_term_memory (Optional[ShortTermMemory]): Session-based memory for temporary context.
         long_term_memory (Optional[LongTermMemory]): Cross-session memory for persistent user context.
         tracers (list[BaseTracer]): List of tracers used for telemetry and monitoring.
-
-    Notes:
-        Before creating your agent, you should get the API Key for your model.
-
-    Examples:
-        ### Simple agent
-
-        Create a simplest agent without any extra settings. All agent attributes are come from environment variables and default values. Like:
-
-        ```python
-        import asyncio
-
-        from veadk import Agent, Runner
-
-        root_agent = Agent()
-
-        runner = Runner(agent=root_agent)
-
-        response = asyncio.run(runner.run("hello"))
-        print(response)
-        ```
-
-        You can set some agent metadata attributes by the following code:
-
-        ```python
-        from veadk import Agent
-
-        from veadk import Agent, Runner
-
-        root_agent = Agent(
-            name="meeting_assistant",
-            description="An assistant that helps user to make meetings.",
-            # system prompt
-            instruction="First learn about user's meeting time, location, and other key informations, and give out a meeting plan.",
-        )
-        ```
-
-        Or, once you want to use your local-serving model or models from other provider, you can specify some model-related configurations in initiation arguments:
-
-        ```python
-        agent = Agent(model_name="", model_api_key="", model_api_base="")
-        ```
-
-        Besides, you can specify some extra options by ARK requirements, such as:
-
-        ```python
-        # disable thinking
-        model_extra_config = {}
-        ```
-
-        In some systems, mulitple-agent based design is necessary, you can implement a multiple-agent system by `sub_agent` argument:
-
-        ```python
-        from veadk import Agent
-        ```
-
     """
 
     model_config = ConfigDict(arbitrary_types_allowed=True, extra="allow")
@@ -198,6 +141,14 @@ def model_post_init(self, __context: Any) -> None:
         logger.info(f"Model extra config: {self.model_extra_config}")
 
         if not self.model:
+            # If user didn't set LITELLM_LOCAL_MODEL_COST_MAP, set it to True
+            # to enable local model cost map.
+            # This value is `false` by default, which brings heavy performance burden,
+            # for instance, about 10s latency.
+            if not os.getenv("LITELLM_LOCAL_MODEL_COST_MAP"):
+                os.environ["LITELLM_LOCAL_MODEL_COST_MAP"] = "True"
+            from google.adk.models.lite_llm import LiteLlm
+
             self.model = LiteLlm(
                 model=f"{self.model_provider}/{self.model_name}",
                 api_key=self.model_api_key,
@@ -227,9 +178,10 @@ def model_post_init(self, __context: Any) -> None:
         if self.long_term_memory is not None:
             from google.adk.tools import load_memory
 
-            if not load_memory.custom_metadata:
-                load_memory.custom_metadata = {}
-            load_memory.custom_metadata["backend"] = self.long_term_memory.backend
+            if hasattr(load_memory, "custom_metadata"):
+                if not load_memory.custom_metadata:
+                    load_memory.custom_metadata = {}
+                load_memory.custom_metadata["backend"] = self.long_term_memory.backend
             self.tools.append(load_memory)
 
         logger.info(f"VeADK version: {VERSION}")
diff --git a/veadk/tracing/telemetry/exporters/apmplus_exporter.py b/veadk/tracing/telemetry/exporters/apmplus_exporter.py
@@ -402,7 +402,7 @@ def record_tool_call(
         operation_type = "tool"
         operation_name = tool.name
         operation_backend = ""
-        if tool.custom_metadata:
+        if hasattr(tool, "custom_metadata") and tool.custom_metadata:
             operation_backend = tool.custom_metadata.get("backend", "")
 
         attributes = {
diff --git a/veadk/version.py b/veadk/version.py
@@ -12,4 +12,4 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-VERSION = "0.2.20"
+VERSION = "0.2.21"