Merge branch 'generic_agent_hinter' into scratch/refactor-hint-retrieval

hnekoeiq · web-flow · commit 593e1042ca2c · 2025-10-17T11:28:27.000-04:00
diff --git a/src/agentlab/agents/generic_agent_hinter/__init__.py b/src/agentlab/agents/generic_agent_hinter/__init__.py
@@ -13,6 +13,8 @@
     AGENT_CLAUDE_SONNET_35,
     AGENT_CLAUDE_SONNET_35_VISION,
     AGENT_CUSTOM,
+    AGENT_GPT5_MINI,
+    AGENT_GPT5_NANO,
     AGENT_LLAMA3_70B,
     AGENT_LLAMA4_17B_INSTRUCT,
     AGENT_LLAMA31_70B,
@@ -26,9 +28,7 @@
     AGENT_o3_MINI,
     FLAGS_GPT_4o,
     GenericAgentArgs,
-    AGENT_GPT5_MINI,
 )
-
 from .generic_agent import GenericAgent, GenericAgentArgs
 
 __all__ = [
@@ -50,4 +50,5 @@
     "AGENT_4o_MINI_VISION",
     "AGENT_CLAUDE_SONNET_35_VISION",
     "AGENT_GPT5_MINI",
+    "AGENT_GPT5_NANO",
 ]
diff --git a/src/agentlab/agents/generic_agent_hinter/agent_configs.py b/src/agentlab/agents/generic_agent_hinter/agent_configs.py
@@ -365,6 +365,10 @@
     chat_model_args=CHAT_MODEL_ARGS_DICT["openai/gpt-5-mini-2025-08-07"],
     flags=GPT5_MINI_FLAGS,
 )
+AGENT_GPT5_NANO = GenericAgentArgs(
+    chat_model_args=CHAT_MODEL_ARGS_DICT["openai/gpt-5-nano-2025-08-07"],
+    flags=GPT5_MINI_FLAGS,
+)
 
 AGENT_GPT5 = GenericAgentArgs(
     chat_model_args=CHAT_MODEL_ARGS_DICT["openai/gpt-5-2025-08-07"],
diff --git a/src/agentlab/agents/generic_agent_hinter/generic_agent.py b/src/agentlab/agents/generic_agent_hinter/generic_agent.py
@@ -8,6 +8,7 @@
 the agent, including model arguments and flags for various behaviors.
 """
 
+import os
 from copy import deepcopy
 from dataclasses import asdict, dataclass
 from pathlib import Path
@@ -91,6 +92,8 @@ def __init__(
         self.max_retry = max_retry
 
         self.flags = flags
+        if self.flags.hint_db_path is not None:
+            assert os.path.exists(self.flags.hint_db_path), f"Hint database path {self.flags.hint_db_path} does not exist."
         self.action_set = self.flags.action.action_set.make_action_set()
         self._obs_preprocessor = dp.make_obs_preprocessor(flags.obs)
 
@@ -113,11 +116,9 @@ def get_action(self, obs):
 
         system_prompt = SystemMessage(dp.SystemPrompt().prompt)
 
-        queries, think_queries = self._get_queries()
-
         # use those queries to retrieve from the database and pass to prompt if step-level
         queries_for_hints = (
-            queries if getattr(self.flags, "hint_level", "episode") == "step" else None
+            self._get_queries()[0] if getattr(self.flags, "hint_level", "episode") == "step" else None
         )
 
         # get hints
@@ -211,7 +212,7 @@ def _get_queries(self):
         )
 
         queries = ans_dict.get("queries", [])
-        assert len(queries) == self.flags.n_retrieval_queries
+        assert len(queries) <= self.flags.n_retrieval_queries
 
         # TODO: we should probably propagate these chat_messages to be able to see them in xray
         return queries, ans_dict.get("think", None)
diff --git a/src/agentlab/agents/generic_agent_hinter/generic_agent_prompt.py b/src/agentlab/agents/generic_agent_hinter/generic_agent_prompt.py
@@ -17,6 +17,7 @@
 from agentlab.llm.llm_utils import HumanMessage, parse_html_tags_raise
 from browsergym.core.action.base import AbstractActionSet
 
+logger = logging.getLogger(__name__)
 
 @dataclass
 class GenericPromptFlags(dp.Flags):
@@ -359,13 +360,14 @@ def _prompt(self) -> HumanMessage:
 # Querying memory
 
 Before choosing an action, let's search our available documentation and memory for relevant context.
-Generate a brief, general summary of the current status to help identify useful hints. Return your answer as follow
+Generate a brief, general summary of the current status to help identify useful hints. Return your answer in the following format:
 <think>chain of thought</think>
-<queries>json list of strings</queries> for the queries. Return exactly {self.n_queries} 
-queries in the list.
+<queries>json list of strings of queries</queries>
 
-# Concrete Example
+Additional instructions: List of queries should contain up to {self.n_queries} queries. Both the think and the queries blocks are required!
 
+# Concrete Example
+```
 <think>
 I have to sort by client and country. I could use the built-in sort on each column but I'm not sure if
 I will be able to sort by both at the same time.
@@ -374,6 +376,10 @@ def _prompt(self) -> HumanMessage:
 <queries>
 {example_queries_str}
 </queries>
+```
+Note: do not generate backticks.
+Now proceed to generate your own thoughts and queries.
+Always return non-empty answer, its very important!
 """
         )
 
@@ -384,8 +390,19 @@ def shrink(self):
         self.obs.shrink()
 
     def _parse_answer(self, text_answer):
-        ans_dict = parse_html_tags_raise(
-            text_answer, keys=["think", "queries"], merge_multiple=True
-        )
-        ans_dict["queries"] = json.loads(ans_dict.get("queries", "[]"))
+        try:
+            ans_dict = parse_html_tags_raise(
+                text_answer, keys=["think", "queries"], merge_multiple=True
+            )
+        except Exception as e:
+            t = text_answer.replace("\n", "\\n")
+            logger.warning(f"Failed to parse llm answer: {e}. RAW answer: '{t}'. Will retry")
+            raise e
+        raw_queries = ans_dict.get("queries", "[]")
+        try:
+            ans_dict["queries"] = json.loads(raw_queries)
+        except Exception as e:
+            t = text_answer.replace("\n", "\\n")
+            logger.warning(f"Failed to parse queries: {e}. Queries block content: '{ans_dict['queries']}'. RAW llm answer: '{t}'. Will retry")
+            raise e
         return ans_dict
diff --git a/src/agentlab/agents/tool_use_agent/tool_use_agent.py b/src/agentlab/agents/tool_use_agent/tool_use_agent.py
@@ -44,6 +44,7 @@
 from agentlab.utils.hinting import HintsSource
 
 logger = logging.getLogger(__name__)
+logger.setLevel(logging.INFO)
 
 
 @dataclass
diff --git a/src/agentlab/experiments/launch_exp.py b/src/agentlab/experiments/launch_exp.py
@@ -1,4 +1,5 @@
 import logging
+import os
 from importlib import import_module
 from pathlib import Path
 
@@ -7,6 +8,8 @@
 from agentlab.experiments.exp_utils import run_exp
 from agentlab.experiments.loop import ExpArgs, yield_all_exp_results
 
+RAY_PUBLIC_DASHBOARD = os.environ.get("RAY_PUBLIC_DASHBOARD", "false") == "true"
+
 
 def run_experiments(
     n_jobs,
@@ -82,7 +85,9 @@ def run_experiments(
         elif parallel_backend == "ray":
             from agentlab.experiments.graph_execution_ray import execute_task_graph, ray
 
-            ray.init(num_cpus=n_jobs)
+            ray.init(
+                num_cpus=n_jobs, dashboard_host="0.0.0.0" if RAY_PUBLIC_DASHBOARD else "127.0.0.1"
+            )
             try:
                 execute_task_graph(exp_args_list, avg_step_timeout=avg_step_timeout)
             finally:
diff --git a/src/agentlab/experiments/loop.py b/src/agentlab/experiments/loop.py
@@ -907,14 +907,14 @@ def _move_old_exp(exp_dir):
 
 def _get_env_name(task_name: str):
     """Register tasks if needed (lazy import) and return environment name."""
-
     # lazy import
     if task_name.startswith("miniwob"):
         import browsergym.miniwob
     elif task_name.startswith("workarena"):
         import browsergym.workarena
     elif task_name.startswith("webarena"):
         import browsergym.webarena
+        import browsergym.webarenalite
     elif task_name.startswith("visualwebarena"):
         import browsergym.visualwebarena
     elif task_name.startswith("assistantbench"):