fixes

ollmer · ollmer · commit 805c717095af · 2025-12-05T14:46:15.000Z
diff --git a/src/agentlab/agents/react_toolcall_agent.py b/src/agentlab/agents/react_toolcall_agent.py
@@ -145,7 +145,7 @@ def get_action(self, obs: dict) -> tuple[ToolCall, dict]:
         messages = self.history + [{"role": "user", "content": self.config.guidance}]
 
         try:
-            logger.info(colored(f"Prompt:\n{pprint.pformat(messages, width=120)}", "blue"))
+            logger.info(colored(f"Prompt:\n{pprint.pformat([str(m)[:500] for m in messages], width=120)}", "blue"))
             response = self.llm(tools=self.tools, messages=messages)
             message = response.choices[0].message  # type: ignore
         except Exception as e:
diff --git a/src/agentlab/backends/browser/playwright.py b/src/agentlab/backends/browser/playwright.py
@@ -43,6 +43,7 @@ def initialize(self):
             _pw = sync_playwright().start()
         if _browser is None:
             _browser = _pw.chromium.launch(headless=True, chromium_sandbox=True)
+
         self._page = _browser.new_page()
 
     @property
@@ -93,8 +94,17 @@ def evaluate_js(self, js: str):
         return js_result
 
     def goto(self, url: str):
+        """Navigate to a specified URL."""
         self._page.goto(url)
 
+    def browser_back(self):
+        """Navigate back in browser history."""
+        self._page.go_back()
+
+    def browser_forward(self):
+        """Navigate forward in browser history."""
+        self._page.go_forward()
+
     def page_html(self) -> str:
         return self._page.content()
 
@@ -157,7 +167,7 @@ async def initialize(self):
         if _apw is None:
             _apw = await async_playwright().start()
         if _abrowser is None:
-            _abrowser = await _apw.chromium.launch(headless=True, chromium_sandbox=True)
+            _abrowser = await _apw.chromium.launch(headless=False, chromium_sandbox=True)
         self._page = await _abrowser.new_page()
 
     async def browser_press_key(self, key: str):
diff --git a/src/agentlab/benchmarks/workarena/benchmark.py b/src/agentlab/benchmarks/workarena/benchmark.py
@@ -4,7 +4,6 @@
 from browsergym.workarena import get_all_tasks_agents
 from browsergym.workarena.instance import SNowInstance
 from pydantic import ConfigDict
-from ray.cloudpickle import instance
 
 from agentlab.actions import ToolsActionSet
 from agentlab.backends.browser.base import BrowserBackend
@@ -22,6 +21,7 @@ class WorkArenaBenchmark(AbstractBenchmark):
     backend_cls: type[BrowserBackend]
     name: str = "workarena"
     level: str = "l1"
+    n_seeds: int = 1
     env_args_list: list[BrowserEnvArgs] = None  # type: ignore
     dataset: list[WorkarenaTask] = None  # type: ignore
     is_multi_tab: bool = False
@@ -33,16 +33,15 @@ def model_post_init(self, __context: Any) -> None:
         self._snow_instance = SNowInstance()
         self.env_args_list = []
         if self.dataset is None:
-            task_seed_tuples = get_all_tasks_agents(filter=self.level)
-            self.dataset = self.load_tasks(task_seed_tuples, self.level)
+            self.dataset = self.load_tasks(self.level)
         for task in self.dataset:
             env_args = BrowserEnvArgs(task=task, backend_cls=self.backend_cls)
             self.env_args_list.append(env_args)
         logger.info(f"Loaded {len(self.env_args_list)} workarena tasks")
 
-    def load_tasks(self, task_seed_tuples: list[tuple[type, int]], level: str) -> list[WorkarenaTask]:
+    def load_tasks(self, level: str) -> list[WorkarenaTask]:
+        task_seed_tuples = get_all_tasks_agents(filter=self.level, n_seed_l1=self.n_seeds)
         tasks = []
-        
         for task_cls, seed in task_seed_tuples:
             task = WorkarenaTask(
                 url="",
@@ -53,4 +52,5 @@ def load_tasks(self, task_seed_tuples: list[tuple[type, int]], level: str) -> li
                 seed=seed,
             )
             tasks.append(task)
+        logger.info(f"Loaded {len(tasks)} tasks for level {level}")
         return tasks
diff --git a/src/agentlab/benchmarks/workarena/task.py b/src/agentlab/benchmarks/workarena/task.py
@@ -24,23 +24,23 @@ class WorkarenaTask(AbstractWebTask):
     actions_whitelist: ClassVar[list[str]] = [
         "browser_press_key",
         "browser_type",
-        "browser_click",
-        "browser_drag",
-        "browser_hover",
         "browser_select_option",
         "browser_mouse_click_xy",
         "browser_wait",
+        "browser_back",
+        "browser_forward",
     ]
 
     def setup(self, backend: BrowserBackend) -> tuple[str, dict]:
         if not backend.has_pw_page:
             raise ValueError("Workarena task requires a backend with playwright page access.")
         self._backend = backend
-        self._task_obj = self.task_cls(instance=self.instance, seed=self.seed) # type: ignore
+        self._task_obj = self.task_cls(instance=self.instance, seed=self.seed)  # type: ignore
         self.url = self._task_obj.start_url
         goal, info = self._task_obj.setup(backend.page)
+        backend.goto(self.url)
         logger.info(f"Current backend page URL: {backend.page.url}")
-        # backend.goto(self.url)
+
         return goal, info
 
     def teardown(self) -> None:
@@ -54,4 +54,4 @@ def validate(self) -> tuple[float, dict]:
     def obs_postprocess(self, obs: dict) -> dict:
         html = obs.pop("html", "")
         obs["pruned_html"] = prune_html(html)
-        return obs
+        return obs