hud-evals
diff --git a/‎docs/docs.json‎
Lines changed: 1 addition & 1 deletion b/‎docs/docs.json‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/index.mdx‎
Lines changed: 1 addition & 1 deletion b/‎docs/index.mdx‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎docs/train-agents/quickstart.mdx‎
Lines changed: 12 additions & 0 deletions b/‎docs/train-agents/quickstart.mdx‎
Lines changed: 12 additions & 0 deletions
diff --git a/‎environments/blank/server/pyproject.toml‎
Lines changed: 1 addition & 1 deletion b/‎environments/blank/server/pyproject.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎environments/browser/server/pyproject.toml‎
Lines changed: 1 addition & 1 deletion b/‎environments/browser/server/pyproject.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎environments/deepresearch/server/pyproject.toml‎
Lines changed: 1 addition & 1 deletion b/‎environments/deepresearch/server/pyproject.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎hud/cli/__init__.py‎
Lines changed: 6 additions & 3 deletions b/‎hud/cli/__init__.py‎
Lines changed: 6 additions & 3 deletions
diff --git a/‎hud/cli/build.py‎
Lines changed: 35 additions & 27 deletions b/‎hud/cli/build.py‎
Lines changed: 35 additions & 27 deletions
diff --git a/‎hud/cli/dev.py‎
Lines changed: 11 additions & 29 deletions b/‎hud/cli/dev.py‎
Lines changed: 11 additions & 29 deletions
diff --git a/‎hud/cli/tests/test_build.py‎
Lines changed: 20 additions & 0 deletions b/‎hud/cli/tests/test_build.py‎
Lines changed: 20 additions & 0 deletions
@@ -29,7 +29,7 @@
   "navigation": {
     "versions": [
       {
-        "version": "0.4.52",
+        "version": "0.4.53",
         "groups": [
           {
             "group": "Get Started",
 
@@ -5,7 +5,7 @@ icon: "book"
 ---
 
 <Note>
-**Version 0.4.52** - Latest stable release
+**Version 0.4.53** - Latest stable release
 </Note>
 
 <CardGroup cols={3}>
 
@@ -3,6 +3,18 @@ title: "RL Quickstart"
 icon: "graduation-cap"
 ---
 
+## Prerequisites
+
+- HUD API key: Remote training requires authentication. Set `HUD_API_KEY` before running:
+
+```bash
+export HUD_API_KEY="sk-hud-..."  # get one at https://hud.so
+# Or persist it locally:
+hud set HUD_API_KEY=sk-hud-...
+```
+
+- Docker daemon: For local runs (using `--local`) or when training against a local Docker image, ensure Docker Desktop is installed and the Docker daemon is running.
+
 ## Quickstart
 
 Install and download a taskset:
 
@@ -4,7 +4,7 @@ version = "0.1.0"
 description = "MCP server for blank environment"
 requires-python = ">=3.11"
 dependencies = [
-    "hud-python>=0.4.52",
+    "hud-python>=0.4.53",
     "httpx>=0.28.1",
 ]
 
 
@@ -4,7 +4,7 @@ version = "0.1.0"
 description = "HUD Browser MCP Server"
 requires-python = ">=3.11,<3.14"
 dependencies = [
-    "hud-python>=0.4.52",
+    "hud-python>=0.4.53",
     "httpx",
     "playwright",
     "pyautogui",
 
@@ -4,7 +4,7 @@ version = "0.1.0"
 description = "MCP server for DeepResearch environment"
 requires-python = ">=3.11"
 dependencies = [
-    "hud-python>=0.4.52",
+    "hud-python>=0.4.53",
     "httpx>=0.24.0",
 ]
 
 
@@ -242,15 +242,18 @@ def debug(
                 if build and not build_environment(directory, image_name):
                     raise typer.Exit(1)
 
-            # Build Docker command
-            from .utils.docker import build_run_command
+            # Build Docker command with folder-mode envs
+            from .utils.docker import create_docker_run_command
 
-            command = build_run_command(image_name, docker_args)
+            command = create_docker_run_command(
+                image_name, docker_args=docker_args, env_dir=directory
+            )
         else:
             # Assume it's an image name
             image = first_param
             from .utils.docker import build_run_command
 
+            # Image-only mode: do not auto-inject local .env
             command = build_run_command(image, docker_args)
     else:
         console.print(
 
@@ -161,49 +161,42 @@ async def analyze_mcp_environment(
     hud_console = HUDConsole()
     env_vars = env_vars or {}
 
-    # Build Docker command to run the image
-    docker_cmd = ["docker", "run", "--rm", "-i"]
+    # Build Docker command to run the image, injecting any provided env vars
+    from hud.cli.utils.docker import build_env_flags
 
-    # Add environment variables
-    for key, value in env_vars.items():
-        docker_cmd.extend(["-e", f"{key}={value}"])
+    docker_cmd = ["docker", "run", "--rm", "-i", *build_env_flags(env_vars), image]
 
-    docker_cmd.append(image)
+    # Show full docker command being used for analysis
+    hud_console.dim_info("Command:", " ".join(docker_cmd))
 
-    # Create MCP config
-    config = {
-        "server": {"command": docker_cmd[0], "args": docker_cmd[1:] if len(docker_cmd) > 1 else []}
-    }
+    # Create MCP config consistently with analyze helpers
+    from hud.cli.analyze import parse_docker_command
+
+    mcp_config = parse_docker_command(docker_cmd)
 
     # Initialize client and measure timing
     start_time = time.time()
-    client = MCPClient(mcp_config=config, verbose=verbose, auto_trace=False)
+    client = MCPClient(mcp_config=mcp_config, verbose=verbose, auto_trace=False)
     initialized = False
 
     try:
         if verbose:
-            hud_console.info(f"Initializing MCP client with command: {' '.join(docker_cmd)}")
+            hud_console.info("Initializing MCP client...")
 
-        # Add timeout to fail fast instead of hanging (30 seconds)
+        # Add timeout to fail fast instead of hanging (60 seconds)
         await asyncio.wait_for(client.initialize(), timeout=60.0)
         initialized = True
         initialize_ms = int((time.time() - start_time) * 1000)
 
-        # Get tools
-        tools = await client.list_tools()
-
-        # Extract tool information
-        tool_info = []
-        for tool in tools:
-            tool_dict = {"name": tool.name, "description": tool.description}
-            if hasattr(tool, "inputSchema") and tool.inputSchema:
-                tool_dict["inputSchema"] = tool.inputSchema
-            tool_info.append(tool_dict)
+        # Delegate to standard analysis helper for consistency
+        full_analysis = await client.analyze_environment()
 
+        # Normalize to build's expected fields
+        tools_list = full_analysis.get("tools", [])
         return {
             "initializeMs": initialize_ms,
-            "toolCount": len(tools),
-            "tools": tool_info,
+            "toolCount": len(tools_list),
+            "tools": tools_list,
             "success": True,
         }
     except TimeoutError:
@@ -295,6 +288,10 @@ def build_environment(
         hud_console.error(f"Directory not found: {directory}")
         raise typer.Exit(1)
 
+    from hud.cli.utils.docker import require_docker_running
+
+    require_docker_running()
+
     # Step 1: Check for hud.lock.yaml (previous build)
     lock_path = env_dir / "hud.lock.yaml"
     base_name = None
@@ -355,13 +352,24 @@ def build_environment(
 
     hud_console.success(f"Built temporary image: {temp_tag}")
 
-    # Analyze the environment
+    # Analyze the environment (merge folder .env if present)
     hud_console.progress_message("Analyzing MCP environment...")
 
     loop = asyncio.new_event_loop()
     asyncio.set_event_loop(loop)
     try:
-        analysis = loop.run_until_complete(analyze_mcp_environment(temp_tag, verbose, env_vars))
+        # Merge .env from env_dir for analysis only
+        try:
+            from hud.cli.utils.docker import load_env_vars_for_dir
+
+            env_from_file = load_env_vars_for_dir(env_dir)
+        except Exception:
+            env_from_file = {}
+        merged_env_for_analysis = {**env_from_file, **(env_vars or {})}
+
+        analysis = loop.run_until_complete(
+            analyze_mcp_environment(temp_tag, verbose, merged_env_for_analysis)
+        )
     except Exception as e:
         hud_console.error(f"Failed to analyze MCP environment: {e}")
         hud_console.info("")
 
@@ -504,15 +504,12 @@ def run_docker_dev_server(
     base_name = image_name.replace(":", "-").replace("/", "-")
     container_name = f"{base_name}-dev-{pid}"
 
-    # Build docker run command with volume mounts
-    docker_cmd = [
-        "docker",
-        "run",
-        "--rm",
-        "-i",
+    # Build docker run command with volume mounts and folder-mode envs
+    from .utils.docker import create_docker_run_command
+
+    base_args = [
         "--name",
         container_name,
-        # Mount both server and environment for hot-reload
         "-v",
         f"{env_dir.absolute()}/server:/app/server:rw",
         "-v",
@@ -524,29 +521,14 @@ def run_docker_dev_server(
         "-e",
         "HUD_DEV=1",
     ]
+    combined_args = [*base_args, *docker_args] if docker_args else base_args
+    docker_cmd = create_docker_run_command(
+        image_name,
+        docker_args=combined_args,
+        env_dir=env_dir,
+    )
 
-    # Load .env file if present
-    env_file = env_dir / ".env"
-    loaded_env_vars: dict[str, str] = {}
-    if env_file.exists():
-        try:
-            from hud.cli.utils.config import parse_env_file
-
-            env_contents = env_file.read_text(encoding="utf-8")
-            loaded_env_vars = parse_env_file(env_contents)
-            for key, value in loaded_env_vars.items():
-                docker_cmd.extend(["-e", f"{key}={value}"])
-            if verbose and loaded_env_vars:
-                hud_console.info(f"Loaded {len(loaded_env_vars)} env var(s) from .env")
-        except Exception as e:
-            hud_console.warning(f"Failed to load .env file: {e}")
-
-    # Add user-provided Docker arguments
-    if docker_args:
-        docker_cmd.extend(docker_args)
-
-    # Append the image name
-    docker_cmd.append(image_name)
+    # Env flags already injected by create_docker_run_command
 
     # Print startup info
     hud_console.header("HUD Development Mode (Docker)")
 
@@ -219,6 +219,17 @@ async def test_analyze_success(self, mock_client_class):
         mock_tool.description = "Test tool"
         mock_tool.inputSchema = {"type": "object"}
 
+        # Prefer analyze_environment path (aligns with analyze CLI tests)
+        mock_client.analyze_environment = mock.AsyncMock(
+            return_value={
+                "metadata": {"servers": ["local"], "initialized": True},
+                "tools": [{"name": "test_tool", "description": "Test tool"}],
+                "hub_tools": {},
+                "resources": [],
+                "telemetry": {},
+            }
+        )
+        # Fallback still defined for completeness
         mock_client.list_tools.return_value = [mock_tool]
 
         result = await analyze_mcp_environment("test:latest")
@@ -247,6 +258,15 @@ async def test_analyze_verbose_mode(self, mock_client_class):
         """Test analysis in verbose mode."""
         mock_client = mock.AsyncMock()
         mock_client_class.return_value = mock_client
+        mock_client.analyze_environment = mock.AsyncMock(
+            return_value={
+                "metadata": {"servers": ["local"], "initialized": True},
+                "tools": [],
+                "hub_tools": {},
+                "resources": [],
+                "telemetry": {},
+            }
+        )
         mock_client.list_tools.return_value = []
 
         # Just test that it runs without error in verbose mode
Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@`
`29`	`29`	`"navigation": {`
`30`	`30`	`"versions": [`
`31`	`31`	`{`
`32`		`- "version": "0.4.52",`
	`32`	`+ "version": "0.4.53",`
`33`	`33`	`"groups": [`
`34`	`34`	`{`
`35`	`35`	`"group": "Get Started",`
Original file line number	Diff line number	Diff line change
`@@ -4,7 +4,7 @@ version = "0.1.0"`
`4`	`4`	`description = "MCP server for blank environment"`
`5`	`5`	`requires-python = ">=3.11"`
`6`	`6`	`dependencies = [`
`7`		`- "hud-python>=0.4.52",`
	`7`	`+ "hud-python>=0.4.53",`
`8`	`8`	`"httpx>=0.28.1",`
`9`	`9`	`]`
`10`	`10`
Original file line number	Diff line number	Diff line change
`@@ -4,7 +4,7 @@ version = "0.1.0"`
`4`	`4`	`description = "MCP server for DeepResearch environment"`
`5`	`5`	`requires-python = ">=3.11"`
`6`	`6`	`dependencies = [`
`7`		`- "hud-python>=0.4.52",`
	`7`	`+ "hud-python>=0.4.53",`
`8`	`8`	`"httpx>=0.24.0",`
`9`	`9`	`]`
`10`	`10`