Feat/scenario improvements #261

lorenss-m · 2026-01-08T01:55:14Z

Note

Introduces hierarchical agent orchestration and gateway routing, plus MCP serving improvements and docs.

New AgentTool: Wrap scenarios as tools with eval-only param filtering and trace continuity; exported in hud.tools with tests
Gateway integration: create_agent() factory, gateway.py client builder, and model resolver.py; CLI eval routes by provider; comprehensive tests
Environment MCP serving: Auto-connect on run, override list/call to include connector tools; adds tests; docs add serve()/http_app() usage
Task/Eval semantics: Task.args now optional (template vs runnable); loaders default args to {}; eval context validates args and scenario setup uses {}; runners normalize AgentType usage; telemetry/tests adjusted
Schema tweak: Strip format in strict JSON schema
Docs: New "Ops Diagnostics Agent" cookbook; expands Tools (AgentTool) and Environment (serving) references; updates docs.json
Version: Bump to 0.5.3 (code and tests)

^{Written by Cursor Bugbot for commit cd0cc40. This will update automatically on new commits. Configure here.}

- Add Scenario.as_agent_tool() for creating tools that spawn fresh agents - Add Scenario.from_remote() for remote scenario handles via MCP - Add hud.scenario() module-level helper - Add create_agent() factory in hud/agents for programmatic agent creation - Resolve stash merge conflicts (taskset_id naming)

hud/eval/task.py

hud/agents/__init__.py

hud/tools/agent.py

hud/tools/tests/test_agent_tool.py

hud/tools/agent.py

…ments

hud/agents/resolver.py

lorenss-m added 3 commits January 7, 2026 16:22

scenario as tool simplification

d70d2b0

change agent resolution for easier model switching

b2de659

cursor bot reviewed Jan 8, 2026

View reviewed changes

hud/eval/task.py Outdated Show resolved Hide resolved

lorenss-m added 9 commits January 7, 2026 18:17

agent tool does not get optional params (eval params)

32b3118

fix tests

8f9f2ba

change routing logic and add tests

b957818

lint

219f255

add convenience back

627a6e3

fix edge cases

85aad98

mock path fixes

8e6b186

change import paths

760f6c8

format

2a5f10b

cursor bot reviewed Jan 8, 2026

View reviewed changes

hud/agents/__init__.py Outdated Show resolved Hide resolved

hud/tools/agent.py Show resolved Hide resolved

lorenss-m added 2 commits January 7, 2026 19:45

fix agent edge cases

99fd3c2

nested tracing

d74edb4

cursor bot reviewed Jan 8, 2026

View reviewed changes

hud/tools/tests/test_agent_tool.py Outdated Show resolved Hide resolved

hud/tools/agent.py Show resolved Hide resolved

lorenss-m added 4 commits January 7, 2026 20:45

fix tests

6415762

agent tool examples

7027550

docs link

332f42d

fix env connector

5325d29

cursor bot reviewed Jan 8, 2026

View reviewed changes

hud/tools/agent.py Outdated Show resolved Hide resolved

lorenss-m added 8 commits January 8, 2026 12:53

add routing and tools updates for remote

f17a93b

add tests to remote connectors and improve connection

c4188d2

more precise tests

9f95e0f

fix: strip format field from JSON schemas for OpenAI strict mode

f9e18eb

Merge remote-tracking branch 'origin/main' into feat/scenario-improve…

757d645

…ments

move

f3c9e0c

Merge main into feat/scenario-improvements, combine cookbooks

2f67cde

rm commit

ff91f24

format

b1c91b5

cursor bot reviewed Jan 9, 2026

View reviewed changes

hud/agents/resolver.py Outdated Show resolved Hide resolved

provider fix

cd0cc40

lorenss-m merged commit 227ea8a into main Jan 9, 2026
9 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Feat/scenario improvements #261

Feat/scenario improvements #261

Uh oh!

lorenss-m commented Jan 8, 2026 •

edited by cursor bot

Loading

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Feat/scenario improvements #261

Feat/scenario improvements #261

Uh oh!

Conversation

lorenss-m commented Jan 8, 2026 • edited by cursor bot Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

lorenss-m commented Jan 8, 2026 •

edited by cursor bot

Loading