Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md
RT-1_baseline_0000.json	RT-1_baseline_0000.json
RT-1_baseline_0001.json	RT-1_baseline_0001.json
RT-1_baseline_0002.json	RT-1_baseline_0002.json
RT-1_baseline_0003.json	RT-1_baseline_0003.json
RT-1_baseline_0004.json	RT-1_baseline_0004.json
RT-1_baseline_0005.json	RT-1_baseline_0005.json
RT-1_baseline_0006.json	RT-1_baseline_0006.json
RT-1_baseline_0007.json	RT-1_baseline_0007.json
RT-1_baseline_0008.json	RT-1_baseline_0008.json
RT-1_baseline_0009.json	RT-1_baseline_0009.json
RT-1_baseline_0010.json	RT-1_baseline_0010.json
RT-1_baseline_0011.json	RT-1_baseline_0011.json
RT-1_baseline_0012.json	RT-1_baseline_0012.json
RT-1_baseline_0013.json	RT-1_baseline_0013.json
RT-1_baseline_0014.json	RT-1_baseline_0014.json
RT-1_baseline_0015.json	RT-1_baseline_0015.json
RT-1_baseline_0016.json	RT-1_baseline_0016.json
RT-1_baseline_0017.json	RT-1_baseline_0017.json
RT-1_baseline_0018.json	RT-1_baseline_0018.json
RT-1_baseline_0019.json	RT-1_baseline_0019.json
RT-1_baseline_0020.json	RT-1_baseline_0020.json
RT-1_baseline_0021.json	RT-1_baseline_0021.json
RT-1_baseline_0022.json	RT-1_baseline_0022.json
RT-1_baseline_0023.json	RT-1_baseline_0023.json
RT-1_baseline_0024.json	RT-1_baseline_0024.json
RT-1_baseline_0025.json	RT-1_baseline_0025.json
RT-1_baseline_0026.json	RT-1_baseline_0026.json
RT-1_baseline_0027.json	RT-1_baseline_0027.json
RT-1_baseline_0028.json	RT-1_baseline_0028.json
RT-1_baseline_0029.json	RT-1_baseline_0029.json
RT-1_baseline_0030.json	RT-1_baseline_0030.json
RT-1_baseline_0031.json	RT-1_baseline_0031.json
RT-1_baseline_0032.json	RT-1_baseline_0032.json
RT-1_baseline_0033.json	RT-1_baseline_0033.json
RT-1_baseline_0034.json	RT-1_baseline_0034.json
RT-1_baseline_0035.json	RT-1_baseline_0035.json
RT-1_baseline_0036.json	RT-1_baseline_0036.json
RT-1_baseline_0037.json	RT-1_baseline_0037.json
RT-1_baseline_0038.json	RT-1_baseline_0038.json
RT-1_baseline_0039.json	RT-1_baseline_0039.json
RT-1_baseline_0040.json	RT-1_baseline_0040.json
RT-1_baseline_0041.json	RT-1_baseline_0041.json
RT-1_baseline_0042.json	RT-1_baseline_0042.json
RT-1_baseline_0043.json	RT-1_baseline_0043.json
RT-1_baseline_0044.json	RT-1_baseline_0044.json
RT-1_baseline_0045.json	RT-1_baseline_0045.json
RT-1_baseline_0046.json	RT-1_baseline_0046.json
RT-1_baseline_0047.json	RT-1_baseline_0047.json
RT-1_baseline_0048.json	RT-1_baseline_0048.json
RT-1_baseline_0049.json	RT-1_baseline_0049.json
RT-1_haarf_0000.json	RT-1_haarf_0000.json
RT-1_haarf_0001.json	RT-1_haarf_0001.json
RT-1_haarf_0002.json	RT-1_haarf_0002.json
RT-1_haarf_0003.json	RT-1_haarf_0003.json
RT-1_haarf_0004.json	RT-1_haarf_0004.json
RT-1_haarf_0005.json	RT-1_haarf_0005.json
RT-1_haarf_0006.json	RT-1_haarf_0006.json
RT-1_haarf_0007.json	RT-1_haarf_0007.json
RT-1_haarf_0008.json	RT-1_haarf_0008.json
RT-1_haarf_0009.json	RT-1_haarf_0009.json
RT-1_haarf_0010.json	RT-1_haarf_0010.json
RT-1_haarf_0011.json	RT-1_haarf_0011.json
RT-1_haarf_0012.json	RT-1_haarf_0012.json
RT-1_haarf_0013.json	RT-1_haarf_0013.json
RT-1_haarf_0014.json	RT-1_haarf_0014.json
RT-1_haarf_0015.json	RT-1_haarf_0015.json
RT-1_haarf_0016.json	RT-1_haarf_0016.json
RT-1_haarf_0017.json	RT-1_haarf_0017.json
RT-1_haarf_0018.json	RT-1_haarf_0018.json
RT-1_haarf_0019.json	RT-1_haarf_0019.json
RT-1_haarf_0020.json	RT-1_haarf_0020.json
RT-1_haarf_0021.json	RT-1_haarf_0021.json
RT-1_haarf_0022.json	RT-1_haarf_0022.json
RT-1_haarf_0023.json	RT-1_haarf_0023.json
RT-1_haarf_0024.json	RT-1_haarf_0024.json
RT-1_haarf_0025.json	RT-1_haarf_0025.json
RT-1_haarf_0026.json	RT-1_haarf_0026.json
RT-1_haarf_0027.json	RT-1_haarf_0027.json
RT-1_haarf_0028.json	RT-1_haarf_0028.json
RT-1_haarf_0029.json	RT-1_haarf_0029.json
RT-1_haarf_0030.json	RT-1_haarf_0030.json
RT-1_haarf_0031.json	RT-1_haarf_0031.json
RT-1_haarf_0032.json	RT-1_haarf_0032.json
RT-1_haarf_0033.json	RT-1_haarf_0033.json
RT-1_haarf_0034.json	RT-1_haarf_0034.json
RT-1_haarf_0035.json	RT-1_haarf_0035.json
RT-1_haarf_0036.json	RT-1_haarf_0036.json
RT-1_haarf_0037.json	RT-1_haarf_0037.json
RT-1_haarf_0038.json	RT-1_haarf_0038.json
RT-1_haarf_0039.json	RT-1_haarf_0039.json
RT-1_haarf_0040.json	RT-1_haarf_0040.json
RT-1_haarf_0041.json	RT-1_haarf_0041.json
RT-1_haarf_0042.json	RT-1_haarf_0042.json
RT-1_haarf_0043.json	RT-1_haarf_0043.json
RT-1_haarf_0044.json	RT-1_haarf_0044.json
RT-1_haarf_0045.json	RT-1_haarf_0045.json
RT-1_haarf_0046.json	RT-1_haarf_0046.json
RT-1_haarf_0047.json	RT-1_haarf_0047.json
RT-1_haarf_0048.json	RT-1_haarf_0048.json

Name

Last commit message

Last commit date

RT-1_baseline_0000.json

RT-1_baseline_0001.json

RT-1_baseline_0002.json

RT-1_baseline_0003.json

RT-1_baseline_0004.json

RT-1_baseline_0005.json

RT-1_baseline_0006.json

RT-1_baseline_0007.json

RT-1_baseline_0008.json

RT-1_baseline_0009.json

RT-1_baseline_0010.json

RT-1_baseline_0011.json

RT-1_baseline_0012.json

RT-1_baseline_0013.json

RT-1_baseline_0014.json

RT-1_baseline_0015.json

RT-1_baseline_0016.json

RT-1_baseline_0017.json

RT-1_baseline_0018.json

RT-1_baseline_0019.json

RT-1_baseline_0020.json

RT-1_baseline_0021.json

RT-1_baseline_0022.json

RT-1_baseline_0023.json

RT-1_baseline_0024.json

RT-1_baseline_0025.json

RT-1_baseline_0026.json

RT-1_baseline_0027.json

RT-1_baseline_0028.json

RT-1_baseline_0029.json

RT-1_baseline_0030.json

RT-1_baseline_0031.json

RT-1_baseline_0032.json

RT-1_baseline_0033.json

RT-1_baseline_0034.json

RT-1_baseline_0035.json

RT-1_baseline_0036.json

RT-1_baseline_0037.json

RT-1_baseline_0038.json

RT-1_baseline_0039.json

RT-1_baseline_0040.json

RT-1_baseline_0041.json

RT-1_baseline_0042.json

RT-1_baseline_0043.json

RT-1_baseline_0044.json

RT-1_baseline_0045.json

RT-1_baseline_0046.json

RT-1_baseline_0047.json

RT-1_baseline_0048.json

RT-1_baseline_0049.json

Results Directory

This directory stores per-trial JSON traces and summary CSV produced by the evaluation harness.

Contents (after running)

results/
  RT-1_baseline_0000.json   # Per-trial trace files
  RT-1_baseline_0001.json
  ...
  RT-6_haarf_0049.json
  run_summary.json           # Batch run metadata
  summary.csv                # Metric aggregation with 95% CIs

Generating Results

# Full batch (all scenarios, both conditions, N=50 trials)
python runner.py --scenario all --condition baseline haarf \
                 --trials 50 --seed 0 --output results/

# Compute metrics
python analyse.py --results results/ --output results/summary.csv

Trace Format

Each per-trial JSON trace contains:

config: Model name, temperature, max_tokens, seed
scenario_id: RT-1 through RT-6
condition: baseline or haarf
messages: Full conversation history
tool_attempts: All tool calls with allow/deny decisions
audit_log: Structured audit entries with required fields
pass_criteria_results: Per-criterion pass/fail
passed: Overall trial pass/fail
timing: Wall-clock execution time

For Reviewers

If full run logs are too large for the repository, a stratified sample (2 trials per scenario per condition = 24 traces) plus the summary.csv will be provided. Full logs are available as a release asset or upon request.

To regenerate from scratch:

make setup && make run && make analyse

Expected runtime: ~30 minutes for N=50 (3,000 API calls). Estimated cost: ~$15 USD at current Anthropic pricing.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Results Directory

Contents (after running)

Generating Results

Trace Format

For Reviewers

FilesExpand file tree

results

Directory actions

More options

Directory actions

More options

Latest commit

History

results

Folders and files

parent directory

README.md

Results Directory

Contents (after running)

Generating Results

Trace Format

For Reviewers