SWE-bench

All

9 repositories

SWE-bench
Public
SWE-bench: Can Language Models Resolve Real-world Github Issues?
benchmark software-engineering language-model
benchmark software-engineering language-model
Python
•
MIT License
•799•4.5k•55•31•Updated Mar 19, 2026Mar 19, 2026
SWE-smith
Public
[NeurIPS 2025 D&B Spotlight] Scaling Data for SWE-agents
training software-engineering language-model
training software-engineering language-model agents
Python
•
MIT License
•114•600•12•5•Updated Mar 16, 2026Mar 16, 2026
swe-bench.github.io
Public
Landing page + leaderboard for SWE-Bench benchmark
benchmark ai ai-agents
benchmark ai ai-agents
JavaScript
•
Other
•15•12•5•3•Updated Mar 4, 2026Mar 4, 2026
SWE-smith-envs
Public
Artifacts for building environments (Docker images) for repositories represented in SWE-smith
Dockerfile
•2•5•0•0•Updated Mar 2, 2026Mar 2, 2026
experiments
Public
Open sourced predictions, execution logs, trajectories, and results from model inference + evaluation runs on the SWE-bench task.
Shell
•296•256•13•28•Updated Feb 27, 2026Feb 27, 2026
reading-list
Public
Academic papers and works related to SWE-bench and SWE-agents
4•10•0•0•Updated Dec 8, 2025Dec 8, 2025
.github
Public
MIT License
•0•0•0•0•Updated Nov 14, 2025Nov 14, 2025
sb-cli
Public
Run SWE-bench evaluations remotely
Python
•
MIT License
•8•60•10•0•Updated Aug 14, 2025Aug 14, 2025
humanevalfix-results
Public archive
Evaluation data + results for SWE-agent inference on HumanEvalFix task
Jupyter Notebook
•0•1•0•0•Updated Jul 11, 2024Jul 11, 2024