Skip to content

Latest commit

 

History

History
445 lines (350 loc) · 21.3 KB

File metadata and controls

445 lines (350 loc) · 21.3 KB

AWorld:为你的世界打造的智能体驾驭框架

「AI 的下一个前沿,是你的专业能力」

Twitter Follow WeChat QR Code Discord License: MIT DeepWiki Tutorial


通用 AI 常常会撞上「上下文之墙」——那些定义世界的细微数据、工作流与直觉。智能体的真正力量不仅来自模型本身,更来自其智能体驾驭框架(Agent Harness):协调工具、记忆、上下文与执行的整体框架。

这就是AWorld 理念:仅有一个强大的驾驭框架还不够。只有当像你这样的专家将宝贵知识嵌入其中,真正在墙上打开那扇门,AI 的规模化才会被解锁。

AWorld 正是为此而设计的平台。我们提供一套完整、久经考验的 Harness 作为「配方」,让作为专家的你将知识锻造成一支自主智能体舰队。我们一起超越 AI 的泛化承诺,打造稳健、精准、精通所在领域的应用。

从专业能力到产品

看看当专家知识被编码成可复用的 Skill(技能) 时会发生什么。下面展示的成果均由 AWorld 智能体编排完成,体现了我们的核心规模化定律:社区贡献的专业能力越多,整个生态就越强大。

这是今天已经能做到的。想象一下,有了你的专业能力,我们还能一起构建什么。

能力 专业能力 效果演示 配方
创建应用 • 由基座模型自动创建
• 由 UI 评估 Skill 自动评估
应用创建演示 查看配方
创建视频 • 由 Remotion Skill 自动创建
• 人工评估
视频创建演示 查看配方

你的 AWorld-CLI 之旅

从想法到可演进、自主智能体的旅程,从你的指尖开始。

安装与激活

一次安装,全局配置,随处运行。

安装 AWorld-CLI

git clone https://github.com/inclusionAI/AWorld && cd AWorld

conda create -n aworld_env python=3.11 -y && conda activate aworld_env 

pip install -e . && cd aworld-cli && pip install -e .

配置与启动

cd 你的工作目录

aworld-cli --config

配置完成后,在终端输入 aworld-cli 即可开始你的旅程。

你也可以在「工作目录」下创建 .env 文件,配置模型与 API 等。详见 环境配置

用 AWorld-CLI 自动化创建

AWorld-CLI 不止于简单脚手架。它作为中央大脑——AWorld Agent,协调一组专业子智能体,自主地构建、评估甚至演进其他智能体。

这套多智能体系统协同工作,将你的想法变为现实:

智能体名称角色与核心职能
👑 AWorld Agent编排者:中央大脑,理解用户目标、制定计划并将任务分派给合适的子智能体,从始至终管理整个工作流。
🧑‍💻 Developer构建者:负责编写、调试与重构代码的工匠。
🧐 Evaluator评判者:质量保障专家,根据客观标准评估 Developer 的输出,为演进循环提供关键反馈。

演进循环:构建 → 评估 → 演进

假设你提出:「帮我做一个英语单词学习小程序,UI 质量分数要高于 0.9。」

  • Developer 构建Developer 分析需求并编写代码(如 HTML),使用 [CAST](#cast-征服代码复杂度)。
  • Evaluator 评判Evaluator 使用 我们验证过的 Skill 检查输出。
  • 循环精进:若分数低于目标(如 0.9),AWorld 会指示 Developer 根据 Evaluator 指出的具体问题修复。循环持续直到满足你的标准。

📹 观看自演进循环实战

aworld_cli_intro.mp4

无评估则无演进

智能体要进步,必须先理解什么是「好」。评估是我们自主演进循环的核心,但也是复杂挑战:从有清晰指标的客观任务(如解数学题),到需要人类偏好的主观判断(如评判 UI 美观度)。现实中的演进还受限于庞大代码库、有限上下文窗口以及需要精确迭代。

AWorld 提供完整基础设施来解决这些问题。我们的系统被设计为同时驾驭两种评估场景,将你的专业能力转化为驱动智能体贯穿整个演进循环的决定性力量。

CAST:征服代码复杂度

智能体常因代码复杂度而失败。我们构建了 CAST(Code Abstract Syntax Tree,代码抽象语法树)来解决这一问题。CAST 不再让智能体面对扁平文本,而是提供代码的「架构蓝图」,从而支持:

  • 层级导航:快速理解代码结构与意图,不被实现细节淹没。
  • 近乎无限的上下文:智能压缩代码,只向智能体提供相关信息,突破上下文窗口限制。
  • 精准代码修改:在完整依赖感知下做精确修改,避免「盲目」文本替换带来的错误。

你的专业能力即评判标准

CAST 提供「改变」的技术能力,而你的知识提供「方向」。AWorld 的共享 Skill 体系让你的专业能力成为质量的终极度量。

自动评估Evaluator 智能体评判表现并指出缺陷,为 Developer 智能体设定清晰、客观的目标。这形成强大协同:Evaluator 设定目标,Developer 用同一套知识去达成。

人工评估:对于需要主观判断的任务,你的直觉就是天花板。你是终极评判者。在任何阶段用自然语言给出反馈,AWorld 智能体会将其解读为下一轮演进的高优先级指令。

无论是你贡献的 Skill 给出的自动分数,还是你直接的人工指导,在 AWorld 中,精确反馈驱动精确演进。

久经考验的 Harness:基准表现优异

以下在竞争性基准上的领先排名,不仅是智能体成就,更是对 AWorld Harness 的直接验证。它们证明我们稳健、久经考验的基础设施,为构建一流 AI 提供了必要基石。

智能体基准

类别 成就 表现 关键创新 日期
🤖 智能体
在线体验
GAIA 基准
优异

GAIA
Pass@1: 67.89
Pass@3: 83.49
(109 任务) 代码
多智能体系统
稳定性与编排
论文
2025/08/06
🧠 推理 IMO 2025
解题

IMO
5/6
6 小时内解决
代码
多智能体协作
优于单模型
2025/07/25
🖼️ 多模态 OSWorld
第一名

OSWorld
58.0%
成功率
代码
工具越多越好? 2025/09/18
🖼️ 多模态 VisualWebArena 九月第一名
VWA
36.5%
成功率
代码
自动化工具生成
论文
2025/09/25
🔍 深度搜索 Xbench 优异
xbench
Pass@1: 51
Pass@3: 61
代码
AWorld 自有上下文引擎:Amni。 2025/10/23

数据与综合

  1. FunReason-MT 技术报告:克服多轮函数调用中的复杂度壁垒 arxiv, 2025. 论文, 代码, 模型, 数据集

    Zengzhuang Xu, Bingguang Hao, Zechuan Wang, Yuntao Wen, Maolin Wang, 等

  2. From Failure to Mastery: Generating Hard Samples for Tool-use Agents arxiv, 2026. 论文, 代码, 模型, 数据集

    Bingguang Hao, Zengzhuang Xu, Yuntao Wen, Xinyi Xu, Yang Liu, 等

模型训练

  1. AWorld: Orchestrating the Training Recipe for Agentic AI. arxiv, 2025. 论文, 代码, 模型

    Chengyue Yu, Siyuan Lu, Chenyi Zhuang, Dong Wang, Qintong Wu, 等

  2. FunReason: Enhancing Large Language Models' Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement. arxiv, 2025. 论文, 模型

    Bingguang Hao, Maolin Wang, Zengzhuang Xu, Cunyin Peng, 等

  3. Exploring Superior Function Calls via Reinforcement Learning. arxiv, 2025. 论文, 代码

    Bingguang Hao, Maolin Wang, Zengzhuang Xu, Yicheng Chen, 等

  4. RAG-R1 : Incentivize the Search and Reasoning Capabilities of LLMs through Multi-query Parallelism. arxiv, 2025. 论文, 代码, 模型

    Zhiwen Tan, Jiaming Huang, Qintong Wu, Hongxuan Zhang, Chenyi Zhuang, Jinjie Gu

  5. V2P: From Background Suppression to Center Peaking for Robust GUI Grounding Task. arxiv, 2025. 论文, 代码

    Jikai Chen, Long Chen, Dong Wang, Leilei Gan, Chenyi Zhuang, Jinjie Gu

  6. Don't Just Fine-tune the Agent, Tune the Environment arxiv, 2025. 论文

    Siyuan Lu, Zechuan Wang, Hongxuan Zhang, Qintong Wu, Leilei Gan, Chenyi Zhuang, 等

元学习

  1. Profile-Aware Maneuvering: A Dynamic Multi-Agent System for Robust GAIA Problem Solving by AWorld. arxiv, 2025. 论文, 代码

    Zhitian Xie, Qintong Wu, Chengyue Yu, Chenyi Zhuang, Jinjie Gu

  2. Recon-Act: A Self-Evolving Multi-Agent Browser-Use System via Web Reconnaissance, Tool Generation, and Task Execution. arxiv, 2025. 论文, 代码

    Kaiwen He, Zhiwei Wang, Chenyi Zhuang, Jinjie Gu

参与贡献

我们的路线图包括扩展 AI for Science & Business 计划、深化自演进能力,以及丰富社区贡献的 Skill 库。

我们热烈欢迎开发者、研究人员和领域专家加入。无论你是增强框架,还是贡献你所在领域的 Skill,你的工作都有价值。

学术引用或希望联系我们,请使用以下 BibTeX:

@misc{yu2025aworldorchestratingtrainingrecipe,
      title={AWorld: Orchestrating the Training Recipe for Agentic AI}, 
      author={Chengyue Yu and Siyuan Lu and Chenyi Zhuang and Dong Wang and Qintong Wu and Zongyue Li and Runsheng Gan and Chunfeng Wang and Siqi Hou and Gaochi Huang and Wenlong Yan and Lifeng Hong and Aohui Xue and Yanfeng Wang and Jinjie Gu and David Tsai and Tao Lin},
      year={2025},
      eprint={2508.20404},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2508.20404}, 
}