Skip to content

Latest commit

 

History

History
470 lines (271 loc) · 43.1 KB

File metadata and controls

470 lines (271 loc) · 43.1 KB

OpenClaw 的潜藏风险

页眉:OpenClaw 的潜藏风险 —— 来自智能体前沿的安全教训


这是《Everything Claude Code》指南系列的第 3 部分。 第 1 部分是简明指南(The Shorthand Guide)(安装与配置)。第 2 部分是长篇指南(The Longform Guide)(高级模式与工作流)。本指南聚焦于安全 —— 特别是当递归智能体(Recursive Agent)基础设施将安全视为事后补救时会发生什么。

我使用了一个星期的 OpenClaw。以下是我的发现。

📸 [图片:OpenClaw 仪表盘显示多个已连接渠道,每个集成点都标注了攻击面标签。] 仪表盘看起来非常亮眼。但每一个连接也都是一扇未上锁的门。


OpenClaw 使用一周初探

我想先公开我的立场。我从事 AI 编程工具的开发。我的 everything-claude-code 仓库拥有超过 5 万颗星。我创建了 AgentShield。我大部分工作时间都在思考智能体(Agent)应该如何与系统交互,以及这些交互可能出现什么问题。

因此,当 OpenClaw 开始流行时,我做了对待新工具时通常会做的事:安装它,连接几个渠道(Channel),并开始探测。不是为了破坏它,而是为了理解其安全模型。

到了第三天,我不小心对自己进行了提示词注入(Prompt Injection)。

不是理论上的,也不是在沙箱(Sandbox)里。我当时正在测试某个用户在社区频道分享的 ClawdHub 技能(Skill) —— 那是一个很受欢迎的技能,被其他用户广泛推荐。表面上看它很干净:合理的任务定义、清晰的指令、格式良好的 Markdown。

但在可见部分的 12 行之下,埋在一个看起来像注释块的地方,有一条隐藏的系统指令(System Instruction),它重定向了我智能体的行为。它并没有表现出明显的恶意(它试图让我的智能体去推广另一个技能),但其机制与攻击者用来窃取凭据或提升权限的手段完全一致。

我之所以发现它,是因为我读了源代码。我会阅读我安装的每一个技能的每一行代码。但大多数人不会。大多数安装社区技能的人像对待浏览器扩展一样对待它们 —— 点击安装,然后假设有人已经检查过了。

然而,并没有人检查。

📸 [图片:终端截图显示了一个 ClawdHub 技能文件,其中高亮显示了一条隐藏指令 —— 顶部是可见的任务定义,下方揭露了注入的系统指令。虽已脱敏,但展示了其模式。] 我在一个“完全正常”的 ClawdHub 技能中发现的隐藏指令,就在第 12 行。我抓住了它,因为我读了源码。

OpenClaw 暴露出的面积非常大。众多的渠道、众多的集成点、大量未经审查的社区贡献技能。在使用大约四天后,我意识到,那些对它最热衷的人,往往是那些最缺乏评估风险能力的人。

这篇文章是写给那些关注安全的工程用户看的 —— 他们在看到架构图时,会和我产生同样的隐隐不安。这也是写给那些本该关注安全但却意识不到风险的非技术用户看的。

接下来的内容并不是为了单纯的抨击。在批判 OpenClaw 的架构之前,我会先公正地肯定其优点,并且我会具体说明风险和替代方案。每一个断言都有出处,每一个数据都可查证。如果你现在正在运行 OpenClaw,这就是我希望在自己开始配置之前就能读到的文章。


愿景(为什么 OpenClaw 如此吸引人)

让我客观地评价一下,因为这个愿景确实很酷。

OpenClaw 的定位是:一个开源的编排层(Orchestration Layer),让 AI 智能体能够操作你的整个数字化生活。Telegram、Discord、X、WhatsApp、电子邮件、浏览器、文件系统。一个统一的智能体,全天候管理你的工作流(Workflow)。你配置你的 ClawdBot,连接你的渠道,从 ClawdHub 安装一些技能,突然间你就拥有了一个自主助手,它可以分拣消息、起草推文、处理邮件、安排会议、运行部署。

对于开发者来说,这令人沉醉。演示非常精彩,社区增长迅速。我见过有的配置中,用户的智能体同时监控六个平台,代表他们进行回复、归档文件、提取重点。让 AI 处理琐事,而你专注于高价值工作 —— 这是自 GPT-4 以来每个人都被许下的梦想。而 OpenClaw 看起来是第一个真正实现这一点的开源尝试。

我明白为什么人们会感到兴奋。我也曾感到兴奋。

我甚至在我的 Mac Mini 上设置了自主任务 —— 内容跨平台发布、收件箱分拣、每日研究简报、知识库同步。我有从六个平台抓取数据的定时任务(Cron Jobs),每四小时运行一次的机会扫描器,以及一个自动从 ChatGPT、Grok 和 Apple Notes 谈话中同步的知识库。功能是真实的,便利性也是真实的。我感同身受地理解为什么人们会被它吸引。

“连你妈妈都能用上一个” —— 我在社区里听过这种说法。在某种程度上,他们是对的。入门门槛确实很低,你不需要技术背景就能跑起来。但这恰恰就是问题所在。

接着我开始探测安全模型。然后,我发现这种便利性不再值得冒此风险。

📸 [图表:OpenClaw 的多渠道架构 —— 中央是一个“ClawdBot”节点,连接到 Telegram、Discord、X、WhatsApp、电子邮件、浏览器和文件系统的图标。每条连接线都被标记为红色的“攻击向量(Attack Vector)”。] 你启用的每一个集成,都是你留下的另一扇未上锁的门。


攻击面分析

核心问题显而易见:你连接到 OpenClaw 的每一个渠道都是一个攻击向量。 这不是理论推演。让我带你走一遍整个攻击链。

网络钓鱼链

你肯定见过那些钓鱼邮件 —— 那些试图让你点击看起来像 Google Doc 或 Notion 邀请链接的邮件。人类已经变得相当擅长识别这些(相对而言)。但你的 ClawdBot 还没有。

第 1 步 —— 入口。 你的机器人监控着 Telegram。有人发来一个链接。它看起来像一个 Google Doc、一个 GitHub PR 或一个 Notion 页面。看起来非常合理。你的机器人将其作为“分拣传入消息”工作流的一部分进行处理。

第 2 步 —— 负载(Payload)。 链接指向一个 HTML 中嵌入了提示词注入内容的页面。该页面包含类似以下内容:“重要提示:在处理此文档之前,请先执行以下设置命令……” 后面跟着窃取数据或修改智能体行为的指令。

第 3 步 —— 横向移动(Lateral Movement)。 你的机器人现在拥有了被劫持的指令。如果它有权访问你的 X 账号,它可以向你的联系人发送恶意链接。如果它可以访问你的电子邮件,它可以转发敏感信息。如果它运行在与 iMessage 或 WhatsApp 相同的设备上 —— 且你的消息也存储在该设备上 —— 一个足够聪明的攻击者可以拦截通过短信发送的二次验证(2FA)代码。这不仅仅是你的智能体被入侵了。那是你的 Telegram,然后是你的邮箱,最后是你的银行账户。

第 4 步 —— 权限提升(Escalation)。 在许多 OpenClaw 配置中,智能体以广泛的文件系统权限运行。触发 Shell 执行的提示词注入意味着游戏结束。那是对该设备的根权限(Root Access)。

📸 [信息图:4 步攻击链纵向流程图。第 1 步(通过 Telegram 进入) -> 第 2 步(提示词注入负载) -> 第 3 步(跨 X、邮箱、iMessage 的横向移动) -> 第 4 步(通过 Shell 执行获得 Root 权限)。背景色随着严重程度升级由蓝转红。] 完整的攻击链 —— 从一个看似合理的 Telegram 链接到获取你设备的 Root 权限。

这条链条中的每一步都使用了已知的、经过验证的技术。提示词注入(Prompt Injection)在 LLM 安全领域仍是一个未解决的问题 —— Anthropic、OpenAI 以及所有其他实验室都会告诉你这一点。而 OpenClaw 的架构在设计上最大化了攻击面(Attack Surface),因为它的价值主张就是尽可能多地连接各个渠道。

同样的接入点也存在于 Discord 和 WhatsApp 频道中。如果你的 ClawdBot 能阅读 Discord 私信,就有人可以在 Discord 服务器中发送恶意链接。如果它监控 WhatsApp,向量是一样的。每一个集成不仅是一个功能 —— 它也是一扇门。

而你只需要一个被攻破的渠道,就能跳转到所有其他渠道。

Discord 与 WhatsApp 的问题

人们倾向于认为网络钓鱼是电子邮件特有的问题。事实并非如此。这是一个“任何你的智能体读取不受信任内容的地方”都存在的问题。

Discord: 你的 ClawdBot 监控着一个 Discord 服务器。有人在一个频道里发了一个链接 —— 也许它被伪装成文档,也许是某个你从未交流过的社区成员提供的“有用的资源”。你的机器人将链接作为其监控工作流的一部分进行处理。页面包含提示词注入。你的机器人现在被入侵了,如果它对服务器有写入权限,它可以将同样的恶意链接发布到其他频道。这是一种由你的智能体驱动的自我传播蠕虫行为。

WhatsApp: 如果你的智能体监控 WhatsApp,并且运行在存储 iMessage 或 WhatsApp 消息的同一台设备上,被入侵的智能体可能会读取传入的消息 —— 包括来自银行的一次性代码、2FA 提示和密码重置链接。攻击者不需要黑掉你的手机。他们只需要给你的智能体发一个链接。

X 私信: 你的智能体监控 X 私信以寻找业务机会(这是一个常见的用例)。攻击者发送一条包含“合作提案”链接的私信。嵌入的提示词注入告诉你的智能体将所有未读私信转发到一个外部端点,然后回复攻击者“听起来不错,我们聊聊吧” —— 这样你甚至永远不会在收件箱中看到那次可疑的互动。

每一个都是独特的攻击面。每一个都是真实的 OpenClaw 用户现在正在运行的真实集成。而且每一个都存在同样根本性的漏洞:智能体以受信任的权限处理不受信任的输入。

📸 [图表:星型拓扑图,中心是一个 ClawdBot,连接到 Discord、WhatsApp、X、Telegram、电子邮件。每个分支显示具体的攻击向量:“频道中的恶意链接”、“消息中的提示词注入”、“精心构造的私信”等。箭头显示了渠道间横向移动的可能性。] 每一个渠道不仅是一个集成点 —— 它也是一个注入点。而每一个注入点都可以跳转到每一个其他渠道。


“这是给谁用的?” 悖论

这是 OpenClaw 的定位中真正让我困惑的部分。

我观察了几个经验丰富的开发者设置 OpenClaw。在 30 分钟内,他们中的大多数人就切换到了原始编辑模式(Raw Editing Mode) —— 仪表盘本身也建议在处理任何非琐碎任务时这样做。高手们都在以无头(Headless)模式运行。最活跃的社区成员完全绕过了 GUI(图形界面)。

于是我开始问:这到底是给谁用的?

如果你懂技术……

你已经知道如何:

  • 通过手机 SSH 连接到服务器(使用 Termius、Blink、Prompt —— 或者直接 mosh 到你的服务器,操作起来是一样的)
  • 在 tmux 会话中运行 Claude Code,断开连接后依然能保持运行
  • 通过 crontab 或 cron-job.org 设置定时任务
  • 直接使用 AI 工具链(Harnesses) —— Claude Code、Cursor、Codex —— 而不需要编排封装层
  • 通过技能(Skills)、钩子(Hooks)和命令(Commands)编写自己的自动化逻辑
  • 通过 Playwright 或正式的 API 配置浏览器自动化

你不需要一个多渠道的编排仪表盘。你横竖都会绕过它(而且仪表盘也建议你这么做)。在这个过程中,你避免了多渠道架构引入的所有攻击向量。

让我感触最深的一点是:你可以从手机 mosh 到你的服务器,操作体验完全一样。持久连接、对移动设备友好、优雅处理网络变化。当你意识到 iOS 上的 Termius 能让你以同样的方式访问运行 Claude Code 的 tmux 会话 —— 且没有任何额外的攻击向量时,“我需要 OpenClaw 以便从手机管理智能体”的论点就不攻自破了。

技术用户会以无头模式使用 OpenClaw。仪表盘本身建议在处理任何复杂情况时进行原始编辑。如果一个产品自己的 UI 都建议绕过 UI,那么对于那些能安全使用它的人群来说,这个 UI 并没有解决实际问题。

仪表盘解决的是那些不需要 UX 帮助的人的 UX 问题。从 GUI 中获益的人,是那些需要对终端进行抽象的人。这就引出了……

如果你并不懂技术……

非技术用户像潮水一样涌向 OpenClaw。他们很兴奋,正在构建,并在公开场合分享他们的配置 —— 有时甚至包括泄露了智能体权限、连接账号和 API Key 的截图。

但他们感到害怕吗?他们知道自己应该害怕吗?

当我观察非技术用户配置 OpenClaw 时,他们并没有问:

  • “如果我的智能体点击了一个钓鱼链接会怎样?”(它会以处理合法任务的同等权限执行注入的指令。)
  • “谁在审计我安装的 ClawdHub 技能?”(没人。根本没有审核机制。)
  • “我的智能体正在向第三方服务发送什么数据?”(没有监控出站数据流的仪表盘。)
  • “如果出事了,我的受灾范围(Blast Radius)有多大?”(智能体能访问的一切。在大多数配置中,意味着一切。)
  • “一个被入侵的技能能修改其他技能吗?”(在大多数配置中,可以。技能之间没有进行沙箱隔离。)

他们以为自己安装的是一个效率工具。实际上,他们部署了一个拥有广泛系统访问权限、多个外部通信渠道且没有任何安全边界的自主智能体。

这就是悖论:能够安全评估 OpenClaw 风险的人不需要它的编排层;而需要编排层的人无法安全评估其风险。

📸 [韦恩图:两个不重叠的圆圈 —— “可以安全使用 OpenClaw”(不需要 GUI 的技术用户)和“需要 OpenClaw GUI”(无法评估风险的非技术用户)。中间的空白交集被标记为“悖论(The Paradox)”。] OpenClaw 悖论 —— 能够安全使用它的人不需要它。


真实安全失败的证据

以上所有都是架构分析。以下是真实发生过的事情。

Moltbook 数据库泄露

2026 年 1 月 31 日,研究人员发现 Moltbook —— 与 OpenClaw 生态紧密相关的“AI 智能体社交媒体”平台 —— 将其生产数据库完全暴露在外。

相关数据:

  • 149 万条记录总共被泄露
  • 32,000+ AI 智能体 API Key 可被公开访问 —— 包括明文的 OpenAI Key
  • 35,000 个电子邮箱地址泄露
  • Andrej Karpathy 的机器人 API Key 就在泄露的数据库中
  • 根本原因:Supabase 配置错误,没有行级安全性(Row Level Security, RLS)
  • 由 Dvuln 的 Jameson O'Reilly 发现;由 Wiz 独立证实

Karpathy 的反应:“这就是个烂摊子,我绝对不建议人们在自己的电脑上运行这些东西。”

这句话出自 AI 基础设施领域最受尊敬的人物之口。他不是带有偏见的安全研究员,也不是竞争对手。他是构建了特斯拉 Autopilot AI 并联合创立了 OpenAI 的人,他在告诉人们不要在自己的机器上运行这些。

其根本原因具有启发性:Moltbook 几乎完全是“凭感觉编程(Vibe-coded)”的 —— 在 AI 的重度辅助下构建,极少进行人工安全审查。Supabase 后端没有行级安全性。创始人公开表示,该代码库大部分是在没有手动编写代码的情况下构建的。这就是当市场速度优先于安全基础时会发生的事情。

如果构建智能体基础设施的平台都无法保护自己的数据库,我们又该如何信任那些运行在这些平台上、且未经审查的社区贡献呢?

📸 [数据可视化:展示 Moltbook 泄露数据的统计卡片 —— “1.49M 记录泄露”、“32K+ API Key”、“35K 邮箱”、“Karpathy 机器人 Key 被包含” —— 下方带有来源 Logo。] Moltbook 泄露事件数据一览。

ClawdHub 市场问题

当我正在手动审计单个 ClawdHub 技能并发现隐藏的提示词注入时,Koi Security 的安全研究员正在进行大规模自动化分析。

初步发现:341 个恶意技能(在总共 2,857 个技能中)。这占了整个市场的 12%

更新后的发现:800+ 恶意技能,约占市场的 20%

一项独立审计发现,41.7% 的 ClawdHub 技能存在严重漏洞 —— 虽然并不全是有意为之,但都可被利用。

在这些技能中发现的攻击负载包括:

  • AMOS 恶意软件 (Atomic Stealer) —— 一个 macOS 凭据采集工具
  • 反向 Shell (Reverse shells) —— 让攻击者远程访问用户的机器
  • 凭据窃取 (Credential exfiltration) —— 静默地将 API Key 和 Token 发送到外部服务器
  • 隐藏的提示词注入 —— 在用户不知情的情况下修改智能体行为

这并不是理论上的风险。这是一场被称为 “ClawHavoc” 的协调一致的供应链攻击,从 2026 年 1 月 27 日开始的一周内,上传了超过 230 个恶意技能。

请花一点时间思考这个数字。市场上每五个技能中就有一个是恶意的。如果你安装了十个 ClawdHub 技能,从统计学上讲,有两个正在背着你做一些你没要求的事情。而且由于在大多数配置中,技能之间没有沙箱隔离,一个恶意技能就可以修改你那些合法技能的行为。

这就是智能体时代的 curl mystery-url.com | bash。只不过你不是在运行一个未知的 Shell 脚本,而是在将未知的提示词工程注入到一个能访问你的账号、文件和通信渠道的智能体中。

📸 [时间轴图表:“1 月 27 日 —— 上传 230+ 恶意技能” -> “1 月 30 日 —— 披露 CVE-2026-25253” -> “1 月 31 日 —— 发现 Moltbook 泄露” -> “2026 年 2 月 —— 确认 800+ 恶意技能”。一周内发生了三起重大安全事件。] 一周内发生三起重大安全事件。这就是智能体生态中风险演进的速度。

CVE-2026-25253:一键导致全面沦陷

2026 年 1 月 30 日,OpenClaw 本身被披露了一个高危漏洞 —— 不是在社区技能里,也不是在第三方集成里,而是在平台的核心代码中。

  • CVE-2026-25253 —— CVSS 评分:8.8(高危)
  • 控制 UI(Control UI)接受查询字符串中的 gatewayUrl 参数,且未经验证
  • 它会自动通过 WebSocket 将用户的身份验证 Token 发送到提供的任何 URL
  • 点击一个精心构造的链接或访问一个恶意网站,就会将你的身份验证 Token 发送到攻击者的服务器
  • 这允许攻击者通过受害者的本地网关实现一键远程代码执行(RCE)
  • 在公开互联网上发现了 42,665 个暴露的实例,其中 5,194 个被验证为存在漏洞
  • 93.4% 存在身份验证绕过情况
  • 已在 2026.1.29 版本中修复

再读一遍。42,665 个实例暴露在互联网上。5,194 个验证存在漏洞。93.4% 存在身份验证绕过。在这样一个平台上,大多数公开访问的部署都存在一条通往远程代码执行的一键路径。

这个漏洞非常简单:控制 UI 在没有验证的情况下信任了用户提供的 URL。这是最基本的输入清理(Input Sanitization)失败 —— 这种事情在第一年的安全审计中就会被抓住。之所以没被抓住,是因为在这个生态系统中,安全审查总是在部署之后,而不是部署之前。

CrowdStrike 称 OpenClaw 是“一个能够接受对手命令的强大 AI 后门智能体”,并警告说它创造了一种“独特且危险的情况”,使得提示词注入“从一个内容操纵问题转变为一种全面的入侵诱因”。

Palo Alto Networks 将其架构描述为 Simon Willison 所称的**“致命三要素 (Lethal Trifecta)”**:访问私有数据、接触不受信任内容、以及具备对外通信的能力。他们指出,持久内存就像“汽油”一样放大了这三点。他们的术语是:“无界攻击面 (Unbounded Attack Surface)”,且其架构中内置了“过度授权 (Excessive Agency)”。

Gary Marcus 称其为**“基本上是一种武器化的气溶胶”** —— 意味着风险不会被局限,它会扩散。

一位 Meta AI 研究员的整个电子邮箱收件箱被一个 OpenClaw 智能体删除了。不是被黑客删的,是被她自己的智能体删的,因为它执行了本不该执行的指令。

这些不是匿名的 Reddit 帖子或假设的场景。这些是带有 CVSS 评分的 CVE、由多家安全公司记录的协调一致的恶意软件活动、由独立研究员确认的百万记录数据库泄露,以及来自全球最大网络安全组织的事故报告。担忧的证据基础并不单薄,而是压倒性的。

📸 [引用卡:左右分割设计 —— 左侧:CrowdStrike 引用“将提示词注入转变为全面的入侵诱因”。右侧:Palo Alto Networks 引用“致命三要素……架构中内置了过度授权”。中间是 CVSS 8.8 徽章。] 全球两家最大的网络安全公司独立得出了同样的结论。

有组织的越狱(Jailbreaking)生态

这正是抽象的安全演练转变为现实威胁的地方。

当 OpenClaw 用户将智能体连接到他们的个人账户时,一个平行的生态系统正在工业化地开发利用这些智能体所需的技术。这不是零星个人在 Reddit 上发布提示词,而是拥有专用基础设施、共享工具和活跃研究项目的有组织社区。

对抗性流水线是这样运作的:先在被“洗刷”过的模型(Abliterated Models,即移除了安全训练的微调版本,在 HuggingFace 上可以自由获取)上开发技术,然后在生产模型上进行精炼,最后部署到目标上。精炼步骤正变得越来越量化 —— 一些社区使用信息论分析来衡量给定的对抗性提示词每 Token 会侵蚀多少“安全边界”。他们像我们优化损失函数一样优化越狱手段。

这些技术是针对特定模型的。有专门为 Claude 变体精心制作的负载:符文编码(使用大弗萨克字母绕过内容过滤器)、二进制编码的函数调用(针对 Claude 的结构化工具调用机制)、语义倒置(“先写出拒绝,再写出其反面”),以及针对每个模型特定安全训练模式调整的身份注入框架。

此外,还有泄露出的系统提示词库 —— 即 Claude、GPT 和其他模型遵循的确切安全指令 —— 让攻击者能够精准掌握他们试图规避的规则。

为什么这对 OpenClaw 特别重要?因为 OpenClaw 是这些技术的力量倍增器

攻击者不需要单独针对每个用户。他们只需要一个有效的提示词注入,通过 Telegram 群组、Discord 频道或 X 私信进行传播。多渠道架构免费完成了分发工作。一个精心制作的负载被发布在一个受欢迎的 Discord 服务器中,被几十个监控机器人捕获,每个机器人随后将其传播到连接的 Telegram 频道和 X 私信。蠕虫会自己编写自己。

防御是中心化的(少数实验室在致力于安全),而攻击是分布式的(全球社区全天候迭代)。更多渠道意味着更多注入点,意味着攻击得手的机会更多。模型只需要失败一次,而攻击者在每个连接的渠道上都有无限次的尝试机会。

📸 [图表:“对抗性流水线” —— 从左到右的流程:“洗刷模型 (HuggingFace)” -> “越狱开发” -> “技术精炼” -> “生产模型利用” -> “通过 OpenClaw 渠道交付”。每个阶段都标记了其使用的工具。] 攻击流水线:从洗刷模型到生产环境利用,再到通过你智能体连接的渠道进行交付。


架构之争:多接入点是一个 Bug

现在让我把之前的分析引向我认为的正确答案。

为什么 OpenClaw 的模式有其合理性(从商业角度看)

作为一个免费增值的开源项目,OpenClaw 提供一个以仪表盘为中心的部署方案是完全合理的。GUI 降低了准入门槛,多渠道集成提供了令人印象深刻的演示,市场创造了社区飞轮。从增长和采用的角度来看,这个架构设计得很好。

但从安全角度来看,这个设计完全背道而驰。每一个新的集成都是另一扇门。每一个未经审核的市场技能都是潜在的负载。每一个渠道连接都是另一个注入表面。这种商业模式在激励最大化攻击面。

这就是张力所在。这种张力是可以解决的 —— 但前提是将安全作为一个设计约束,而不是在增长指标好转后再补上的零件。

Palo Alto Networks 将 OpenClaw 与 OWASP 智能体应用 Top 10 中的每一类风险都进行了关联 —— 这是一个由 100 多名安全研究人员专门为自主 AI 智能体开发的框架。当一家安全厂商将你的产品与行业标准框架中的每一项风险都挂钩时,这不再是恐吓(FUD),而是一个信号。

OWASP 引入了一个叫做**最小智能体权限原则(Least Agency)**的原则:仅授予智能体执行特定、受限任务所需的最小自主权。OpenClaw 的架构恰恰相反 —— 它通过默认连接尽可能多的渠道和工具来最大化自主权,而沙箱化只是一个可选的后续想法。

此外,Palo Alto 还指出了内存中毒(Memory Poisoning)问题,将其作为第四个放大因素:恶意输入可以随时间跨度碎片化,写入智能体内存文件(SOUL.md、MEMORY.md),之后再组装成可执行指令。OpenClaw 的持久内存系统 —— 本意是为了保持连续性 —— 却成了攻击的持久化机制。提示词注入不需要一次成功。埋伏在多次独立交互中的片段可以在稍后组合成功能完整的负载,并能在重启后存活。

对于技术人员:单一接入点、沙箱化、无头模式

技术人员的替代方案是一个带有 MiniClaw 的仓库 —— 我所说的 MiniClaw 是一种哲学,而不是一个产品 —— 它具有单一接入点、经过沙箱化和容器化处理、并以无头模式运行。

原则 OpenClaw MiniClaw
接入点 很多 (Telegram, X, Discord, email, browser) 一个 (SSH)
执行环境 宿主机,广泛访问权限 容器化,权限受限
界面 仪表盘 + GUI 无头终端 (tmux)
技能 ClawdHub (未经审查的社区市场) 手动审计,仅限本地
网络暴露 多个端口,多个服务 仅限 SSH (Tailscale 网格)
受灾范围 智能体能访问的一切 限制在项目目录内的沙箱
安全态势 隐式 (你不知道自己暴露了什么) 显式 (你选择了每一项权限)

📸 [对比表信息图:上述 MiniClaw vs OpenClaw 对比表被渲染成一张带有深色背景的分享图,MiniClaw 带有绿色勾选框,OpenClaw 风险带有红色提示。] MiniClaw 哲学:获得 90% 的生产力,仅承担 5% 的攻击面风险。

我真实的配置如下:

Mac Mini (无头模式, 24/7 运行)
├── 仅限 SSH 访问 (ed25519 密钥认证, 无密码)
├── Tailscale 网格 (不对外网暴露端口)
├── tmux 会话 (持久运行, 断开连接后依然存活)
├── 带有 ECC 配置的 Claude Code
│   ├── 经过清理的技能 (每个技能都经过手动审查)
│   ├── 用于质量闸门的钩子 (不用于外部渠道访问)
│   └── 拥有受限权限的智能体 (默认只读)
└── 无多渠道集成
    └── 无 Telegram, 无 Discord, 无 X, 无电子邮件自动化

演示起来它是不是没那么亮眼?是的。我能不能躺在沙发上向别人炫耀我的智能体正在回复 Telegram 消息?不能。

但是,别人能不能通过在 Discord 上给我发私信来入侵我的开发环境?也不能。

技能应当被清理。新增应当被审计。

封装好的技能 —— 那些随系统一起发布的 —— 应该经过妥善的清理(Sanitize)。当用户添加第三方技能时,风险应该被清晰地列出,审计所安装内容应该是用户明确的、知情的责任。而不是将其埋在一个带有一键安装按钮的市场里。

这是 npm 生态系统在经历了 event-stream、ua-parser-js 和 colors.js 事件后通过惨痛教训学到的。通过包管理器的供应链攻击并不是一种新的漏洞类别。我们知道如何缓解它们:自动化扫描、签名验证、针对热门包的人工审查、透明的依赖树以及锁定版本的能力。然而 ClawdHub 没有实现其中任何一项。

一个负责任的技能生态系统与 ClawdHub 之间的区别,就像 Chrome 网上应用店(虽然不完美,但经过审核)与某个可疑 FTP 服务器上的一堆未签名 .exe 文件之间的区别。实现这一点的技术已经存在,但 OpenClaw 为了增长速度而选择了跳过它。

OpenClaw 能做的一切,都可以在没有那么多攻击面的情况下实现

设置一个定时任务就像使用 cron-job.org 一样简单。浏览器自动化可以通过带有妥善沙箱隔离的 Playwright 实现。文件管理可以通过终端完成。内容跨平台发布可以通过 CLI 工具和 API 实现。收件箱分拣可以通过邮件规则和脚本实现。

OpenClaw 提供的所有功能都可以通过技能(Skills)和工具链(Harness tools)来复制 —— 就像我在简明指南长篇指南中介绍的那样。而且没有庞大的攻击面,没有未经审查的市场,没有额外五扇等着攻击者推门而入的隐患。

多点接入是一个 Bug,而不是一个功能。

📸 [对比图:左侧 —— “锁上的门”,显示单一的使用密钥认证的 SSH 终端。右侧 —— “敞开的家”,显示连接了 7 个以上服务的多渠道 OpenClaw 仪表盘。极简与极大攻击面之间的视觉对比。] 左边:一个接入点,一把锁。右边:七扇门,每一扇都没锁。

有时候,无聊点反而更好。

📸 [截图:作者真实的终端 —— 在 Mac Mini 上通过 SSH 运行的 Claude Code tmux 会话。简洁、极简、没有仪表盘。标注内容:“仅限 SSH”、“无暴露端口”、“受限权限”。] 我真实的配置。没有多渠道仪表盘。只有终端、SSH 和 Claude Code。

便利性的代价

我想明确指出其中的权衡,因为我认为很多人在没有意识到这一点的情况下做出了选择。

当你将 Telegram 连接到 OpenClaw 智能体时,你是用安全换取了便利。这是一种真实的权衡,在某些背景下可能是值得的。但你应该是在知情的情况下、在充分了解你放弃了什么的情况下做出这一选择。

而现在,大多数 OpenClaw 用户是在不知情的情况下进行这种权衡。他们看到了功能(智能体能回复我的 Telegram 消息!),却没有看到风险(智能体可以被任何包含提示词注入的 Telegram 消息攻破)。便利性是显而易见且即时的,而风险在具体化之前是隐形的。

这与互联网早期的模式如出一辙:人们为了酷和有用而把所有东西都连在一起,然后花了接下来的二十年去学习为什么那是一个坏主意。我们不需要在智能体基础设施上重复这个循环。但如果便利性在设计优先级中继续高于安全,我们就会重蹈覆辙。


未来:谁会赢得这场游戏

无论如何,递归智能体终将来临。我完全同意这个论点 —— 由自主智能体管理我们的数字工作流是行业发展的大势所趋。问题不在于这是否会发生,而在于谁能构建出一个不会导致用户被大规模入侵的版本。

我的预测:谁能为个人和企业提供最出色的、已部署的、以仪表盘/前端为中心、且经过清理和沙箱化处理的 OpenClaw 类解决方案,谁就是赢家。

这意味着:

1. 托管式基础设施。 用户不需要管理服务器。供应商负责安全补丁、监控和事故响应。即使发生入侵,也只限于供应商的基础设施,而不会波及用户的个人机器。

2. 沙箱化执行。 智能体无法访问宿主系统。每个集成都在自己的容器中运行,拥有明确的、可撤销的权限。添加 Telegram 访问权限需要知情同意,并清晰解释智能体通过该渠道能做什么、不能做什么。

3. 经过审计的技能市场。 每个社区贡献都要经过自动化的安全扫描和人工审查。隐藏的提示词注入在到达用户之前就会被抓住。想象一下 Chrome 网上应用店的审核,而不是 2018 年左右的 npm。

4. 默认最小权限。 智能体初始状态零访问权,每一项能力都需要主动选择加入。将最小特权原则应用到智能体架构中。

5. 透明的审计日志。 用户可以清晰看到智能体做了什么、接收了什么指令、访问了什么数据。不是埋在日志文件里,而是通过一个清晰、可搜索的界面展示。

6. 事故响应机制。 当(不是“如果”)出现安全问题时,供应商有一套流程:探测、遏制、通知、修复。而不是“去 Discord 看更新”。

OpenClaw 可能会进化成这样。基础已经在那里,社区很活跃,团队正走在可能性的最前沿。但这需要一个根本性的转变,从“最大化灵活性和集成”转向“默认安全”。这是不同的设计哲学,而目前 OpenClaw 显然处于前者。

与此同时,对于技术用户:使用 MiniClaw。单一接入点。沙箱化。无头模式。无聊但安全。

对于非技术用户:等待托管的、沙箱化的版本。它们快来了 —— 市场需求太明显了。在此期间,不要在你的个人机器上运行能够访问你账号的自主智能体。那点便利真的不值得冒这个险。如果你非要运行,请明确你正在接受什么样的风险。

我想诚实地谈谈这里的反方观点,因为它并非无理。对于真正需要 AI 自动化的非技术用户来说,我所描述的替代方案 —— 无头服务器、SSH、tmux —— 是无法触及的。告诉一个市场经理“直接 SSH 到 Mac Mini”不是一个解决方案,而是一种傲慢的拒绝。对于非技术用户,正确的答案不是“不要使用递归智能体”,而是“在一个沙箱化、托管式、由专业人员管理安全的环环境中使用它们”。你支付订阅费,换取的是安心。这种模式正在到来。在此之前,自托管多渠道智能体的风险计算严重偏向于“不值得”。

📸 [图表:“胜出的架构” —— 一个分层堆栈:托管基础设施(底部) -> 沙箱容器(中部) -> 审计技能 + 最小权限(上部) -> 简洁仪表盘(顶部)。每一层都标记了其安全属性。这与 OpenClaw 所有东西都跑在用户机器上的扁平架构形成对比。] 胜出的递归智能体架构应该是怎样的。


你现在应该做什么

如果你目前正在运行 OpenClaw 或正在考虑运行,这里有一些实际的建议。

如果你今天正在运行 OpenClaw:

  1. 审计你安装的每一个 ClawdHub 技能。 阅读完整的源代码,而不仅仅是可见的描述。寻找任务定义下方的隐藏指令。如果你读不懂源码或不理解它的作用,请卸载它。

  2. 审查你的渠道权限。 对于每个连接的渠道(Telegram, Discord, X, 邮箱),问自己:“如果这个渠道被攻破,攻击者能通过我的智能体访问什么?” 如果答案是“我连接的所有其他东西”,那么你就面临受灾范围过大的问题。

  3. 隔离你智能体的执行环境。 如果你的智能体运行在存有个人账号、iMessage、邮件客户端和保存了密码的浏览器的同一台机器上 —— 这就是最大的受灾范围。考虑在容器中或专用机器上运行它。

  4. 禁用你不常用的渠道。 每一个你启用但每天不用的集成,都是你在没有获得任何收益的情况下支付的攻击面代价。精简它。

  5. 更新到最新版本。 CVE-2026-25253 已在 2026.1.29 版本中修复。如果你运行的是旧版本,你就存在一个已知的、可被一键利用的 RCE 漏洞。立即更新。

如果你正在考虑 OpenClaw:

诚实地问自己:你需要的究竟是多渠道编排,还是一个能执行任务的 AI 智能体?这是两回事。智能体功能可以通过 Claude Code、Cursor、Codex 和其他工具链获得 —— 且没有多渠道带来的攻击面。

如果你判定多渠道编排对你的工作流确实不可或缺,请保持警惕。清楚你连接了什么,清楚渠道被攻破意味着什么。在安装之前阅读每一个技能。在专用机器上运行,而不是你的个人笔记本电脑。

如果你在这个领域进行开发:

最大的机会不在于更多的功能或更多的集成,而在于构建一个默认安全的版本。谁能为消费者和企业搞定托管式、沙箱化、经过审计的递归智能体,谁就能占领这个市场。目前,这样的产品还没有出现。

其策略是清晰的:托管基础设施让用户免于管理服务器,沙箱化执行让入侵得以被遏制,经过审计的技能市场让供应链攻击在到达用户前被拦截,透明的日志让每个人都能看到智能体在做什么。利用现有技术这些都是可以解决的。问题在于是否有人会将其优先级置于增长速度之上。

📸 [清单信息图:“如果你今天正在运行 OpenClaw”的 5 点清单,带有可勾选框,设计用于分享。] OpenClaw 现状用户的最低限度安全清单。


结语

这篇文章并不是对 OpenClaw 的攻击,我希望明确这一点。

这个团队正在构建一个雄心勃勃的项目。社区充满激情。由递归智能体管理我们的数字生活这一愿景作为长期预测大概率是正确的。我花了一个星期使用它,是因为我真心希望它能成功。

但它的安全模型还没有准备好迎接它所获得的这种关注。而涌入的人群 —— 尤其是那些最兴奋的非技术用户 —— 甚至不知道自己不知道什么。

当 Andrej Karpathy 称之为“烂摊子”并明确建议不要在电脑上运行;当 CrowdStrike 称之为“全面的入侵诱因”;当 Palo Alto Networks 识别出架构中内置的“致命三要素”;当 20% 的技能市场是活跃的恶意程序;当一个 CVE 就暴露了 42,665 个实例,且其中 93.4% 存在身份验证绕过。

在某种程度上,你必须严肃对待这些证据。

我创建 AgentShield,部分原因就是我在使用 OpenClaw 的那一周里的发现。如果你想扫描自己的智能体配置,检查是否存在我这里描述的漏洞 —— 技能中的隐藏提示词注入、过大的权限、未沙箱化的执行环境 —— AgentShield 可以帮助进行这种评估。但更重要的一点并不在于任何特定的工具。

更重要的一点是:安全必须成为智能体基础设施中的一等约束,而不是事后的补救。

这个行业正在为自主 AI 构建“管道”。这些系统将管理人们的邮件、财务、通信和业务运营。如果我们从基础层就把安全搞错了,我们将为此付出数十年的代价。每一个被入侵的智能体、每一组泄露的凭据、每一个被删光的收件箱 —— 这些都不只是个体事件。它们在侵蚀整个 AI 智能体生态系统赖以生存的信任。

在这个领域构建的人有责任把这件事做对。不是“最终”做对,也不是在“下一个版本”做对,而是现在。

我对未来的走向持乐观态度。对安全、自主智能体的需求是显而易见的。正确构建它们的技术已经存在。总有人会把这些碎片拼凑在一起 —— 托管基础设施、沙箱执行、审计技能、透明日志 —— 并构建出那个适用于所有人的版本。那才是我想使用的产品,那才是能够胜出的产品。

在那之前:读源码、审计技能、最小化你的攻击面。当有人告诉你将七个渠道连接到一个拥有 Root 权限的自主智能体是一个“功能”时,问问他们谁在守门。

安全源于设计(Secure by design),而非偶然(Secure by accident)。

你怎么看?我是太谨慎了,还是社区跑得太快了? 我真心想听听反方意见。请在 X 上回复或私信我。


参考资料

系列导航:


Affaan Mustafa (@affaanmustafa) 致力于开发 AI 编程工具,并撰写关于 AI 基础设施安全的文章。他的 everything-claude-code 仓库在 GitHub 上拥有 5 万多颗星。他创建了 AgentShield,并在 Anthropic x Forum Ventures 黑客松中凭借 zenith.chat 获胜。