Skip to content

Latest commit

 

History

History
100 lines (67 loc) · 3.81 KB

File metadata and controls

100 lines (67 loc) · 3.81 KB

AI Agent 本地 LLM 推理设备部署指南

用真实数据说话,拒绝虚标 — 社区驱动的大模型推理设备性能数据库。

>>> llmdev.guide <<<

llmdev.guide 截图

English

为什么做这个项目?

AI Agent(Claude Code、Cursor、OpenClaw、PicoClaw 等)越来越普及,但相比普通对话,Agent 类应用消耗大量 token。很多用户希望在本地运行大模型,既节省成本又保护数据隐私。

然而本地推理设备选择性繁多,参数复杂,市场充斥着虚标和迷惑性宣传,用户很可能花大价钱买到不符合预期的硬件设备。

本项目旨在发动开源社区开发者的力量,收集真实的大模型推理性能数据,帮助用户做出合理的本地LLM推理设备部署计划。欢迎加入 Discord 参与讨论!

注意本项目以指导个人用户选择能本地运行AI Agent的LLM推理设备为目标,所以收录的设备至少需要能够运行9B大模型,以及一般来说价格应该控制在10000$以内。

常见推理设备算力膨胀宣传手段 (详见网页中的部署指南部分)

宣传手法 说明 膨胀倍数
稀疏算力当默认算力 用稀疏(Sparsity)TOPS 作为宣发算力 2x
低精度算力标称 用 FP4/INT4 而非 INT8/FP16 标称 2~4x
异构算力直接相加 CPU + DSP + NPU 算力简单求和 实际难以协同
多芯片算力/内存直接相加 多颗芯片的算力和内存直接相加,实际通过慢速(<8GB/s)互联 取决于互联速度
高算力低带宽 标称算力很高但内存带宽严重不足 取决于模型

在线查看

访问 llmdev.guide 可以:

  • 天梯排行榜:按单一指标排序(推理速度、性价比、能效比等)
  • 2D 散点图:选择任意两个参数对比,支持气泡大小映射
  • 3D 散点图:三维交互式对比
  • 数据表格:查看所有设备的详细参数和测试数据
  • 部署指南:模型推荐、参数鉴别指南、各价位设备推荐

测试基准

基准模型

采用 Qwen3.5 系列模型作为统一测试基准:

模型 是否必测 说明
Qwen3.5-9B 必选 小型设备基准
Qwen3.5-27B 必选 中型设备基准
Qwen3.5-35B-A3B (MoE) 可选 MoE 性能参考
Qwen3.5-122B-A10B (MoE) 可选 大内存设备参考
Qwen3.5-397B-A17B (MoE) 可选 旗舰设备参考

测试指标

  • 输出速度 (tokens/s) — 交互体验最重要的指标
  • Prefill 速度 (tokens/s) — 影响首次输出等待时间
  • 最低量化精度:4-bit(INT4/Q4)
  • 缺少 Qwen3.5 直测数据的设备,可使用近似模型估算(标记 *)

带宽上限校验

所有报告的速度会与理论带宽上限进行比对:

理论上限 TPS = 内存带宽 (GB/s) × 0.9 / 模型权重大小 (GB)

超过上限的数据将标记为存疑(⚠)。

如何贡献

欢迎所有人提交设备的真实测试数据!

请阅读 贡献指南

简要流程:

  1. Fork 本仓库
  2. 复制 devices/_template.md,按格式填写你的设备数据
  3. 附上测试证据(截图、终端输出)
  4. 提交 PR

本地开发

# 构建数据文件
python scripts/build_data.py

# 本地预览
cd docs && python -m http.server 8080

许可证

本项目采用 CC BY-SA 4.0 协议。数据由社区贡献者提供,仅供参考。