用真实数据说话,拒绝虚标 — 社区驱动的大模型推理设备性能数据库。
AI Agent(Claude Code、Cursor、OpenClaw、PicoClaw 等)越来越普及,但相比普通对话,Agent 类应用消耗大量 token。很多用户希望在本地运行大模型,既节省成本又保护数据隐私。
然而本地推理设备选择性繁多,参数复杂,市场充斥着虚标和迷惑性宣传,用户很可能花大价钱买到不符合预期的硬件设备。
本项目旨在发动开源社区开发者的力量,收集真实的大模型推理性能数据,帮助用户做出合理的本地LLM推理设备部署计划。欢迎加入 Discord 参与讨论!
注意本项目以指导个人用户选择能本地运行AI Agent的LLM推理设备为目标,所以收录的设备至少需要能够运行9B大模型,以及一般来说价格应该控制在10000$以内。
常见推理设备算力膨胀宣传手段 (详见网页中的部署指南部分)
| 宣传手法 | 说明 | 膨胀倍数 |
|---|---|---|
| 稀疏算力当默认算力 | 用稀疏(Sparsity)TOPS 作为宣发算力 | 2x |
| 低精度算力标称 | 用 FP4/INT4 而非 INT8/FP16 标称 | 2~4x |
| 异构算力直接相加 | CPU + DSP + NPU 算力简单求和 | 实际难以协同 |
| 多芯片算力/内存直接相加 | 多颗芯片的算力和内存直接相加,实际通过慢速(<8GB/s)互联 | 取决于互联速度 |
| 高算力低带宽 | 标称算力很高但内存带宽严重不足 | 取决于模型 |
访问 llmdev.guide 可以:
- 天梯排行榜:按单一指标排序(推理速度、性价比、能效比等)
- 2D 散点图:选择任意两个参数对比,支持气泡大小映射
- 3D 散点图:三维交互式对比
- 数据表格:查看所有设备的详细参数和测试数据
- 部署指南:模型推荐、参数鉴别指南、各价位设备推荐
采用 Qwen3.5 系列模型作为统一测试基准:
| 模型 | 是否必测 | 说明 |
|---|---|---|
| Qwen3.5-9B | 必选 | 小型设备基准 |
| Qwen3.5-27B | 必选 | 中型设备基准 |
| Qwen3.5-35B-A3B (MoE) | 可选 | MoE 性能参考 |
| Qwen3.5-122B-A10B (MoE) | 可选 | 大内存设备参考 |
| Qwen3.5-397B-A17B (MoE) | 可选 | 旗舰设备参考 |
- 输出速度 (tokens/s) — 交互体验最重要的指标
- Prefill 速度 (tokens/s) — 影响首次输出等待时间
- 最低量化精度:4-bit(INT4/Q4)
- 缺少 Qwen3.5 直测数据的设备,可使用近似模型估算(标记 *)
所有报告的速度会与理论带宽上限进行比对:
理论上限 TPS = 内存带宽 (GB/s) × 0.9 / 模型权重大小 (GB)
超过上限的数据将标记为存疑(⚠)。
欢迎所有人提交设备的真实测试数据!
请阅读 贡献指南。
简要流程:
- Fork 本仓库
- 复制
devices/_template.md,按格式填写你的设备数据 - 附上测试证据(截图、终端输出)
- 提交 PR
# 构建数据文件
python scripts/build_data.py
# 本地预览
cd docs && python -m http.server 8080本项目采用 CC BY-SA 4.0 协议。数据由社区贡献者提供,仅供参考。
