AI Agent 本地 LLM 推理设备部署指南

用真实数据说话，拒绝虚标 — 社区驱动的大模型推理设备性能数据库。

>>> llmdev.guide <<<

English

为什么做这个项目？

AI Agent（Claude Code、Cursor、OpenClaw、PicoClaw 等）越来越普及，但相比普通对话，Agent 类应用消耗大量 token。很多用户希望在本地运行大模型，既节省成本又保护数据隐私。

然而本地推理设备选择性繁多，参数复杂，市场充斥着虚标和迷惑性宣传，用户很可能花大价钱买到不符合预期的硬件设备。

本项目旨在发动开源社区开发者的力量，收集真实的大模型推理性能数据，帮助用户做出合理的本地LLM推理设备部署计划。欢迎加入 Discord 参与讨论！

注意本项目以指导个人用户选择能本地运行AI Agent的LLM推理设备为目标，所以收录的设备至少需要能够运行9B大模型，以及一般来说价格应该控制在10000$以内。

常见推理设备算力膨胀宣传手段 (详见网页中的部署指南部分)

宣传手法	说明	膨胀倍数
稀疏算力当默认算力	用稀疏（Sparsity）TOPS 作为宣发算力	2x
低精度算力标称	用 FP4/INT4 而非 INT8/FP16 标称	2~4x
异构算力直接相加	CPU + DSP + NPU 算力简单求和	实际难以协同
多芯片算力/内存直接相加	多颗芯片的算力和内存直接相加，实际通过慢速(<8GB/s)互联	取决于互联速度
高算力低带宽	标称算力很高但内存带宽严重不足	取决于模型

在线查看

访问 llmdev.guide 可以：

天梯排行榜：按单一指标排序（推理速度、性价比、能效比等）
2D 散点图：选择任意两个参数对比，支持气泡大小映射
3D 散点图：三维交互式对比
数据表格：查看所有设备的详细参数和测试数据
部署指南：模型推荐、参数鉴别指南、各价位设备推荐

测试基准

基准模型

采用 Qwen3.5 系列模型作为统一测试基准：

模型	是否必测	说明
Qwen3.5-9B	必选	小型设备基准
Qwen3.5-27B	必选	中型设备基准
Qwen3.5-35B-A3B (MoE)	可选	MoE 性能参考
Qwen3.5-122B-A10B (MoE)	可选	大内存设备参考
Qwen3.5-397B-A17B (MoE)	可选	旗舰设备参考

测试指标

输出速度 (tokens/s) — 交互体验最重要的指标
Prefill 速度 (tokens/s) — 影响首次输出等待时间
最低量化精度：4-bit（INT4/Q4）
缺少 Qwen3.5 直测数据的设备，可使用近似模型估算（标记 *）

带宽上限校验

所有报告的速度会与理论带宽上限进行比对：

理论上限 TPS = 内存带宽 (GB/s) × 0.9 / 模型权重大小 (GB)

超过上限的数据将标记为存疑（⚠）。

如何贡献

欢迎所有人提交设备的真实测试数据！

请阅读贡献指南。

简要流程：

Fork 本仓库
复制 devices/_template.md，按格式填写你的设备数据
附上测试证据（截图、终端输出）
提交 PR

本地开发

# 构建数据文件
python scripts/build_data.py

# 本地预览
cd docs && python -m http.server 8080

许可证

本项目采用 CC BY-SA 4.0 协议。数据由社区贡献者提供，仅供参考。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

AI Agent 本地 LLM 推理设备部署指南

为什么做这个项目？

在线查看

测试基准

基准模型

测试指标

带宽上限校验

如何贡献

本地开发

许可证

FilesExpand file tree

README_zh.md

Latest commit

History

README_zh.md

File metadata and controls

AI Agent 本地 LLM 推理设备部署指南

为什么做这个项目？

在线查看

测试基准

基准模型

测试指标

带宽上限校验

如何贡献

本地开发

许可证