Skip to content

Commit 673d735

Browse files
🗑️ 删除不再需要的文档,优化项目结构
- 删除了关于“Agent开发”、“大模型的应用”、“模型社区与部署”、“模型评测”和“MCP”的文档,简化了项目内容。 - 通过移除冗余信息,提升了文档的可维护性与清晰度。
1 parent be3cd9e commit 673d735

File tree

7 files changed

+107
-95
lines changed

7 files changed

+107
-95
lines changed
Lines changed: 16 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -182,8 +182,23 @@ if __name__ == '__main__':
182182

183183
#### Mcp
184184

185-
MCP 是 工具调用的一种新范式,是传统API接口加上适合AI阅读的描述。提供让AI可以更方便地调用工具的方式
185+
一种专为大模型设计的API接口,简单易用,岗位要求基本与传统API开发一致,但需要对大模型特性有所了解
186186

187+
Mcp的优点
188+
1.无需提示词即可运行,降低使用门槛。
189+
2.具备工作流与工具开发解耦特性,利于灵活拓展、维护,分工更清晰。
190+
3.支持实时加载与自动更新,能及时迭代、适配新需求。
191+
4.无需关注 API 内部细节,简化开发流程,让开发者聚焦业务逻辑 。
192+
193+
MCP 的缺点
194+
1. 需要额外安装 MCP 客户端,增加了使用成本。
195+
2. 大部分MCP无法解决复杂任务,只是简化了常用API的调用门槛。
196+
3. MCP 需要联网,在开发内部项目时需要额外对工具库项目封装。
197+
198+
199+
#### A2A
200+
201+
A2A 是 Agent 到 Agent 的通信,是多智能体系统中的一种通信方式。
187202

188203

189204
### 智能体流程架构类型分析
Lines changed: 62 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,62 @@
1+
---
2+
title: 本地部署
3+
sidebar_position: 9
4+
---
5+
6+
## 模型本地部署
7+
8+
社区上默认的部署方式往往是用来测试,生产环境下我们往往需要:并发高、延迟低、占用小。同时兼顾不同的底层硬件。主流部署框架是 Ollama 和 VLLM。
9+
10+
| 维度 | Ollama | VLLM |
11+
| :-------------------- | :------------------------------------------ | :---------------------------------------------- |
12+
| **官网** | [https://ollama.com/](https://ollama.com/) | [https://vllm.ai/](https://vllm.ai/) |
13+
| **GitHub** | [https://github.com/ollama/ollama](https://github.com/ollama/ollama) | [https://github.com/vllm-project/vllm](https://github.com/vllm-project/vllm) |
14+
| **核心功能** | 模型管理和推理框架,支持快速加载、切换模型 | 高性能推理引擎,优化 Transformer 模型推理 |
15+
| **主要特点** | 易用的命令行工具,支持多个预训练模型 | 动态批次合并(dynamic batching),高吞吐量推理 |
16+
| **性能** | 适中,重点在于易用性 | 高,专为分布式和高吞吐量推理优化 |
17+
| **支持硬件** | CPU/GPU | GPU |
18+
| **异步支持** | 支持多任务异步加载模型 | 原生支持,面向大规模分布式推理设计 | |
19+
| **部署难度** | 低,支持简单命令行部署 | 中,需要配置分布式推理环境 |
20+
| **内存优化** | 支持基础内存管理 | 通过动态批次和显存优化提高吞吐量 |
21+
| **适用场景** | 小型项目、模型快速切换、开发测试 | 高性能推理、分布式推理、服务大规模用户 |
22+
| **对 Python 的支持** | 易于集成到 Python 应用中,支持 REST API | 强支持,直接集成到 Python 项目 |
23+
24+
### ollama示例
25+
26+
示例1:ollama部署huggingface模型
27+
28+
```bash showLineNumbers
29+
ollama run hf.co/{username}/{reponame}:latest
30+
```
31+
32+
示例2:运行最新的模型
33+
```bash showLineNumbers
34+
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:latest
35+
```
36+
37+
示例3:运行特定的量化模型
38+
```bash showLineNumbers
39+
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:Q8_0
40+
```
41+
42+
### vllm示例
43+
44+
示例1:vllm部署huggingface模型
45+
46+
```bash showLineNumbers
47+
vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123
48+
```
49+
50+
示例2:vllm部署本地模型,调用8卡推理
51+
```bash showLineNumbers
52+
vllm serve /home/ly/qwen2.5/Qwen2.5-32B-Instruct/ --tensor-parallel-size 8 --dtype auto --api-key 123 --gpu-memory-utilization 0.95 --max-model-len 27768 --enable-auto-tool-choice --tool-call-parser hermes --served-model-name Qwen2.5-32B-Instruct --kv-cache-dtype fp8_e5m2
53+
```
54+
示例3:vllm部署本地模型,指定某块GPU运行模型
55+
```bash showLineNumbers
56+
CUDA_VISIBLE_DEVICES=2 vllm serve /home/ly/qwen2.5/Qwen2-VL-7B-Instruct --dtype auto --tensor-parallel-size 1 auto --api-key 123 --gpu-memory-utilization 0.5 --max-model-len 5108 --enable-auto-tool-choice --tool-call-parser hermes --served-model-name Qwen2-VL-7B-Instruct --port 1236
57+
```
58+
:::info
59+
Vllm不支持启动一个服务就可以随机切换其他模型(ollama支持)。
60+
61+
通常需要为每一个模型单独运行一次vllm命令,并且每个模型都要提供不同的端口,比如他默认的是8000端口,而我上一个命令使用的是1236端口
62+
:::

docs/docs/大模型的应用/模型微调.mdx

Lines changed: 8 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -193,3 +193,11 @@ EETQ(**Easy and Efficient Quantization for Transformers**)是一种只对模
193193
- 简单易用
194194
195195
EETQ 特别适合对性能和实现复杂度都有较高要求的用户。
196+
197+
## 大模型在云平台上的发展
198+
199+
截至2025年6月,大模型最佳实践依然是租算力或本地运行。大型和小型算例平台易用性与性价比均不高。
200+
201+
小型算力平台例如:无问芯穹,需要先企业认证才能开始模型训练与微调。
202+
203+
大型算例平台例如:阿里云百炼,无需企业认证,但是200MB的训练语料就需要加载80分钟,数据还需要分割后再上传。200MB语料下,训练`Qwen2.5 7b`一轮训练就需要4小时,约18元。换算后:1个G的语料,训练`Qwen2.5 7b`一轮训练就需要20小时,约90元。成本是租算力1倍往上。
Lines changed: 9 additions & 56 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
---
22
sidebar_position: 1
3-
title: 模型社区与部署
3+
title: 模型社区
44
---
55

66
## 开源模型
@@ -155,6 +155,8 @@ Qwen 3-MAX 使用的也是MoE架构。官方称其参数超过1T(1000B)远
155155

156156
社区具有明显的马太效应,即头部效应明显,头部模型拥有最多的资源,最新的技术,最多的用户。
157157

158+
### 开源模型推理
159+
158160
Hugging Face 是国外最著名的开源社区,提供了 `transformers` 库,可以方便地下载模型,地址:[https://huggingface.co/](https://huggingface.co/)
159161

160162
魔搭社区是阿里达摩院推出的开源社区,基于中国网络环境,`modelscope` 库,对标 Hugging Face 的 `transformers` 库。地址:[https://www.modelscope.cn/](https://www.modelscope.cn/)
@@ -195,61 +197,12 @@ while True:
195197
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
196198
print(response)
197199
```
200+
### 开源数据集
198201

199-
## 模型部署
200-
201-
社区上默认的部署方式往往是用来测试,生产环境下我们往往需要:并发高、延迟低、占用小。同时兼顾不同的底层硬件。主流部署框架是 Ollama 和 VLLM。
202-
203-
| 维度 | Ollama | VLLM |
204-
| :-------------------- | :------------------------------------------ | :---------------------------------------------- |
205-
| **官网** | [https://ollama.com/](https://ollama.com/) | [https://vllm.ai/](https://vllm.ai/) |
206-
| **GitHub** | [https://github.com/ollama/ollama](https://github.com/ollama/ollama) | [https://github.com/vllm-project/vllm](https://github.com/vllm-project/vllm) |
207-
| **核心功能** | 模型管理和推理框架,支持快速加载、切换模型 | 高性能推理引擎,优化 Transformer 模型推理 |
208-
| **主要特点** | 易用的命令行工具,支持多个预训练模型 | 动态批次合并(dynamic batching),高吞吐量推理 |
209-
| **性能** | 适中,重点在于易用性 | 高,专为分布式和高吞吐量推理优化 |
210-
| **支持硬件** | CPU/GPU | GPU |
211-
| **异步支持** | 支持多任务异步加载模型 | 原生支持,面向大规模分布式推理设计 | |
212-
| **部署难度** | 低,支持简单命令行部署 | 中,需要配置分布式推理环境 |
213-
| **内存优化** | 支持基础内存管理 | 通过动态批次和显存优化提高吞吐量 |
214-
| **适用场景** | 小型项目、模型快速切换、开发测试 | 高性能推理、分布式推理、服务大规模用户 |
215-
| **对 Python 的支持** | 易于集成到 Python 应用中,支持 REST API | 强支持,直接集成到 Python 项目 |
216-
217-
### ollama示例
218-
219-
示例1:ollama部署huggingface模型
220-
221-
```bash showLineNumbers
222-
ollama run hf.co/{username}/{reponame}:latest
223-
```
224-
225-
示例2:运行最新的模型
226-
```bash showLineNumbers
227-
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:latest
228-
```
229-
230-
示例3:运行特定的量化模型
231-
```bash showLineNumbers
232-
ollama run hf.co/bartowski/Llama-3.2-1B-Instruct-GGUF:Q8_0
233-
```
234-
235-
### vllm示例
236-
237-
示例1:vllm部署huggingface模型
238-
239-
```bash showLineNumbers
240-
vllm serve NousResearch/Meta-Llama-3-8B-Instruct --dtype auto --api-key token-abc123
241-
```
202+
除了开源模型,还有开源数据集。
242203

243-
示例2:vllm部署本地模型,调用8卡推理
244-
```bash showLineNumbers
245-
vllm serve /home/ly/qwen2.5/Qwen2.5-32B-Instruct/ --tensor-parallel-size 8 --dtype auto --api-key 123 --gpu-memory-utilization 0.95 --max-model-len 27768 --enable-auto-tool-choice --tool-call-parser hermes --served-model-name Qwen2.5-32B-Instruct --kv-cache-dtype fp8_e5m2
246-
```
247-
示例3:vllm部署本地模型,指定某块GPU运行模型
248-
```bash showLineNumbers
249-
CUDA_VISIBLE_DEVICES=2 vllm serve /home/ly/qwen2.5/Qwen2-VL-7B-Instruct --dtype auto --tensor-parallel-size 1 auto --api-key 123 --gpu-memory-utilization 0.5 --max-model-len 5108 --enable-auto-tool-choice --tool-call-parser hermes --served-model-name Qwen2-VL-7B-Instruct --port 1236
204+
```python showLineNumbers
205+
from modelscope.msdatasets import MsDataset
206+
dataset = MsDataset.load('swift/Chinese-Qwen3-235B-2507-Distill-data-110k-SFT')
207+
print(f'dataset[0]: {dataset[0]}')
250208
```
251-
:::info
252-
Vllm不支持启动一个服务就可以随机切换其他模型(ollama支持)。
253-
254-
通常需要为每一个模型单独运行一次vllm命令,并且每个模型都要提供不同的端口,比如他默认的是8000端口,而我上一个命令使用的是1236端口
255-
:::
Lines changed: 12 additions & 11 deletions
Original file line numberDiff line numberDiff line change
@@ -1,42 +1,44 @@
11
---
2+
sidebar_position: 6
23
title: 模型评测
3-
sidebar_position: 9
44
---
55

6+
## 模型评测
7+
68
为了更好的了解当下模型性能,我们列举了几个模型排名网站,这些网站通过主观测试(人工盲选较优模型)或者客观测试(自动通过含有答案的测试对比准确度),对模型进行排名,并给出排名结果。
79

810
- Hugging Face 模型排名:[https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
911
- lmarena排名:[https://lmarena.ai/](https://lmarena.ai/)
1012

1113
那么如何自动化测评得出排名?
1214

13-
## 语言模型(LLM)自动化评测技术
15+
### 语言模型(LLM)自动化评测技术
1416

15-
### "考试"评测:客观题与标准化能力测试
17+
#### "考试"评测:客观题与标准化能力测试
1618

1719
这是一种最基础且高效的评测方法,类似于给模型进行一场"标准化考试"。评测者提供包含多选题或客观题的数据集,模型给出答案,然后通过脚本或工具自动比对答案,计算分数。这种方法的优点在于评测过程客观、可重复,且成本低廉。
1820

19-
#### 核心基准测试
21+
##### 核心基准测试
2022

2123
**MMLU (Massive Multitask Language Understanding)**:这是一个大规模的英文多任务测试,包含来自人文、社会科学、硬科学等57个领域的选择题。要在这个测试中获得高分,模型必须具备广泛的世界知识和强大的问题解决能力,而非仅仅是单一领域的专家。
2224

2325
**C-Eval**:作为MMLU的中文版,C-Eval是专门为评估语言模型在中文语境下的知识和推理能力而设计的综合性基准。它包含了13,948道多选题,跨越52个学科和4个难度级别,其中许多问题都具有中国特定的文化和常识背景。
2426

2527
**GSM8K**:这是一个由小学数学应用题组成的数据集,主要用于评估模型在数学方面的逻辑推理能力。
2628

27-
#### 如何得出评分
29+
##### 如何得出评分
2830

2931
这类评测的核心指标通常是准确率(Accuracy),即模型答对的题目数占总题目数的百分比。例如,在C-Eval的100道题中,如果模型答对了80道,那么它的准确率就是80%。在评测中,准确率分数越高越好。
3032

3133
然而,仅仅依赖这些标准化基准也存在挑战。随着模型能力的提升,业界开始担忧模型是否仅仅是通过对训练数据集的"死记硬背"来获得高分,而非真正具备推理能力。例如,GPT-4在C-Eval Hard等榜单上的表现优于其他模型,但其能力来源是否仅仅是记忆,引发了新的讨论。为了解决这种"刷榜"和数据偏见的问题,研究者们开始构建新的、更具挑战性的评测基准,如GSM-Symbolic和GSM8K-Platinum。这些新的基准通过修正原有数据集中的标签噪音和生成更多样的变体问题,来更准确地衡量模型的真实能力。
3234

3335
这种模型与评测基准之间的博弈,恰恰体现了评测工作的动态演进本质。一个优秀的评测工程师不仅要懂得如何使用现有的工具,更要具备敏锐的洞察力,能够识别现有评测的局限性,并为设计新一代、更可靠的评测体系提供宝贵的见解。
3436

35-
### "创作"评测:评估文本生成质量
37+
#### "创作"评测:评估文本生成质量
3638

3739
相较于有唯一正确答案的客观题,评估模型生成开放性、非确定性文本(如摘要、翻译、创作等)的能力更具挑战性。自动化评测通过复杂的算法,衡量模型生成文本与人工参考文本之间的相似度,以量化其质量。
3840

39-
#### 核心指标详解
41+
##### 核心指标详解
4042

4143
**BLEU (Bilingual Evaluation Understudy)**
4244
- **核心思想**:BLEU基于n-gram(连续词组)重合度,来衡量模型生成的文本与参考答案有多大的词汇重叠。
@@ -61,15 +63,14 @@ sidebar_position: 9
6163

6264
尽管这些自动化指标高效,但它们无法完全捕捉模型的流畅性、逻辑性和观点表达等深层能力。因此,在实际工作中,评测者通常会采用混合评测方式,将自动化评测与人工评测(通过专家打分)和大模型辅助评测(利用GPT-4等强大模型作为"裁判员")结合起来。一个专业的评测工程师不会只依赖某一个指标,而是能根据具体任务,选择最合适的指标组合,甚至为特定业务需求设计独特的评测体系,例如在代码生成领域使用Pass@k指标来评估代码的功能正确性。这凸显了评测工作的价值在于"组合"与策略。
6365

64-
---
6566

66-
## 多模态模型自动化评测技术
67+
### 多模态模型自动化评测技术
6768

68-
### 文生图(T2I)评测:图像的"视觉"与"语义"衡量
69+
#### 文生图(T2I)评测:图像的"视觉"与"语义"衡量
6970

7071
多模态模型,尤其是文生图(Text-to-Image, T2I)模型,其评测挑战在于需要同时衡量两个关键维度:生成的图像质量(是否真实、美观)以及与输入文本的一致性(是否准确反映提示词)。
7172

72-
#### 核心指标详解
73+
##### 核心指标详解
7374

7475
**FID (Fréchet Inception Distance)**
7576
- **核心思想**:FID是评估图像生成模型质量和多样性的黄金标准。它不直接比较单个生成的图像与真实图像,而是通过计算生成图像的群体分布与真实图像的群体分布之间的距离。

docs/docs/大模型的应用/潮流前沿.md

Lines changed: 0 additions & 27 deletions
This file was deleted.

0 commit comments

Comments
 (0)