|
20 | 20 | 如果 GPT Server 对您有帮助,欢迎留下一个 ⭐ Star! |
21 | 21 | <br> |
22 | 22 |
|
23 | | -## 最新消息 |
24 | | -本项目使用 uv 进行项目管理。(https://github.com/astral-sh/uv) |
25 | | - |
26 | | -## 特色✨ |
27 | | - |
28 | | -1. 支持多种推理后端引擎,**HF**、**vLLM**、**LMDeploy**和**SGLang**,**LMDeploy**后端引擎,每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍 |
29 | | -2. 支持了Infinity后端,**Embedding**推理速度大于onnx/tensorrt,支持动态组批 |
30 | | -3. 支持所有兼容sentence_transformers的语义向量模型(Embedding和Reranker) |
31 | | -4. 支持guided_decoding,强制模型按照Schema的要求进行JSON格式输出。 |
32 | | -5. 支持了**Tools(Function Calling)**功能,并优化Tools解析方式,大大提高tools的调用成功率。兼容**LangChain**的 **bind_tools**、**with_structured_output**写法(目前支持Qwen系列、GLM系列) |
33 | | -6. 支持了**cohere**库接口规范的 /v1/rerank 接口,在dify中可用。 |
34 | | -7. 全球唯一扩展了**openai**库,实现Reranker模型(rerank, /v1/rerank)。(代码样例见gpt_server/tests/test_openai_rerank.py) |
35 | | -8. 全球唯一支持了**openai**库的文本审核模型接口(text-moderation, /v1/moderations)。(代码样例见gpt_server/tests/test_openai_moderation.py) |
36 | | -9. 全球唯一支持了**openai**库的TTS模型接口(tts, /v1/audio/speech)(代码样例见gpt_server/tests/test_openai_tts_stream.py) |
37 | | -10. 全球唯一支持了**openai**库的ASR模型接口(asr, /v1/audio/transcriptions),基于fanasr后端(代码样例见gpt_server/tests/test_openai_transcriptions.py) |
38 | | -11. 支持多模态大模型 |
39 | | -12. 与FastChat相同的分布式架构 |
40 | | -## 配置文档 |
| 23 | +## ✨ 功能亮点 |
| 24 | +| | 功能 | 说明 | |
| 25 | +|-----|-------------|-------------------------------------------------------------------| |
| 26 | +| 🎨 | **OpenAI服务接口** | 支持 `OpenAI` 服务接口规范,兼容所有支持 OpenAI的项目工程 | |
| 27 | +| 🚀 | **多后端引擎推理** | 支持 `vLLM`、`SGLang`、`LMDeploy`、`HF`多种高性能推理引擎 | |
| 28 | +| 🎯 | **Embedding/Reranker** | 支持所有兼容`Sentence_Transformers`的语义向量或重排模型,支持了Infinity后端,**Embedding**推理速度大于onnx/tensorrt,支持动态组批 | |
| 29 | +| 🎛️ | **Text-moderation(文本审核,分类)** | 支持`OpenAI` 服务接口规范的文本审核,分类 | |
| 30 | +| 📱 | **ASR(语音转文本)** | 支持基于`FunASR`的ASR模型 | |
| 31 | +| 🔊 | **TTS(文本转语音)** | 支持基于`SparkTTS`的TTS模型,支持基于`vLLM`、`SGLang`后端对齐加速,`RTF<<1`,支持流式音频流输出 | |
| 32 | +| 🔄 | **支持LM/VL模型** | 支持多种大语言模型或多模态语言模型 | |
| 33 | +| 🎭 | **推理服务性能测试** | 基于`Evalscope`实现`Throughput`、`TTFT`、`TPOT`等服务性能指标 | |
| 34 | + |
| 35 | +<br> |
| 36 | + |
| 37 | +- 支持guided_decoding,强制模型按照Schema的要求进行JSON格式输出。 |
| 38 | +- 支持了**Tools(Function Calling)**功能,并优化Tools解析方式,大大提高tools的调用成功率。兼容**LangChain**的 **bind_tools**、**with_structured_output**写法(目前支持Qwen系列、GLM系列) |
| 39 | +- 支持了**cohere**库接口规范的 /v1/rerank 接口,在dify中可用。 |
| 40 | +- 全球唯一扩展了**openai**库,实现Reranker模型(rerank, /v1/rerank)。(代码样例见gpt_server/tests/test_openai_rerank.py) |
| 41 | +- 全球唯一支持了**openai**库的文本审核模型接口(text-moderation, /v1/moderations)。(代码样例见gpt_server/tests/test_openai_moderation.py) |
| 42 | +- 全球唯一支持了**openai**库的TTS模型接口(tts, /v1/audio/speech)(代码样例见gpt_server/tests/test_openai_tts_stream.py) |
| 43 | +- 全球唯一支持了**openai**库的ASR模型接口(asr, /v1/audio/transcriptions),基于fanasr后端(代码样例见gpt_server/tests/test_openai_transcriptions.py) |
| 44 | + |
| 45 | +## 🖼️ 配置文档 |
41 | 46 | 通过这个样例文件,可以很快的掌握项目的配置方式。 |
42 | 47 | <br> |
43 | 48 | **配置文件的详细说明信息位于:[config_example.yaml](https://github.com/shell-nlp/gpt_server/blob/main/gpt_server/script/config_example.yaml "配置文件")** |
44 | 49 |
|
45 | | -## 最新进展🎉 |
| 50 | +## 🎉 最新进展 |
46 | 51 | <details open> |
47 | 52 | <summary><b>2025</b></summary> |
48 | 53 |
|
|
97 | 102 | ``` |
98 | 103 | </details> |
99 | 104 |
|
100 | | -## 路线 |
| 105 | +## 🧭 路线 |
101 | 106 |
|
102 | 107 | * [X] 支持HF后端 |
103 | 108 | * [X] 支持vLLM后端 |
|
115 | 120 | * [ ] 支持 pip install 方式进行安装 |
116 | 121 |
|
117 | 122 |
|
118 | | -## 快速开始 |
| 123 | +## ⚙️ 快速开始 |
119 | 124 |
|
120 | 125 | ### 1. 配置python环境 |
121 | 126 |
|
@@ -221,7 +226,7 @@ Chat UI界面: |
221 | 226 |
|
222 | 227 |
|
223 | 228 |
|
224 | | -## 支持的模型以及推理后端 |
| 229 | +## ⚡ 支持的模型以及推理后端 |
225 | 230 |
|
226 | 231 | **推理速度:** LMDeploy TurboMind > SGLang > vllm > LMDeploy PyTorch > HF |
227 | 232 |
|
@@ -321,23 +326,23 @@ Chat UI界面: |
321 | 326 |
|
322 | 327 | <br> |
323 | 328 |
|
324 | | -## 架构 |
| 329 | +## 🏗️ 架构 |
325 | 330 |
|
326 | 331 |  |
327 | 332 |
|
328 | | -## 致谢 |
| 333 | +## 🤝 致谢 |
329 | 334 | - [FastChat](https://github.com/lm-sys/FastChat) |
330 | 335 | - [vLLM](https://github.com/vllm-project/vllm) |
331 | 336 | - [LMDeploy ](https://github.com/InternLM/lmdeploy) |
332 | 337 | - [SGLang ](https://github.com/sgl-project/sglang) |
333 | 338 | - [infinity](https://github.com/michaelfeil/infinity) |
334 | 339 | - [FlashTTS](https://github.com/HuiResearch/FlashTTS) |
335 | 340 |
|
336 | | -## 与我联系(会邀请进入交流群) |
| 341 | +## 📲 与我联系(会邀请进入交流群) |
337 | 342 |
|
338 | 343 |  |
339 | 344 |
|
340 | | -## Star History |
| 345 | +## 🌟 Star History |
341 | 346 |
|
342 | 347 | [](https://star-history.com/#shell-nlp/gpt_server&Date) |
343 | 348 |
|
|
0 commit comments