|
20 | 20 | 如果 GPT Server 对您有帮助,欢迎留下一个 ⭐ Star!
|
21 | 21 | <br>
|
22 | 22 |
|
23 |
| -## 最新消息 |
24 |
| -本项目使用 uv 进行项目管理。(https://github.com/astral-sh/uv) |
25 |
| - |
26 |
| -## 特色✨ |
27 |
| - |
28 |
| -1. 支持多种推理后端引擎,**HF**、**vLLM**、**LMDeploy**和**SGLang**,**LMDeploy**后端引擎,每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍 |
29 |
| -2. 支持了Infinity后端,**Embedding**推理速度大于onnx/tensorrt,支持动态组批 |
30 |
| -3. 支持所有兼容sentence_transformers的语义向量模型(Embedding和Reranker) |
31 |
| -4. 支持guided_decoding,强制模型按照Schema的要求进行JSON格式输出。 |
32 |
| -5. 支持了**Tools(Function Calling)**功能,并优化Tools解析方式,大大提高tools的调用成功率。兼容**LangChain**的 **bind_tools**、**with_structured_output**写法(目前支持Qwen系列、GLM系列) |
33 |
| -6. 支持了**cohere**库接口规范的 /v1/rerank 接口,在dify中可用。 |
34 |
| -7. 全球唯一扩展了**openai**库,实现Reranker模型(rerank, /v1/rerank)。(代码样例见gpt_server/tests/test_openai_rerank.py) |
35 |
| -8. 全球唯一支持了**openai**库的文本审核模型接口(text-moderation, /v1/moderations)。(代码样例见gpt_server/tests/test_openai_moderation.py) |
36 |
| -9. 全球唯一支持了**openai**库的TTS模型接口(tts, /v1/audio/speech)(代码样例见gpt_server/tests/test_openai_tts_stream.py) |
37 |
| -10. 全球唯一支持了**openai**库的ASR模型接口(asr, /v1/audio/transcriptions),基于fanasr后端(代码样例见gpt_server/tests/test_openai_transcriptions.py) |
38 |
| -11. 支持多模态大模型 |
39 |
| -12. 与FastChat相同的分布式架构 |
40 |
| -## 配置文档 |
| 23 | +## ✨ 功能亮点 |
| 24 | +| | 功能 | 说明 | |
| 25 | +|-----|-------------|-------------------------------------------------------------------| |
| 26 | +| 🎨 | **OpenAI服务接口** | 支持 `OpenAI` 服务接口规范,兼容所有支持 OpenAI的项目工程 | |
| 27 | +| 🚀 | **多后端引擎推理** | 支持 `vLLM`、`SGLang`、`LMDeploy`、`HF`多种高性能推理引擎 | |
| 28 | +| 🎯 | **Embedding/Reranker** | 支持所有兼容`Sentence_Transformers`的语义向量或重排模型,支持了Infinity后端,**Embedding**推理速度大于onnx/tensorrt,支持动态组批 | |
| 29 | +| 🎛️ | **Text-moderation(文本审核,分类)** | 支持`OpenAI` 服务接口规范的文本审核,分类 | |
| 30 | +| 📱 | **ASR(语音转文本)** | 支持基于`FunASR`的ASR模型 | |
| 31 | +| 🔊 | **TTS(文本转语音)** | 支持基于`SparkTTS`的TTS模型,支持基于`vLLM`、`SGLang`后端对齐加速,`RTF<<1`,支持流式音频流输出 | |
| 32 | +| 🔄 | **支持LM/VL模型** | 支持多种大语言模型或多模态语言模型 | |
| 33 | +| 🎭 | **推理服务性能测试** | 基于`Evalscope`实现`Throughput`、`TTFT`、`TPOT`等服务性能指标 | |
| 34 | + |
| 35 | +<br> |
| 36 | + |
| 37 | +- 支持guided_decoding,强制模型按照Schema的要求进行JSON格式输出。 |
| 38 | +- 支持了**Tools(Function Calling)**功能,并优化Tools解析方式,大大提高tools的调用成功率。兼容**LangChain**的 **bind_tools**、**with_structured_output**写法(目前支持Qwen系列、GLM系列) |
| 39 | +- 支持了**cohere**库接口规范的 /v1/rerank 接口,在dify中可用。 |
| 40 | +- 全球唯一扩展了**openai**库,实现Reranker模型(rerank, /v1/rerank)。(代码样例见gpt_server/tests/test_openai_rerank.py) |
| 41 | +- 全球唯一支持了**openai**库的文本审核模型接口(text-moderation, /v1/moderations)。(代码样例见gpt_server/tests/test_openai_moderation.py) |
| 42 | +- 全球唯一支持了**openai**库的TTS模型接口(tts, /v1/audio/speech)(代码样例见gpt_server/tests/test_openai_tts_stream.py) |
| 43 | +- 全球唯一支持了**openai**库的ASR模型接口(asr, /v1/audio/transcriptions),基于fanasr后端(代码样例见gpt_server/tests/test_openai_transcriptions.py) |
| 44 | + |
| 45 | +## 🖼️ 配置文档 |
41 | 46 | 通过这个样例文件,可以很快的掌握项目的配置方式。
|
42 | 47 | <br>
|
43 | 48 | **配置文件的详细说明信息位于:[config_example.yaml](https://github.com/shell-nlp/gpt_server/blob/main/gpt_server/script/config_example.yaml "配置文件")**
|
44 | 49 |
|
45 |
| -## 最新进展🎉 |
| 50 | +## 🎉 最新进展 |
46 | 51 | <details open>
|
47 | 52 | <summary><b>2025</b></summary>
|
48 | 53 |
|
|
97 | 102 | ```
|
98 | 103 | </details>
|
99 | 104 |
|
100 |
| -## 路线 |
| 105 | +## 🧭 路线 |
101 | 106 |
|
102 | 107 | * [X] 支持HF后端
|
103 | 108 | * [X] 支持vLLM后端
|
|
115 | 120 | * [ ] 支持 pip install 方式进行安装
|
116 | 121 |
|
117 | 122 |
|
118 |
| -## 快速开始 |
| 123 | +## ⚙️ 快速开始 |
119 | 124 |
|
120 | 125 | ### 1. 配置python环境
|
121 | 126 |
|
@@ -221,7 +226,7 @@ Chat UI界面:
|
221 | 226 |
|
222 | 227 |
|
223 | 228 |
|
224 |
| -## 支持的模型以及推理后端 |
| 229 | +## ⚡ 支持的模型以及推理后端 |
225 | 230 |
|
226 | 231 | **推理速度:** LMDeploy TurboMind > SGLang > vllm > LMDeploy PyTorch > HF
|
227 | 232 |
|
@@ -321,23 +326,23 @@ Chat UI界面:
|
321 | 326 |
|
322 | 327 | <br>
|
323 | 328 |
|
324 |
| -## 架构 |
| 329 | +## 🏗️ 架构 |
325 | 330 |
|
326 | 331 | 
|
327 | 332 |
|
328 |
| -## 致谢 |
| 333 | +## 🤝 致谢 |
329 | 334 | - [FastChat](https://github.com/lm-sys/FastChat)
|
330 | 335 | - [vLLM](https://github.com/vllm-project/vllm)
|
331 | 336 | - [LMDeploy ](https://github.com/InternLM/lmdeploy)
|
332 | 337 | - [SGLang ](https://github.com/sgl-project/sglang)
|
333 | 338 | - [infinity](https://github.com/michaelfeil/infinity)
|
334 | 339 | - [FlashTTS](https://github.com/HuiResearch/FlashTTS)
|
335 | 340 |
|
336 |
| -## 与我联系(会邀请进入交流群) |
| 341 | +## 📲 与我联系(会邀请进入交流群) |
337 | 342 |
|
338 | 343 | 
|
339 | 344 |
|
340 |
| -## Star History |
| 345 | +## 🌟 Star History |
341 | 346 |
|
342 | 347 | [](https://star-history.com/#shell-nlp/gpt_server&Date)
|
343 | 348 |
|
|
0 commit comments