python 升级为 3.11 升级 推理引擎版本 版本设置为 0.6.2

shell-nlp · shell-nlp · commit 288c67e23b55 · 2025-08-20T21:51:20.000+08:00
diff --git a/.python-version b/.python-version
@@ -1 +1 @@
-3.10
+3.11
diff --git a/gpt_server/model_handler/pitch.py b/gpt_server/model_handler/pitch.py
@@ -0,0 +1,43 @@
+from typing import Optional
+from flashtts.llm.vllm_generator import VllmGenerator
+import flashtts
+from loguru import logger
+
+
+class VllmGenerator_(VllmGenerator):
+    def __init__(
+        self,
+        model_path: str,
+        max_length: int = 32768,
+        gpu_memory_utilization: float = 0.6,
+        device: str = "cuda",
+        stop_tokens: Optional[list[str]] = None,
+        stop_token_ids: Optional[list[int]] = None,
+        **kwargs,
+    ):
+        from vllm import AsyncEngineArgs, AsyncLLMEngine
+
+        engine_kwargs = dict(
+            model=model_path,
+            max_model_len=max_length,
+            gpu_memory_utilization=gpu_memory_utilization,
+            # device=device,
+            disable_log_stats=True,
+            # disable_log_requests=True,
+            **kwargs,
+        )
+        async_args = AsyncEngineArgs(**engine_kwargs)
+
+        self.model = AsyncLLMEngine.from_engine_args(async_args)
+
+        super(VllmGenerator, self).__init__(
+            tokenizer=model_path,
+            max_length=max_length,
+            stop_tokens=stop_tokens,
+            stop_token_ids=stop_token_ids,
+        )
+
+
+def pitch_flashtts():
+    flashtts.llm.vllm_generator.VllmGenerator = VllmGenerator_
+    logger.info("patch flashtts.llm.vllm_generator.VllmGenerator")
diff --git a/gpt_server/model_worker/base/model_worker_base.py b/gpt_server/model_worker/base/model_worker_base.py
@@ -285,7 +285,7 @@ def run(cls):
         logger.remove(0)
         log_level = os.getenv("log_level", "WARNING")
         logger.add(sys.stderr, level=log_level)
-        os.environ["VLLM_USE_V1"] = "0"
+        
 
         host = args.host
         controller_address = args.controller_address
diff --git a/gpt_server/model_worker/spark_tts.py b/gpt_server/model_worker/spark_tts.py
@@ -3,12 +3,16 @@
 import os
 from typing import List
 from loguru import logger
+from gpt_server.model_handler.pitch import pitch_flashtts
+
+pitch_flashtts()
 from gpt_server.model_worker.base.model_worker_base import ModelWorkerBase
 from gpt_server.model_worker.utils import load_base64_or_url
 from flashtts.engine import AutoEngine
 from flashtts.server.utils.audio_writer import StreamingAudioWriter
 
 root_dir = os.path.dirname(os.path.dirname(os.path.dirname(__file__)))
+# os.environ["VLLM_USE_V1"] = "0"
 
 
 class SparkTTSWorker(ModelWorkerBase):
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,11 +1,11 @@
 [project]
 name = "gpt_server"
-version = "0.6.0"
+version = "0.6.1"
 description = "gpt_server是一个用于生产级部署LLMs或Embedding的开源框架。"
 readme = "README.md"
 license = { text = "Apache 2.0" }
 authors = [{ name = "Yu Liu", email = "506610466@qq.com" }]
-requires-python = ">=3.10"
+requires-python = ">=3.11"
 dependencies = [
     "accelerate>=1.0.1",
     "fastapi==0.115.0",
@@ -14,18 +14,18 @@ dependencies = [
     "infinity-emb[all]==0.0.76",
     "lmdeploy==0.9.2",
     "loguru>=0.7.2",
-    "openai==1.86.0",
+    "openai==1.99.1",
     "setuptools==75.2.0",
     "streamlit==1.39.0",
     "torch==2.6.0",
     "torchvision==0.20.1",
-    "vllm==0.9.2",
+    "vllm==0.10.1",
     "qwen_vl_utils",
     "evalscope[perf,rag]==0.16.1",
     "modelscope==1.26.0",
     "edge-tts>=7.0.0",
     "funasr>=1.2.6",
-    "sglang[all]>=0.4.10",
+    "sglang[all]>=0.4.10.post2",
     "flashinfer-python",
     "flashtts>=0.1.7",
     "diffusers>=0.33.1",
@@ -41,8 +41,9 @@ override-dependencies = [
     "triton",
     "transformers==4.53.3", #  infinity-emb
     "soundfile==0.13.1", # infinity
-    "xgrammar==0.1.21", #  sglang[all]==0.4.5 depends on xgrammar==0.1.17
+    "xgrammar==0.1.23", #  sglang[all]==0.4.5 depends on xgrammar==0.1.17
     "flashinfer-python==0.2.10",
+    "outlines-core==0.2.10", # sglang 和 vllm 的冲突
 ]
 
 [project.scripts]
diff --git a/requirements.txt b/requirements.txt
diff --git a/uv.lock b/uv.lock