shell-nlp
diff --git a/‎gpt_server/model_backend/vllm_backend.py‎
Lines changed: 2 additions & 1 deletion b/‎gpt_server/model_backend/vllm_backend.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎gpt_server/model_worker/spark_tts.py‎
Lines changed: 3 additions & 2 deletions b/‎gpt_server/model_worker/spark_tts.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎pyproject.toml‎
Lines changed: 8 additions & 8 deletions b/‎pyproject.toml‎
Lines changed: 8 additions & 8 deletions
@@ -21,7 +21,7 @@
 
 ray.init(ignore_reinit_error=True, num_cpus=4)
 
-os.environ["VLLM_USE_V1"] = "0"
+os.environ["VLLM_USE_V1"] = "1"
 
 
 class VllmBackend(ModelBackend):
@@ -100,6 +100,7 @@ async def stream_chat(self, params: Dict[str, Any]) -> AsyncGenerator:
                 chat_template=tokenizer.get_chat_template(),
                 add_generation_prompt=True,
                 tools=tools,
+                model_config=await self.engine.get_model_config(),
             )
             mm_data = await mm_data_future
             inputs = {"multi_modal_data": mm_data, "prompt": prompt}
 
@@ -11,7 +11,7 @@
 root_dir = os.path.dirname(os.path.dirname(os.path.dirname(__file__)))
 
 
-os.environ["VLLM_USE_V1"] = "0"
+os.environ["VLLM_USE_V1"] = "1"
 import httpx
 from fastapi import HTTPException
 import base64
@@ -91,6 +91,7 @@ def __init__(
             )
         )
         logger.warning(f"模型：{model_names[0]}")
+        logger.info(f"list_speakers: {self.engine.list_speakers()}")
 
     # 这个是模型主要的方法
     async def generate_voice_stream(self, params):
@@ -109,7 +110,7 @@ async def stream_async(self, params):
             format=response_format, sample_rate=self.engine.SAMPLE_RATE
         )
         generator = None
-        if voice in self.engine.list_roles():
+        if voice in self.engine.list_speakers():
             generator = self.engine.speak_stream_async(
                 name=voice,
                 text=text,
 
@@ -1,6 +1,6 @@
 [project]
 name = "gpt_server"
-version = "0.4.6"
+version = "0.4.7"
 description = "gpt_server是一个用于生产级部署LLMs或Embedding的开源框架。"
 readme = "README.md"
 license = { text = "Apache 2.0" }
@@ -19,28 +19,28 @@ dependencies = [
     "streamlit==1.39.0",
     "torch==2.6.0",
     "torchvision==0.20.1",
-    "vllm==0.8.5.post1",
+    "vllm==0.9.0.1",
     "qwen_vl_utils",
-    "evalscope[perf]==0.10.1",
+    "evalscope[perf]==0.16.1",
     "modelscope==1.20.1",
     "edge-tts>=7.0.0",
     "funasr>=1.2.6",
-    "sglang[all]>=0.4.6.post2",
+    "sglang[all]>=0.4.6.post5",
     "flashinfer-python",
-    "flashtts>=0.1.5",
+    "flashtts>=0.1.7",
 ]
 
 [tool.uv]
 default-groups = [] # 默认只安装dependencies中的库
 override-dependencies = [
     "setuptools==75.2.0",
-    "torchvision==0.21.0",
-    "torch==2.6.0",
+    "torchvision==0.22.0",
+    "torch==2.7.0",
     "triton",
     "outlines==0.1.11",
     "transformers==4.51.3", #  infinity-emb
     "soundfile==0.13.1", # infinity
-    "xgrammar==0.1.18", #  sglang[all]==0.4.5 depends on xgrammar==0.1.17
+    "xgrammar==0.1.19", #  sglang[all]==0.4.5 depends on xgrammar==0.1.17
 ]
 
 [project.scripts]