docker compose 启动方式修改

shell-nlp · shell-nlp · commit 2eee4729eca1 · 2025-06-04T19:24:00.000+08:00
diff --git a/Dockerfile.copy b/Dockerfile.copy
@@ -0,0 +1,7 @@
+FROM docker.1ms.run/506610466/gpt_server:latest 
+
+COPY ./ /gpt_server
+
+WORKDIR /gpt_server
+
+CMD ["/bin/bash"]
diff --git a/docker-compose.yml b/docker-compose.yml
@@ -2,20 +2,23 @@ version: '3'
 services:
   gpt_server:
     # 构建
-    # build:
-    #   context: .
-    #   dockerfile: Dockerfile.copy
-    image: docker.1ms.run/506610466/gpt_server:latest
+    # 为什么每次构建更好？而不是直接使用 image: docker.1ms.run/506610466/gpt_server:latest
+    # 如果使用 volumes 映射的方式，虽然启动更快，但会影响已启动容器的runtime稳定性，物理机修改的代码会在容器runtime中立马生效。
+    build:
+      context: .
+      dockerfile: Dockerfile.copy
+    # image: docker.1ms.run/506610466/gpt_server:latest
+    image: gpt_server:latest_
     container_name: gpt_server
-    shm_size: '4g' # 设置共享内存为4GB 
+    shm_size: '8g' # 设置共享内存为4GB 
     restart: always
     # network_mode: host
     ports:
       - 8082:8082
     environment:
       - TZ:Asia/Shanghai  # 设置中国时区
     volumes:
-      - ./gpt_server:/gpt_server/gpt_server # 将最新代码直接映射到容器中，以运行最新的代码
+      # - ./gpt_server:/gpt_server/gpt_server # 将最新代码直接映射到容器中，以运行最新的代码
       - /home/dev/model/:/home/dev/model/ # 映射模型路径
     deploy:
       resources:
diff --git a/gpt_server/model_backend/lmdeploy_backend.py b/gpt_server/model_backend/lmdeploy_backend.py
@@ -5,6 +5,7 @@
     TurbomindEngineConfig,
     PytorchEngineConfig,
 )
+from transformers import PreTrainedTokenizerBase
 from typing import Any, Dict, AsyncGenerator
 from lmdeploy.archs import get_task
 from gpt_server.model_handler.reasoning_parser import ReasoningParserManager
@@ -55,7 +56,7 @@ def is_messages_with_tool(messages: list):
 
 
 class LMDeployBackend(ModelBackend):
-    def __init__(self, model_path) -> None:
+    def __init__(self, model_path, tokenizer: PreTrainedTokenizerBase) -> None:
         backend = backend_map[os.getenv("backend")]
         enable_prefix_caching = bool(os.getenv("enable_prefix_caching", False))
         max_model_len = os.getenv("max_model_len", None)
diff --git a/gpt_server/model_backend/sglang_backend.py b/gpt_server/model_backend/sglang_backend.py
@@ -8,6 +8,7 @@
 from loguru import logger
 from PIL import Image
 import sglang as sgl
+from transformers import PreTrainedTokenizerBase
 from sglang.utils import convert_json_schema_to_str
 from sglang.srt.conversation import generate_chat_conv
 
@@ -44,7 +45,7 @@ def _transform_messages(
 
 
 class SGLangBackend(ModelBackend):
-    def __init__(self, model_path) -> None:
+    def __init__(self, model_path, tokenizer: PreTrainedTokenizerBase) -> None:
         lora = os.getenv("lora", None)
         enable_prefix_caching = bool(os.getenv("enable_prefix_caching", False))
         max_model_len = os.getenv("max_model_len", None)
diff --git a/gpt_server/model_worker/base/model_worker_base.py b/gpt_server/model_worker/base/model_worker_base.py
@@ -139,12 +139,16 @@ def load_model_tokenizer(self, model_path):
             from gpt_server.model_backend.sglang_backend import SGLangBackend
 
             logger.info(f"{self.worker_name} 使用 SGLang 后端")
-            self.backend = SGLangBackend(model_path=self.model_path)
+            self.backend = SGLangBackend(
+                model_path=self.model_path, tokenizer=self.tokenizer
+            )
         elif "lmdeploy" in os.getenv("backend"):
             from gpt_server.model_backend.lmdeploy_backend import LMDeployBackend
 
             logger.info(f"{self.worker_name} 使用 LMDeploy 后端")
-            self.backend = LMDeployBackend(model_path=self.model_path)
+            self.backend = LMDeployBackend(
+                model_path=self.model_path, tokenizer=self.tokenizer
+            )
 
         elif os.getenv("backend") == "hf":
             from gpt_server.model_backend.hf_backend import HFBackend
@@ -255,7 +259,7 @@ def run(cls):
         logger.remove(0)
         log_level = os.getenv("log_level", "WARNING")
         logger.add(sys.stderr, level=log_level)
-        
+
         host = args.host
         controller_address = args.controller_address