optimize code structure

zhangbilang · zhangbilang · commit cab746cb8072 · 2025-04-29T19:20:31.000+08:00
diff --git a/lightllm/server/api_cli.py b/lightllm/server/api_cli.py
@@ -104,7 +104,13 @@ def make_argument_parser() -> argparse.ArgumentParser:
     parser.add_argument(
         "--eos_id", nargs="+", type=int, default=None, help="eos stop token id, if None, will load from config.json"
     )
-    parser.add_argument("--tool_call_parser", type=str, default=None, help="tool call parser type")
+    parser.add_argument(
+        "--tool_call_parser",
+        type=str,
+        choices=["qwen25", "llama3", "mistral"],
+        default=None,
+        help="tool call parser type",
+    )
     parser.add_argument(
         "--running_max_req_size", type=int, default=1000, help="the max size for forward requests in the same time"
     )
diff --git a/lightllm/server/api_http.py b/lightllm/server/api_http.py
@@ -25,7 +25,6 @@
 import os
 from io import BytesIO
 import pickle
-from .build_prompt import build_prompt, init_tokenizer
 
 asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
 import ujson as json
@@ -44,22 +43,71 @@
 from .httpserver_for_pd_master.manager import HttpServerManagerForPDMaster
 from .api_lightllm import lightllm_get_score, lightllm_pd_generate_stream
 from lightllm.utils.envs_utils import get_env_start_args, get_lightllm_websocket_max_message_size
-
 from lightllm.utils.log_utils import init_logger
 from lightllm.server.metrics.manager import MetricClient
 from lightllm.utils.envs_utils import get_unique_server_name
 from dataclasses import dataclass
 
-from .api_openai import app as openai_api
-from .api_openai import g_objs
+from .api_openai import chat_completions_impl
+from .api_models import (
+    ChatCompletionRequest,
+    ChatCompletionResponse,
+)
+from .build_prompt import build_prompt, init_tokenizer
 
 logger = init_logger(__name__)
 
+
+@dataclass
+class G_Objs:
+    app: FastAPI = None
+    metric_client: MetricClient = None
+    args: object = None
+    g_generate_func: Callable = None
+    g_generate_stream_func: Callable = None
+    httpserver_manager: Union[HttpServerManager, HttpServerManagerForPDMaster] = None
+    shared_token_load: TokenLoad = None
+
+    def set_args(self, args):
+        self.args = args
+        from .api_lightllm import lightllm_generate, lightllm_generate_stream
+        from .api_tgi import tgi_generate_impl, tgi_generate_stream_impl
+
+        if args.use_tgi_api:
+            self.g_generate_func = tgi_generate_impl
+            self.g_generate_stream_func = tgi_generate_stream_impl
+        else:
+            self.g_generate_func = lightllm_generate
+            self.g_generate_stream_func = lightllm_generate_stream
+
+        if args.run_mode == "pd_master":
+            self.metric_client = MetricClient(args.metric_port)
+            self.httpserver_manager = HttpServerManagerForPDMaster(
+                args,
+                metric_port=args.metric_port,
+            )
+        else:
+            init_tokenizer(args)  # for openai api
+            SamplingParams.load_generation_cfg(args.model_dir)
+            self.metric_client = MetricClient(args.metric_port)
+            self.httpserver_manager = HttpServerManager(
+                args,
+                router_port=args.router_port,
+                cache_port=args.cache_port,
+                detokenization_pub_port=args.detokenization_pub_port,
+                visual_port=args.visual_port,
+                enable_multimodal=args.enable_multimodal,
+                metric_port=args.metric_port,
+            )
+            dp_size_in_node = max(1, args.dp // args.nnodes)  # 兼容多机纯tp的运行模式，这时候 1 // 2 == 0, 需要兼容
+            self.shared_token_load = TokenLoad(f"{get_unique_server_name()}_shared_token_load", dp_size_in_node)
+
+
+g_objs = G_Objs()
+
 app = FastAPI()
 g_objs.app = app
 
-app.mount("/v1", openai_api)
-
 
 def create_error_response(status_code: HTTPStatus, message: str) -> JSONResponse:
     g_objs.metric_client.counter_inc("lightllm_request_failure")
@@ -274,3 +322,9 @@ async def startup_event():
     loop.create_task(g_objs.httpserver_manager.handle_loop())
     logger.info(f"server start up ok, loop use is {asyncio.get_event_loop()}")
     return
+
+
+@app.post("/v1/chat/completions", response_model=ChatCompletionResponse)
+async def chat_completions(request: ChatCompletionRequest, raw_request: Request) -> Response:
+    resp = await chat_completions_impl(request, raw_request)
+    return resp
diff --git a/lightllm/server/api_openai.py b/lightllm/server/api_openai.py
@@ -50,63 +50,15 @@
 logger = init_logger(__name__)
 
 
-@dataclass
-class G_Objs:
-    app: FastAPI = None
-    metric_client: MetricClient = None
-    args: object = None
-    g_generate_func: Callable = None
-    g_generate_stream_func: Callable = None
-    httpserver_manager: Union[HttpServerManager, HttpServerManagerForPDMaster] = None
-    shared_token_load: TokenLoad = None
-
-    def set_args(self, args):
-        self.args = args
-        from .api_lightllm import lightllm_generate, lightllm_generate_stream
-        from .api_tgi import tgi_generate_impl, tgi_generate_stream_impl
-
-        if args.use_tgi_api:
-            self.g_generate_func = tgi_generate_impl
-            self.g_generate_stream_func = tgi_generate_stream_impl
-        else:
-            self.g_generate_func = lightllm_generate
-            self.g_generate_stream_func = lightllm_generate_stream
-
-        if args.run_mode == "pd_master":
-            self.metric_client = MetricClient(args.metric_port)
-            self.httpserver_manager = HttpServerManagerForPDMaster(
-                args,
-                metric_port=args.metric_port,
-            )
-        else:
-            init_tokenizer(args)  # for openai api
-            SamplingParams.load_generation_cfg(args.model_dir)
-            self.metric_client = MetricClient(args.metric_port)
-            self.httpserver_manager = HttpServerManager(
-                args,
-                router_port=args.router_port,
-                cache_port=args.cache_port,
-                detokenization_pub_port=args.detokenization_pub_port,
-                visual_port=args.visual_port,
-                enable_multimodal=args.enable_multimodal,
-                metric_port=args.metric_port,
-            )
-            dp_size_in_node = max(1, args.dp // args.nnodes)  # 兼容多机纯tp的运行模式，这时候 1 // 2 == 0, 需要兼容
-            self.shared_token_load = TokenLoad(f"{get_unique_server_name()}_shared_token_load", dp_size_in_node)
-
-
-g_objs = G_Objs()
-
-app = FastAPI()
-
-
 def create_error_response(status_code: HTTPStatus, message: str) -> JSONResponse:
+    from .api_http import g_objs
+
     g_objs.metric_client.counter_inc("lightllm_request_failure")
     return JSONResponse({"message": message}, status_code=status_code.value)
 
 
-@app.post("/chat/completions", response_model=ChatCompletionResponse)
-async def chat_completions(request: ChatCompletionRequest, raw_request: Request) -> Response:
+async def chat_completions_impl(request: ChatCompletionRequest, raw_request: Request) -> Response:
+    from .api_http import g_objs
 
     if request.logit_bias is not None:
         return create_error_response(
diff --git a/lightllm/server/function_call_parser.py b/lightllm/server/function_call_parser.py
@@ -1,4 +1,14 @@
-# Adaptive from SGlang Repo [https://github.com/sgl-project/sglang/blob/main/python/sglang/srt/function_call_parser.py]
+# Adaptive from SGlang [https://github.com/sgl-project/sglang/blob/main/python/sglang/srt/function_call_parser.py]
+# Copyright 2023-2024 SGLang Team
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#     http://www.apache.org/licenses/LICENSE-2.0
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
 
 import json
 import logging
diff --git a/test/test_function_call_api.py b/test/test_function_call_api.py