修复sglang bug

shell-nlp · shell-nlp · commit 2d7e93d12e27 · 2025-07-01T13:58:25.000+08:00
diff --git a/.github/workflows/docker-image.yml b/.github/workflows/docker-image.yml
@@ -7,35 +7,59 @@ on:
   push:
     branches:
     - build_image # 在推送到 build_image 分支时触发构建
+    - set_latest
 
 jobs:
 
-  build:
-
+  build_version:
+    if: github.ref  == 'refs/heads/build_image'
     runs-on: ubuntu-latest
 
     steps:
-    # 检出代码
-    - name: Checkout code
-      uses: actions/checkout@v3
-    # 登录 Docker Hub
-    - name: Log in to Docker Hub
-      run: echo "${{ secrets.DOCKER_PASSWORD }}" | docker login -u "${{ secrets.DOCKER_USERNAME }}" --password-stdin
-    # 从 pyproject.toml 中抽取版本信息
-    - name: Extract version
-      id: get_version
-      run: |
-        # 使用 grep 和 sed 从 pyproject.toml 中提取版本
-        version=$(grep -Po '(?<=^version = ")[^"]*' pyproject.toml)
-        echo "VERSION=$version" >> $GITHUB_ENV
+      # 检出代码
+      - name: Checkout code
+        uses: actions/checkout@v3
+      # 登录 Docker Hub
+      - name: Log in to Docker Hub
+        run: echo "${{ secrets.DOCKER_PASSWORD }}" | docker login -u "${{ secrets.DOCKER_USERNAME }}" --password-stdin
+      # 从 pyproject.toml 中抽取版本信息
+      - name: Extract version
+        id: get_version
+        run: |
+          # 使用 grep 和 sed 从 pyproject.toml 中提取版本
+          version=$(grep -Po '(?<=^version = ")[^"]*' pyproject.toml)
+          echo "VERSION=$version" >> $GITHUB_ENV
 
-    # 构建 Docker 镜像
-    - name: Build Docker image
-      run: |
-        docker build -t ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }} .
-        docker tag ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }} ${{ secrets.DOCKER_USERNAME }}/gpt_server:latest
-    # 推送镜像到 Docker Hub
-    - name: Push Docker image
-      run: |
-        docker push ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }}
-        docker push ${{ secrets.DOCKER_USERNAME }}/gpt_server:latest
+      # 构建 Docker 镜像
+      - name: Build Docker image
+        run: |
+          docker build -t ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }} .
+          # docker tag ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }} ${{ secrets.DOCKER_USERNAME }}/gpt_server:latest
+      # 推送镜像到 Docker Hub
+      - name: Push Docker image
+        run: |
+          docker push ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }}
+          # docker push ${{ secrets.DOCKER_USERNAME }}/gpt_server:latest
+  tag_latest:
+    if: github.ref  == 'refs/heads/set_latest'
+    runs-on: ubuntu-latest 
+    steps:
+      - name: Checkout code 
+        uses: actions/checkout@v3
+ 
+      - name: Log in to Docker Hub
+        run: echo "${{ secrets.DOCKER_PASSWORD }}" | docker login -u "${{ secrets.DOCKER_USERNAME }}" --password-stdin
+ 
+      - name: Extract version 
+        id: get_version 
+        run: |
+          version=$(grep -Po '(?<=^version = ")[^"]*' pyproject.toml) 
+          echo "VERSION=$version" >> $GITHUB_ENV 
+ 
+      - name: Pull and tag latest 
+        run: |
+          # 拉取已存在的版本镜像
+          docker pull ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }}
+          # 仅添加latest标签并推送
+          docker tag ${{ secrets.DOCKER_USERNAME }}/gpt_server:${{ env.VERSION }} ${{ secrets.DOCKER_USERNAME }}/gpt_server:latest
+          docker push ${{ secrets.DOCKER_USERNAME }}/gpt_server:latest 
diff --git a/Dockerfile b/Dockerfile
@@ -6,7 +6,7 @@ RUN apt-get update -y && apt-get install -y build-essential && rm -rf /var/lib/a
 COPY ./ /gpt_server
 WORKDIR /gpt_server
 # RUN uv sync && uv cache clean
-ENV UV_HTTP_TIMEOUT=120
+ENV UV_HTTP_TIMEOUT=120 CUDA_HOME=/usr/local/cuda-12.2
 RUN uv venv --seed && uv sync && uv cache clean && \
     echo '[[ -f .venv/bin/activate ]] && source .venv/bin/activate' >> ~/.bashrc
 ENV PATH=/gpt_server/.venv/bin:$PATH
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,6 +1,6 @@
 [project]
 name = "gpt_server"
-version = "0.5.2"
+version = "0.5.3"
 description = "gpt_server是一个用于生产级部署LLMs或Embedding的开源框架。"
 readme = "README.md"
 license = { text = "Apache 2.0" }
@@ -25,7 +25,7 @@ dependencies = [
     "modelscope==1.26.0",
     "edge-tts>=7.0.0",
     "funasr>=1.2.6",
-    "sglang[all]>=0.4.6.post5",
+    "sglang[all]>=0.4.8.post1",
     "flashinfer-python",
     "flashtts>=0.1.7",
     "diffusers>=0.33.1",
@@ -36,6 +36,7 @@ default-groups = [] # 默认只安装dependencies中的库
 override-dependencies = [
     "setuptools==75.2.0",
     "torchvision==0.22.1",
+    "torchaudio==2.7.1",
     "torch==2.7.0",
     "triton",
     "outlines==0.1.11",
@@ -51,14 +52,6 @@ gpt_server = "gpt_server.cli:main"
 url = "https://pypi.tuna.tsinghua.edu.cn/simple"
 default = true
 
-# 强制要求 flashinfer-python通过官方源安装
-[[tool.uv.index]]
-name = "flashinfer-python"
-url = "https://flashinfer.ai/whl/cu124/torch2.5"
-
-[tool.uv.sources]
-flashinfer-python = { index = "flashinfer-python" }
-
 [build-system]
 requires = ["setuptools", "wheel"]
 build-backend = "setuptools.build_meta"
diff --git a/requirements.txt b/requirements.txt
@@ -234,7 +234,7 @@ filelock==3.18.0
     #   vllm
 fire==0.7.0
     # via lmdeploy
-flashinfer-python==0.2.5+cu124torch2.5
+flashinfer-python==0.2.6.post1
     # via
     #   gpt-server (pyproject.toml)
     #   sglang
@@ -273,7 +273,7 @@ googleapis-common-protos==1.70.0
     #   opentelemetry-exporter-otlp-proto-http
 greenlet==3.2.3
     # via sqlalchemy
-grpcio==1.73.0
+grpcio==1.73.1
     # via opentelemetry-exporter-otlp-proto-grpc
 h11==0.16.0
     # via
@@ -404,23 +404,23 @@ langchain-community==0.3.26
     # via
     #   evalscope
     #   ragas
-langchain-core==0.3.66
+langchain-core==0.3.67
     # via
     #   evalscope
     #   langchain
     #   langchain-community
     #   langchain-openai
     #   langchain-text-splitters
     #   ragas
-langchain-openai==0.3.25
+langchain-openai==0.3.27
     # via
     #   evalscope
     #   ragas
 langchain-text-splitters==0.3.8
     # via langchain
 langdetect==1.0.9
     # via evalscope
-langsmith==0.4.2
+langsmith==0.4.4
     # via
     #   langchain
     #   langchain-community
@@ -439,7 +439,7 @@ librosa==0.11.0
     # via
     #   flashtts
     #   funasr
-litellm==1.73.1
+litellm==1.73.6
     # via sglang
 llguidance==0.7.30
     # via
@@ -455,7 +455,7 @@ lmdeploy==0.9.0
     # via gpt-server (pyproject.toml)
 loguru==0.7.3
     # via gpt-server (pyproject.toml)
-lxml==5.4.0
+lxml==6.0.0
     # via
     #   blobfile
     #   sacrebleu
@@ -499,7 +499,7 @@ msgspec==0.19.0
     #   vllm
 mteb==1.38.20
     # via evalscope
-multidict==6.5.1
+multidict==6.6.3
     # via
     #   aiohttp
     #   yarl
@@ -519,6 +519,7 @@ nh3==0.2.21
     # via fschat
 ninja==1.11.1.4
     # via
+    #   flashinfer-python
     #   sglang
     #   vllm
     #   xgrammar
@@ -545,6 +546,7 @@ numpy==1.26.4
     #   diffusers
     #   einx
     #   evalscope
+    #   flashinfer-python
     #   fschat
     #   gguf
     #   infinity-emb
@@ -651,7 +653,7 @@ openai==1.86.0
     #   ragas
     #   sglang
     #   vllm
-openai-whisper==20240930
+openai-whisper==20250625
     # via flashtts
 opencv-python-headless==4.11.0.86
     # via
@@ -774,7 +776,7 @@ pooch==1.8.2
     # via librosa
 portalocker==3.2.0
     # via sacrebleu
-posthog==5.4.0
+posthog==6.0.0
     # via infinity-emb
 prometheus-client==0.22.1
     # via
@@ -953,6 +955,7 @@ requests==2.32.4
     #   datasets
     #   diffusers
     #   evalscope
+    #   flashinfer-python
     #   fschat
     #   funasr
     #   huggingface-hub
@@ -987,7 +990,7 @@ rich==13.9.4
     #   rich-toolkit
     #   streamlit
     #   typer
-rich-toolkit==0.14.7
+rich-toolkit==0.14.8
     # via fastapi-cli
 rouge-chinese==1.0.3
     # via evalscope
@@ -1026,6 +1029,7 @@ scipy==1.15.3
     #   pynndescent
     #   scikit-learn
     #   sentence-transformers
+    #   sglang
     #   umap-learn
     #   vllm
 seaborn==0.13.2
@@ -1052,9 +1056,9 @@ setuptools==75.2.0
     #   torch
     #   triton
     #   vllm
-sgl-kernel==0.1.4
+sgl-kernel==0.1.9
     # via sglang
-sglang==0.4.6.post5
+sglang==0.4.8.post1
     # via gpt-server (pyproject.toml)
 shellingham==1.5.4
     # via typer
@@ -1151,7 +1155,7 @@ tiktoken==0.9.0
     #   sglang
     #   vllm
     #   xgrammar
-timm==1.0.15
+timm==1.0.16
     # via infinity-emb
 tokenizers==0.21.2
     # via
@@ -1193,8 +1197,11 @@ torch-memory-saver==0.0.8
     # via sglang
 torchao==0.9.0
     # via sglang
-torchaudio==2.7.0
-    # via vllm
+torchaudio==2.7.1
+    # via
+    #   --override (workspace)
+    #   sglang
+    #   vllm
 torchvision==0.22.1
     # via
     #   --override (workspace)
@@ -1279,6 +1286,7 @@ typing-extensions==4.14.0
     #   opentelemetry-sdk
     #   opentelemetry-semantic-conventions
     #   outlines
+    #   posthog
     #   pydantic
     #   pydantic-core
     #   referencing
@@ -1300,7 +1308,7 @@ typing-inspection==0.4.1
     #   pydantic-settings
 tzdata==2025.2
     # via pandas
-umap-learn==0.5.7
+umap-learn==0.5.8
     # via funasr
 urllib3==2.5.0
     # via
diff --git a/uv.lock b/uv.lock