upgrade vllm,sglang and ms-swift (#265)

ganisback · James · web-flow · commit 4d68912c0788 · 2025-02-11T16:27:10.000+08:00
Co-authored-by: James &lt;xzgan@opencsg.com&gt;
diff --git a/builder/store/database/migrations/20250207090542_upgrade_ms_swift.down.sql b/builder/store/database/migrations/20250207090542_upgrade_ms_swift.down.sql
@@ -0,0 +1,32 @@
+SET statement_timeout = 0;
+
+--bun:split
+
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'SmallThinker-3B-Preview';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'internlm3-8b-instruct';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1-Zero';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1-Distill-Qwen-1.5B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1-Distill-Qwen-7B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1-Distill-Qwen-14B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1-Distill-Qwen-32B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1-Distill-Llama-8B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'DeepSeek-R1-Distill-Llama-70B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'phi-4';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'MiniMax-Text-01';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'MiniCPM-V-2_6';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'MiniCPM-o-2_6';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'MiniMax-VL-01';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Qwen2.5-7B-Instruct-1M';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Qwen2.5-14B-Instruct-1M';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'UI-TARS-2B-SFT';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'UI-TARS-7B-SFT';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'UI-TARS-7B-DPO';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'UI-TARS-72B-SFT';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'UI-TARS-72B-DPO';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Qwen2.5-VL-3B-Instruct';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Qwen2.5-VL-7B-Instruct';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Qwen2.5-VL-72B-Instruct';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Janus-Pro-1B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Janus-Pro-7B';
+DELETE FROM resource_models WHERE engine_name = 'ms-swift' AND model_name = 'Qwen2.5-Math-7B-PRM800K';
diff --git a/builder/store/database/migrations/20250207090542_upgrade_ms_swift.up.sql b/builder/store/database/migrations/20250207090542_upgrade_ms_swift.up.sql
@@ -0,0 +1,32 @@
+SET statement_timeout = 0;
+
+--bun:split
+
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'SmallThinker-3B-Preview', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'internlm3-8b-instruct', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1-Zero', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1-Distill-Qwen-1.5B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1-Distill-Qwen-7B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1-Distill-Qwen-14B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1-Distill-Qwen-32B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1-Distill-Llama-8B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'DeepSeek-R1-Distill-Llama-70B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'phi-4', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'MiniMax-Text-01', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'MiniCPM-V-2_6', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'MiniCPM-o-2_6', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'MiniMax-VL-01', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Qwen2.5-7B-Instruct-1M', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Qwen2.5-14B-Instruct-1M', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'UI-TARS-2B-SFT', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'UI-TARS-7B-SFT', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'UI-TARS-7B-DPO', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'UI-TARS-72B-SFT', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'UI-TARS-72B-DPO', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Qwen2.5-VL-3B-Instruct', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Qwen2.5-VL-7B-Instruct', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Qwen2.5-VL-72B-Instruct', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Janus-Pro-1B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Janus-Pro-7B', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
+INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', 'Qwen2.5-Math-7B-PRM800K', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;
diff --git a/common/utils/common/repo.go b/common/utils/common/repo.go
@@ -179,9 +179,12 @@ func GetSourceTypeAndPathFromURL(url string) (string, string, error) {
 // get built-int task from tags
 func GetBuiltInTaskFromTags(tags []database.Tag) string {
 	for _, tag := range tags {
-		if tag.BuiltIn && tag.Category == "task" {
+		if tag.Name == string(types.TextGeneration) {
+			return tag.Name
+		}
+		if tag.Name == string(types.Text2Image) {
 			return tag.Name
 		}
 	}
-	return ""
+	return string(types.TextGeneration)
 }
diff --git a/component/model_ce_test.go b/component/model_ce_test.go
@@ -53,6 +53,7 @@ func TestModelComponent_Deploy(t *testing.T) {
 		RepoID:     1,
 		SKU:        "123",
 		Type:       types.ServerlessType,
+		Task:       "text-generation",
 	}).Return(111, nil)
 
 	id, err := mc.Deploy(ctx, types.DeployActReq{
diff --git a/docker/finetune/Dockerfile.ms-swift b/docker/finetune/Dockerfile.ms-swift
@@ -35,12 +35,12 @@ RUN pip install --no-cache-dir jupyterlab numpy==1.26.4 \
     gradio-client==1.4.0
 # Create a working directory
 WORKDIR /etc/csghub
-RUN git clone https://github.com/modelscope/ms-swift.git --branch v3.0.1 --single-branch
+RUN git clone https://github.com/modelscope/ms-swift.git --branch v3.1.0 --single-branch
 RUN cd ms-swift && pip install --no-cache-dir -e "."
-#because this library is update frequently, we use new line
+#Due to the frequent updates of this library, we use a new line
 RUN pip install --no-cache-dir vllm==v0.6.3.post1 transformers==4.47.1 timm==1.0.11 evalscope==0.5.5
 #install flash-attn
-RUN pip install --no-build-isolation --no-cache-dir ninja flash-attn
+RUN pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.4cxx11abiFALSE-cp310-cp310-linux_x86_64.whl
 # setup supervisord
 RUN mkdir -p /var/log/supervisord
 COPY swift/supervisord.conf /etc/supervisor/conf.d/supervisord.conf
diff --git a/docker/finetune/README.md b/docker/finetune/README.md
@@ -24,9 +24,9 @@ docker buildx build --platform linux/amd64,linux/arm64 \
 ```
 ## Build Multi-Platform Images for swift
 ```bash
-#opencsg-registry.cn-beijing.cr.aliyuncs.com/public/ms-swift:v3.0.1
+#opencsg-registry.cn-beijing.cr.aliyuncs.com/public/ms-swift:v3.1.0
 export BUILDX_NO_DEFAULT_ATTESTATIONS=1
-export IMAGE_TAG=v3.0.1
+export IMAGE_TAG=v3.1.0
 docker buildx build --platform linux/amd64,linux/arm64 \
   -t ${OPENCSG_ACR}/public/ms-swift:${IMAGE_TAG} \
   -t ${OPENCSG_ACR}/public/ms-swift:latest \
@@ -49,7 +49,7 @@ docker buildx build --platform linux/amd64,linux/arm64 \
 | Image Name | Version | CUDA Version | Fix
 | --- | --- | --- |--- |
 | llama-factory | 1.21-cuda12.1-devel-ubuntu22.04-py310-torch2.1.2 | 12.1 |- |
-| ms-swift | v3.0.1 | 12.4 |- |
+| ms-swift | v3.1.0 | 12.4 |- |
 
 
 ## Run Finetune Image Locally
diff --git a/docker/finetune/swift/generate_resource_model.py b/docker/finetune/swift/generate_resource_model.py
@@ -0,0 +1,32 @@
+from typing import Any, List
+import argparse
+from swift.llm import MODEL_MAPPING, TEMPLATE_MAPPING, ModelType, TemplateType
+
+
+def get_url_suffix(model_id):
+    if ':' in model_id:
+        return model_id.split(':')[0]
+    return model_id
+
+
+def generate_model_sql():
+    for template in TemplateType.get_template_name_list():
+        assert template in TEMPLATE_MAPPING
+
+    for model_type in ModelType.get_model_name_list():
+        model_meta = MODEL_MAPPING[model_type]
+        template = model_meta.template
+        for group in model_meta.model_groups:
+            for model in group.models:
+                hf_model_id = model.hf_model_id
+                if hf_model_id is None:
+                    continue
+                namespace_and_name = hf_model_id.split('/')
+                # generate sql and save to file
+                sql = f"INSERT INTO resource_models (resource_name, engine_name, model_name, type) VALUES ('nvidia', 'ms-swift', '{namespace_and_name[1]}', 'gpu') ON CONFLICT (engine_name, model_name) DO NOTHING;"
+                with open("resource_model.sql", 'a') as file:
+                    file.write(sql + '\n')
+
+
+if __name__ == '__main__':
+    generate_model_sql()
diff --git a/docker/inference/Dockerfile.sglang b/docker/inference/Dockerfile.sglang
@@ -1,4 +1,4 @@
-FROM lmsysorg/sglang:v0.4.1.post3-cu124-srt
+FROM lmsysorg/sglang:v0.4.2.post2-cu124-srt
 RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
 RUN apt-get update && apt-get install -y dumb-init && apt-get clean && rm -rf /var/lib/apt/lists/*
 RUN pip install --no-cache-dir csghub-sdk==0.4.6
diff --git a/docker/inference/Dockerfile.vllm b/docker/inference/Dockerfile.vllm
@@ -1,4 +1,4 @@
-FROM vllm/vllm-openai:v0.6.3.post1
+FROM vllm/vllm-openai:v0.7.2
 RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
 RUN pip install --no-cache-dir csghub-sdk==0.4.3 ray supervisor huggingface-hub==0.27.0
 RUN apt-get update && apt-get install -y supervisor
diff --git a/docker/inference/README.md b/docker/inference/README.md
@@ -12,8 +12,8 @@ echo "$OPENCSG_ACR_PASSWORD" | docker login $OPENCSG_ACR -u $OPENCSG_ACR_USERNAM
 ```bash
 export BUILDX_NO_DEFAULT_ATTESTATIONS=1
 
-# For vllm: opencsg-registry.cn-beijing.cr.aliyuncs.com/public/vllm-local:3.2
-export IMAGE_TAG=3.2
+# For vllm: opencsg-registry.cn-beijing.cr.aliyuncs.com/public/vllm-local:v0.7.2
+export IMAGE_TAG=v0.7.2
 docker buildx build --platform linux/amd64,linux/arm64 \
   -t ${OPENCSG_ACR}/public/vllm-local:${IMAGE_TAG} \
   -t ${OPENCSG_ACR}/public/vllm-local:latest \
@@ -36,8 +36,8 @@ docker buildx build --platform linux/amd64 \
   -f Dockerfile.tgi \
   --push .
 
-# For sglang: opencsg-registry.cn-beijing.cr.aliyuncs.com/public/sglang:v0.4.1.post3-cu124-srt
-export IMAGE_TAG=v0.4.1.post3-cu124-srt
+# For sglang: opencsg-registry.cn-beijing.cr.aliyuncs.com/public/sglang:v0.4.2.post2-cu124-srt
+export IMAGE_TAG=v0.4.2.post2-cu124-srt
 docker buildx build --platform linux/amd64 \
   -t ${OPENCSG_ACR}/public/sglang:${IMAGE_TAG} \
   -t ${OPENCSG_ACR}/public/sglang:latest \
@@ -88,11 +88,11 @@ docker run -d \
 | Task| Image Name | Version | CUDA Version | Fix
 | --- | --- | --- | --- |--- |
 |text generation| vllm | 2.8 | 12.1 | - |
-|text generation| vllm | 3.2 | 12.4 |fix hf hub timestamp|
+|text generation| vllm | v0.7.1 | 12.4 |fix hf hub timestamp|
 |text generation| vllm-cpu | 2.4 | -|fix hf hub timestamp |
 |text generation| tgi | 2.2 | 12.1 |- |
 |text generation| tgi | 3.2 | 12.4 |fix hf hub timestamp|
-|image generation| hf-inference-toolkit | 0.3.5 | 12.1 |-|
+|image generation| hf-inference-toolkit | 0.5.3 | 12.1 |-|
 |text generation| sglang | v0.4.1.post3-cu124-srt | 12.4 |- |
 
 
diff --git a/docker/inference/sglang/serve.sh b/docker/inference/sglang/serve.sh
@@ -7,7 +7,7 @@ python3 /etc/csghub/entry.py
 if [ -z "$GPU_NUM" ]; then
     GPU_NUM=1
 fi
-LimitedMaxToken=$(($GPU_NUM * 4096))
+LimitedMaxToken=$(($GPU_NUM * 5120))
 args="--tp $GPU_NUM --enable-mixed-chunk --disable-radix-cache --trust-remote-code --enable-p2p-check --model-path $REPO_ID --port 8000 --host 0.0.0.0 --mem-fraction-static 0.8 --enable-torch-compile"
 configfile="/workspace/$REPO_ID/config.json"
 if [ -f "$configfile" ]; then
diff --git a/docker/inference/vllm/serve.sh b/docker/inference/vllm/serve.sh
@@ -7,7 +7,7 @@ if [ -z "$GPU_NUM" ]; then
     GPU_NUM=1
 fi
 #LimitedMaxToken is gpu_num multiplied by 4096
-LimitedMaxToken=$(($GPU_NUM * 4096))
+LimitedMaxToken=$(($GPU_NUM * 5120))
 GPU_MEMORY_UTILIZATION=0.9
 args="--trust-remote-code --model $REPO_ID --tensor-parallel-size $GPU_NUM --gpu-memory-utilization $GPU_MEMORY_UTILIZATION"
 configfile="/workspace/$REPO_ID/config.json"

Original file line number	Diff line number	Diff line change
`@@ -179,9 +179,12 @@ func GetSourceTypeAndPathFromURL(url string) (string, string, error) {`
`179`	`179`	`// get built-int task from tags`
`180`	`180`	`func GetBuiltInTaskFromTags(tags []database.Tag) string {`
`181`	`181`	`for _, tag := range tags {`
`182`		`- if tag.BuiltIn && tag.Category == "task" {`
	`182`	`+ if tag.Name == string(types.TextGeneration) {`
	`183`	`+ return tag.Name`
	`184`	`+ }`
	`185`	`+ if tag.Name == string(types.Text2Image) {`
`183`	`186`	`return tag.Name`
`184`	`187`	`}`
`185`	`188`	`}`
`186`		`- return ""`
	`189`	`+ return string(types.TextGeneration)`
`187`	`190`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-FROM lmsysorg/sglang:v0.4.1.post3-cu124-srt`
	`1`	`+FROM lmsysorg/sglang:v0.4.2.post2-cu124-srt`
`2`	`2`	`RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple`
`3`	`3`	`RUN apt-get update && apt-get install -y dumb-init && apt-get clean && rm -rf /var/lib/apt/lists/*`
`4`	`4`	`RUN pip install --no-cache-dir csghub-sdk==0.4.6`
Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-FROM vllm/vllm-openai:v0.6.3.post1`
	`1`	`+FROM vllm/vllm-openai:v0.7.2`
`2`	`2`	`RUN pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple`
`3`	`3`	`RUN pip install --no-cache-dir csghub-sdk==0.4.3 ray supervisor huggingface-hub==0.27.0`
`4`	`4`	`RUN apt-get update && apt-get install -y supervisor`