release: update xllm release version to v0.6.1. (#297)

JimHsiung · web-flow · commit a0ca5b4f236b · 2025-10-29T22:39:39.000+08:00
diff --git a/README.md b/README.md
@@ -112,22 +112,22 @@ Supported models list:
 First, download the image we provide:
 ```bash
 # A2 x86
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 # A2 arm
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm
 # A3 arm
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm
 # or
 # A2 x86
-docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 # A2 arm
-docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64
+docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm
 # A3 arm
-docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64
+docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm
 ```
 Then create the corresponding container:
 ```bash
-sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/ xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/ -v /etc/hccn.conf:/etc/hccn.conf xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 ```
 
 Install official repo and submodules：
diff --git a/README_zh.md b/README_zh.md
@@ -112,22 +112,22 @@ xLLM 提供了强大的智能计算能力，通过硬件系统的算力优化与
 首先下载我们提供的镜像：
 ```bash
 # A2 x86
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 # A2 arm
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm
 # A3 arm
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm
 # 或者
 # A2 x86
-docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 # A2 arm
-docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64
+docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm
 # A3 arm
-docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64
+docker pull quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm
 ```
 然后创建对应的容器
 ```bash
-sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/  xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/ -v /etc/hccn.conf:/etc/hccn.conf xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 ```
 
 下载官方仓库与模块依赖：
diff --git a/RELEASE.md b/RELEASE.md
@@ -1,3 +1,14 @@
+# Release xllm 0.6.1
+
+## **Major Features and Improvements**
+
+### Bugfix
+
+- Skip cancelled requests when processing stream output.
+- Resolve segmentation fault during qwen3 quantized inference.
+- Fix the alignment of monitoring metrics format for Prometheus.
+- Clear outdated tensors to save memory when loading model weights.
+
 # Release xllm 0.6.0
 
 ## **Major Features and Improvements**
diff --git a/cibuild/build.sh b/cibuild/build.sh
@@ -6,7 +6,7 @@ function error() {
   exit 1
 }
 
-IMAGE="quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts"
+IMAGE="quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86"
 
 RUN_OPTS=(
   --rm
diff --git a/docs/en/getting_started/compile.md b/docs/en/getting_started/compile.md
@@ -3,28 +3,28 @@
 ## Container Environment Preparation
 First, download the image we provide:
 ```bash
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 ```
 Then create the corresponding container:
 ```bash
-sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /mnt/cfs/9n-das-admin/llm_models:/mnt/cfs/9n-das-admin/llm_models -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/ xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /mnt/cfs/9n-das-admin/llm_models:/mnt/cfs/9n-das-admin/llm_models -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/ -v /etc/hccn.conf:/etc/hccn.conf xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 ```
 
 ### Docker images
 
 | Device    |    Arch     |   Images      |
 |:---------:|:-----------:|:-------------:|
-| A2        |     x86     | xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts | 
-| A2        |     arm     | xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64 |
-| A3        |     arm     | xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64 |
+| A2        |     x86     | xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86 | 
+| A2        |     arm     | xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm |
+| A3        |     arm     | xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm |
 
 If you can't download it, you can use the following source instead：
 
 | Device    |    Arch     |   Images      |
 |:---------:|:-----------:|:-------------:|
-| A2        |     x86     | quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts |
-| A2        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64 |
-| A3        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64 |
+| A2        |     x86     | quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86 |
+| A2        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm |
+| A3        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm |
 
 ## Installation
 After entering the container, download and compile using our [official repository](https://github.com/jd-opensource/xllm):
diff --git a/docs/zh/getting_started/compile.md b/docs/zh/getting_started/compile.md
@@ -4,28 +4,28 @@
 ## 容器环境准备
 首先下载我们提供的镜像：
 ```bash
-docker pull xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+docker pull xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 ```
 然后创建对应的容器
 ```bash
-sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /mnt/cfs/9n-das-admin/llm_models:/mnt/cfs/9n-das-admin/llm_models -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/ xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts
+sudo docker run -it --ipc=host -u 0 --privileged --name mydocker --network=host  --device=/dev/davinci0  --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /var/queue_schedule:/var/queue_schedule -v /mnt/cfs/9n-das-admin/llm_models:/mnt/cfs/9n-das-admin/llm_models -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi -v /usr/local/sbin/:/usr/local/sbin/ -v /var/log/npu/conf/slog/slog.conf:/var/log/npu/conf/slog/slog.conf -v /var/log/npu/slog/:/var/log/npu/slog -v /export/home:/export/home -w /export/home -v ~/.ssh:/root/.ssh  -v /var/log/npu/profiling/:/var/log/npu/profiling -v /var/log/npu/dump/:/var/log/npu/dump -v /home/:/home/  -v /runtime/:/runtime/ -v /etc/hccn.conf:/etc/hccn.conf xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86
 ```
 
 ### 镜像列表
 
 | Device    |    Arch     |   Images      |
 |:---------:|:-----------:|:-------------:|
-| A2        |     x86     | xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts | 
-| A2        |     arm     | xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64 |
-| A3        |     arm     | xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64 |
+| A2        |     x86     | xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86 | 
+| A2        |     arm     | xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm |
+| A3        |     arm     | xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm |
 
-如果下载不下来可以换用下面的源：
+若无法下载可换用如下镜像源：
 
 | Device    |    Arch     |   Images      |
 |:---------:|:-----------:|:-------------:|
-| A2        |     x86     | quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts |
-| A2        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts-aarch64 |
-| A3        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hc-rc2-py3.11-oe24.03-lts-aarch64 |
+| A2        |     x86     | quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86 |
+| A2        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-arm |
+| A3        |     arm     | quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hc-rc2-arm |
 
 
 ## 安装
diff --git a/version.txt b/version.txt
@@ -1 +1 @@
-0.6.0
+0.6.1

Original file line number	Diff line number	Diff line change
`@@ -6,7 +6,7 @@ function error() {`
`6`	`6`	`exit 1`
`7`	`7`	`}`
`8`	`8`
`9`		`-IMAGE="quay.io/jd_xllm/xllm-ai:xllm-0.6.0-dev-hb-rc2-py3.11-oe24.03-lts"`
	`9`	`+IMAGE="quay.io/jd_xllm/xllm-ai:xllm-0.6.1-dev-hb-rc2-x86"`
`10`	`10`
`11`	`11`	`RUN_OPTS=(`
`12`	`12`	`--rm`