vllm: build upd + add gemma3 fix patch

mixa3607 · mixa3607 · commit 4045033667d5 · 2026-03-16T00:59:12.000+05:00
diff --git a/.env-local.sh b/.env-local.sh
@@ -7,4 +7,5 @@ export COMFYUI_IMAGE="registry.arkprojects.space/apps/comfyui-gfx906"
 export COMFYUI_TORCH_IMAGE="registry.arkprojects.space/apps/pytorch-gfx906"
 
 # vllm
+export VLLM_MAX_JOBS="60"
 export VLLM_IMAGE="registry.arkprojects.space/apps/vllm-gfx906"
diff --git a/env.sh b/env.sh
@@ -38,8 +38,15 @@ if [ "$BASE_UBUNTU_REGISTRY" == "" ]; then
   BASE_UBUNTU_REGISTRY=docker.io/library
 fi
 
-source $(dirname ${BASH_SOURCE[0]})/rocm/env.sh
-source $(dirname ${BASH_SOURCE[0]})/llama.cpp/env.sh
-source $(dirname ${BASH_SOURCE[0]})/comfyui/env.sh
-source $(dirname ${BASH_SOURCE[0]})/vllm/env.sh
-source $(dirname ${BASH_SOURCE[0]})/pytorch/env.sh
+if [ "$1" != "" ]; then
+  for PROJ in "$@"; do
+    source $(dirname ${BASH_SOURCE[0]})/${PROJ}/env.sh
+  done
+else
+  echo "Warn: pass requiured projs over args"
+  source $(dirname ${BASH_SOURCE[0]})/rocm/env.sh
+  source $(dirname ${BASH_SOURCE[0]})/llama.cpp/env.sh
+  source $(dirname ${BASH_SOURCE[0]})/comfyui/env.sh
+  source $(dirname ${BASH_SOURCE[0]})/vllm/env.sh
+  source $(dirname ${BASH_SOURCE[0]})/pytorch/env.sh
+fi
diff --git a/vllm-v2/build-and-push.vllm.sh b/vllm-v2/build-and-push.vllm.sh
@@ -2,7 +2,7 @@
 set -e
 
 cd $(dirname $0)
-source ../env.sh
+source ../env.sh "pytorch" "vllm-v2"
 
 IMAGE_TAGS=(
   "${VLLM_IMAGE}:${VLLM_PRESET_NAME}-${REPO_GIT_REF}"
@@ -22,20 +22,21 @@ done
 mkdir -p ./logs
 docker buildx build ${DOCKER_EXTRA_ARGS[@]} --push \
   --build-arg BASE_PYTORCH_IMAGE=${TORCH_IMAGE}:${VLLM_PYTORCH_VERSION}-rocm-${VLLM_ROCM_VERSION} \
+  --build-arg MAX_JOBS="${VLLM_MAX_JOBS}" \
   \
-  --build-arg VLLM_REPO=$VLLM_REPO     \
-  --build-arg VLLM_BRANCH=$VLLM_BRANCH \
-  --build-arg VLLM_COMMIT=$VLLM_COMMIT \
-  --build-arg VLLM_PATCH=$VLLM_PATCH   \
+  --build-arg VLLM_REPO=${VLLM_REPO}     \
+  --build-arg VLLM_BRANCH=${VLLM_BRANCH} \
+  --build-arg VLLM_COMMIT=${VLLM_COMMIT} \
+  --build-arg VLLM_PATCH=${VLLM_PATCH}   \
   \
-  --build-arg FA_REPO=$VLLM_FA_REPO     \
-  --build-arg FA_BRANCH=$VLLM_FA_BRANCH \
-  --build-arg FA_COMMIT=$VLLM_FA_COMMIT \
-  --build-arg FA_PATCH=$VLLM_FA_PATCH   \
+  --build-arg FA_REPO=${VLLM_FA_REPO}     \
+  --build-arg FA_BRANCH=${VLLM_FA_BRANCH} \
+  --build-arg FA_COMMIT=${VLLM_FA_COMMIT} \
+  --build-arg FA_PATCH=${VLLM_FA_PATCH}   \
   \
-  --build-arg TRITON_REPO=$VLLM_TRITON_REPO     \
-  --build-arg TRITON_BRANCH=$VLLM_TRITON_BRANCH \
-  --build-arg TRITON_COMMIT=$VLLM_TRITON_COMMIT \
-  --build-arg TRITON_PATCH=$VLLM_TRITON_PATCH   \
+  --build-arg TRITON_REPO=${VLLM_TRITON_REPO}     \
+  --build-arg TRITON_BRANCH=${VLLM_TRITON_BRANCH} \
+  --build-arg TRITON_COMMIT=${VLLM_TRITON_COMMIT} \
+  --build-arg TRITON_PATCH=${VLLM_TRITON_PATCH}   \
   \
   --progress=plain --target final -f ./vllm.Dockerfile ./build-context 2>&1 | tee ./logs/build_$(date +%Y%m%d%H%M%S).log
diff --git a/vllm-v2/build-context/patch/ai-infos_vllm-gfx906-mobydick/f854fc5.patch b/vllm-v2/build-context/patch/ai-infos_vllm-gfx906-mobydick/f854fc5.patch
@@ -0,0 +1,44 @@
+diff --git a/vllm/config/model.py b/vllm/config/model.py
+index bd35e491d..82200172e 100644
+--- a/vllm/config/model.py
++++ b/vllm/config/model.py
+@@ -1786,8 +1786,6 @@ def str_dtype_to_torch_dtype(type: str):
+ # model_type -> reason
+ _FLOAT16_NOT_SUPPORTED_MODELS = {
+     "gemma2": "Numerical instability. Please use bfloat16 or float32 instead.",
+-    "gemma3": "Numerical instability. Please use bfloat16 or float32 instead.",
+-    "gemma3_text": "Numerical instability. Please use bfloat16 or float32 instead.",
+     "plamo2": "Numerical instability. Please use bfloat16 or float32 instead.",
+     "glm4": "Numerical instability. Please use bfloat16 or float32 instead.",
+ }
+diff --git a/vllm/model_executor/models/gemma3.py b/vllm/model_executor/models/gemma3.py
+index b2352a3c9..02f458fbf 100644
+--- a/vllm/model_executor/models/gemma3.py
++++ b/vllm/model_executor/models/gemma3.py
+@@ -279,6 +279,9 @@ class Gemma3DecoderLayer(nn.Module):
+         residual: torch.Tensor | None,
+         **kwargs,
+     ) -> tuple[torch.Tensor, torch.Tensor]:
++        # https://github.com/huggingface/transformers/pull/36832
++        if hidden_states.dtype == torch.float16:
++            hidden_states = hidden_states.clamp_(-65504, 65504)
+         if residual is None:
+             residual = hidden_states
+             hidden_states = self.input_layernorm(hidden_states)
+@@ -290,12 +293,16 @@ class Gemma3DecoderLayer(nn.Module):
+             **kwargs,
+         )
+         hidden_states = self.post_attention_layernorm(hidden_states)
++        if hidden_states.dtype == torch.float16:
++            hidden_states = hidden_states.clamp_(-65504, 65504)
+ 
+         hidden_states, residual = self.pre_feedforward_layernorm(
+             hidden_states, residual
+         )
+         hidden_states = self.mlp(hidden_states)
+         hidden_states = self.post_feedforward_layernorm(hidden_states)
++        if hidden_states.dtype == torch.float16:
++            hidden_states = hidden_states.clamp_(-65504, 65504)
+         return hidden_states, residual
+ 
+ 
diff --git a/vllm-v2/preset.f854fc5-rocm-6.3.3-aiinfos.sh b/vllm-v2/preset.f854fc5-rocm-6.3.3-aiinfos.sh
@@ -6,6 +6,7 @@ export VLLM_PYTORCH_VERSION="v2.10.0"
 export VLLM_REPO="https://github.com/ai-infos/vllm-gfx906-mobydick.git"
 export VLLM_BRANCH="gfx906/v0.17.1rc0.x"
 export VLLM_COMMIT="f854fc5"
+export VLLM_PATCH="ai-infos_vllm-gfx906-mobydick/f854fc5.patch"
 
 export VLLM_TRITON_REPO="https://github.com/ai-infos/triton-gfx906.git"
 export VLLM_TRITON_BRANCH="v3.5.1+gfx906"
diff --git a/vllm-v2/preset.f854fc5-rocm-7.2.0-aiinfos.sh b/vllm-v2/preset.f854fc5-rocm-7.2.0-aiinfos.sh
@@ -6,6 +6,7 @@ export VLLM_PYTORCH_VERSION="v2.10.0"
 export VLLM_REPO="https://github.com/ai-infos/vllm-gfx906-mobydick.git"
 export VLLM_BRANCH="gfx906/v0.17.1rc0.x"
 export VLLM_COMMIT="f854fc5"
+export VLLM_PATCH="ai-infos_vllm-gfx906-mobydick/f854fc5.patch"
 
 export VLLM_TRITON_REPO="https://github.com/ai-infos/triton-gfx906.git"
 export VLLM_TRITON_BRANCH="v3.5.1+gfx906"
diff --git a/vllm-v2/vllm.Dockerfile b/vllm-v2/vllm.Dockerfile
@@ -1,4 +1,7 @@
+# Build seq: rocm_base => build_base => build_triton => build_fa => build_vllm => final
+
 ARG BASE_PYTORCH_IMAGE="docker.io/mixa3607/pytorch-gfx906:v2.10.0-rocm-6.3.3"
+ARG MAX_JOBS=""
 
 ARG VLLM_REPO="https://github.com/ai-infos/vllm-gfx906-mobydick.git"
 ARG VLLM_BRANCH="main"
@@ -33,7 +36,7 @@ RUN pip3 install                      \
       'packaging>=24.2'               \
       'jinja2>=3.1.6'                 \
       'timm>=1.0.17'                  \
-      '/opt/share/amd_smi'
+      '/opt/rocm/share/amd_smi'
 RUN apt install curl wget jq aria2 -y
 
 ############# Build base #############
@@ -48,6 +51,8 @@ RUN pip3 install                      \
 
 ############# Build triton #############
 FROM build_base AS build_triton
+RUN --mount=type=bind,from=build_base,src=/tmp,target=/force-sequental-build echo ''
+
 ARG TRITON_REPO
 ARG TRITON_BRANCH
 ARG TRITON_COMMIT
@@ -60,11 +65,15 @@ RUN if [ "$TRITON_COMMIT" != "" ]; then git checkout "$TRITON_COMMIT"; fi
 COPY ./patch/${TRITON_PATCH} ./${TRITON_PATCH}
 RUN git apply ./${TRITON_PATCH} --allow-empty
 # Build
-RUN python3 setup.py bdist_wheel --dist-dir=/dist
+ARG MAX_JOBS
+RUN MAX_JOBS=${MAX_JOBS:-$(nproc)} \
+    python3 setup.py bdist_wheel --dist-dir=/dist
 RUN ls /dist
 
 ############# Build FA #############
 FROM build_base AS build_fa
+RUN --mount=type=bind,from=build_triton,src=/tmp,target=/force-sequental-build echo ''
+
 ARG FA_REPO
 ARG FA_BRANCH
 ARG FA_COMMIT
@@ -77,11 +86,15 @@ RUN if [ "$FA_COMMIT" != "" ]; then git checkout "$FA_COMMIT"; fi
 COPY ./patch/${FA_PATCH} ./${FA_PATCH}
 RUN git apply ./${FA_PATCH} --allow-empty
 # Build
-RUN python3 setup.py bdist_wheel --dist-dir=/dist
+ARG MAX_JOBS
+RUN MAX_JOBS=${MAX_JOBS:-$(nproc)} \
+    python3 setup.py bdist_wheel --dist-dir=/dist
 RUN ls /dist
 
 ############# Build vllm #############
 FROM build_base AS build_vllm
+RUN --mount=type=bind,from=build_fa,src=/tmp,target=/force-sequental-build echo ''
+
 ARG VLLM_REPO
 ARG VLLM_BRANCH
 ARG VLLM_COMMIT
@@ -95,7 +108,9 @@ COPY ./patch/${VLLM_PATCH} ./${VLLM_PATCH}
 RUN git apply ./${VLLM_PATCH} --allow-empty
 # Build
 RUN pip install -r requirements/rocm.txt
-RUN python3 setup.py bdist_wheel --dist-dir=/dist
+ARG MAX_JOBS
+RUN MAX_JOBS=${MAX_JOBS:-$(nproc)} \
+    python3 setup.py bdist_wheel --dist-dir=/dist
 RUN ls /dist 
 
 ############# Install all #############