Updated Dockerfiles for 2.25 Release

neuron-containers-ci · ahsan-z-khan · web-flow · commit 0a7317b92456 · 2025-07-31T16:35:59.000-07:00
Co-authored-by: Ahsan Khan &lt;ahsan.al.zaki@gmail.com&gt;
diff --git a/docker/jax/training/0.6/Dockerfile.neuronx b/docker/jax/training/0.6/Dockerfile.neuronx
@@ -164,12 +164,12 @@ ARG NEURON_ARTIFACT_PATH=/root/neuron_artifacts
 ARG IGNORE_MISSING_NEURON_COMPONENTS=false
 RUN IGNORE_MISSING_NEURON_COMPONENTS=$(echo ${IGNORE_MISSING_NEURON_COMPONENTS} | tr '[:upper:]' '[:lower:]')
 
-ARG NEURONX_RUNTIME_LIB_VERSION=2.26.42.0-2ff3b5c7d
-ARG NEURONX_COLLECTIVES_LIB_VERSION=2.26.43.0-47cc904ea
-ARG NEURONX_TOOLS_VERSION=2.24.54.0
+ARG NEURONX_RUNTIME_LIB_VERSION=2.27.23.0-8deec4dbf
+ARG NEURONX_COLLECTIVES_LIB_VERSION=2.27.34.0-ec8cd5e8b
+ARG NEURONX_TOOLS_VERSION=2.25.145.0
 
-ARG NEURONX_CC_VERSION=2.19.8089.0
-ARG NEURONX_JAX_TRAINING_VERSION=0.6.0.1.0.1296+1f770067
+ARG NEURONX_CC_VERSION=2.20.9961.0
+ARG NEURONX_JAX_TRAINING_VERSION=0.6.1.1.0.3499+2edccbed
 
 FROM base AS repo
 
diff --git a/docker/pytorch/inference/2.7.0/Dockerfile.neuronx b/docker/pytorch/inference/2.7.0/Dockerfile.neuronx
@@ -149,15 +149,15 @@ ARG NEURON_ARTIFACT_PATH=/root/neuron_artifacts
 ARG IGNORE_MISSING_NEURON_COMPONENTS=false
 RUN IGNORE_MISSING_NEURON_COMPONENTS=$(echo ${IGNORE_MISSING_NEURON_COMPONENTS} | tr '[:upper:]' '[:lower:]')
 
-ARG NEURONX_COLLECTIVES_LIB_VERSION=2.26.43.0-47cc904ea
-ARG NEURONX_RUNTIME_LIB_VERSION=2.26.42.0-2ff3b5c7d
-ARG NEURONX_TOOLS_VERSION=2.24.54.0
-
-ARG NEURONX_CC_VERSION=2.19.8089.0
-ARG NEURONX_FRAMEWORK_VERSION=2.7.0.2.8.6734+ac864f72
-ARG NEURONX_TRANSFORMERS_VERSION=0.13.985
-ARG NEURONX_DISTRIBUTED_VERSION=0.13.14393+b8569585
-ARG NEURONX_DISTRIBUTED_INFERENCE_VERSION=0.4.7422+9483d307
+ARG NEURONX_COLLECTIVES_LIB_VERSION=2.27.34.0-ec8cd5e8b
+ARG NEURONX_RUNTIME_LIB_VERSION=2.27.23.0-8deec4dbf
+ARG NEURONX_TOOLS_VERSION=2.25.145.0
+
+ARG NEURONX_CC_VERSION=2.20.9961.0
+ARG NEURONX_FRAMEWORK_VERSION=2.7.0.2.9.9357+08e1f40d
+ARG NEURONX_TRANSFORMERS_VERSION=0.13.1216
+ARG NEURONX_DISTRIBUTED_VERSION=0.14.18461+9ac233f2
+ARG NEURONX_DISTRIBUTED_INFERENCE_VERSION=0.5.9230+dcf1e2da
 
 FROM base AS repo
 
diff --git a/docker/pytorch/training/2.7.0/Dockerfile.neuronx b/docker/pytorch/training/2.7.0/Dockerfile.neuronx
@@ -224,14 +224,14 @@ ARG NEURON_ARTIFACT_PATH=/root/neuron_artifacts
 ARG IGNORE_MISSING_NEURON_COMPONENTS=false
 RUN IGNORE_MISSING_NEURON_COMPONENTS=$(echo ${IGNORE_MISSING_NEURON_COMPONENTS} | tr '[:upper:]' '[:lower:]')
 
-ARG NEURONX_COLLECTIVES_LIB_VERSION=2.26.43.0-47cc904ea
-ARG NEURONX_RUNTIME_LIB_VERSION=2.26.42.0-2ff3b5c7d
-ARG NEURONX_TOOLS_VERSION=2.24.54.0
-
-ARG NEURONX_FRAMEWORK_VERSION=2.7.0.2.8.6734+ac864f72
-ARG NEURONX_CC_VERSION=2.19.8089.0
-ARG NEURONX_DISTRIBUTED_VERSION=0.13.14393+b8569585
-ARG NEURONX_DISTRIBUTED_TRAINING_VERSION=1.4.1
+ARG NEURONX_COLLECTIVES_LIB_VERSION=2.27.34.0-ec8cd5e8b
+ARG NEURONX_RUNTIME_LIB_VERSION=2.27.23.0-8deec4dbf
+ARG NEURONX_TOOLS_VERSION=2.25.145.0
+
+ARG NEURONX_FRAMEWORK_VERSION=2.7.0.2.9.9357+08e1f40d
+ARG NEURONX_CC_VERSION=2.20.9961.0
+ARG NEURONX_DISTRIBUTED_VERSION=0.14.18461+9ac233f2
+ARG NEURONX_DISTRIBUTED_TRAINING_VERSION=1.5.0
 
 FROM base AS repo
 
diff --git a/docker/vllm/inference/0.9.1/Dockerfile.neuronx b/docker/vllm/inference/0.9.1/Dockerfile.neuronx
@@ -0,0 +1,238 @@
+ARG BUILD_STAGE=prod
+
+FROM public.ecr.aws/docker/library/ubuntu:22.04 AS base
+
+LABEL dlc_major_version="1"
+LABEL maintainer="Amazon AI"
+
+ARG DEBIAN_FRONTEND=noninteractive
+ARG PIP=pip3
+ARG PYTHON=python3.10
+ARG PYTHON_VERSION=3.10.12
+ARG MAMBA_VERSION=23.1.0-4
+ARG TORCHSERVE_VERSION=0.11.0
+
+
+# See http://bugs.python.org/issue19846
+ENV LANG=C.UTF-8
+ENV LD_LIBRARY_PATH=/opt/aws/neuron/lib:/lib/x86_64-linux-gnu:/opt/conda/lib/:$LD_LIBRARY_PATH
+ENV PATH=/opt/conda/bin:/opt/aws/neuron/bin:$PATH
+ENV VLLM_TARGET_DEVICE=neuron
+
+RUN apt-get update \
+ && apt-get upgrade -y \
+ && apt-get install -y --no-install-recommends \
+    apt-transport-https \
+    build-essential \
+    ca-certificates \
+    cmake \
+    curl \
+    emacs \
+    ffmpeg \
+    git \
+    gnupg2 \
+    gpg-agent \
+    jq \
+    libgl1 \
+    libgl1-mesa-glx \
+    libglib2.0-0 \
+    libsm6 \
+    libxext6 \
+    libxrender-dev \
+    libcap-dev \
+    libhwloc-dev \
+    openssh-client \
+    openjdk-11-jdk \
+    unzip \
+    vim \
+    wget \
+    zlib1g-dev \
+ && rm -rf /var/lib/apt/lists/* \
+ && rm -rf /tmp/tmp* \
+ && apt-get clean
+
+# https://github.com/docker-library/openjdk/issues/261 https://github.com/docker-library/openjdk/pull/263/files
+RUN keytool -importkeystore -srckeystore /etc/ssl/certs/java/cacerts -destkeystore /etc/ssl/certs/java/cacerts.jks -deststoretype JKS -srcstorepass changeit -deststorepass changeit -noprompt; \
+    mv /etc/ssl/certs/java/cacerts.jks /etc/ssl/certs/java/cacerts; \
+    /var/lib/dpkg/info/ca-certificates-java.postinst configure;
+
+RUN curl -L -o ~/mambaforge.sh https://github.com/conda-forge/miniforge/releases/download/${MAMBA_VERSION}/Mambaforge-${MAMBA_VERSION}-Linux-x86_64.sh \
+ && chmod +x ~/mambaforge.sh \
+ && ~/mambaforge.sh -b -p /opt/conda \
+ && rm ~/mambaforge.sh \
+ && /opt/conda/bin/conda update -y conda \
+ && /opt/conda/bin/mamba install -c conda-forge -y \
+    python=$PYTHON_VERSION \
+    pyopenssl \
+    cython \
+    mkl-include \
+    mkl \
+    parso \
+    typing \
+    # Below 2 are included in miniconda base, but not mamba so need to install
+    conda-content-trust \
+    charset-normalizer \
+ && /opt/conda/bin/conda clean -ya
+
+RUN /opt/conda/bin/mamba install -c conda-forge \
+    scikit-learn \
+    h5py \
+    requests \
+ && conda clean -ya \
+ && pip install --upgrade pip \
+    --trusted-host pypi.org --trusted-host files.pythonhosted.org \
+ && ln -s /opt/conda/bin/pip /usr/local/bin/pip3 \
+ && pip install \
+    packaging \
+    enum-compat \
+    ipython \
+ && rm -rf ~/.cache/pip/*
+
+COPY --chmod=755 vllm_entrypoint.py neuron-monitor.sh deep_learning_container.py /usr/local/bin/
+# Copy the Vllm Installation files
+COPY --chmod=755 vllm_requirements.txt /root/
+
+### Mount Point ###
+# When launching the container, mount the code directory to /workspace
+ARG APP_MOUNT=/workspace
+VOLUME [ ${APP_MOUNT} ]
+WORKDIR ${APP_MOUNT}/vllm
+
+RUN ${PIP} install --upgrade pip --trusted-host pypi.org --trusted-host files.pythonhosted.org \
+ && ${PIP} install --no-cache-dir -U \
+    "opencv-python" \
+    "scipy" \
+    "awscli" \
+    "pandas" \
+    "boto3" \
+    "cryptography" \
+    "ninja" \
+    "pytest" \
+    "packaging" \
+    "wheel" \
+    "cmake>=3.26" \
+    "setuptools-scm>=8" \
+    "jinja2" \
+    torchserve==${TORCHSERVE_VERSION} \
+    torch-model-archiver==${TORCHSERVE_VERSION} \
+ && ${PIP} install --no-deps --no-cache-dir -U torchvision \ 
+ && ${PIP} install --no-cache-dir -r /root/vllm_requirements.txt \
+ && rm -rf ~/.cache/pip/*
+
+RUN useradd -m model-server \
+ && mkdir -p /home/model-server/tmp /opt/ml/model \
+ && chown -R model-server /home/model-server /opt/ml/model
+COPY config.properties /home/model-server
+
+# Compliance 
+RUN HOME_DIR=/root \
+ && curl -o ${HOME_DIR}/oss_compliance.zip https://aws-dlinfra-utilities.s3.amazonaws.com/oss_compliance.zip \
+ && unzip ${HOME_DIR}/oss_compliance.zip -d ${HOME_DIR}/ \
+ && cp ${HOME_DIR}/oss_compliance/test/testOSSCompliance /usr/local/bin/testOSSCompliance \
+ && chmod +x /usr/local/bin/testOSSCompliance \
+ && chmod +x ${HOME_DIR}/oss_compliance/generate_oss_compliance.sh \
+ && ${HOME_DIR}/oss_compliance/generate_oss_compliance.sh ${HOME_DIR} ${PYTHON} \
+ && rm -rf ${HOME_DIR}/oss_compliance* \
+ # conda leaves an empty /root/.cache/conda/notices.cache file which is not removed by conda clean -ya
+ && rm -rf ${HOME_DIR}/.cache/conda
+
+# Setting up APT and PIP repo for neuron artifacts
+ARG NEURON_APT_REPO=https://apt.repos.neuron.amazonaws.com
+ARG NEURON_APT_REPO_KEY
+ARG NEURON_PIP_REPO=https://pip.repos.neuron.amazonaws.com
+ARG NEURON_PIP_REPO_KEY
+RUN mkdir -p /etc/apt/keyrings \
+ && APT_REPO_PREFIX=$([ -n "${NEURON_APT_REPO_KEY}" ] && echo "${NEURON_APT_REPO_KEY}@" || echo "") \
+ && echo "deb [signed-by=/etc/apt/keyrings/neuron.gpg] https://${APT_REPO_PREFIX}${NEURON_APT_REPO} focal main" > /etc/apt/sources.list.d/neuron.list \
+ && curl $([ -n "${NEURON_APT_REPO_KEY}" ] && echo "-u ${NEURON_APT_REPO_KEY}") -sSL "https://${NEURON_APT_REPO}/GPG-PUB-KEY-AMAZON-AWS-NEURON.PUB" | gpg --dearmor > /etc/apt/keyrings/neuron.gpg \
+ && PIP_REPO_URL=$([ -n "${NEURON_PIP_REPO_KEY}" ] && echo "https://${NEURON_PIP_REPO_KEY}@${NEURON_PIP_REPO}" || echo "https://${NEURON_PIP_REPO}") \
+ && ${PIP} config set global.extra-index-url "${PIP_REPO_URL}"
+
+# Neuron SDK components version numbers
+ARG NEURON_ARTIFACT_PATH=/root/neuron_artifacts
+ARG IGNORE_MISSING_NEURON_COMPONENTS=false
+RUN IGNORE_MISSING_NEURON_COMPONENTS=$(echo ${IGNORE_MISSING_NEURON_COMPONENTS} | tr '[:upper:]' '[:lower:]')
+
+ARG NEURONX_COLLECTIVES_LIB_VERSION=2.27.34.0-ec8cd5e8b
+ARG NEURONX_RUNTIME_LIB_VERSION=2.27.23.0-8deec4dbf
+ARG NEURONX_TOOLS_VERSION=2.25.145.0
+
+ARG NEURONX_CC_VERSION=2.20.9961.0
+ARG NEURONX_FRAMEWORK_VERSION=2.7.0.2.9.9357+08e1f40d
+ARG NEURONX_DISTRIBUTED_VERSION=0.14.18461+9ac233f2
+ARG NEURONX_DISTRIBUTED_INFERENCE_VERSION=0.5.9230+dcf1e2da
+
+FROM base AS vllm-clone
+
+RUN mkdir -p /root/.ssh && \
+    echo "StrictHostKeyChecking no" >> /root/.ssh/config && \
+    ssh-keyscan -t rsa github.com >> /root/.ssh/known_hosts
+
+WORKDIR /vllm
+
+RUN --mount=type=secret,id=ssh_key,target=/root/.ssh/id_ed25519,mode=0600 \
+    git clone -b release-2.25 git@github.com:aws-neuron/private-neuronx-vllm-staging.git .
+
+FROM base AS repo
+
+# Install Neuron components from the apt and pip repos (latest versions)
+RUN apt-get update \
+ && apt-get install -y \
+   aws-neuronx-tools \
+   aws-neuronx-collectives \
+   aws-neuronx-runtime-lib \
+ && rm -rf /var/lib/apt/lists/* \
+ && rm -rf /tmp/tmp* \
+ && apt-get clean
+
+RUN ${PIP} install --no-cache-dir \
+   neuronx-cc \
+   torch-neuronx \
+   neuronx_distributed \
+   neuronx_distributed_inference \
+ && rm -rf ~/.cache/pip/*
+
+# Install VLLM from source
+COPY --from=vllm-clone /vllm /opt/vllm
+WORKDIR /opt/vllm
+
+RUN ${PIP} install --no-cache-dir -r requirements/neuron.txt \
+ && VLLM_TARGET_DEVICE="neuron" ${PIP} install --no-cache-dir -e .
+
+FROM base AS prod
+
+# Install Neuron components with specific versions
+RUN apt-get update \
+ && apt-get install -y \
+   aws-neuronx-tools=$NEURONX_TOOLS_VERSION \
+   aws-neuronx-collectives=$NEURONX_COLLECTIVES_LIB_VERSION \
+   aws-neuronx-runtime-lib=$NEURONX_RUNTIME_LIB_VERSION \
+ && rm -rf /var/lib/apt/lists/* \
+ && rm -rf /tmp/tmp* \
+ && apt-get clean
+
+RUN ${PIP} install --no-cache-dir \
+   neuronx-cc==$NEURONX_CC_VERSION \
+   torch-neuronx==$NEURONX_FRAMEWORK_VERSION \
+   neuronx_distributed==$NEURONX_DISTRIBUTED_VERSION \
+   neuronx_distributed_inference==$NEURONX_DISTRIBUTED_INFERENCE_VERSION \
+ && rm -rf ~/.cache/pip/*
+
+# Install VLLM from source
+RUN cd /tmp \
+ && git clone -b neuron-2.24-vllm-v0.7.2 https://github.com/aws-neuron/upstreaming-to-vllm.git \
+ && cd upstreaming-to-vllm \
+ && ${PIP} install --no-cache-dir -r requirements/neuron.txt \
+ && SETUPTOOLS_SCM_PRETEND_VERSION="2.24.0.0" VLLM_TARGET_DEVICE="neuron" ${PIP} install --no-cache-dir -e . \
+ && cd / \
+ && rm -rf /tmp/upstreaming-to-vllm
+
+WORKDIR ${APP_MOUNT}/vllm
+
+FROM ${BUILD_STAGE} AS final
+
+EXPOSE 8080 8081
+
+ENTRYPOINT ["python", "/usr/local/bin/vllm_entrypoint.py"]
+CMD ["/bin/bash"]
+HEALTHCHECK CMD curl --fail http://localhost:8080/ping || exit 1