MXNet 1.4 support CUDA10

hephaex · hephaex · commit b0f8d5d7ef08 · 2020-03-08T23:02:27.000+09:00
diff --git a/python-mxnet/Dockerfile.1.4-py36-cuda10 b/python-mxnet/Dockerfile.1.4-py36-cuda10
@@ -0,0 +1,356 @@
+FROM nvidia/cuda:10.0-devel-ubuntu18.04
+
+# TensorFlow version is tightly coupled to CUDA and cuDNN so it should be selected carefully
+ENV MXNET_VERSION=1.4.1
+ENV CUDNN_VERSION=7.6.0.64-1+cuda10.0
+ENV NCCL_VERSION=2.4.8-1+cuda10.0
+ENV DEBIAN_FRONTEND=noninteractive
+ENV mecab_dicdir /usr/local/lib/mecab/dic/mecab-ko-dic
+
+# Python 2.7 or 3.6 is supported by Ubuntu Bionic out of the box
+ARG python=3.6
+ENV PYTHON_VERSION=${python}
+
+ENV PYTHONUNBUFFERED=1 \
+    LD_LIBRARY_PATH="/usr/local/cuda/lib64:/usr/local/nvidia/lib64" \
+    PATH="/usr/local/nvidia/bin:/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/local/bin/mecab" \
+    LANG=C.UTF-8
+
+# Set default shell to /bin/bash
+SHELL ["/bin/bash", "-cu"]
+
+RUN apt-get update -y && \
+    apt-get install -y --no-install-recommends software-properties-common && \
+    add-apt-repository -y "deb http://security.ubuntu.com/ubuntu xenial-security main" && \
+    apt-get update -y && \
+    apt-get install -y --allow-downgrades --allow-change-held-packages --no-install-recommends \
+        build-essential \
+	ca-certificates \
+        gcc g++ make \
+	gfortran \
+	dkms \
+        git \
+        curl \
+        vim \
+	yasm \
+        wget zip unzip \
+        ca-certificates \
+        software-properties-common \
+  	openssh-client openssh-server \
+        libssl-dev \
+        libmpdec2 \
+	pdsh curl sudo net-tools \
+	iputils-ping \
+        libcudnn7=${CUDNN_VERSION} \
+        libnccl2=${NCCL_VERSION} \
+        libnccl-dev=${NCCL_VERSION} \
+        libjpeg-dev \
+        libpng-dev \
+	libsm6 \
+	libxext6 \
+	libxrender-dev \
+	libcairo2-dev libgirepository1.0-dev pkg-config gir1.2-gtk-3.0 \
+        libgeos-dev libgeos++-dev \
+        mime-support \
+	proj-bin libproj-dev libgeos-dev libgeos++-dev graphviz \
+        python${PYTHON_VERSION} \
+        python${PYTHON_VERSION}-dev \
+	libnuma-dev \
+	libjasper-dev \
+        libtiff-dev \
+	libavcodec-dev \
+        libavformat-dev \
+	libswscale-dev \
+	libxine2-dev \
+	libv4l-dev \
+	libboost-dev \
+	libboost-system-dev \
+	libboost-filesystem-dev \
+	libfreetype6-dev \
+	fonts-nanum \
+	fonts-nanum-coding \
+	fonts-nanum-extra
+
+RUN curl -sL https://deb.nodesource.com/setup_10.x | bash - && \
+    apt-get update -y && \
+    apt-get install -y nodejs
+
+# OFED
+ENV STAGE_DIR=/tmp
+RUN mkdir -p ${STAGE_DIR}
+ENV MLNX_OFED_VERSION=4.6-1.0.1.1
+RUN cd ${STAGE_DIR} && \
+    wget -q -O - http://www.mellanox.com/downloads/ofed/MLNX_OFED-${MLNX_OFED_VERSION}/MLNX_OFED_LINUX-${MLNX_OFED_VERSION}-ubuntu18.04-x86_64.tgz | tar xzf -
+RUN cd ${STAGE_DIR}/MLNX_OFED_LINUX-${MLNX_OFED_VERSION}-ubuntu18.04-x86_64 && \
+    ./mlnxofedinstall --user-space-only --without-fw-update --all -q && \
+    cd ${STAGE_DIR} && \
+    rm -rf ${STAGE_DIR}/MLNX_OFED_LINUX-${MLNX_OFED_VERSION}-ubuntu18.04-x86_64*
+    
+# nvidia-peer
+RUN mkdir -p ${STAGE_DIR} && \
+    git clone https://github.com/Mellanox/nv_peer_memory.git ${STAGE_DIR}/nv_peer_memory && \
+    cd ${STAGE_DIR}/nv_peer_memory && \
+    ./build_module.sh && \
+    cd ${STAGE_DIR} && \
+    tar xzf ${STAGE_DIR}/nvidia-peer-memory_1.0.orig.tar.gz && \
+    cd ${STAGE_DIR}/nvidia-peer-memory-1.0 && \
+    dpkg-buildpackage -us -uc && \
+    dpkg -i ${STAGE_DIR}/nvidia-peer-memory_1.0-8_all.deb
+
+# Install CUDA-10.0 + cuDNN 7.6.0
+RUN ln -s /usr/local/cuda-10.0 /usr/local/cuda && \
+    ln -s /usr/lib/x86_64-linux-gnu/libcudnn.so.7.6.0 /usr/local/cuda/lib64/libcudnn.so && \
+    ldconfig
+
+RUN if [[ "${PYTHON_VERSION}" == "3.6" ]]; then \
+        apt-get install -y python${PYTHON_VERSION}-distutils python-apt ; \
+    fi
+
+RUN update-alternatives --install /usr/bin/python python /usr/bin/python3 2
+
+WORKDIR /tmp
+RUN curl https://bootstrap.pypa.io/get-pip.py | python3 && \
+    python3 -m pip install --no-cache-dir -U setuptools pip 
+
+# Install TensorFlow, Keras, PyTorch and MXNet
+RUN python3 -m pip install pip --no-cache-dir -Iv \
+    	    Cython==0.29.13 \
+            numpy==1.16.5 \
+    	    scipy==1.4.1 \
+	    scikit-image==0.16.2 \
+    	    scikit-learn==0.21.3 \
+	    matplotlib==3.1.3 \
+	    tornado==6.0.4 \
+	    pystan==2.19.1.1 \
+	    notebook==6.0.3
+	    
+RUN python3 -m pip install --no-cache-dir mxnet-cu100==${MXNET_VERSION}
+RUN python3 -m pip install --no-cache-dir --extra-index-url \
+    	    https://developer.download.nvidia.com/compute/redist/cuda/10.0 \
+	    nvidia-dali 	    
+
+WORKDIR /tmp
+COPY ./requirements.20.03.txt /tmp
+RUN python3 -m pip install --no-cache-dir -Ir requirements.20.03.txt
+
+RUN python3 -m pip install --no-cache-dir -Iv \
+    	    tensorwatch==0.8.10 \
+	    jupyterlab-nvdashboard==0.2.0 \
+	    && \
+    python3 -m pip install --no-cache-dir konlpy h5py && \
+    rm -f /tmp/*.whl /tmp/requirements.20.03.txt
+
+RUN apt-get update && \
+    apt-get install -y \
+    	openjdk-8-jdk \
+	automake \
+	&& \
+    cd /tmp && \
+    curl -LO https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz && \
+    tar zxfv mecab-0.996-ko-0.9.2.tar.gz && \
+    cd mecab-0.996-ko-0.9.2 && \
+    ./configure && \
+    make -j$(nproc) && \
+    make check && \
+    make install
+
+RUN echo "Install mecab-ko-dic" && \
+    cd /tmp && \
+    ldconfig && \
+    curl -LO https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic-2.1.1-20180720.tar.gz && \
+    tar -zxvf mecab-ko-dic-2.1.1-20180720.tar.gz && \
+    cd mecab-ko-dic-2.1.1-20180720 && \
+    ./autogen.sh && \
+    ./configure && \
+    make -j$(nproc) && \
+    sh -c 'echo "dicdir=/usr/local/lib/mecab/dic/mecab-ko-dic" > /usr/local/etc/mecabrc' && \
+    make install && \
+    cd /tmp && \
+    git clone https://bitbucket.org/eunjeon/mecab-python-0.996.git && \
+    python3 -m pip install /tmp/mecab-python-0.996
+
+RUN ln -s /usr/include/libv4l1-videodev.h /usr/include/linux/videodev.h && \
+   apt-get install -y \
+	libgstreamer1.0-dev \
+	libgstreamer-plugins-base1.0-dev \
+	libgtk-3-dev \
+        libtbb-dev \
+	libatlas-base-dev \
+	libdc1394-22-dev \
+	libxvidcore-dev \
+	libfaac-dev \
+	libmp3lame-dev \
+	libtheora-dev \
+	libvorbis-dev \
+	libxvidcore-dev \
+	libopencore-amrnb-dev libopencore-amrwb-dev \
+	libavresample-dev \
+	x264 \
+	libx264-dev \
+	v4l-utils \	
+	libprotobuf-dev protobuf-compiler \
+	libgoogle-glog-dev libgflags-dev \
+	libgphoto2-dev \
+	libeigen3-dev \
+	libhdf5-dev \	
+    && \	
+    apt-get clean && \
+    rm -rf /var/lib/apt/lists/
+
+RUN wget https://github.com/Kitware/CMake/releases/download/v3.15.3/cmake-3.15.3-Linux-x86_64.sh \
+         -q -O /tmp/cmake-install.sh && \
+    chmod u+x /tmp/cmake-install.sh && \
+    mkdir /usr/bin/cmake && \
+    /tmp/cmake-install.sh --skip-license --prefix=/usr/bin/cmake && \
+    rm /tmp/cmake-install.sh
+
+ENV PATH="/usr/bin/cmake/bin:${PATH}"
+
+WORKDIR /tmp
+ENV OPENCV_VERSION="4.1.0"
+RUN wget https://github.com/opencv/opencv/archive/${OPENCV_VERSION}.zip && \
+    wget -O opencv-contrib.zip https://github.com/opencv/opencv_contrib/archive/${OPENCV_VERSION}.zip && \
+    unzip ${OPENCV_VERSION}.zip && \
+    unzip opencv-contrib.zip && \
+    mkdir opencv-${OPENCV_VERSION}/cmake_binary && \
+    cd opencv-${OPENCV_VERSION}/cmake_binary && \
+    cmake \
+      -DCMAKE_BUILD_TYPE=RELEASE \
+      -D BUILD_TIFF=ON \
+      -D BUILD_opencv_java=OFF \
+      -D WITH_CUDA=ON \
+      -D CUDA_NVCC_FLAGS=--expt-relaxed-constexpr \
+      -D CUDA_TOOLKIT_ROOT_DIR=/usr/local/cuda-10.0 \
+      -D ENABLE_FAST_MATH=1 \
+      -D CUDA_FAST_MATH=1 \
+      -D WITH_CUBLAS=1 \
+      -D WITH_OPENGL=ON \
+      -D WITH_OPENCL=ON \
+      -D WITH_IPP=ON \
+      -D WITH_TBB=ON \
+      -D WITH_EIGEN=ON \
+      -D WITH_V4L=ON \
+      -D BUILD_TESTS=OFF \
+      -D BUILD_PERF_TESTS=OFF \
+      -D OPENCV_EXTRA_MODULES_PATH="../../opencv_contrib-4.1.0/modules" \
+      -D CMAKE_BUILD_TYPE=RELEASE \
+      -D CMAKE_INSTALL_PREFIX=$(python3 -c "import sys; print(sys.prefix)") \
+      -D PYTHON_EXECUTABLE=$(which python3) \
+      -D PYTHON_INCLUDE_DIR=$(python3 -c "from distutils.sysconfig import get_python_inc; print(get_python_inc())") \
+      -D PYTHON_PACKAGES_PATH=$(python3 -c "from distutils.sysconfig import get_python_lib; print(get_python_lib())") \
+      .. 2>&1 | tee cmake_messages.txt && \
+    make -j$(nproc) && \
+    make install && \
+    cd /tmp && \
+    rm -fr opencv* 
+
+RUN python3 -m pip install --no-cache-dir opencv-python && \
+    rm -rf /root/.cache 
+
+# add 19.09.06
+RUN git clone  --recursive https://github.com/dmlc/xgboost && \
+    cd xgboost && \
+    mkdir build && \
+    cd build && \
+    cmake .. -DUSE_CUDA=ON -DUSE_NCCL=ON && \
+    make -j$(nproc) && \
+    cd ../python-package && \
+    python3 setup.py install 
+
+RUN git clone --recursive https://github.com/Microsoft/LightGBM && \
+    cd LightGBM && \
+    mkdir build ; cd build && \
+    cmake -DUSE_GPU=1 -DOpenCL_LIBRARY=/usr/local/cuda-10.0/lib64/libOpenCL.so -DOpenCL_INCLUDE_DIR=/usr/local/cuda-10.0/include/ .. && \
+    make -j$(nproc) && \
+    cd ../python-package && \
+    python3 setup.py install --precompile
+
+# add 19.09.06
+RUN git clone https://github.com/scikit-optimize/scikit-optimize.git && \
+    cd scikit-optimize && \
+    python3 -m pip install -r requirements.txt && \
+    python3 setup.py develop
+
+RUN python3 -m pip install --no-cache-dir imbalanced-learn && \
+    python3 -m pip install --no-cache-dir bayesian-optimization && \
+    python3 -m pip install --no-cache-dir scikit-plot && \
+    python3 -m pip install --no-cache-dir vecstack && \
+    python3 -m pip install --no-cache-dir category_encoders && \
+    python3 -m pip install --no-cache-dir scikit-surprise && \
+    python3 -m pip install --no-cache-dir folium && \
+    python3 -m pip install --no-cache-dir lime && \
+    python3 -m pip install --no-cache-dir pyldavis && \
+    python3 -m pip install --no-cache-dir mlxtend && \
+    python3 -m pip install --no-cache-dir dtreeviz && \
+    python3 -m pip install --no-cache-dir pyglet && \
+    python3 -m pip install --no-cache-dir descartes && \
+    python3 -m pip install --no-cache-dir pydot && \
+    python3 -m pip install --no-cache-dir tpot && \
+    python3 -m pip install --no-cache-dir catboost && \       
+    rm -rf /root/.cache && \
+    rm -f /tmp/*.whl
+
+# Jupyter notebook extension
+RUN mkdir -p /home/work/.jupyter/nbextension
+WORKDIR /home/work/.jupyter/nbextension
+
+RUN jupyter nbextensions_configurator enable && \
+    jupyter contrib nbextension install && \
+    jupyter nbextension enable --py --sys-prefix widgetsnbextension && \
+    jupyter contrib nbextension install && \
+    jupyter serverextension enable --py jupyterlab --sys-prefix && \
+    jupyter labextension install @jupyter-widgets/jupyterlab-manager && \
+    git clone https://github.com/lambdalisue/jupyter-vim-binding vim_binding && \
+    jupyter nbextension enable /home/work/.jupyter/nbextension/vim_binding/vim_binding 
+
+# Install Open MPI
+RUN mkdir /tmp/openmpi && \
+    cd /tmp/openmpi && \
+    wget https://www.open-mpi.org/software/ompi/v4.0/downloads/openmpi-4.0.1.tar.gz && \
+    tar zxf openmpi-4.0.1.tar.gz && \
+    cd openmpi-4.0.1 && \
+    ./configure --enable-orterun-prefix-by-default && \
+    make -j $(nproc) all && \
+    make install && \
+    ldconfig && \
+    rm -rf /tmp/openmpi
+
+# Install Horovod, temporarily using CUDA stubs
+RUN ldconfig /usr/local/cuda/targets/x86_64-linux/lib/stubs && \
+    HOROVOD_GPU_ALLREDUCE=NCCL HOROVOD_GPU_BROADCAST=NCCL \
+    HOROVOD_WITHOUT_TENSORFLOW=1 HOROVOD_WITHOUT_PYTORCH=1 HOROVOD_WITH_MXNET=1 \
+    pip install --no-cache-dir horovod==0.19.0 && \
+    ldconfig
+
+RUN python3 -m pip install --no-cache-dir \
+    	    mpi4py==3.0.3 \
+	    nni
+	    
+# Install OpenSSH for MPI to communicate between containers
+RUN apt-get install -y --no-install-recommends openssh-client openssh-server && \
+    mkdir -p /var/run/sshd
+
+# Allow OpenSSH to talk to containers without asking for confirmation
+RUN cat /etc/ssh/ssh_config | grep -v StrictHostKeyChecking > /etc/ssh/ssh_config.new && \
+    echo "    StrictHostKeyChecking no" >> /etc/ssh/ssh_config.new && \
+    mv /etc/ssh/ssh_config.new /etc/ssh/ssh_config
+
+# Install ipython kernelspec
+RUN python3 -m ipykernel install --display-name "MXNet 1.4 on Python 3.6 (CUDA 10.0)" && \
+    cat /usr/local/share/jupyter/kernels/python3/kernel.json
+
+# Backend.AI specifics
+LABEL ai.backend.kernelspec="1" \
+      ai.backend.envs.corecount="OPENBLAS_NUM_THREADS,OMP_NUM_THREADS,NPROC" \
+      ai.backend.features="batch query uid-match user-input" \
+      ai.backend.base-distro="ubuntu16.04" \
+      ai.backend.resource.min.cpu="1" \
+      ai.backend.resource.min.mem="1g" \
+      ai.backend.resource.min.cuda.device=1 \
+      ai.backend.resource.min.cuda.shares=0.1 \
+      ai.backend.runtime-type="python" \
+      ai.backend.runtime-path="/usr/bin/python3" \
+      ai.backend.service-ports="ipython:pty:3000,jupyter:http:8070,jupyterlab:http:8090"
+
+WORKDIR /home/work
+# vim: ft=dockerfile