[LTS][develop][Toolchain] fix elpa-gpu installation problem in toolchain 202503 (deepmodeling#6631)

QuantumMisaka · web-flow · commit 452e5721c1f2 · 2025-10-24T17:53:27.000+08:00
* fix(toolchain): fix elpa-gpu installation in legacy way

* fix(toolchain): remove unsupported NEP interface option in LTS

* feat(toolchain-elpa): add nvidia-cub and cusolver flag for elpa-gpu

* fix(openblas): 修正openblas包名大小写不一致问题

* fix(toolchain): 修复wget下载时错误输出被重定向的问题
diff --git a/toolchain/build_abacus_aocc-aocl.sh b/toolchain/build_abacus_aocc-aocl.sh
@@ -33,7 +33,6 @@ FFTW3=$AOCLhome
 LIBRI=$INSTALL_DIR/LibRI-master
 LIBCOMM=$INSTALL_DIR/LibComm-master
 USE_CUDA=OFF  # set ON to enable gpu-abacus
-# NEP_DIR=$INSTALL_DIR/NEP_CPU-main
 # LIBTORCH=$INSTALL_DIR/libtorch-2.1.2/share/cmake/Torch
 # LIBNPY=$INSTALL_DIR/libnpy-1.0.1/include
 # DEEPMD=$HOME/apps/anaconda3/envs/deepmd
@@ -60,7 +59,6 @@ cmake -B $BUILD_DIR -DCMAKE_INSTALL_PREFIX=$PREFIX \
         -DLIBCOMM_DIR=$LIBCOMM \
         -DUSE_CUDA=$USE_CUDA \
 #        -DCMAKE_CUDA_COMPILER=/path/to/cuda/bin/nvcc \
-#        -DNEP_DIR=$NEP_DIR \
 #         -DENABLE_DEEPKS=1 \
 #         -DTorch_DIR=$LIBTORCH \
 #         -Dlibnpy_INCLUDE_DIR=$LIBNPY \
diff --git a/toolchain/build_abacus_gcc-aocl.sh b/toolchain/build_abacus_gcc-aocl.sh
@@ -33,7 +33,6 @@ FFTW3=$AOCLhome
 LIBRI=$INSTALL_DIR/LibRI-master
 LIBCOMM=$INSTALL_DIR/LibComm-master
 USE_CUDA=OFF  # set ON to enable gpu-abacus
-# NEP_DIR=$INSTALL_DIR/NEP_CPU-main
 # LIBTORCH=$INSTALL_DIR/libtorch-2.1.2/share/cmake/Torch
 # LIBNPY=$INSTALL_DIR/libnpy-1.0.1/include
 # DEEPMD=$HOME/apps/anaconda3/envs/deepmd 
@@ -58,7 +57,6 @@ cmake -B $BUILD_DIR -DCMAKE_INSTALL_PREFIX=$PREFIX \
         -DLIBCOMM_DIR=$LIBCOMM \
         -DUSE_CUDA=$USE_CUDA \
 #         -DCMAKE_CUDA_COMPILER=/path/to/cuda/bin/nvcc \
-#         -DNEP_DIR=$NEP_DIR \
 #          -DENABLE_DEEPKS=1 \
 #         -DTorch_DIR=$LIBTORCH \
 #         -Dlibnpy_INCLUDE_DIR=$LIBNPY \
diff --git a/toolchain/build_abacus_gnu.sh b/toolchain/build_abacus_gnu.sh
@@ -31,7 +31,6 @@ RAPIDJSON=$INSTALL_DIR/rapidjson-master/
 LIBRI=$INSTALL_DIR/LibRI-master
 LIBCOMM=$INSTALL_DIR/LibComm-master
 USE_CUDA=OFF  # set ON to enable gpu-abacus
-# NEP_DIR=$INSTALL_DIR/NEP_CPU-main
 # LIBTORCH=$INSTALL_DIR/libtorch-2.1.2/share/cmake/Torch
 # LIBNPY=$INSTALL_DIR/libnpy-1.0.1/include
 # DEEPMD=$HOME/apps/anaconda3/envs/deepmd #
@@ -56,7 +55,6 @@ cmake -B $BUILD_DIR -DCMAKE_INSTALL_PREFIX=$PREFIX \
         -DLIBCOMM_DIR=$LIBCOMM \
         -DUSE_CUDA=$USE_CUDA \
 #         -DCMAKE_CUDA_COMPILER=/path/to/cuda/bin/nvcc \
-#         -DNEP_DIR=$NEP_DIR \
 #         -DENABLE_DEEPKS=1 \
 #         -DTorch_DIR=$LIBTORCH \
 #         -Dlibnpy_INCLUDE_DIR=$LIBNPY \
diff --git a/toolchain/build_abacus_intel.sh b/toolchain/build_abacus_intel.sh
@@ -30,7 +30,6 @@ RAPIDJSON=$INSTALL_DIR/rapidjson-master
 LIBRI=$INSTALL_DIR/LibRI-master
 LIBCOMM=$INSTALL_DIR/LibComm-master
 USE_CUDA=OFF  # set ON to enable gpu-abacus
-# NEP_DIR=$INSTALL_DIR/NEP_CPU-main
 # LIBTORCH=$INSTALL_DIR/libtorch-2.1.2/share/cmake/Torch
 # LIBNPY=$INSTALL_DIR/libnpy-1.0.1/include
 # DEEPMD=$HOME/apps/anaconda3/envs/deepmd # v3.0 might have problem
@@ -54,7 +53,6 @@ cmake -B $BUILD_DIR -DCMAKE_INSTALL_PREFIX=$PREFIX \
 	    -DLIBCOMM_DIR=$LIBCOMM \
         -DUSE_CUDA=$USE_CUDA \
 #         -DCMAKE_CUDA_COMPILER=/path/to/cuda/bin/nvcc \
-#         -DNEP_DIR=$NEP_DIR \
 #         -DENABLE_DEEPKS=1 \
 #         -DTorch_DIR=$LIBTORCH \
 #         -Dlibnpy_INCLUDE_DIR=$LIBNPY \
diff --git a/toolchain/scripts/lib/config_manager.sh b/toolchain/scripts/lib/config_manager.sh
@@ -481,6 +481,11 @@ config_validate() {
         CONFIG_CACHE["ARCH_NUM"]="no"
     fi
     
+    # Backward compatibility: also export ARCH_NUM to environment when set
+    if [[ -n "${CONFIG_CACHE[ARCH_NUM]}" ]]; then
+        export ARCH_NUM="${CONFIG_CACHE[ARCH_NUM]}"
+    fi
+    
     return 0
 }
 
@@ -606,6 +611,10 @@ config_export_to_env() {
     for key in "${!CONFIG_CACHE[@]}"; do
         export "$key"="${CONFIG_CACHE[$key]}"
     done
+
+    # Backward compatibility for stage scripts expecting uppercase GPU flags
+    # Installers (e.g., stage3/install_elpa.sh) read ENABLE_CUDA, not enable_cuda
+    export ENABLE_CUDA="${CONFIG_CACHE[enable_cuda]}"
     
     # Export package list variables
     export tool_list
diff --git a/toolchain/scripts/stage2/install_openblas.sh b/toolchain/scripts/stage2/install_openblas.sh
@@ -28,7 +28,7 @@ if [[ -z "$version_suffix" && -n "${ABACUS_TOOLCHAIN_VERSION_SUFFIX}" ]]; then
 fi
 # Load package variables with appropriate version
 load_package_vars "openblas" "$version_suffix"
-openblas_pkg="openblas-${openblas_ver}.tar.gz"
+openblas_pkg="OpenBLAS-${openblas_ver}.tar.gz"
 
 source "${INSTALLDIR}"/toolchain.conf
 source "${INSTALLDIR}"/toolchain.env
diff --git a/toolchain/scripts/stage3/install_elpa.sh b/toolchain/scripts/stage3/install_elpa.sh
@@ -114,9 +114,11 @@ case "$with_elpa" in
                 fi
             fi
             for TARGET in "cpu" "nvidia"; do
-                [ "$TARGET" = "nvidia" ] && [ "$ENABLE_CUDA" != "__TRUE__" ] && continue
+                # Accept both uppercase and lowercase GPU enable flags for compatibility
+                gpu_enabled="${ENABLE_CUDA:-${enable_cuda}}"
+                [ "$TARGET" = "nvidia" ] && [ "$gpu_enabled" != "__TRUE__" ] && continue
                 # disable cpu if cuda is enabled, only install one
-                [ "$TARGET" != "nvidia" ] && [ "$ENABLE_CUDA" = "__TRUE__" ] && continue
+                [ "$TARGET" != "nvidia" ] && [ "$gpu_enabled" = "__TRUE__" ] && continue
                 # extend the pkg_install_dir by TARGET
                 # this linking method is totally different from cp2k toolchain
                 # for cp2k, ref https://github.com/cp2k/cp2k/commit/6fe2fc105b8cded84256248f68c74139dd8fc2e9
@@ -139,6 +141,7 @@ case "$with_elpa" in
                         --with-cuda-path=${CUDA_PATH:-${CUDA_HOME:-/CUDA_HOME-notset}} \
                         --enable-nvidia-gpu-kernels=$([ "$TARGET" = "nvidia" ] && echo "yes" || echo "no") \
                         --with-NVIDIA-GPU-compute-capability=$([ "$TARGET" = "nvidia" ] && echo "sm_$ARCH_NUM" || echo "sm_70") \
+                        --enable-nvidia-cub --with-cusolver \
                         OMPI_MCA_plm_rsh_agent=/bin/false \
                         FC=${MPIFC} \
                         CC=${MPICC} \
@@ -170,6 +173,7 @@ case "$with_elpa" in
                         --enable-nvidia-gpu-kernels=$([ "$TARGET" = "nvidia" ] && echo "yes" || echo "no") \
                         --with-cuda-path=${CUDA_PATH:-${CUDA_HOME:-/CUDA_HOME-notset}} \
                         --with-NVIDIA-GPU-compute-capability=$([ "$TARGET" = "nvidia" ] && echo "sm_$ARCH_NUM" || echo "sm_70") \
+                        --enable-nvidia-cub --with-cusolver \
                         FC=${MPIFC} \
                         CC=${MPICC} \
                         CXX=${MPICXX} \
diff --git a/toolchain/scripts/tool_kit.sh b/toolchain/scripts/tool_kit.sh
@@ -978,7 +978,7 @@ download_pkg_from_url() {
     "smart"|*)
       # Smart fallback: try with certificate validation first, then without
       echo "Attempting secure download: $__url"
-      if wget ${DOWNLOADER_FLAGS} "$__url" -O "$__filename" 2>/dev/null; then
+      if wget ${DOWNLOADER_FLAGS} "$__url" -O "$__filename"; then
         echo "Download successful with certificate validation"
       else
         echo "Certificate validation failed, retrying without certificate check..."