From f6a04c5dc63eb2fd21a195c23f0930d0abab6d7e Mon Sep 17 00:00:00 2001
From: Michael Mi <guocuimi@gmail.com>
Date: Tue, 17 Jun 2025 11:33:01 -0700
Subject: [PATCH 1/3] ci: set cuda arch to native for ci workflows

---
 .github/workflows/build.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/build.yml b/.github/workflows/build.yml
index 5c9badb0..c01cdf9f 100644
--- a/.github/workflows/build.yml
+++ b/.github/workflows/build.yml
@@ -68,7 +68,7 @@ jobs:
       timeout-minutes: 60
       run: |
         ./tools/run_in_docker.sh -ni ccache -M 25Gi
-        ./tools/run_in_docker.sh -ni cmake -G Ninja -S . -B build -DCMAKE_CUDA_ARCHITECTURES=80
+        ./tools/run_in_docker.sh -ni cmake -G Ninja -S . -B build -DCMAKE_CUDA_ARCHITECTURES=native
         ./tools/run_in_docker.sh -ni cmake --build build --config ${{env.BUILD_TYPE}} --target all
 
     # - name: benchmark

From 0955102f7f675feda8614124d069edf50130a713 Mon Sep 17 00:00:00 2001
From: Michael Mi <guocuimi@gmail.com>
Date: Tue, 17 Jun 2025 11:47:14 -0700
Subject: [PATCH 2/3] add '-o --gpus=all'

---
 .github/workflows/build.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/build.yml b/.github/workflows/build.yml
index c01cdf9f..d47600bb 100644
--- a/.github/workflows/build.yml
+++ b/.github/workflows/build.yml
@@ -68,7 +68,7 @@ jobs:
       timeout-minutes: 60
       run: |
         ./tools/run_in_docker.sh -ni ccache -M 25Gi
-        ./tools/run_in_docker.sh -ni cmake -G Ninja -S . -B build -DCMAKE_CUDA_ARCHITECTURES=native
+        ./tools/run_in_docker.sh -ni -o --gpus=all cmake -G Ninja -S . -B build -DCMAKE_CUDA_ARCHITECTURES=native
         ./tools/run_in_docker.sh -ni cmake --build build --config ${{env.BUILD_TYPE}} --target all
 
     # - name: benchmark

From 40de0b209e6f2b0d026911929a1a6f48724f96fc Mon Sep 17 00:00:00 2001
From: Michael Mi <guocuimi@gmail.com>
Date: Tue, 17 Jun 2025 11:53:38 -0700
Subject: [PATCH 3/3] update

---
 .github/workflows/build.yml | 4 ++--
 CMakeLists.txt              | 2 +-
 tools/run_in_docker.sh      | 4 ++--
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/.github/workflows/build.yml b/.github/workflows/build.yml
index d47600bb..57c7dfb2 100644
--- a/.github/workflows/build.yml
+++ b/.github/workflows/build.yml
@@ -68,7 +68,7 @@ jobs:
       timeout-minutes: 60
       run: |
         ./tools/run_in_docker.sh -ni ccache -M 25Gi
-        ./tools/run_in_docker.sh -ni -o --gpus=all cmake -G Ninja -S . -B build -DCMAKE_CUDA_ARCHITECTURES=native
+        ./tools/run_in_docker.sh -ni cmake -G Ninja -S . -B build
         ./tools/run_in_docker.sh -ni cmake --build build --config ${{env.BUILD_TYPE}} --target all
 
     # - name: benchmark
@@ -79,4 +79,4 @@ jobs:
       timeout-minutes: 10
       working-directory: ${{github.workspace}}/build
       # Execute tests defined by the CMake configuration.
-      run: ../tools/run_in_docker.sh -ni -o --gpus=all ctest --output-on-failure -C ${{env.BUILD_TYPE}}
+      run: ../tools/run_in_docker.sh -ni ctest --output-on-failure -C ${{env.BUILD_TYPE}}
diff --git a/CMakeLists.txt b/CMakeLists.txt
index 761f77df..191df2bb 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -69,7 +69,7 @@ endif()
 
 # set architecture for CUDA
 if (NOT DEFINED CMAKE_CUDA_ARCHITECTURES)
-  set(CMAKE_CUDA_ARCHITECTURES 80)
+  set(CMAKE_CUDA_ARCHITECTURES native)
 endif()
 
 # Build TORCH_CUDA_ARCH_LIST
diff --git a/tools/run_in_docker.sh b/tools/run_in_docker.sh
index 31453dda..53c482af 100755
--- a/tools/run_in_docker.sh
+++ b/tools/run_in_docker.sh
@@ -30,7 +30,7 @@ function usage() {
   echo "Examples:"
   echo "  ${progname} cmake -G Ninja -S . -B build"
   echo "  ${progname} cmake --build build --target all"
-  echo "  ${progname} -ni -d vectorchai/scalellm_devel:cuda12.8 -o '--gpus=all' ctest"
+  echo "  ${progname} -ni -d vectorchai/scalellm_devel:cuda12.8 ctest"
   echo ""
   exit 1
 }
@@ -39,7 +39,7 @@ function usage() {
 
 # Default image
 IMAGE="vectorchai/scalellm_devel:cuda12.8"
-RUN_OPTS=()
+RUN_OPTS=("--gpus=all")
 
 INTERACTIVE=1
 while [[ $# > 1 ]]; do