Just use cmake, it seems easier to use.

nshepperd · nshepperd · commit 0eef5a9c74b7 · 2025-07-27T04:31:50.000+10:00
diff --git a/.clangd b/.clangd
@@ -6,6 +6,9 @@ CompileFlags:
    - --use_fast_math
    - --threads
    - -gencode
+   - -forward-unknown-to-host-compiler
+   - --generate-code=*
+   - -Xcompiler=*
   Add:
     - --no-cuda-version-check
 ---
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -0,0 +1,114 @@
+set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
+cmake_minimum_required(VERSION 3.18)
+
+project(flash_attn LANGUAGES CXX CUDA)
+
+set(CMAKE_JOB_POOLS cuda=6)
+set(CMAKE_INSTALL_RPATH "$ORIGIN/nvidia/cuda_runtime/lib")
+# Make sure RPATH is used instead of RUNPATH
+set(CMAKE_INSTALL_RPATH_USE_LINK_PATH FALSE)
+
+# == Find dependencies ==
+find_package(Python REQUIRED COMPONENTS Interpreter Development.Module)
+
+execute_process(
+    COMMAND ${Python_EXECUTABLE} -m pybind11 --cmakedir
+    OUTPUT_VARIABLE pybind11_DIR
+    OUTPUT_STRIP_TRAILING_WHITESPACE
+)
+
+find_package(pybind11 CONFIG REQUIRED)
+
+# == Setup CUDA ==
+string(REGEX REPLACE "--generate-code=arch=compute_[0-9]+,code=\\[?compute_[0-9]+,sm_[0-9]+\\]?" "" 
+       CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS}")
+string(REGEX REPLACE "-gencode arch=compute_[0-9]+,code=sm_[0-9]+" "" 
+       CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS}")
+
+message(WARNING "CMAKE_CUDA_FLAGS: ${CMAKE_CUDA_FLAGS}")
+
+# Set up ccache
+find_program(CCACHE_PROGRAM ccache)
+if(CCACHE_PROGRAM)
+    set(CMAKE_CUDA_COMPILER_LAUNCHER "${CCACHE_PROGRAM}")
+    message(STATUS "Using ccache: ${CCACHE_PROGRAM}")
+endif()
+
+# Options from environment variables
+option(FLASH_ATTENTION_FORCE_BUILD "Force building from source" OFF)
+option(FLASH_ATTENTION_SKIP_CUDA_BUILD "Skip CUDA build" OFF)
+option(FLASH_ATTENTION_FORCE_CXX11_ABI "Force using C++11 ABI" OFF)
+
+# CUDA handling
+# Get CUDA architectures from environment or use default
+if(DEFINED ENV{FLASH_ATTN_CUDA_ARCHS})
+    set(CMAKE_CUDA_ARCHITECTURES $ENV{FLASH_ATTN_CUDA_ARCHS})
+else()
+    # set(CMAKE_CUDA_ARCHITECTURES "80;90;100;120")
+    set(CMAKE_CUDA_ARCHITECTURES "80") 
+endif()
+
+find_package(CUDAToolkit REQUIRED)
+
+
+# CUDA flags
+set(CUDA_FLAGS
+    -O3
+    -std=c++20
+    --use_fast_math
+    --expt-relaxed-constexpr
+    --expt-extended-lambda
+    -U__CUDA_NO_HALF_OPERATORS__
+    -U__CUDA_NO_HALF_CONVERSIONS__
+    -U__CUDA_NO_HALF2_OPERATORS__
+    -U__CUDA_NO_BFLOAT16_CONVERSIONS__
+)
+
+# Collect source files
+file(GLOB CUDA_SOURCES 
+    "csrc/flash_attn/src/flash_fwd_hdim*.cu"
+    "csrc/flash_attn/src/flash_bwd_hdim*.cu"
+    "csrc/flash_attn/src/flash_fwd_split_hdim*.cu"
+)
+
+file(GLOB CC_SOURCES 
+    "csrc/flash_attn/*.cpp"
+)
+
+# Create CUDA extension
+pybind11_add_module(flash_api
+    ${CC_SOURCES}
+    ${CUDA_SOURCES}
+)
+
+set_property(TARGET flash_api PROPERTY JOB_POOL_COMPILE cuda)
+
+target_compile_options(flash_api PRIVATE
+    $<$<COMPILE_LANGUAGE:CUDA>:${CUDA_FLAGS}>
+)
+
+target_include_directories(flash_api PRIVATE
+    ${CMAKE_CURRENT_SOURCE_DIR}/csrc/flash_attn
+    ${CMAKE_CURRENT_SOURCE_DIR}/csrc/flash_attn/src
+    ${CMAKE_CURRENT_SOURCE_DIR}/csrc/cutlass/include
+)
+
+target_link_libraries(flash_api PRIVATE
+    CUDA::cudart
+)
+
+if(FLASH_ATTENTION_FORCE_CXX11_ABI)
+    target_compile_definitions(flash_api PRIVATE
+        _GLIBCXX_USE_CXX11_ABI=1
+    )
+endif()
+
+# Installation
+install(TARGETS flash_api
+        DESTINATION ${SKBUILD_PLATLIB_DIR}/flash_attn_jax_lib
+)
+
+install(DIRECTORY src/flash_attn_jax/
+        DESTINATION ${SKBUILD_PLATLIB_DIR}/flash_attn_jax
+        FILES_MATCHING PATTERN "*.py"
+)
diff --git a/Tupfile b/Tupfile
diff --git a/csrc/flash_attn/src/flash_fwd_launch_template.h b/csrc/flash_attn/src/flash_fwd_launch_template.h
@@ -10,6 +10,7 @@
 #include "static_switch.h"
 #include "flash.h"
 #include "flash_fwd_kernel.h"
+#include "kernel_traits.h"
 
 template<typename Kernel_traits, bool Is_dropout, bool Is_causal, bool Is_local, bool Has_alibi, bool Is_even_MN, bool Is_even_K, bool Return_softmax>
 __global__ void flash_fwd_kernel(__grid_constant__ const Flash_fwd_params params) {
diff --git a/csrc/flash_attn/src/kernel_traits.h b/csrc/flash_attn/src/kernel_traits.h
@@ -4,11 +4,9 @@
 
 #pragma once
 
-#include "cute/algorithm/copy.hpp"
-
-#include "cutlass/cutlass.h"
-#include "cutlass/layout/layout.h"
-#include <cutlass/numeric_types.h>
+#include "cute/tensor.hpp"
+#include "cute/atom/mma_atom.hpp"
+#include "cute/atom/copy_atom.hpp"
 
 using namespace cute;
 
diff --git a/make_compile_commands.py b/make_compile_commands.py
@@ -0,0 +1,22 @@
+import os, sys
+from subprocess import Popen, PIPE
+import json
+import re
+
+Popen(["cmake", ".", "-B", "build"]).wait()
+with open("build/compile_commands.json", "r") as f:
+    compile_commands = json.load(f)
+
+# --options-file CMakeFiles/flash_attn_2_cuda.dir/includes_CUDA.rsp
+re_options = re.compile(r"--options-file ([A-Za-z0-9/\._]*)")
+
+for command in compile_commands:
+    if re_options.search(command["command"]):
+        m = re_options.search(command["command"])
+        options_file = m.group(1)
+        with open(os.path.join('build', options_file), "r") as f:
+            options = f.read()
+        command["command"] = command["command"].replace(m.group(0), options)
+
+with open("compile_commands.json", "w") as f:
+    json.dump(compile_commands, f, indent=2)
diff --git a/pyproject.toml b/pyproject.toml
@@ -1,5 +1,66 @@
 [build-system]
-requires = ["setuptools", "wheel", "setuptools-cuda-cpp @ git+https://github.com/nshepperd/setuptools-cuda-cpp", "packaging", "pybind11"]
+requires = [
+    "scikit-build-core>=0.8.0",
+    "cmake>=3.18",
+    "ninja>=1.10",
+    "packaging",
+    "psutil",
+    "pybind11>=2.11.0",
+    # "nvidia-cuda-runtime-cu12>=12.0",
+    # "nvidia-cuda-nvrtc-cu12",
+    # "nvidia-nvtx-cu12",
+    "torch>=2.0.0",
+]
+build-backend = "scikit_build_core.build"
+
+[project]
+name = "flash_attn_jax"
+dynamic = ["version"]
+description = "Flash Attention: Fast and Memory-Efficient Exact Attention"
+readme = "README.md"
+requires-python = ">=3.9"
+license = { text = "BSD-3-Clause" }
+authors = [
+    { name = "Tri Dao", email = "tri@tridao.me" },
+    { name = "Emily Shepperd", email = "em@zlkj.in" }
+]
+dependencies = []
+classifiers = [
+    "Programming Language :: Python :: 3",
+    "License :: OSI Approved :: BSD License",
+    "Operating System :: Unix",
+]
+
+[project.urls]
+Homepage = "https://github.com/nshepperd/flash_attn_jax"
+
+[tool.scikit-build]
+wheel.expand-macos-universal-tags = false
+cmake.version = ">=3.26.1"
+ninja.version = ">=1.11"
+build.verbose = true
+cmake.build-type = "Release"
+cmake.args = []
+
+[tool.scikit-build.cmake.define]
+SKBUILD = "ON"
+FLASH_ATTENTION_FORCE_BUILD = { env = "FLASH_ATTENTION_FORCE_BUILD" }
+FLASH_ATTENTION_SKIP_CUDA_BUILD = { env = "FLASH_ATTENTION_SKIP_CUDA_BUILD" }
+FLASH_ATTENTION_FORCE_CXX11_ABI = { env = "FLASH_ATTENTION_FORCE_CXX11_ABI" }
+FLASH_ATTENTION_TRITON_AMD_ENABLE = { env = "FLASH_ATTENTION_TRITON_AMD_ENABLE" }
+FLASH_ATTN_CUDA_ARCHS = { env = "FLASH_ATTN_CUDA_ARCHS" }
+CMAKE_VERBOSE_MAKEFILE = "ON"
+
+[tool.scikit-build.metadata.version]
+provider = "scikit_build_core.metadata.regex"
+input = "src/flash_attn_jax/__init__.py"
 
 [tool.cibuildwheel]
-manylinux-x86_64-image = "sameli/manylinux_2_28_x86_64_cuda_12.3"
+manylinux-x86_64-image = "quay.io/pypa/manylinux_2_28_x86_64:latest"
+before-all = "bash scripts/install-cuda-linux.sh"
+build = "cp312-manylinux_x86_64"
+repair-wheel-command = "auditwheel repair --exclude=libcudart.so* --exclude libtorch.so* -w {dest_dir} {wheel}"
+
+[tool.cibuildwheel.environment]
+PATH="/opt/rh/gcc-toolset-13/root/usr/bin:/usr/local/cuda/bin:$PATH"
+CUDA_HOME="/usr/local/cuda"
diff --git a/scripts/install-cuda-linux.sh b/scripts/install-cuda-linux.sh
@@ -0,0 +1,53 @@
+#!/bin/bash
+set -eux
+
+VER=${1:-12.4}
+VER=${VER//./-}  # Convert version to format used in package names
+
+dnf config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo
+
+# Install GCC 13
+
+dnf -y install gcc-toolset-13
+dnf -y remove gcc-toolset-14-*
+echo ". /opt/rh/gcc-toolset-13/enable" > /etc/profile.d/gcc.sh
+chmod +x /etc/profile.d/gcc.sh
+
+# Create a fake package to stop cuda from stupidly installing gcc-8.5
+
+dnf -y install rpm-build
+
+mkdir -p ~/rpmbuild/{SPECS,RPMS,SOURCES}
+cd ~/rpmbuild
+cat > SPECS/gcc-dummy.spec <<EOF
+Name:           gcc-dummy
+Version:        13
+Release:        1%{?dist}
+Summary:        Dummy package to provide gcc-c++
+License:        MIT
+BuildArch:      noarch
+Provides:       gcc-c++ = 13
+
+%description
+Dummy package that provides gcc-c++ capabilities without actual compiler
+
+%files
+
+%changelog
+* Wed Feb 12 2025 User <user@example.com> - 8.5.0-1
+- Initial package
+EOF
+rpmbuild -bb SPECS/gcc-dummy.spec
+rpm -ivh ~/rpmbuild/RPMS/noarch/gcc-dummy*.rpm --nodeps
+
+# Install CUDA
+
+dnf -y install \
+    cuda-compiler-${VER} \
+    cuda-minimal-build-${VER} \
+    cuda-nvtx-${VER} \
+    cuda-nvrtc-devel-${VER}
+
+    # cuda-libraries-devel-${VER} \
+# dnf clean all
+
diff --git a/setup.py b/setup.py