Flash Attention: vectorized query + fix metal wmma load from global memory + fix main compilation (#1069)

louisfd · web-flow · commit 1a885d6d44d5 · 2025-11-25T10:10:47.000-05:00
diff --git a/crates/cubecl-attention/src/components/global/simple/attention.rs b/crates/cubecl-attention/src/components/global/simple/attention.rs
@@ -124,7 +124,7 @@ impl<
     ) -> QueryReader<AP> {
         let layout = AttentionGlobalLayout::new(&query, batch_index, config.query_gmem_config);
 
-        QueryReader::<AP>::new(stage_q_offset, query.view(layout))
+        QueryReader::<AP>::new(stage_q_offset, query.view(layout), config.query_gmem_config)
     }
 
     fn init_key_reader(
diff --git a/crates/cubecl-attention/src/components/global/simple/reader/query.rs b/crates/cubecl-attention/src/components/global/simple/reader/query.rs
@@ -1,30 +1,34 @@
 use crate::components::{AttentionTileSize, attention_types::*};
 use cubecl_core as cubecl;
 use cubecl_core::prelude::*;
-use cubecl_matmul::components::MatrixLayout;
+use cubecl_matmul::components::global::memory::GlobalMemoryConfig;
 use cubecl_matmul::components::tile::StridedTile;
-use cubecl_std::{
-    Swizzle,
-    tensor::{View, layout::Coords2d},
-};
+use cubecl_std::Swizzle;
+use cubecl_std::tensor::{View, layout::Coords2d};
 
 use crate::components::AttentionPrecision;
-use crate::components::stage::{AttentionPartitioner, StageAttentionConfig};
+use crate::components::stage::AttentionPartitioner;
 
 #[derive(CubeType)]
 pub struct QueryReader<AP: AttentionPrecision> {
     query: View<Line<QG<AP>>, Coords2d>,
+    #[cube(comptime)]
+    gmem_config: GlobalMemoryConfig,
 }
 
 #[cube]
 impl<AP: AttentionPrecision> QueryReader<AP> {
-    pub fn new(stage_q_offset: u32, query: View<Line<QG<AP>>, Coords2d>) -> Self {
+    pub fn new(
+        stage_q_offset: u32,
+        query: View<Line<QG<AP>>, Coords2d>,
+        #[comptime] gmem_config: GlobalMemoryConfig,
+    ) -> Self {
         let query = query.slice((stage_q_offset, 0), query.shape());
 
-        QueryReader::<AP> { query }
+        QueryReader::<AP> { query, gmem_config }
     }
 
-    pub fn get_tile<P: AttentionPartitioner, S: StageAttentionConfig>(
+    pub fn get_tile<P: AttentionPartitioner>(
         &self,
         tile: Coords2d,
         #[comptime] attention_tile_size: AttentionTileSize,
@@ -35,22 +39,32 @@ impl<AP: AttentionPrecision> QueryReader<AP> {
 
         let row = row_in_partition + P::seq_q_index() * partition_seq_q;
 
+        let line_size = self.gmem_config.line_size;
+
+        let slice = self
+            .query
+            .slice(
+                (
+                    row * attention_tile_size.seq_q,
+                    col * attention_tile_size.head_dim,
+                ),
+                (attention_tile_size.seq_q, attention_tile_size.head_dim).runtime(),
+            )
+            .to_linear_slice();
+
+        let start = 0;
+        let length = attention_tile_size.seq_q * attention_tile_size.head_dim / line_size;
+        let end = start + length;
+        let stride = partition_head_dim * attention_tile_size.head_dim / line_size;
+
         StridedTile::<QG<AP>>::new_strided(
-            self.query
-                .slice(
-                    (
-                        row * attention_tile_size.seq_q,
-                        col * attention_tile_size.head_dim,
-                    ),
-                    (attention_tile_size.seq_q, attention_tile_size.head_dim).runtime(),
-                )
-                .to_linear_slice(),
-            0,
-            attention_tile_size.seq_q * attention_tile_size.head_dim,
-            partition_head_dim * attention_tile_size.head_dim,
+            slice,
+            start,
+            end,
+            stride,
             Swizzle::none(),
-            MatrixLayout::RowMajor,
-            1u32,
+            self.gmem_config.matrix_layout,
+            line_size,
         )
     }
 }
diff --git a/crates/cubecl-attention/src/components/stage/partition_attention.rs b/crates/cubecl-attention/src/components/stage/partition_attention.rs
@@ -281,7 +281,7 @@ impl<
             #[unroll]
             for hd in 0..partition_head_dim {
                 let tile_to_write = registers.get_at_mut(q, hd, config);
-                let tile_read = reader.get_tile::<P, Self::Config>(
+                let tile_read = reader.get_tile::<P>(
                     (q, hd).runtime(),
                     attention_tile_size,
                     partition_seq_q,
diff --git a/crates/cubecl-attention/src/components/tile/accelerated/attention.rs b/crates/cubecl-attention/src/components/tile/accelerated/attention.rs
@@ -127,7 +127,6 @@ impl<AP: AttentionPrecision> TileAttention<AP> for BlackboxAcceleratedTileAttent
 
     fn load_query<E: Numeric>(tile: &StridedTile<E>, fragment: &mut Self::Query) {
         let (slice, stride) = tile.as_unlined();
-
         cmma::load(fragment, &slice, stride);
     }
 
diff --git a/crates/cubecl-attention/src/components/tile/unit_register/attention.rs b/crates/cubecl-attention/src/components/tile/unit_register/attention.rs
@@ -332,10 +332,19 @@ fn strided_tile_to_unit_tile<E: Numeric, E2: Numeric>(
     strided_tile: &StridedTile<E>,
     unit_tile: &mut UnitTile<E2>,
 ) {
+    let line_size = strided_tile.line_size;
+    assert!(unit_tile.layout.num_cols % line_size == 0);
+
+    let col_iterations = comptime!(unit_tile.layout.num_cols / strided_tile.line_size);
+
     for row in 0..unit_tile.layout.num_rows {
-        for col in 0..unit_tile.layout.num_cols {
-            unit_tile.data[row * unit_tile.layout.num_cols + col] =
-                E2::cast_from(strided_tile.get_line(row, col))
+        for col in 0..col_iterations {
+            let line_read = strided_tile.get_line(row, col);
+            #[unroll]
+            for i in 0..line_size {
+                unit_tile.data[row * unit_tile.layout.num_cols + col * line_size + i] =
+                    E2::cast_from(line_read[i]);
+            }
         }
     }
 }
diff --git a/crates/cubecl-attention/src/kernels/blackbox_accelerated.rs b/crates/cubecl-attention/src/kernels/blackbox_accelerated.rs
@@ -23,9 +23,9 @@ impl Algorithm for BlackboxAcceleratedAlgorithm {
     type GlobalAttention = SimpleGlobalAttentionFamily<Self::StageAttention>;
     type BatchAttention = SimpleBatchAttentionFamily<Self::GlobalAttention>;
 
-    fn filter_line_sizes(_available_line_sizes: AvailableLineSizes) -> AvailableLineSizes {
+    fn filter_line_sizes(available_line_sizes: AvailableLineSizes) -> AvailableLineSizes {
         AvailableLineSizes {
-            query: vec![1],
+            query: available_line_sizes.query,
             key: vec![1],
             value: vec![1],
             mask: vec![1],
diff --git a/crates/cubecl-attention/src/kernels/unit.rs b/crates/cubecl-attention/src/kernels/unit.rs
@@ -23,9 +23,9 @@ impl Algorithm for UnitAlgorithm {
     type GlobalAttention = SimpleGlobalAttentionFamily<Self::StageAttention>;
     type BatchAttention = SimpleBatchAttentionFamily<Self::GlobalAttention>;
 
-    fn filter_line_sizes(_available_line_sizes: AvailableLineSizes) -> AvailableLineSizes {
+    fn filter_line_sizes(available_line_sizes: AvailableLineSizes) -> AvailableLineSizes {
         AvailableLineSizes {
-            query: vec![1],
+            query: available_line_sizes.query,
             key: vec![1],
             value: vec![1],
             mask: vec![1],
diff --git a/crates/cubecl-attention/src/tests/macros/mod.rs b/crates/cubecl-attention/src/tests/macros/mod.rs
@@ -52,7 +52,7 @@ pub fn attention_test_launch<A: Algorithm, R: Runtime>(
         two_rows_in_array_tile: test_options.two_rows_in_array_tile,
     };
 
-    test_attention_algorithm::<A, (f32, f32), R>(client, problem, selection);
+    test_attention_algorithm::<A, (half::f16, half::f16), R>(client, problem, selection);
 }
 
 #[macro_export]
diff --git a/crates/cubecl-cpp/src/metal/dialect.rs b/crates/cubecl-cpp/src/metal/dialect.rs
@@ -1072,10 +1072,19 @@ impl DialectWmmaCompiler<Self> for MslDialect {
                 let item = value.item();
                 if item.vectorization > 1 {
                     let elem = item.elem;
-                    writeln!(
-                        f,
-                        "simdgroup_load({frag}, reinterpret_cast<threadgroup {elem} *>({value} + {offset}), {stride}, 0, {transpose});"
-                    )
+                    match value {
+                        Variable::GlobalInputArray(..) => writeln!(
+                            f,
+                            "simdgroup_load({frag}, (device {elem}*)({value} + {offset}), {stride}, 0, {transpose});"
+                        ),
+                        Variable::SharedMemory(..) => writeln!(
+                            f,
+                            "simdgroup_load({frag}, reinterpret_cast<threadgroup {elem} *>({value} + {offset}), {stride}, 0, {transpose});"
+                        ),
+                        _ => panic!(
+                            "Vectorized wmma load is only supported from global or shared memory."
+                        ),
+                    }
                 } else {
                     writeln!(
                         f,
diff --git a/crates/cubecl-std/src/tests/event.rs b/crates/cubecl-std/src/tests/event.rs
@@ -150,7 +150,7 @@ fn launch_test_3(output: &mut Array<f32>) {
     test_3(output.to_slice_mut());
 }
 
-pub fn event_test_1<R: Runtime>(client: ComputeClient<R::Server>) {
+pub fn event_test_1<R: Runtime>(client: ComputeClient<R>) {
     let output = client.empty(8);
 
     unsafe {
@@ -168,7 +168,7 @@ pub fn event_test_1<R: Runtime>(client: ComputeClient<R::Server>) {
     assert_eq!(actual, &[20.0, 50.0]);
 }
 
-pub fn event_test_2<R: Runtime>(client: ComputeClient<R::Server>) {
+pub fn event_test_2<R: Runtime>(client: ComputeClient<R>) {
     let output = client.empty(8);
 
     unsafe {
@@ -186,7 +186,7 @@ pub fn event_test_2<R: Runtime>(client: ComputeClient<R::Server>) {
     assert_eq!(actual, &[15.0, 30.0]);
 }
 
-pub fn event_test_3<R: Runtime>(client: ComputeClient<R::Server>) {
+pub fn event_test_3<R: Runtime>(client: ComputeClient<R>) {
     let output = client.empty(12);
 
     unsafe {

Original file line number	Diff line number	Diff line change
`@@ -124,7 +124,7 @@ impl<`
`124`	`124`	`) -> QueryReader<AP> {`
`125`	`125`	`let layout = AttentionGlobalLayout::new(&query, batch_index, config.query_gmem_config);`
`126`	`126`
`127`		`- QueryReader::<AP>::new(stage_q_offset, query.view(layout))`
	`127`	`+ QueryReader::<AP>::new(stage_q_offset, query.view(layout), config.query_gmem_config)`
`128`	`128`	`}`
`129`	`129`
`130`	`130`	`fn init_key_reader(`
Original file line number	Diff line number	Diff line change
`@@ -127,7 +127,6 @@ impl<AP: AttentionPrecision> TileAttention<AP> for BlackboxAcceleratedTileAttent`
`127`	`127`
`128`	`128`	`fn load_query<E: Numeric>(tile: &StridedTile<E>, fragment: &mut Self::Query) {`
`129`	`129`	`let (slice, stride) = tile.as_unlined();`
`130`		`-`
`131`	`130`	`cmma::load(fragment, &slice, stride);`
`132`	`131`	`}`
`133`	`132`
Original file line number	Diff line number	Diff line change
`@@ -52,7 +52,7 @@ pub fn attention_test_launch<A: Algorithm, R: Runtime>(`
`52`	`52`	`two_rows_in_array_tile: test_options.two_rows_in_array_tile,`
`53`	`53`	`};`
`54`	`54`
`55`		`- test_attention_algorithm::<A, (f32, f32), R>(client, problem, selection);`
	`55`	`+ test_attention_algorithm::<A, (half::f16, half::f16), R>(client, problem, selection);`
`56`	`56`	`}`
`57`	`57`
`58`	`58`	`#[macro_export]`
Original file line number	Diff line number	Diff line change
`@@ -150,7 +150,7 @@ fn launch_test_3(output: &mut Array<f32>) {`
`150`	`150`	`test_3(output.to_slice_mut());`
`151`	`151`	`}`
`152`	`152`
`153`		`-pub fn event_test_1<R: Runtime>(client: ComputeClient<R::Server>) {`
	`153`	`+pub fn event_test_1<R: Runtime>(client: ComputeClient<R>) {`
`154`	`154`	`let output = client.empty(8);`
`155`	`155`
`156`	`156`	`unsafe {`
`@@ -168,7 +168,7 @@ pub fn event_test_1<R: Runtime>(client: ComputeClient<R::Server>) {`
`168`	`168`	`assert_eq!(actual, &[20.0, 50.0]);`
`169`	`169`	`}`
`170`	`170`
`171`		`-pub fn event_test_2<R: Runtime>(client: ComputeClient<R::Server>) {`
	`171`	`+pub fn event_test_2<R: Runtime>(client: ComputeClient<R>) {`
`172`	`172`	`let output = client.empty(8);`
`173`	`173`
`174`	`174`	`unsafe {`
`@@ -186,7 +186,7 @@ pub fn event_test_2<R: Runtime>(client: ComputeClient<R::Server>) {`
`186`	`186`	`assert_eq!(actual, &[15.0, 30.0]);`
`187`	`187`	`}`
`188`	`188`
`189`		`-pub fn event_test_3<R: Runtime>(client: ComputeClient<R::Server>) {`
	`189`	`+pub fn event_test_3<R: Runtime>(client: ComputeClient<R>) {`
`190`	`190`	`let output = client.empty(12);`
`191`	`191`
`192`	`192`	`unsafe {`