houseroad
diff --git a/‎aten/src/ATen/native/cpu/FlashAttentionKernel.cpp‎
Lines changed: 125 additions & 46 deletions b/‎aten/src/ATen/native/cpu/FlashAttentionKernel.cpp‎
Lines changed: 125 additions & 46 deletions
diff --git a/‎aten/src/ATen/native/native_functions.yaml‎
Lines changed: 11 additions & 2 deletions b/‎aten/src/ATen/native/native_functions.yaml‎
Lines changed: 11 additions & 2 deletions
@@ -138,23 +138,41 @@ inline void fill_stub(scalar_t* data, scalar_t val, int64_t size) {
   }
 }
 
+void reshape_attn_mask_to_4d(
+    Tensor& attn_mask,
+    int64_t batchSize,
+    int64_t num_head,
+    int64_t qSize,
+    int64_t kvSize) {
+  // Support mask shapes:
+  // 2d: ({Q_seq_len, 1}  x {KV_seq_len, 1})
+  // 4d: ({Batch, 1} x {Num_heads, 1} x {Q_seq_len, 1}  x {KV_seq_len, 1})
+  // Guaranteed in check_attn_mask_shape
+  int64_t attn_mask_size_0 = 1;
+  int64_t attn_mask_size_1 = 1;
+  if (attn_mask.dim() == 4) {
+    if (attn_mask.size(0) == batchSize) {
+      attn_mask_size_0 = batchSize;
+    }
+    if (attn_mask.size(1) == num_head) {
+      attn_mask_size_1 = num_head;
+    }
+  }
+  attn_mask = attn_mask
+                .view({attn_mask_size_0, attn_mask_size_1, attn_mask.size(-2), attn_mask.size(-1)})
+                .expand({attn_mask_size_0, attn_mask_size_1, qSize, kvSize});
+}
+
 template <typename scalar_t, int64_t q_split_size, int64_t kv_split_size>
 void cpu_flash_attention(
     const Tensor& output,
     const Tensor& logsumexp,
-    const Tensor& cum_seq_q,
-    const Tensor& cum_seq_k,
-    int64_t& max_q,
-    int64_t& max_k,
-    const Tensor& philox_seed,
-    const Tensor& philox_offset,
-    const Tensor& debug_attn_mask,
     const at::Tensor& q,
     const at::Tensor& k,
     const at::Tensor& v,
     double dropout_p,
     bool is_causal,
-    bool return_debug_mask,
+    c10::optional<Tensor> attn_mask,
     c10::optional<double> scale) {
   // Query (Batch x Num_heads  x Q_seq_len  x Dim_per_head)
   //    -> (Batch x Q_seq_len  x Num_heads  x Dim_per_head)
@@ -181,6 +199,14 @@ void cpu_flash_attention(
   int64_t num_head = query.size(2);
   int64_t headSize = query.size(3);
 
+  bool has_attn_mask = attn_mask.has_value() && attn_mask.value().numel();
+  if (has_attn_mask) {
+    if (is_reduced_type) {
+      attn_mask.value() = attn_mask.value().to(at::kFloat);
+    }
+    reshape_attn_mask_to_4d(attn_mask.value(), batchSize, num_head, qSize, kvSize);
+  }
+
   // Strides
   int64_t qStrideB = query.stride(0);
   int64_t qStrideM = query.stride(1);
@@ -197,6 +223,16 @@ void cpu_flash_attention(
   int64_t lStrideB = logsumexp.stride(0);
   int64_t lStrideM = logsumexp.stride(1);
   int64_t lStrideH = logsumexp.stride(2);
+  int64_t mStrideB =
+      (has_attn_mask && attn_mask.value().size(0) > 1)
+      ? attn_mask.value().stride(0)
+      : 0;
+  int64_t mStrideH =
+      (has_attn_mask && attn_mask.value().size(1) > 1)
+      ? attn_mask.value().stride(1)
+      : 0;
+  int64_t mStrideM =
+      has_attn_mask ? attn_mask.value().stride(2) : 0;
 
   int64_t qSplitSize = q_split_size > qSize ? qSize : q_split_size;
   int64_t kvSplitSize = kv_split_size > kvSize ? kvSize : kv_split_size;
@@ -220,6 +256,9 @@ void cpu_flash_attention(
   scalar_t* q_data = query.data_ptr<scalar_t>();
   scalar_t* k_data = key.data_ptr<scalar_t>();
   scalar_t* v_data = value.data_ptr<scalar_t>();
+  accum_t* mask_data = has_attn_mask
+      ? attn_mask.value().data_ptr<accum_t>()
+      : nullptr;
   scalar_t* out_data = output.data_ptr<scalar_t>();
   accum_t* lse_data = logsumexp.data_ptr<accum_t>();
   accum_t* buf_data = buf.data_ptr<accum_t>();
@@ -275,13 +314,41 @@ void cpu_flash_attention(
                 kvBlockSize - last_col - 1);
           }
         }
+        // Update attention weights with attention mask
+        // And apply scaling factor
+        // qk <- qk * scaling + attn_mask
+        if (has_attn_mask) {
+          for (int64_t row = 0; row < qBlockSize; ++row) {
+            at::vec::map2<accum_t>(
+                [scaling_factor](Vec x, Vec y) {
+                  return x * Vec(scaling_factor) + y;
+                },
+                qk_data + row * kvBlockSize,
+                qk_data + row * kvBlockSize,
+                mask_data + i * mStrideB + j * mStrideH +
+                    (m + row) * mStrideM + n,
+                kvBlockSize);
+          }
+        }
         // Update coefficients with Softmax
         accum_t tmp_max = 0, tmp_sum = 0, sum_old = 0, exp_tmp = 0;
         for (int64_t row = 0; row < qBlockSize; ++row) {
           sum_old = qk_sum_data[row];
-          // scale and max per row
-          _mul_reduce_max_fusion_kernel(qk_data + row * kvBlockSize, scaling_factor, kvBlockSize,
-                qk_data + row * kvBlockSize, tmp_max);
+          if (has_attn_mask) {
+            // max per row
+            tmp_max = at::vec::reduce_all<accum_t>(
+                [](Vec& x, Vec& y) { return at::vec::maximum(x, y); },
+                qk_data + row * kvBlockSize,
+                kvBlockSize);
+          } else {
+            // apply scaling factor and max per row in fusion
+            _mul_reduce_max_fusion_kernel(
+                qk_data + row * kvBlockSize,
+                scaling_factor,
+                kvBlockSize,
+                qk_data + row * kvBlockSize,
+                tmp_max);
+          }
           tmp_max = qk_max_data[row] > tmp_max ? qk_max_data[row] : tmp_max;
           // qk <- exp(qk - max) and sum per row
           tmp_sum = tmp_max;
@@ -354,14 +421,9 @@ void cpu_flash_attention_backward(
     const at::Tensor& value,
     const at::Tensor& out,
     const at::Tensor& logsumexp,
-    const Tensor& cumulative_sequence_length_q,
-    const Tensor& cumulative_sequence_length_k,
-    const int64_t max_seqlen_batch_q,
-    const int64_t max_seqlen_batch_k,
     double dropout_p,
     bool is_causal,
-    const at::Tensor& philox_seed,
-    const at::Tensor& philox_offset,
+    c10::optional<Tensor> attn_mask,
     c10::optional<double> scale) {
   constexpr bool is_reduced_type = is_reduced_floating_point_v<scalar_t>;
   using accum_t = at::opmath_type<scalar_t>;
@@ -381,6 +443,14 @@ void cpu_flash_attention_backward(
   int64_t num_head = query.size(2);
   int64_t headSize = query.size(3);
 
+  bool has_attn_mask = attn_mask.has_value() && attn_mask.value().numel();
+  if (has_attn_mask) {
+    if (is_reduced_type) {
+      attn_mask.value() = attn_mask.value().to(at::kFloat);
+    }
+    reshape_attn_mask_to_4d(attn_mask.value(), batchSize, num_head, qSize, kvSize);
+  }
+
   // Strides
   int64_t qStrideB = query.stride(0);
   int64_t qStrideM = query.stride(1);
@@ -397,6 +467,16 @@ void cpu_flash_attention_backward(
   int64_t lStrideB = logsumexp.stride(0);
   int64_t lStrideM = logsumexp.stride(1);
   int64_t lStrideH = logsumexp.stride(2);
+  int64_t mStrideB =
+      (has_attn_mask && attn_mask.value().size(0) > 1)
+      ? attn_mask.value().stride(0)
+      : 0;
+  int64_t mStrideH =
+      (has_attn_mask && attn_mask.value().size(1) > 1)
+      ? attn_mask.value().stride(1)
+      : 0;
+  int64_t mStrideM =
+      has_attn_mask ? attn_mask.value().stride(2) : 0;
 
   int64_t grad_qStrideB = grad_q.stride(0);
   int64_t grad_qStrideM = grad_q.stride(1);
@@ -440,6 +520,9 @@ void cpu_flash_attention_backward(
   scalar_t* q_data = query.data_ptr<scalar_t>();
   scalar_t* k_data = key.data_ptr<scalar_t>();
   scalar_t* v_data = value.data_ptr<scalar_t>();
+  accum_t* mask_data = has_attn_mask
+      ? attn_mask.value().data_ptr<accum_t>()
+      : nullptr;
   scalar_t* out_data = out.data_ptr<scalar_t>();
   accum_t* lse_data = logsumexp.data_ptr<accum_t>();
   accum_t* buf_data = buf.data_ptr<accum_t>();
@@ -492,6 +575,20 @@ void cpu_flash_attention_backward(
             static_cast<accum_t>(0),
             attn_data,
             kvBlockSize);
+          // attn <- attn + mask
+          if (has_attn_mask) {
+            for (const auto row : c10::irange(qBlockSize)) {
+              at::vec::map2<accum_t>(
+                  [](Vec x, Vec y) {
+                    return x + y;
+                  },
+                  attn_data + row * kvBlockSize,
+                  attn_data + row * kvBlockSize,
+                  mask_data + i * mStrideB + j * mStrideH +
+                      (m + row) * mStrideM + n,
+                  kvBlockSize);
+            }
+          }
           // restore self attention after softmax from logsumexp
           // attn <- exp(attn - normalizer)
           for (const auto row : c10::irange(qBlockSize)) {
@@ -615,38 +712,28 @@ void cpu_flash_attention_backward(
 void flash_attention_kernel_impl(
     const Tensor& output,
     const Tensor& logsumexp,
-    const Tensor& cum_seq_q,
-    const Tensor& cum_seq_k,
-    int64_t& max_q,
-    int64_t& max_k,
-    const Tensor& philox_seed,
-    const Tensor& philox_offset,
-    const Tensor& debug_attn_mask,
     const at::Tensor& query,
     const at::Tensor& key,
     const at::Tensor& value,
     double dropout_p,
     bool is_causal,
-    bool return_debug_mask,
+    c10::optional<Tensor> attn_mask,
     c10::optional<double> scale) {
   auto q_seq_len = query.size(2);
 
   AT_DISPATCH_FLOATING_TYPES_AND(kBFloat16, query.scalar_type(), "flash_attention", [&] {
     if (q_seq_len >= 768) {
       cpu_flash_attention<scalar_t, 256, 512>(
-        output, logsumexp, cum_seq_q, cum_seq_k,
-        max_q, max_k, philox_seed, philox_offset, debug_attn_mask,
-        query, key, value, dropout_p, is_causal, return_debug_mask, scale);
+        output, logsumexp, query, key, value,
+        dropout_p, is_causal, attn_mask, scale);
     } else if (q_seq_len >= 192) {
       cpu_flash_attention<scalar_t, 64, 512>(
-        output, logsumexp, cum_seq_q, cum_seq_k,
-        max_q, max_k, philox_seed, philox_offset, debug_attn_mask,
-        query, key, value, dropout_p, is_causal, return_debug_mask, scale);
+        output, logsumexp, query, key, value,
+        dropout_p, is_causal, attn_mask, scale);
     } else {
       cpu_flash_attention<scalar_t, 32, 512>(
-        output, logsumexp, cum_seq_q, cum_seq_k,
-        max_q, max_k, philox_seed, philox_offset, debug_attn_mask,
-        query, key, value, dropout_p, is_causal, return_debug_mask, scale);
+        output, logsumexp, query, key, value,
+        dropout_p, is_causal, attn_mask, scale);
     }
   });
 }
@@ -661,14 +748,9 @@ void flash_attention_backward_kernel_impl(
     const at::Tensor& value,
     const at::Tensor& out,
     const at::Tensor& logsumexp,
-    const Tensor& cum_seq_q,
-    const Tensor& cum_seq_k,
-    const int64_t max_q,
-    const int64_t max_k,
     double dropout_p,
     bool is_causal,
-    const at::Tensor& philox_seed,
-    const at::Tensor& philox_offset,
+    c10::optional<Tensor> attn_mask,
     c10::optional<double> scale) {
   // make sure grad_out has no zero strides (broadcasted dimensions)
   // since we are going to call gemm next
@@ -681,20 +763,17 @@ void flash_attention_backward_kernel_impl(
       cpu_flash_attention_backward<scalar_t, 256, 512>(
         grad_q, grad_k, grad_v, grad_out_contig,
         query, key, value, out, logsumexp,
-        cum_seq_q, cum_seq_k, max_q, max_k, dropout_p,
-        is_causal, philox_seed, philox_offset, scale);
+        dropout_p, is_causal, attn_mask, scale);
     } else if (q_seq_len >= 192) {
       cpu_flash_attention_backward<scalar_t, 64, 512>(
         grad_q, grad_k, grad_v, grad_out_contig,
         query, key, value, out, logsumexp,
-        cum_seq_q, cum_seq_k, max_q, max_k, dropout_p,
-        is_causal, philox_seed, philox_offset, scale);
+        dropout_p, is_causal, attn_mask, scale);
     } else {
       cpu_flash_attention_backward<scalar_t, 32, 512>(
         grad_q, grad_k, grad_v, grad_out_contig,
         query, key, value, out, logsumexp,
-        cum_seq_q, cum_seq_k, max_q, max_k, dropout_p,
-        is_causal, philox_seed, philox_offset, scale);
+        dropout_p, is_causal, attn_mask, scale);
     }
   });
 }
 
@@ -14476,19 +14476,28 @@
 
 - func: _scaled_dot_product_flash_attention(Tensor query, Tensor key, Tensor value, float dropout_p=0.0, bool is_causal=False, bool return_debug_mask=False, *, float? scale=None) -> (Tensor output, Tensor logsumexp, Tensor cum_seq_q, Tensor cum_seq_k, SymInt max_q, SymInt max_k, Tensor philox_seed, Tensor philox_offset, Tensor debug_attn_mask)
   dispatch:
-    CPU: _scaled_dot_product_flash_attention_cpu
     CUDA: _scaled_dot_product_flash_attention_cuda
     NestedTensorCUDA: _scaled_dot_product_flash_attention_nestedtensor_cuda
   tags: nondeterministic_seeded
 
+- func: _scaled_dot_product_flash_attention_for_cpu(Tensor query, Tensor key, Tensor value, float dropout_p=0.0, bool is_causal=False, *, Tensor? attn_mask=None, float? scale=None) -> (Tensor output, Tensor logsumexp)
+  dispatch:
+    CPU: _scaled_dot_product_flash_attention_cpu
+  tags: nondeterministic_seeded
+
 - func: _scaled_dot_product_flash_attention_backward(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor out, Tensor logsumexp, Tensor cum_seq_q, Tensor cum_seq_k, SymInt max_q, SymInt max_k, float dropout_p, bool is_causal, Tensor philox_seed, Tensor philox_offset, *, float? scale=None) -> (Tensor grad_query, Tensor grad_key, Tensor grad_value)
   device_check: NoCheck
   variants: function
   dispatch:
-    CPU: _scaled_dot_product_flash_attention_backward_cpu
     CUDA: _scaled_dot_product_flash_attention_backward_cuda
     NestedTensorCUDA: _scaled_dot_product_flash_attention_backward_nested
 
+- func: _scaled_dot_product_flash_attention_for_cpu_backward(Tensor grad_out, Tensor query, Tensor key, Tensor value, Tensor out, Tensor logsumexp, float dropout_p, bool is_causal, *, Tensor? attn_mask=None, float? scale=None) -> (Tensor grad_query, Tensor grad_key, Tensor grad_value)
+  device_check: NoCheck
+  variants: function
+  dispatch:
+    CPU: _scaled_dot_product_flash_attention_cpu_backward
+
 - func: _scaled_dot_product_efficient_attention(Tensor query, Tensor key, Tensor value, Tensor? attn_bias, bool compute_log_sumexp, float dropout_p=0.0, bool is_causal=False, *, float? scale=None) -> (Tensor output, Tensor log_sumexp, Tensor philox_seed, Tensor philox_offset)
   dispatch:
     CUDA: _scaled_dot_product_efficient_attention_cuda