liuliu
diff --git a/‎AGENTS.md‎
Lines changed: 17 additions & 0 deletions b/‎AGENTS.md‎
Lines changed: 17 additions & 0 deletions
diff --git a/‎bin/mfa/makefile‎
Lines changed: 15 additions & 2 deletions b/‎bin/mfa/makefile‎
Lines changed: 15 additions & 2 deletions
diff --git a/‎bin/mfa/na_int8_attention_bench.cpp‎
Lines changed: 8 additions & 8 deletions b/‎bin/mfa/na_int8_attention_bench.cpp‎
Lines changed: 8 additions & 8 deletions
diff --git a/‎lib/nnc/cmd/scaled_dot_product_attention/mps/ccv_nnc_scaled_dot_product_attention_mps.m‎
Lines changed: 1 addition & 1 deletion b/‎lib/nnc/cmd/scaled_dot_product_attention/mps/ccv_nnc_scaled_dot_product_attention_mps.m‎
Lines changed: 1 addition & 1 deletion
@@ -174,3 +174,20 @@ git checkout -- lib/nnc/cmd/ccv_nnc_cmd.inc lib/nnc/cmd/ccv_nnc_cmd.h lib/nnc/cm
     - temporarily force `use_neural_accelerators = 1` in `ccv_nnc_conv_mps.m`;
     - run `./mpsdnn.tests "mfa conv3d"` from `test/int/nnc`;
     - revert the force after validation so production code uses `ccv_nnc_mfa_has_neural_accelerators(context)`.
+- `NAInt8Attention` backward `dS` fallback note:
+  - Earlier exploration suggested `dS -> half` might be a fallback worth keeping in mind, but on the current shipped `D=128` fixed-quant setup it is not a win.
+  - Rechecked on `4096 x 4096 x 128` with the current selector:
+    - fixed-quant `dS`: forward median `4.0495 ms`, backward median `21.8308 ms`, ratio `5.3910x`
+    - `dS -> half`: forward median `4.0552 ms`, backward median `23.0083 ms`, ratio `5.6737x`
+  - Takeaway:
+    - on the current `NAInt8Attention` backward path, `dS -> half` regresses relative to fixed-quant `dS`
+    - do not treat it as the preferred fallback without reworking the kernel again
+- `NAInt8Attention` backward fixed-quant selector note:
+  - For the shipping `D=128` low-precision backward path, the safe production rule is:
+    - query: `blockR=16`, `blockC=32`, `blockD=32`, `executionSIMDGroups=4`
+    - key/value: `blockR=16`, `blockC=64`, `blockD=64`, `executionSIMDGroups=16`
+  - Trust the backward absolute times more than any single reported ratio; forward medians on the probe can move enough to make one-off ratios look too optimistic.
+  - Reliable current probe numbers are in this range:
+    - `4096 x 4096 x 128`: backward median about `21-23 ms`, typically around `5.2x-5.6x`
+    - `8192 x 8192 x 128`: backward median about `82-87 ms`, typically around `5.2x-5.4x`
+  - Wider key/value traversal (`blockC=96`) can benchmark slightly faster in the probe but is not accuracy-safe on the real gradient test surface; keep `blockC=64` in production.
@@ -3,7 +3,7 @@ include ../../lib/config.mk
 CFLAGS := -std=c++17 -O0 -g -Wall -I"../.." -I"../../lib" $(CFLAGS)
 LDFLAGS := $(LDFLAGS) -framework QuartzCore
 
-TARGETS = gemm_scaffold na_gemm_splitk_bench na_int8_attention_bench na_attention_backward_bench na_int8_matmul_bench dump_na_attention_source conv3d_layout_scaffold implicit_conv3d_scaffold gemm_kernel_introspect implicit_conv3d_bench conv3d_kernel_bench conv3d_branch_validate
+TARGETS = gemm_scaffold na_gemm_splitk_bench na_int8_attention_bench na_int8_attention_backward_probe na_attention_backward_bench na_int8_matmul_bench dump_na_attention_source dump_na_int8_attention_source conv3d_layout_scaffold implicit_conv3d_scaffold gemm_kernel_introspect implicit_conv3d_bench conv3d_kernel_bench conv3d_branch_validate
 
 COMMON_OBJS = \
 	Metal.local.o \
@@ -45,7 +45,7 @@ NA_BASELINE_ATTENTION_OBJS = \
 all: $(TARGETS)
 
 clean:
-	rm -f dump_na_source.o dump_na_attention_source.o gemm_scaffold.o na_gemm_splitk_bench.o na_int8_attention_bench.o na_attention_backward_bench.o na_int8_matmul_bench.o conv3d_layout_scaffold.o implicit_conv3d_scaffold.o gemm_kernel_introspect.o implicit_conv3d_bench.o conv3d_kernel_bench.o conv3d_branch_validate.o $(COMMON_OBJS) $(NA_GEMM_OBJS) $(NA_CONV_OBJS) $(NA_ATTENTION_OBJS) $(NA_BASELINE_ATTENTION_OBJS) $(TARGETS) dump_na_source
+	rm -f dump_na_source.o dump_na_attention_source.o dump_na_int8_attention_source.o gemm_scaffold.o na_gemm_splitk_bench.o na_int8_attention_bench.o na_int8_attention_backward_probe.o na_attention_backward_bench.o na_int8_matmul_bench.o conv3d_layout_scaffold.o implicit_conv3d_scaffold.o gemm_kernel_introspect.o implicit_conv3d_bench.o conv3d_kernel_bench.o conv3d_branch_validate.o $(COMMON_OBJS) $(NA_GEMM_OBJS) $(NA_CONV_OBJS) $(NA_ATTENTION_OBJS) $(NA_BASELINE_ATTENTION_OBJS) $(TARGETS) dump_na_source
 
 gemm_scaffold: gemm_scaffold.o $(COMMON_OBJS)
 	$(CC) -o $@ $^ $(LDFLAGS)
@@ -54,6 +54,8 @@ na_gemm_splitk_bench: na_gemm_splitk_bench.o $(COMMON_OBJS) $(NA_GEMM_OBJS)
 	$(CC) -o $@ $^ $(LDFLAGS)
 na_int8_attention_bench: na_int8_attention_bench.o $(COMMON_OBJS) $(NA_ATTENTION_OBJS) $(NA_BASELINE_ATTENTION_OBJS)
 	$(CC) -o $@ $^ $(LDFLAGS)
+na_int8_attention_backward_probe: na_int8_attention_backward_probe.o $(COMMON_OBJS) $(NA_ATTENTION_OBJS)
+	$(CC) -o $@ $^ $(LDFLAGS)
 na_attention_backward_bench: na_attention_backward_bench.o $(COMMON_OBJS) $(NA_BASELINE_ATTENTION_OBJS)
 	$(CC) -o $@ $^ $(LDFLAGS)
 na_int8_matmul_bench: na_int8_matmul_bench.o $(COMMON_OBJS) $(NA_GEMM_OBJS)
@@ -65,6 +67,9 @@ dump_na_source: dump_na_source.o $(COMMON_OBJS) NAMatMulKernelDescriptor.local.o
 dump_na_attention_source: dump_na_attention_source.o $(COMMON_OBJS) NAAttentionKernelDescriptor.local.o NAAttentionKernel.local.o NAAttentionDescriptor.local.o
 	$(CC) -o $@ $^ $(LDFLAGS)
 
+dump_na_int8_attention_source: dump_na_int8_attention_source.o $(COMMON_OBJS) NAInt8AttentionKernelDescriptor.local.o NAInt8AttentionKernel.local.o NAInt8AttentionDescriptor.local.o
+	$(CC) -o $@ $^ $(LDFLAGS)
+
 conv3d_layout_scaffold: conv3d_layout_scaffold.o $(COMMON_OBJS)
 	$(CC) -o $@ $^ $(LDFLAGS)
 
@@ -90,6 +95,8 @@ na_gemm_splitk_bench.o: na_gemm_splitk_bench.cpp
 	$(CC) $< -o $@ -c $(CFLAGS)
 na_int8_attention_bench.o: na_int8_attention_bench.cpp
 	$(CC) $< -o $@ -c $(CFLAGS)
+na_int8_attention_backward_probe.o: na_int8_attention_backward_probe.cpp
+	$(CC) $< -o $@ -c $(subst -std=c++17,-std=gnu++17,$(CFLAGS))
 na_attention_backward_bench.o: na_attention_backward_bench.cpp
 	$(CC) $< -o $@ -c $(CFLAGS)
 na_int8_matmul_bench.o: na_int8_matmul_bench.cpp
@@ -101,6 +108,9 @@ dump_na_source.o: dump_na_source.cpp
 dump_na_attention_source.o: dump_na_attention_source.cpp
 	$(CC) $< -o $@ -c $(CFLAGS)
 
+dump_na_int8_attention_source.o: dump_na_int8_attention_source.cpp
+	$(CC) $< -o $@ -c $(CFLAGS)
+
 conv3d_layout_scaffold.o: conv3d_layout_scaffold.cpp
 	$(CC) $< -o $@ -c $(CFLAGS)
 
@@ -173,6 +183,9 @@ NAInt8AttentionKernelDescriptor.local.o: ../../lib/nnc/mfa/kernels/NAInt8Attenti
 NAInt8AttentionKernel.local.o: ../../lib/nnc/mfa/kernels/NAInt8AttentionKernel.cpp
 	$(CC) $< -o $@ -c $(CFLAGS)
 
+NAInt8AttentionDescriptor.local.o: ../../lib/nnc/mfa/kernels/NAInt8AttentionDescriptor.cpp
+	$(CC) $< -o $@ -c $(CFLAGS)
+
 NAAttentionKernelDescriptor.local.o: ../../lib/nnc/mfa/kernels/NAAttentionKernelDescriptor.cpp
 	$(CC) $< -o $@ -c $(CFLAGS)
 
 
@@ -1834,10 +1834,10 @@ double run_quantize_and_int8_once(
     encoder->setBuffer(v_int8_buffer, 0, 2);
     encoder->setBuffer(o_buffer, 0, 3);
     encoder->setBuffer(l_buffer, 0, 4);
-    encoder->setBuffer(q_scale_buffer, 0, 5);
-    encoder->setBuffer(k_scale_buffer, 0, 6);
-    encoder->setBuffer(v_scale_buffer, 0, 7);
-    encoder->setBuffer(v_mean_buffer, 0, 8);
+    encoder->setBuffer(q_scale_buffer, 0, 10);
+    encoder->setBuffer(k_scale_buffer, 0, 11);
+    encoder->setBuffer(v_scale_buffer, 0, 12);
+    encoder->setBuffer(v_mean_buffer, 0, 14);
     encoder->dispatchThreadgroups(
         bundle.kernel->threadgroupsPerGrid(attention.batch, attention.R),
         MTL::Size(bundle.kernel->threadgroupSize(bundle.pipeline.get()), 1, 1));
@@ -2122,10 +2122,10 @@ double run_int8_once(
   encoder->setBuffer(v_buffer, 0, 2);
   encoder->setBuffer(o_buffer, 0, 3);
   encoder->setBuffer(l_buffer, 0, 4);
-  encoder->setBuffer(q_scale_buffer, 0, 5);
-  encoder->setBuffer(k_scale_buffer, 0, 6);
-  encoder->setBuffer(v_scale_buffer, 0, 7);
-  encoder->setBuffer(v_mean_buffer, 0, 8);
+  encoder->setBuffer(q_scale_buffer, 0, 10);
+  encoder->setBuffer(k_scale_buffer, 0, 11);
+  encoder->setBuffer(v_scale_buffer, 0, 12);
+  encoder->setBuffer(v_mean_buffer, 0, 14);
   encoder->dispatchThreadgroups(
       bundle.kernel->threadgroupsPerGrid(attention.batch, attention.R),
       MTL::Size(bundle.kernel->threadgroupSize(bundle.pipeline.get()), 1, 1));
 
@@ -612,7 +612,7 @@ static int _ccv_nnc_scaled_dot_product_attention_back(const ccv_nnc_cmd_t cmd, c
 				.masked = 0,
 				.upcast = !is_downcast,
 				.use_neural_accelerators = !(ccv_nnc_flags() & CCV_NNC_DISABLE_MFA_NEURAL_ACCELERATORS) && ccv_nnc_mfa_has_neural_accelerators(context) && (mtl_data_type != 121 || ccv_nnc_mfa_neural_accelerators_support_bfloat(context)),
-				.use_quantized_attention = 0,
+				.use_quantized_attention = (cmd.info.scaled_dot_product_attention.flags & CCV_NNC_GEMM_8I) != 0,
 
 				.batch_dims_q = { 0 },
 				.batch_dims_mask = { 0 },