Zen LLATTE CoFormer Triton FP8 tune (#4951)

JChunX · facebook-github-bot · commit 217594ffd81c · 2025-09-30T19:48:38.000-07:00
Summary: Pull Request resolved: #4951 X-link: facebookresearch/FBGEMM#1971 Tune these FP8 shapes: ``` m,n,k,context 3072,4096,4096,"call__kernel_matmul_fp8_row_non_persistent_0" 3072,5120,5120,"call__kernel_matmul_fp8_row_non_persistent_2" 3072,10752,5120,"call__kernel_matmul_fp8_row_non_persistent_3" ``` Reviewed By: pranavsharma Differential Revision: D83583235 fbshipit-source-id: 21b68ecbbfa163f39b9b7709ac651944ab74dfdc
diff --git a/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py b/fbgemm_gpu/experimental/gemm/triton_gemm/fp8_gemm.py
@@ -3838,6 +3838,8 @@ def get_full_non_persistent_tuning_space():
     (128, 64, 64, 4, 1, 0, 16, 2, 4, 2),
     (128, 64, 64, 1, 1, 0, 16, 2, 4, 2),
     (256, 128, 128, 1, 1, 2, 16, 1, 8, 2),
+    (128, 256, 128, 2, 1, 2, 16, 2, 4, 1),
+    (256, 128, 64, 2, 1, 2, 16, 1, 4, 2),
 ]
 
 

Original file line number	Diff line number	Diff line change
`@@ -3838,6 +3838,8 @@ def get_full_non_persistent_tuning_space():`
`3838`	`3838`	`(128, 64, 64, 4, 1, 0, 16, 2, 4, 2),`
`3839`	`3839`	`(128, 64, 64, 1, 1, 0, 16, 2, 4, 2),`
`3840`	`3840`	`(256, 128, 128, 1, 1, 2, 16, 1, 8, 2),`
	`3841`	`+ (128, 256, 128, 2, 1, 2, 16, 2, 4, 1),`
	`3842`	`+ (256, 128, 64, 2, 1, 2, 16, 1, 4, 2),`
`3841`	`3843`	`]`
`3842`	`3844`
`3843`	`3845`