[None][feat] Add fmha_v2 kernel for head_dim=80 and sm=100 to support VLM (#8392)

Wanli-Jiang · web-flow · commit 56f697be2ef3 · 2025-10-17T19:42:47.000+08:00
Signed-off-by: Wanli Jiang &lt;35160485+Wanli-Jiang@users.noreply.github.com&gt;
diff --git a/cpp/kernels/fmha_v2/setup.py b/cpp/kernels/fmha_v2/setup.py
@@ -6379,6 +6379,16 @@ def enumerate_kernels():
                   and kspec.version       == 2
                   and kspec.cross_mha     == False
                   and kspec.flash_attention == False)
+                  # Clip/SigLip support.
+                  or  (kspec.sm           == 100
+                  and kspec.dtype         in ['fp16', 'bf16', 'fp16_fp32', 'e4m3', 'e4m3_fp32']
+                  and kspec.head_size     == 80
+                  and kspec.head_size_v   == 0
+                  and kspec.sage_block_sizes is None
+                  and kspec.version       == 2
+                  and kspec.cross_mha     == False
+                  and kspec.flash_attention == True
+                  and kspec.input_layout != InputLayout.SEPARATE_Q_K_V)
                   # Deepseek MLA (generation 576/512 paged)
                   or (kspec.sm            in [90, 100, 120]
                   and kspec.dtype         in ['bf16', 'e4m3_fp32']
diff --git a/cpp/tensorrt_llm/kernels/fmhaDispatcher.cpp b/cpp/tensorrt_llm/kernels/fmhaDispatcher.cpp
@@ -46,7 +46,10 @@ QkvLayout AttentionInputLayoutToQkvLayout(AttentionInputLayout layout)
 
 FmhaDispatcher::FmhaDispatcher(MHARunnerFixedParams fixedParams)
     : mFixedParams(fixedParams)
-    , mUseTllmGen(tensorrt_llm::common::isSM100Family())
+    // TRTLLM-GEN only supports power of 2 head sizes.
+    // The exception will fall back to fmha v2.
+    // Please update fmha_v2/setup.py if you want to add more supported head sizes.
+    , mUseTllmGen(tensorrt_llm::common::isSM100Family() && fixedParams.headSize != 80)
 {
     if (mUseTllmGen)
     {

Original file line number	Diff line number	Diff line change
`@@ -46,7 +46,10 @@ QkvLayout AttentionInputLayoutToQkvLayout(AttentionInputLayout layout)`
`46`	`46`
`47`	`47`	`FmhaDispatcher::FmhaDispatcher(MHARunnerFixedParams fixedParams)`
`48`	`48`	`: mFixedParams(fixedParams)`
`49`		`- , mUseTllmGen(tensorrt_llm::common::isSM100Family())`
	`49`	`+ // TRTLLM-GEN only supports power of 2 head sizes.`
	`50`	`+ // The exception will fall back to fmha v2.`
	`51`	`+ // Please update fmha_v2/setup.py if you want to add more supported head sizes.`
	`52`	`+ , mUseTllmGen(tensorrt_llm::common::isSM100Family() && fixedParams.headSize != 80)`
`50`	`53`	`{`
`51`	`54`	`if (mUseTllmGen)`
`52`	`55`	`{`