fix:

wangzaijun · wangzaijun · commit 35ffd5f26eed · 2025-11-25T09:50:29.000Z
diff --git a/lightllm/models/llama/layer_infer/transformer_layer_infer.py b/lightllm/models/llama/layer_infer/transformer_layer_infer.py
@@ -110,15 +110,15 @@ def _bind_attention(self):
             self._context_attention_kernel = partial(
                 LlamaTransformerLayerInfer._context_attention_kernel_ppl_int8kv, self
             )
-        elif "ppl_int8kv_flashdecoding" in self.mode:
+        elif "ppl_int8kv_flashdecoding_diverse" in self.mode:
             self._token_attention_kernel = partial(
                 LlamaTransformerLayerInfer._token_decode_attention_ppl_int8kv_flashdecoding_diverse, self
             )
             self._copy_kv_to_mem_cache = partial(LlamaTransformerLayerInfer._copy_kv_to_mem_cache_ppl_int8kv, self)
             self._context_attention_kernel = partial(
                 LlamaTransformerLayerInfer._context_attention_kernel_ppl_int8kv, self
             )
-        elif "ppl_int8kv_flashdecoding_diverse" in self.mode:
+        elif "ppl_int8kv_flashdecoding" in self.mode:
             self._token_attention_kernel = partial(
                 LlamaTransformerLayerInfer._token_decode_attention_ppl_int8kv_flashdecoding, self
             )

Original file line number	Diff line number	Diff line change
`@@ -110,15 +110,15 @@ def _bind_attention(self):`
`110`	`110`	`self._context_attention_kernel = partial(`
`111`	`111`	`LlamaTransformerLayerInfer._context_attention_kernel_ppl_int8kv, self`
`112`	`112`	`)`
`113`		`- elif "ppl_int8kv_flashdecoding" in self.mode:`
	`113`	`+ elif "ppl_int8kv_flashdecoding_diverse" in self.mode:`
`114`	`114`	`self._token_attention_kernel = partial(`
`115`	`115`	`LlamaTransformerLayerInfer._token_decode_attention_ppl_int8kv_flashdecoding_diverse, self`
`116`	`116`	`)`
`117`	`117`	`self._copy_kv_to_mem_cache = partial(LlamaTransformerLayerInfer._copy_kv_to_mem_cache_ppl_int8kv, self)`
`118`	`118`	`self._context_attention_kernel = partial(`
`119`	`119`	`LlamaTransformerLayerInfer._context_attention_kernel_ppl_int8kv, self`
`120`	`120`	`)`
`121`		`- elif "ppl_int8kv_flashdecoding_diverse" in self.mode:`
	`121`	`+ elif "ppl_int8kv_flashdecoding" in self.mode:`
`122`	`122`	`self._token_attention_kernel = partial(`
`123`	`123`	`LlamaTransformerLayerInfer._token_decode_attention_ppl_int8kv_flashdecoding, self`
`124`	`124`	`)`