[Arc][LLM] fix qwen greedy search on Arc (#4166)

guanbaoy · web-flow · commit b3ec2e8d204d · 2024-04-24T11:26:45.000+08:00
* fix qwen on Arc
diff --git a/intel_extension_for_pytorch/transformers/models/xpu/optimize_transformers/modules/transformer_modules/model_utils.py b/intel_extension_for_pytorch/transformers/models/xpu/optimize_transformers/modules/transformer_modules/model_utils.py
@@ -133,7 +133,10 @@ def qwen_sdp(self, query, key, value, attention_mask, head_mask, alibi):
                 attention_mask.logical_not(), torch.finfo(query.dtype).min
             )
     if not ipex._C._has_2d_block_array(0):
-        return self.naive_sdp(query, key, value, attention_mask, head_mask, alibi)
+        attn_output, attn_weight = self.naive_sdp(query, key, value, attention_mask, head_mask, alibi)
+        if not self.is_beam_search():
+            attn_output = attn_output.permute(1, 0, 2)
+        return attn_output, attn_weight
     key, value, key_prompt, value_prompt = self.sdp_kv_preprocess(key, value)
     (
         dropout,

Original file line number	Diff line number	Diff line change
`@@ -133,7 +133,10 @@ def qwen_sdp(self, query, key, value, attention_mask, head_mask, alibi):`
`133`	`133`	`attention_mask.logical_not(), torch.finfo(query.dtype).min`
`134`	`134`	`)`
`135`	`135`	`if not ipex._C._has_2d_block_array(0):`
`136`		`- return self.naive_sdp(query, key, value, attention_mask, head_mask, alibi)`
	`136`	`+ attn_output, attn_weight = self.naive_sdp(query, key, value, attention_mask, head_mask, alibi)`
	`137`	`+ if not self.is_beam_search():`
	`138`	`+ attn_output = attn_output.permute(1, 0, 2)`
	`139`	`+ return attn_output, attn_weight`
`137`	`140`	`key, value, key_prompt, value_prompt = self.sdp_kv_preprocess(key, value)`
`138`	`141`	`(`
`139`	`142`	`dropout,`