[Inference] Fix multibatch inference (PaddlePaddle#9831)

DrownFish19 · web-flow · commit 55db2ff06731 · 2025-02-10T11:52:52.000+08:00
* fix batch infra

* fix deepseekv2 infra
diff --git a/llm/predict/predictor.py b/llm/predict/predictor.py
@@ -221,11 +221,17 @@ def _preprocess(self, source):
             source = [source] if isinstance(source, str) else source
             source = [self.tokenizer.apply_chat_template(sentence, tokenize=False) for sentence in source]
 
+        return_position_ids = False
+        return_attention_mask = False
+        if len(source) > 1:
+            return_position_ids = True
+            return_attention_mask = True
         tokenized_source = self.tokenizer(
             source,
             max_length=self.config.src_length,
             truncation=True,
-            return_position_ids=True if not isinstance(self.tokenizer, ChatGLMTokenizer) else False,
+            return_position_ids=True if not isinstance(self.tokenizer, ChatGLMTokenizer) else return_position_ids,
+            return_attention_mask=return_attention_mask,
             truncation_side="left",
             return_tensors=self.return_tensors,
             padding=True,
diff --git a/paddlenlp/transformers/deepseek_v2/modeling.py b/paddlenlp/transformers/deepseek_v2/modeling.py
@@ -1772,7 +1772,6 @@ def prepare_inputs_for_generation(
     ):
         batch_size, seq_length = input_ids.shape
         position_ids = kwargs.get("position_ids", paddle.arange(seq_length).expand((batch_size, seq_length)))
-        attention_mask = kwargs.get("attention_mask", None)
         if past_key_values:
             input_ids = input_ids[:, -1].unsqueeze(axis=-1)
             position_ids = position_ids[:, -1].unsqueeze(-1)
diff --git a/paddlenlp/transformers/qwen2/modeling.py b/paddlenlp/transformers/qwen2/modeling.py
@@ -1493,7 +1493,6 @@ def prepare_inputs_for_generation(
     ):
         batch_size, seq_length = input_ids.shape
         position_ids = kwargs.get("position_ids", paddle.arange(seq_length).expand((batch_size, seq_length)))
-        attention_mask = kwargs.get("attention_mask", None)
         if past_key_values:
             input_ids = input_ids[:, -1].unsqueeze(axis=-1)
             position_ids = position_ids[:, -1].unsqueeze(-1)
diff --git a/paddlenlp/transformers/qwen2_moe/modeling.py b/paddlenlp/transformers/qwen2_moe/modeling.py
@@ -1429,7 +1429,6 @@ def prepare_inputs_for_generation(
     ):
         batch_size, seq_length = input_ids.shape
         position_ids = kwargs.get("position_ids", paddle.arange(seq_length).expand((batch_size, seq_length)))
-        attention_mask = kwargs.get("attention_mask", None)
         if past_key_values:
             input_ids = input_ids[:, -1].unsqueeze(axis=-1)
             position_ids = position_ids[:, -1].unsqueeze(-1)