refine gpt (#3447)

FrostML · web-flow · commit db1f9919c3c9 · 2022-10-12T22:13:40.000+08:00
diff --git a/paddlenlp/transformers/gpt/modeling.py b/paddlenlp/transformers/gpt/modeling.py
@@ -1182,7 +1182,7 @@ def prepare_inputs_for_generation(self,
         # only last token for inputs_ids if cache is defined in kwargs
         position_ids = kwargs.get("position_ids", None)
         attention_mask = kwargs.get("attention_mask", None)
-        if attention_mask is not None and len(attention_mask.shape) == 4:
+        if attention_mask is not None and attention_mask.ndim == 4:
             attention_mask = attention_mask[:, -1:, -1:, :]
         if cache is not None:
             input_ids = input_ids[:, -1].unsqueeze(-1)
diff --git a/tests/transformers/gpt/test_modeling.py b/tests/transformers/gpt/test_modeling.py
@@ -593,6 +593,7 @@ def test_lm_generate_gpt(self):
     def test_gpt_sample(self):
         tokenizer = GPTTokenizer.from_pretrained("gpt2-en")
         model = GPTLMHeadModel.from_pretrained("gpt2-en")
+        model.eval()
 
         paddle.seed(128)
         np.random.seed(128)
@@ -631,6 +632,7 @@ def test_gpt_sample_max_time(self):
         # NOTE: duration changed sharply and can not be limit in a range for now.
         tokenizer = GPTTokenizer.from_pretrained("gpt2-en")
         model = GPTLMHeadModel.from_pretrained("gpt2-en")
+        model.eval()
 
         paddle.seed(0)
         np.random.seed(0)