[Robert] support 2D attention_mask from tokenizer (#1676)

turkeymz · yingyibiao · web-flow · commit 7b8dd49ad490 · 2022-03-04T10:58:41.000+08:00
* [Robert] support 2D attention_mask from tokenizer

* format code style for yapf

* format code style for yapf

Co-authored-by: yingyibiao &lt;yyb0576@163.com&gt;
diff --git a/paddlenlp/transformers/roberta/modeling.py b/paddlenlp/transformers/roberta/modeling.py
@@ -354,6 +354,12 @@ def forward(self,
                 (input_ids == self.pad_token_id
                  ).astype(self.pooler.dense.weight.dtype) * -1e4,
                 axis=[1, 2])
+        elif attention_mask.ndim == 2:
+            attention_mask = paddle.unsqueeze(
+                attention_mask, axis=[1, 2]).astype(paddle.get_default_dtype())
+            attention_mask = (1.0 - attention_mask) * -1e4
+        attention_mask.stop_gradient = True
+
         embedding_output = self.embeddings(
             input_ids=input_ids,
             position_ids=position_ids,
@@ -679,7 +685,7 @@ def forward(self,
 
                 tokenizer = RobertaTokenizer.from_pretrained('roberta-wwm-ext')
                 model = RobertaForMaskedLM.from_pretrained('roberta-wwm-ext')
-                
+
                 inputs = tokenizer("Welcome to use PaddlePaddle and PaddleNLP!")
                 inputs = {k:paddle.to_tensor([v]) for (k, v) in inputs.items()}
 
@@ -777,7 +783,7 @@ def forward(self,
 
                 tokenizer = RobertaTokenizer.from_pretrained('roberta-wwm-ext')
                 model = RobertaForCausalLM.from_pretrained('roberta-wwm-ext')
-                
+
                 inputs = tokenizer("Welcome to use PaddlePaddle and PaddleNLP!")
                 inputs = {k:paddle.to_tensor([v]) for (k, v) in inputs.items()}