PaddlePaddle
diff --git a/‎paddlenlp/transformers/auto/tokenizer.py‎
Lines changed: 2 additions & 1 deletion b/‎paddlenlp/transformers/auto/tokenizer.py‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎paddlenlp/transformers/bert/modeling.py‎
Lines changed: 3 additions & 1 deletion b/‎paddlenlp/transformers/bert/modeling.py‎
Lines changed: 3 additions & 1 deletion
@@ -48,7 +48,8 @@
     ("MBartTokenizer", "mbart"),
     ("MPNetTokenizer", "mpnet"),
     ("NeZhaTokenizer", "nezha"),
-    ("RobertaTokenizer", "roberta"),
+    ("RobertaChineseTokenizer", "roberta"),
+    ("RobertaBPETokenizer", "roberta"),
     ("RoFormerTokenizer", "roformer"),
     ("ReformerTokenizer", "reformer"),
     ("SqueezeBertTokenizer", "squeezebert"),
 
@@ -499,7 +499,9 @@ def forward(self,
         else:
             if attention_mask.ndim == 2:
                 # attention_mask [batch_size, sequence_length] -> [batch_size, 1, 1, sequence_length]
-                attention_mask = attention_mask.unsqueeze(axis=[1, 2])
+                attention_mask = attention_mask.unsqueeze(
+                    axis=[1, 2]).astype(paddle.get_default_dtype())
+                attention_mask = (1.0 - attention_mask) * -1e4
 
         embedding_output = self.embeddings(
             input_ids=input_ids,