fix roberta tokenizer (#1798)

smallv0221 · web-flow · commit 87f342c3df25 · 2022-03-18T22:53:24.000+08:00
diff --git a/paddlenlp/transformers/roberta/tokenizer.py b/paddlenlp/transformers/roberta/tokenizer.py
@@ -176,6 +176,9 @@ def __init__(self,
                 "and 'merges_file' to construct an roberta BPE tokenizer."
                 "Specify 'vocal_file' for Chinese tokenizer")
 
+    def __getattr__(self, name):
+        return self.tokenizer.__getattr__(name)
+
     @property
     def vocab_size(self):
         """
@@ -324,6 +327,9 @@ def build_inputs_with_special_tokens(self, token_ids_0, token_ids_1=None):
         return self.tokenizer.build_inputs_with_special_tokens(
             token_ids_0, token_ids_1=token_ids_1)
 
+    def _convert_token_to_id(self, token):
+        return self.tokenizer._convert_token_to_id(token)
+
     def build_offset_mapping_with_special_tokens(self,
                                                  offset_mapping_0,
                                                  offset_mapping_1=None):
diff --git a/paddlenlp/transformers/tokenizer_utils.py b/paddlenlp/transformers/tokenizer_utils.py
@@ -1702,8 +1702,8 @@ def get_input_ids(text):
 
             else:
                 encoded_inputs = self.encode(
-                    first_ids,
-                    second_ids,
+                    text,
+                    text_pair,
                     max_seq_len=max_seq_len,
                     pad_to_max_seq_len=pad_to_max_seq_len,
                     truncation_strategy=truncation_strategy,