Fixed BPE initialization for gpt-2 model (#3331)

Anna Grebneva · web-flow · commit fb2dc8d86a23 · 2022-03-03T17:25:58.000+03:00
diff --git a/demos/gpt2_text_prediction_demo/python/gpt2_text_prediction_demo.py b/demos/gpt2_text_prediction_demo/python/gpt2_text_prediction_demo.py
@@ -70,7 +70,7 @@ def main():
     log.debug("Loaded vocab file from {}, get {} tokens".format(args.vocab, len(vocab)))
 
     # create tokenizer
-    tokenizer = Tokenizer(BPE(str(args.vocab), str(args.merges)))
+    tokenizer = Tokenizer(BPE.from_file(str(args.vocab), str(args.merges)))
     tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)
     tokenizer.decoder = decoders.ByteLevel()
 
diff --git a/tools/accuracy_checker/openvino/tools/accuracy_checker/annotation_converters/wikitext2raw.py b/tools/accuracy_checker/openvino/tools/accuracy_checker/annotation_converters/wikitext2raw.py
@@ -57,7 +57,7 @@ def configure(self):
         self.vocab_file = self.get_value_from_config('vocab_file')
         self.merges_file = self.get_value_from_config('merges_file')
         self.max_seq_length = int(self.get_value_from_config('max_seq_length'))
-        self.tokenizer = Tokenizer(BPE(str(self.vocab_file), str(self.merges_file)))
+        self.tokenizer = Tokenizer(BPE.from_file(str(self.vocab_file), str(self.merges_file)))
         self.tokenizer.pre_tokenizer = pre_tokenizers.ByteLevel(add_prefix_space=False)
         self.tokenizer.decoder = decoders.ByteLevel()