Fix tokenizer bug (#893)

smallv0221 · LiuChiachi · FrostML · web-flow · commit 7e098f160e32 · 2021-08-17T14:47:30.000+08:00
* fix unified transformer dtype problem

* fix win dtype bug

* Fix plato-2 and plato-mini dtype bug

* Fix plato-2 tokenization

* Refine some doc

* Add general k support for topk sampling

* fix seed

* minor fix

* Fix unitransformer readme

* topk kernel optimization

* add unimo model and fix generate api

* add 3 datasets for unimo-text

* fix tokenizer bug

Co-authored-by: Jiaqi Liu &lt;liujiaqi06@baidu.com&gt;
Co-authored-by: liu zhengxi &lt;380185688@qq.com&gt;
diff --git a/paddlenlp/transformers/unimo/tokenizer.py b/paddlenlp/transformers/unimo/tokenizer.py
@@ -75,7 +75,7 @@ class UNIMOTokenizer(PretrainedTokenizer):
             "unimo-text-1.0":
             "https://paddlenlp.bj.bcebos.com/models/transformers/unimo/unimo-text-1.0-vocab.txt",
             "unimo-text-1.0-large":
-            "https://paddlenlp.bj.bcebos.com/models/transformers/unimo/unimo-text-1.0-vocab-large.txt",
+            "https://paddlenlp.bj.bcebos.com/models/transformers/unimo/unimo-text-1.0-large-vocab.txt",
         }
     }
     pretrained_init_configuration = {

Original file line number	Diff line number	Diff line change
`@@ -75,7 +75,7 @@ class UNIMOTokenizer(PretrainedTokenizer):`
`75`	`75`	`"unimo-text-1.0":`
`76`	`76`	`"https://paddlenlp.bj.bcebos.com/models/transformers/unimo/unimo-text-1.0-vocab.txt",`
`77`	`77`	`"unimo-text-1.0-large":`
`78`		`- "https://paddlenlp.bj.bcebos.com/models/transformers/unimo/unimo-text-1.0-vocab-large.txt",`
	`78`	`+ "https://paddlenlp.bj.bcebos.com/models/transformers/unimo/unimo-text-1.0-large-vocab.txt",`
`79`	`79`	`}`
`80`	`80`	`}`
`81`	`81`	`pretrained_init_configuration = {`