Fix docs and constrains for FasterGeneration (#1471)

smallv0221 · web-flow · commit 4e59ce02126e · 2021-12-16T21:23:19.000+08:00
* update perf

* fix doc and constrains for FasterGeneration

* update readme
diff --git a/README.md b/README.md
@@ -12,9 +12,8 @@
 ![GitHub](https://img.shields.io/github/license/paddlepaddle/paddlenlp)
 
 ## News  <img src="./docs/imgs/news_icon.png" width="40"/>
-* [2021-10-12] PaddleNLP 2.1版本已发布！新增开箱即用的NLP任务能力、Prompt Tuning应用示例与生成任务的高性能推理！:tada:更多详细升级信息请查看[Release Note](https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v2.1.0)。
-* [2021-09-16][《千言-问题匹配鲁棒性评测》](https://www.datafountain.cn/competitions/516)正式开赛啦🔥🔥🔥，欢迎大家踊跃报名!! [官方基线地址](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_matching/question_matching)。
-* [2021-08-22][《千言：面向事实一致性的生成评测比赛》](https://aistudio.baidu.com/aistudio/competition/detail/105)正式开赛啦🔥🔥🔥，欢迎大家踊跃报名!! [官方基线地址](https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_generation/unimo-text)。
+* [2021-12-12] PaddleNLP 2.2版本已发布！新增预训练加速训推一体开发FasterERNIE、面向生成任务的高性能加速组件FasterGeneration正式推出！:tada:更多详细升级信息请查看[Release Note](https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v2.1.0)。
+* [2021-10-12] PaddleNLP 2.1版本已发布！新增开箱即用的NLP任务能力、Prompt Tuning应用示例与生成任务的高性能推理！:tada:更多详细升级信息请查看[Release Note](https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v2.2.0)。
 
 
 ## 简介
diff --git a/README_en.md b/README_en.md
@@ -13,6 +13,7 @@ English | [简体中文](./README.md)
 
 ## News  <img src="./docs/imgs/news_icon.png" width="40"/>
 
+* [2021-12-12] PaddleNLP 2.2 has been officially relealsed! :tada: For more information please refer to [Release Note](https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v2.2.0).
 * [2021-10-12] PaddleNLP 2.1 has been officially relealsed! :tada: For more information please refer to [Release Note](https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v2.1.0).
 
 ## Introduction
diff --git a/paddlenlp/transformers/bart/modeling.py b/paddlenlp/transformers/bart/modeling.py
@@ -767,6 +767,16 @@ def prepare_faster_entry(self, kwargs):
             raise AttributeError(
                     "Only topk sampling or topp sampling are supported. " \
                     "Topk sampling and topp sampling cannot be both applied in the faster version.")
+        if kwargs['repetition_penalty'] != 1.0:
+            # not support for repetition_penalty yet in the faster version
+            raise AttributeError(
+                "'repetition_penalty != 1' is not supported yet in the faster version"
+            )
+        if kwargs['forced_bos_token_id'] is not None:
+            # not support for min_length yet in the faster version
+            raise AttributeError(
+                "'forced_bos_token_id != None' is not supported yet in the faster version"
+            )
         self._faster_entry = FasterBART(
             self, use_fp16_decoding=use_fp16_decoding).forward
         return self._faster_entry
diff --git a/paddlenlp/transformers/generation_utils.py b/paddlenlp/transformers/generation_utils.py
@@ -501,11 +501,6 @@ def _build_faster(self, kwargs):
             # not support for min_length yet in the faster version
             raise AttributeError(
                 "'min_length != 0' is not supported yet in the faster version")
-        if kwargs['repetition_penalty'] != 1.0:
-            # not support for repetition_penalty yet in the faster version
-            raise AttributeError(
-                "'repetition_penalty != 1' is not supported yet in the faster version"
-            )
         if kwargs['num_beam_groups'] != 1:
             # not support for group_beam_search yet in the faster version
             raise AttributeError(
@@ -537,6 +532,7 @@ def generate(self,
                  diversity_rate=0.0,
                  use_cache=True,
                  use_faster=False,
+                 use_fp16_decoding=False,
                  **model_kwargs):
         r"""
         The interface for generation task. This method can generate sequences 
@@ -605,7 +601,9 @@ def generate(self,
             use_cache: (bool, optional): Whether to use the model cache to 
                 speed up decoding. Default to True.
             use_faster: (bool, optional): Whether to use faster entry of model 
-                for generation. Default to False.
+                for FasterGeneration. Default to False.
+            use_fp16_decoding: (bool, optional): Whether to use fp16 for decoding. 
+                Only works when faster entry is avalible. Default to False.
             model_kwargs (dict): It can be used to specify additional kwargs 
                 passed to the model.
 
diff --git a/paddlenlp/transformers/gpt/modeling.py b/paddlenlp/transformers/gpt/modeling.py
@@ -1134,6 +1134,11 @@ def prepare_faster_entry(self, kwargs):
             raise AttributeError(
                 "'size_per_head = %d' is not supported yet in the faster version of GPT"
                 % size_per_head)
+        if kwargs['forced_bos_token_id'] is not None:
+            # not support for min_length yet in the faster version
+            raise AttributeError(
+                "'forced_bos_token_id != None' is not supported yet in the faster version"
+            )
         self._faster_entry = FasterGPT(
             self, use_fp16_decoding=use_fp16_decoding).forward
         return self._faster_entry
diff --git a/paddlenlp/transformers/mbart/modeling.py b/paddlenlp/transformers/mbart/modeling.py
@@ -846,6 +846,11 @@ def prepare_faster_entry(self, kwargs):
             raise AttributeError(
                     "Only topk sampling or topp sampling are supported. " \
                     "Topk sampling and topp sampling cannot be both applied in the faster version.")
+        if kwargs['repetition_penalty'] != 1.0:
+            # not support for repetition_penalty yet in the faster version
+            raise AttributeError(
+                "'repetition_penalty != 1' is not supported yet in the faster version"
+            )
         self._faster_entry = FasterMBART(
             self, use_fp16_decoding=use_fp16_decoding).forward
         return self._faster_entry
diff --git a/paddlenlp/transformers/unified_transformer/modeling.py b/paddlenlp/transformers/unified_transformer/modeling.py
@@ -485,6 +485,16 @@ def prepare_faster_entry(self, kwargs):
             raise AttributeError(
                     "Only topk sampling or topp sampling are supported. " \
                     "Topk sampling and topp sampling cannot be both applied in the faster version.")
+        if kwargs['repetition_penalty'] != 1.0:
+            # not support for repetition_penalty yet in the faster version
+            raise AttributeError(
+                "'repetition_penalty != 1' is not supported yet in the faster version"
+            )
+        if kwargs['forced_bos_token_id'] is not None:
+            # not support for min_length yet in the faster version
+            raise AttributeError(
+                "'forced_bos_token_id != None' is not supported yet in the faster version"
+            )
         self._faster_entry = FasterUnifiedTransformer(
             self, use_fp16_decoding=use_fp16_decoding).forward
         return self._faster_entry
diff --git a/paddlenlp/transformers/unimo/modeling.py b/paddlenlp/transformers/unimo/modeling.py
@@ -482,6 +482,16 @@ def prepare_faster_entry(self, kwargs):
             raise AttributeError(
                     "Only topk sampling or topp sampling are supported. " \
                     "Topk sampling and topp sampling cannot be both applied in the faster version.")
+        if kwargs['repetition_penalty'] != 1.0:
+            # not support for repetition_penalty yet in the faster version
+            raise AttributeError(
+                "'repetition_penalty != 1' is not supported yet in the faster version"
+            )
+        if kwargs['forced_bos_token_id'] is not None:
+            # not support for min_length yet in the faster version
+            raise AttributeError(
+                "'forced_bos_token_id != None' is not supported yet in the faster version"
+            )
         self._faster_entry = FasterUNIMOText(
             self, use_fp16_decoding=use_fp16_decoding).forward
         return self._faster_entry