Restrict size_per_head in GPT to use FT. (#1441)

guoshengCS · web-flow · commit 40f39fd06536 · 2021-12-10T21:04:00.000+08:00
* Restrict size_per_head to use FT.

* Fix GPT chinese detokenizing for FasterGPT samples.
diff --git a/examples/language_model/gpt/faster_gpt/infer.py b/examples/language_model/gpt/faster_gpt/infer.py
@@ -124,7 +124,7 @@ def do_predict(args):
         paddle.fluid.core._cuda_synchronize(place)
         logger.info("Average test time for decoding is %f ms" % (
             (time.time() - start) / 50 * 1000))
-        output_sequence = out_seq.numpy()
+        output_sequence = out_seq.numpy().tolist()
     for i in range(args.batch_size):
         print("========== Sample-%d ==========" % i)
         print(tokenizer.convert_ids_to_string(output_sequence[i]))
diff --git a/paddlenlp/ops/faster_transformer/sample/gpt_sample.py b/paddlenlp/ops/faster_transformer/sample/gpt_sample.py
@@ -130,7 +130,7 @@ def do_predict(args):
         paddle.device.cuda.synchronize(place)
         logger.info("Average test time for decoding is %f ms" % (
             (time.time() - start) / 50 * 1000))
-        output_sequence = out_seq.numpy()
+        output_sequence = out_seq.numpy().tolist()
     for i in range(args.batch_size):
         print("========== Sample-%d ==========" % i)
         print(tokenizer.convert_ids_to_string(output_sequence[i]))
diff --git a/paddlenlp/transformers/gpt/modeling.py b/paddlenlp/transformers/gpt/modeling.py
@@ -1127,6 +1127,13 @@ def prepare_faster_entry(self, kwargs):
             raise AttributeError(
                 "'beam_search' is not supported yet in the faster version of GPT"
             )
+        # Currently, FasterTransformer only support restricted size_per_head.
+        size_per_head = self.gpt.config["hidden_size"] // self.gpt.config[
+            "num_attention_heads"]
+        if size_per_head not in [32, 64, 128]:
+            raise AttributeError(
+                "'size_per_head = %d' is not supported yet in the faster version of GPT"
+                % size_per_head)
         self._faster_entry = FasterGPT(
             self, use_fp16_decoding=use_fp16_decoding).forward
         return self._faster_entry