Add origin generate api speed comparison (PaddlePaddle#1047)

smallv0221 · FrostML · web-flow · commit 2cf80b9a83b3 · 2021-09-17T17:07:27.000+08:00
* add origan generate api speed comparision

* add speed example

* minor fix

Co-authored-by: liu zhengxi &lt;380185688@qq.com&gt;
diff --git a/examples/language_model/gpt/faster_gpt/infer.py b/examples/language_model/gpt/faster_gpt/infer.py
@@ -126,13 +126,37 @@ def do_predict(args):
                 start = time.time()
             out_seq = gpt(input_ids)
         paddle.fluid.core._cuda_synchronize(place)
-        logger.info("Average test time for decoding is %f ms" % (
+        logger.info("Average test time for fast decoding is %f ms" % (
             (time.time() - start) / 50 * 1000))
         output_sequence = out_seq.numpy().transpose()
     for i in range(args.batch_size):
         print("========== Sample-%d ==========" % i)
         print(tokenizer.convert_ids_to_string(output_sequence[i][1:]))
 
+    input_ids = paddle.cast(input_ids, "int64")
+    with paddle.no_grad():
+        for i in range(100):
+            # For warmup. 
+            if 50 == i:
+                paddle.fluid.core._cuda_synchronize(place)
+                start = time.time()
+            out_seq, _ = model.generate(
+                input_ids=input_ids,
+                max_length=args.max_out_len,
+                decode_strategy="sampling",
+                temperature=args.temperature,
+                top_k=args.topk,
+                top_p=1.0,
+                num_return_sequences=1)
+        paddle.fluid.core._cuda_synchronize(place)
+        logger.info(
+            "Average test time for origin generate api decoding is %f ms" % (
+                (time.time() - start) / 50 * 1000))
+        output_sequence = out_seq.numpy()
+    for i in range(args.batch_size):
+        print("========== Sample-%d ==========" % i)
+        print(tokenizer.convert_ids_to_string(output_sequence[i][1:]))
+
 
 if __name__ == "__main__":
     args = parse_args()