topk kernel optimization (#811)

smallv0221 · FrostML · web-flow · commit b6a7f8f03cc5 · 2021-07-29T10:33:09.000+08:00
* topk kernel memory optimization

Co-authored-by: liu zhengxi &lt;380185688@qq.com&gt;
diff --git a/paddlenlp/ops/patches/FasterTransformer/cuda/topk_kernels.cu b/paddlenlp/ops/patches/FasterTransformer/cuda/topk_kernels.cu
@@ -604,8 +604,7 @@ void topK_sampling_kernel_kernelLauncher(void* workspace,
 
   int topk_tmp_ids_buf_size =
       args.batch_size_ * args.candidate_num_;  // type int
-  int temp_log_probs_buf_size =
-      args.batch_size_ * args.candidate_num_ * vocab_size;
+  int temp_log_probs_buf_size = args.batch_size_ * vocab_size;
   int topk_tmp_val_buf_size = args.batch_size_ * args.candidate_num_;  // type T
 
   temp_log_probs_buf_size = (int)(ceil(temp_log_probs_buf_size / 4.)) * 4;