PaddlePaddle
diff --git a/‎examples/information_extraction/waybill_ie/data/dev.txt‎
Lines changed: 0 additions & 201 deletions b/‎examples/information_extraction/waybill_ie/data/dev.txt‎
Lines changed: 0 additions & 201 deletions
diff --git a/‎examples/information_extraction/waybill_ie/data/test.txt‎
Lines changed: 0 additions & 201 deletions b/‎examples/information_extraction/waybill_ie/data/test.txt‎
Lines changed: 0 additions & 201 deletions
diff --git a/‎examples/information_extraction/waybill_ie/data/train.txt‎
Lines changed: 0 additions & 1601 deletions b/‎examples/information_extraction/waybill_ie/data/train.txt‎
Lines changed: 0 additions & 1601 deletions
diff --git a/‎examples/information_extraction/waybill_ie/run_bigru_crf.py‎
Lines changed: 28 additions & 11 deletions b/‎examples/information_extraction/waybill_ie/run_bigru_crf.py‎
Lines changed: 28 additions & 11 deletions
diff --git a/‎examples/information_extraction/waybill_ie/run_ernie_crf.py‎
Lines changed: 25 additions & 9 deletions b/‎examples/information_extraction/waybill_ie/run_ernie_crf.py‎
Lines changed: 25 additions & 9 deletions
diff --git a/‎paddlenlp/ops/CMakeLists.txt‎
Lines changed: 31 additions & 3 deletions b/‎paddlenlp/ops/CMakeLists.txt‎
Lines changed: 31 additions & 3 deletions
diff --git a/‎paddlenlp/ops/faster_transformer/src/demo/gpt.cc‎
Lines changed: 0 additions & 8 deletions b/‎paddlenlp/ops/faster_transformer/src/demo/gpt.cc‎
Lines changed: 0 additions & 8 deletions
@@ -12,6 +12,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import argparse
+import os
 from functools import partial
 
 import paddle
@@ -26,6 +28,18 @@
 from data import load_dict, load_dataset, parse_decodes
 from model import BiGRUWithCRF
 
+parser = argparse.ArgumentParser()
+
+# yapf: disable
+parser.add_argument("--save_dir", default='./bigru_crf_ckpt', type=str, help="The output directory where the model checkpoints will be written.")
+parser.add_argument("--epochs", default=10, type=int, help="Total number of training epochs to perform.")
+parser.add_argument("--batch_size", default=200, type=int, help="Batch size per GPU/CPU for training.")
+parser.add_argument("--device", default="gpu", type=str, choices=["cpu", "gpu"] ,help="The device to select to train the model, is must be cpu/gpu.")
+parser.add_argument("--data_dir", default='./waybill_ie/data', type=str, help="The folder where the dataset is located.")
+
+args = parser.parse_args()
+# yapf: enable
+
 
 def convert_tokens_to_ids(tokens, vocab, oov_token=None):
     token_ids = []
@@ -71,14 +85,16 @@ def predict(model, data_loader, ds, label_vocab):
 
 
 if __name__ == '__main__':
-    paddle.set_device('gpu')
+    paddle.set_device(args.device)
 
     # Create dataset, tokenizer and dataloader.
-    train_ds, dev_ds, test_ds = load_dataset(datafiles=(
-        './data/train.txt', './data/dev.txt', './data/test.txt'))
+    train_ds, dev_ds, test_ds = load_dataset(
+        datafiles=(os.path.join(args.data_dir, 'train.txt'),
+                   os.path.join(args.data_dir, 'dev.txt'),
+                   os.path.join(args.data_dir, 'test.txt')))
 
-    label_vocab = load_dict('./data/tag.dic')
-    word_vocab = load_dict('./data/word.dic')
+    label_vocab = load_dict(os.path.join(args.data_dir, 'tag.dic'))
+    word_vocab = load_dict(os.path.join(args.data_dir, 'word.dic'))
 
     trans_func = partial(
         convert_to_features, word_vocab=word_vocab, label_vocab=label_vocab)
@@ -94,22 +110,22 @@ def predict(model, data_loader, ds, label_vocab):
 
     train_loader = paddle.io.DataLoader(
         dataset=train_ds,
-        batch_size=200,
+        batch_size=args.batch_size,
         shuffle=True,
         drop_last=True,
         return_list=True,
         collate_fn=batchify_fn)
 
     dev_loader = paddle.io.DataLoader(
         dataset=dev_ds,
-        batch_size=200,
+        batch_size=args.batch_size,
         drop_last=True,
         return_list=True,
         collate_fn=batchify_fn)
 
     test_loader = paddle.io.DataLoader(
         dataset=test_ds,
-        batch_size=200,
+        batch_size=args.batch_size,
         drop_last=True,
         return_list=True,
         collate_fn=batchify_fn)
@@ -122,7 +138,7 @@ def predict(model, data_loader, ds, label_vocab):
     metric = ChunkEvaluator(label_list=label_vocab.keys(), suffix=True)
 
     step = 0
-    for epoch in range(10):
+    for epoch in range(args.epochs):
         for token_ids, lengths, label_ids in train_loader:
             loss = model(token_ids, lengths, label_ids)
             loss = loss.mean()
@@ -132,10 +148,11 @@ def predict(model, data_loader, ds, label_vocab):
             step += 1
             print("[TRAIN] Epoch:%d - Step:%d - Loss: %f" % (epoch, step, loss))
         evaluate(model, metric, dev_loader)
-        paddle.save(model.state_dict(), './ernie_ckpt/model_%d.pdparams' % step)
+        paddle.save(model.state_dict(),
+                    os.path.join(args.save_dir, 'model_%d' % step))
 
     preds = predict(model, test_loader, test_ds, label_vocab)
-    file_path = "ernie_results.txt"
+    file_path = "bigru_crf_results.txt"
     with open(file_path, "w", encoding="utf8") as fout:
         fout.write("\n".join(preds))
     # Print some examples
 
@@ -12,6 +12,8 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
+import argparse
+import os
 from functools import partial
 
 import paddle
@@ -22,6 +24,18 @@
 from model import ErnieCrfForTokenClassification
 from data import load_dict, load_dataset, parse_decodes
 
+parser = argparse.ArgumentParser()
+
+# yapf: disable
+parser.add_argument("--save_dir", default='./ernie_crf_ckpt', type=str, help="The output directory where the model checkpoints will be written.")
+parser.add_argument("--epochs", default=10, type=int, help="Total number of training epochs to perform.")
+parser.add_argument("--batch_size", default=200, type=int, help="Batch size per GPU/CPU for training.")
+parser.add_argument("--device", default="gpu", type=str, choices=["cpu", "gpu"] ,help="The device to select to train the model, is must be cpu/gpu.")
+parser.add_argument("--data_dir", default='./waybill_ie/data', type=str, help="The folder where the dataset is located.")
+
+args = parser.parse_args()
+# yapf: enable
+
 
 def convert_to_features(example, tokenizer, label_vocab):
     tokens, labels = example
@@ -64,13 +78,15 @@ def predict(model, data_loader, ds, label_vocab):
 
 
 if __name__ == '__main__':
-    paddle.set_device('gpu')
+    paddle.set_device(args.device)
 
     # Create dataset, tokenizer and dataloader.
-    train_ds, dev_ds, test_ds = load_dataset(datafiles=(
-        './data/train.txt', './data/dev.txt', './data/test.txt'))
+    train_ds, dev_ds, test_ds = load_dataset(
+        datafiles=(os.path.join(args.data_dir, 'train.txt'),
+                   os.path.join(args.data_dir, 'dev.txt'),
+                   os.path.join(args.data_dir, 'test.txt')))
 
-    label_vocab = load_dict('./data/tag.dic')
+    label_vocab = load_dict(os.path.join(args.data_dir, 'tag.dic'))
     tokenizer = ErnieTokenizer.from_pretrained('ernie-1.0')
 
     trans_func = partial(
@@ -89,17 +105,17 @@ def predict(model, data_loader, ds, label_vocab):
 
     train_loader = paddle.io.DataLoader(
         dataset=train_ds,
-        batch_size=200,
+        batch_size=args.batch_size,
         return_list=True,
         collate_fn=batchify_fn)
     dev_loader = paddle.io.DataLoader(
         dataset=dev_ds,
-        batch_size=200,
+        batch_size=args.batch_size,
         return_list=True,
         collate_fn=batchify_fn)
     test_loader = paddle.io.DataLoader(
         dataset=test_ds,
-        batch_size=200,
+        batch_size=args.batch_size,
         return_list=True,
         collate_fn=batchify_fn)
 
@@ -113,7 +129,7 @@ def predict(model, data_loader, ds, label_vocab):
         learning_rate=2e-5, parameters=model.parameters())
 
     step = 0
-    for epoch in range(10):
+    for epoch in range(args.epochs):
         for input_ids, token_type_ids, lengths, labels in train_loader:
             loss = model(
                 input_ids, token_type_ids, lengths=lengths, labels=labels)
@@ -127,7 +143,7 @@ def predict(model, data_loader, ds, label_vocab):
         evaluate(model, metric, dev_loader)
 
         paddle.save(model.state_dict(),
-                    './ernie_crf_ckpt/model_%d.pdparams' % step)
+                    os.path.join(args.save_dir, 'model_%d' % step))
 
     preds = predict(model, test_loader, test_ds, label_vocab)
     file_path = "ernie_crf_results.txt"
 
@@ -25,6 +25,7 @@ option(WITH_GPU         "Compile with GPU/CPU, default use CPU."
 option(USE_TENSORRT     "Compile with TensorRT."                                  OFF)
 option(WITH_TRANSFORMER "Compile with Transformer"                                ON)
 option(WITH_GPT         "Compile with GPT"                                        OFF)
+option(WITH_UNIFIED         "Compile with Unified Transformer"                        ON)
 
 if(NOT WITH_GPU)
   message(FATAL_ERROR "Faster transformer custom op doesn't support CPU. Please add the flag -DWITH_GPU=ON to use GPU. ")
@@ -38,6 +39,10 @@ if(WITH_GPT)
   list(APPEND decoding_op_files fusion_gpt_op.cc fusion_gpt_op.cu)
 endif()
 
+if(WITH_UNIFIED)
+  list(APPEND decoding_op_files fusion_unified_decoding_op.cc fusion_unified_decoding_op.cu)
+endif()
+
 if(NOT WITH_TRANSFORMER AND NOT WITH_GPT)
   message(FATAL_ERROR "-DWITH_TRANSFORMER=ON or/and -DWITH_GPT=ON must be set to use FasterTransformer. ")
 endif()
@@ -124,15 +129,38 @@ file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/cuda/topk_kernel
 file(TO_NATIVE_PATH ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/fastertransformer/cuda/topk_kernels.cu topk_kernels_dst)
 
 file(TO_NATIVE_PATH ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/fastertransformer/cuda/open_decoder.cu open_decoder_cu_dst)
-file(TO_NATIVE_PATH ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/fastertransformer/open_decoder.h open_decoder_header_dst)
+file(TO_NATIVE_PATH ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/fastertransformer/open_decoder.h open_decoder_h_dst)
+
+file(TO_NATIVE_PATH ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/fastertransformer/cuda/cuda_kernels.h cuda_kernels_h_dst)
+file(TO_NATIVE_PATH ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/fastertransformer/cuda/decoding_kernels.cu decoding_kernels_cu_dst)
 
 file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/cuda/transformer_decoder.cu trans_decoder_cu_src)
-file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/transformer_decoder.h trans_decoder_header_src)
+file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/transformer_decoder.h trans_decoder_h_src)
+
+file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/cuda/transformer_cuda_kernels.h cuda_kernels_h_src)
+file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/cuda/transformer_decoding_kernels.cu decoding_kernels_cu_src)
+
+file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/transformer_beamsearch.h beamsearch_h_src)
+file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/transformer_sampling.h sampling_h_src)
+file(TO_NATIVE_PATH ${OPS_SOURCE_DIR}/patches/FasterTransformer/arguments.h arguments_h_src)
 set(trans_dst ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/fastertransformer/)
 
 # TODO(guosheng): `find` seems meeting errors missing argument to `-exec', fix it
 set(MUTE_COMMAND grep -rl "printf(\"\\[WARNING\\]" ${CMAKE_BINARY_DIR}/${THIRD_PATH}/source/${THIRD_PARTY_NAME}/ | xargs -i{} sed -i "s/printf(\"\\WWARNING\\W decoding[^)]\\{1,\\})/ /" {})
-set(FT_PATCH_COMMAND cp ${allocator_src} ${allocator_dst} && cp ${common_src} ${common_dst} && cp ${cmakelists_src} ${cmakelists_dst} && cp ${topk_kernels_src} ${topk_kernels_dst} && cat ${trans_decoder_cu_src} >> ${open_decoder_cu_dst} && cat ${trans_decoder_header_src} >> ${open_decoder_header_dst} && ${MUTE_COMMAND})
+set(FT_PATCH_COMMAND
+  cp ${allocator_src} ${allocator_dst}
+  && cp ${common_src} ${common_dst}
+  && cp ${cmakelists_src} ${cmakelists_dst}
+  && cp ${topk_kernels_src} ${topk_kernels_dst}
+  && cp ${beamsearch_h_src} ${trans_dst}
+  && cp ${sampling_h_src} ${trans_dst}
+  && cp ${arguments_h_src} ${trans_dst}
+  && cat ${trans_decoder_cu_src} >> ${open_decoder_cu_dst}
+  && cat ${trans_decoder_h_src} >> ${open_decoder_h_dst}
+  && cat ${cuda_kernels_h_src} >> ${cuda_kernels_h_dst}
+  && cat ${decoding_kernels_cu_src} >> ${decoding_kernels_cu_dst}
+  && ${MUTE_COMMAND}
+)
 
 ######################################################################################
 # A function for automatic detection of GPUs installed  (if autodetection is enabled)
 
@@ -84,7 +84,6 @@ bool get_result_tensor(const std::unique_ptr<paddle_infer::Tensor>& seq_ids,
 
     for (int i = 0; i < tmp_result_q.length(); ++i) {
       char32_t tmp = tmp_result_q[i];
-      // std::cout << tmp << std::endl;
       if (byte_decoder.find(tmp) != byte_decoder.end()) {
         dataresultvec[bsz].result_q = dataresultvec[bsz].result_q +
                                       static_cast<wchar_t>(byte_decoder[tmp]);
@@ -126,13 +125,6 @@ std::unordered_map<char32_t, int> convert_unicode() {
     }
   }
 
-  // std::wstring_convert<std::codecvt_utf8<char32_t>, char32_t> conv32;
-  // for (int i=0; i<256; ++i) {
-  //   std::cout << "=====" << std::endl;
-  //   std::cout << conv32.to_bytes(cs[i]) << std::endl;
-  //   std::cout << bs[i] << std::endl;
-  // }
-
   return ret;
 }
Original file line number	Diff line number	Diff line change
`@@ -84,7 +84,6 @@ bool get_result_tensor(const std::unique_ptr<paddle_infer::Tensor>& seq_ids,`
`84`	`84`
`85`	`85`	`for (int i = 0; i < tmp_result_q.length(); ++i) {`
`86`	`86`	`char32_t tmp = tmp_result_q[i];`
`87`		`- // std::cout << tmp << std::endl;`
`88`	`87`	`if (byte_decoder.find(tmp) != byte_decoder.end()) {`
`89`	`88`	`dataresultvec[bsz].result_q = dataresultvec[bsz].result_q +`
`90`	`89`	`static_cast<wchar_t>(byte_decoder[tmp]);`
`@@ -126,13 +125,6 @@ std::unordered_map<char32_t, int> convert_unicode() {`
`126`	`125`	`}`
`127`	`126`	`}`
`128`	`127`
`129`		`- // std::wstring_convert<std::codecvt_utf8<char32_t>, char32_t> conv32;`
`130`		`- // for (int i=0; i<256; ++i) {`
`131`		`- // std::cout << "=====" << std::endl;`
`132`		`- // std::cout << conv32.to_bytes(cs[i]) << std::endl;`
`133`		`- // std::cout << bs[i] << std::endl;`
`134`		`- // }`
`135`		`-`
`136`	`128`	`return ret;`
`137`	`129`	`}`
`138`	`130`