Paddle2ONNX deploy script (#2149)

yeliang2258 · web-flow · commit f21829c4be6f · 2022-05-16T00:23:43.000+08:00
* add paddle2onnx deploy script

* update doc

* update doc

* simplify

* update doc

* revert doc

* update doc

* update paddle2onnx doc

* update outer doc

* update paddle2onnx doc

* remove requirments in doc

* update paddle2onnx doc

* update

* paddle2onnx doc
diff --git a/model_zoo/ernie-3.0/README.md b/model_zoo/ernie-3.0/README.md
@@ -17,6 +17,8 @@
            * [Python部署指南](#Python部署指南)
        * [服务化部署](#服务化部署)
            * [环境依赖](#环境依赖)
+       * [Paddle2ONNX 部署](#Paddle2ONNX部署)
+           * [ONNX导出及ONNXRuntime部署](#ONNX导出及ONNXRuntime部署)
 
 
 
@@ -415,6 +417,9 @@ TBD
 │   └── token_cls_rpc_client.py  
 │   └── token_cls_service.py  
 │   └── token_cls_config.yml  
+│ └── paddle2onnx
+│   └── ernie_predictor.py  
+│   └── infer.py
 └── README.md                    # 文档，本文件
 
 ```
@@ -599,6 +604,10 @@ TBD
 <a name="部署"></a>
 
 ## 部署
+我们为ERNIE 3.0提供了多种部署方案，可以满足不同场景下的部署需求，请根据实际情况进行选择。  
+<p align="center">
+        <img width="700" alt="image" src="https://user-images.githubusercontent.com/30516196/168466069-e8162235-2f06-4a2d-b78f-d9afd437c620.png">
+</p>
 
 <a name="Python部署"></a>
 
@@ -613,7 +622,12 @@ Python部署请参考：[Python部署指南](./deploy/python/README.md)
 ### 服务化部署
 TBD
 
+<a name="Paddle2ONNX部署"></a>
+
+### Paddle2ONNX 部署
 
+<a name="ONNX导出及ONNXRuntime部署"></a>
+ONNX导出及ONNXRuntime部署请参考：[ONNX导出及ONNXRuntime部署指南](./deploy/paddle2onnx/README.md)  
 ## Reference
 
 * Sun Y, Wang S, Feng S, et al. ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation[J]. arXiv preprint arXiv:2107.02137, 2021.
diff --git a/model_zoo/ernie-3.0/deploy/paddle2onnx/README.md b/model_zoo/ernie-3.0/deploy/paddle2onnx/README.md
@@ -0,0 +1,105 @@
+# ERNIE 3.0 ONNX导出及部署指南
+本文介绍ERNIE 3.0 模型模型如何转化为ONNX模型，并基于ONNXRuntime引擎部署，本文将以命名实体识别和分类两大场景作为介绍示例。
+- [ERNIE 3.0 ONNX导出及部署指南](#ERNIE3.0ONNX导出及部署指南)
+  - [1. 环境准备](#1-环境准备)
+  - [2. 命名实体识别模型推理](#2-命名实体识别模型推理)
+    - [2.1 模型获取](#21-模型获取)
+    - [2.2 模型转换](#22-模型转换)
+    - [2.3 ONNXRuntime推理样例](#23-ONNXRuntime推理样例)
+  - [3. 分类模型推理](#3-分类模型推理)
+    - [3.1 模型获取](#31-模型获取)
+    - [3.2 模型转换](#32-模型转换)
+    - [3.3 ONNXRuntime推理样例](#33-ONNXRuntime推理样例)
+## 1. 环境准备
+ERNIE 3.0模型转换与ONNXRuntime预测部署依赖Paddle2ONNX和ONNXRuntime，Paddle2ONNX支持将Paddle模型转化为ONNX模型格式，算子目前稳定支持导出ONNX Opset 7~15，更多细节可参考:[Paddle2ONNX](https://github.com/PaddlePaddle/Paddle2ONNX)  
+如果基于CPU部署，请使用如下命令安装所需依赖:  
+```
+python -m pip install onnxruntime
+```
+如果基于GPU部署，请先确保机器已正确安装NVIDIA相关驱动和基础软件，确保CUDA >= 11.2，CuDNN >= 8.2，并使用以下命令安装所需依赖:  
+```
+python -m pip install onnxruntime-gpu
+```
+
+## 2. 命名实体识别模型推理
+### 2.1 模型获取
+用户可使用自己训练的模型进行推理，具体训练调优方法可参考[模型训练调优](./../../README.md#微调)，也可以使用我们提供的msra_ner数据集训练的ERNIE 3.0模型，请执行如下命令获取模型：
+```
+# 获取命名实体识别FP32模型
+wget https://paddlenlp.bj.bcebos.com/models/transformers/ernie_3.0/msra_ner_pruned_infer_model.zip
+unzip msra_ner_pruned_infer_model.zip
+```
+### 2.2 模型转换
+使用Paddle2ONNX将Paddle静态图模型转换为ONNX模型格式的命令如下，以下命令成功运行后，将会在当前目录下生成ner_model.onnx模型文件。
+```
+paddle2onnx --model_dir msra_ner_pruned_infer_model/ --model_filename float32.pdmodel --params_filename float32.pdiparams --save_file ner_model.onnx --opset_version 13 --enable_onnx_checker True
+```
+Paddle2ONNX的命令行参数说明请查阅：[Paddle2ONNX命令行参数说明](https://github.com/PaddlePaddle/Paddle2ONNX)
+
+### 2.3 ONNXRuntime推理样例
+请使用如下命令进行部署
+```
+python infer.py --task_name token_cls --model_path ner_model.onnx
+```
+输出打印如下:
+```
+input data: 北京的涮肉，重庆的火锅，成都的小吃都是极具特色的美食。
+The model detects all entities:
+entity: 北京   label: LOC   pos: [0, 1]
+entity: 重庆   label: LOC   pos: [6, 7]
+entity: 成都   label: LOC   pos: [12, 13]
+-----------------------------
+input data: 乔丹、科比、詹姆斯和姚明都是篮球界的标志性人物。
+The model detects all entities:
+entity: 乔丹   label: PER   pos: [0, 1]
+entity: 科比   label: PER   pos: [3, 4]
+entity: 詹姆斯   label: PER   pos: [6, 8]
+entity: 姚明   label: PER   pos: [10, 11]
+-----------------------------
+```
+infer.py脚本中的参数说明：
+| 参数 |参数说明 |
+|----------|--------------|
+|--task_name | 配置任务名称，可选seq_cls和token_cls，默认为seq_cls|
+|--model_name_or_path | 模型的路径或者名字，默认为ernie-3.0-medium-zh|
+|--model_path | 用于推理的ONNX模型的路径|
+|--max_seq_length |最大序列长度，默认为128|
+
+## 3. 分类模型推理
+### 3.1 模型获取
+用户可使用自己训练的模型进行推理，具体训练调优方法可参考[模型训练调优](./../../README.md#微调)，也可以使用我们提供的tnews数据集训练的ERNIE 3.0模型，请执行如下命令获取模型：
+```
+# 分类模型模型：
+wget  https://paddlenlp.bj.bcebos.com/models/transformers/ernie_3.0/tnews_pruned_infer_model.zip
+unzip tnews_pruned_infer_model.zip
+```
+### 3.2 模型转换
+使用Paddle2ONNX将Paddle静态图模型转换为ONNX模型格式的命令如下，以下命令成功运行后，将会在当前目录下生成tnews_model.onnx模型文件。
+```
+paddle2onnx --model_dir tnews_pruned_infer_model/ --model_filename float32.pdmodel --params_filename float32.pdiparams --save_file tnews_model.onnx --opset_version 13 --enable_onnx_checker True
+```
+Paddle2ONNX的命令行参数说明请查阅：[Paddle2ONNX命令行参数说明](https://github.com/PaddlePaddle/Paddle2ONNX)
+
+### 3.3 ONNXRuntime推理样例
+请使用如下命令进行部署
+```
+python infer.py --task_name seq_cls --model_path tnews_model.onnx
+```
+输出打印如下:
+```
+input data: 未来自动驾驶真的会让酒驾和疲劳驾驶成历史吗？
+seq cls result:
+label: news_car   confidence: 0.554353654384613
+-----------------------------
+input data: 黄磊接受华少快问快答，不光智商逆天，情商也不逊黄渤
+seq cls result:
+label: news_entertainment   confidence: 0.9495906829833984
+-----------------------------
+```
+infer.py脚本中的参数说明：
+| 参数 |参数说明 |
+|----------|--------------|
+|--task_name | 配置任务名称，可选seq_cls和token_cls，默认为seq_cls|
+|--model_name_or_path | 模型的路径或者名字，默认为ernie-3.0-medium-zh|
+|--model_path | 用于推理的ONNX模型的路径|
+|--max_seq_length |最大序列长度，默认为128|
diff --git a/model_zoo/ernie-3.0/deploy/paddle2onnx/ernie_predictor.py b/model_zoo/ernie-3.0/deploy/paddle2onnx/ernie_predictor.py
@@ -0,0 +1,184 @@
+# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import six
+import os
+import numpy as np
+import paddle
+import onnxruntime as ort
+from paddlenlp.transformers import AutoTokenizer
+
+
+class InferBackend(object):
+    def __init__(self, model_path):
+        print(">>> [InferBackend] Creating Engine ...")
+        providers = ['CUDAExecutionProvider']
+        sess_options = ort.SessionOptions()
+        self.predictor = ort.InferenceSession(
+            model_path, sess_options=sess_options, providers=providers)
+        if "CUDAExecutionProvider" in self.predictor.get_providers():
+            print(">>> [InferBackend] Use GPU to inference ...")
+        else:
+            print(">>> [InferBackend] Use CPU to inference ...")
+        input_name1 = self.predictor.get_inputs()[1].name
+        input_name2 = self.predictor.get_inputs()[0].name
+        self.input_handles = [input_name1, input_name2]
+        print(">>> [InferBackend] Engine Created ...")
+
+    def infer(self, input_dict: dict):
+        result = self.predictor.run(None, input_dict)
+        return result
+
+
+def token_cls_print_ret(infer_result, input_datas):
+    rets = infer_result["value"]
+    for i, ret in enumerate(rets):
+        print("input data:", input_datas[i])
+        print("The model detects all entities:")
+        for iterm in ret:
+            print("entity:", iterm["entity"], "  label:", iterm["label"],
+                  "  pos:", iterm["pos"])
+        print("-----------------------------")
+
+
+def seq_cls_print_ret(infer_result, input_datas):
+    label_list = [
+        "news_story", "news_culture", "news_entertainment", "news_sports",
+        "news_finance", "news_house", "news_car", "news_edu", "news_tech",
+        "news_military", "news_travel", "news_world", "news_stock",
+        "news_agriculture", "news_game"
+    ]
+    label = infer_result["label"].squeeze().tolist()
+    confidence = infer_result["confidence"].squeeze().tolist()
+    for i, ret in enumerate(infer_result):
+        print("input data:", input_datas[i])
+        print("seq cls result:")
+        print("label:", label_list[label[i]], "  confidence:", confidence[i])
+        print("-----------------------------")
+
+
+class ErniePredictor(object):
+    def __init__(self, args):
+        self.task_name = args.task_name
+        self.tokenizer = AutoTokenizer.from_pretrained(args.model_name_or_path)
+        if args.task_name == 'seq_cls':
+            self.label_names = []
+            self.preprocess = self.seq_cls_preprocess
+            self.postprocess = self.seq_cls_postprocess
+            self.printer = seq_cls_print_ret
+        elif args.task_name == 'token_cls':
+            self.label_names = [
+                'O', 'B-PER', 'I-PER', 'B-ORG', 'I-ORG', 'B-LOC', 'I-LOC'
+            ]
+            self.preprocess = self.token_cls_preprocess
+            self.postprocess = self.token_cls_postprocess
+            self.printer = token_cls_print_ret
+        else:
+            print(
+                "[ErniePredictor]: task_name only support seq_cls and token_cls now."
+            )
+            exit(0)
+
+        self.max_seq_length = args.max_seq_length
+        self.inference_backend = InferBackend(args.model_path)
+
+    def seq_cls_preprocess(self, input_data: list):
+        data = input_data
+        # tokenizer + pad
+        data = self.tokenizer(
+            data, max_length=self.max_seq_length, padding=True, truncation=True)
+        input_ids = data["input_ids"]
+        token_type_ids = data["token_type_ids"]
+        return {
+            "input_ids": np.array(
+                input_ids, dtype="int64"),
+            "token_type_ids": np.array(
+                token_type_ids, dtype="int64")
+        }
+
+    def seq_cls_postprocess(self, infer_data, input_data):
+        logits = np.array(infer_data[0])
+        max_value = np.max(logits, axis=1, keepdims=True)
+        exp_data = np.exp(logits - max_value)
+        probs = exp_data / np.sum(exp_data, axis=1, keepdims=True)
+        out_dict = {
+            "label": probs.argmax(axis=-1),
+            "confidence": probs.max(axis=-1)
+        }
+        return out_dict
+
+    def token_cls_preprocess(self, data: list):
+        # tokenizer + pad
+        is_split_into_words = False
+        if isinstance(data[0], list):
+            is_split_into_words = True
+        data = self.tokenizer(
+            data,
+            max_length=self.max_seq_length,
+            padding=True,
+            truncation=True,
+            is_split_into_words=is_split_into_words)
+
+        input_ids = data["input_ids"]
+        token_type_ids = data["token_type_ids"]
+        return {
+            "input_ids": np.array(
+                input_ids, dtype="int64"),
+            "token_type_ids": np.array(
+                token_type_ids, dtype="int64")
+        }
+
+    def token_cls_postprocess(self, infer_data, input_data):
+        result = np.array(infer_data[0])
+        tokens_label = result.argmax(axis=-1).tolist()
+        # 获取batch中每个token的实体
+        value = []
+        for batch, token_label in enumerate(tokens_label):
+            start = -1
+            label_name = ""
+            items = []
+            for i, label in enumerate(token_label):
+                if self.label_names[label] == "O" and start >= 0:
+                    entity = input_data[batch][start:i - 1]
+                    if isinstance(entity, list):
+                        entity = "".join(entity)
+                    items.append({
+                        "pos": [start, i - 2],
+                        "entity": entity,
+                        "label": label_name,
+                    })
+                    start = -1
+                elif "B-" in self.label_names[label]:
+                    start = i - 1
+                    label_name = self.label_names[label][2:]
+            if start >= 0:
+                items.append({
+                    "pos": [start, len(token_label) - 1],
+                    "entity": input_data[batch][start:len(token_label) - 1],
+                    "label": ""
+                })
+            value.append(items)
+
+        out_dict = {"value": value, "tokens_label": tokens_label}
+        return out_dict
+
+    def infer(self, data):
+        return self.inference_backend.infer(data)
+
+    def predict(self, input_data: list):
+        preprocess_result = self.preprocess(input_data)
+        infer_result = self.infer(preprocess_result)
+        result = self.postprocess(infer_result, input_data)
+        self.printer(result, input_data)
+        return result
diff --git a/model_zoo/ernie-3.0/deploy/paddle2onnx/infer.py b/model_zoo/ernie-3.0/deploy/paddle2onnx/infer.py
@@ -0,0 +1,62 @@
+# Copyright (c) 2021 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import paddle
+from ernie_predictor import ErniePredictor
+import argparse
+
+
+def parse_args():
+    parser = argparse.ArgumentParser()
+    # Required parameters
+    parser.add_argument(
+        "--task_name",
+        default='seq_cls',
+        type=str,
+        help="The name of the task to perform predict, selected in: seq_cls and token_cls"
+    )
+    parser.add_argument(
+        "--model_name_or_path",
+        default="ernie-3.0-medium-zh",
+        type=str,
+        help="The directory or name of model.", )
+    parser.add_argument(
+        "--model_path",
+        type=str,
+        required=True,
+        help="The path prefix of inference model to be used.", )
+    parser.add_argument(
+        "--max_seq_length",
+        default=128,
+        type=int,
+        help="The maximum total input sequence length after tokenization. Sequences longer "
+        "than this will be truncated, sequences shorter will be padded.", )
+    args = parser.parse_args()
+    return args
+
+
+def main():
+    args = parse_args()
+    predictor = ErniePredictor(args)
+
+    if args.task_name == 'seq_cls':
+        text = ["未来自动驾驶真的会让酒驾和疲劳驾驶成历史吗？", "黄磊接受华少快问快答，不光智商逆天，情商也不逊黄渤"]
+    elif args.task_name == 'token_cls':
+        text = ["北京的涮肉，重庆的火锅，成都的小吃都是极具特色的美食。", "乔丹、科比、詹姆斯和姚明都是篮球界的标志性人物。"]
+
+    outputs = predictor.predict(text)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/model_zoo/ernie-3.0/deploy/python/ernie_predictor.py b/model_zoo/ernie-3.0/deploy/python/ernie_predictor.py