PaddlePaddle
diff --git a/‎docs/model_zoo/transformers.rst‎
Lines changed: 5 additions & 0 deletions b/‎docs/model_zoo/transformers.rst‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎examples/biomedical/cblue/README.md‎
Lines changed: 52 additions & 32 deletions b/‎examples/biomedical/cblue/README.md‎
Lines changed: 52 additions & 32 deletions
diff --git a/‎examples/biomedical/cblue/export_model.py‎
Lines changed: 78 additions & 0 deletions b/‎examples/biomedical/cblue/export_model.py‎
Lines changed: 78 additions & 0 deletions
@@ -273,6 +273,10 @@ Transformer预训练模型汇总
 |                    |                                                                                  |              | 12-heads, 102M parameters.              |
 |                    |                                                                                  |              | Trained on Chinese text.                |
 |                    +----------------------------------------------------------------------------------+--------------+-----------------------------------------+
+|                    |``ernie-health-chinese``                                                          | Chinese      | 12-layer, 768-hidden,                   |
+|                    |                                                                                  |              | 12-heads, 102M parameters.              |
+|                    |                                                                                  |              | Trained on Chinese medical corpus.      |
+|                    +----------------------------------------------------------------------------------+--------------+-----------------------------------------+
 |                    |``junnyu/hfl-chinese-electra-180g-base-discriminator``                            | Chinese      | Discriminator, 12-layer, 768-hidden,    |
 |                    |                                                                                  |              | 12-heads, 102M parameters.              |
 |                    |                                                                                  |              | Trained on 180g Chinese text.           |
@@ -858,3 +862,4 @@ Reference
 - Bao, Siqi, et al. "Plato-2: Towards building an open-domain chatbot via curriculum learning." arXiv preprint arXiv:2006.16779 (2020).
 - Yang, Zhilin, et al. "Xlnet: Generalized autoregressive pretraining for language understanding." arXiv preprint arXiv:1906.08237 (2019).
 - Cui, Yiming, et al. "Pre-training with whole word masking for chinese bert." arXiv preprint arXiv:1906.08101 (2019).
+- Wang, Quan, et al. “Building Chinese Biomedical Language Models via Multi-Level Text Discrimination.” arXiv preprint arXiv:2110.07244 (2021).
@@ -1,16 +1,22 @@
 # 使用医疗领域预训练模型Fine-tune完成中文医疗语言理解任务
 
-近年来，预训练语言模型（Pre-trained Language Model，PLM）逐渐成为自然语言处理（Natural Language Processing，NLP）的主流方法。这类模型可以利用大规模的未标注语料进行训练，得到的模型在下游NLP任务上效果明显提升，在通用领域和特定领域均有广泛应用。在医疗领域，早期的做法是在预先训练好的通用语言模型上进行Fine-tune。后来的研究发现直接使用医疗相关语料学习到的预训练语言模型在医疗文本任务上的效果更好，采用的模型结构也从早期的BERT演变为更新的RoBERTa、ALBERT和ELECTRA。
+医疗领域存在大量的专业知识和医学术语，人类经过长时间的学习才能成为一名优秀的医生。那机器如何才能“读懂”医疗文献呢？尤其是面对电子病历、生物医疗文献中存在的大量非结构化、非标准化文本，计算机是无法直接使用、处理的。这就需要自然语言处理（Natural Language Processing，NLP）技术大展身手了。
 
-本示例展示了中文医疗预训练模型eHealth（[Building Chinese Biomedical Language Models via Multi-Level Text Discrimination](https://arxiv.org/abs/2110.07244)）如何Fine-tune完成中文医疗语言理解任务。
+近年来，预训练语言模型（Pre-trained Language Model，PLM）逐渐成为自然语言处理的主流方法。这类模型利用大规模的未标注语料进行训练，得到的模型在下游NLP任务上的效果有着明显提升，在通用领域和特定领域均有广泛应用。在医疗领域，早期的做法是在预先训练好的通用语言模型上进行 Fine-tune。后来的研究发现直接使用医疗相关语料学习到的预训练语言模型在医疗文本任务上的效果更好，采用的模型结构也从早期的BERT演变为更新的 RoBERTa、ALBERT和ELECTRA。
+
+本示例展示了中文医疗预训练模型 ERNIE-Health（[Building Chinese Biomedical Language Models via Multi-Level Text Discrimination](https://arxiv.org/abs/2110.07244)）如何 Fine-tune完成中文医疗语言理解任务。
 
 ## 模型介绍
 
-本项目针对中文医疗语言理解任务，开源了中文医疗预训练模型eHealth（简写`chinese-ehealth`）。eHealth使用了医患对话、科普文章、病历档案、临床病理学教材等脱敏中文语料进行预训练，通过预训练任务设计来学习词级别和句级别的文本信息。该模型的整体结构与ELECTRA相似，包括生成器和判别器两部分。 而Fine-tune过程只用到了判别器模块，由12层Transformer网络组成。
+本项目针对中文医疗语言理解任务，开源了中文医疗预训练模型 ERNIE-Health（模型名称`ernie-health-chinese`）。ERNIE-Health模型依托于百度知识增强语义理解框架 ERNIE，以超越人类医学专家水平的成绩登顶中文医疗信息处理权威榜单 CBLUE 冠军, 验证了 ERNIE 在医疗行业应用的重要价值。
+
+![CBLUERank](https://user-images.githubusercontent.com/25607475/160394225-04f75498-ce1a-4665-85f7-d495815eed51.png)
+
+ERNIE-Health 依托百度文心 ERNIE 先进的知识增强预训练语言模型打造, 通过医疗知识增强技术进一步学习海量的医疗数据, 精准地掌握了专业的医学知识。ERNIE-Health 利用医疗实体掩码策略对专业术语等实体级知识学习, 学会了海量的医疗实体知识。同时，通过医疗问答匹配任务学习病患病状描述与医生专业治疗方案的对应关系，获得了医疗实体知识之间的内在联系。ERNIE-Health 共学习了 60 多万的医疗专业术语和 4000 多万的医疗专业问答数据，大幅提升了对医疗专业知识的理解和建模能力。此外，ERNIE-Health 还探索了多级语义判别预训练任务，提升了模型对医疗知识的学习效率。该模型的整体结构与 ELECTRA 相似，包括生成器和判别器两部分。 而 Fine-tune 过程只用到了判别器模块，由 12 层 Transformer 网络组成。
 
 ## 数据集介绍
 
-本项目使用了中文医学语言理解测评（[Chinese Biomedical Language Understanding Evaluation，CBLUE](https://github.com/CBLUEbenchmark/CBLUE)）数据集，其包括医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学问答共5大类任务8个子任务。
+本项目使用了中文医学语言理解测评（[Chinese Biomedical Language Understanding Evaluation，CBLUE](https://github.com/CBLUEbenchmark/CBLUE)）1.0 版本数据集，这是国内首个面向中文医疗文本处理的多任务榜单，涵盖了医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学问答共5大类任务8个子任务。其数据来源分布广泛，包括医学教材、电子病历、临床试验公示以及互联网用户真实查询等。该榜单一经推出便受到了学界和业界的广泛关注，已逐渐发展成为检验AI系统中文医疗信息处理能力的“金标准”。
 
 * CMeEE：中文医学命名实体识别
 * CMeIE：中文医学文本实体关系抽取
@@ -21,7 +27,7 @@
 * KUAKE-QTR：医疗搜索查询词-页面标题相关性
 * KUAKE-QQR：医疗搜索查询词-查询词相关性
 
-更多信息可参考CBLUE的[github](https://github.com/CBLUEbenchmark/CBLUE/blob/main/README_ZH.md)。其中对于临床术语标准化任务（CHIP-CDN），我们按照eHealth中的方法通过检索将原多分类任务转换为了二分类任务，即给定一诊断原词和一诊断标准词，要求判定后者是否是前者对应的诊断标准词。本项目提供了检索处理后的CHIP-CDN数据集（简写`CHIP-CDN-2C`），且构建了基于该数据集的example代码。
+更多信息可参考CBLUE的[github](https://github.com/CBLUEbenchmark/CBLUE/blob/main/README_ZH.md)。其中对于临床术语标准化任务（CHIP-CDN），我们按照 ERNIE-Health 中的方法通过检索将原多分类任务转换为了二分类任务，即给定一诊断原词和一诊断标准词，要求判定后者是否是前者对应的诊断标准词。本项目提供了检索处理后的 CHIP-CDN 数据集（简写`CHIP-CDN-2C`），且构建了基于该数据集的example代码。
 
 ## 快速开始
 
@@ -34,7 +40,14 @@ cblue/
 ├── README.md # 使用说明
 ├── train_classification.py # 分类任务训练评估脚本
 ├── train_ner.py # 实体识别任务训练评估脚本
-└── train_spo.py # 关系抽取任务训练评估脚本
+├── train_spo.py # 关系抽取任务训练评估脚本
+└── export_model.py #动态图参数导出静态图参数脚本
+```
+
+### 依赖安装
+
+```shell
+pip install xlrd==1.2.0
 ```
 
 ### 模型训练
@@ -43,28 +56,20 @@ cblue/
 
 **训练参数设置（Training setup）及结果**
 
-| Task      | epochs | batch_size | learning_rate | max_seq_length | results |
-| --------- | :----: | :--------: | :-----------: | :------------: | :-----: |
-| CHIP-STS  |   16   |     32     |      1e-4     |       96       | 0.88550 |
-| CHIP-CTC  |   16   |     32     |      3e-5     |      160       | 0.82790 |
-| CHIP-CDN  |   16   |    256     |      3e-5     |       32       | 0.76979 |
-| KUAKE-QQR |   16   |     32     |      6e-5     |       64       | 0.82364 |
-| KUAKE-QTR |   12   |     32     |      6e-5     |       64       | 0.69653 |
-| KUAKE-QIC |    4   |     32     |      6e-5     |      128       | 0.81176 |
-| CMeEE     |    2   |     32     |      6e-5     |      128       | 0.66167 |
-| CMeIE     |  100   |     12     |      6e-5     |      300       | 0.61385 |
-
-#### 医疗文本分类任务
-
-```shell
-$ unset CUDA_VISIBLE_DEVICES
-$ python -m paddle.distributed.launch --gpus "0,1,2,3" train_classification.py --dataset CHIP-CDN-2C --batch_size 256 --max_seq_length 32 --learning_rate 3e-5 --epochs 16
-```
+| Task      | epochs | batch_size | learning_rate | max_seq_length |  metric  | results | results (fp16) |
+| --------- | :----: | :--------: | :-----------: | :------------: | :------: | :-----: | :------------: |
+| CHIP-STS  |    4   |     16     |      1e-4     |       96       | Macro-F1 | 0.88550 |    0.85649     |
+| CHIP-CTC  |    4   |     32     |      6e-5     |      160       | Macro-F1 | 0.84136 |    0.83514     |
+| CHIP-CDN  |   16   |    256     |      3e-5     |       32       |    F1    | 0.76979 |    0.76489     |
+| KUAKE-QQR |    2   |     32     |      6e-5     |       64       | Accuracy | 0.83865 |    0.84053     |
+| KUAKE-QTR |    4   |     32     |      6e-5     |       64       | Accuracy | 0.69722 |    0.69722     |
+| KUAKE-QIC |    4   |     32     |      6e-5     |      128       | Accuracy | 0.81483 |    0.82046     |
+| CMeEE     |    2   |     32     |      6e-5     |      128       | Micro-F1 | 0.66120 |    0.66026     |
+| CMeIE     |  100   |     12     |      6e-5     |      300       | Micro-F1 | 0.61385 |    0.60076     |
 
 可支持配置的参数：
 
 * `save_dir`：可选，保存训练模型的目录；默认保存在当前目录checkpoints文件夹下。
-* `dataset`：可选，CHIP-CDN-2C CHIP-CTC CHIP-STS KUAKE-QIC KUAKE-QTR KUAKE-QQR，默认为KUAKE-QIC数据集。
 * `max_seq_length`：可选，ELECTRA模型使用的最大序列长度，最大不能超过512, 若出现显存不足，请适当调低这一参数；默认为128。
 * `batch_size`：可选，批处理大小，请结合显存情况进行调整，若出现显存不足，请适当调低这一参数；默认为32。
 * `learning_rate`：可选，Fine-tune的最大学习率；默认为6e-5。
@@ -78,26 +83,41 @@ $ python -m paddle.distributed.launch --gpus "0,1,2,3" train_classification.py -
 * `seed`：可选，随机种子，默认为1000.
 * `device`: 选用什么设备进行训练，可选cpu或gpu。如使用gpu训练则参数gpus指定GPU卡号。
 * `use_amp`: 是否使用混合精度训练，默认为False。
-* `use_ema`: 是否使用Exponential Moving Average预测，默认为False。
 
-#### 医疗命名实体识别任务
+**NOTE:**
+* 如需恢复模型训练，则可以设置`init_from_ckpt`， 如`init_from_ckpt=checkpoints/model_100/model_state.pdparams`。
+* 使用动态图训练结束之后，还可以将动态图参数导出成静态图参数，具体代码见export_model.py。静态图参数保存在`output_path`指定路径中。
+  运行方式：
 
 ```shell
-$ export CUDA_VISIBLE_DEVICES=0
-$ python train_ner.py --batch_size 32 --max_seq_length 128 --learning_rate 6e-5 --epochs 12
+python export_model.py --train_dataset CMeIE --params_path=./checkpoint/model_900/model_state.pdparams --output_path=./export
 ```
 
-#### 医疗关系抽取任务
+#### 医疗文本分类任务
+
+```shell
+$ unset CUDA_VISIBLE_DEVICES
+$ python -m paddle.distributed.launch --gpus "0,1,2,3" train_classification.py --dataset CHIP-CDN-2C --batch_size 256 --max_seq_length 32 --learning_rate 3e-5 --epochs 16
+```
+
+其他可支持配置的参数：
+
+* `dataset`：可选，CHIP-CDN-2C CHIP-CTC CHIP-STS KUAKE-QIC KUAKE-QTR KUAKE-QQR，默认为KUAKE-QIC数据集。
+
+#### 医疗命名实体识别任务（CMeEE）
 
 ```shell
 $ export CUDA_VISIBLE_DEVICES=0
-$ python train_spo.py --batch_size 12 --max_seq_length 300 --learning_rate 6e-5 --epochs 100
+$ python train_ner.py --batch_size 32 --max_seq_length 128 --learning_rate 6e-5 --epochs 12
 ```
 
-### 依赖安装
+#### 医疗关系抽取任务（CMeIE）
 
 ```shell
-pip install xlrd==1.2.0
+$ export CUDA_VISIBLE_DEVICES=0
+$ python train_spo.py --batch_size 12 --max_seq_length 300 --learning_rate 6e-5 --epochs 100
 ```
 
 [1] CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [pdf](https://arxiv.org/abs/2106.08087) [git](https://github.com/CBLUEbenchmark/CBLUE) [web](https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge)
+
+[2] Wang, Quan, et al. “Building Chinese Biomedical Language Models via Multi-Level Text Discrimination.” arXiv preprint arXiv:2110.07244 (2021). [pdf](https://arxiv.org/abs/2110.07244)
@@ -0,0 +1,78 @@
+# Copyright (c) 2022 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import argparse
+import os
+
+import paddle
+from paddlenlp.transformers import ElectraForSequenceClassification
+from model import ElectraForBinaryTokenClassification, ElectraForSPO
+
+# yapf: disable
+parser = argparse.ArgumentParser()
+parser.add_argument('--train_dataset', choices=['KUAKE-QIC', 'KUAKE-QQR', 'KUAKE-QTR', 'CHIP-STS', 'CHIP-CTC', 'CHIP-CDN-2C', 'CMeEE', 'CMeIE'],
+                                       required=True, type=str, help='The name of dataset used for training.')
+parser.add_argument('--params_path', type=str, required=True, default='./checkpoint/model_state.pdparams', help='The path to model parameters to be loaded.')
+parser.add_argument('--output_path', type=str, default='./export', help='The path of model parameter in static graph to be saved.')
+args = parser.parse_args()
+# yapf: enable
+
+NUM_CLASSES = {
+    'CHIP-CDN-2C': 2,
+    'CHIP-STS': 2,
+    'CHIP-CTC': 44,
+    'KUAKE-QQR': 3,
+    'KUAKE-QTR': 4,
+    'KUAKE-QIC': 11,
+    'CMeEE': [33, 5],
+    'CMeIE': 44
+}
+
+if __name__ == "__main__":
+    if args.train_dataset == 'CMeEE':
+        model = ElectraForBinaryTokenClassification.from_pretrained(
+            'ernie-health-chinese', num_classes=NUM_CLASSES[args.train_dataset])
+    elif args.train_dataset == 'CMeIE':
+        model = ElectraForSPO.from_pretrained(
+            'ernie-health-chinese', num_classes=NUM_CLASSES[args.train_dataset])
+    else:
+        model = ElectraForSequenceClassification.from_pretrained(
+            'ernie-health-chinese',
+            num_classes=NUM_CLASSES[args.train_dataset],
+            activation='tanh')
+
+    if args.params_path and os.path.isfile(args.params_path):
+        state_dict = paddle.load(args.params_path)
+        model.set_dict(state_dict)
+        print("Loaded parameters from %s" % args.params_path)
+    model.eval()
+
+    # Convert to static graph with specific input description
+    input_spec = [
+        paddle.static.InputSpec(
+            shape=[None, None], dtype="int64"),  # input_ids
+        paddle.static.InputSpec(
+            shape=[None, None], dtype="int64"),  # token_type_ids
+        paddle.static.InputSpec(
+            shape=[None, None], dtype="int64")  # position_ids
+    ]
+    if args.train_dataset in ['CMeEE', 'CMeIE']:
+        input_spec.append(
+            paddle.static.InputSpec(
+                shape=[None, None], dtype="float32"))  # masks
+
+    model = paddle.jit.to_static(model, input_spec=input_spec)
+    # Save in static graph model.
+    save_path = os.path.join(args.output_path, "inference")
+    paddle.jit.save(model, save_path)