You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
近年来,预训练语言模型(Pre-trained Language Model,PLM)逐渐成为自然语言处理(Natural Language Processing,NLP)的主流方法。这类模型可以利用大规模的未标注语料进行训练,得到的模型在下游NLP任务上效果明显提升,在通用领域和特定领域均有广泛应用。在医疗领域,早期的做法是在预先训练好的通用语言模型上进行Fine-tune。后来的研究发现直接使用医疗相关语料学习到的预训练语言模型在医疗文本任务上的效果更好,采用的模型结构也从早期的BERT演变为更新的RoBERTa、ALBERT和ELECTRA。
3
+
医疗领域存在大量的专业知识和医学术语,人类经过长时间的学习才能成为一名优秀的医生。那机器如何才能“读懂”医疗文献呢?尤其是面对电子病历、生物医疗文献中存在的大量非结构化、非标准化文本,计算机是无法直接使用、处理的。这就需要自然语言处理(Natural Language Processing,NLP)技术大展身手了。
4
4
5
-
本示例展示了中文医疗预训练模型eHealth([Building Chinese Biomedical Language Models via Multi-Level Text Discrimination](https://arxiv.org/abs/2110.07244))如何Fine-tune完成中文医疗语言理解任务。
5
+
近年来,预训练语言模型(Pre-trained Language Model,PLM)逐渐成为自然语言处理的主流方法。这类模型利用大规模的未标注语料进行训练,得到的模型在下游NLP任务上的效果有着明显提升,在通用领域和特定领域均有广泛应用。在医疗领域,早期的做法是在预先训练好的通用语言模型上进行 Fine-tune。后来的研究发现直接使用医疗相关语料学习到的预训练语言模型在医疗文本任务上的效果更好,采用的模型结构也从早期的BERT演变为更新的 RoBERTa、ALBERT和ELECTRA。
6
+
7
+
本示例展示了中文医疗预训练模型 ERNIE-Health([Building Chinese Biomedical Language Models via Multi-Level Text Discrimination](https://arxiv.org/abs/2110.07244))如何 Fine-tune完成中文医疗语言理解任务。
本项目使用了中文医学语言理解测评([Chinese Biomedical Language Understanding Evaluation,CBLUE](https://github.com/CBLUEbenchmark/CBLUE))数据集,其包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学问答共5大类任务8个子任务。
19
+
本项目使用了中文医学语言理解测评([Chinese Biomedical Language Understanding Evaluation,CBLUE](https://github.com/CBLUEbenchmark/CBLUE))1.0 版本数据集,这是国内首个面向中文医疗文本处理的多任务榜单,涵盖了医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学问答共5大类任务8个子任务。其数据来源分布广泛,包括医学教材、电子病历、临床试验公示以及互联网用户真实查询等。该榜单一经推出便受到了学界和业界的广泛关注,已逐渐发展成为检验AI系统中文医疗信息处理能力的“金标准”。
[1] CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [pdf](https://arxiv.org/abs/2106.08087)[git](https://github.com/CBLUEbenchmark/CBLUE)[web](https://tianchi.aliyun.com/specials/promotion/2021chinesemedicalnlpleaderboardchallenge)
122
+
123
+
[2] Wang, Quan, et al. “Building Chinese Biomedical Language Models via Multi-Level Text Discrimination.” arXiv preprint arXiv:2110.07244 (2021). [pdf](https://arxiv.org/abs/2110.07244)
required=True, type=str, help='The name of dataset used for training.')
26
+
parser.add_argument('--params_path', type=str, required=True, default='./checkpoint/model_state.pdparams', help='The path to model parameters to be loaded.')
27
+
parser.add_argument('--output_path', type=str, default='./export', help='The path of model parameter in static graph to be saved.')
0 commit comments