[ English | 中文 ]
🤗 Hugging Face | 🤖 ModelScope | 🖥️ Demo | 🗂️Data | 📃 Paper | WeChat (微信)
项目背景
随着深度学习技术的迅速发展,类ChatGPT、DeepSeek等大语言模型在自然语言处理领域已经取得了显著的进展。面向生物医学领域,大语言模型有助于医生与患者之间的沟通,提供有用的医学信息,并在辅助诊疗、生物医学知识发现、药物研发、个性化医疗方案等方面具有巨大潜力。因此,本项目开展了面向生物医学多场景的多语多任务大模型的研究,目标实现高性能、低资源耗费的生物医学领域大模型,于2023年10月发布初版中英双语生物医学大模型——太一(Taiyi),并持续开展研究,目前完成太一2研发,进行模型开源。
相比于太一1模型,太一2主要在模型基座、数据指令、任务指令等方面进行了进一步的研究和更新,主要更新如下:
- 更新基座: 太一2从原始的Qwen-7B基座更新为GLM4-9B
- 高质量数据筛选:根据数据集标注指南,进一步的进行了数据质量筛选,删除了低质量数据量,并对不同任务的数据配比进行了调整,将极度不平衡的数据进行了平衡。
- 任务指令精细化:按任务类型划分,进行实验测试不同任务指令构建方法,设计出精细化的任务最佳指令数据构建方式。
太一2在13个生物医学任务测试数据集上进行了测试,结果如下图。
在生物医学任务数据集上,实验结果表明:
- 太一2平均指标相比太一1提升约9%。
- 太一2平均指标相比通用领域GPT3.5、DeepSeek14B蒸馏版提升约25%。
- 太一2平均指标获得了和目前领域先进专用模型可竞争的结果。
具体指标如下表:
| 任务类型 | 数据集 | 太一1 | 太一2 | GPT3.5 | DeepSeek-14B | SOTA |
|---|---|---|---|---|---|---|
| 实体识别(Micro-F1) | BC5CDR-Chem | 80.2 | 90.2 | 60.3 | 42.3 | 93.3(PubMedBERT) |
| BC5CDR-Dise | 69.1 | 78.3 | 51.8 | 41.1 | 85.6(PubMedBERT) | |
| CHEMDNER | 79.9 | 90.5 | 36.5 | 43.3 | 92.4(BioBERT) | |
| NCBIdisease | 73.1 | 82.6 | 50.5 | 32.8 | 87.8(PubMedBERT) | |
| CMeEE-dev | 65.7 | 74.1 | 47.0 | 42.4 | 74.0(CBLUE) | |
| 关系抽取(Micro-F1) | BC5CDR | 37.5 | 42.4 | 14.2 | 28.6 | 45.0(BioGPT) |
| CMeIE-dev | 43.2 | 50.3 | 30.6 | 4.5 | 54.9(CBLUE) | |
| 文本分类(Micro-F1) | BC7LitCovid | 84.0 | 90.2 | 63.9 | 32.9 | 91.8(Bioformer) |
| HOC | 80.0 | 84.6 | 51.2 | 41.9 | 82.3(PubMedBERT) | |
| KUAKE_QIC-dev | 77.4 | 80.4 | 48.5 | 47.5 | 85.9(CBLUE) | |
| 填空问答(Accuracy) | PubMedQA | 54.4 | 58.8 | 76.5 | 46.4 | 73.4 |
| MedQA-USMLE | 37.1 | 58.4 | 51.3 | 66.9 | 42.0 | |
| MedQA-MCMLE | 64.8 | 88.1 | 58.2 | 53.2 | 70.1(RoBERTA-large) | |
| 全部 | 均值AVE | 65.1 | 74.5 | 49.3 | 40.3 | 75.3 |
本项目训练和测试使用的环境配置如下:
torch==2.4.0
ms_swift==2.6.1
transformers==4.44.0
transformers-stream-generator==0.0.5
vllm==0.6.0
vllm-flash-attn==2.6.1
可使用如下命令按照环境包:
$ pip install -r requirements.txt
参考taiyi2_chat.py文件,为了保证推理速度,建议使用GPU显卡。
太一2由大连理工大学信息检索研究室(DUTIR)开发完成。
指导教师:罗凌、王健、孙媛媛、林鸿飞
学生成员:汪志军、祁杰蔚、李俊涛、吕腾啸、刘超、袁浩斌
本项目的工作受到以下开源项目与技术的启发和帮助,在此对相关项目和研究开发人员表示感谢,包括但不限于:
- GLM: https://github.com/THUDM/GLM-4
- SWIFT: https://github.com/modelscope/ms-swift
- BigBIO: https://github.com/bigscience-workshop/biomedical
- PromptCBLUE: https://github.com/michael-wzhu/PromptCBLUE
- 太一logo 由文心一言AI合成
本项目相关资源仅供学术研究之用,严禁用于商业用途。对本仓库源码的使用遵循开源许可协议 Apache 2.0。在使用过程中,用户需认真阅读并遵守以下声明:
- 请您确保您所输入的内容未侵害他人权益,未涉及不良信息,同时未输入与政治、暴力、色情相关的内容,且所有输入内容均合法合规。
- 请您确认并知悉使用太一大模型生成的所有内容均由人工智能模型生成,生成内容具有不完全理性,本项目对其生成内容的准确性、完整性和功能性不做任何保证,亦不承担任何法律责任。
- 本模型中出现的任何违反法律法规或公序良俗的回答,均不代表本项目的态度、观点或立场,本项目将不断完善模型回答以使其更符合社会伦理和道德规范。
- 对于模型输出的任何内容,使用者需自行承担风险和责任,本项目不承担任何法律责任,亦不对因使用相关资源和输出结果而可能产生的任何损失承担责任。
- 本项目中出现的第三方链接或库仅为提供便利而存在,其内容和观点与本项目无关。使用者在使用时需自行辨别,本项目不承担任何连带责任;
- 若使用者发现项目出现任何重大错误,请向我方反馈,以助于我们及时修复。
使用本项目即表示您已经仔细阅读、理解并同意遵守以上免责声明。本项目保留在不预先通知任何人的情况下修改本声明的权利。
如果你使用到了本项目的仓库,请引用。
@article{Taiyi,
title="{Taiyi: A Bilingual Fine-Tuned Large Language Model for Diverse Biomedical Tasks}",
author={Ling Luo, Jinzhong Ning, Yingwen Zhao, Zhijun Wang, Zeyuan Ding, Peng Chen, Weiru Fu, Qinyu Han, Guangtao Xu, Yunzhi Qiu, Dinghao Pan, Jiru Li, Hao Li, Wenduo Feng, Senbo Tu, Yuqi Liu, Zhihao Yang, Jian Wang, Yuanyuan Sun, Hongfei Lin},
journal={Journal of the American Medical Informatics Association},
year={2024},
doi = {10.1093/jamia/ocae037},
url = {https://doi.org/10.1093/jamia/ocae037},
}

