Skip to content

FreedomIntelligence/Medical_NLP

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation

Medical_NLP

医疗NLP领域 评测/比赛,数据集,论文和预训练模型资源汇总。

Summary of medical NLP evaluations/competitions, datasets, papers and pre-trained models.

News

Contents

1. 评测

1.1 中文医疗基准测评:CMB / CMExam / PromptCBLUE

1.2 英文医疗基准测评:

  • MultiMedBench

    • 简介:是一种源自Google的大型多模态生成模型

2. 比赛

2.1 正在进行的比赛

2.2 已经结束的比赛

2.2.1 英文比赛

2.2.2 中文比赛

3. LLM数据集

3.1 中文

3.2 英文

4. VLM数据集

Dataset Paper Github Keywords
MedTrinity-25M link link 25 million images10 modalities65 diseasesVQAEN
LLaVA-Med link link 630k imagesVQAEN
Chinese-LLaVA-Med - link 60k imagesVQAZH
HuatuoGPT-Vision link link 647k imagesVQAEN
MedVidQA link link 7k videosVQAEN
ChiMed-VL link link 1M imagesVQAENZH
RadFM link link 16M images5000 diseasesVQAEN2D/3D
BiomedParseData link link 6.8 million image-mask-description45 biomedical image segmentation datasets9 modalitiesEN2D
OmniMedVQA link link 118,010 images12 modalities2D20 human anatomical regions
PreCT link link 160K volumes42M slices3DCT
GMAI-VL-5.5M link link 5.5m image and text219 specialized medical imaging datasets2DVQA
SA-Med2D-20M link link 4.6 million 2D medical images and 19.7 million corresponding masks2DEN

5. 开源预训练模型

5.1 医疗PLM

  • BioBERT:

    • 地址:https://github.com/naver/biobert-pretrained
    • 简介:BioBERT是一种生物医学领域的语言表示模型,专门用于生物医学文本挖掘任务,如生物医学命名实体识别、关系提取、问答等。
  • BlueBERT:

    • 地址:https://github.com/ncbi-nlp/BLUE_Benchmark
    • 简介:BLUE基准包括5个不同的生物医学文本挖掘任务和10个语料库。BLUE基准依赖于预先存在的数据集,因为它们已被BioNLP社区广泛用作共享任务。这些任务涵盖了各种文本类型(生物医学文献和临床笔记)、数据集大小和难度,更重要的是,突出了常见的生物医学文本挖掘挑战。
  • BioFLAIR:

    • 地址:https://github.com/flairNLP/flair
    • 简介:Flair是一个强大的NLP库,能将最先进的自然语言处理(NLP)模型应用于文本,例如命名实体识别(NER),情感分析,词性标记(PoS),对生物医学数据的特殊支持,语义消歧和分类,支持快速增长的语言数量。Flair 还是一个文本嵌入库,一个基于PyTorch的自然语言处理框架。
  • COVID-Twitter-BERT:

  • bio-lm (Biomedical and Clinical Language Models)

  • BioALBERT

    • 地址:https://github.com/usmaann/BioALBERT
    • 简介:这是一种针对大型领域特定(生物医学)语料库训练的生物医学语言表示模型,专为生物医学文本挖掘任务而设计。

5.2 医疗LLM

5.2.1 多语言医疗大模型

5.2.2 中文医疗大语言模型

  • BenTsao:
    • 地址:https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
    • 简介:BenTsao以LLaMA-7B为基础,经过中文医学指令精调/指令微调得到。研究人员通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
  • BianQue:
    • 地址:https://github.com/scutcyr/BianQue
    • 简介:一个经过指令与多轮问询对话联合微调的医疗对话大模型,以ClueAI/ChatYuan-large-v2作为底座,使用中文医疗问答指令与多轮问询对话混合数据集进行微调。
  • SoulChat:
    • 地址:https://github.com/scutcyr/SoulChat
    • 简介:灵心以ChatGLM-6B作为初始化模型,经过百万规模心理咨询领域中文长文本指令与多轮共情对话数据联合指令微调,提升模型的共情能力、引导用户倾诉能力以及提供合理建议的能力。
  • DoctorGLM:
    • 地址:https://github.com/xionghonglin/DoctorGLM
    • 简介:一个基于 ChatGLM-6B的中文问诊大模型。该模型通过中文医疗对话数据集进行微调,实现了包括lora、p-tuningv2等微调及部署。
  • HuatuoGPT:
    • 地址:https://github.com/FreedomIntelligence/HuatuoGPT
    • 简介:华佗GPT是一个经过中文医学指令精调/指令微调(Instruct-tuning)得到的一个GPT-like模型。该模型是专门为医疗咨询设计的中文LLM,它的训练数据包含了从ChatGPT处蒸馏得到的数据和来自医生的真实数据,在训练过程中加入了RLHF的反馈。
  • HuatuoGPT-II:
    • 地址:https://github.com/FreedomIntelligence/HuatuoGPT-II
    • 简介:华佗GPT2采用了创新的领域适应方法,大大提高了其医学知识和对话能力。它在多个医疗基准测试中表现出了一流的性能,尤其是在专家评估和新医学执业资格考试中超越了 GPT-4。

5.2.3 英文医疗大语言模型

  • GatorTron:
  • Codex-Med:
    • 地址:https://github.com/vlievin/medical-reasoning
    • 简介:致力于研究GPT-3.5模型回答和推理实际医疗问题的能力。使用了医疗测试数据集USMLE和MedMCQA, 医疗阅读理解数据集PubMedQA。
  • Galactica:
    • 地址:https://galactica.org/
    • 简介:Galactica致力于解决科学领域的信息过载问题,储存合并了包括医疗医疗健康领域在内的科学知识。Galactica在大型论文语料库,参考文献的基础上训练而成,尝试发现不同领域研究之间的潜在关系。
  • DeID-GPT:
  • ChatDoctor:
  • MedAlpaca:
    • 地址:https://github.com/kbressem/medAlpaca
    • 简介:MedAlpaca采用了一种开源策略,致力于解决医疗系统中的隐私问题。该模型基于70亿和130亿参数量的LLaMa构建。
  • PMC-LLaMA:
    • 地址:https://github.com/chaoyi-wu/PMC-LLaMA
    • 简介: PMC-LLaMA是一个开源语言模型,通过对LLaMA-7B在总计480万篇生物医学学术论文上进行调质,进一步灌输医学知识,以增强其在医学领域的能力。
  • Visual Med-Alpaca:
    • 地址:https://github.com/cambridgeltl/visual-med-alpaca
    • 简介: Visual Med-Alpaca是一个开源的、参数高效的生物医学基础模型,可以与医学的“视觉专家”集成,用于多模式生物医学任务。该模型基于LLaMa-7B架构构建,使用由GPT-3.5-Turbo和人类专家共同策划的指令集进行训练。
  • GatorTronGPT:
    • 地址:https://github.com/uf-hobi-informatics-lab/GatorTronGPT
    • 简介:GatorTronGPT 是一个医疗生成大语言模型。该模型基于GPT-3构建,含有50亿或200亿参数。该模型使用了含有2770亿单词的,由临床和英语文本组成的庞大语料库。
  • MedAGI:
    • 地址:https://github.com/JoshuaChou2018/MedAGI
    • 简介:MedAGI一个范例,以最低的成本将领域特定的医疗语言模型统一起来,为实现医疗通用人工智能提供了一条可能的途径。
  • LLaVA-Med:
    • 地址:https://github.com/microsoft/LLaVA-Med
    • 简介:LLaVA- med使用通用领域LLaVA进行初始化,然后以课程学习方式进行持续训练(首先是生物医学概念对齐,然后是全面的指令调整)。
  • Med-Flamingo:
    • 地址:https://github.com/snap-stanford/med-flamingo
    • 简介:Med-Flamingo是一个视觉语言模型,专门设计用于处理包含图像和文本的交错多模态数据。以Flamingo为基础,Med-Flamingo通过对不同医学学科的多种多模式知识来源进行预训练,进一步增强了在这些医学领域的能力。

5.3 医疗VLM

Model Paper Github
MedVInT link link
Med-Flamingo link link
LLaVA-Med link link
Qilin-Med-VL link link
RadFM link link
MedDr link link
HuatuoGPT-Vision link link
BiomedGPT link link
Med-MoE link link
R-LLaVA link -
Med-2E3 link -
GMAI-VL link link

5.4 医疗VLM Benchmark

Benchmark Paper Github
GMAI-MMBench link link
OmniMedVQA link link
MMMU link link
MultiMedEval link link
WorldMedQA-V link -

6. 相关论文

6.1 后ChatGPT时代 可能有帮助的论文

  1. 大型语言模型编码临床知识 论文地址:https://arxiv.org/abs/2212.13138

  2. ChatGPT在USMLE上的表现:使用大型语言模型进行 AI 辅助医学教育的潜力 论文地址:https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000198

  3. 对 ChatGPT 的医疗建议进行(图灵)测试 论文地址:https://arxiv.org/abs/2301.10035

  4. Toolformer:语言模型可以自学使用工具 论文地址:https://arxiv.org/abs/2302.04761

  5. 检查你的事实并再试一次:利用外部知识和自动反馈改进大型语言模型 论文地址:https://arxiv.org/abs/2302.12813

  6. GPT-4 在医学挑战问题上的能力 论文地址:https://arxiv.org/abs/2303.13375

6.2 综述类文章

  1. 生物医学领域的预训练语言模型:系统调查 论文地址
  2. 医疗保健深度学习指南 论文地址 nature medicine发表的综述
  3. 医疗保健领域大语言模型综述 论文地址

6.3 特定任务文章

电子病历相关文章

  1. Transfer Learning from Medical Literature for Section Prediction in Electronic Health Records 论文地址
  2. MUFASA: Multimodal Fusion Architecture Search for Electronic Health Records 论文地址

医学关系抽取

  1. Leveraging Dependency Forest for Neural Medical Relation Extraction 论文地址

医学知识图谱

  1. Learning a Health Knowledge Graph from Electronic Medical Records 论文地址

辅助诊断

  1. Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence 论文地址

医疗实体Linking(标准化)

  1. Medical Entity Linking using Triplet Network 论文地址
  2. A Generate-and-Rank Framework with Semantic Type Regularization for Biomedical Concept Normalization 论文地址
  3. Deep Neural Models for Medical Concept Normalization in User-Generated Texts 论文地址

6.4 会议索引

ACL2020医学领域相关论文列表

  1. A Generate-and-Rank Framework with Semantic Type Regularization for Biomedical Concept Normalization 论文地址
  2. Biomedical Entity Representations with Synonym Marginalization 论文地址
  3. Document Translation vs. Query Translation for Cross-Lingual Information Retrieval in the Medical Domain 论文地址
  4. MIE: A Medical Information Extractor towards Medical Dialogues 论文地址
  5. Rationalizing Medical Relation Prediction from Corpus-level Statistics 论文地址

AAAI2020 医学NLP相关论文列表

  1. On the Generation of Medical Question-Answer Pairs 论文地址
  2. LATTE: Latent Type Modeling for Biomedical Entity Linking 论文地址
  3. Learning Conceptual-Contextual Embeddings for Medical Text 论文地址
  4. Understanding Medical Conversations with Scattered Keyword Attention and Weak Supervision from Responses 论文地址
  5. Simultaneously Linking Entities and Extracting Relations from Biomedical Text without Mention-level Supervision 论文地址
  6. Can Embeddings Adequately Represent Medical Terminology? New Large-Scale Medical Term Similarity Datasets Have the Answer! 论文地址

EMNLP2020 医学NLP相关论文列表

  1. Towards Medical Machine Reading Comprehension with Structural Knowledge and Plain Text 论文地址
  2. MedDialog: Large-scale Medical Dialogue Datasets 论文地址
  3. COMETA: A Corpus for Medical Entity Linking in the Social Media 论文地址
  4. Biomedical Event Extraction as Sequence Labeling 论文地址
  5. FedED: Federated Learning via Ensemble Distillation for Medical Relation Extraction 论文地址 论文解析:FedED:用于医学关系提取的联邦学习(基于融合蒸馏)
  6. Infusing Disease Knowledge into BERT for Health Question Answering, Medical Inference and Disease Name Recognition 论文地址
  7. A Knowledge-driven Generative Model for Multi-implication Chinese Medical Procedure Entity Normalization 论文地址
  8. BioMegatron: Larger Biomedical Domain Language Model 论文地址
  9. Querying Across Genres for Medical Claims in News 论文地址

7. 开源工具包

  1. 分词工具:PKUSEG 项目地址 项目说明: 北京大学推出的多领域中文分词工具,支持选择医学领域。

8. 工业级产品解决方案

  1. 灵医智慧

  2. 左手医生

  3. 医渡云研究院-医学自然语言处理

  4. 百度-医学文本结构化

  5. 阿里云-医学自然语言处理

9. blog分享

  1. Alpaca:一个强大的开源指令跟随模型
  2. 医疗领域构建自然语言处理系统的经验教训
  3. 大数据时代的医学公共数据库与数据挖掘技术简介
  4. 从ACL 2021中看NLP在医疗领域应用的发展,附资源下载

10. 友情链接

  1. awesome_Chinese_medical_NLP
  2. 中文NLP数据集搜索
  3. medical-data(海量医疗相关数据)
  4. 天池数据集(其中包含多个医疗NLP数据集)

11. reference

@misc{medical_NLP_github,
  author = {Xidong Wang, Ziyue Lin and Jing Tang, Rongsheng Wang, Benyou Wang},
  title = {Medical NLP},
  year = {2023},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/FreedomIntelligence/Medical_NLP}}
}

Star History Chart