• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型

通讯作者: 肖晓霞, amily_x@hnucm.edu.cn
DOI:10.12201/bmr.202303.00004
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Research on named entity recognition of Chinese medical records based on BERT-BiLSTM-CRF with Chinese radicals

Corresponding author: xiaoxiaoxia, amily_x@hnucm.edu.cn
  • 摘要:摘要 目的 研究提取中医医案中医疗术语的方法,实现医案的自动结构化,为医案的知识发现提供结构化数据。 方法 使用了一种BERT结合LSTM、CRF和部首特征的深度学习命名实体识别模型,该模型在BERT词向量中嵌入汉字部首,采用BiLSTM提取实体特征,使用CRF进行序列预测。使用人工标注的400份共计五万余字的医案按照3比1的比例划分为训练集和测试集,使用该模型识别出中医医案中的身体部位、药物、症状、疾病四类命名实体。结果 该模型在测试集上的F1值为84.81%,优于其他未嵌入部首的模型,表明该模型能够更有效地识别中医医案中的命名实体,更好的结构化医案。关键词 实体识别;部首特征;BERT模型;双向长短记忆模型;条件随机场

    关键词: 实体识别;部首特征;BERT模型;双向长短记忆模型条件随机场

     

    Abstract: Abstract Purpose Research on the method of extracting medical terms from chinese medical records, realize the automatic structure of medical records, and provide structured data for knowledge discovery of medical records. Method This paper proposes a deep learning named entity recognition model based on BERT combining LSTM, CRF and radical features. This model embeds chinese radicals in BERT word vector, extracts entity features with BiLSTM, and uses CRF for sequence prediction. 400 medical cases with a total of more than 50000 words manually marked are divided into training set and test set according to the ratio of 3 to 1, the model is used to identify four types of named entities in chinese medical records: body, medicine, symptom, and disease. Result The F1 value of this model on the test set is 84.81%, which is superior to other models without embedded radicals, indicating that the model can more effectively identify named entities in chinese medical records and better structured medical records.

    Key words: Entity recognition; Radical features; BERT; BiLSTM; CRF

    提交时间:2023-03-22

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 邓嘉乐, 胡振生, 连万民, 华赟鹏, 周毅. 基于RoBERTa-CRF的肝癌电子病历实体识别研究. 2023. doi: 10.12201/bmr.202303.00027

    陈婕卿, 竹志超, 张锋, 曾可, 姜会珍, 程振宁. 面向知识图谱构建的中文电子病历命名实体识别方法研究. 2023. doi: 10.12201/bmr.202312.00011

    沈蓉蓉, 夏帅帅, 晏峻峰. 命名实体识别在中医药领域的研究进展. 2022. doi: 10.12201/bmr.202207.00038

    胡海洋, 赵从朴, 马琏, 姜会珍, 张晶, 朱卫国. 基于注意力机制和DGCNN的中文医疗命名实体识别. 2021. doi: 10.12201/bmr.202102.00004

    陈剑秋, 黄晓芳, 周祖宏, 廖敏. 基于BERT的电子病历实体关系联合抽取研究. 2022. doi: 10.12201/bmr.202206.00003

    武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016

    冯凤翔, 任慧玲, 李晓瑛, 王巍洁, 王勖, 张颖. 融合相似度算法与预训练模型的中文电子病历实体映射方法研究. 2023. doi: 10.12201/bmr.202305.00015

    庞震, 顾继昱, 吴宇飞, 颜仕星, 李汪洋, 孙越. 一种基于三元组抽取策略解决中医诊治高血压医疗实体提取问题的研究. 2021. doi: 10.12201/bmr.202107.00015

    郭哲韬, 石文丽, 杨涛. 基于语音识别的中医临床诊疗智能语音助理的设计与实现. 2021. doi: 10.12201/bmr.202110.00013

    赵从朴, 袁达, 朱溥珏, 周炯, 陈政, 彭华. 基于BERT的医疗安全事件智能分类研究与实践. 2023. doi: 10.12201/bmr.202312.00021

  • 序号 提交日期 编号 操作
    1 2022-10-11

    10.12201/bmr.202303.00004V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

刘彬, 肖晓霞, 邹北骥, 周展, 郑立瑞, 谭建聪. 融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型. 2023. biomedRxiv.202303.00004

推荐引用格式

刘彬,肖晓霞,邹北骥,等.融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型[J].医学信息学杂志,2023,44(6):48-53

访问统计

  • 阅读量:1026
  • 下载量:8
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误