陈婕卿, 竹志超, 张锋, 曾可, 姜会珍, 程振宁. 面向知识图谱构建的中文电子病历命名实体识别方法研究. 2023. biomedRxiv.202312.00011
面向知识图谱构建的中文电子病历命名实体识别方法研究
通讯作者: 张锋, trees_357@126.com
DOI:10.12201/bmr.202312.00011
Named Entity Recognition in Chinese Electronic Medical Records Using Knowledge Graph Construction
Corresponding author: zhangfeng, trees_357@126.com
-
摘要:摘要 目的/意义探索基于中文电子病历的命名实体识方法在构建医学知识图谱和相关应用推广中的技术可行性。方法/过程采用真实医疗电子病历数据对词嵌入表示模型进行精化,构建医学术语专有的嵌入表示,并利用卷积神经网络等多模型来提取局部语义特征,实现基于堆叠注意网络的中文医疗命名实体识别。结果/结论本研究中堆叠注意网络模型在F1值上达到91.5%,相比其他模型具备更强的医疗命名实体识别性能。在研究通过提出新颖的堆叠注意网络,进一步解决中文医疗命名实体识别的难点,在实现全局语义特征全面深入提取的同时降低时间成本。
Abstract: Abstract Objective/Meaning: To explore the technical feasibility of named entity recognition method based on Chinese electronic medical records in the construction of medical knowledge map and related application promotion. Methods/Process: Using the large-scale real-world medical electronic medical record data to fine-tune the word embedding representation model RoBERTa to build the proprietary embedded representations of the medical terms. Leveraging convolutional neural network model to extract local semantic features. Finally, a stacked BiLSTM is constructed, which has a multi-layer structure and a novel stacked method. Results/Conclusions: The stacked attention network model proposed in this paper achieves 91.5% on F1 value, which has a stronger medical named entity recognition performance than other advanced models. The stacked attention network is proposed to further solve the task of Chinese medical named entity recognition, which can achieve comprehensive and in-depth extraction of global semantic features and reduce the time cost.
Key words: Electronic Medical Record; Knowledge Graph; Named Entity Recognition; Stacked Attention Network; Bidirectional Encoder Representation from Transformers提交时间:2023-12-11
版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。 -
图表
-
刘彬, 肖晓霞, 邹北骥, 周展, 郑立瑞, 谭建聪. 融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型. 2023. doi: 10.12201/bmr.202303.00004
胡海洋, 赵从朴, 马琏, 姜会珍, 张晶, 朱卫国. 基于注意力机制和DGCNN的中文医疗命名实体识别. 2021. doi: 10.12201/bmr.202102.00004
武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016
邓嘉乐, 胡振生, 连万民, 华赟鹏, 周毅. 基于RoBERTa-CRF的肝癌电子病历实体识别研究. 2023. doi: 10.12201/bmr.202303.00027
沈蓉蓉, 夏帅帅, 晏峻峰. 命名实体识别在中医药领域的研究进展. 2022. doi: 10.12201/bmr.202207.00038
李晓瑛, 蔡妙芝, 李军莲, 任慧玲, 冀玉静, 邓盼盼, 夏光辉. 面向文献组织的新冠肺炎知识图谱构建研究. 2020. doi: 10.12201/bmr.202010.00840
冯凤翔, 任慧玲, 李晓瑛, 王巍洁, 王勖, 张颖. 融合相似度算法与预训练模型的中文电子病历实体映射方法研究. 2023. doi: 10.12201/bmr.202305.00015
王华琼, 俞定国, 钱归平. 基于医学社交媒体数据的多模态知识图谱构建. 2022. doi: 10.12201/bmr.202209.00005
周海, 彭斐灵, 韦昌法. 中医诊断学辨证知识图谱构建研究与实践. 2020. doi: 10.12201/bmr.202004.00036
赵佳奇, 王晓锋, 樊羽羽, 张 伟, 王慧璇, 李金山. 电子病历数据质量及对策研究. 2020. doi: 10.12201/bmr.202011.00008
-
序号 提交日期 编号 操作 1 2023-04-06 bmr.202312.00011V1
下载 -
-
公开评论 匿名评论 仅发给作者
引用格式
访问统计
- 阅读量:536
- 下载量:5
- 评论数:0