• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

基于RoBERTa-CRF的肝癌电子病历实体识别研究

通讯作者: 周毅, zhouyi@mail.sysu.edu.cn
DOI:10.12201/bmr.202303.00027
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Research on entity recognition of liver cancer electronic medical records based on RoBERTa-CRF

Corresponding author: Zhou Yi, zhouyi@mail.sysu.edu.cn
  • 摘要:意义 肝癌电子病历中蕴涵着大量的医学专业知识,并且大部分以难以自动化提取的非结构化数据形式存在。进行知识提取将对于构建肝癌领域医疗辅助决策系统和医学知识图谱起着关键的作用。方法 本文构建的RoBERTa算法与CRF算法的结合的命名实体识别模型,达到了优良的模型效果,利用自标注肝癌电子病历真实数据进行模型训练与测试。结果 RoBERTa-CRF模型优于其他基线模型,具有较好实体识别效果。

    关键词: 肝癌电子病历;实体识别;知识提取;RoBERTa-CRF模型

     

    Abstract: Purpose Electronic medical records of liver cancer contain a large amount of medical knowledge, and most of the knowledge is in the form of unstructured data which is difficult to extract automatically. Knowledge extraction is important in the construction of clinical decision support systems and medical knowledge graphs in the area of liver cancer.Method This paper builds a named entity recognition model combined with RoBERTa algorithm and CRF algorithm and the model achieves excellent effect. The real data of self-labeled electronic medical records of liver cancer are used for model training and testing. Result RoBERTa-CRF model is better than other baseline models and has good entity recognition effect.

    Key words: electronic medical records of liver cancer; entity recognition; knowledge extraction; RoBERTa-CRF model

    提交时间:2023-03-22

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 陈婕卿, 竹志超, 张锋, 曾可, 姜会珍, 程振宁. 面向知识图谱构建的中文电子病历命名实体识别方法研究. 2023. doi: 10.12201/bmr.202312.00011

    刘彬, 肖晓霞, 邹北骥, 周展, 郑立瑞, 谭建聪. 融合汉字部首的BERT-BiLSTM-CRF中医医案命名实体识别模型. 2023. doi: 10.12201/bmr.202303.00004

    武学鸿, 杨峰, 李建华, 徐倩. 融合词向量及词属性推理的中文电子病历实体识别方法. 2021. doi: 10.12201/bmr.202109.00016

    冯凤翔, 任慧玲, 李晓瑛, 王巍洁, 王勖, 张颖. 融合相似度算法与预训练模型的中文电子病历实体映射方法研究. 2023. doi: 10.12201/bmr.202305.00015

    陈剑秋, 黄晓芳, 周祖宏, 廖敏. 基于BERT的电子病历实体关系联合抽取研究. 2022. doi: 10.12201/bmr.202206.00003

    沈蓉蓉, 夏帅帅, 晏峻峰. 命名实体识别在中医药领域的研究进展. 2022. doi: 10.12201/bmr.202207.00038

    胡海洋, 赵从朴, 马琏, 姜会珍, 张晶, 朱卫国. 基于注意力机制和DGCNN的中文医疗命名实体识别. 2021. doi: 10.12201/bmr.202102.00004

    邓兰, 杜同舟. 一种高效安全的密文电子病历多关键字检索方案. 2021. doi: 10.12201/bmr.202105.00008

    孙成浩, 刘芬, 赵峰. 基于区块链技术的电子病历系统研究. 2020. doi: 10.12201/bmr.202007.00012

    赵佳奇, 王晓锋, 樊羽羽, 张 伟, 王慧璇, 李金山. 电子病历数据质量及对策研究. 2020. doi: 10.12201/bmr.202011.00008

  • 序号 提交日期 编号 操作
    1 2022-12-02

    10.12201/bmr.202303.00027V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

邓嘉乐, 胡振生, 连万民, 华赟鹏, 周毅. 基于RoBERTa-CRF的肝癌电子病历实体识别研究. 2023. biomedRxiv.202303.00027

推荐引用格式

邓嘉乐,胡振生,连万民,等.基于RoBERTa-CRF的肝癌电子病历实体识别研究[J].医学信息学杂志,2023,44(6):42-47

访问统计

  • 阅读量:918
  • 下载量: 0
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误