• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

基于 UNILM 的中医文献问题条件生成模型

通讯作者: 尚欣, 2899870779@qq.com
DOI:10.12201/bmr.202110.00036
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

The Model based on UNILM of question conditional generation in the field of Chinese medicine

Corresponding author: shang xin, 2899870779@qq.com
  • 摘要:该文主要针对的是中医领域段落或句子及其相关回答生成对应问题或问题组的条件文本生成任务。传统方法主要采用循环神经网络进行建模,然而这些方法存在诸多问题:(1)准确率低;(2)并行性差;(3)有着比较严重的曝光偏差和重复生成问题;(4)有着严重的长期依赖问题。最近的一些先进模型由于缺少中文预训练资源和算力资源而难以复现。针对上述问题,该文提出了一种基于 UNILM 的条件问题生成模型,并增加了包括嵌入层,copy 机制,对抗训练等模块。该文模型在“单基准模型,无集束搜索,不区分大小写”的条件下,在天池平台上的中医文献问题生成挑战赛取得了第二名的成绩(63.56%,第一名 63.79%),并且还有较大的提升空间。

    关键词: 问题生成UNILM统一语言模型copy机制对抗训练

     

    Abstract: This paper focuses on the task of generating conditional text corresponding to questions or question groups forparagraphs or sentences and their related answers in the field of Chinese medicine. Traditional methods mainly use recurrentneural network for modeling, but these methods have many problems: (1) Low accuracy; (2)The parallelism is poor; (3)Relatively serious exposure deviation and repetitive generation problems; (4) A serious long-term dependency problem.Some recent advanced models are difficult to reproduce due to the lack of Chinese pre-training resources and computingresources. To solve these problems, we propose a conditional generation model based on UNILM, meanwhile, we add twoadditional embedding layers, copy mechanism, confrontation training and other modules to the base model. Under thecondition of single base model, no beam search and no case sensitivity, we achieved the second place (63.56%, while thefirst place got 63.79%) in the Challenge of TCM Literature Question generation on Tianchi platform, and it still has a largeroom for improvement.

    Key words: question generation; Unified Language Model Pre-training for Natural Language(UNILM); copy mechanism; adversarial training

    提交时间:2022-04-07

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 康一帅, 邵陈杰. 基于统一语言模型的中医文献问题生成算法. 2022. doi: 10.12201/bmr.202110.00044

    谢甲琦, 李政. 基于预训练语言模型的公众健康问句分类. 2021. doi: 10.12201/bmr.202101.00017

    贾李蓉. 中医药自动问答系统的问题理解研究. 2021. doi: 10.12201/bmr.202101.00002

    庞震, 顾继昱, 吴宇飞, 颜仕星, 李汪洋, 孙越. 一种基于三元组抽取策略解决中医诊治高血压医疗实体提取问题的研究. 2021. doi: 10.12201/bmr.202107.00015

    朱宇凡, 赵欣, 杨志强, 钟厚成, 蔡林, 谢远龙. “人工智能+医学”复合型人才培养展望. 2020. doi: 10.12201/bmr.202008.00010

    向海平, 肖丽, 徐驰. 基于FHIR术语组件构建统一术语服务. 2021. doi: 10.12201/bmr.202107.00005

    胡海洋, 赵从朴, 马琏, 姜会珍, 张晶, 朱卫国. 基于注意力机制和DGCNN的中文医疗命名实体识别. 2021. doi: 10.12201/bmr.202102.00004

    郭哲韬, 石文丽, 杨涛. 基于语音识别的中医临床诊疗智能语音助理的设计与实现. 2021. doi: 10.12201/bmr.202110.00013

    孙海舒, 高宏杰. 基于结构方程模型的中医技术干预失眠平台设计与实现孙海舒1 高宏杰*. 2021. doi: 10.12201/bmr.202103.00001

    翟兴, 李国梁, 郭凤英. 中医院校大数据管理与应用专业课体系构建研究*. 2020. doi: 10.12201/bmr.202008.00008

  • 序号 提交日期 编号 操作
    2 2022-03-31

    bmr.202110.00036V2

    下载
    1 2021-10-31

    bmr.202110.00036V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

郭炫志, 周武洁, 尚欣, 连春华, 詹开明, 林隆永. 基于 UNILM 的中医文献问题条件生成模型. 2021. biomedRxiv.202110.00036

访问统计

  • 阅读量:950
  • 下载量:4
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误