• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

生成式人工智能医学语料库:数据风险、合规义务及应对方案

通讯作者: 方安, fang.an@imicams.ac.cn
DOI:10.12201/bmr.202512.00083
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Data Risks, Compliance Obligations, and Countermeasures for Medical Corpora in Generative AI

Corresponding author: fang an, fang.an@imicams.ac.cn
  • 摘要:目的/意义 研究医学生成式人工智能语料库的数据风险,旨在探讨我国医学生成式人工智能语料库的合规义务和风险应对方案,进一步推动医学生成式人工智能语料库合规建设方法的发展。 方法/过程 基于合规管理理论,根据生成式人工智能语料库构建和管理的数据生命周期,按阶段梳理对我国生成式人工智能及医学数据法律法规体系,并提出针对隐私风险、训练数据偏倚风险、知识产权风险的应对方案。结果/结论 应对医学生成式人工智能服务语料库数据合规的风险,需要从三个维度进行风险应对:一是,以合法性为基准,遵守目的限制与最小必要性原则、数据主体权利保障原则、数据安全与风险防控原则。二是,遵循我国法律法规、国家标准及行业标准,做好原始数据获取、数据标注。三是,采用自动化手段,辅助应对生成式人工智能医学语料库的各类风险。

    关键词: 生成式人工智能医学语料库数据合规合规义务风险应对

     

    Abstract: Purpose/Significance This study investigates the data risks associated with medical corpora in generative artificial intelligence (GenAI). It aims to explore the compliance obligations and risk mitigation strategies relevant to such corpora in China, thereby contributing to the development of compliant governance methods for medical datasets for GenAI. Method/Process Based on risk and compliance management principles and theory, the study examined the data lifecycle of corpora in GenAI and reviewed China’s legal and regulatory framework concerning GenAI and medical data. It then proposed targeted solutions to address three major risks: data security and privacy, training data bias, and data legitimacy. Result/Conclusion The research focuses on the pressing compliance issues in medical corpora in GenAI and presents three practical approaches. First, it emphasizes legality as the foundation, following key principles such as purpose limitation, data minimization, data rights protection, and risk prevention. Second, it aligns data collection and annotation practices with laws in China, national standards, and industry guidelines. Third, it leverages automated tools to help identify and manage risks throughout the data lifecycle. These findings offer insights for improving the compliant development and application of healthcare contexts for GenAI.

    Key words: generative artificial intelligence; medical corpora; data compliance; compliance obligations; risk mitigation

    提交时间:2025-12-31

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 中国科学技术信息研究所, 北京市海淀区复兴路号. 基于生成式人工智能的医学视频创作路径探究. 2025. doi: 10.12201/bmr.202508.00005

    史森中. 生成式人工智能(GAI)基层医疗应用风险及治理策略分析. 2024. doi: 10.12201/bmr.202408.00053

    孟冬晴, 吕文娟. 生成式人工智能赋能医学图书馆知识服务的路径研究. 2025. doi: 10.12201/bmr.202510.00039

    弓孟春, 李雨杭, 马永慧, 弓凯, 刘超, 欧阳自豪, 戴辉. 生成式医学人工智能(GMAI)的临床伦理治理:三维协同路径与中国实践. 2025. doi: 10.12201/bmr.202511.00057

    周月, 赵敏. 公立医院科研资金使用合规性研究与实践. 2025. doi: 10.12201/bmr.202501.00081

    向艾宁堃, 田靖雪, 胡德华, 刘海霞. 生成式人工智能对于老年糖尿病应答效能的比较研究. 2025. doi: 10.12201/bmr.202503.00019

    董怡, 冉晔, 余中光. 我国医疗人工智能风险研究现状及风险识别. 2024. doi: 10.12201/bmr.202411.00081

    黄晗琦, 周曼慈, 杨惠雯, 王睿智, 王若佳. 社会公众视角下医疗人工智能应用的伦理风险研究*. 2025. doi: 10.12201/bmr.202511.00062

    李韬, 冯贺霞. 人工智能在医疗健康领域中的创新应用、风险挑战与治理对策. 2025. doi: 10.12201/bmr.202501.00067

    吴思静, 许彬彬, 黄凤. 浙江省医学人工智能发展现状与政策建议. 2021. doi: 10.12201/bmr.202101.00015

  • 序号 提交日期 编号 操作
    1 2025-11-24

    10.12201/bmr.202512.00083V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

王蕾, 刘苗, 王茜, 赵琬清, 胡佳慧, 方安. 生成式人工智能医学语料库:数据风险、合规义务及应对方案. 2025. biomedRxiv.202512.00083

访问统计

  • 阅读量:21
  • 下载量: 0
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误