• 国家药监局综合司 国家卫生健康委办公厅
  • 国家药监局综合司 国家卫生健康委办公厅

基于SMOTE-ENN结合XGBoost算法构建胰腺癌术后生存预测模型

通讯作者: 郭亚荣, gyr5258@126.com
DOI:10.12201/bmr.202506.00058
声明:预印本系统所发表的论文仅用于最新科研成果的交流与共享,未经同行评议,因此不建议直接应用于指导临床实践。

Construction of a prediction model for postoperative survival of pancreatic cancer based on SMOTE-ENN combined with XGBoost algorithm

Corresponding author: GuoYarong, gyr5258@126.com
  • 摘要:目的 采用不同机器学习算法在新版AJCC分期的基础上应用大规模数据构建胰腺癌术后患者的生存结局预测模型。方法 基于SEER数据库使用SMOTE和SMOTE-ENN算法处理不平衡数据,利用LR、RF、SVM、DT、XGBoost算法构建预后模型并进行对比,引入SHAP对模型进行解释。结果 SMOTE-ENN结合XGBoost模型的性能最好(准确率为0.862,精确率为0.952,召回率为0.712,F1值为0.762,AUC值为0.884,Brier分数为0.108),校准曲线和决策曲线分别说明该模型具有良好的校准效果和较高的临床应用价值。结论 XGBoost模型性能最优,可作为符合目前临床分期系统的新版AJCC分期下高性能术后预后预测模型,对预测术后患者的生存结局及制定个性化治疗方案提供了理论支持。

    关键词: 胰腺癌不平衡数据XGBoost结局预测

     

    Abstract: Purpose Different algorithms were used to build a prediction model for survival outcomes of patients after pancreatic cancer surgery based on the new version of AJCC staging and large-scale data.Methods? Based on the SEER database, SMOTE and SMOTE-ENN algorithms are used to process unbalanced data, LR, RF, SVM, DT, and XGBoost algorithms are used to build and compare prognostic models, and SHAP is introduced to interpret the models.Results? The performance of SMOTE-ENN combined with XGBoost model was the best (accuracy rate was 0.862, precision rate was 0.952, recall rate was 0.712, F1 value was 0.762, AUC value was 0.884, and Brier score was 0.108). The calibration curve and decision curve showed that the model had good calibration effect and high clinical application value respectively.Conclusion? The XGBoost model has the best performance and can be used as a new high-performance postoperative prognosis prediction model under AJCC staging that conforms to the current clinical staging system, providing theoretical support for predicting postoperative patient survival outcomes and formulating personalized treatment plans.

    Key words: pancreatic cancer; imbalanced data; XGBoost; outcome prediction

    提交时间:2025-06-23

    版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。
  • 图表

  • 阮旭凌, 刘琦, 郭志恒, 晏峻峰. 基于LDA和XGBoost算法的乳腺癌预测模型构建研究. 2022. doi: 10.12201/bmr.202106.00007

    陈舒铃, 舒琦瑾. 舒琦瑾从脾虚毒滞论治胰腺癌经验. 2025. doi: 10.12201/bmr.202507.00004

    王婷婷, 周巍. 基于随机森林算法的高血压合并左室舒张功能障碍预测模型的构建与分析. 2025. doi: 10.12201/bmr.202503.00046

    杨雷, 周梦倩, 汤铜. 术前淋巴结超声特征对甲状腺癌颈侧区淋巴结转移风险的预测. 2024. doi: 10.12201/bmr.202410.00035

    胡欣. 剖宫产术中寒战风险预测模型及列线图的构建. 2025. doi: 10.12201/bmr.202501.00053

    韦云师, 莫伟, 向娅, 廖秋姣, 何柳, 凌朝灵, 陆启祥, 刘芳印. 老年髋部骨折患者术后谵妄风险预测模型的研究进展. 2024. doi: 10.12201/bmr.202409.00029

    杜雪杰, 葛辉. 基于BP神经网络方法构建手足口病预测预警模型设计研究. 2021. doi: 10.12201/bmr.202102.00002

    李苑, 钱琳, 杨义. 中药治疗乳腺癌用药规律研究—基于真实世界的数据挖掘. 2025. doi: 10.12201/bmr.202506.00022

    蔡欣欣, 吴夏阳. 早产儿入院败血症风险预测模型的构建与验证. 2025. doi: 10.12201/bmr.202505.00013

    付思思. 非小细胞肺癌患者肺叶切除术后恶心呕吐Nomogram分析模型构建与验证. 2025. doi: 10.12201/bmr.202507.00001

  • 序号 提交日期 编号 操作
    1 2025-06-01

    bmr.202506.00058V1

    下载
  • 公开评论  匿名评论  仅发给作者

引用格式

王佳琪, 罗艳虹, 郭亚荣. 基于SMOTE-ENN结合XGBoost算法构建胰腺癌术后生存预测模型. 2025. biomedRxiv.202506.00058

访问统计

  • 阅读量:42
  • 下载量: 0
  • 评论数:0

Email This Article

User name:
Email:*请输入正确邮箱
Code:*验证码错误