阮旭凌, 刘琦, 郭志恒, 晏峻峰. 基于LDA和XGBoost算法的乳腺癌预测模型构建研究. 2022. biomedRxiv.202106.00007
基于LDA和XGBoost算法的乳腺癌预测模型构建研究
通讯作者: 晏峻峰, junfengyan@hnucm.edu.cn
DOI:10.12201/bmr.202106.00007
Research on prediction model of breast cancer based on LDA and XGBoost algorithm
Corresponding author: yanjunfeng, junfengyan@hnucm.edu.cn
-
摘要:乳腺癌是女性癌症死亡的主要原因,并且男性乳腺癌患者的人数也不可轻视,因此运用信息技术预测病情是提高疾病诊断率的重要途径。本实验对kaggle数据库提供的乳腺癌数据集的多项指标特征进行降维处理,分析了498组30维乳腺癌患者的医学检验指标,采用线性判别式分析方法(linear discriminant analysis,LDA)合并特征属性,将数据投影至低维度空间,并提出极端梯度提升算法(eXtreme Gradient Boosting,Xgboost),借用网格搜索进行交叉验证获得最优参数构建XGBoost预测模型,同时以Adaboost,随机森林,朴素贝叶斯算法作为性能比较分类器;实验结果表明,降维处理后训练的预测模型分类准确率比降维前平均高出2.7%,其中XGBoost构建的预测模型分类效果最佳达到了98.7%。
Abstract: Breast cancer is the leading cause of cancer death in women, and the number of male breast cancer patients can not be ignored. Therefore, using information technology to predict the disease is an important way to improve the rate of disease diagnosis. This experiment carries out dimension reduction to the multi index characteristics of the breast cancer dataset provided by the kaggle database, analyzes the medical test indexes of the 498 groups of 30 dimensional breast cancer patients, uses the linear discriminant analysis (LDA) to merge the characteristic attributes, and projects the data to the low dimensional space, and proposes the extreme gradient lifting algorithm (eXtreme Gradient Boosting). Xgboost), which uses grid search for cross validation to obtain the optimal parameters, constructs xgboost prediction model, and uses AdaBoost, random forest and naive Bayes algorithm as performance comparison classifiers; The experimental results show that the classification accuracy of the prediction model trained after dimensionality reduction is 2.7% higher than that before dimensionality reduction, and the classification effect of the prediction model constructed by xgboost is the best, reaching 98.7%.
Key words: breast cancer; Dimension reduction; LDA; XGBoost; classification提交时间:2022-03-07
版权声明:作者本人独立拥有该论文的版权,预印本系统仅拥有论文的永久保存权利。任何人未经允许不得重复使用。 -
图表
-
黄昱诚, 杨旭明, 乔琼. 基于数据挖掘的乳腺癌复发因素预测模型构建. 2020. doi: 10.12201/bmr.202009.00011
詹海侠, 胡东, 张文婷, 顾影. 集束化护理模式对乳腺癌改良根治术后患者肩关节功能恢复及生命质量的影响. 2020. doi: 10.12201/bmr.202004.00015
朱笑笑, 钱爱兵. 基于百度指数的乳腺癌防治健康信息网络关注特征分析. 2020. doi: 10.12201/bmr.201906.00001
李昱, 杨涛, 胡孔法. 基于层次社团划分算法的名老中医治疗肺癌的用药规律研究. 2021. doi: 10.12201/bmr.202110.00020
冯利, 岳小飞. 9种结合式机器学习算法在基于高维数据的肿瘤早期诊断准确性的比较研究. 2021. doi: 10.12201/bmr.202108.00016
谢甲琦, 李政. 基于预训练语言模型的公众健康问句分类. 2021. doi: 10.12201/bmr.202101.00017
徐晓巍, 郭海红, 李姣. 面向公众健康问句分类数据挖掘算法评测研究. 2021. doi: 10.12201/bmr.202101.00018
康一帅, 邵陈杰. 基于统一语言模型的中医文献问题生成算法. 2022. doi: 10.12201/bmr.202110.00044
穆珺, 肖晓霞, 刘青萍. 基于问题驱动和能力导向的《计算思维与算法设计基础》课程教学实践探索. 2021. doi: 10.12201/bmr.202108.00015
郭梦颖, 周易, 和静淑, 潘佳欣, 孙靖凯, 黄炜. 基于卡片分类法的中医医院微信公众号服务平台的功能分类研究. 2020. doi: 10.12201/bmr.202010.00833
-
-
公开评论 匿名评论 仅发给作者
引用格式
访问统计
- 阅读量:1088
- 下载量:13
- 评论数:0