期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)
关键词:风险预测 非平衡分类 机器学习 流行病
摘要:目的分析比较几种常用的非平衡分类技术在人群糖尿病疾病风险预测模型中的应用。方法利用中国慢性病前瞻性研究浙江省桐乡市项目点基线调查数据和随访数据,使用机器学习算法建立人群糖尿病发病风险的预测模型,同时探讨欠采样、过采样、SMOTE技术及替换切点技术对分类器性能的影响。结果本研究中神经网络预测模型的AUC值最高,达0.7971,经最优切点的选择和分类后,灵敏度和特异度分别为0.7149和0.7431,模型具有较高的预测能力,同时较好的平衡了灵敏度和特异度的分布。采样法对不同分类器的AUC值影响不同,一般欠采样比过采样具有更高的AUC值;随着SMOTE中少数类比例的上升,AUC出现下降的趋势。结论使用神经网络结合替换切点技术建立的人群糖尿病5年发病风险模型具有较高的预测能力,并能够较好的处理非平衡数据的影响。
中国卫生统计杂志要求:
{1}计量单位以国家法定计量单位为准;统计学符号按国家标准《统计学名词及符号》的规定书写。
{2}本刊维护首发权,切勿一稿多投。稿件寄出3个月内未收到用稿通知者,作者可自行处理。来稿一律不再退还。
{3}文章题名应简洁、确切、真实反映文章的主题特色。不超过20字,避免使用非公知公用的缩略字、代号等(一般不用副标题)。
{4}参考文献:引文务必准确,参考文献表中列出的应限于作者直接阅读过的、最主要的、发表在正式出版物上并且在文章中直接引用的文献;按GB7714-87的规定采用顺序编码标注制著录。
{5}通讯作者(第一作者)简介:包括姓名、出生年、性别、民族(指少数民族)、籍贯、职称(学位)及研究方向(附Email与电话号码)。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社