基于改进PCA约简算法的研究
2019-07-08蔡晓亚张晓群
蔡晓亚 张晓群
摘 要:疾病的影响因素有很多,找到关键的影响因子对于前期疾病预测至关重要。文章数据来源是克利夫兰基金诊疗所关于心脏病诊断的数据,将样本数据与知识经验的方法相结合,利用改进的PCA对诊断数据进行属性约简并计算主成分权重,最终提取出关键的影响因子。
关键词:主成分权重;PCA法;影响因子
据2015年的中国疾病报告显示,城乡居民因心脏病疾病死亡人数居各种疾病死亡人数的首位[1],严重威胁着人们的生活。针对疾病的研究,国内外的专家学者提出了确定疾病影响因子的概念。所以对疾病早发现、早诊断,将成为未来心脏病治疗新方向[2]。
疾病的诊断中需要参考的指标项目目前已十分明朗,但是在运用计算机技术以及数学方法进行诊断时,属性特征个数越多诊断越复杂。在研究疾病影响因子时,提高准确率是研究的首要问题,然而个体之间存在差异性[3],疾病诱发因子不尽相同,包括年龄、性别、吸烟情况等,这些疾病影响因子之间是相互联系又相互制约的,所以筛选出最少的包含最多信息的因子至关重要。心脏病属性约简就是通过一定的方法从原始采集的多项生理特征集合中选择最具代表性的部分属性特征,由于属性特征个数越多,越会影响最后结果的准确性,因此属性约简在保证数据不失真的前提下筛选掉部分冗余的特征信息来提高目标结果的准确性。文章利用主成分分析(Principal Component Analysis,PCA)[4]对特征集进行属性约简,并对主成分分析进行了改进,通过结合专家意见计算主成分权重,最终获得约简后的主要因子。
1 一次主成分分析
主成分分析方法是一种统计分析方法,该方法通过对数据进行简化,使简化的信息能够以最少的信息量反应未简化之前的大部分信息。简言之,PCA将分量相关的原始数据转化成分量不相关的数据,是以较少的综合指标来代替原来具有一定相关性或相制约的较多的指标。使用PCA方法能使问题变得简单,更易处理。
按照传统PCA算法进行一次主成分分析,其主要步骤如下。
(1)构造原始特征值矩阵。训练样本集中共包含n个样本数据,其中,每个样本数据中含有P个特征,构成n×p的样本矩阵X。
(2)对原始特征值做归一化处理。本文将原始特征值进行Z-score标准化,即将样本矩阵X经过处理得到归一化特征矩阵。
3 实验结果与分析
本文实验数据来自克利夫兰基金诊疗所关于心脏病诊断的数据集,所下载的数据集中共包含303例样例,每个样例中包含年龄、性别、是否抽烟、血压值、运动等75个生理特征指标。303例样例中,患有心脏病为139例,另外164例为正常数据。按照特征数据信息的累积贡献率≥85%原则,经主成分第一次分析处理后,保留了9项生理特征。
这9项生理特征数据信息包括年龄C1,性别C2,胸部疼痛类型C3,静息血压C4,血清类固醇C5,空腹血糖是否超标C6,静息心电图结果C7,最大心率C8,锻炼时是否引起心绞痛C9。
在经过第一次的传统主成分分析后,结合专家打分对9项生理特征进行二次主成分分析。咨询5位专家分别对以上9个生理特征进行打分,分值从1到5,重要程度依次上升。专家打分情况如下所示:
5位专家对C1打分为:1,2,3,4,5;C2打分为:3,2,3,4,3;C3打分为:2,2,3,4,2;C4打分为:4,5,4,4,4;C5打分为:4,4,5,4,4;C6打分為:4,4,5,4,4;C7打分为:5,5,5,5,5;C8打分为:3,5,4,5,5;C9打分为:5,5,5,5,5。
对5位专家打分情况经过二次分析即可得指标集{age,sex,cpt,rbs,chol,fbs,restecg,thalach,exang};对应的权重集为{0.058 59,0.050 78,0.089 84,0.082 03,0.082 03,0.082 03,0.097 66,0.085 94,0.097 66}。
根据以上计算,取权重大于0.08以上指标作为最终约简集。所以,最终对心脏病的影响因子包括:胸部疼痛类型、静息血压、血清类固醇、空腹血糖是否超标、静息心电图结果、最大心率、锻炼时是否引起心绞痛。
4 结语
本文旨在利用医疗多类型数据分析心血管疾病的诊断因素,结合专家临床经验改进的主成分分析方法,确定主成分,并利用专家打分计算了各个主成分所占的权重,最终确定影响心脏病的主要因子,对今后研究心脏病提供理论支持。
[参考文献]
[1]陈伟伟,高润霖,刘力生,等.《中国心血管病报告2015》概要[J].中国循环杂志,2016(6):521-528.
[2]ZHENG Y L,DING X R,POON C C Y,et al.Unobtrusive sensing and wearable devices for health informatics[J].IEEE Trans Bio-Med Eng,2014(5):1538-1554.
[3]周兴虎.辽宁省农村人群心血管疾病发病风险预测和验证研究[D].沈阳:中国医科大学,2014.
[4]童星慧.面向冠心病血检数据的函数型主成分方法研究[D].安庆:安庆师范大学,2016.