APP下载

基于Relief 特征选择算法的癌症患者缺血性脑卒中高危因素分析*

2023-07-03赵安容徐世成崔利君李垚李波王莉

肿瘤预防与治疗 2023年5期
关键词:特征选择癌症权重

赵安容,徐世成,崔利君,李垚,李波,王莉

636000 四川 巴中,巴中市中心医院 神经内科(赵安容、徐世成、崔利君、李垚、李波);637002 四川 南充,川北医学院附属医院 神经内科(王莉)

急性缺血性脑卒中(acute ischemic stroke, AIS)是脑血管疾病中最为常见的一种类型,约占全部急性脑血管疾病的70%,具有高发病率、高致残率、高病死率等特征,是全球范围内的第一位致残病因和第二位致死病因,已经成为严重危害人类生命健康的重大疾病之一[1-2]。癌症患者缺血性脑卒中(cancer-associated ischemic stroke, CAIS)是癌症患者最常见的中枢神经系统并发症之一[3],CAIS 的发病机制目前尚未完全清楚,除了传统脑血管病危险因素如高血压、高血糖等因素外,CAIS 的发病可能还与癌症介导的高凝状态、瘤栓塞及肿瘤治疗的并发症或不良反应等有关[4-5]。数据挖掘Relief 特征选择算法作为特征权重算法之一,根据数据的特征与类别的相关性来赋予每个特征不同的权重值,并对权重进行排序,可根据权重排序获得分辨能力强的特征子集。Relief 特征选择算法对数据类型并无明确要求且可以较好地去除数据中的无关特征,从而具有评估效率高的优点[6]。本研究以巴中市中心医院神经内科2016 年1 月至2021 年12 月连续收治的1 260 例AIS 患者构建数据库,运用Relief 特征选择算法探讨各个危险因素(特征)与是否CAIS(类别)的相关性并赋予不同的权重值,为预测本地区CAIS 的危险因素提供相关参考依据。

1 对象与方法

1.1 研究对象

以巴中市中心医院神经内科2016 年1 月至2021 年12 月连续收治的1 260 例AIS 患者作为研究对象,收集患者的临床资料构建数据库。纳入标准:(1)符合中华医学会第四届全国脑血管病学术会议修订的诊断标准[7]诊断为AIS;(2)经头颅CT或MRI 证实;(3) 脑血管事件发生至入院接受治疗时间小于3 d;(4)年龄>18 岁;(5)CAIS 患者必须有明确的病理诊断,确诊为癌症。排除标准:(1)有脑肿瘤病史、既往脑卒中病史且造成神经功能障碍患者;(2)伴有严重感染性疾病、严重肝、肾功能不全者;(3)拒绝登记注册者。按照AIS 发病前有无活动性非神经系统癌症分为癌症患者缺血性脑卒中组(CAIS 组,n=116)和非癌症患者缺血性脑卒中组(NCAIS 组,n=1 564)。全部研究对象的知情同意均已获得,并获得医院伦理委员会批准。

1.2 研究方法

1.2.1 资料收集 全部AIS 患者均按照标准的脑卒中注册登记系统完成登记记录,主要包括一般资料(姓名、性别、年龄等)、既往疾病史、临床体征、格拉斯哥昏迷量表(Glasgow Coma Scale, GCS)评分、美国国立卫生研究院卒中量表(National Institutes of Health Stroke Scale,NIHSS)评分、影像学检查结果、实验室检查结果、治疗药物情况、出院诊断及预后改良Rankin 量表(Modified Rankin Scale,mRS)评分等。列入待评价的可能危险因素主要包括:性别、年龄、是否吸烟、是否饮酒、是否罹患高血压、是否罹患糖尿病、是否罹患高脂血症、短暂性脑缺血发作疾病史、脑卒中疾病史、房颤疾病史、甘油三酯、总胆固醇、低密度脂蛋白、高密度脂蛋白、血尿素氮、血肌酐、血尿酸、谷丙转氨酶、谷草转氨酶、同型半胱氨酸等,将数据资料录入Epidata 3.1 数据库。

1.2.2 Relief 特征选择算法 Relief 特征选择算法是一种基于各个特征(危险因素)与类别(是否CAIS)的相关性来计算特征(危险因素)权重的算法,与类别(是否CAIS)相关性高的特征(危险因素)更利于分类判别,因此被赋予较高的权重值。具体算法为:①设定初始集合:类别集合Y=[y1,y2];特征集合X=[x1,x2,…,xn];②运用Relief 函数对特征集合X的所有特征值x 进行计算,得到每个特征值的权重值;③重复运行主程序20 次,求出每个特征值的平均权重值;④将所有特征值x按降序排列;⑤输出降序排名后的特征值列表R。

1.3 统计学方法

采用SPSS 17.0 软件进行统计处理,计量资料采用均数±标准差表示,组间比较采用t检验,计数资料采用率或构成比(%)进行描述,组间比较采用χ2检验;以P< 0.05 表示差异有统计学意义。采用Matlab 软件运用Relief 算法对数据库中数据进行分析,计算不同危险因素的权重值。

2 结 果

2.1 一般资料比较

CAIS组男性68例(58.62%),女性48例(41.38%),NCAIS 组男性860 例(54.99%),女性704 例(45.01%),两组性别构成差异无统计学意义(P> 0.05);CAIS 组年龄分布32~86 岁,NCAIS 组年龄分布46 ~ 84 岁,两组平均年龄之间差异无统计学意义(P> 0.05)。两组性别、年龄具有可比性(表1)。

表1 CAIS 组与NCAIS 组患者一般资料比较Table 1.General Data of Patients in CAIS group and NCAIS Group

2.2 数据预处理

设定初始集合:类别集合Y=[y1,y2],即y1=脑卒中患者、y2=健康对照人群;特征集合X=[x1,x2,…,xn],即x1=性别、x2=年龄、…、x20=同型半胱氨酸。具体特征名称分配及取值范围详见表2。

表2 特征名称分配及取值范围Table 2.Characteristic Variables of Risk Factors and Their Value Ranges

2.3 Rlief 算法实验结果

权重系数取值范围-1~1,正值表示该特征变量(危险因素)与分类(是否CAIS)具有相关性,数值越大,相关性越强。按权重系数排序后有15 个危险因素与CAIS 发病有关,权重系数大于0.1 的危险因素依次为:脑卒中疾病史、饮酒和高血脂症,是其最主要的危险因素(表3)。

表3 特征集中20 个危险因素的权重值Table 3.Weight Values of 20 Risk Factors in the Feature Set

3 讨 论

AIS 因其高发病率、高致死率和高致残率一直是近些年神经科领域研究的热点及难点问题[8-9]。近年的研究发现[10-11],高血压、吸烟、糖尿病、心房颤动、其他心脏病(急性冠状动脉综合征、心衰等)、血脂异常、无症状颈动脉狭窄、缺乏身体活动、低蔬菜水果摄入量、肥胖、饮酒、代谢综合征、高同型半胱氨酸血症、炎症和感染等是目前较为公认的脑卒中的主要危险因素。但有研究发现,AIS 的癌症和非癌症患者发病危险因素及临床特点和预后方面存在差异[12-13],如何识别CAIS 患者的主要危险因素,并进行针对性的脑卒中危险因素的一级预防、早期干预,这对减少脑卒中的发生有着重要的临床意义[14]。

基于脑卒中注册登记数据库中的脑卒中疾病资料信息,神经科医师可以进行一定区域范围内的病因学、流行病学等方面的研究。脑卒中注册登记数据库是大样本的数据管理系统,面对庞大的数据,如何应用计算机方法提取、挖掘潜在的、有用的信息是神经科医师需要面对的主要问题。本研究在整合脑卒中注册登记数据库及CAIS 人群的Epidata 数据库资料的基础上,应用数据挖掘Relief 特征选择算法提取数据库中隐藏的疾病与危险因素之间相关关系的潜在信息,以明确本地区CAIS 发生的主要危险因素及其影响排序,以指导本地区医师即针对癌症相关脑卒中的危险因素进行积极地早期干预预防等一级预防工作。

本组数据研究结果显示,相对于非癌症患者,本地区CAIS 发病的危险因素中,脑卒中疾病史在脑卒中发生中所占的权重值最大,其次为饮酒和高血脂症,权重系数均大于0.1。已有大量文献报道,有脑卒中疾病史是再次发生脑卒中的重要危险因素。巴中地处秦巴山区,当地的酒文化浓厚,当地饮酒人群及每日饮酒量都明显高于其他地区[15-16],因此,饮酒已经成为本地区癌症相关脑卒中发生的主要危险因素之一。在实验室检查方面,血尿素氮、血尿酸、总胆固醇、同型半胱氨酸及甘油三酯水平等在区别癌症与非癌症与脑卒中高危患者中具有重要提示作用,上述指标对于CAIS 的一级预防具有重要的指导作用,并且可以直接应用于脑卒中的早期筛查中[17-18]。而一些传统意义上的危险因素如:吸烟、高血压、糖尿病、短暂性脑缺血发作疾病史等在区分癌症与非癌症脑卒中人群时的权重值为负值,表示其与脑卒中的发作的相关性并不大。既往已有临床研究发现在无传统脑血管疾病危险因素(包括高血压、糖尿病等)的恶性肿瘤患者中,脑卒中的发病风险也增加明显[19]。这也进一步证实了,CAIS 患者的发病危险因素与单纯AIS 的发病危险因素之间存在差异,多数CAIS 患者发病缺乏传统的高血压、糖尿病等脑血管危险因素[20]。

综上所述,利用数据挖掘Relief 特征选择算法可以挖掘脑卒中注册登记数据库中与CAIS 发病密切相关的危险因素,主要包括脑卒中疾病史、饮酒和高血脂症。但需要指出的是Relief 特征选择算法仍然存在一定的缺陷,如对不同特征(危险因素)的权重值只能作为区别不同类别(是否CAIS)的依据,但不能说明该属性在多种疾病状态中所的作用。因此,应用Relief 特征选择算法需要结合其他统计学方法和具体数据库资料,方能更加准确的挖掘数据库的各种潜在信息。

作者声明:本文全部作者对于研究和撰写的论文出现的不端行为承担相应责任;并承诺论文中涉及的原始图片、数据资料等已按照有关规定保存,可接受核查。

学术不端:本文在初审、返修及出版前均通过中国知网(CNKI)科技期刊学术不端文献检测系统的学术不端检测。

同行评议:经同行专家双盲外审,达到刊发要求。

利益冲突:所有作者均声明不存在利益冲突。

文章版权:本文出版前已与全体作者签署了论文授权书等协议。

猜你喜欢

特征选择癌症权重
体检发现的结节,离癌症有多远?
权重常思“浮名轻”
为党督政勤履职 代民行权重担当
癌症“偏爱”那些人?
对癌症要恩威并施
不如拥抱癌症
基于公约式权重的截短线性分组码盲识别方法
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于特征选择和RRVPMCD的滚动轴承故障诊断方法