APP下载

一种基于高相关性特征集选择技术的病历大数据分类方法

2020-04-06胡俊承

数字通信世界 2020年3期
关键词:子集宫颈癌分层

胡俊承

(桂林医学院,桂林 541001)

0 引言

分类是根据需求对数据进行最有效使用的分组过程。数据分类可分为两个步骤,学习过程和分类过程。有效的分类技术可以帮助人们非常轻松地检索到需要的数据,本文将以庞大的病例数据分类为例。不同的疾病可采取不同的治疗方法,治疗方法取决于病人自身的健康标准。处理如此繁复的病例数据需要巨大的工作量,分层学习方法在处理这些数据时表现可圈可点,在过去的研究当中有所体现。L.Cai and T.Hofmann[1]提出将支持向量机(SVM)标准分类与分层方法相结合,提高支持向量机分类精度,减少支持向量机测试的计算量。T.Gao and D.Kollar[2]探讨了层次聚类在高维生物医学光谱分类中的有效性。

然而分层学习的性能很大程度上取决于特征选择的质量。特征子集选择按照评价标准和方法的不同可分为四种类型,分别为过滤式(Filter)[3]、封装式(Wrapper)、混用式(Hybrid)和嵌入式(Embeded)。利用过多的特征进行分类会导致性能瓶颈,因此正确谨慎地选择特征子集显得尤为重要。本文设计了一种基于高相关性特征选择技术的过滤式特征选择方法,可以更正确有效地结合分层学习识别较好的特征子集,提高对病例数据中宫颈癌信息分类的性能。

1 分层学习方法

在对高维病历进行分类时,采用分层学习的方法可以得到较好的分类结果。该分类器以特征作为输入,从宫颈癌数据集中检索各种类别的记录,包括患者信息和宫颈癌疾病的治疗信息。对于分类高维病历,分层学习算法体现出更好的性能。在此实验中,分类器将从病例数据检索出的特征作为输入。首先评估患者治疗类别之间的类别间相关性,评估过程可以以一下方程式定义

2 高相关特征集选择(HCFS)算法

这里我们设计一个高相关特征集选择(HCFS)算法以及步骤。使用这一算法可以帮助系统选择更合适的特征,这一算法可与已有的分层学习算法相结合,使得数据分类性能得到提升。图1大致描述了HCFS算法的工作原理。

其输入为病例数据集(D)以及特征和类标签(f1,f2,f3……c1,……cn),输出为特征子集(s)。该算法首先设置相关阈值(t),该阈值是通过查找特征和类标签之间的关联来估计的。寻找特征之间相关性(fi,fj),特征与类之间相关性(fi,cj),相关值(v)。然后将属性或特征表示为节点,将估计的相关值作为边缘权重(e1,e2,……,en),在此基础上形成决策树。

通过将相关值与初始设定的预定义阈值进行比较,对构建的树进行划分。如果计算出的相关值(v)<阈值(t),则该特定边缘将被排除。

在此过程之后,将生成特性集群(称为簇),从这组特征中可以确定簇头。该算法从宫颈癌数据集中检索出高质量的特征簇,并将这些特征输入到分层学习方法中运算,以获得更好的分类性能。

图1 HCFS算法的工作原理

3 实验结果

在表1中,实验对两种不同的分类方法进行精确性的比较。实验采用宫颈癌的治疗数据作为数据集,对比结合HCFS的分层学习算法与单一的分层学习算法,可以明显得看出在不同的病人分类中,结合了HCFS的分层学习算法的精确度都有明显地提升。

表1 结合HCFS的分层学习算法与分层学习算法的精确度对比

4 结束语

已有的分层学习算法虽然在分类上效率较高,但是性能受制于所选的特征。HCFS算法可为分层学习算法确定质量更可靠的特征子集,使得分类性能有所提高,尤其是应用在大规模数据分析中。本文设计了一种基于分层学习技术结合HCFS的算法,应用在病例宫颈癌数据的分类问题。实验的统计结果验证了本文算法的有效性,并使得分类性能得到提高。

猜你喜欢

子集宫颈癌分层
硫利达嗪抗宫颈癌的潜在作用机制
魅力无限的子集与真子集
拓扑空间中紧致子集的性质研究
高中分层走班教学模式探究
中老年女性的宫颈癌预防
宫颈癌护理及心理护理在宫颈癌治疗中的作用及应用
预防宫颈癌,筛查怎么做
有趣的分层现象
关于奇数阶二元子集的分离序列
雨林的分层