基于连续小波和随机森林的原发性肝癌放疗后乙肝病毒再激活的分类预测
2017-07-15王会娜黄伟刘毅慧
王会娜 黄伟 刘毅慧
摘要:原发性肝癌(PLC)患者精确放疗后乙肝病毒(HBV)再激活是一种常见的并发症,影响患者预后,危及患者的生命。通过连续小波进行去噪,然后再通过随机森林对特征重要性的排序找出引发乙肝病毒再激活的危险因素,给医生提供参考,进而提前进行预防治疗,降低病毒再激活的发病率。首先对原始数据集進行连续小波变换,之后使用随机森林进行关键特征的选取,将随机森林模型下的特征按照重要性进行排序,选取重要性最高的5个特征组成关键特征子集,然后将新的特征子集用随机森林分类器进行分类预测。实验结果表明随机森林选取HBV DNA水平、TNM肿瘤分期、V10、V20、外放边界这5个关键特征作为致使乙肝病毒再激活的危险因素组合时,进行小波变换后,3折交叉验证下预测精度最高达到82.96%。本次研究表明,小波变换后可以有效地降噪,随机森林可以通过评估变量的重要性,选出关键特征,很好地用于解决乙肝病毒再激活分类预测问题。
关键词:原发性肝癌(PLC);乙肝病毒(HBV)再激活;连续小波;随机森林;特征选取;交叉验证
0引言
原发性肝癌(PLC)是一种常见的恶性肿瘤疾病,在我国,肝癌多发于东南沿海地区,肝癌患者接受放疗治疗后,HBV再激活是一种最常见的并发症。HBV再激活会引起肝损伤、肝衰竭,严重威胁患者的生命。论文中指出,肿瘤分期、HBV DNA水平、肝功能Child-Pugh分级是原发性肝癌患者接受三维适形放疗(3D-CRT)后致乙型肝炎病毒(HBv)再激活的危险因素。论文发现放疗剂量、HBV DNA水平是HBV病毒再激活的危险因素。论文首先用t检验和logistic进行特征提取,发现外放边界、肿瘤分期TNM和HBVDNA水平是HBV再激活的危险因素,用危险因素作为数据集建立BP神经网络分类模型识别率达到78.89%。论文建立SVM分类模型预测精度达到78.89%。论文建立RBF神经网络模型,识别率提高到80%。随后在论文中通过遗传算法发现HBV DNA水平、肿瘤分期TNM、Chfld-Pugh、V45、外放边界、外放边界编码和全肝最大剂量是乙肝病毒再激活的危险因素,SVM分类模型下的预测精度达到83.34%。
综上分析可以得出,原发性肝癌患者接受适形放疗后乙肝病毒再激活的危险因素并非单一的,不同的临床指标都有可能会引发乙肝病毒再激活,因此研究中仍需要通过不同的特征提取方法来发现更多的危险因素。
本文首先使用连续小波进行小波变换,然后再采用随机森林进行特征提取。小波变换是一种信号的时间一尺度(时间-频数)分析法,具有多分辨分析(Multi-resolution Analysis)的特点,而且在时频两域都具有表征信号局部特征的能力。连续小波变换突破了Fourier变换基底的限制,用一个函数的平移伸缩作为基底,开展频谱的研究。小波变换多用于信号去噪,特征提取等方面。其中,特征提取是根据随机森林算法本身的变量重要性度量设计得到特征排序,由此选出得分最高的几个特征,组成最优特征子集,然后建立随机森林分类模型来研发应用在分类预测中。随机森林是机器学习模型的一种,主要利用多个分类决策树对数据实现判别与分类。而且,在对数据分类的同时,还可以根据变量的特点,给出每个特征的重要性评分,评估每个特征在分类中发挥的作用。目前利用随机森林进行特征选择已广泛应用于生物医学领域。