APP下载

机器学习在诊断非酒精性脂肪性肝病和病毒性肝炎中的应用进展

2020-12-20刘会春

牡丹江医学院学报 2020年5期
关键词:决策树肝硬化神经网络

周 帅,刘会春

(蚌埠医学院第一附属医院肝胆胰外科,安徽 蚌埠 233000)

近年来,信息化的进程不断提升,推动了机器学习(Machine learning,ML)方法的优化。人工智能被定义为创建自动化系统来执行那些被认为需要人类智能才可胜任的任务,如影像图片识别、决策和特征识别。而ML是实现这一能力的关键之处,ML是指计算系统通过经验独立改进这些任务的能力[1]。ML要依靠大量的可靠数据才可以学习感兴趣的变量和结果之间的复杂和非线性关系[2]。同时,根据新的数据来源,可以识别以前不能识别的数据,例如影像图片和文本数据。ML在诊断青光眼的领域已有建树[3]。同样的,这种技术在其他肝脏疾病学中有许多潜在的用途,如识别肝脏疾病特征血清标志物、影像图片、病理学参数、预测肝硬化程度等。

1 机器学习

ML被定义为:研究如何使用机器来模拟人类学习活动的一门学科。其成立的前提是引入摄取输入数据的算法,并且应用计算机分析在可接受的范围内预测输出值,识别数据中的模式,并从以前的经验中学习。数据处理过程是十分复杂的,单纯人工操作的任务量太大,然而有了ML后,这个过程就会半自动的向计算机提供数据,并且基于学习框架来创造分析模型,从而改进预测准确性[4]。ML包括监督学习和无监督学习。前者指的是通过人为参与规定了特定参数的方法,即通过为每个训练输入提供诊断(特定参数)来实现的。后者是直接获得原始数据,并将其分成与现有临床数值相关的和不相关的数据,优点是获得原始数据,而缺点是可能会呈现未知的模型。

2 机器学习的常用算法

2.1 支持向量机(Support vector machine,SVM)SVM是监督学习的一种,它将数据分成两个或多个类别。支持向量只是指的边缘算法用来支持其确定是否属于一个类别数据。在SVM中,一些参考内核,可以修改数据以特定的方式使数据更适合分离分类。SVM的优点是可以作用多个数据和变量,尤其是小样本和非线性数据。由于其通用性,支持向量机已被应用于多种数据类型,例如用SVM检测乳腺癌外周血数据到失语症和退行性帕金森症的MRI数据分析[5]。

2.2 神经网络神经网络,又称为人工神经网络,定义为在计算机上从多层次水平来模拟人类神经元活动的连接系统。灵感是来自人类神经元活动,其本质是数学模型,用来分析多层次数据。神经网络的模型是通过对输入的数据(如影像学结果、病理结果、病历资料等)进行训练,寻找最佳组合,数据不断优化并寻找最佳变量,直到选出最合适结果。人工神经网络的学习过程涉及更新节点(神经元)的连接强度。通过利用预测值与校正值之间的误差来调整网络中的权重,以使误差最小,并获得最准确的输出[6]。神经网络系统早已运用于医学诊断之中,从最初的单纯输入数据集到用原始数据转换后的图像数据等复杂变量的数据集,神经网络已经被应用于预测肝移植3个月的存活率,辅助终末期肝脏疾病患者的预后诊断,以及从影像学方面预测肝病的进展。神经网络在分析图像和作为早期检测肝脏肿瘤的工具方面的作用也已得到证实[7]。

2.3 深度学习深度学习是神经网络的一个分支,其特征是具有多个隐藏节点层,通过多种方式对输入层数据进行分类筛取得出最理想数据。它与简单神经网络的区别在于增加了节点的层数,一般是由10~20层节点构成,网络大小也变得更为复杂多样性,能够适应复杂情况,提高准确性和效率性。深度卷积神经网络(Convolutional neural networks,CNN)是其在临床中应用最广泛的,CNN它是一种前馈神经网络是被设计来模拟大脑中的神经过程,经常被应用于图像处理任务。CNN的高级之处在于它把图像信息转变成如颜色、大小、形状等精确特征,并汇集这些特征,增加了分析深度,区别于简单神经系统的单像素值特征,最大化的为机器算法提供全面的数据集以便形成最终结果[8]。

2.4 决策树和随机森林决策树是一种类似于以树状结构排列的流程图,其中每个步骤表示对一个或多个特征的测试,并按照流程把结果分类。随机森林是一种非参数的集成方法,它将最邻近的数据相结合,并进行有效的自适应推理,逐步节点分裂从而使得决策树越来越大,使得其能对数据进行有效的分析[9]。随机森林使用在训练数据的不同随机子集上并行训练的深度决策树的集合。该方法的最终输出对应于所有决策树结果的模式。

3 机器学习模型在非酒精性脂肪性肝病中的应用

非酒精性脂肪性肝病(Nonalcoholic fatty liver disease,NAFLD)因为其巨大的临床样本量和可识别性,是ML最好的研究对象。早发现、早诊断是治疗和预防NAFLD最好的方式,因此利用ML方法,通过图像分析和病理检查能够有效地识别这些患者,并区分其严重程度,是目前开展的研究热点之一。研究者应用决策树等技术模型评价了922名受试者,测量其丙氨酸转移酶、高密度脂蛋白、胆固醇、甘油三酯、血红蛋白A、白细胞计数和高血压6个测量指标,来区分普通人群和NAFLD患者,其准确性达87%[10]。一项纳入了40637个个体中含有7种危险因素的数据集研究,其准确率达到73%,并且具有较强的区分能力,适于NAFLD的风险评估[11]。Heinemann F等人[12]利用CNN系统建模,量化了NAFLD和非酒精性肝炎的病理图片,并建立了相应的区分系统,其准确率与病理学家诊断正确率几乎一致,这提高了对NAFLD的病理学参数的诊断效率。Forlano R等人[13]收集了246名英国NAFLD患者资料,并利用CNN技术建立模型,并通过与人工组对比,其结果一致。这些结果证明了ML在诊断NAFLD上具有临床参考意义。同时在对比不同的ML模型的比较研究中,Ma H等人[14]应用11种不同的ML模型预测2,522例中国患者中的NAFLD指标,其中贝叶斯网络模型在所有模型中脱颖而出。以上研究表明,ML在诊断NAFLD中有一定可取之处,但是每项研究都是在不同的临床情境下研究的,其模型无统一性,因此有必要针对特定问题评估多种ML模型,以确定要应用的最合适的算法。

4 机器学习模型在病毒性肝炎中的具体应用

ML方法作为一种非侵入性方式,可作为一种替代方式用于慢性肝炎的分期和纤维化判断。ShoushaHI等人[15]创建的ML技术模型包含16种基因特征值,对比传统的天冬氨酸氨基转移酶/血小板比值指数和纤维蛋白原指数等评分系统来预测慢性丙型肝炎相关晚期纤维化的准确性,并在427例丙肝患者中验证,结果表明新的模型要好过传统的评分系统。在临床相关指标的应用中。Konerman MA等人[16]通过优化包含纵向数据的新的统计方法来改进现有的预测慢性丙性肝炎的模型,并且预测其1、3和5年肝硬化程度,该模型包括逻辑回归、随机森林和SVM用来预测纤维化进展、肝脏相关死亡率、肝脏失代偿、Child-Turcotte Pugh评分≥7的程度、肝细胞癌一年内的转移情况。并在随后的研究中得到验证,其结果表明纵向模型优于基线模型。

同样的ML模型也可以运用到乙型肝炎患者的炎症分级检测。Zhou W等人[17]建立ML模型,包含慢性乙肝患者的临床相关的基因表达分析特征。可以筛选出与免疫系统、干扰素刺激、细胞因子调节、抗凋亡等与临床参数相关的基因,并有效预测炎症分级。ML技术也应用在诊断乙肝患者肝硬化进展和研究。其中包含了常规实验室指标和血清标志物的CNN和贝叶斯算法模型,可以用于乙肝患者肝硬化的诊断和肝纤维化逆转有效性的预测[18]。ML还能用于结合临床上常规的检查指标来检测乙肝患者的肝硬化程度。Cao Y等人[19]利用包含7种常规临床资料的ML模型来诊断合并乙型肝炎的肝硬化患者。其模型的敏感度为95.2%、特异度达84.2%和准确率达89.9%。这些研究模型证明了ML算法可用于乙肝所导致的肝硬化的评估。那么问题来了,哪种ML模式更加准确?Fu TT等人[20]对比了新旧ML算法,以354例肝部分切除术患者为研究对象,并以肝活检为参考标准,其中LeNet-5神经网络的深度学习分类模型表现最好。以上结论表明不断优化ML模型,有利于其在临床上的应用进展。

5 展望

ML方法可以用来解决决跨医学的问题。例如肝病筛查、肝癌预测、肝硬化预测等。虽然传统生物统计学已经可以诊断许多肝脏疾病,但是ML算法的应用仍可改进,因其依赖于大量的数据才可以优化算法,但是其数据来源的准确性和有效性,是困扰研究者们的一个问题。近些年,越来越多的学者和医师应用ML算法来改进临床诊断。可以预期,在不久的未来,人工智能和ML技术将会越发成熟。使用这些工具来解决肝病诊断的复杂性,加强了对更优化的生物标志物和治疗策略的识别,并最终为肝病的实践提供更精确的医学方法。

猜你喜欢

决策树肝硬化神经网络
肝硬化病人日常生活中的自我管理
神经网络抑制无线通信干扰探究
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
防治肝硬化中医有方
基于决策树的出租车乘客出行目的识别
基于神经网络的拉矫机控制模型建立
活血化瘀药在肝硬化病的临床应用
复数神经网络在基于WiFi的室内LBS应用
基于肺癌CT的决策树模型在肺癌诊断中的应用