机器学习在肝癌诊疗领域的应用进展
2019-06-19祁亮沈洁
祁亮,沈洁
南京大学医学院附属鼓楼医院肿瘤中心/南京大学临床肿瘤研究所,南京210008
原发性肝癌(肝癌)是全球最常见的一种恶性肿瘤,其发病率和病死率均居所有肿瘤的前5位。在中国,肝癌是第4位常见的恶性肿瘤及第3位肿瘤致死病因,严重威胁着人们的生命健康。随着对肝癌致病因素、早期诊断、血清学生物标志物、基因组学、代谢组学、蛋白质组学、影像、病理、治疗、疗效评估、复发预测、生存分析等方面研究的持续深入,大量的数据被积累起来。近年来,大数据、数据挖掘、云计算、人工智能等分析技术的出现及迅猛发展,为分析肝癌患者的大量数据提供了便捷的手段。而各种处理大数据的工具背后都有机器学习(machine learning)的应用[1]。
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,在计算机系统中,“经验”通常以“数据”的形式存在,因此,机器学习所研究的主要内容是关于在计算机上从数据中产生“模型(model)”的算法,即“学习算法(learning algorithm)”。有了学习算法,便能基于这些积累的大量数据产生模型,然后在面对新的肝癌患者时,模型会提供相应的判断(如预后、复发风险、疗效、影像等)。机器学习和之前出现的各种专家诊疗系统有本质区别,专家诊疗系统是人们将既往许多专家诊疗的病例信息汇集到一起,编成固定程序,当遇到新的肝癌患者时,专家诊疗系统会检索自己大的数据库,找到最匹配的数据,然后给出诊疗建议;而机器学习是利用多种算法,使计算机自己学习既往诊疗的多个病例,把这些病例的所有特征或属性综合分析,从而得出最佳的诊疗模型,然后去面对新的患者,在后续的使用中,可以根据新的病例,继续学习,完善模型,这也是人工智能的体现。
机器学习领域旨在开发经验丰富的计算机算法,有望使计算机能够帮助人们分析大型复杂的数据集,包括肝癌影像学上的序列元素、肝癌的基因测序及表观遗传学、肝癌蛋白质组学、肝癌代谢组学等大量数据[2]。机器学习中有很多算法,而在肝癌诊疗领域常用的是人工神经网络、决策树(decision tree)、支持向量机(support vector machine,SVM)这3种,很多研究中也提到了以上算法的各种改良版本。
人工神经网络又称神经网络算法,是一种模拟人脑的神经网络来实现人工智能的机器学习技术,在解决非线性问题方面比较常用。人工神经网络的发展,从单层神经网络(又称为感知机),到两层神经网络(多层感知机),再到多层神经网络。目前,伴随着云计算、大数据等技术的迅猛发展,多层神经网络的研究已进入深度学习领域,包括卷积神经网络、深度信念网络等(图1),在处理医学X线片、电子计算机断层扫描(CT)、磁共振成像(magnetic resonance imaging,MRI)、超声、病理等中,其判别良恶性疾病已超过了资深的影像学专家和病理专家。在对肝癌的研究中,人工神经网络也是使用最多一种的算法[3-7];此外,比较常用的还有决策树和SVM[7-10]。
图1 人工神经网络分类图
1 肝癌影像学
1.1 机器学习构建模型优化影像学检查
目前,肝癌的影像学检查主要包括超声[包括实时灰阶超声造影(contrast-enhanced ultrasonography,CEUS)]、增强CT、增强MRI、钆塞酸二钠磁共振成像(gadolinium ethoxybenzyl diethylenetriamine pentaacetic acid-magnetic resonance imaging,Gd-EOB-DTPA-MRI)、数字减影血管造影(digital subtract angiography,DSA)、正电子发射计算机断层显像(positron emission tomography,PET)-CT等。2017年版原发性肝癌诊疗规范[11]中指出,对于慢性肝病和(或)肝硬化患者,首次影像学发现的直径≤2 cm的病灶/结节,需要至少2种影像学检查(MRI、CT、CEUS、EOB-MRI)结果有肝癌的典型表现,但行2种影像学检查,对于部分经济条件较差的患者来说,不仅增加了经济负担,而且部分肝癌患者可能因此引起治疗延迟而产生严重后果。He等[12]收集了肝脏结节直径<2 cm的患者的影像学数据,使用机器学习中的决策树算法,构建了一个7步决策树模型。该模型中,无论是疑似还是确诊的肝癌患者,都通过增强CT、增强MRI或EOBMRI检查开始,确诊的患者进入治疗环节,未确诊的患者接受进一步影像学检查,影像结果的判断分为阳性(包括真阳性和假阳性)和阴性(包括真阴性和假阴性)。该研究结果显示,EOB-MRI组真阳性肝癌患者的比例(43.4%)高于增强MRI组和增强CT组(37.4%和34.5%),假阴性患者的比例(3.6%)低于增强MRI组和增强CT组(9.6%和12.5%),且EOB-MRI组未能确诊的患者不需要再行第2种影像学检查,直接行肝穿刺活检确诊。整个模型最后预测,对于肝脏结节直径<2 cm的患者,行EOB-MRI检查的患者的总花费低于行增强CT和增强MRI检查的患者,即对于肝脏结节直径<2 cm的患者,该模型建议首先行EOB-MRI检查。
1.2 机器学习构建肝癌影像诊断及预测术后复发模型
影像科医师对于肝癌读片的水平有高有低,如果机器学习能自学患者的影像学资料并构建诊断模型,则可以辅助医师进行诊断。祁红琳等[13]通过对肝癌患者的术后MRI图像提取10个纹理特征,使用机器学习中的人工神经网络算法构建了预测肝癌术后复发的模型,用以辅助临床医师制定治疗方案。Kuppili等[14]使用SVM和极限学习机(extreme learning machine,ELM,也是机器学习中的一种算法),对63例美国肝癌患者的超声图像特征进行学习,构建了准确度为96.75%的诊断模型。Konda等[15]使用SVM学习了肝癌患者超声影像的特征,构建的诊断模型对判别良性肝占位、肝癌、转移性肝癌的准确率分别达到84.4%、87.7%、85.7%。Conze等[16]使用决策树算法大类中的随机森林算法,构建了基于增强CT多相超体素特征的肝脏组织区分模型。刘建华和王建伟[17]使用人工神经网络算法构建了包括图像预处理、图像分割、特征提取和分类识别的肝癌影像学诊断方法,该方法的准确率为83.33%。郝涛和张智[18]从一阶统计特征、灰度共生矩阵、灰度行程矩阵三方面提取正常肝、原发性肝癌和肝血管瘤CT图像的纹理特征,使用人工神经网络学习这些通过特征提取的属性,构建了肝癌的诊断模型,准确率达(91.08±6.96)%。在多层神经网络尚未成熟应用于医学之前,国内的学者曾使用两层神经网络构建过大量的关于CT、MRI、超声图像的用于诊断肝癌的模型,其目的在于辅助医师诊断[19-24]。人工神经网络层数越多,模型拟合能力越强,但所花费的计算代价太大,在20世纪90年代后期,两层神经网络逐渐被国外学者淘汰。近几年,随着计算机计算能力的突飞猛进,及对深层神经网络研究的逐步深入,多层神经网络、深度信念网络、卷积神经网络等开始陆续被用于影像学诊断(图2)。截至目前,尚未看到有卷积神经网络应用于肝癌的影像学研究报道,但在其他疾病的诊断模型研究中,已取得了既往两层神经网络无法比拟的高度,2018年初,斯坦福大学Pranav Rajpurkar等[25]构建了一个121层的卷积神经网络,并使用包含14种疾病的10万张胸部X线片来构建模型,最后将该模型与专业的放射科医师同时读片,结果显示模型的诊断准确率高于放射科医师。当然,这种体量的模型和庞大的图像数据相结合,借助目前的运算速度,在之前是不可想象的。
图2 卷积神经网络的简单示意图
2 肝癌病理诊断
Li等[26]对肝癌患者的病理图像资料采用中心扩散分割的方法获得每个固定尺寸的灰度图像块,并在3位病理学专家的指导下做相应的标记;然后构建了一个多重连接的卷积神经网络来识别肝癌细胞的细胞核;最后使用反向传播算法来训练多重连接-卷积神经网络-极限学习机架构,该模型在肝癌细胞的细胞核分级方面有优越性。Pang等[27]提出了一种凹凸变化方法来优化随机森林算法、SVM、ELM等算法。在数据预处理阶段,使用双侧滤波器增强苏木精-伊红染色(hematoxylin-eo-sin staining,HE)的病理图像,并在病理学专家的指导下获得每个肝癌患者的图像斑块。在提取每个补丁的完整特征后,对这些特征进行特征选择(特征选择算法是机器学习中的一种数据处理算法),然后将处理后的数据训练随机森林、SVM、ELM等模型,并用CCV进行优化,使得机器学习训练出来的模型能更准确地分类肝癌的病理图像,准确率达到98.74%。
2.1 肝癌生物标志物
血清甲胎蛋白(alpha fetoprotein,AFP)是目前诊断肝癌常用而又重要的一种方法,2017年版原发性肝癌诊疗规范[11]中诊断标准为AFP≥400 μg/L,排除慢性或活动性肝炎、肝硬化,睾丸或卵巢胚胎来源性肿瘤以及妊娠等;对于AFP低度升高者,应作动态观察,并与肝功能变化对比分析,有助于诊断,约30%的肝癌患者的AFP水平正常,为了弥补AFP的不足,在两层神经网络算法开始普及后,即有学者开始了尝试。2001年Poon等[28]使用人工神经网络及决策树构建了血清AFP在正常水平患者的肝癌诊断模型,并用该模型计算出了AFP cut-off值。2005年杨美琴等[29]利用人工神经网络建立了联合 AFP、癌胚抗原(carcinoembryonic antigen,CEA)、糖类抗原 19-9(carbohydrate antigen 19-9,CA19-9)、糖类抗原 724(carbohydrate antigen 724,CA724)、细胞角质蛋白19片段抗原21-1(cytokeratin 19 fragment antigen 21-1,CYFRA21-1)、神经元特异性烯醇化酶(neuron-specific enolase,NSE)及组织多肽抗原(tissue polypeptide antigen,TPA)的多种标志物诊断模型,该模型鉴别肝癌和肠癌的准确率为88.9%,在鉴别肝癌和胃癌的准确率为93.5%,而且还可以提示原发灶不明的恶性肿瘤的原发部位。2010年Camaggi等[30]利用45例丙型肝炎病毒(hepatitis C virus,HCV)相关肝硬化、早期肝癌及晚期肝癌患者的522份血清样本训练了随机森林模型,得到了血清中多种蛋白质组学特征可以用来区分伴有或不伴有肝硬化、伴有或不伴有血管浸润的肝癌的结论,并正确分类了45例患者中的43例。2011年Patterson等[31]利用SVM构建了血清中甘氨酸脱氧胆酸盐、脱氧胆酸3-硫酸盐、胆红素水平、溶血磷脂水平的预测肝癌发生的模型。胡琼英等[32]收集了435份血清蛋白质谱数据,先筛选肝癌差异表达蛋白标志物,然后用这些差异表达蛋白标志物数据训练了一个人工神经网络模型用于诊断肝癌,其灵敏度和特异度分别为84.00%、81.25%。Wang等[33]建立了人工神经网络及SVM模型,该模型通过血清肽和AFP联合检测对乙型肝炎病毒(hepatitis B virus,HBV)相关肝硬化进展的早期肝癌进行诊断。尹咪咪等[34]使用机器学习在肝癌患者的临床数据中筛选出高尔基体蛋白73(Golgi protein 73,GP73)、AFP、α-L-岩藻糖苷酶(alpha-L-fetoprotein,AFU)、谷草转氨酶(glutamic-oxaloacetic transaminase,GOT)、谷丙转氨酶(glutamic-pyruvic transaminase,GPT)、白细胞(white blood cell,WBC)等指标,然后用这些指标构建人工神经网络模型,用于肝炎和肝癌患者的鉴别诊断,准确率分别为95.5%、86.0%。2017年王运九等[35]对630例肝细胞肝癌患者及非肝细胞肝癌患者(包括肝炎和肝硬化)的临床资料先采用单因素和多因素分析筛选出有统计学意义的指标,如AFP、总胆汁酸、活化部分凝血活酶时间(activated partial thromboplastin time,APTT)、碱性磷酸酶(alkaline phosphatase,ALP)及血小板,然后用这些指标训练逻辑回归模型和人工神经网络模型(两层神经网络),来诊断肝细胞肝癌,最后得到的逻辑回归模型和人工神经网络模型的准确率分别为80.4%和83.4%,提示人工神经网络在处理临床大量数据进行分类问题的解决上优于逻辑回归。随着近几年基因测序的开展及2016年美国癌症基因组图谱(the cancer genome atlas,TCGA)的绘制完成,研究者开始研究基于使用基因共表达网络来分析鉴定肝癌的潜在生物标志物。2017年Zhang等[36]首先从全基因组中大规模选择与肝细胞肝癌密切相关的候选基因,使用cytoscape软件建立了基因共表达网络,然后通过马尔科夫聚类算法(Markov cluster algorithm,MCL,机器学习中的无监督算法),将全局网络聚类成若干子模块,并对这些已鉴定的基因模块进行GO分析来进一步探索与肝细胞肝癌功能障碍明显相关的基因,发现HK2、KLF4可以作为潜在候选基因,最后通过SVM建立预测模型,评估肝癌分类结果。2018年Wang等[37]应用随机森林建立模型,从137例肝细胞肝癌患者及431例非肝细胞肝癌患者(224例肝炎和207例肝硬化)的尿液中提取DNA进行检测,并从尿液基因测序结果中筛选生物标志物,该模型用于鉴别诊断达到了90%的特异度和87%的灵敏度。
2.2 肝癌基因组学、蛋白质组学及代谢组学
伴随着二代测序技术的发展,全基因组测序积累的数据正在呈指数级增长,因为对于1例肝癌患者,全基因组测序能产生20 000多个基因的表达量、突变等信息,这就使得数据的维度很高,很多早期的机器学习算法处理大量基因测序数据表现不佳,泛化能力下降;而近年来出现的大数据分析技术、深度学习等为处理基因测序数据提供了技术支持。深度学习属于机器学习范畴,因现在计算机计算能力的大幅度提升,很多复杂的机器学习算法得以实现,包括多层神经网络中的深度信念网络、卷积神经网络及众多学者改良的早期机器学习算法。机器学习模型的几个要点:①更强的计算能力;②更大量的数据;③更好的训练算法。这些要素在肝癌基因组学的迅猛发展下和计算机技术的发展下逐步实现。2014年Ibrahim等[38]利用深度信念网络构建了基于基因和miRNA水平的肝细胞肝癌患者亚群分类的模型,在该研究中,使用了机器学习中的特征选择、SVM、深度信念网络等算法,最后证实深度信念网络能够在多个抽象层次上表示数据,并能很好地区分不同肝癌亚群,比早期的特征选择算法更具优势。张朋军和田亚平[39]对52例早期肝癌患者和34例健康对照者的外周血基因数据进行分析,分别用逻辑回归、人工神经网络构建外周血多参数基因诊断模型,结果显示人工神经网络的灵敏度和特异度均高于逻辑回归(灵敏度:96%vs94%,特异度:86%vs80%),并且认为人工神经网络在肝癌疾病预测及早期检测中有更好的诊断价值。2017年Qiu等[40]使用Illumina公司甲基化分析仪450K Beadchip对576例早期肝癌患者的基因CpG甲基化水平进行检测,得到的数据使用机器学习中Lasso算法及SVM-RFE算法(Lasso算法,用于精简数据,降低维度;SVM-RFE算法,即支持向量机递归特征消除算法),建立了预测早期肝癌复发风险的甲基化标签。2018年Augello等[41]使用机器学习中的分类算法发现MICA基因的两个单核苷酸多态性位点rs2596542、rs2596538及“年龄”可用于肝硬化和肝癌的鉴别分类。Chandhary等[42]利用TCGA数据中的360例肝细胞肝癌患者的RNA测序、miRNA测序及甲基化数据,构建了一个含有3个隐藏层的多层人工神经网络模型,确定了2个不同生存期肝细胞肝癌患者的亚群分类。Liao等[43]对肝细胞肝癌患者的Dishevelled/EGL-10/Pleckstrin(DEP)结构域(DEPDC)蛋白质超家族进行研究,设计了一种分离DEPDC和非DEPDC的计算方法。首先,他们检查了已知DEPDC的Pfam数,并使用每个Pfam的最长序列来构建系统发育树;随后,提取了DEPDC和非DEPDC的188维(188D)和20维(20D)特征,并将它们用随机森林分类器进行了分类;最后,设计了肝细胞癌组织及癌旁正常组织中人DEPDC表达水平的实验验证方法。结果表明,DEPDC超家族可以分为3类,而且,188D和20D特征可以用于有效区分两种蛋白质的类型,成功构建了DEPDC的二元分类器,并通过实验验证了它们在人肝癌组织中的表达。Liang等[44]使用机器学习结合代谢组学从肝细胞肝癌患者的尿液中鉴定了15种肝细胞肝癌和匹配的健康对照者有差异的代谢物,涉及几种关键的代谢途径,其中5种代谢物对肝细胞肝癌的诊断有价值,灵敏度为96.5%,特异度为83.0%。Gui等[45]学者应用最大相关最小冗余算法跟随增量特征选择的机器学习方法应用于由43个肿瘤和52个非肿瘤样本产生的一组微阵列数据。通过机器学习方法,确定了117个可以最佳分离肿瘤和非肿瘤样本的基因探针,这些基因不仅包括已知的肝癌相关基因,如MT1X、BMI1和CAP2,还包括之前未发现与肝癌密切相关的肿瘤基因,如TACSTD2。然后,基于来自STRING数据库的蛋白质-蛋白质相互作用(protein-protein interaction,PPI)数据构建了一个分子相互作用网络,并用机器学习方法确定了基因中最短路径上的187个基因。网络分析揭示了泛素C在肝细胞肝癌发病机制中的新潜在作用。
3 肝癌发生风险、术后复发风险、疗效和生存预测
机器学习在构建预测危险因素、发生及复发风险、生存预测等方面也有许多研究。Santos等[46]利用SMOTE过采样算法和K均值聚类算法构建具有代表性数据的肝细胞肝癌数据库,然后利用这个数据库的数据训练逻辑回归模型和人工神经网络模型,相比于循证医学,机器学习以其强大的算法(比如聚类算法)可以“学得”患者的异质性,生成具有相似预后特征的同质组,映射到相似的生存模式上,达到更准确的预测。并且机器学习在处理含有缺失值、不平衡的数据集时具有较大的灵活度。Ho等[47]使用人工神经网络、逻辑回归及决策树3种算法构建了接受肝切除手术的肝细胞肝癌患者术后1、3、5年的无病生存率模型,并发现人工神经网络模型的精确度更高,证明基于临床数据构建的肝细胞肝癌患者行肝切除术后无病生存率的预测模型在医疗决策支持系统中应用的可行性。Chiu等[48]对434例接受过肝切除术的肝细胞肝癌患者的病历资料进行分析,先用Cox回归模型筛选出21个潜在输入变量(特征),然后分别训练人工神经网络模型和逻辑回归模型,来预测患者术后1、3、5年的生存率,结果显示人工神经网络优于逻辑回归。Shi等[49]对22 926例接受过肝切除手术的肝细胞肝癌患者的1000对逻辑回归模型和人工神经网络模型进行评估,人工神经网络模型在97.28%的病例中准确率更高,该研究也是目前检索到的肝癌样本量最大的神经网络预测模型评估的研究。
射频消融(radiofrequency ablation,RFA)、经导管肝动脉化疗栓塞术(transcatheter arterial chemoembolization,TACE)作为一部分不能耐受术后切除的肝细胞肝癌患者的根治手段及晚期不能手术肝癌患者的治疗手段,在肝癌的治疗中占有重要地位。Liang等[50]对首次接受RFA治疗的肝细胞肝癌患者利用遗传算法(genetic algorithm,GA)、模拟退火算法(simulated annealing,SA)、随机森林算法及混合的GA+随机森林算法、SA+随机森林算法5种特征选择算法处理数据,筛选出16个临床特征,然后用SVM算法训练这些数据,最后得到准确度为82%的预测RFA术后复发模型。Abajian等[51]对36例经TACE治疗的肝细胞肝癌患者在TACE治疗前及治疗后1个月分别行MRI检查,然后分别用MRI数据和临床资料训练随机森林和逻辑回归,建立评估患者对TACE治疗有无反应的预测模型,总体准确度为78%,并通过模型选出了最强预测因素为肝硬化和MRI影像中肿瘤信号强度>27.0。
药物潜在治疗靶点的寻找:Yang等[52]利用SVM,确定了可能是肝癌治疗靶点的化学敏感基因,包括MT1E、MYC和GADD45B;并预测了几种已知的肝癌抑制剂,如格尔德霉素、alvespimycin(HSP90抑制剂)和多柔比星(化疗药物)。23种预测药物中有7种是强心苷类,表明该种药物与肝癌抑制之间存在关联。该研究展示了使用基于初始体外药物筛选的大型微阵列储存库的SVM模型在药物筛选中的策略,从生物学角度验证这些结果有助于开发更精确的化学敏感性模型。
此外,也有不少国内外学者使用机器学习对肝癌的致病因素及复发风险进行建模,这些研究为了提高预测模型的准确度,将研究点着重放在算法的优化及数据的处理上[53-59]。
4 其他
4.1 肝癌患者的呼吸动度研究
姚晔等[60]使用X线容积成像系统对某肝癌患者进行扫描,采集各时相呼吸运动图像;利用碘油标记方法对肝癌病灶进行定位,并通过图像检测技术获取病灶标记点的运动轨迹,对标记点的运动轨迹数据进行分析,建立人工神经网络模型,并用其预测下一时间段的运动曲线,将预测结果与肿瘤标记点实际的运动轨迹进行比较分析。结果显示利用人工神经网络可以有效预测肝肿瘤的运动趋势,在一定时间段内可保持良好的精准度,误差在1个像素距离内,但在呼吸运动峰值处预测精准度尚不理想,误差接近2个像素距离。该研究表明人工神经网络模型是预测肝肿瘤运动的一种新方法,可能对肝癌的体部立体定向放疗以及实时跟踪放疗精准度的提升有一定帮助,且具有一定的临床价值。
4.2 肝癌患者HBV/HCV与细胞因子研究
Estevez等[61]检测了411例病例的血清细胞谱,其中肝细胞肝癌患者102例:32%HBV感染,54%HCV感染,14%非HBV感染和非HCV感染;非肝细胞肝癌患者309例:39%HBV感染,39%HCV感染,22%非HBV和非HCV感染。使用随机森林机器学习来获得接受者操作者特征曲线并使用各个细胞因子的平均荧光强度的Z分数来确定单独的细胞因子重要性。在肝细胞肝癌和非肝细胞肝癌患者中,HBV和HCV患者的细胞因子谱不同(肝细胞肝癌的曲线下面积为0.82,非肝细胞肝癌的为0.90),结果显示有或无肝细胞肝癌的HBV或HCV感染的患者具有明显不同的细胞因子概况,表明疾病发病机制和(或)疾病特征的潜在差异。
4.3 从HIS系统中提取患者的文本资料
对于住院的肝癌患者,包括肿瘤数量、大小和解剖部位的信息,通常只能在电子病历(electronic medical record,EMR)中的临床叙述中找到。Yim等[62]使用自然语言处理(natural language processing,NLP)提供了一种自动和可缩放的手段来提取这些信息,这可以进一步进行基于证据的研究。在本文中创建了一个注释肿瘤信息的101个放射学报告的语料库,之后应用机器学习算法来提取肿瘤信息。该研究为方便从HIS系统中提取临床资料提供了方法。
未来,随着深度学习的不断发展,机器学习在肝癌研究领域的应用会更加宽广和深入。在计算机科学的发展下,新的优秀的算法会不断出现,使构建的模型准确度越来越高,泛化能力越来越强;在基因测序数据大量被积累的背景下,结合优良的机器学习算法,未来肝癌亚分类的模型会越来越有临床实用性,尤其是深度学习在提取数据特征和高维数据的处理方面更加流行;深度学习在影像学图像的处理中有着显著的优势,精度高、速度快、智能化是现在图像识别模型的特点;近几年量子计算机概念的出现,使得计算机运行速度突飞猛进,已有科学家开始研究经典人工神经网络的量子泛化,如能用到肝癌的研究中,可能会产生革命性的影响[63-65]。