深度学习技术及其在肿瘤分类中的应用

2014-04-29雷成等

智能计算机与应用 2014年6期

雷成等

摘要：深度学习是机器学习领域一个新兴的研究方向，吸引了工业界和学术界的广泛关注。该文从深度学习的历史渊源谈起，描述了几种主要的深度学习架构，介绍了深度学习在肿瘤分类中的一些应用，提出了目前肿瘤分类研究存在的问题。

关键词：深度学习；神经网络；肿瘤；分类

中图分类号：TP18；TP391 文献标志码：A 文章编号：2095-2163（2014）06-

Abstract： Deep learning is an emerging field of machine learning research， which attracts wide attention in industry and academia. This paper talks about the history of deep learning， describes several major deep learning architectures， and introduces some applications of deep learning in tumor classification. At last， the existing problems of tumor classification are suggested.

Keywords： Deep Learning； Neural Network； Tumor； Classification

0 引言

深度学习是近几年来在人工智能和机器学习领域的重要研究进展之一。2012年6月，《纽约时报》报道了Google Brain项目，该项目是Google公司的一个深度学习研究课题，用16 000台的计算机集群，训练一种“深度学习”的神经网络模型，旨在模仿人类大脑活动的某些方面，而且从YouTube视频的一千万张数字图像中展开演化训练，训练结果是成功地学会了如何识别猫。随后，百度在2013年1月成立了首个深度学习研究院。深度学习不但获得了包括微软、Google、百度等各大著名高科技公司在内的普遍青睐，同时也受到了学术界的广泛重视，并且目前在语音与图像识别和自然语言处理等领域的研究进程中取得了日益显著的突破以及重大科研成果[1]。

在我国，肿瘤发病率和死亡率正在呈现逐年上升的发展趋势。肿瘤的病因复杂，如何对肿瘤病例实现前瞻性的准确诊断分类，并使病人得到个性化治疗，即成为目前医学界关注的重要问题[2]。1999年，Golub等人[3]在《Science》杂志上发表了关于采用基因芯片和机器学习技术研究肿瘤分类问题的文章之后，该方向就已逐渐成为机器学习领域的研究热点之一迄至目前，也已涌现了许多富有实效的技术与方法[4]。

本文从深度学习的历史渊源谈起，主要介绍了卷积神经网络（Convolutional Neural Network， CNN）、深度信念网络（Deep Delief Network， DBN）和堆栈自编码网络（Stacked Auto-encoder Network，SAN）等几种主要的深度学习架构，对深度学习在目前肿瘤分类中的现时应用进行了介绍，最后，则提出了目前肿瘤分类研究方面需要解决的主要问题。

1 深度学习与神经网络

深度学习的概念起源于人工神经网络的研究。1943年，McCulloch和Pitts首度提出神经元的数学模型。稍后于1958年Rosenblatt又提出了感知机（perceptron）的概念，标志着第一代神经网络的诞生。感知机仅由一个输入层，一个输出层和一个中间层组成。其中间层的设计是通过调整所有特征的向量权重，实现目标识别。感知机也可别称为单层的人工神经网络，其本质不足即在于不能处理简单的异或（XOR）等线性不可分问题。

实际上，将单层感知机堆叠成多层的构想是可以求解线性不可分问题的，只是当时缺乏有效的算法。1986年Hinton等人[5]设计了反向传播算法（BackproPagation， BP），推出了第二代的神经网络，由此而引发了人工神经网络的研究热潮。与第一代相比，第二代神经网络可以学习更复杂的功能，通过计算在输出层中的误差信号，并将其与训练输入对应的目标输出求取差值，再以此更新权重向量，直到收敛为止。

虽然如此，BP算法在训练神经网络时却很容易陷入局部最优，而且当训练多个隐藏层时将耗时过长，也容易出现过拟合等问题，最重要的是其无法训练未标记数据，而实际情形下的许多场合大多数据却都是未标记的。基于此，1995年，Vapnik创新性地提出了支持向量机（Support Vector Machines， SVM）。作为一种特殊的两层神经网络，SVM具有快速高效的学习算法，同时又避免了神经网络局部最优的问题，因而在解决高维、非线性和小样本的模式识别中发挥了独有的作用优势，进而吸引了机器学习领域众多研究人员的热切关注。

直到2006年，Hinton等人[6]在著名的《科学》杂志发表了一篇题为《Reducing the Dimensionality of Data with Neural Networks》的论文，并且提出了深度网络（deep network）和深度学习（deep learning），而没有沿用之前的“多层神经网络”这一术语，其目的是为了表示这是一个新的概念，用以与之前的神经网络做出区分。实际上，深度学习仍旧采用了常规神经网络的分层结构，两者根本的不同在于深度学习采用了与神经网络不同的训练机制，能够训练更多的运行层。传统神经网络采用的是反向传播机制，随着层数的增加，会出现“梯度扩散”现象，而深度学习则通过“逐层初始化”的机制使这一问题在整体上获得了有效解决。

2 深度学习的主要架构

典型的深度学习模型有卷积神经网络模型CNN[7]、深度信念网络模型DBN[8]和堆栈自编码网络模型SAN[9]等，下面对这些模型进行简要描述。

2.1 卷积神经网络

卷积神经网络是一个多层的神经网络，其中融合了三种结构性思想，来实现一定程度的位移和形变恒稳性：局部感受野、权值共享、时间或空间的子采样。每个神经元与前一层的局部感受野相连，并提取该局部的特征。同时，处于同一平面的神经元将共享权值，因而减少了权值的数量，并降低了网络模型的复杂度。时间或空间的子采样可以减少前一层的特征维度，形成一套新的特征集。

2.2深度信念网络

深度信念网络由多个受限玻尔兹曼机（restricted Boltzmann machines， RBM）连接组合在一起。受限玻尔兹曼机的拓扑结构去除了可见层和可见层与隐藏层以及隐藏层之间的联系，并且只在可见层节点与隐藏层节点之间才有连接权，这就显著提高了网络模型训练与学习的效率，如图1所示。

3 深度学习在肿瘤分类中的应用

与正常细胞相比，肿瘤细胞中许多mRNA都有表达差异。鉴于基因芯片可一次性获得包含成千上万个基因的表达值，因而已广泛用于肿瘤分类研究中。但是却因资源的限制，而且基因芯片的成本也较高，这就使得每个肿瘤数据集的样本量将明显较小，其样本数量大大低于基因数量。目前大多数方法均着重于通过特征选择，以减少基因表达谱的基因维度[10]。只是特征选择的潜在问题却是其可扩展性和通用性，即选择的基因是否可以扩展应用于新的分类任务和数据集。再有，基于每个肿瘤数据集均较小，每种特征选择算法只在各自的肿瘤数据集执行和操作，这就限制了每个肿瘤数据集在其他肿瘤数据集的应用，例如，前列腺癌的数据不能在乳腺癌检测是使用。针对此一状况，深度学习技术因其可以实现特征的无监督学习，即圆满解决了这一问题。具体地，Fakoor等人[11]提出了一种结合无监督学习和深度学习的方法。该方法包括特征学习和分类器学习两个阶段。方法利用主成分分析降低特征空间的维数，并应用主成分分析的结果作为压缩特征表示，而且加上一些随机选择的原始特征，同时又采用了稀疏自编码器作为无监督特征学习的框架。该方法在13个肿瘤数据集中展开测试，由此则发现在大多数据集中，该方法的效果均要优于不使用无监督稀疏特征的基准分类器。

还有，Koziol等人[12]将受限玻尔兹曼机用于肝细胞癌的分类，应用肿瘤相关抗原微阵列检测175例肺癌患者和90名正常人群血清中的12种TAAs的抗体水平，再采用受限玻尔兹曼机和逻辑回归（logistic regression）分别建立分类模型，从而发现相比逻辑回归分类器，受限玻尔兹曼机可以获得更高的灵敏度，但在特异度方面却要略有逊色。在此，给出采用归一化数据的测试结果，受限玻尔兹曼机10折交叉验证的灵敏度达到94.9%，远高于逻辑回归分类器的90.3%。

另外，Tomczak[13]将ClassRBM 和sparseClassRBM两种受限玻尔兹曼机模型用于5个医学数据集的分类，包括心脏病、糖尿病、肝病、甲状腺癌和乳腺癌复发等，而且Tomczak[14]还又一次将改进的ClassRBM用于预测乳腺癌的复发研究中。

4 结束语

近几十年来，随着分子生物学技术的迅猛进展，将肿瘤研究带入了一个新的发展阶段。肿瘤分类研究也由传统形态学的探讨深入到分子或基因水平，并在科研和临床实践中获得了一定的应用，但仍然面临许多挑战。针对肿瘤分类问题的研究必须和临床需求密切结合，许多研究者在开发肿瘤分类算法时，仅仅考量了算法的准确度，却对结果的生物学意义很少深入探究，而且对临床实际应用也未曾付诸关注，导致研究成果得不到医学专家和临床医生的认可，最终影响了肿瘤分类算法在实际临床诊断上的应用。另外，在开发肿瘤分类算法时，如果不了解实验数据的来源，只从数据本身出发，就有可能遗漏很多的重要信息，这也在客观情势下要求研究者能够熟悉肿瘤学领域的专业知识，用来帮助肿瘤分类算法的设计。

随着近年来高通量技术和实验手段的陆续面世，肿瘤数据积累成倍增加，所需要处理的数据量正越来越大，此时就要将大量的数据转化为对人们有用的信息，因此就迫切需要以深度学习为代表的新一代机器学习技术来将这一需求任务圆满实现。目前在肿瘤领域针对深度学习的研究和应用仅只是起步阶段，仍有广阔的研究探索空间亟待开发。

参考文献：

[1]余凯，贾磊，陈雨强，等. 深度学习的昨天、今天和明天[J]. 计算机研究与发展， 2013， 50（9）：1799-1804.

[2]HAMBURG M A， COLLINS F S. The path to personalized medicine[J]. New England Journal of Medicine， 2010， 363（4）：301-304.

[3] GOLUB T R， SLONIM D K， TAMAYO P， et al. Molecular classification of cancer： Class discovery and class prediction by gene expression monitoring[J]. Science， 1999， 286（5439）：531-537.

[4]GUYON I， WESTON J， BARNHILL S， et al. Gene selection for cancer classification using support vector machines[J]. Machine Learning， 2002， 46（1-3）：389-422.

[5]RUMELHART D E， HINTON G E， WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature， 1986， 323（9）：533-536.

[6]HINTON G E， SALAKHUTDINOV R R. Reducing the dimensionality of data with Neural Networks[J]. Science， 2006， 313（5786）：504-507.

[7]LECUN Y， BOTTOU L， BENGIO Y， et al. Gradient-based learning applied to document recognition[C]//Proceedings of the IEEE， 1998， 86（11）：2278-2324.

[8] BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning， 2009， 2（1）：1-127.

[9]PASCAL V， HUGO L， ISABELLE L， et al. Stacked denoising autoencoders： learning useful representations in a deep network with a local denoising criterion[J]. Journal of Machine Learning Research， 2010， 11：3371-3408.

[10] SAEYS Y， INZA I， LARRANAGA P. A review of feature selection techniques in bioinformatics[J]. Bioinformatics， 2007， 23（19）：2507-2517.

[11] FAKOOR R， LADHAK F， NAZI A， et al. Using deep learning to enhance cancer diagnosis and classification[C]//Proceedings of the 30 th International Conference on Machine Learning， 2013； Atlanta， Georgia， USA， 2013.

[12] KOZIOL J A， TAN E M， DAI Liping， et al. Restricted Boltzmann machines for classification of Hepatocellular Carcinoma[J]. Computational Biology Journal， 2014，2014.

[13] TOMCZAK J M. Application of classification restricted Boltzmann Machine to medical domains[J]. World Applied Sciences Journal， 2014， 31（Applied Research in Science， Engineering and Management）：69-75.

[14]TOMCZAK J M. Prediction of breast cancer recurrence using Classification Restricted Boltzmann Machine with Dropping. arXiv preprint arXiv：1308.6324， 2013.