BM-MSCs的CNN特征映射与活性评价模型研究
2020-04-28曹玉珍张乾昆孙敬来张力新庞天翔
曹玉珍,张乾昆,孙敬来,张力新,余 辉,庞天翔
BM-MSCs的CNN特征映射与活性评价模型研究
曹玉珍1,张乾昆1,孙敬来1,张力新1,余 辉1,庞天翔2
(1.天津大学生物医学检测技术与仪器天津市重点实验室,天津 300072;2.中国医学科学院北京协和医学院血液病与血液病研究所国家重点实验室,天津 300020)
针对分选富集具有治疗疾病效果的干细胞(MSCs)亚群很难实现质量控制的问题,设计了以深度神经网络作为特征映射的主成分分析-岭回归模型,实现对骨髓间充质干细胞(BM-MSCs)的定量评价.通过三维重建细胞计算基于长轴的最大截面作为模型输入;训练4层神经网络将细胞分为正常细胞与病人细胞,提取全连接层输出作为特征映射;利用主成分分析降维后的前3项主成分向量作为自变量,样本评分作为因变量,使用岭回归模型进行拟合,将特征与细胞活性评分相联系,实现BM-MSCs活性定量评价,为后续分选高质量的活性细胞提供依据.第1阶段通过对176例细胞样本进行数据扩增,采用8折交叉验证输入二分类神经网络进行训练,第2阶段将其中标有专家评分的68例细胞样本输入到已训练的神经网络中提取全连接层输出作为特征,利用主成分分析-岭回归模型实现定量评价,结果表明:神经网络二分类准确率98.75%,敏感度为97.84%,特异度为99.43%,对于定量评价,模型总体样本的2为0.8736,拟合效果良好,可以实现对BM-MSCs定量评价.
干细胞;深度学习;特征映射;主成分分析;定量评价
骨髓间充质干细胞(bone marrow mesenchymal stem cells,BM-MSC)具有支持造血干细胞和造血祖细胞增殖,调节骨髓微环境的重要作用,并具有多向分化潜能[1].化疗药物、放射线、白血病细胞都能使BM-MSCs损伤和衰老,衰老间充质干细胞支持造血功能显著降低,是导致白血病患者正常造血功能衰竭的重要原因[2].BM-MSCs在多种组织中的免疫调节方面发挥重要作用,具有治疗多种免疫异常所致疾病的潜能[3-4].虽然大量研究已经使干细胞临床应用更进一步,但可能是由于干细胞群体异质性,结果仍无定论,很难实现质量控制[5].
流式细胞技术通过标记细胞表面分子,能够精确分析和分选细胞亚群,为科学研究提供了重要研究方法.但是,流式细胞技术不能精确鉴别细胞活性状态.机器学习预测干细胞外观已经成为可能[6],Caicedo等[7]提出基于图像方式可以获得细胞的特征,进而联系细胞生物功能,文献[8-10]在很多领域应用深度学习取得成功,Nitta等[11]用简单的神经网络对活细胞分类,建立了基于图像的流式细胞仪,为图像与细胞之间建立了联系,但是没有对细胞活性进行评价.
区分BM-MSCs不同活性亚群具有重要科学价值.细胞分类方式多是采用二维平面细胞图片通过传统方法进行处理,获得细胞特征,无法定量评价细胞活性.通用的卷积神经网络(convolutional neural network,CNN)模型,例如GoogLeNet和ResNet,具有庞大的架构和海量的权重系数,训练此类网络需要百万级样本数据,然而干细胞实验代价较大,无法获得足量样本完成网络训练,因此此类现成网络无法满足现有需求.
本文从全新角度理解细胞结构与功能的关联,针对小样本数据集设计专用卷积神经网络,使用基于长轴的最大截面作为特征平面输入,对急性髓系白血病(acute myeloid leukemia,AML)患者/正常对照组BM-MSCs进行分类,通过迁移已训练好的网络并利用主成分分析-岭回归模型分析进行MSCs活性评价,进而鉴定功能亚群,为实现临床急需BM-MSCs分选和富集过程的质量控制提供新思路.
1 数据获取与预处理
1.1 细胞培养与数据获取
BM-MSCs来自于28名初次诊断为AML患者和15名健康捐献者骨髓样本.实验通过密度梯度离心法从新鲜骨髓样本中分离BM-MSCs,进行体外培养与功能测评(微环境下细胞周期实验与细胞衰老测评);将培养的细胞用胰蛋白酶消解,计数并稀释至每毫升1×104细胞;然后将细胞膜与细胞核分别染色,固定细胞并用共聚焦显微镜观察细胞形态,并且拍摄三维细胞图像,图1为拍摄所得到的细胞切片图像.实验采用共聚焦显微镜(PerkinElmer),三维成像分辨率为0.0663μm×0.0663μm×0.5μm,平面切片1000像素×1000像素.
图1 干细胞切片
1.2 细胞三维重建
共聚焦显微镜获得的图片切片携带的系统噪声,主要是由相邻图层荧光散焦造成的.将整个光路看做一个光学系统,则细胞与细胞图像之间的关系为
式中:(,)表示细胞图像;(,)代表细胞空间分布;(,)表示光学系统的传递函数,即点扩散函数(point spread function,PSF);*为卷积符号.
本文采用Dainty提出的迭代盲反卷积(iterative blind deconvolution,IBD)算法对图像进行还原[12],然后对还原图像进行二值化,进而采用可视化工具包(visualization toolkit,VTK)(https://vtk.org)中的面绘制算法对细胞图像进行三维重建.三维重建结果如图2所示,其中纯蓝色代表细胞膜,棕红色代表细 胞核.
图2 正常和AML BM-MSCs三维结构
2 理论基础与方法
2.1 基于长轴的细胞最大截面图像重建算法
2.1.1 长轴计算
设细胞表面轮廓上点的坐标为(x,y,z),=12,,,其中为轮廓点总数,计算空间长轴时,遍历表面轮廓上所有两点间距离,取其中最大值就是骨髓间充质干细胞空间长轴max,其计算公式为
2.1.2 最大截面计算
其次坐标系平移,将原坐标系长轴中点点作为新坐标系原点.定义原坐标轴中任何一点在新坐标系中坐标,其计算公式为
最后,利用旋转矩阵可以将原坐标系中所有点坐标转换成新旋转坐标系中坐标.经过上面3步计算,得到重切片中所需原点(点)和重切片轴中轴,图4红色曲线代表单位圆,圆心为点,且轴垂直于此单位圆,然后利用轴与轴(图4蓝色虚线)在单位圆上旋转实现最大截面选取.通过BM-MSCs光学切片的重切片后,利用细胞三维结构的新坐标系,将细胞空间长轴作为旋转轴,旋转角步长为1°,分别获取细胞截面,共180组截面,按照面积大小对180组截面进行排序,其中面积最大的对应原始BM-MSCs轮廓的最大截面.
图4 旋转后坐标系示意
Fig.4 Schematic of the coordinate system after rotation
根据最大截面坐标轴信息,对原三维细胞切片进行重切片,如图5所示,采用VTK里的VTKImageReslice函数,可获得该细胞的基于长轴的最大截面.
图5 三维细胞重切片
2.2 基于CNN的细胞图像特征映射回归模型
2.2.1 构建卷积神经网络
自行设计的4层神经网络,包括两层卷积层和两层全连接层,结构如图6所示,其中每个卷积层之后都采用了池化层,激活函数选择ReLu函数,在第3层全连接层之后有dropout层及池化层,其中dropout层的设计可以防止过拟合.本设计网络结构简单,有效限制了权重参数的数量,非常适用于小样本数据集学习任务.本文网络学习分为两阶段,如图7所示,第1阶段利用卷积神经网络进行特征映射,通过176例细胞样本二分类标签完成网络参数辨识;第2阶段通过迁移学习抽取特征,采用主成分分析技术进行特征降维,结合岭回归模型,实现对BM-MSCs的定量分析.回归模型用68例样本进行训练及评价,由中国医学科学院血液病医院专家对细胞活性进行人工评分,分数在0~10之间,以0.5分划分等级.
图6 卷积神经网络结构
2.2.2 特征映射回归模型
将已经训练好的网络作为特征提取模型,提取最后全连接层8个神经元输出作为细胞特征,然后经过主成分分析(principle component analysis,PCA)实现特征降维,经过多次验证,前3项主成分向量特征值的贡献率均为0.99以上,且第1项特征值贡献率在0.9以上,以z(=1,2,…,8)来表示第个主成分向量,选择1、2和3作为输入回归模型的自变量.
图7 二阶段模型示意
采用岭回归建立回归方程,此方法为防止过拟合,损失函数使用了L2正则项,即
3 数据处理结果与评价
3.1 数据扩增与交叉验证
实验共获取了176例细胞样本,其中101例健康捐献者细胞,75例AML的细胞.由于生物实验成本昂贵,难度较高,可重复性较小,只能获取较小样本数据集,而深度学习一般适用于大样本,为了解决本问题,采用自己设计的小型网络,通过数据扩增和交叉验证保证设计网络稳定性.由于基于长轴最大截面的图像数据为1000×1000,所以通过图像预处理,均抽样为32×32大小的图片.
数据扩增是将小样本集通过旋转、平移、缩放、翻转、加噪声等方法,增加样本数量的一种方式[13].通过数据扩增,将原本176例样本扩增到了3694例,其中2119例健康捐献者细胞,1575例急性髓系白血病人细胞.图8展示了经过旋转和翻转等扩增后BM-MSCs图片.
图8 同一图片扩增数据
采用8折交叉验证,即将扩增后的数据平均分为8份,每份440个样本,均含有正常细胞和AML细胞样本,总计对上述卷积网络训练8次,每次使用7份数据进行训练,剩下的1份数据作为测试集,去判断网络分类效果,最终得到8个训练好的模型.
3.2 模型结果与评价
采用随机梯度下降算法,初始学习率为0.001,损失函数选择二分类交叉熵函数.对最大截面重采样像素尺度进行定量测试,结果如表1所示,像素尺度过大,如128像素×128像素,会导致网络参数过多,训练时间较长,而准确率受限于样本数量反而不高.综合考虑后,本文最终选择样本为32像素× 32像素,经过8折交叉验证训练,得到平均准确率为98.75%,标准差为0.34%.高准确率和较低标准差表明模型具有较好稳定性.
表1 深度学习模型测试结果
Tab.1 Testing results of the deep learning model
采用敏感度(sensitivity,TPR)、特异度(specific-ity,TNR)和受试者工作特征(receiver operating characteristic,ROC)曲线及其曲线下面积(area under curve,AUC)来评价模型应用价值.其中,敏感度值越大说明患者被诊断出患病的概率越大,漏检率越低,模型越好,特异度值越大说明健康的人被误诊概率越小,模型越好.本模型敏感度为97.84%,特异度为99.43%,受试者特征曲线如图9所示,其AUC为0.998,受试者曲线越靠近左上角、AUC越接近1,说明模型应用价值越高.由以上评价标准可以看出所用网络模型适用于实验研究.
图9 卷积神经网络的受试者工作特征曲线
在第2阶段,采用68例细胞活性评分数据为样本,分为两组,其中50个样本作为训练集用于计算回归模型,18个样本作为测试集用于模型检验.经过特征映射回归模型,得到
表2 回归模型拟合结果分析
Tab.2 Fitting results analysis of the regression model
4 结 语
健康捐献者与AML患者的BM-MSCs在显微镜下可以观察到具有显著的三维形态差异,因此可以将其形态与功能联系起来,实现BM-MSCs的分选与识别.本文首先提出了基于长轴的最大截面的算法,在三维细胞结构中找到特征面,即使用二维特征面代替三维细胞,充分保留其结构特征;其次提出一个简单的4层卷积神经网络,主要针对小样本集,使用数据扩增技术,通过训练和测试,基于细胞形态来分析和分选细胞,实验结果表明该模型分类效果好、稳定性高,极具应用价值.此外本文提出通过二分类神经网络的特征映射,进行迁移学习,采用PCA-岭回归模型,定量分析BM-MSCs的新思路,实验结果表明该定量模型可以满足临床应用需要,进而弥补流式细胞仪在细胞功能鉴定上的不足,为细胞分析、分选和富集提供了可能.
[1] 岑航辉,韩春茂. 骨髓间充质干细胞的研究[J]. 国际输血及血液学杂志,2002,25(4):359-362.
Cen Hanghui,Han Chunmao. Review of bone marrow mesenchymal stem cells[J]. International Journal of Blood Transfusion and Hematology,2002,25(4):359-362(in Chinese).
[2] Stenderup K,Justesen J,Clausen C,et al. Aging is associated with decreased maximal life span and accelerated senescence of bone marrow stromal cells[J]. Bone (New York),2003,33(6):919-926.
[3] Castro-Manrreza M E,Montesinos J J. Immunoregula-tion by mesenchymal stem cells:Biological aspects and clinical applications[J]. Journal of Immunology Research,2015,2015:1-20.
[4] Kim S U,De V J. Stem cell-based cell therapy in neurological diseases:A review[J]. Journal of Neuroscience Research,2010,87(10):2183-2200.
[5] Lee M W,Ryu S,Kim D S,et al. Mesenchymal stem cells in suppression or progression of hematologic malignancy:Current status and challenges[J]. Leukemia,2019,33(3):597-611.
[6] Amy M. Machine learning predicts the look of stem cells[EB/OL]. http://www.nature.com/articles/nature. 2017.21769.
[7] Caicedo J C,Cooper S,Heigwer F,et al. Data-analysis strategies for image-based cell profiling[J]. Nature Methods,2017,14(9):849-863.
[8] Lecun Y,Bengio Y,Hinton G. Deep learning[J]. Nature,2015,521(7553):436-444.
[9] 路志英,任一墨,孙晓磊,等. 基于深度学习的短时强降水天气识别[J]. 天津大学学报:自然科学与工程技术版,2018,51(2):111-119.
Lu Zhiying,Ren Yimo,Sun Xiaolei,et al. Recognition of short-time heavy rainfall based on deep learning[J]. Journal of Tianjin University:Science and Technology,2018,51(2):111-119(in Chinese).
[10] 侯永宏,叶秀峰,张 亮,等. 基于深度学习的无人机人机交互系统[J]. 天津大学学报:自然科学与工程技术版,2017,50(9):967-974.
Hou Yonghong,Ye Xiufeng,Zhang Liang,et al. A UAV human robot interaction method based on deep learning[J]. Journal of Tianjin University:Science and Technology,2017,50(9):967-974(in Chinese).
[11] Nitta N,Takeaki S,Akihiro I,et al. Intelligent image-activated cell sorting[J]. Cell,2018,175(1):266-276.
[12] Dainty G R,Ayers J C. Iterative blind deconvolution method and its applications[J]. Optics Letters,1988,13(7):547-549.
[13] Dhungel N,Carneiro G,Bradley A P. A deep learning approach for the analysis of masses in mammograms with minimal user intervention[J]. Medical Image Analysis,2017,37:114-128.
CNN-Based Feature Mapping and Activity State Evaluation Models of BM-MSCs
Cao Yuzhen1,Zhang Qiankun1,Sun Jinglai1,Zhang Lixin1,Yu Hui1,Pang Tianxiang2
(1. Tianjin Key Laboratory of Biomedical Testing Technology and Instruments,Tianjin University,Tianjin 300072,China;2. State Key Laboratory of Experimental Hematology,Institute of Hematology and Blood Diseases Hospital,Chinese Academy of Medical Sciences and Peking Union Medical College,Tianjin 300020,China)
During sorting and enrichment of stem cell subgroups(e.g.,mesenchymal stem cells)with therapeutic effects,it is difficult to achieve quality control.A principal component analysis-ridge regression model with deep neural network as feature map is designed to achieve the quantitative evaluation of bone marrow mesenchymal stem cells(BM-MSCs).The maximum cross sections based on the long axis are calculated as model inputs through the three-dimensional reconstruction of cells.A four-layer neural network is trained to enable the binary classification of normal and AML BM-MSCs,and the fully connected layer output is extracted as a feature map.In principal component analysis,the first three principal component vectors after dimensionality reduction are used as the independent variable,whereas the sample score is used as the dependent variable.The ridge regression model is used to fit and correlate the characteristics with the cell activity score to achieve the quantitative evaluation of BM-MSC activity,which provides a basis for the subsequent sorting of high-quality active cells.First,data are augmented from 176 cell samples as input of the neural network using an eight fold cross-validation.Then,68 cell samples labeled with expert scores are imported into the trained neural network and the fully connected layer output is extracted as a feature map.The principal component analysis-ridge regression model is used to achieve quantitative evaluation.The model results show that the accuracy of neural network classification is 98.75%,its sensitivity is 97.84%,and its specificity is 99.43%.For quantitative evaluation,the2value of the model sample is 0.8736,and the fitting effect is good.Thus,the quantitative evaluation of BM-MSCs,which can provide the basis for cell sorting and enrichment,can be achieved.
mesenchymal stem cells(MSCs);deep learning;feature map;principal component analysis(PCA);quantitative evaluation
TK448.21
A
0493-2137(2020)06-0626-07
10.11784/tdxbz201905105
2019-05-28;
2019-06-21.
曹玉珍(1963— ),女,博士,教授,yzcao@tju.edu.cn.
余 辉,yuhui@tju.edu.cn.
天津科技重大专项与工程资助项目(18ZXZNSY00240,16ZXCXSF00040,X-2018-31).
Supported by Tianjin Science and Technology Major Special Project(No. 18ZXZNSY00240,No. 16ZXCXSF00040,No. X-2018-31).
(责任编辑:孙立华)