APP下载

BP神经网络在CESM强化密度及乳腺癌诊断中的研究分析

2021-10-14锁彤佳吕子璇尹思宇

关键词:乳腺密度神经网络

锁彤佳,吕子璇,尹思宇,刘 伟

(鲁东大学数学与统计科学学院,山东 烟台 264011)

2021年3月11日,十三届全国人大四次会议提出,要全面推进健康中国建设,改革疾病预防控制体系。2020年统计数据显示,乳腺癌取代肺癌成为全球发病率第一的癌症,而提高乳腺癌诊断的准确率与效率是疾病预防控制体系中重要的一环,也是坚持健康中国战略中“预防为主”方针的重要体现。

随着乳腺癌病发率升高,乳腺肿瘤的影像学表现愈发多元化,目前对于乳腺诊断应用最广的普通乳腺X线检查技术在长期应用中暴露出了一定的局限性,对此,美国FDA在2011年提出了具有诊断时间短、价格低等优点的对比增强乳腺X线成像(CESM)技术。XING等[1]研究表明,CESM对乳腺癌诊断的准确性、特异性较高,有非常大的临床应用价值;而姜奕歆等[2]认为CESM检查还存在缺少统一诊断标准和成像标准的问题。

得益于人工智能的迅猛发展,深度学习视角下的普通乳腺X线检查和乳腺磁共振成像等检查技术近年来得到了广泛应用。TOURASSI等[3]对普通乳腺X线技术构建了一种约束满足神经网络的方法用于乳腺癌诊断;SINGH等[4]通过将BP神经网络诊断反馈与放射科医师诊断反馈相整合,显著提高了在超声检查中乳腺病变组织诊断的临床效率。

病灶在影像学上的强化特点是诊断乳腺癌的重要参考指标,但是不同检查技术下,病灶强化密度的统计学表现有所差异。蔡丽珊等[5]通过t检验对乳腺良恶性肿块超声造影结果分析得出“良恶性病变都可表现为均匀强化或不均匀强化,其强化方式差异并无统计学意义”的结论;LIU等[6]采用CEUS联合微血管成像技术诊断乳腺病变,χ2检验结果显示,病灶呈均匀和不均匀强化密度模式均未提示有临床价值;而郜莹莹等[7]分析NME乳腺癌与良性病变的MRI特征并进行统计学比较发现,内部强化密度差异具有统计学意义。

因此,现阶段对于CESM检查下强化密度及乳腺癌诊断的研究还有以下问题有待深入考虑。首先,国内外学者对于CESM检查有很多良莠不齐的评价,因此该技术在国内临床上得到广泛使用的愿景还需建立诊断精确率更高的模型来支撑;其次,在现代医学领域,对CESM检查相关指标的分析研究大多使用χ2检验的方法,如盛蕾等[8]采用χ2检验得到CESM检查对致密型乳腺乳腺癌的诊断具有较大价值的结论,而结合BP神经网络模型对CESM检查开展的研究较少;另外,由于强化密度在不同检查技术下的显著性表现存在差异,因此CESM检查下强化密度对诊断结果的影响效果还需进一步验证。

本文将在考虑CESM上病灶强化程度、强化方式、强化密度三个指标的前提下,重点关注强化密度对明确乳腺肿瘤性质的影响,并在医学领域常用的χ2检验方法基础上,发展BP神经网络方法来验证CESM成像技术在临床上广泛应用的可能性。通过控制强化密度属性,训练得到两个基于一定诊断精确率的神经网络模型来评估CESM检查技术对于乳腺癌检出的可靠性,找出最佳模型的诊断参考值,为放射科医师提供一个神经网络辅助诊断乳腺癌的模型,致力于减少临床诊断中误诊、漏诊等情况的出现,减少女性群体每年进行乳腺检查的经济压力以及时间精力。

1 诊断指标收集及预处理

1.1 指标选取

病灶的强化特点反映了肿瘤或病变组织的血液供应情况。病灶的强化程度按照肿瘤或病变组织的血供丰富程度从小到大依次分为无强化、轻度强化以及中、重度强化;病灶的强化方式按照时间密度曲线分为增长型、平台型和流出型;病灶的强化密度按照其对比剂填充是否均一分为均匀强化与不均匀强化。

据临床经验可知,恶性肿瘤的强化特点多表现为中度或重度强化、平台型或流出型强化、不均匀(包括环型)强化。在此,基于CESM技术的成像特点,选取强化程度、强化方式、强化密度三种重要的影像学表现作为验证CESM检出致密型乳腺癌精确度的主要属性信息。

1.2 指标数据获取

图1 数据获取流程

采用2016年7月至2020年7月在山东省泰安市中心医院就诊的241例31~60岁的女性乳腺肿瘤患者资料进行分析,所有患者均接受CESM检查,签署CESM检查知情同意书,并以随机编号的形式匿名参与研究。所有患者的CESM影像资料均由两位具有丰富经验的乳腺病变诊断医师独立地进行重复判读,判读不一致的影像资料由两位协商解决。将由手术或穿刺得到的判读结果离散化,并将其作为金标准形成本文数据的标签信息;将由CESM技术得到的肿瘤判读结果离散化,形成本文数据的属性信息。

1.3 指标数据预处理

本文共收集到241例患者资料,其中43位患者在案例收集期间存在2~3次复查行为;9位患者体内发现多处疑似肿瘤;由于图像不清晰、体位不标准等原因,17位患者资料存在不同程度属性信息不全的情况。

为保证数据的完整性,并保证统计方法有尽量多的数据作为支撑,本文将43位多次复查患者的不同复查情况分开为不同的案例形式呈现,该43位患者最终可以提供94条数据资料;将9位多处疑似肿瘤发现患者的不同部位肿瘤同样分开为不同的案例形式呈现,该9位患者最终可以提供22条数据资料;将17位存在缺失数据的患者资料请有经验的专业影像医师据其他诊断指标进行补全处理。

经数据预处理之后,共得到357条不同乳腺病变的数据资料,部分原始数据资料如表1所示。

表1 部分数据资料

2 实验设计

2.1 指标的交叉列联分析

对本文选取的属性指标进行交叉列联分析,以此来验证本文选取属性指标的科学性和可行性。列联分析在医学领域常被用于研究两个或多个属性之间是否存在明显相关性[9],通常以χ2值作为相关性强弱的评价指标,计算公式为:

《规划》对区域内堆土区和冲填区进行经济林的新造林和现有林木的更新改造。经济林建设尽可能配置高效益苗木、速生丰产林等,提高农民参与生态建设的积极性。树种选择薄壳山核桃、亳州核桃、樱桃、梨、花椒等名优乡土经济林品种,株行距为4 m×5 m。经济林建设能增强特色经济林市场竞争力,调整农村产业结构,有效增加农民收入,促进当地农业和农村经济的快速发展,取得显著的生态、经济、社会效益。

(1)

(2)

其中:r代表行,c代表列,fij为第i行第j列案例情况的实际频数,eij为第i行第j列案例情况的期望频数,χ2统计量的自由度为(r-1)(c-1)。

以P值作为判断三种属性指标的差异是否有统计学意义的标准,P<0.05说明三种属性指标的差异在肿瘤性质的表现上有统计学意义;以χ2值作为判断三种属性与肿瘤性质相关程度的排序标准,χ2值越大,被用来诊断肿瘤的属性越可靠。χ2检验结果见表2。

表2 乳腺良性肿瘤与恶性肿瘤强化特点比较

由表2中χ2检验结果可知,强化程度(χ2=228.643,P=0.000)和强化方式(χ2=196.628,P=0.000)的χ2值明显大于强化密度(χ2=78.676,P=0.000),二者用于肿瘤判断的可靠性较强;强化程度、强化方式和强化密度的不同特征在良、恶性肿瘤的影像学表现上均具有统计学意义(P<0.05),有理由认为以强化程度、强化方式和强化密度三个影像表现指标作为输入属性,可以构建出一个准确率较高的BP神经网络模型来进行乳腺癌的辅助筛查工作。

2.2 BP神经网络模型特点

本文采用BP神经网络的误差反向传播训练机制进行学习训练,正向传播强化特点的工作信号,反向传播产生的误差信号。网络学习是不断更新权值和偏置值,使凸型误差函数值达到最小的过程。误差函数达到最小值时,可以得到与标签状态相比满足一定精确率的结果,最终训练得到的BP神经网络模型可适用于对由CESM技术得到的乳腺肿瘤强化特点属性数据的诊断,以含一层隐含层的神经网络为例,BP神经网络循环更新的传播过程见图2。

图2 含一层隐含层的BP神经网络传播方式

2.3 网络设计

2.3.1 两网络对比模式 将向后剔除法与神经网络训练过程相结合,根据χ2检验结果,使用Python3.6软件,基于Tensorflow深度学习框架构建两个不同输入信号的BP神经网络。考虑到交叉列联分析结果显示,强化密度较其余二者的χ2值小很多,且CESM技术下的实际诊断过程中,均匀强化在良恶性肿瘤中的分布较为分散,为验证强化密度是否会在BP神经网络的训练过程中存在干扰作用,本研究构建三个输入信号的网络后,剔除强化密度,构建两个输入信号的网络,最终对比选择最佳网络。过程如图3所示:

图3 两网络建立过程

2.3.2 CESM技术乳腺癌诊断的网络训练 本研究采取打乱样本顺序进行交叉验证的方法,将案例数据按照4∶1的比例划分为训练集和测试集,从而选取验证过程中最佳的超参数和数据形式。为提高模型的可靠性,根据原始数据的类型,本文选择采用独热编码扩大输入节点数量的形式来表示输入信号以及标签值;采用随机生成的正态随机数据作为权值和偏置值的初始值;采用重复实验方法确定能使样本误差达到预设精度的隐藏层以及隐藏层神经元的数目。

替换传统的隐藏层激活函数。传统的BP算法通常以Sigmoid函数作为隐藏层的激活函数,但是随着神经元个数的增加,函数值的变化往往会受到缺失梯度的影响,这将不利于深层神经网络的反馈传输。为了得到更好的精确率以及更小的损失函数值,本文在隐含层使用ReLU函数作为σ1激活函数,以x代表输入信号,ReLU函数形式如下:

(3)

根据属性信息的数值特征,需要利用Sigmoid函数将多层感知器最后的结果映射到(0,1)之间,得到概率值。因此,输出层使用Sigmoid函数作为σ2激活函数,以x代表输入信号,Sigmoid函数形式如下:

(4)

以第一条案例在三个输入信号神经网络模型下的训练为例,以向量为单位,其过程及结构见图4。

x(a[0])为输入信号向量,为施加给第i层第j个节点线性变换后的向量,为对第i层第j个节点施加激活函数后的输出信号向量,为由第i层的第j个节点向下一层的第k个节点输入的权值向量,为第i层第j个节点对应的偏置值向量,为损失函数。

2.4 评价指标

本研究将恶性乳腺肿瘤和良性乳腺肿瘤分别作为阳性和阴性,选取模型分类的精确度(ACC)、敏感度(TPR)以及特异度(TNR)作为评价指标[10],分别描述两个分类网络的准确率、真阳性率、真阴性率,以选取最佳网络,各评价指标公式为

(6)

(7)

(8)

式中,TP代表实际为阳性,预测为阳性的案例数量;FP代表实际为阴性,预测为阳性的案例数量;FN代表实际为阳性,预测为阴性的案例数量;TN代表实际为阴性,预测为阴性的案例数量。

本研究借助ROC曲线选择出最佳网络的诊断参考值。ROC曲线下方面积越大,网络的识别能力越强,由此来选择最佳网络;最佳网络ROC曲线以(1-特异度)作为横坐标,以敏感度作为纵坐标,最靠近左上角的点被称为最佳临界值点,其敏感度和特异度之和最大,将该点坐标值作为诊断参考值。

3 研究结果

3.1 CESM检查技术对乳腺癌的诊断网络满足较高精度

两个网络的训练过程见图5,随着损失函数值的减小,两个模型的精度都在逐渐提高,最终均可到达90%以上的精度范围。因此,将CESM技术的影像表现与BP神经网络相结合,对乳腺肿瘤性质的判断可以满足较高精度,我们有理由认为,CESM检查对乳腺癌的诊断具有较大的可靠性,其与神经网络相结合,可以为影像医师提供良好的诊断参考。

图5 模型训练过程

3.2 加入强化密度属性可以提高乳腺肿瘤诊断网络的准确率

两个网络的训练结果对比见表3,其中Train-acc代表训练集精度,Test-acc代表测试集精度。据表4可知,对于训练集,未剔除强化密度诊断网络的精确率较剔除强化密度诊断网络的精确率大2.1个百分点,未剔除强化密度诊断网络的敏感度较剔除强化密度诊断网络的敏感度大2.65个百分点,二者特异度未见差异。因此,引入强化密度属性是通过影响敏感度来提高网络精度的,即强化密度属性的引入可以减少乳腺癌漏诊情况的出现,其对于影像医师的诊断来说是一项不可忽略的参考指标。

表3 神经网络模型精确度、敏感度、特异度比较

3.3 最佳临界值出现在最佳模型敏感度为0.978、特异度为0.949时

两个网络的ROC曲线如图6,由图可知,两个模型ROC曲线的下方面积均较大,二者均可以对CESM的病灶进行较好地诊断,但是相比而言,引入三个输入信号的网络为最佳网络模型,最佳临界值也出现在该模型中。诊断参考值出现在其敏感度为0.978、特异度为0.949时,在该点灵敏度最高,误判率最低,可达到整体最优状态。

图6 ROC曲线

4 结 语

由于本研究中的病例资料有限,案例之间也具有较大的偶然相似性,CESM技术是否能够得以广泛应用,仍需更大规模的案例资料来进行研究。但本文的初步研究结果表明:

CESM是一种可靠的技术,对乳腺肿瘤的检出精度较高,采用三个输入信号的BP神经网络对CESM上病灶的强化特点进行学习训练,测试集可以达到95.77%的判断准确率,因此,CESM检查有望成为平价、快捷的MRI替代检查技术,有必要大力支持其在临床中的广泛应用;将CESM技术的影像表现与BP神经网络模型相结合,可以为医学影像医师进行乳腺癌筛查诊断提供有效的辅助决策反馈,提高早期乳腺癌的检出率,推动“健康中国”建设中疾病预防控制系统的扩充发展。

经过对神经网络输入信号集的创新选择,可对比验证强化密度在CESM上对乳腺肿瘤性质诊断过程中的重要作用。虽然强化密度交叉列联分析的χ2值较强化程度和强化方式小,但是将强化密度纳入输入信号集可通过影响模型敏感度来提高诊断精度,这说明CESM上病灶的强化密度对乳腺癌的检出判断更加严格,可以减少漏诊乳腺癌情况的出现。因此,影像医师在临床诊断时,不应忽略强化密度的表现特征,应将其纳入参照范围。

最佳模型ROC曲线的最左上方点可达到敏感度和特异度的整体最优点,CESM检查技术对于乳腺良、恶性肿瘤诊断的最佳BP神经网络模型为引入强化程度、强化方式以及强化密度三个输入信号的模型,最佳界值出现在该模型敏感度为0.978、特异度为0.949时,在该点灵敏度最高,误判率最低,可以该点作为CESM检查诊断乳腺癌的最佳参考值。

猜你喜欢

乳腺密度神经网络
基于神经网络的船舶电力系统故障诊断方法
基于高频超声引导的乳腺包块导丝定位在乳腺病变中的诊断价值
MIV-PSO-BP神经网络用户热负荷预测
基于改进Hopfield神经网络的对地攻击型无人机自主能力评价
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
乳腺贴真的能治乳腺疾病吗
张惠灏:乳腺肿瘤重在预防
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
“密度”练习
密度的应用趣谈