APP下载

基于机器学习的肿瘤智能辅助诊断方法

2022-05-28程顺达孙士江

电子科技 2022年5期
关键词:人工神经网络分类器乳腺

程顺达,程 颖,孙士江

(1.河北省中医院,河北 石家庄 050000;2.河北省卫健委 统计信息中心,河北 石家庄 050051)

在各种恶性肿瘤病例中,乳腺癌对于妇女健康的威胁最大[1-2]。乳腺肿瘤病灶较小,病变特点不典型。在临床诊断时,仅通过人工识别所得出的诊断结果易受到主观因素的影响,降低诊断的准确率。因此,基于人工智能的辅助诊断技术[3]应运而生,其不仅能快速地辅助医生完成临床诊断,还能大幅降低乳腺肿瘤临床诊断的误诊率和漏诊率。

本文提出了一种基于监督学习的人工智能辅助诊断模型,可有效解决因特征提取数据量过大而导致的过拟合问题。通过引入层次聚类分析对提取完成的特征进行有效降维,同时选择人工神经网络结构作为模型的分类器,将聚类后的特征作为人工神经网络结构的特征进行输入,并以此实现分类器的有效训练,最终完成钼靶乳腺肿瘤的高精度区分。

1 人工智能辅助诊断模型

1.1 基于监督学习的人工智能辅助检测方法

监督学习[4]作为机器学习领域[5]的一个重要分支,其主要利用样本数据和已知标签,通过训练迭代的方式不断确定最优的参数和系统,以达到识别同类未知数据的最佳性能。基于监督学习的人工智能辅助诊断系统主要由以下3个部分组成:特征提取部分[6]、特征降维部分[7]和机器学习分类器部分,具体如图1所示。

图1 人工智能辅助诊断流程图Figure 1. Flow chart of AI-assisted diagnosis

1.2 特征选择

在医学影像领域,影像数据特征提取是将输入的影像数据进行计算,提取主要的计算结果,最终转换为一系列数字进行展现。

在人工智能辅助诊断系统的研究中,主要将灰度描述[8]、纹理描述[9]以及梯度空间分布描述[10]作为常用的特征描述方法。表1罗列了部分常用的影像特征。本文分别在原始良性影像数据集和原始恶性影像数据集上使用影像数据特征提取方法提取隐藏模式,以实现对训练集样本特征的有效提取。

表1 影像数据特征分类

特征提取也会带来一系列问题,例如当特征数量超出矩阵索引的维度之后,训练的样本数量无法传递到特征矩阵中,这就对计算机的计算性能提出了更高的要求。为解决这一问题,本文引入了层次聚类分析[11]来进行有效的特征降维,从而提升了算法的健壮性和运行效率。

层次聚类的实现步骤如下:

步骤1为数据集中所有样本单独设类,表示出其包含的所有类;

步骤2依次计算类间包含的不同样本之间的样本距离;

步骤3对步骤1和步骤2中生成的两个类别数据进行举例计算。

在重复上述3个步骤一定次数后,样本最后的训练结果就会生成一个新的数据类,之后再进行相似性度量,方法如下

(1)

(2)

式中,davg是在同一类Sk中每个成员i到中心μk距离的平均值;dmin是任意两个类中心距离的最小值;簇最优数目K*由最小有效率θ来确定。

(3)

式(3)可以计算出肿瘤样本数据集隐藏模式中最优数据簇的数目。当搜索出有效率的最小值以后,每个样本距离其簇中心的平均距离davg减小,而任意两个簇中心的最小距离增加。

1.3 人工神经网络分类模型

本文从实际应用场景出发,选择人工神经网络模型作为二分类器[12-13]。人工神经网络模型由输入层、输出层以及一个或多个隐藏层共同构成。

人工神经网络模型的工作过程包括信号前向传递[14]和误差逆向传输。信号的前向传递是指在不同网络分层中的不同节点之间进行全连接操作后,赋予不同的权重信息。逆向传输是指由结果不断修正相邻节点之间的权重信息,最终使得预测数据和正确数据之间的误差值满足一定的阈值,即可终止迭代。

在分类器的选择中,本文采用神经网络作为模型的分类器,如图2所示。本文使用的神经网络共有3层,输入层为乳腺肿瘤图像数据的输入预处理部分,其个数由上文中的特征选择数目决定。将信息输入到隐藏层中即可确定隐藏函数。随后,根据样本数量确定隐藏层节点数目。最后,将处理好的分类数据送至输出层。

图2 人工神经网络Figure 2. Artificial neural networks

1.4 算法步骤

本文所设计算法的整体流程如图3所示。算法包含3个阶段:首先,对数据集的数据进行标准化;然后,对数据集中的数据进行特征提取,并将提取完成的数据进行层次聚类分析以获得良性数据样本和恶性数据样本;最后,将聚类完成的样本数据输入人工神经网络分类器,从而实现钼靶乳腺肿瘤的高精度区分。

图3 算法整体流程图Figure 3. Flow chart of the proposed algorithm

2 实证分析

2.1 实验数据集

本文选取BCDR(Breast Cancer Digital Repository)影像数据库[15-16]作为实验数据集。该数据集的数据来源于葡萄牙北部地区的乳腺肿瘤患者,包含406个钼靶影像案例,包括230个良性案例和176个恶性案例。良性肿瘤和恶性肿瘤的具体案例如图4所示,其中图4(a)、图4(b)为恶性肿瘤示例,图4(c)、图4(d)为良性肿瘤示例。

(a) (b) (c) (d)图4 乳腺肿块案例Figure 4. Cases of breast lumps

2.2 实验数据预处理

由于样本数据集存在良、恶性影像数量不平衡的问题,因此需要对实验数据进行预处理。预处理步骤如下:

步骤1肿块区域提取。对影像数据进行选取,选取矩形为20个像素;

步骤2影像二值化处理。对影像数据进行二值化处理,保留最大的连通区域,在该区域内依次进行开运算、闭运算和孔洞填充;

步骤3数据样本增加处理。采用旋转和镜像的方式对样本的数量进行扩充。

本文在进行实验验证时,以BCDR数据集作为训练集和测试集,使用10折交叉验证方法,共进行1 000次迭代,具体的实验环境配置参数如表2所示。

表2 数据环境配置

2.3 实验设计与结果分析

为了验证本文所提算法的性能,并确定本文算法在检测钼靶乳腺肿瘤分期时的精度,将本文算法与多个相关算法进行对比实验,并通过准确率(Accurary)、精确率(Precision)、灵敏度(Sensitivity)、特异性(Specificity)、F值(F-measure)、ROC曲线以及AUC值等多个评价指标对算法的综合性能进行评估。表3展示了本文算法与对比算法的准确率比较结果。

表3 不同算法在BCDR数据集中的准确率

由表3可以看出,在5种方法的准确率对比中,本文算法最为理想。为进一步评估本文所提出算法的性能,接下来将对本文算法进行精确率、灵敏度、特异性、F1值和AUC评估,具体评估结果如表4所示。

表4 算法整体性能评估

从精确率、灵敏度、特异性、F1值计算结果来看,本文方法具有特征维度低和泛化能力强的优势,其综合检测能力也较高。

在机器学习领域中,ROC曲线和AUC值常用来评估机器学习算法的性能。由于ROC曲线只能定性地进行性能展示,因此通常使用AUC值对ROC曲线进行定量描述。上述4种算法和本文所提算法的AUC值对比如表5所示。

表5 各算法AUC值对比

由表5可以看出,各算法的分类性能大体相当,但本文算法对应的AUC值更高,因此本文算法具有更高的灵敏度和更强的特异性。

3 结束语

传统机器学习辅助诊断算法在提取大量特征时会增加算法计算成本。针对这一问题,本文提出一种基于监督学习的人工智能辅助诊断模型。该模型在对特征进行降维的同时引入了层次聚类分析,可对数据进行有效分类。实验结果表明,本文所提算法的各项性能指标均优于其他算法,但也存在一些不足,例如训练样本集的数量较少。在今后的研究中,将通过增加样本集数量来进一步提升模型的精确度。

猜你喜欢

人工神经网络分类器乳腺
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
使用人工神经网络改进2022年北京冬奥会数值天气预报后处理过程的算法研究
基于高频超声引导的乳腺包块导丝定位在乳腺病变中的诊断价值
基于人工神经网络的Ni-ZrO2纳米镀层耐腐蚀性能预测
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
基于朴素Bayes组合的简易集成分类器①
乳腺贴真的能治乳腺疾病吗
张惠灏:乳腺肿瘤重在预防
基于AdaBoost算法的在线连续极限学习机集成算法