基于回归分析的HIFU 治疗子宫肌瘤的消融率预测研究
2020-04-16高立文银刚张勤黄国华叶方伟
高立,文银刚,张勤,黄国华,叶方伟★
(1.超声医学工程国家重点实验室,重庆医科大学生物医学工程学院,重庆;2.重庆市生物医学工程学重点实验室,重庆;3.超声医疗国家工程研究中心,重庆;4.遂宁市中心医院,四川 遂宁)
0 引言
子宫肌瘤是育龄期女性最常见疾病,大约在妇科良性肿瘤中占52%[1]。其临床表现与肌瘤类型、肌瘤数目、肌瘤大小等相关,常见症状为经量增多、经期延长、尿频尿急、贫血等,但大多数患者没有症状,通常经由体检发现。目前治疗子宫肌瘤的方法主要包括药物治疗、手术治疗、其他治疗,如子宫动脉栓塞术,超声消融治疗[2,3]。近年来超声消融治疗作为一种非侵入性、保守性治疗子宫肌瘤的方法已取得较为满意的临床疗效[4]。现阶段对其术后治疗效果的评价一般是通过观察造影后病灶区体积的变化,但此方法有一定的局限性。而数据挖掘以融合多个学科、汇总多种方法、处理海量数据、挖掘重要信息等特点越来越广泛地引起了计算机、统计学等领域专家和学者的注意。回归分析作为数据挖掘技术领域的一种重要算法,从其最初的算法到后来的算法改进以及它在医学中的应用,都被进行了广泛深入地研究。将回归分析应用于HIFU 消融子宫肌瘤病人术后消融率的预测有着速度快,效率高,所建模型稳健性好等特点。通过数据挖掘回归分析方法可为临床判断、选择合适的治疗方案提供决策依据[5]。
1 资料和方法
1.1 资料来源
资料来源于遂宁市中心医院2014 年到2016 年的单发子宫肌瘤患者的临床资料。涉及患者的基本信息、MRI 检查、治疗信息三个方面,共计11 项指标。
1.2 临床数据预处理
首先,对原始数据进行初步筛选,剔除部分有缺失和不完整的临床记录,通过筛选剩余907 例。资料中的类型变量采用哑变量赋值,如肌瘤位置(前壁/后壁/侧壁/宫底/宫颈)这是一个类型变量,类型变量需要纳入计算必须将其转化为数值。因此,我们为前壁创建一列数据,为后壁创建一列数据,以此类推。然后将每一列分别以0/1 填充(1=yes,0=no)。这表明如果原始列为前壁,那么就会在壁/侧壁/宫底/宫颈四列得到0,在前壁这列得到1。本数据中由于宫颈数量很少,因此我们把宫颈这一属性进行了剔除。
接着,对预处理后的数据进行特征缩放,如本文中年龄范围在20-50,其对应的肌瘤体积范围在500-300000 的数据。肌瘤体积一列的数据远远大于年龄,而且有更广的数据范围。这表明,欧氏距离将完全由肌瘤体积这一特征所主导,而忽视年龄数据的主导效果。缩放特征仍能加速模型收敛。因此,可以在数据预处理中加入。特征缩放不影响最终结果,且包含了标准归一化等方法。
最后,我们进行了自变量的筛选,由于肌瘤位置在宫颈位置的只有一例,所以把宫颈位置予以删除。最后一共产生了19 个自变量:对应x1,x2,x3......x19 年龄、身高、体重、粘膜下、浆膜下、肌壁间、前壁、后壁、侧壁、宫底、肌瘤体积、高信号、等信号、低信号、混杂信号、治疗时间、辐照时间、治疗强度、治疗剂量,1 个因变量:消融率y。最终数据情况如表1 所示。
表1 数据情况分布表
1.3 研究方法
采用数据挖掘技术中的回归分析方法在Python 软件上构建回归预测模型,对2014 到2016 年907 例的单发子宫肌瘤患者的临床资料进行回归分析,并检测其对子宫肌瘤患者术后消融率的预测准确性。
1.4 回归分析
回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
在数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。
回归分析的主要应用场景是进行预测和控制,例如计划制定、KPI 制定、目标制定等方面;也可以基于预测的数据与实际数据进行比对和分析,确定事件发展程度并给未来行动提供方向性指导[6]。
1.5 Python 代码实现
本文将通过Python 机器学习相关工具包实现模型构建和预测,分别是用到:BayesianRidge( 贝叶斯岭回归)、LinearRegression( 普通线性回归)、ElasticNet( 弹性网络回归)、SVR(支持向量机回归)、GradientBoostingRegression(梯度增强回归)等机器学习模型。
2 结果
2.1 回归分析预测结果
回归分析的评估指标采用以下4 个指标来衡量:(1)方差得分(explainedvariancescore),其值取值范围是[0, 1],越接近于1 说明自变量越能解释因变量的方差变化,值越小则说明效果越差;(2)平均绝对误差(Mean Absolute Error, MAE),用于评估预测结果和真实数据集的接近程度的程度,其值越小说明拟合效果越好;(3)均方误差(Mean squared error, MSE),该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值,其值越小说明拟合效果越好;(4)判定系数(r2score),其含义也是解释回归模型的方差得分,其值取值范围是[0, 1],越接近于1 说明自变量越能解释因变量的方差变化,值越小则说明效果越差。本研究建立了5 种回归模型,各个模型的评估指标得分如表2 所示。
2.2 实验结果分析
本次实验使用的数据集属于小规模、多属性,单从这一点分析,5 种回归算法都易于实现、且性能表现良好。综合表2 的数据中可以看出,SVR 的模型评估得分要明显优于其他4 种算法,这可能由于:(1)只考虑了每个自变量和因变量之间的关系,而没有考虑到各个自变量之间的关系;(2)样本数据分布不均匀,这都是能直接影响预测准确率的原因。而且,根据表2 可以看到,5 种算法的均方误差也是有差异的,SVR 算法的均方误差显然比另外4种算法小。综上所述,在HIFU 消融子宫肌瘤的消融率预测实验中SVR 算法效果更好。
表2 5 种回归模型评估指标得分表
3 结束语
子宫肌瘤是妇科中最常见的一种良性肿瘤,已经对广大女性的日常生活造成了很多负面影响。文章利用数据挖掘中的回归分析算法在海扶医疗股份有限公司医学服务部提供的子宫肌瘤患者数据进行实验,从而实现对HIFU 消融子宫肌瘤的消融率进行预测。此次实验不仅实现了对HIFU 消融子宫肌瘤消融率的预测,还可以对比5 种回归分析算法,选出最合适的一种。SVR 算法拟合度较高,且均方误差明显比另外4 种算法小,因此,在此次实验中使用SVR 算法效果更佳。
今后主要研究的问题就是在提高SVR 算法效率的同时,寻找更优的算法。如今,HIFU 消融子宫肌瘤的有效性预测是广受关注的一个问题,未来会有越来越多的研究学者提出更好的算法和方案来解决这个问题,并为医学中的子宫肌瘤治疗提供帮助。