体检人群肝脂肪病变者中医脉象信号的递归定量识别与分析
2022-12-08武文杰张春柯颜建军王忆勤燕海霞马孝天
武文杰,郭 睿,张春柯,颜建军,王忆勤,燕海霞,马孝天
(1.上海中医药大学基础医学院,上海 201203;2.华东理工大学机械与动力工程学院,上海 201203)
随着近年来生活水平的提高和饮食结构的改善,以非酒精性脂肪肝(non-alcoholic fatty liver disease,NAFLD)和肝脂肪浸润(fatty infiltration of liver,FIL)为主的肝细胞脂肪病变检出率逐年攀升。NAFLD是指除长期大量饮酒和其他明确的致病因素外,以三酰甘油为主的脂质在肝细胞中堆积的慢性代谢性疾病[1]。FIL则是导致肝脏多型损害的一种病理状态,被认为是诱发脂肪肝的危险病理改变[2]。肝脂肪病变可导致肝脏微循环血流量减少,从而使肝细胞处于持续的缺血低氧状态,还会加剧糖代谢障碍,使肝细胞内环境稳态失调,对肝细胞再生具有诸多不利影响[3-4]。
腹部超声作为肝、胆、脾、肾等腹腔器官的重要临床辅助诊断技术,可对病变部位、病因和病理类型进行初步诊断。研究[5]表明,当肝脏发生50%以上脂肪沉积量时,超声诊断的灵敏度可达90%。因此,通过腹部超声可进一步掌握肝脏脂肪病变程度。但肝脂肪病变多无明显症状,其发病具有隐匿性,且多数患者只有通过定期健康体检腹部超声才能对自身病理状态有所察觉,故探索一种便捷、实时、无创获取的肝脂肪病变评估方法具有重要的临床意义。
脉诊是颇具特色的中医诊断方法之一。医者感触“寸口”桡动脉搏动来区分不同脉象,其实质是借助心血管系统这一信息平台,综合来自全身各系统的信息以获取脏腑的生理病理变化。随着信息学、工程学和计算机学等现代多学科技术与中医脉诊的交叉渗透,脉诊客观化研究已经取得一定的成果,并已在多种心血管疾病的研究中得以应用[6],但其在肝脏疾病研究中的应用却鲜见报道。左侧寸口关部为肝之所候,因此本实验通过检测左侧寸口关部的脉象信号,分析与肝脏相关的生理病理信息。
脉象信号等人体生理信号具有非线性特性,其非线性效应主要来源于心脏的非线性激励、血管系统几何形状及力学性质的非线性、血管壁运动的非线性、血液流动的非线性流体的特殊性等[7]。非线性分析方法已被广泛应用于心电信号等诸多生物信号的研究中[8]。递归图(recurrence plot,RP)是刻画系统非线性动力学特征的重要工具,其反映出的规则、局部结构可以定性地描述一维信号的非线性动力学特征,而递归定量分析(recurrence quantity analysis,RQA)则是对RP的定量分析[9-10],可定量地分析一维信号的非线性动力学特征。因此,本研究通过RQA方法提取体检人群肝脂肪病变者脉象信号的RQA特征,基于RQA特征建立肝脂肪病变的识别模型,以期为肝脂肪病变提供一种实时、便捷的评估方法。
1 资料与方法
1.1 病例来源 本研究纳入的249例研究对象(男111例,女138例)来源于2021年3月至2021年8月上海中医药大学附属岳阳医院体检中心体检人群,平均年龄(56.7±11.0)岁。根据腹部超声检测报告,将研究对象分为两组:非肝脂肪病变组(共99例)、肝脂肪病变组(NAFLD、FIL共150例)。受试者自愿参加本次医学试验,且对本次试验获取的全部资料知情且同意。本试验采集整理的所有个人信息及资料被严格保密且仅用于本次医学试验。
1.2 一般资料 通过问卷及体检报告收集整理受试者一般资料,包括性别、年龄、身高、体质量,依据身高和体质量计算体质量指数(body mass index,BMI)。
1.3 脉象信号采集 采用华东理工大学和上海中医药大学共同研发的ZY-Ⅰ型脉诊仪采集受试者左侧腕掌横纹桡动脉处脉象信号。嘱被检者取端坐位或仰卧位,平静呼吸且身心放松,前臂外展,掌心朝上,局部气血调和,采集时间为60 s。取最佳脉象信号图用于RQA特征提取与分析。
1.4 分析方法
1.4.1 RP RP是利用二维图形方式来定性描述系统非线性动力学特征的工具。对于非线性动力学系统而言,相空间重构是研究其系统复杂度的基础。RP则是基于相空间重构思想构造而成。根据Takens嵌入原理[11],选择适当的嵌入维数和延迟时间,对实际或观测手段获得的时间序列可以重构一个与原动力系统拓扑结构相同的相空间。例如,对于脉诊仪采集的一维脉象信号时间序列(见图1A),首先根据Takens原理构造脉象信号的相空间结构(嵌入维数为3,延迟时间为5),再根据脉象信号在相空间的重构轨迹构造二维RP,见图1B。RP上每个点由相空间轨迹对应的行、列向量点之间的距离进行描述[12],根据公式(1)进行绘制。
Rij=θ[ε-‖X(i)-X(j)‖],i,j=1,2,…,N
(1)
其中,ε为距离阈值,‖.‖为欧式距离,θ[x] 为海维赛德函数。根据i和j之间的距离是否大于或小于ε,Ri,j取值为1或0,在RP中表现为黑点和白点。RP则是通过线段及黑点反映系统的非线性动力学特征。如图1B所示,脉象信号的RP可视化地展示了其非线性动力学特征,在45°对角线出现了较长的线段结构,这些线段互相平行,间距近似相等,表明了脉象信号动力学系统演化的周期性及规律性。但RP只能定性地展现系统动力学特征,因此还需要对其进行定量分析。
图1 一维脉象信号图(A)和脉象信号RP(B)
1.4.2 递归定量分析 RP中的线段结构和分布可以从不同角度定性地反映系统的特性,RQA则是对RP中递归点的密度、线段结构等细节进行定量分析的一种方法。RQA特征主要包括递归率(recurrence rate,RR)、确定性(determinism,DET)、对角线长度的均值(averaged diagonal length,L)、递归熵(entropy of diagonal length,ENTR)、最长对角线(length of longest diagonal line,Lmax)、层状度(laminarity,LAM)、竖直/水平线段长度均值(trapping time, TT)和最长竖直/水平线段长度(length of longest vertical line,Vmax),各量化分析特征的计算方法见如下公式[13]:
(1)RR:RP中出现的递归点数与整幅图点数的比值,其高值反映了一个较强的周期性嵌入过程。
(2)
(2)DET:构成平行于对角线线段的递归点数与总的递归点数的比值,可用于区分个别发散的递归点和有规律的特定图案。
(3)
(3)L:RP中对角线长度的均值。
(4)
(4)ENTR:RP中对角线结构长度分布的香农熵,P(l)是对角线结构长度分布的概率密度。
(5)
(5)Lmax:最长对角线长度,Ni是45°对角线结构的个数。
Lmax=max({li;i=1,…,Ni})
(6)
(6)LAM:指构成竖直或水平线段结构的递归点的百分比,P(v)是长度为v的竖直或水平线段的频率分布,vmin是最小分析长度,一般取2。
(7)
(7)TT:RP中构成垂线段的平均长度,是测量系统内一个特定状态平均时间的指标。
(8)
(8)Vmax:RP中构成垂线段的最长长度。
Vmax=max({vi,i=1,…,Nv})
(9)
1.6 机器学习方法 随机森林(random forest,RF)是一种有较高预测率、对异常值和噪声具有较好容忍度且不容易出现过度拟合的机器学习方法。其能通过Bootstrap重抽样技术从原始整体中提取多个样本,对每个样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果[14]。RF因其在方法及理论上的优势,广泛应用于疾病诊断与预测研究。
1.7 模型评价 根据模型识别结果,绘制模型的混淆矩阵,如表1所示。根据公式(10)—(13)计算模型的评价指标:准确率、精准率、召回率、F1值,并绘制模型的受试者工作特征曲线(receiver operating characteristic curve,ROC)并计算ROC曲线下面积(area under the curve,AUC)来评价模型识别性能。
表1 模型识别结果
(10)
(11)
(12)
(13)
2 结果
2.1 一般资料 两组体检人群性别、年龄、BMI比较,差异具有统计学意义(P<0.05)。其中,男性肝脂肪病变频数高于女性(P<0.05);肝脂肪病变组的年龄、BMI大于非肝脂肪病变组(P<0.05)。见表2。
表2 两组体检人群一般资料分析
2.2 脉象信号RQA特征分析 肝脂肪病变组脉象信号RQA特征RR、DET、L、ENTR、LAM、TT、Vmax均显著高于非肝脂肪病变组(P<0.05),Lmax差异无统计学意义(P>0.05)。见表3。
表3 两组体检人群脉象信号RQA特征比较[M(QR1,QR3)]
2.3 模型的建立与评价 本研究基于150例体检人群肝脂肪病变者和99例体检人群非肝脂肪病变者的脉象信号RQA特征和一般资料,运用RF算法建立肝脂肪病变组识别模型。采用5倍交叉检验策略进行模型训练与预测,即将整体样本集分为5份,轮流将其中4份作为模型训练集,1份作为模型测试集,最终确定识别模型的输出类别。
识别模型以腹部超声报告作为实际类别,结果显示,实际类别与模型输出类别均判断为肝脂肪病变组(即TP)的病例数为129例;实际类别为肝脂肪病变组,但模型输出类别判断为非肝脂肪病变组(即FN)的病例数为21例;实际类别与模型输出类别均判断为非肝脂肪病变组(即TN)的病例数为71例;实际类别为非肝脂肪病变组,但模型输出类别判断为肝脂肪病变组(即FP)的病例数为28例。经过模型的识别结果计算,模型的准确率为80.34%、精确率为82.17%、召回率为86.00%、F1值为84.04%、AUC为86.77%。见图2。
图2 肝脂肪病变识别模型ROC曲线
3 讨论
脉象信号蕴藏了丰富的人体生理病理信息。研究[15]发现,脉象时域特征h1、h3、h4、h5、h5/h1可用于脂肪肝及正常人脉象特征的鉴别,为肝脂肪病变的脉象客观化研究及早期诊断提供了参考。脉象时域分析是一种直观的线性方法,其关注于脉象信号图曲线上某些点或局部特征,未能将曲线所包含的信息全部利用起来,并且难以反映信号内部的非线性特性。人体多种生理信号如脉象信号具有非线性特性,非线性动力学方法已在生理信号分析中得到较好的应用[16]。因此,本研究通过非线性动力学方法,提取体检人群肝脂肪病变者与非肝脂肪病变者的脉象信号的非线性动力学特征并进行分析,探讨两组受试者的脉象差异。
本研究提取了体检人群脉象信号的RQA特征,不同的RQA特征具有不同的非线性动力学意义。其中,RR计算了RP中递归点的密集度,反映系统内部某些特定状态在未来重现的概率,较高值意味着系统内部更强的周期性;DET表示RP中构成对角线的递归点的百分比,其值与系统内部确定性或平均可预测程度呈正比;L为相邻两条轨道相互接近的平均时间步长,也是系统确定性的反应特征;ENTR是评价RP对角线长度分布复杂度的参数,其值越高则RP包含越多对角线结构。故较高的DET、L、ENTR反映了肝脂肪病变组的脉象信号具有更高的确定性。LAM反映系统状态响应快慢的程度,其值越大反映系统越稳定;TT是预测一个动态系统未来可能性有多大的指标,对动态系统的时间进行量化,其值越高,反映系统越稳定且复杂度降低;Vmax反映系统稳定性,其值和系统稳定性呈正比。本研究发现,肝脂肪病变组的脉象信号RQA特征RR、DET、L、ENTR、LAM、TT、Vmax均显著高于非肝脂肪病变组(P<0.05),提示该组脉象信号具有更高的规律性、确定性和稳定性。
本研究对体检人群肝脂肪病变组与非肝脂肪病变组的一般资料进行比较,结果显示肝脂肪病变组男性构成比、年龄及BMI均高于非肝脂肪病变组(P<0.05)。男性肝脂肪病变者较多,可能与工作压力大、社交应酬中摄入过多高脂食物等不良生活习惯相关。肝脂肪病变组年龄偏高,有研究[17]报道,年龄是肝脂肪病变的独立危险因素,这可能与因年龄增长而出现的肝脏代谢综合征有关。高BMI是肝脂肪病变的风险因素,肥胖患者因肝脏摄入脂肪量超过其氧化及脂化功能,诱发脂肪大量无序堆积,导致病变程度不断加深[18]。
RF算法是一种用于数据挖掘的机器学习算法,具有训练过程快速且高效、能有效应对数据样本不平衡以及避免数据过拟合等优点,因此,本研究基于一般资料和脉象信号RQA特征,运用RF算法建立了体检人群脂肪肝病变识别模型,并取得了较好的准确率、精确率、召回率、F1值、AUC。本研究显示,脉象检测技术在肝脂肪病变的早期筛查中具有一定的临床应用价值,可用于疾病亚临床状态的检测,发挥中医“治未病”的诊疗思想。
本研究同时存在一定的局限性:肝脂肪病变常被纳入“痞满”“积证”等中医疾病范畴,中医认为其基本病机多为脾失运化,肝失疏泄,木郁乘土,湿聚成痰,导致痰、湿、郁、瘀阻滞肝络而发病。其虽病在肝,但与脾、胃、肾等脏腑的水液代谢障碍密不可分。受限于研究采用的单探头脉诊采集设备,本实验仅采集、分析了左侧关部(肝之所候)的脉象信号,而忽视了水液代谢等相关脏腑在寸口三部脉象上的征象。随着三部脉诊仪的研发与应用,今后研究可通过分析寸、关、尺不同部位的脉象信号,深入探索中医脉诊的临床诊断价值。