基于隐结构和因子分析的原发性肝癌常见证候分类及特征研究*
2023-12-28张容容邵明义赵瑞霞王靖雯赵云霞邵范雷
张容容,邵明义,符 宇,赵瑞霞,王靖雯,李 蔓,赵云霞,邵范雷
(1. 河南中医药大学第一临床医学院 郑州 450046;2. 河南中医药大学第一附属医院 郑州 450000)
原发性肝癌是全球癌症死亡的第三大原因[1]。研究表明,中国HCC 的发病率为35/10万人,严重威胁国民生命健康[2-3]。现行的治疗方法主要为手术切除、介入治疗、局部治疗、靶向治疗、放化疗、免疫治疗等[4-5],但远期疗效不尽人意。近年来随着中医理论与实践的发展,中医药在原发性肝癌的治疗方面取得了一定成效,主要体现在改善临床症状、延长生存期、降低不良反应[6]等方面。
中医以整体观念和辨证论治为理论基础,证候是中医药认识和防治疾病的核心,客观化、标准化辨证分型是中医临床和科研的基础[7]。近年来,学术界对于证候标准化、客观化的分类研究进行了大量的探索,但原发性肝癌中医证候分类及诊断标准尚无统一定论。故本研究通过收集真实世界原发性肝癌患者的四诊信息,采用隐结构法对无监督症状数据进行定量化分析,揭示隐藏的规律,指导辨证;通过因子分析及系统聚类分析进行数据降维,实现变量的逐步分层分类,推断潜在证候。不同分析方法互相补充、验证,为原发性中医证候分类及证候标准的建立提供参考。
1 资料与方法
1.1 病例来源
2015-2019 年在河南中医药大学第一附属医院、河南省中医院住院的原发性肝癌患者。
1.2 诊断标准
原发性肝癌诊断标准参照《原发性肝癌诊疗规范》[8]。
1.3 纳入标准
①符合原发性肝癌的诊断;②年龄在18-80岁,性别不限;③自愿接受研究,并签署知情同意书。
1.4 排除标准
①中医四诊信息不全;②合并严重心功能不全、肝肾综合征、神经系统疾病、其他肿瘤、其他系统严重感染的患者等;③妊娠或哺乳期妇女及近期有妊娠计划的患者;④神志不清、痴呆、各种精神疾病患者。
1.5 数据采集及规范
制定《原发性肝癌患者临床四诊信息采集表》,提取病历中的四诊信息。根据《中医临床诊疗术语》[9]并结合专家建议进行数据规范化处理,将多词一义的统一为一词表达、将合并概念进行拆分、将拆分概念词组进行合并、将修饰语及部位去掉,非专业中医用语转换为中医专业诊疗术语等。
1.6 数据库构建
①将症状数据规范化后录入,利用数据管理软件Excel建立标准化数据库;②录入完成数据进行交叉核查,无疑问后锁定数据;③将中医症状数据转化为分析软件能够读取的CSV 格式数据,“0”代表无该症状,“1”代表存在该症状。
1.7 数据分析
运用Lantern5.0 软件对原发性肝癌症状数据进行双步隐树分析(LTM-EAST 算法),对频次≥40 的症状进行隐结构模型构建。以隐结构模型图直观地显示隐变量与显变量的隐含关系,应用互信息、信息覆盖率量化隐变量与显变量的关联程度。采用贝叶斯信息准则(BIC)评分评价模型。运用SPSS 23.0进行因子分析和系统聚类分析,探索性因子分析对收集的频率>3%的症状进行分析,对符合因子前提条件设为(KMO(Kaiser-Meyer-Olkin)>0.05,Bartlett 球形检验P<0.01),公因子特征根>1;后对其进行最大方差旋转,得出旋转因子载荷矩阵,以因子分析得出的公因子为变量,进行系统聚类分析,结合谱系图及中医专业知识,对分析结果进行诠释。
2 结果
2.1 一般信息
纳入1353 例原发性肝癌患者。患者平均年龄为57.48±10.43 岁;其中男性1109 例,平均年龄为56.39±10.43 岁;女性244 例,平均年龄为62.00±10.40 岁。共收集105 个症状,频次≥40 的症状有59 个,其中前10 位高频症状为脉弦(965)、乏力(956)、纳差(929)、舌苔白(906)、腹胀(653)、舌苔腻(643)、胁胀(649)、脘胀(645)、赤丝血缕(565)、腹部膨隆(538)。
2.2 隐结构模型构建
原发性肝癌隐结构整体模型共有24个隐变量,分别为Y0-Y23,共有50 个隐类,Y8、Y12 分别有3 个隐类,其余隐变量均有2个隐类,线条粗细代表节点间紧密程度。经BIC评分,模型分数为-29 911.46,见图1。
图1 整体模型图
2.3 模型诠释及综合聚类分析
原发性肝癌隐结构模型显示,各显变量被隐变量分成不同类别,隐变量与显变量关联程度用互信息表示。结合专业知识,对隐变量从互信息、类概率分布等方面进行分析。如表1所示,隐变量Y0包括面色萎黄、形体消瘦、失眠多梦、头晕4个显变量,根据两两互信息重要性排序依次是失眠多梦、形体消瘦、面色萎黄、头晕,累积信息覆盖率为100%。结合专业知识,Y0 反映了气虚的特点。Y0 分为2 个隐类S0 和S1,两个隐类分别占总体人数的79%和21%。隐类S1 各症状出现概率均高于S0,如果定义Y0 的症状为气虚,则隐类S1为气虚人群。
表1 隐变量Y0类概率分布及信息覆盖率
余隐变量模型诠释同Y0。如隐变量Y1、Y3、Y10、Y15、Y23 也反映了气虚证的不同侧面,需要全面考虑这些变量信息。基于此,通过Lantern 5.0 软件对这些隐变量进行综合聚类,引入新的变量Z1并对其进行模型诠释。模型评分-7386.97,见图2。Z1 包括面色萎黄、形体消瘦、头晕、失眠多梦、大便干结、大便溏薄、排便困难、恶心、呕吐、纳差、乏力、气短懒言、面色黧黑、胸闷、脉沉。分析其发病机理为元气不足,脏腑组织功能减退,故气短懒言、乏力、纳差、形体消瘦;脾胃气虚,无力运行,故大便干结,运化失调,水谷不分,则大便溏薄;脾胃气虚则气机升降失调,出现呕吐、恶心;气血生化不足,心失所养,则失眠多梦;头面失养,故面色萎黄、头晕。如图3所示,气短懒言、失眠多梦、纳差、形体消瘦、呕吐、胸闷、乏力等的累积信息覆盖率超过95%。如表2 所示,Z1 将人群分为S0 和S1,S0出现概率为67%,S1 出现概率为33%。S1 各症状出现概率均高于S0,可判定S1 为气虚证人群,占总体人数的33%。分析结果可为原发性肝癌气虚证诊断提供依据,要考虑的症状按照重要性排序依次是气短懒言、失眠多梦、纳差、形体消瘦、呕吐、胸闷、乏力、头晕、大便干结等。
表2 Z1类概率分布
图2 Z1综合聚类隐结构模型图
图3 Z1信息曲线图
2.4 结合中医理论阐释综合聚类隐变量
余综合聚类变量模型诠释同Z1。综合聚类模型见图4(Z2-Z5),信息曲线见图5(Z2-Z5),类概率分布见表3,中医病机特点阐释见表4。
表3 综合聚类隐变量类概率分布
表4 综合聚类结果分析
图4 综合聚类隐结构模型(Z2-Z5)
图5 综合聚类隐变量互信息曲线(Z2-Z5)
2.5 因子分析及系统聚类分析
对105 个中医症状进行筛选,选取频率>3%的59 个症状信息进行因子分析。KMO 为0.581>0.5,Bartlett 球形检验统计量为23 711.032,相应的概率P值为0,表明各变量间的独立性假设被拒绝,变量高度相关,适合做因子分析。
主成分分析共得到20个公因子,分别为:F1:腹部膨隆、胁下痞块、面色晦暗、腹壁青筋、肢体水肿、小便短少、神疲;F2:反酸、烧心、喜叹息、嗳气;F3:大便干结、排便困难;F4:脘胀、腹胀;F5:舌苔腻、舌苔厚;F6:腹痛、脘痛;F7:乏力、小便色黄、身目发黄、纳差;F8:舌苔黄;F9:口苦、口燥咽干;F10:恶心、呕吐;F11:舌质淡、脉弱;F12:舌质暗、舌质青紫;F13:无或少苔、脉细;F14:脉弦、情志不畅;F15:面色晦暗、胁胀、胁痛、赤丝血缕;F16:瘀斑舌、胖大舌;F17:气短懒言、胸闷;F18:黑便、头晕、脉弱;F19:神疲、面色萎黄;F20:失眠多梦、大便溏薄、形体消瘦。对其进行最大方差旋转,提取因子负荷值>0.3 的变量作为每个公因子的主要反应指标。对公因子进行中医证候要素分析。以因子分析中得到的公因子作为变量,通过系统聚类得到谱系图(图6),根据中医专业知识,取截距为12.5时获取10类有意义组合,其证候分类见表5。
表5 因子分析与系统聚类结果
图6 变量聚类分析谱系图
2.6 常见证候分类
隐结构模型得到常见证候为:气虚证、肝郁气滞证、血瘀证、水湿内停证、肝胆湿热证。因子分析结合系统聚类得到常见证候为:水湿内停证、血瘀证、气虚证、气滞证、阴虚证、肝胆湿热证、脾虚湿困证、热证。隐结构法、因子分析和系统聚类分析相互补充、相互验证,结合中医专业知识及专家意见,最终将原发性肝癌常见证候分为7类,具体分类及特征见表6。
表6 原发性肝癌常见证候及症状特征
3 讨论
原发性肝癌起源于肝细胞和胆管细胞,该病起病隐匿,发现时多属于中晚期,疾病负担较重[3]。中西医结合是我国诊治原发性肝癌的优势特点[10],中医药在原发性肝癌治疗方面发挥着重要作用。中医没有“肝癌”病名,根据临床症状将其归于“积聚”、“黄疸”、“鼓胀”等范畴。中医认为,原发性肝癌的病机为本虚标实,以正气不足为本,以气滞、血瘀、湿热、邪毒为标,加上饮食、情志因素,病情日久渐积成块停于胁腹部所致。辨证论治是中医药诊疗的核心环节,证候的规范化、标准化研究一直是中医药研究的热点与难点。目前,原发性肝癌证候分类多见于指南和书本教材[8,11-12],部分指南和教材年代久远,难以覆盖原发性肝癌日益复杂的病情变化,且诊断标准多参考主症和次症,主观性诊断较强。隐结构法[13]、因子分析和系统聚类分析[14]均属于无监督学习方法,从症状入手,自下而上进行证候判定研究。隐结构模型以隐变量和显变量之间特定关系的假设作为出发点[15],用概率这种量化数据来解释症状和症状、证候和症状之间的关系,能够合理、客观地解释中医证候隐藏的知识并模拟中医辨证论治的过程。因子分析[14]是一种用于数据简化和降维的多元统计分析方法,基于主成分分析,找到控制所有变量(症状)的公因子(证候),通过线性关系确定公因子与变量间关系。之后经过系统聚类方法[16],按照距离远近将不同变量后聚成类,依次进行,直到每个变量都归入合适的类中。不同方法结合可以反映不同的证候分析结果,同时也可以弥补其他方法的不足。
研究发现,在分析单个隐变量过程中,并非所有隐变量下的显变量都属于同一证候要素,甚至可能是完全相反的证候要素,这与隐结构模型的概率同现规律与概率互斥规律有关。概率同现规律是当某隐变量有几个不同隐类时,不同隐类的症状出现概率同高或同低。概率互斥规律是当某隐变量有几个不同隐类时,不同隐类的症状出现概率一高一低,该隐变量称为歧义隐变量。如隐变量Y12中的舌苔白与舌苔黄、脉数、无或少苔就属于概率互斥,在进行综合聚类时,结合专业知识将舌苔白剔除。故建议在模型诠释过程中全面考虑隐变量的确切含义再进行综合聚类分析。
本研究综合分析隐结构模型、因子分析和系统聚类分析结果,得出原发性肝癌的常见证候为气虚证、肝郁气滞证、血瘀证、水湿内停证、阴虚证、肝胆湿热证、脾虚湿困证。从研究结果可以看出,原发性肝癌证候复杂多样,反映了肝癌临床病情的复杂性。原发性肝癌病位类证候要素为肝胆、脾胃,与原发性肝癌患者临床多出现脾胃系统症状相契合。病性类证候要素以“虚、湿、瘀”为主,兼有气滞、热邪。提示临床治疗应以扶正为本,即益气养血,同时注意顾护脾胃,健脾化湿,在此基础上应用清热解毒、活血化瘀类药物,从而达到扶正祛邪的目的。
本研究运用隐结构法、因子分析和系统聚类分析推断出原发性肝癌潜在证候,分析归纳肝癌证候特征,具有一定客观性。但在研究过程中,仍存在以下局限性:①该研究原发性肝癌患者数据仅来自于河南省内的两家中医院,代表性受到限制;②该研究纳入1353个病例,样本量有限,且选取频次≥40的症状进入模型分析,可能会遗失重要症状信息;③采集的症状数据为电子病历中记载信息,临床医生四诊信息采集能力、病历书写能力参差不齐,研究者在数据采集过程中可能存在偏差;④由于模型诠释和证候确定需要结合中医专业知识,受研究者不同理论知识水平的限制,存在一定主观性。建议今后研究可采取前瞻性设计方法,制定统一的病历书写规范,研究者严格按照规范进行四诊信息收集,采集多中心临床数据,扩大样本量,提高模型辨证的准确性。
综上所述,本研究从真实世界无标签的原始数据出发,揭示了症状之间隐藏的隐性知识,研究结果较客观地反映了原发性肝癌患者的实际情况,结论与中医基础理论基本吻合,可为原发性肝癌的辨证治疗提供参考。