基于潜在类别分析对不同年龄组患者新冠肺炎病因病机证候研究*
2021-07-15翟洪军陈启光申春悌陆炜青王池社钱刘兰程逸文黄亚博
翟洪军,陈启光,申春悌,陆炜青,王 一,王池社,钱刘兰,程逸文,林 杰,邹 冲,黄亚博
(1.金陵科技学院网络与通信工程学院 南京 211169;2.东南大学公共卫生学院 南京 210009;3.常州市中医医院 常州 213003;4.常州市第二人民医院 常州 213000;5.常州市第三人民医院常州 213001;6.江苏省中医院 南京 210029;7.江苏省中医药发展研究中心 南京 210029)
在国内新型冠状病毒肺炎(简称新冠肺炎)的防控中,中医药发挥了极其重要的作用,这与对该病的病因病机及证候的准确把握密不可分。辨证论治是中医的灵魂,通过对患者四诊信息的归纳总结,为中医临床提供诊疗依据。疫情暴发后,国内中医领域的专家学者分别从中医理论、临床诊断数据统计性回顾和临床数据模型分析等角度展开了新冠肺炎证候的研究[1-17]。与前两种方式相比,基于模型的证候分析方式具有过程规范、结果客观等优点,是中医诊疗标准化、现代化和信息化中不可缺少的组成部分[18,19],同时也是申春悌教授团队多年来研究的重点。考虑到不同地域、不同群体的新冠肺炎患者所呈现的症状规律存在一定差异[10,11,13],为了客观地分析不同群体在新冠肺炎病因病机证候上的差异与特点,有必要对此展开规范化研究。本文利用多样本潜在类别分析方法对60周岁(含)以上和60周岁以下新冠肺炎普通型患者的临床四诊信息进行了分析,并基于分析结果进行患者分类和病因病机证候探讨,现汇报如下。
1 资料和方法
1.1 数据来源
病例来源于2020年2月-3月在湖北省中西医结合医院、武汉市中医院、金银潭医院、黄冈市中心医院、江夏区大花山方舱医院、宜昌市第三医院、枣阳市人民医院、汉川市人民医院、常州市第三人民医院等18家医院住院的新型冠状病毒肺炎患者刚入院就诊时现场采集的症状。本研究以临床收集的650例新冠肺炎患者中有完整年龄和性别记录的605例为研究对象资料,探讨不同年龄组的新冠肺炎患者在病因病机和证候上的差异。其中,男性324例(53.55%),女性281例(46.45%),平均年龄(54.68±15.26)岁,所有患者均进行核酸检测,结果为阳性,均为普通型病例。
1.2 研究方法
多样本潜在类别分析(Multi-Sample Latent Class Analysis,MS-LCA)是通过同时分析属于两个或多个群体的受测者在同一组外显变量上的作答情况,使研究者得以比较不同样本下的潜在类别分析结果是否存在差异。
基于公式(1)和(2),参数化上述概率,然后利用极大似然估计(Maximum Likelihood Estimate,MLE)和最大期望(Expectation Maximization,EM)算法对样本数据进行迭代拟合,从而得到模型参数与概率的估计值。
此后,基于贝叶斯最大后验概率可以对受试者进行分类。研究每类患者的主要外在表现,可以进一步归纳他们的内在特质。本文中,受试者为纳入分析的605例新冠肺炎普通型患者,作答情况对应患者的临床四诊信息,潜在特质是患者的病因病机与证候。
2 结果
2.1 患者临床资料统计
本文纳入605例新冠肺炎普通型病例分析的43个症状指标(表1),其中阳性率大于10%的共有26个,其余17个经中医专家讨论后认为虽然这些指标的阳性率小于10%,但是具有临床意义。
表1 605例普通型纳入新冠肺炎病例分析的中医症状分布情况
阳性率大于10%的26个指标依次为:发热(70.7%)、咳嗽(70.2%)、腻苔(64.5%)、神疲乏力(62.0%)、舌红(59.0%)、咯痰(57.5%)、纳呆(55.4%)、白苔(47.6%)、黄苔(45.1%)、口炎干燥(42.1%)、洪脉(39.2%)、胸 闷 痛(36.7%)、气 短(32.7%)、有 汗(32.6%)、无汗(29.9%)、便溏(26.0%)、气喘(23.5%)、舌淡白(23.1%)、小便黄赤(18.2%)、头痛(16.4%)、身痛(16.0%)、白 痰(14.9%)、沉 脉(13.6%)、口 苦(13.4%)、恶风寒(10.7%)、身重(10.4%)。其中,阳性率较高的指标为发热、咳嗽、腻苔、神疲乏力、舌红和咯痰,与《新型冠状病毒肺炎诊疗方案(试行第七版)》中的 “临床以发热、干咳、乏力为主要表现” 基本一致。
2.2 模型择优
为了研究不同年龄组新冠肺炎患者的病因病机证候及其差异,本文把605个病例分为非老龄组(年龄<60岁,共355例,占比58.68%)和老龄组(年龄≥60岁,共250例,占比41.32%)两个样本,并用统计分析软件MPlus 8.3对分组病例进行了多样本潜在类别的分析(MS-LCA)。
为了确定模型的最佳潜在类别数,我们分别用类别数从1到7的MS-LCA模型拟合了纳入分析的605例患者四诊数据(表2)。
表2 两个年龄组按多样本潜在类别分析模型不同适配指标估计
虽然确定LCA最佳模型的方面尚无定论,但是文献[27]指出,当样本数不大且在LCA分析中更加关注群体间的差异时,AIC(Akaike Information Criterion)和aBIC比BIC(Bayesian Information Criterion)更适合于选择最佳模型。另外,考虑到AIC在模型评估中未纳入样本容量的影响,因此在MS-LCA模型选择时本文主要参考aBIC。aBIC值越小说明模型的数据拟合效果越好,因此在综合考虑各项适配指标后,本文选择aBIC最小(即:21287.987)、潜在类别数为4的模型进行数据分析。
2.3 分析结果处理
2.3.1 主要症状与患者分类
基于潜在类别数为4的MS-LCA分析结果,本文筛选出至少在一个年龄组的某个类别中条件概率不低于0.30界值的外显症状(即四诊变量)作为普通型新冠肺炎的主要症状,共26个(表3)。
这些症状分别为发热、咳嗽、腻苔、神疲乏力、舌红、咯痰、纳呆、白苔、黄苔、口炎干燥、洪脉、胸闷痛、气短、有汗、无汗、便溏、气喘、舌淡白、小便黄赤、头痛、身痛、口苦、身重、咽喉肿痛、大便秘结和心悸。其中,表1中阳性率大于10%的白痰(14.9%)、沉脉(13.6%)和恶风寒(10.7%)未被纳入主要症状范围,而阳性率小于10%的咽喉肿痛(9.3%)、大便秘结(7.8%)和心悸(7.1%)被纳入了主要症状范围,与中医专家认为的某些阳性率小于10%的症状在新冠肺炎诊断时具有一定临床意义不谋而合。
表3的顶部是26个主要症状在两个年龄组各类别中的条件概率,底部是2个年龄组内各类别的病例数及其分别在全部病例和各年龄组病例中的占比。
症状在年龄组中某个类别的条件概率代表了所述类别中出现该症状的患者比例。概率值大于0.3的以粗体显示,称为该类别的典型症状。比如,发热在老龄组的t1类别中的条件概率为0.473,表明该类别中有47.3%的患者出现了发热症状,是该类别患者的一个典型症状。
在老龄组的250例患者中,4个类别的病例数分别为69、91、52和38,组内占比(即组内类别概率)分别为0.276、0.364、0.208和0.152,数据集内占比(即潜在类别概率)分别为0.114、0.150、0.086和0.063。非老龄组的355例患者中,四个类别的病例数分别为84、142、48和81,组内占比分别为0.237、0.400、0.135和0.228,数据集内占比分别为0.139、0.235、0.079和0.134。
2.3.2 患者群体的病因病机归纳
为了便于分析两个年龄组中每类患者的新冠肺炎病因病机与证候,将表3中各类别的典型症状按其条件概率值降序整理成表4所示的格式。比如,老龄组的潜在类别t1中,典型症状及其条件概率分别为:舌红(0.898)、神疲乏力(0.721)、纳呆(0.580)、腻苔(0.565)、黄苔(0.487)、白苔(0.476)、发热(0.473)、咳嗽(0.427)、咯痰(0.307)、无汗(0.302)。
表3 主要症状在两个年龄组各类患者中的条件概率与类别参数估计结果
依据表4中的数据,结合中医理论,中医专家对两个年龄组内各类别的病因病机及证候总结如下:
在老龄组中,类别1以神疲乏力为主症,病性为虚、热、湿,病位在脾和肺,病机为肺脾气虚、湿热蕴结;类别2以咳嗽为主症,病性为热、湿、虚,病位在肺、脾和肾,病机为湿热伤肺,脾肾两虚;类别3以发热为主症,病性为热、湿、痰、虚,病位在肺、脾,病机为热痰(湿)伤肺、肺脾气虚;类别4以发热为主症,病性为热、湿、痰,病位在肺、脾、肾,病机为湿热伤肺、脾肾两虚。总括老龄组证候要素,病性为热、湿、痰、虚,病位在肺、脾、肾;基本病机为热(湿)邪犯肺,伴见气虚、阴虚、痰瘀。
非老龄组中,类别1以神疲乏力为主症,病性为虚、热、痰(湿),病位在肺和脾,病机为肺脾气虚、痰(湿)热侵肺;类别2以发热为主症,病性为热、痰、湿、虚,病位在肺、脾,病机为热痰(湿)伤肺,脾虚不运;类别3以发热为主症,病性为热、痰、虚,病位在肺,病机为热痰伤肺、耗气伤阴;类别4以咳嗽为主症,病性为热、痰(湿),病位在肺,病机为痰(湿)热伤肺。总括非老龄组证候要素,病性为热、湿、痰、虚,病位在肺、脾;基本病机为痰(湿)热犯肺,伴见气虚、阴虚。
结合表4中2个年龄组内各类别的病例占比,可以发现:①在老龄组中, “湿热伤肺、脾肾两虚” 占比最高,达到0.516(即组内类别t2的0.364与t4的0.152之和),剩下的两个证型分别为 “肺脾气虚、湿热蕴结” 和 “热痰(湿)伤肺、肺脾气虚” ,占比分别为0.276和0.208;②非老龄组4个证型,组内占比从高到低依次为 “热痰(湿)伤肺,脾虚不运” “肺脾气虚、痰(湿)热侵肺” “痰(湿)热伤肺” 和 “热痰伤肺、耗气伤阴” ,占比分别为:0.400、0.237、0.228和0.135。
表4 两个年龄组不同类别患者主要症状和证候汇总
2.3.3 两个年龄组症状与病机的整体性差异分析
为了进一步分析两个年龄组之间新冠肺炎病机的整体性差异,在每个年龄组中,我们把4个类别中(即t1、t2、t3、t4)条件概率均大于阈值0.30的症状提取出来,作为该年龄组的共同症状。每个共同症状在某个年龄组中出现的概率可以由公式(3)求出:
老龄组的共同症状为:神疲乏力(0.744)、咳嗽(0.699)、纳呆(0.683)、发热(0.663)、腻苔(0.644)、咯痰(0.595)、黄苔(0.524)和白苔(0.460);非老龄组的共同症状为:发热(0.739)、咳嗽(0.704)、神疲乏力(0.574)、咯痰(0.561)。括号内的数字表示所述年龄组出现该症状的概率。萃取共同症状后,各类别的剩余症状称为它的特异症状。比如,舌红就是老龄组内t1的一个特异症状。
从共同症状来看,两个年龄组都出现了发热、咳嗽、神疲乏力和咯痰,说明它们是新冠肺炎普通型患者的共同症状。此外,老龄组的共同症状还有纳呆、苔腻,非老龄组中除了类别3(即t3)外其他类别也具有这两个症状(表4),与文献[1]中 “新型冠状病毒(2019-nCoV)肺炎患者常见为以身热不扬、咳嗽、乏力、纳差、舌苔厚腻为主要症状” 的结论基本一致。两个年龄组中出现发热、咳嗽和神疲乏力的概率都高于咯痰,与新冠肺炎第七版诊疗方案中描述的临床表现主要为发热、咳嗽、神疲乏力基本一致[28]。
从共同症状的概率来看,老龄组中出现身疲乏力的概率为0.744,明显高于非老龄组中0.574的出现概率;出现咯痰的概率为0.595高于非老龄组的0.561;出现咳嗽的概率为0.699与非老龄组的出现概率0.704基本持平;而出现发热症状的概率为0.663,低于非老龄组出现该症状的概率0.739。因此,整体上来看老龄组以神疲乏力为主症,因其体质偏弱,正气不足,感染后,易出现身热不扬,实为湿邪所致。非老龄组则以发热为主症,该群体体质较好,正气充足,感染后,正邪相争激烈,故易出现发热症状。但老龄组还出现了纳呆、腻苔、黄苔和白苔等症状,说明该年龄组的患者感染新冠肺炎后,因自身抵抗能力较弱,容易带来脾胃运化失调。
从各年龄组不同类别的特异症状来看,老龄组中有两个类别(t2和t4)都出现了不低于10个的类别特异症状,其在老龄组中的占比约为51.6%(即0.364+0.152),非老龄组仅有23.7%(即类别t1的组内类别概率0.237)的患者具有10个以上的类别特异症状。这种现象通常与老龄组的患者年龄偏高,多数患者还患有高血压、糖尿病和心血管等基础性疾病有关,诊疗时应予以关注。
3 讨论
3.1 两个年龄组的病因病机总结及用药浅议
基于MS-LCA方法对两个年龄组新冠肺炎普通型患者的临床四诊信息的分析结果,中医专家认为两个年龄组的证候差异和发病机理如下:
①老龄组以 “神疲乏力” 为主症,说明老年人患有慢性疾病,体质虚弱,感染新冠肺炎病毒后,首先出现的是气虚症状。其证候要素中,病性主要表现为:气虚、痰湿和热毒,病位在肺、脾、肾。②非老龄组出现发热的概率0.739明显高于老龄组出现的发热概率0.663,说明60岁以下青壮年基础疾病少,正气充足,感染新冠肺炎病毒后正邪相争激烈,表现出阳气亢盛的热证,发热为主症。病性以热毒、痰湿为主伴有气虚,病位在肺、脾。③两组均见湿毒疫症状,并现 “温邪上受,首先犯肺” 的咳嗽症状,无论是老龄组或非老龄组,咳嗽的概率均占第2位。综合分析四诊信息后发现新冠肺炎病毒还伤及脾、肾两脏。
综上所述,老龄组患者多体虚受邪为病,临床上在采取驱邪方法的同时不忘扶正,以藿香正气散、小柴胡汤、银翘散等芳香化湿、辟秽解毒,合玉屏风散培补正气,用于临床可取得较好的疗效。非老龄组临床发热重于老龄组,且病人多体质较好,阳刚之气旺盛,热盛酿毒,浸淫脏腑,使之功能严重失调;阳热易于耗气伤津,导致气阴两伤,若正气尚盛,转归较好,反之则较差。以此为指导,临床治疗时以达原饮合麻杏石甘汤、小柴胡汤加减为基本方,化湿解毒、辛凉宣肺、清热和解,同时可根据不同的证候要素配伍清金化痰汤清肺化痰,藿朴夏苓汤芳香化浊行气渗湿,二陈汤燥湿化痰理气和中,竹叶石膏汤清热生津、益气和胃,可取得较理想的临床疗效。
3.2 新冠肺炎证候研究方法回顾与探讨
3.2.1 研究方法回顾
新冠肺炎疫情暴发后,国内中医领域的专家学者分别从中医理论、临床诊断数据统计性回顾和临床数据模型分析等角度展开了新冠肺炎证候的研究[1-17]。其中,基于模型的证候分析方式具有过程规范、结果客观等优点,是中医诊疗标准化、现代化和信息化中不可缺少的组成部分。目前,基于模型的新冠肺炎证候研究文献较少,现回顾如下:
文献[9-12]采用聚类算法,对临床采集的新冠肺炎四诊信息进行分类。结合临床经验和新冠肺炎诊疗指导意见,中医专家对各类别所含四诊信息进行证候归纳,获得各类别的主要证候。分析人员再利用统计方法获得所在医院或区域内不同患者群体的证候分布规律或转变规律。孟宪泽[9]等人用聚类法分析了不同病程患者的证候分布情况,陈灵和宋忠阳[10-11]等人研究了不同病程、不同年龄段以及不同性别患者的证候分布情况。徐波[12]等人基于聚类方法分析了新冠临床数据并在中医专家建议下提取了七个证型,结合中医理论探讨了病情发展过程中证型的转变规律。与四诊信息聚类不同,林胜友[13]等人则采用样品聚类法对患者舌苔脉象进行症候分析,辨为 “脾虚湿阻” 与 “湿郁化热” 两证,并研究了儿童与成人在病情轻重与证型上的差别。
此外,部分学者还在新冠肺炎证候的聚类分析中引入了关联规则或因子分析,用来优化聚类效果。方晶、孙宏源、李会敏[14-16]等人先利用关联规则分析筛选出一些关联度较大的症状组合,再运用复杂系统熵聚类算法提取关键组合,中医专家对某些临床意义较为明确的关键组合作辨证分析。崔寒尽[17]等人则利用因子分析对新冠肺炎重症患者的临床数据进行降维升阶处理,并对提取的12因子作聚类分析和证候总结,认为老龄患者的病情更易转变为重型,证型上以 “少阳痰湿证” 和 “气虚津亏证” 为主。
综上所述,在基于模型的新冠肺炎证候研究中,主要采用了聚类分析。区别在于聚类的内容是四诊变量还是变量组合,以及算法中相似系数的定义不同。聚类分析不要求预先分类,减少了分类主观性对结果的不良影响。但是其局限性也较为明显:①结果具有不确定性,无法根据数据内部特点自主地确定分为几类;②聚类结果的好坏没有评价的客观标准;③存在聚类的单分配问题,变量一旦被聚到某一类就不能再出现在其他类,而中医认为一个症状可以由许多病因引起,见于不同的证候[18]。
3.2.2 研究方法探讨
中医的临床辨证论治是一个复杂系统的不确定推理问题,其基本思路是在中医理论的指导下,结合临床经验,根据患者所呈现的症状推断病人具有的证型,是一个根据概率对患者分类的过程。潜在类别分析(Latent Class Analysis,LCA)是一种基于条件概率独立性假设的推理模型,具有简单、高效等特点[20,21]。
LCA是利用内在的潜在类别变量来解释外显观测指标之间的关联,使外显变量之间保持局部独立性的一种基于参数化模型的统计方法,主要应用于社会学、心理学、生物医学和市场研究中[20-26]。传统的LCA可以估计潜在类别概率和类别中外显变量的条件概率两类参数。前者代表特定类别的规模,其值越大,包含的受测个体也就越多,类别越重要;后者则反映了各类别中潜在变量对外显变量的影响程度,其值越大,影响越强[20]。
不同地域、不同群体的新冠肺炎患者所呈现的症状规律存在一定差异[10,11,13]。为了客观地分析不同群体在新冠肺炎病因病机证候上的差异与特点,有必要对此展开规范化研究。多样本潜在类别分析(MSLCA)是一种基于概率模型的统计分析方法,通过同时分析多个群体在同一组外显变量上的作答情况来研究不同群体内在特质上的差异。因此,本文中用来研究不同年龄组的新冠肺炎患者在病因病机及证候上的差异。
虽然本文基于MS-LCA方法,仅研究了老龄组和非老龄组两类普通型新冠肺炎患者在主要症状和证候的差异。但是,文中的研究方法,并不限于两个组别的病因病机及证候特点分析,在样本数量较为充足的情况下,还可以推广到多组别(比如按年龄将患者划分为儿童组、少年组、青壮年组和老龄组等多个亚组)、多维度(比如同时考虑年龄和性别因素)的分析场景。可以为中医证候研究人员提供研究方法上的参考。