采用重复增量修剪算法探讨舌三针治疗卒中后吞咽功能障碍患者显效率影响因素❋
2018-09-12罗晓舟王澍欣徐展琼李克嵩朱欢欢庄礼兴
张 宾,罗晓舟,王澍欣,贺 君,徐展琼,李克嵩,朱欢欢,庄礼兴△
(1. 广州中医药大学第一附属医院,广州 510405; 2. 广州中医药大学,广州 510405)
卒中后吞咽功能障碍是卒中常见的并发症,据研究报道30%~65%急性脑卒中患者中存在不同程度的吞咽障碍[1],吞咽障碍容易引起误吸导致吸入性肺炎,进食困难也会导致患者营养不良,影响患者康复和卒中患者生活质量,并延长住院时间,增加治疗费用,甚至增加卒中患者的病死率。舌三针治疗卒中后吞咽功能障碍疗效确切[2-3],提高卒中患者的生存质量,数据挖掘技术是目前医学研究的热点之一。本研究尝试采用重复增量修剪算法(RIPPER算法),探讨靳三针治疗卒中后吞咽功能障碍显效率影响因素。
RIPPER算法是在JohannesFurnkranz和GerhardWidmer于1994年提出的增量减少误差修剪法(IREP)[4]的基础上,由WilliamW.Cohen所优化设计出的重复增量修剪(Repeated Incremental Pruning to Produce Error Reduction,PIPPER)算法[5]。本算法基于一种信息指标——似然率统计量(LikeihoodRatioStatistic)。
本研究笔者直接选择“显效”作为疗效影响因素讨论的结局指标,采用人工智能(AI)技术中机器学习的方法,尝试通过重复增量修剪算法对既往病历资料进行回顾探索,并对结果进行归纳和辨析。以期总结出临床运用舌三针治疗本病过程中影响显效率的因素,并探讨在临床治疗中对这些因素加以控制而提高显效率的可行性。基于这一设想,现将其试验过程报道如下。
1 材料与方法
1.1 病例信息来源
通过病历系统回顾并记录2014年3月至2017年3月于广州中医药大学第一附属医院康复中心的住院部卒中后吞咽功能障碍患者457例的基本资料、临床资料及治疗效果,包括年龄、性别、脉象、面色、舌质、舌苔、疾病分期、BMI体质量指数、血压、血糖、血甘油三酯、血总胆固醇、吸烟史、饮酒史及最终疗效。尽可能只采用客观的证候体征,而不对证型作出主观判断。除最终疗效外所有资料均以入院首次记录为准,最终符合标准者457例。
1.2 诊断标准
符合1995年全国第四届脑血管病学术会议制定的脑梗塞或脑出血诊断标准[5],经头颅CT或MRI查实,临床以吞咽障碍为主要表现。
1.3 纳入和排除标准
符合上述诊断标准;符合各指标分级界定标准;年龄45~75周岁;配合完成治疗者。排除标准:不符合纳入标准者;合并其他系统严重疾病者;资料不齐全者;疗效判定标准不同者。
1.4 各指标分级界定标准
1.4.1 年龄 结合联合国2000年制定标准,本题将年龄划分为45岁以下为“青年”,45~59岁为“中年”,60岁及以上为“老年”。
1.4.2 疾病分期 急性期:发病后2周内;恢复期:发病在2周以上至半年以内;后遗症期:发病在半年以上。
1.4.3 BMI指数 按照中国肥胖工作小组2003年制定的标准[6]:BMI<18.5为“偏轻”;18.5≤BMI<24为“正常”;24≤BMI<28为“超重”;BMI≥28为“肥胖”。
1.4.4 血压 正常:收缩压90~140mmHg,舒张压60~90mmHg;低血压:低于正常标准;1级高血压:收缩压140~159mmHg,舒张压90~99mmHg;2级高血压:收缩压160~179mmHg,舒张压100~109mmHg;3级高血压:收缩压≥180mmHg,舒张压≥110mmHg。
1.4.5 血糖 空腹全血血糖为3.9~6.1 mmol/L为“正常”,高于此标准判定为“偏高”。
1.4.6 血甘油三酯 空腹全血甘油三酯的值在0.22~1.65mmo/L范围内为“正常”,高于此标准判定为“偏高”。
1.4.7 血总胆固醇 空腹全血总胆固醇低于5.17 mmol/L为“正常”,高于此标准判定为“偏高”。
1.4.8 最终疗效 采用吞咽功能障碍疗效评定标准[7]:(1)洼田饮水试验评分: 患者端坐,饮下30 ml温水。I级:能不呛咳1次饮下,记1分;Ⅱ级:能不呛咳分2次以上饮下,记2分;Ⅲ级:有呛咳能1次饮下,记3分;IV级:有呛咳分2次以上饮下,记4分;V级:屡屡呛咳,不能全部咽下,记5分。(2)疗效评价:显效:吞咽障碍症状基本消失,洼田饮水试验提高1~2级,营养状况好,无并发症;有效:吞咽障碍明显改善,洼田饮水试验提高1级,营养状况良好;无效:吞咽障碍改善不明显或无改善,洼田饮水试验无变化或在Ⅲ级以上[8]。
1.6 治疗方法
对于合并高血压、高血脂、高血糖的患者选用相应药物予以控制。舌三针取穴及操作:取穴上廉泉及其左右旁开0.8寸。上廉泉穴位于廉泉穴上1寸,或于前正中线颌下1寸,当舌骨与下颌缘之间凹陷处取穴,由下颌舌骨肌、颏舌骨肌间至舌体。上廉泉穴为舌I针,上廉泉穴左右旁开0.8寸分别为舌II针、舌III针。操作:选取环球牌0.3×40 mm规格毫针,然后常规75%酒精棉球局部消毒,快速进针后,患者得气后接G-6805-1型电针治疗仪,波形采用连续波25~35 Hz,强度以患者耐受为度,留针30 min,每日1次,1周为1个疗程,共2个疗程。
1.7 统计学方法
采用Rx64 2.15.3程序包中的RWeka[5]程序包,对上述记录的病人信息选用RIPPER算法进行规则学习。
2 结果
2.1 病人信息一般情况
在所纳入的457例患者中,青年者63例,中年者179例,老年者215例,男性295例,女性162例;吸烟123例,不吸烟334例;共录得脉象7种,其中沉脉7例,滑脉162例,平脉51例,濡脉199例,涩脉4例,细脉15例,弦脉19例;舌质6种,胖大36例,淡红301例,舌质淡者91例,老舌4例,嫩舌25例,瘦舌1;舌苔录得5种,剥落苔1例,薄白苔2例,白苔259例,黄腻苔167例,少苔28例;面色录得6种,色正常者(红黄隐隐,明润含蓄)29例,色晦暗者84例,色黄者72例,色红者180例,色黑者44例,色白者48例;BMI体质量指数正常198例,肥胖102例,超重157例;血压三级67例,二级112例,一级239例,正常28例;血糖正常227例,偏高230例;甘油三酯正常91例,偏高366例;血总胆固醇正常131例,偏高326例;不饮酒416例,饮酒170例;疾病分期急性期64例,恢复期153例,后遗症期240例;最终疗效非显效者137例,显效者320例。
2.2 运用RIPPER算法学习器对舌三针治疗显效因素运算结果
运算结果显示,运用RIPPER算法学习器以显效与否作为结局指标,对靳三针治疗本病显效因素运算,结果显示正确分类率能够达到98.4683%,占全部457例病人中的450例,最终学习器总结出10条显效率的影响因素。一是舌质为淡、胆固醇偏高且疾病分期处于后遗症期者疗效不明显(被覆盖46例/错分0例),即符合条件者46例,被错误划分为显效者0例,下同);二是血压为二级、不吸烟患者疗效不明显(被覆盖49例/错分2例);三是舌苔为少苔的患者效果不明显(被覆盖10例/错分1例);四是体质量指数为肥胖、脉象为濡脉、不吸烟且甘油三脂偏高患者效果不明显(被覆盖14例/错分2例);五是胆固醇偏高、肥胖且不饮酒的后遗症期患者疗效不明显(被覆盖3例/错分0例);六是舌质为老患者疗效不明显(被覆盖3例/错分0例);七是吸烟、血糖偏高且性别为男性患者疗效不明显(被覆盖9例/错分0例);八是面色黑且胆固醇正常的患者疗效不明显(被覆盖3例/错分0例);九是吸烟、面色红、胆固醇偏高的老年患者疗效不明显(被覆盖3例/错分0例);十是其余情况下治疗为显效(被覆盖317例/错分2例)。
RIPPER算法学习器运算结果:
3 讨论
REP的意思是Reduced Error Pruning,意即减少错误剪枝,即把训练集分成独立的生长集和剪枝集,在生长集上贪心地产生规则并在剪枝集上不断被简化直到规则的准确性下降。作为一个很基础的算法其满足规则归纳的各个要件,描绘了RIPPER算法大体框架。然后在REP算法上发展起来的IREP,最主要的改变是使用了先剪枝与后剪枝结合的办法。接下来是IREP×算法,相比于IREP,其引入了最小描述长度用于判断停止条件,并在剪枝时使用了新的度量标准。而RIPPER算法则是在IREP×的基础上加入了优化阶段,其在IREP*产生的规则上进一步调整后的结果。RIPPER算法的基本思想就是将训练过程分为两部分,一是根据贪心原则(greedy)采用启发式方法(heuristics),利用信息增益手段构造一个最初的规则集合,通过一个优化过程剪除(prune)规则集合并提高规则集合的准确性。二是分类过程,如果样本的特征满足某个规则就认为该样本属于此类。RIPPER算法是一个有效探索和规则学习方法的组合,它会考虑多个规则同时存在的情况。虽然复杂性会有所增加,但其优良性能得到公认。RIPPER算法的主框架分为两个部分,即生成规则与优化规则。生成规则部分是1个两层的循环,其中外循环每次生成一条规则修剪后添加到规则库,内循环则是每次为规则增加1个前件;优化部分则是根据规则库里的规则构造备选规则,并使用MDL准则挑选出最佳规则加入规则库,具有易理解、易优化、高效率等特点。RIPPER算法由于不需要事先建立完整决策树,因此效率比C4.5等要高,复杂度为ο(Nlog2N),且可以使用很大的数据集,同时在算法效果上不亚于C4.5生成的规则。
就本题而言,计算机对病人显效率的判断已经能够达到98.4683%,表明RIPPER算法对显效率的判断已经很高。对于学习器所生成的具体规则而言,吸烟、肥胖患者、血糖偏高且为后遗症期患者临床疗效不明显,这与临床实践是密切相符的。吸烟、肥胖及血糖都是临床可以提前干预的因素,有利于指导临床实践。当然,其中也生成了与临床不一致甚至相反的结论,如血压为二级、不吸烟患者疗效不明显,面色黑且胆固醇正常的患者疗效不明显。推测其原因一是本研究虽然纳入457例病例资料但终究其例数相对较少;二是由于RIPPER算法自身的特点所致,其优点在于生成相对易于理解的规则,同时对大数据集及噪声数据有效,但缺点也相对明显,即生成规则可能违反常理或从业者常识,且对数值型数据不够理想。
综上所述,本课题采用对457例病历资料进行RIPPER算法学习后所得出的规则中,有的已经是临床上的共识,也有的难于被现有知识所理解。而随着病例数据量的增加,本课题所建成的模型准确度还会进一步提升,得出的规则也会相较于现在更加精确。我们在今后的研究中将增加算法,如决策树模型对病例资料进行分析探讨,为临床医生挖掘更有指导意义的规则。数据挖掘和机器学习是目前科技界研究的热点,特别是AlphaGo在围棋中战胜人类这一事件,极大地激发了人类对机器学习算法的研究。笔者虽不能断定计算机技术在临床诊断中的运用会取代临床医生的判断,但是一定会为我们临床诊断提供有力的帮助。