数据挖掘技术在肿瘤临床护理实践中的应用与前景展望
2020-02-12覃盛媚周洁耿朝辉
覃盛媚,周洁,耿朝辉
(上海中医药大学 护理学院,上海 201203)
在肿瘤临床护理实践中,患者及医护人员在疾病不同阶段常面临抉择[1]。近年来,医院信息系统(hospital information system,HIS )、移动护理系统等产生海量的医学数据,发现潜藏在数据库中的有效信息,并将其应用到临床实践,有助于为抉择提供证据支持,同时又能兼顾患者偏好,进而提供个性化的诊疗护理服务。这种由数据驱动、个性化的临床护理实践,可最大限度地提高临床疗效,并可及早发现、有的放矢地干预治疗不良反应或并发症,或改善肿瘤患者生命末期的生活质量。数据挖掘(data mining,DM)也称为数据库中的知识发现,能够从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的知识[2],为肿瘤临床护理实践提供了新的思路。挖掘出医学数据库中潜在的数据价值是其得以有效应用的前提条件。本文针对数据挖掘技术在肿瘤临床护理实践中的应用做一综述,以期为科研人员及临床工作者更好地对肿瘤临床护理数据进行挖掘提供参考。
1 数据挖掘技术概述
1.1 数据挖掘技术的特征 数据挖掘是一门涉及面很广的交叉学科,技术来源包括机器学习、数理统计、数据库、模式识别学等,其特点是处理大量数据时可兼容多种类型的原始数据(如时间序列的、空间的、文本的、多媒体的),将大量原始数据转换成为更有价值且易于理解的知识,用于描述过去或预测未来的趋势和规律,并做出快速响应,以指导临床实践和研究[3]。挖掘出的知识可以用规律、模式、规则等形式展现,数据挖掘通常按模式的作用,分为描述性与预测性模式。描述性模式是对数据集中已经存在的规则、规律、知识特征进行描述,而不进行任何预测(回顾性)[4];预测性模式是从已知的数据集中挖掘出某些特征信息,进而对未知的数据集进行预测(前瞻性)。数据挖掘本质上也是一种高级、深层次的数据分析手段,成熟的相关技术加上高效的数据库搜索引擎,利用数据挖掘技术可发现以往数据集的规则,进而利用这些规则预测未知数据集,达到科学预测的目的[5]。数据挖掘技术的流程主要包括数据的采集(根据研究主题从数据库或医院信息系统中选出需要分析的相关临床数据,构建数据集)、处理(缺失值、标准化术语、特征选取等)、分析(根据研究目的和数据特征选择合适的算法并建立模型)和解释(对所得模型性能进行评价)。有学者[6]认为,使用特定算法对临床实践数据(如当变量之间的关系复杂、多维和非线性时)进行挖掘,能够提供一组有用的规则,区分一系列假定风险,在预测临床结果方面比传统统计技术更为精准[7]。
1.2 数据挖掘技术常用算法 数据挖掘中用于分类的常用算法有[5,8]:人工神经网络(artificial neural network, ANN)、支持向量机(support vector machine, SVM)、贝叶斯法(Bayes)、决策树(decision tree, DT)等。根据数据的特点选用合适的算法,能够提取更为有效的内容特征,挖掘出更有价值的信息,这在肿瘤临床护理实践中提高分类准确率方面具有十分重要的意义。ANN是一种非参数机器学习方法,模拟生物神经系统,由大量的节点(或称神经元)相互联接构成。其通常有三层,即输入层、中间层(隐藏层,可以有多个)和输出层,所有的输入层信息都以分层的方式传递到输出层。输入层既可以是第一层的原始数据,也可以是另一层的输出(输出形式可以是数值数据、文字、图像等)。SVM是一种按监督学习对数据进行二分类的广义线性分类器,其可以很好地应用于高维、高通量数据,如用于癌症基因组分类或子分类,尤其在识别复杂数据集中的细微模式方面功能非常强大。Bayes是检验多元关系的一种强有力的方法,通过直观的图形来可视化变量之间的相互关系,被广泛地应用于基因组学和医学领域,此外,可指导干预研究的设计。DT因其决策分支图形和树的枝干相似而得名。它采用树枝状解释对象属性与对象值之间的关系,树中每个节点表示某个对象,而每个分叉路径则代表某个可能的属性值,具有根据数据的不同属性归为不同类别的特性。DT算法的优点是不易受到噪声、变量冗余属性的影响。基于此,笔者认为,根据不同的数据特点和研究目的,灵活选择合适的分类算法,才能使数据挖掘技术在肿瘤临床护理实践中真正发挥作用。
2 数据挖掘技术在肿瘤临床护理实践中的应用
2.1 辅助最佳诊疗、护理方案的选择 肿瘤患者的决策过程非常复杂,需要一个共同的决策过程,随着医疗信息化不断推进,数据正以多形式、前所未有的速度增长,借助数据挖掘技术从庞大的数据中去伪存真,提取有用的信息,在选择诊疗、护理方案方面发挥着举足轻重的作用。Wong等[9]在最新研究中,指导新诊断为前列腺癌的患者在密歇根泌尿外科改进合作组织(the Michigan Urological Surgery Improvement Collaborative, MUSIC)开发的网络系统--askMUSIC上完成自我评估(https://ask.musicurology.com/),随后嵌套在系统里的算法为患者提供答案:“类似于我这种情况的患者选择了什么治疗和护理?”。askMUSIC让患者感觉自己在控制、管理自己的疾病、治疗和生活,有了客观信息的证据支持,可以促进患者参与决策过程,改善体验,提高护理满意度。再如一些研究[10-11]利用影像学特征的ANN实现肿瘤反应的客观和自动化评估,并发现高通量的成像生物标志物,建立了比传统成像指标具有更高预测价值的模型,进而帮助实现更为精准的治疗方案调整。Mantravadi[12]使用决策树建模比较了基于《床头抬高和误吸风险指南》最佳实践和常规(标准)护理干预老年癌症幸存者吸入性风险的成本效益,证实了居住在专业护理机构的老年癌症幸存者接受最佳护理实践后吸入性风险有所降低,同时护理机构成本也有所减少。这些结果的提出,有助于患者与医护人员共同选择和调整最佳方案,既能使患者真正获益,又能充分利用有限的医疗资源。
2.2 早期识别并治疗不良反应,预测并发症 在肿瘤临床护理实践中,对于不良反应、疾病或治疗相关并发症的早期识别,进而采取防范措施,将有利于提高医治效果,改善患者生活质量。利用数据挖掘技术可从大量数据中发现各种症状、检查结果与不良反应或并发症之间的相关性,及早提醒医护人员可能出现的情况,从而实施早期干预。Carmona等[13]利用决策树模型对癌症合并肺栓塞患者的严重并发症(包括死亡、急性呼吸衰竭、心力衰竭、肾功能衰竭和大出血等)进行预测,进而将患者分为低、中、高并发症风险组,模型结果显示进展期肿瘤或因无法评估反应而有进展风险的患者发生严重并发症的风险更高,这提示医护人员需要对这部分患者进行持续监测,及时处理。肿瘤患者在接受治疗后,需重点观察治疗效果及不良反应,护士的职业特性决定了护士处在观察并及时发现不良反应的最佳位置。如淋巴水肿是乳腺癌治疗最痛苦的不良反应之一,对患者生活造成严重的负面影响,其发生的时间点(可在术后、术后几个月或几年等)具有极大个体差异,早期发现可以帮助患者得到及时的干预,从而有效地管理淋巴水肿,然而在繁忙的临床实践中,护士分身乏术,难以同时对大量患者尤其是出院患者进行实时监测,数据挖掘技术则有望突破这一瓶颈。Fu 等[14]评估了基于症状实时报告的多种技术(ANN、SVM和DT等)检测淋巴水肿状态的准确性、敏感性和特异性,结果显示,ANN取得较好的实时精确预测,准确率为93.75%,灵敏度为95.65%,特异性为91.03%,可作为目前除常用的生物阻抗分析等评估方法外的有效补充,这可以降低淋巴水肿进展为慢性或严重阶段的风险。此外,也有研究者发现,数据挖掘技术在预测肿瘤患者焦虑抑郁状态、认知功能受损风险,从而指导个性化干预等方面也有较大优势[15]。运用数据挖掘技术分析临床实践的相关数据,可以发现影响不良反应、并发症发生的因素,识别出高危人群,有助于前瞻性地制订相应的干预措施减少不良反应、并发症的发生[16]。
2.3 辅助终末期照护品质的提升 在疾病晚期,某些肿瘤患者即使接受了最佳治疗,其预期寿命也相对较短,及时、准确的临终期判断有助于患者和医护人员在姑息治疗和其他治疗之间做出选择,从而制定个性化的诊疗、咨询服务、随访计划或临床护理,最大程度改善终末期患者的生活质量[17]。有研究[18]表明,对于临终期癌症患者,早期接受临终关怀和姑息治疗可以显著减轻疼痛,减少心理痛苦,改善生命末期的生活质量。一项针对胰腺癌患者的研究[19]显示,通过ANN能准确预测胰腺癌患者7个月的生存期,其敏感性为91%,这一结果的提出,可使医护人员根据特定于个体患者的信息为患者提供转诊建议或强化的随访。Chan等[20]在不增加晚期癌症患者评估负担的基础上,利用电子数据挖掘晚期癌症患者在接受姑息治疗时所处的不同状态,以便更好地提供临终护理(如躯体症状管理、心理护理、情绪咨询、体育锻炼、精神支持、志愿者探访和娱乐活动等),使患者在住院期间体验有意义的生活质量,并最终体验“善终”。Almasalha等[21]发现,使用关联挖掘、聚类和分类技术识别隐藏信息,可为改善肿瘤患者临终护理的质量和效率提供强有力的技术支持。如当系统通过分类和训练发现与数据库中历史数据相匹配的症状时,发出警报,并适时提出最佳护理实践建议。当前,加速采用电子病历的激励政策将会导致临床数据的数量和可用性不断增加,电子病历有望成为知识发现的潜在金矿。然而,目前姑息治疗机构能够充分代表住院患者标准化语言护理的电子病历较为缺乏,导致其数据的可用性成为数据挖掘技术实施推广的瓶颈,今后有待完善标准化的电子数据录入,以利于利用数据挖掘技术最大限度地挖掘对临终期癌症患者护理最为有意义的信息。
3 展望
数据挖掘技术(如ANN、SVM、DT等)给肿瘤临床护理实践带来了极大的发展动力,在辅助最佳诊疗、护理方案选择、早期识别不良反应、预测并发症、提升临终期照护品质等方面取得了较大的成果。相信在大数据的时代背景下,信息化的不断发展,肿瘤领域与信息化的不断深入结合,会给涵盖肿瘤患者健康生命全周期的护理实践带来新的发展契机,同时为护理科研工作的开展提供更为有力的技术支持。
目前,尽管我国护士工作站相关系统已广泛普及应用,但是较之国际上现有标准化护理术语集,国内很多护理记录术语仍不够标准,导致数据需要经过大量的预处理后方能成为数据挖掘的原始数据。因此,如果想要充分挖掘肿瘤临床护理实践中产生的数据,形成新的护理知识,并有效指导临床实践,那么发展标准化护理术语集,实现护理记录的标准化则是关键的前提基础。
基于此,今后的研究及实践重点应包括:首先,将数据挖掘技术植入统一标准化的医疗信息平台,整合各个医疗信息系统,创建统一的数据库,降低数据融合难度;其次,探索多学科协作模式(医疗、护理、计算机、数据分析师等),开展大样本、多中心的前瞻性研究,进一步提高、验证数据挖掘技术在肿瘤临床护理实践中的前瞻性、精准性和高效性,实现数据利用率的最大化;最后,由于肿瘤患者大多具有较长的居家康复期,需自主、持续进行疾病和症状的自我管理,随着电子化医疗和护理系统的普遍覆盖,对肿瘤患者院内、外联动数据的正确存储、挖掘及利用具有很大空间和潜力,可进一步开展数据挖掘技术在分析肿瘤患者疾病特征、症状及症状群与生活质量之间复杂关系的研究,并证实、细化最佳的数据挖掘算法,进而推动前瞻性、个体化、全程性的症状管理,改善患者体验,从而优化肿瘤临床护理实践。