eCRF及数据挖掘技术在中医药治疗AIDS中远程疗效分析的应用
2017-09-30赖昌生
摘要:本研究采用电子化病例报告表(eCRF)对中医药治疗艾滋病数据进行采集,然后利用数据挖掘技术对收集的数据进行分析,在国内外首次取得了一系列研究成果,其中包括中医证型与CD4、症状总积分等因素的线性回归方程,以及对影响艾滋病患病生存的一些因素进行相关分析的结果等,以上研究提示了在无法对患者进行RCT研究时,eCRF及数据挖掘技术可作为真实世界研究的基础可行性。
关键词:电子化病例报告表(eCRF);数据挖掘;真实世界研究(RSW);中医药;AIDS 中远程疗效分析;线性回归方程
中图分类号:TP311;R259 文献标识码:A 文章编号:1006-1959(2017)18-0001-04
Abstract:This study adopts electronic case report form(eCRF)to collect the data of Chinese medicine treatment of AIDS,and then use data mining technology to analyze the data collected,a series of research results obtained for the first time at home and abroad,Including the TCM syndromes and CD4,the total score of the factors such as the linear regression equation,as well as the impact of AIDS on the survival of a number of factors related to the results of the above study suggested that patients can not be RCT study,eCRF and Data mining technology can be used as a basis for real world research feasibility.
Key words:Electronic case report form(eCRF);Data mining;Real world research(RSW);Chinese medicine;AIDS remote curative effect analysis;Linear regression equation
近年來,真实世界研究(real-world study,RSW)越来越受到关注,特别是在中医药领域。尽管随机对照试验(randomized controlled trial, RCT)被视为制定临床实验研究的金标准,但采用RCT来开展中医临床研究,往往前提条件很难满足,研究结论也不易外推。RSW是样本量大、纳入标准相对宽泛、不预定和限设实际临床过程,结合实际情况开展的研究,应用RSW的方法进行中医药治疗方案和药物疗效评价是符合中医药学发展规律的。
1 问题的提出与解决
1.1真实世界临床研究在中医领域应用的意义
真实世界研究(real-world study,RWS)是指在较大的样本量(覆盖具有代表性的更广大受试人种)的基础上,根据患者的实际病情和意愿非随机选择治疗措施,开展长期评价,并注重有意义的结局指标,以进一步评价干预措施的外部有效性和安全性。本文将抛砖引玉,展示利用ClinReseach系统取得数据后,进行数据统计分析及挖掘所得到了部分成果。作为新兴的临床研究方法,RWS也逐渐受到我国专家学者的重视。真实世界研究在中医药领域具有契合点,并且高度符合伦理学要求,主要表现为:
1.1.1真实世界研究设计的核心思想与中医相契合 真实世界研究设计的核心思想是将所需干预措施还原到最真实的临床条件中进行实践,并将研究结果进行人群推广,由个体推至群体。辨证论治是中医防病治病的基本方法,中医通过辨证论治,抓住“证候”这一关键环节开展研究,而辨证论治的医疗实践,与真实世界研究的核心思想相契合,就有可能带动中医理论、临床疗效、证候本质研究的进展。2013年,中国中医科学院刘保延教授提出的“真实世界的中医临床研究范式”,以临床科研一体化为核心,具有以人为中心、以数据为导向、以问题为驱动、医疗实践与科学计算交替、从临床中来到临床中去的鲜明特征。对中医在真实世界临床研究具有重要意义。
1.1.2降低了对研究对象的伦理学伤害 伦理学特点应该以患者为中心,强调个体化,可针对儿童、孕妇等特殊人群及合并疾病等不同特征人群进行研究,因是在个体化研究的基础上进行群体化研究,重视临床实际效果,外部有效性较好。但是因RWS对目标人群并没有特殊的或者无效的干预措施,只是对治疗过程的观察和随访,所以说其最大限度地降低了对研究对象的伦理学伤害。
因此,真实世界在中医药临床研究中具有重大价值。虽然RWS具有许多优点,但这种开放性的、非随机的研究方法的应用具有一定的前提和要求,表现为:①建立数据平台应在规范化、标准化基础上,实施临床实际辨证论治数据收集、数据管理以及数据分析。②真实世界研究对于中医药科研的应用,仍处于发展阶段,其本身的电子智能及技术需不断完善,应用于实践的平台技术需进一步研发和改进,使其具有中医特色及兼容性,订制与中医药研究特色相关的方法路径。③研究者建立临床科研一体化的RWS后可采用现代统计方法以尽可能控制混杂因素的影响等。
1.2 ClinResearch临床科研信息共享系统
中国中医科学院的ClinResearch临床科研信息共享系统和数据挖掘技术正是解决以上问题的利器,它完全满足真实世界研究的各种前提和要求,它可以使医疗实践和计算机有机地结合起来,在真实世界中通过海量数据挖掘解决实际问题,可以弥补真实世界研究(real-world study,RSW)未进行随机、对照、双盲等研究的不足。endprint
这种研究方式是以电子数据采集(electronic data capture,EDC)为基础的,EDC是指采用电子形式而非纸质的形式将临床试验数据直接傳送至主办者的数据采集技术。真实、准确、及时、规范的数据采集能够显著提高临床试验的质量,缩短研究的周期,用传统的纸质病例报告表(case report form, CRF)来完成数据的采集、整理和管理过程,却无法保证数据的可靠性和安全性,而且存在着采集周期过长,开销较大等不足。中国中医科学院临床评价中心研制的C1inResearch 就是这种电子数据采集系统,该系统采用电子化病例报告表(electronic case report form,eCRF)代替纸质病例报告表来对临床试验数据进行收集,有效的解决了上述传统模式的不足。我院自2011年前后开始使用该系统,之所以选择C1inResearch作为我们的数据采集系统,是它具有以下13个主要特点:①遵循全球监管法规的要求,如21 CFR Part 11电子签名部分;②是一个基于网络的计算机系统,每个用户都有自己独立的账号和密码,这些账号和密码是广西区域中心分配给我院使用的,分为管理员和数据录入员两个角色。该系统可以使用任何一台连接互联网的计算机,目前使用的IE浏览器,用户将在任何一台上登录系统,无须安装客户端;③系统内置有详尽的说明书,保证用户能快速、正确的学习使用该系统,并把常用问题及解决方法罗列出来,以帮助用户自行解决日常工作中常遇到的问题;④研究机构不需要另行安装、维护任何软件,这意味着用户不用购买任何数据录入软件和额外的硬件,而且不用另外配备系统的维护和管理人员;⑤当受试者试验数据被提交时,系统可以自动对数据进行有效性核查,这意味着用户在录入数据时,系统将进行逻辑校验,对非法数据类型和数值将弹出窗口予以提示,纠正后数据才能有效的进入系统;而且对于每一个数据的录入、修改和删除都留有痕迹可供稽查,以保证数据的正确性和安全性;⑥由用户单位通过网络用户接口将所有受试者的访视数据直接录入到eCRF,目录各省区及所有试点单位的数据均放在同一数据库,这保证全国范围数据的同质性,同时也实现了临床试验的多中心研究性质,以及研究所需要的大样本;⑦对受试者的eCRF都可以自动在线跟踪,实时编辑核查,可以跨越不同访视的多个数据采集点,这意味着上级管理员可及时进行指导,并可根据存在问题迅速反馈并提出整改意见,另外,系统有多个视图,可根据不同的角色和权限确定数据的使用范围及深度、广度;⑧用户能够自定义流程,对用户数据管理的安全等级可以自行配置,即对不同的用户给予不同层次的权限和角色,以方便管理;⑨当用户在约定时间不在线时,系统会自动退出,以节约网络流量和系统资源;⑩可大量节约时间,并缩短研究周期。基于eCRF的数据捕获通常情况下,基于纸质CRF的临床试验数据获取不仅过程烦琐而且耗时费力。传统的数据采集和最后数据的录入过程也不是同时进行的,研究者需要先将数据抄录到纸质CRF上,而后再从CRF中录入到计算机中,这之间往往存在着相当长的时间间隔。而借助于EDC系统,数据的采集和录入可以同步完成,数据的采集环节即是数据的录入环节。从而减少了采集的中间环节,大大缩短了数据采集的时间周期,有资料显示采用EDC,一个临床试验周期可以缩短3~4个月的时间;○11实现对受试者数据安全性的保证,更好地保护受试者的隐私、保证受试者的信息安全是EDC的另一项优势;○12整个ClinReseach系统界面友好,直观易懂,用户可在较短的时间快速掌握;○13最重要的是,系统提供方便实用的数据导出功能,虽然提供导出的只是EXCEL电子表格的数据,但在SPSS for windows 和数据挖掘工具SPSS clementine中,EXCEL表格可以很方便地导入这两个软件中,录入的数据马上就可以进行各种强大的统计分析和数据挖掘,就可实现临床数据的深度加工和应用,并把隐藏在数据中的中医证候规律和用药规则挖掘出来,实现中医传统的“只可意会不可言传”的内在规律显性化,以数学模型的形式清晰地展示中医药工作面前,即隐性规律显性化。由此实现了EDC和数据挖掘的快速衔接,并可获得对中医内在规律的认知。
ClinReseach系统的以上特点实现了建立规范化、标准化的数据平台的需要,达到实施临床实际辨证论治数据收集、数据管理以的要求,为在临床科研信息一体化的技术平台进行数据分析和挖掘奠定了良好的基础。此外,ClinReseach本身的电子智能高,并具有中医特色及兼容性,体现了与中医药研究特色相关的方法路径,如系统里具有中医脉诊、舌诊及辩证分型等字段和内容。更为关键的是:在ClinReseach系统里,对各种输入的原始数据进行处理、提取、保存,使处理后的数据形成规范、科学、准确的临床研究数据,为下一步的统计及挖掘研究做准备,ClinReseach系统在数据录入时进行各种校验,可以过滤各种垃圾数据,将原始数据结构化后存入系统。在此基础上,ClinReseach系统还可以将完整的、规范的数据导出为Excel表数据,提供给SPSS等系统进行统计分析。同样,数据挖掘工具SPSS Clementine对这些导出数据可采用多因素分析、回归分析模型等现代统计方法以尽可能控制混杂因素的影响等.应用RWS理念系统,促进中医药研究由个体、小样本、局域的学术思想的升华,深化中医辨证体系,拓展中医药疗效评价的内涵和外延。
综上所述,ClinReseach系统和数据挖掘工具SPSS clementine的联合使用,为真实世界研究(RSW)提供了完整的解决方案,但到目前为止,真实世界研究(RSW)在中医药临床科研中的应用大多停留在理论研究阶段,鲜见取得的实际应用成果[1]。
2 结果
我院是具有开张床位达到1500张以上的大型三级医院,目前累计收治AIDS病例近二千余,2011年成为广西中医药治疗艾滋病的基地医院,2012年成为国家中医药管理局中医药冶疗艾滋病重点专科协作组成员单位。我们从2011年开始使用中医药冶疗艾滋病的伊始,就开始使用中国中医科学院的ClinReseach系统作为电子化病例报告表(electronic case report form,eCRF)工具进行数据采集工作,并利用数据挖掘工具SPSS clementine进行分析,前期已发表相关论文:《中成药治疗AIDS中远程疗效观察》[2] ,本文临床观察部分的资料与方法与文献[2]基本一致,下面重点介绍电子化数据采集与数据挖掘在真实世界中的具体应用部分。endprint
我们从2011年就开始使用ClinReseach系统进行数据采集工作,历经六年多时间,目前取得了数据大量的数据,包括患者基础数据,治疗前后的症状体征积分及实验室指标、 WHO-HIV生存质量量表及PRO(患者报告结局)量表等數据表,含有体温、呼吸、心率、舒张压(mmHg)、收缩压(mmHg)、形体、营养、体格检查及实验室检查各种指标及生存质量量表字段、患者报告结局量表字段,舌质、脉象、分期、时期、中医辨证分型等516个字段(fields),数据记录(records)过万条,利用这些宝贵的临床数据,我们使用SPSS Clementine作为数据挖掘工具,数据挖掘可以建立六种模型:分类(classification),回归(Regression)、时间序列(Time Series)、聚类(Clustering)、关联规则(Association)以及顺序规则(Sequence)。分类及回归主要用来作预测,而关联规则与顺序规则主要是用来描述行为,聚类则是二者都用得上。我们取得数据挖掘的成果众多,下面以回归分析法为例子进行说明。回归分析法是定量预测方法之一,它依据事物内部变化的因果关系来预测事物发展的发展趋势。由于它依据的是事物内部的发展规律,因此这种方法比较精确。在SPSS Clementine 中,我们使用线性回归节点生成线性回归模型,该模型根据输入字段估计预测输出字段预测输出字段的最佳线性方程。有时还配合穿插使用SPSS 17.0进行t检验及相关分析等。以下是取得的部分研究结果:
2.1 生存分析的相关影响因素
在临床上,我们一直探索与艾滋病死亡相关的因素,通过对六年以来积累的数据的挖掘,经用T检验发现,死亡病例与非死亡的病例的CD4计数存在显著性差异,这个结果是显而易见的。但有些结果则“埋得”较深,通过“挖掘”才得以展示,如“死亡病例是与中医证型也有显著性差异”就是一个很好的例子。经现代医学和中医学两方面都说明了艾滋病病例的死亡与否与CD4及中医证型密切相关。也说明了中医证型对于艾滋病病人的预后也有一定的诊断价值。
另外,通过对客观指标进行数据挖掘,也发现病例的死亡还与肝功能的实验室指标(ALT,AST)及血红蛋白以及卡洛夫斯基评分有关,在死亡组和非死亡组这些数据存在显著性差异。
2.2中医证型研究部分
技术方案中的中医证型及其代码:1=风热型;2=风寒型;3=急性感染期其他型;4=气血两亏型;5=肝郁气滞火旺型;6=痰热内扰型;7=无症状期其他型;8=热毒内蕴,痰热壅肺型;9=气阴两虚,肺阴不足型;10=气虚血瘀,邪毒蕴结型;11=肝经风火、湿毒蕴结型;12=气郁痰阻,瘀血内停型;13=脾肾亏虚,湿邪阻滞型;14=元气虚衰,肾阴亏涸型;15=发病期其他型;
2.2.1中医证型与CD4的回归方程 回归方程模型,F=31.4,P=0,模型具有显著性意义。回归方程为:Y=8.583-0.005×X(X为CD4计数,Y为中医证型的代码)。如CD=200,则对应的证型为热毒内蕴,痰热壅肺型。提示CD4为200系是否进入发病期的门槛,低于200者,多归入发病期的各种证型,高于200者,多归入急性感染期与潜伏期的各种证型,且CD4低于200时,CD4计数越低,归入发病期的证型的编号越大,即越晚期的证型,如编号为13的脾肾亏虚,湿邪阻滞证型,或编号为14的元气虚衰,肾阴亏涸型。这具有一定的临床合理性,即CD4的高低与病重严重程度的关证型密切相关。
2.2.2中医证型与裂纹舌的回归方程 回归方程模型,F=11.604,P=0.001,具有显著性意义。回归方程为:Y=6.769+5.231×X(X为是否为裂纹舌,取值为0和1)。如X=1,即为裂纹舌的情况,其对应的证型代码为14,相应的证型为元气虚衰,肾阴亏涸型,而X=0,即不是裂纹舌的情况,其对应的证型代码为6,对的证型为痰热内扰型。故从数据的角度提示裂纹舌具有重要的诊断价值,它能反映病情的进退。
2.2.3中医证型与症状总积分的回归方程 回归方程模型,F=12.64,P=0.001,具有显著性意义。回归方程为:Y=6.062+0.1×X(X为症状总积分)。如果症状总积分为0分,即无症状,所对应的证型的代码为您,即痰热内扰型,如症状总积分为10分,那么所对应的证型为无症状期其他型,此回归方程具有一定的参价值,说明了症状总积分与证型的相关性,症状越多,越严重,其所对应的证型的代码越大,代表的证型越偏后,越严重。
2.2.4中医证型与症状总积分的回归方程 回归方程模型,F=12.64,P=0.001,具有显著性意义。回归方程为:Y=6.062+0.1×X(X为症状总积分)。如果症状总积分为0分,即无症状,所对应的证型的代码为6,即痰热内扰型,如症状总积分为10分,那么所对应的证型为无症状期其他型,此回归方程具有一定的参价值,说明了症状总积分与证型的相关性,症状越多,越严重,其所对应的证型的代码越大,代表的证型越偏后,越严重。
2.2.5中医证型与症状总积分的回归方程 回归方程模型,F=30858,P=0.002,具有显著性意义。回归方程为:Y=12.765+0.062×X1-0.122×X2(X1为经常性感受,X2为日常生活)。
3 结论
通过以上的展示,我们可以知道eCRF及数据挖掘技术的联合应用,我们取得了大量的临床数据,不仅观察到了中医药治疗AIDS中远程疗效[2-3],还发现了前人未及的一些数据挖掘的成果,这对深入阐述艾滋病的证候本质研究,提供新的思路和方法,更说明了eCRF及数据挖掘技术的联合应用在真实世界研究的可行性以及实施的具体方法路径。
4 讨论
有关数据挖掘技术在艾滋病诊治中的应用研究的报道特别少,甚至数年未见一篇报道,而有关电子化病例报告表等数字化数据采集技术更是难得一见,就笔者所见,也只有余海滨《基于临床科研信息共享系统开展中医临床研究的探索》[3-8],并且此文并不针对艾滋病研究的,而同时联合采用电子化病例报告表(eCRF)及数据挖掘技术的研究,国内外更是未见报道,目前对于真实世界的研究,还缺乏有效的方法和工具[1]。实际上,笔者采用此项技术对中医药治疗AIDS中远程疗效进行分析从2011年就开始了,到目前已有六年多的历史,其中的关键技术之一就是中国中医科学院的ClinResearch临床科研信息共享系统,它能使医疗实践和计算机结合起来,在真实世界中通过海量数据挖掘解决实际问题,可以弥补真实世界研究(real-world study,RSW)未进行随机、对照、双盲等研究的不足。尽管数据挖掘技术更为众人所熟悉,并且更为关注,但电子化病例报告表(eCRF)等数字化数据采集技术更为基础,更为重要,我们的使用体会是数据采集技术几乎要天天使用,每天使用半小时到几小时不等,而取得大量数据以后,使用数据挖掘软件进行分析的时间往往是少数的一次或几次,并且对于熟悉的使用都而言,几分钟就可以取得了一个线性回归的结果,也就是说,ClinResearch软件几乎天天见,而SPSS Clementine软件基本上使用一次就可以了,取得所有的回归分析等结果,基本上不超过1 h。
综上所述,通过应用临床科研信息共享系统,结合艾滋病的临床研究主题,以临床医疗数据流的结构化采集[以电子化病例报告表(electronic case report form,eCRF)]为核心,以数据质量管理体系建设和术语的规范化研究为前提,利用现代信息技术,全而采集临床诊疗信息,实现以患者为中心的所有临床信息的纵向和横向整合,形成了“以数据为导向”的真实世界中医临床科研新模式。再进一步利用多种数据挖掘工具(如SPSS Clementine及各种统计分析的配合使用)开展中医证候分布规律和辨证用药规律的深入研究,这将为中医临床研究提供新思路和新技术,促进中医学术思想的升华和创新,推动发掘新的疾病证治规律和中医证候的内涵和外延。
参考文献:
[1]韩瑞婷,李宁,王宗耀,等.中医药研究在真实世界研究现状[J].中国中医药现代远程教育,2017,15(6):33-35.
[2]赖昌生,李全庆.中成药治疗AIDS中远程疗效观察[J].医学信息,2017,30(14):118-119.
[3]陈婕卿,陈卉.数据挖掘在艾滋病临床诊疗中的应用[J].中国医疗设备,2016,31(08):68-70.
[4]燕纪法,吕相征,梁明修,等.2008-2014年中国流动人口艾滋病防治文献计量学分析[J].中国艾滋病性病,2016,22(4):248-252.
[5]燕纪法,吕相征,梁明修,等.2008-2014年中国男男性行为人群艾滋病防治文献计量学分析[J].预防医学情报杂志,2016,32(3):293-301.
[6]时松和,施学忠,杨永利,等.基于数据挖掘的艾滋病综合防治居民健康档案管理信息系统设计与实现[J].现代预防医学,2013,40(16):2953-2957.
[7]韩建超,徐艳,贺一,等.数据挖掘在艾滋病病人CDR T淋巴细胞与机会性感染关系的应用研究[J].中国艾滋病性病,2012,18(9):584-586.
[8]余海滨,符宇,李卓.基于临床科研信息共享系统开展中医临床研究的探索[J].中医杂志,2013,54(24):2092-2094,2109.
编辑/成森endprint