数据挖掘在艾滋病临床诊疗中的应用
2016-02-06陈婕卿陈卉
陈婕卿,陈卉
首都医科大学 生物医学工程学院,北京 100069
综述
数据挖掘在艾滋病临床诊疗中的应用
陈婕卿,陈卉
首都医科大学 生物医学工程学院,北京 100069
本文首先介绍数据挖掘的基本概念和常用技术,然后对艾滋病临床诊疗和药物配伍等研究中数据挖掘技术的应用进展进行了综述,说明了数据挖掘技术对艾滋病患者个性化治疗方案研究的重要性。
数据挖掘;艾滋病;个性化治疗;药物配伍
艾滋病(AIDS)的病原为人类免疫缺陷病毒(HIV),人体感染HIV后,机体免疫功能会受到抑制,患者最终会因各种机会性感染和恶性肿瘤而死亡。据世界卫生组织统计,2010年全世界新增约270万HIV感染者[1]。我国国家卫生和计划生育委员会公布的数据显示,截止到2015年10月底,我国存活的HIV感染者和AIDS患者高达57.5万人,已死亡患者17.7万人[2]。可见,AIDS已成为当今社会危害最大的传染病之一。
1996年,美籍华裔科学家何大一提出“鸡尾酒疗法”[3],即高效抗逆转录病毒治疗(Highly Active Antiretroviral Therapy,HAART),通过联合使用3种或3种以上抗病毒药物来治疗AIDS。尽管HAART不能彻底清除患者体内的HIV,但可有效控制病毒复制扩散,延缓疾病进展并延长患者寿命,提高患者的生活质量。但是,由于患者间存在个体差异,因而需要个性化地确定启动和终止抗病毒治疗的时机、选择用药组合等。
目前,AIDS诊断、干预、治疗的研究进入了新的阶段,在药物配伍方案、给药时机等方面,国内外的研究人员考虑通过数据挖掘技术,利用已有的AIDS诊疗数据,找出患者各项因素与治疗效果之间的关系[4]。日前,美国总统奥巴马提出了“精准医疗”战略计划,进一步凸显了利用数据挖掘技术对海量临床数据进行挖掘整理的重要意义。因此,从大量AIDS临床诊疗数据中挖掘出有用的信息和知识来指导临床实践,对HIV感染者进行积极、有效的个性化治疗将成为新的研究热点。
1 数据挖掘方法
1989年3月,在美国底特律召开的“第11届国际人工智能联合会议的专题讨论会”上,数据挖掘(Data Mining)的概念被首次提出[5]。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。根据数据特点或最终目的的不同,在AIDS诊疗研究中可能涉及的数据挖掘技术主要有3种:分类、关联分析和聚类分析[6-8]。
1.1 分类
分类(Classification)任务就是通过学习得到一个目标函数f(x),把每一个属性集x映射到一个预先定义的类标号y中。目标函数也称为分类模型[6]。常用的分类方法包括Logistic回归、决策树、人工神经网络和支持向量机等。
1.2 关联分析
关联分析(Association Analysis)最初由Agrawal[6,9]提出,它研究隐藏于大量数据项之间的关系,目标是以有效的方式提取隐含于海量数据中最有用信息的模式。分析过程就是首先找出所有的频繁项集(事件A中满足最小支持度的事件称为频繁项集),然后由频繁项集产生强规则。1994年,Agrawal[9]提出的Apriori算法是挖掘完全频繁项集中最具有影响力的算法,此外还有宽度优先算法和深度优先算法等。
1.3 聚类分析
聚类分析(Cluster Analysis)仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是使组内对象相互之间是相似的,而不同组中的对象是不同的。组内的相似度越大,组间差别越大,聚类就越好[6-7]。基于划分的聚类方法已在模式识别、数据挖掘等领域得到广泛应用,这类算法的典型代表包括K均值算法(K-means)和模糊C均值聚类算法(Fuzzy C-means Cluster)。近年来的研究成果主要有密度加权模糊聚类算法和基于混合距离学习的双指数模糊C均值算法等。
2 数据挖掘技术在AIDS临床诊疗中的应用
2.1 数据挖掘技术用于AIDS临床诊疗
2.1.1 HIV易感因素分析
Law等[10]收集了4676名AIDS患者的基线数据,经Logistic回归分析得出结论:AIDS易感性与是否有男同性接触、较高的高密度脂蛋白水平、较低的CD4细胞计数和较高的CD4与CD8比值呈正相关。Reda等[11]对埃塞俄比亚的1540名AIDS患者基本信息数据进行多因素Logistic回归分析,得到未婚(OR=1.54)和文盲(OR=1.81)人群更易感染HIV的规律。韩建超等[12]在AIDS患者CD4+T淋巴细胞与机会性感染关系的应用研究中,使用数据挖掘中的C4.5决策树算法对207例AIDS患者进行分析,发现AIDS患者的CD4+T淋巴细胞的绝对值在5个箱体中的A(0~50)区间时,合并感染卡氏肺孢子虫肺炎的机会将大大增加。
2.1.2 患者治疗依从性评价
张冰等[13]调查了安徽省283名AIDS患者并进行问卷调研,分析患者的药物治疗依从性。通过决策树和Logistic回归分析发现:年龄、婚姻状况、宗教信仰、月收入以及感染途径这5个因素是治疗依从性的影响因素,而性别、民族、文化程度、职业、抽烟、喝酒、社会关系网络、社会参与对依从性的影响没有统计学意义。Kebede等[14]随机抽样了Gondar大学附属医院的423名已经接受HAART治疗的AIDS患者的数据,通过Logistic回归将4大类因素(社会人口学、行为因素、社会心理因素和环境因素)与患者的服药依从性之间的关系进行分析,结果表明患者倾向于通过接收手机短信提醒的方式来提高依从性,且此法在实践中已初见成效。Zhang等[15]调查我国27504名AIDS患者的随访记录,进行多因素Logistic回归分析发现,错过早期随访的患者人数占比非常高,且这类人群7年内死亡率同样很高,两者关系成正比。
2.1.3 HIV感染者的识别
这类研究中,常选用支持向量机(Support Vector Machine,SVM)等机器学习方法。吴海磊等[16]在描述性分析的基础上,应用支持向量机建立HIV感染者的识别模型,以2004~2009年某省口岸在出入境人员中检出的133例HIV感染者及133例非HIV感染者作为研究对象,利用年龄、性别、国籍、文化程度、职业、劳务史、吸毒史、输血史等建立SVM识别模型,模型识别的总体准确率为90.0%,灵敏度为90.3%,特异度为90.9%。
吴海磊等[17]对330例感染性病艾滋病的出入境人员和330例非感染出入境人员进行统计分析,发现性病患者与非性病者的年龄、性别、国籍、职业、文化程度、国内外劳务史、性伴侣数、病史、不洁性生活史、性伴侣情况的差异有统计学意义。通过研究建立隐含层包含7个神经元的BP人工神经网络进行预测,准确率可达89.6%。
2.2 数据挖掘技术用于AIDS药物配伍研究
在我国,艾滋病的治疗药物包括国家规定的若干种西药和一些辅助治疗的中药。数据挖掘技术中的分类和聚类方法常用于西药的药物配伍研究,而关联规则挖掘则常用于中药的配伍研究。仝建波等[18]用三维全息原子场作用矢量(3D-HoVAIF)研究89个四氢咪唑苯二氮卓酮(TIBO)类抗艾滋病药物的定量构效关系。偏最小二乘回归和人工神经网络这两种方法的建模的复相关系数分别为0.802和0.871,留一法交叉验证的复相关系数分别为0.710和0.864,外部样本校验的复相关系数分别为0.552和0.760,这表明用3D-HoVAIF表征TIBO类抗艾滋病药物分子结构信息较好,建立定量构效关系(Quantitative Structure Activity Relationship,QSAR)模型的稳定性和预测能力良好,而且人工神经网络建模优于偏最小二乘回归及前人报道的多元线性回归。郑凤霞等[19]考虑患者初始状态、初始CD4CIM和HIV浓度对患者治疗方案的影响,采用聚类分析将实验数据进行聚类,然后对每类数据采用平滑法进行趋势分析,最后确定出各类患者的最佳治疗终止时间和最佳治疗方案,为AIDS治疗方案的选择提供了有力依据。
王丹妮等[20]利用复杂网络(关联规则)分析方法,研究河南尉氏县2007年10月~2011年7月间接受李发枝教授治疗过的AIDS皮肤瘙痒患者,分析AIDS患者皮肤瘙痒的病因、名老中医辨证论治及用药规律,发现治疗AIDS皮肤瘙痒的核心药物为防风、蝉蜕、柴胡等祛风解表药物,甘草等有解毒功效药物,黄芩、地肤子等清热利湿药物,核心处方为荆防败毒散加减。彭红等[21]经研究认为在对艾滋病患者进行免疫调节的过程中,中医药能够起到较好的作用,如:颗粒剂中研2号(配伍方式主要是:黄芪、枸杞、人参、升麻、当归、甘草以及柴胡等)。李艳萍等[22]研究发现治疗艾滋病制剂康爱保生丸中既有调节免疫的黄芪等中药,也有抑制病毒的紫花地丁等中药,经配伍后产生的疗效明显高于单味药或拆方后应用效果,可以利用其中黄芪、紫花地丁等中药成分明确、药理作用清楚的生物活性物质,结合中医药理论进行有效成分组方配伍。在组分层次上进行现代模式研究,一方面可以深入明确其治疗艾滋病的物质基础和作用靶点;另一方面可对复方进行浓缩,取其精华,弃其糟粕,降低服用量,提高患者服药依从性。
3 前景与展望
HAART作为目前治疗AIDS的主要方法,其最终目的在于最大程度地清除患者体内HIV病毒,重建机体免疫功能,从而延长患者寿命,提高患者生活质量。但是,由于已知的HAART药物均存在较为严重的毒副作用,长期服药导致的病毒耐药情况也不断出现,极大地降低了HAART治疗的有效性。为此,紧密围绕HAART治疗的最佳时机、最佳用药方案等方面进行深入研究将是AIDS治疗领域的重点研究方向。将数据挖掘技术与临床实践相结合,从大量临床数据中挖掘有用知识,符合当今循证医学和精准医疗的大方向,因而具有广阔的应用前景。在AIDS治疗决策中,可以利用数据挖掘方法,对HIV感染者或AIDS患者的基线水平、初始治疗方案、耐药情况、更换治疗方案、治疗依从性等进行全面分析,为个性化治疗方案的临床决策提供科学支持。
[1] World Health Organization.Key facts on global HIV epidemic and progress in 2010 [EB/OL].http://www.who.int/hiv/pub/ progress_report2011/global_facts/zh/, 2015-10-26.
[2] 中华人民共和国国家卫生和计划生育委员会.世界艾滋病日主题宣传[EB/OL].http://www.nhfpc.gov.cn/zhuzhan/wsjswtpx w/201511/5d0c165752ad4200a555646c44400d18.shtml, 2015-12-1.
[3] Kumar NS,Shashibhushan J,Malappal,et al.Lipodystrophy in Human Immunodeficiency Virus (HIV) Patients on Highly Active Antiretroviral Therapy (HAART)[J].J Clin Diagn Res,2015,9(7):OC05-OC08.
[4] 王立婷,陈卉.数据挖掘技术在艾滋病诊疗研究中的应用[J].数理医药学杂志,2013,26(1):97-99.
[5] 黄秋燕,金京皓,沈岳龙,等.数据挖掘在医学信息中的应用[J].医学信息,2010,23(8):2503-2506.
[6] Pang-Ning Tan,Michael Steinbach,Vipin Kumar.Introduction to Data Mining[M].北京:人民邮电出版社,2011:201-400.
[7] 张良均,陈俊德,刘名君,等.数据挖掘实用案例分析[M].北京:机械工业出版社,2013:8-29.
[8] Jared P.R for Everyone: Advanced Analytics and Graphics[M].北京:机械工业出版社,2015:271-294.
[9] Agrawal,Imielinski,Swami.Mining Association Rules between Sets of Items in Large Databases[R].Washington D C:Proceedings of the 1993 ACM SIGMOD Conference,1993:207-216.
[10] Law MG,Achhra A,Deeks SG,et al.Clinical and demographic factors associated with low viral load in early untreated HIV infection in the INSIGHT Strategic Timing of Antiretroviral Treatment (START) trial[J].HIV Med,2015,16(1):37-45.
[11] Reda AA,Biadgilign S,Deribe K,et al.HIV-positive status disclosure among men and women receiving antiretroviral treatment in eastern Ethiopia[J].AIDS Care,2013,25(8): 956-960.
[12] 韩建超,徐艳,贺一,等.数据挖掘在艾滋病病人CD+4T淋巴细胞与机会性感染关系的应用研究[J].中国艾滋病性病,2012, 18(9),584-586.
[13] 张冰,马颖,李念念,等.艾滋病病人药物治疗依从性现状及影响因素分析[J].中国卫生事业管理,2013,4(3):295-298.
[14] Kebede M,Zeleke A,Asemahagn M,et al.Willingness to receive text message medication reminders among patients on antiretroviral treatment in North West Ethiopia: A cross-sectional study[C].BMC Medical Informatics and Decision Making,2015,15:65.
[15] Zhang Y,Dou Z,Sun K,et al.Association Between Missed Early Visits and Mortality Among Patients of China National Free Antiretroviral Treatment Cohort[J].J Acquir Immune Defic Syndr,2012,60(1):59-67.
[16] 吴海磊,钱吉生,张纯,等.支持向量机对艾滋病病毒感染者初筛识别的研究[J].实用预防医学,2010,11(3):2152-2155.
[17] 吴海磊,钱吉生,张纯,等.人工神经网络的性病艾滋病预测模型研究[J].中国艾滋病性病,2007,6(3):525-528.
[18] 仝建波,刘淑玲,杨丽燕,等.四氢咪唑苯二氮卓酮类抗艾滋病药物定量构效关系的研究[J].计算机与应用化学,2008, 4(1):419-423.
[19] 郑凤霞,古传运.基于聚类分析和平滑法的艾滋病治疗方案研究[J].四川文理学院学报,2013,23(5):11-14.
[20] 王丹妮,李真,徐立然,等.李发枝治疗艾滋病皮肤瘙痒的配伍精要[J].中国中药杂志,2013,38(15):2493-2496.
[21] 彭红,刘荣,马燕.中医药免疫调节在艾滋病治疗中的价值和地位[J].医药前沿,2015,5(5):165-166.
[22] 李艳萍,和丽生,赵远,等.治疗艾滋病中药复方制剂研究现状与新思路[J].中草药,2014,45(3):303-307.
Application of Data Mining in Clinical Diagnosis and Treatment of AIDS
CHEN Jie-qing, CHEN Hui
School of Biomedical Engineering, Capital Medical University, Beijing 100069, China
The paper firstly introduced basic concept and common technology of data mining, and then summarized the progress of application of data mining methods in the diagnosis, treatment and pharmaceutical compatibility of AIDS. It showed that data mining technology play an important role in the personalized treatment for AIDS patients.
data mining; acquired immune deficiency syndrome; personalized treatment; pharmaceutical compatibility
R512.91
A
10.3969/j.issn.1674-1633.2016.08.019
1674-1633(2016)08-0068-03
2015-12-03
陈卉,首都医科大学生物医学工程学院计算机教研室主任,副教授。
通讯作者邮箱:chenhui@ccmu.edu.com