数据挖掘技术在儿童精神医学中的运用*
2015-04-15茅荣杰汪作为杜亚松
茅荣杰 汪作为 杜亚松
数据挖掘技术在儿童精神医学中的运用*
茅荣杰汪作为杜亚松
【摘要】当前各种资讯及数据信息呈爆炸式增长,如何从中挖掘出有用的知识成为亟待解决的问题,由此数据挖掘技术应运而生,并已开始用于儿童精神医学。本文基于国内外数据挖掘技术在儿童精神医学中的发展状况,简要介绍了数据挖掘的概念、方法及各种挖掘方法的运用现状,总结了数据挖掘技术在儿童精神医学中运用的不足之处,并对今后的发展趋势进行展望。
【关键词】数据挖掘儿童精神医学信息人工智能
随着计算机技术和互联网的发展普及,人们能够轻而易举地采集到各种资讯,这些资讯及其伴随的数据信息呈爆炸式增长。儿童精神科医师在工作中可以通过视频、音频、量表、病程记录和日志等获得多方面的数据信息,但是“我们被数据淹没,却缺乏知识”[1]。如何透过纷繁复杂的数据信息寻找其背后的规律,挖掘出有用的知识[2],数据挖掘技术应运而生,并已开始用于儿童精神医学(研究18周岁以下儿童青少年精神障碍的学科称为儿童精神医学)。本文就数据挖掘技术在儿童精神医学中的运用展开综述。
1 数据挖掘的概念和方法
1.1数据挖掘的概念数据挖掘(Data Mining,DM)又称为数据库中的知识发现(Knowledge Discover in Database,KDD),是指运用计算机等人工智能方法挖掘数据库中大量数据背后潜藏着的有价值的信息的过程[1]。通过数据挖掘,数据拥有者可以把握事物的发展规律并以此来指导实践工作。数据挖掘技术是在统计分析、模式识别、机器学习及数据库技术等基础上发展起来的一门新兴学科,可以与包括儿童精神医学在内的其他学科相结合,为其他学科的发展提供新的研究方法。
1.2数据挖掘的方法数据挖掘用来对数据进行描述和预测。常用的数据挖掘方法如下: (1)数据的汇总和表述:其目的是对数据进行浓缩,给出它的紧凑描述。比如计算频数、均值、百分比、方差等数据,还可以运用统计表、直方图等可视化技术以便更直观地了解事物[3]。(2)聚类(Clustering) :是将一个集中的数据划归至不同组别。聚类所依据的规则是:同一类别内的各种数据相似性较高,不同类别之间的数据相似性较低[4]。最常用的两种聚类方法是划分法(包括K均值法等)和系统分类法(又叫层次分类法)。(3)相关分析:常用来作相关分析(Correlation Analysis)的方法有:①关联规则(Association Rules ) :关联规则反映了事物之间的关联性,最经典的算法是Apriori算法[5]。②贝叶斯网络(Bayesian Network) :利用贝叶斯公式对条件概率等指标进行计算,分析事物之间的相关性。③回归分析(Regression Analysis) :回归分析可以用来描述因变量与一个或多个自变量之间的关系,如线性回归、Logistic回归等。(4)分类(Classification) :是一种数据分析的过程,根据记录各种属性的值确定该记录属于哪一类[6]。对于待分类的数据能被分到哪几类必须是预先确定的,这是与聚类不同的地方。常用的分类方法有决策树分类器、贝叶斯分类器、人工神经网络、近邻分类器(KNN)、支持向量机等。(5)回归分析: (Regression Analysis) :数学模型确定后,通过自变量的值来预测应变量,如Logistic回归、回归树、人工神经网络等[7]。(6)时间序列分析:现实世界中有大量的数据在时序上具有关联性。时间序列分析(Time series Analysis)就是在数据库中挖掘出在时间顺序上出现频率高的数据组合模式[8]。(7)异常值监测或偏差分析:数据库中存在一些明显偏离常态的数据,而这些数据背后常常隐藏着某种信息。偏差分析(Outlier Detection)的基本思想就是寻找观察结果与参照量之间有意义的差别,再从这些差别中挖掘出有用的信息[9]。
上述挖掘方法中,数据的汇总和表述、聚类、相关分析,通常用来对数据进行描述,属于描述型的挖掘方法;而分类、回归分析、时间序列分析、异常值监测或偏差分析,用来对数据进行预测,属于预测型的挖掘方法。实际上,描述和预测是相互联系不可分割的两个过程,描述是预测的基础,而预测的准确性又反过来修正描述。就某些挖掘方法而言,既可用于描述也可用于预测,例如回归分析,可以用于描述因变量如何随自变量变化而变化;当回归分析模型建立以后,它可以用于预测,即通过输入自变量的确定值,对未知事物(因变量)进行预测。
2 数据挖掘在儿童精神医学中的运用现状
数据挖掘技术已经在金融、电信、制造、能源等多个领域得到了较为深入的应用,但在医学中的应用刚刚起步,而在儿童精神医学中更是处于试探摸索阶段。面对海量的医学数据,数据挖掘技术已经显示出其重要的实用价值和经济价值[10]。目前数据挖掘技术在儿童精神医学中的应用主要在以下几方面:
2.1数据的汇总和表述数据的汇总和表述是对数据的初步挖掘,为进一步使用其他挖掘方法垫定基础,因此已得到较为广泛的运用。比如朱艳丽等[11]调查河南省某少年教养管理所在押的97名男性少年教养人员,了解其人格类型及其自尊、成就动机、应对方式等。国外Clarke AR等[12]分析了100个8~12岁患有注意缺陷多动障碍(ADHD)的女孩的脑电图数据,了解其α波、β波、θ波、δ波等波形的分布、波幅、节律等; Thapar A等[13]跟踪随访了7 387个青少年,定期做精神病样体验的自陈问卷调查,分析数据后发现1.7%的个体的精神病样体验随年龄增长而减少,16.8%断断续续出现,而0.9%则会持续出现。
2.2聚类分析在儿童精神医学中,聚类分析通常用于如下三个方面: (1)对某一种疾病的亚型探索:国外学者运用最多的是孤独症亚型探索,如Lane AE等[14]对54名孤独症儿童的感觉处理及适应方式作聚类分析,将孤独症患儿分为味觉敏感型、嗅觉敏感型和运动相关感觉敏感型三类; Hrdlicka M等[15]对64名孤独症患儿的MRI数据进行聚类分析,最后将其聚为四类。(2)用于两类疾病异同比较: Goldstein G等[16]比较高功能孤独症与精神分裂症的异同,先通过聚类分析法将精神分裂症患者聚为四亚类,再将这四亚类与高功能孤独症数据聚类,发现精神分裂症中的其中一个亚类可以与高功能孤独症聚为一类,两者在认知上有较多相似之处; Cuccaro ML等[17]通过聚类分析方法探索孤独症谱系障碍与癫痫症的联系,发现两者在言语和运动能力发育上有较多相似之处。(3)对疾病相关因素及症状的归类:冯永亮等[18]对上海市669名大学女生非意愿性行为特征进行聚类分析,发现具有一定个人及行为特征的青少年容易遭受非意愿性行为的侵扰,应针对这些特征因素采取相应措施。Rizzo R等[19]回顾了100名Tourette综合征(抽动秽语综合征)患者长期临床过程,通过因子分析和聚类分析发现,10年后有48%的患者除抽动秽语症状外,表现出强迫症的症状。
2.3相关分析在传统的统计分析中,用作相关分析的主要是回归相关;而数据挖掘技术中的相关还包括关联规则、贝叶斯网络分析等。目前的运用举例如下: (1)关联规则: García EG等[20]用关联规则分析了9 300名14~18岁青少年关于物质使用的数据库,得出与酒精、烟草、大麻、可卡因等使用最相关的因素,比如与酒精使用最相关的因素是父母的教育方式和同伴的使用(置信度为0.8 528)。Vianna RC等[21]通过关联规则发现与婴儿死亡最相关的因素是青少年怀孕生育。(2)回归与相关:杜亚松领导的科研小组做过不少研究,如江文庆等[22]对网络成瘾者数据库进行Logistic回归分析,提示网络成瘾与应对方式中使用“问题解决”、“幻想”、“自责”以及在“对支持的利用”能力上独立相关;刘文文等[23]用Logistic回归分析探讨影响孤独症患儿严重程度的相关因素发现具有女性、父母文化程度低、新生儿窒息、剖宫产、易怒敏感古怪的性格特征、淡漠型混乱型的依恋类型、发现症状到就诊的间隔时间长等特征的孤独症患儿更有严重程度较重的倾向。国外也有不少类似的研究,如Yurdu爧en S等[24]通过分层回归分析法发现学龄前儿童情绪和行为问题与母亲的焦虑情绪、拒绝的态度和养育方式密切相关,而母亲的焦虑情绪是最重要的影响因素。(3)贝叶斯网络分析: Snoek HM等[25]运用贝叶斯理论分析青少年身高体质量指数(BMI)变化轨迹与情绪、在外就餐和过分克制饮食的关系,发现越过分克制饮食BMI指数越高。Le TN等[26]通过贝叶斯网络分析青少年犯罪行为与学校人口学因素和种族歧视的关系,发现学校学生种族越是多样化和歧视,青少年犯罪率越高,但老师的种族多样化与之没有关系;除非裔美国人之外,女性老师比率越高,青少年犯罪率越低。
2.4分类分类是数据挖掘中的常用方法,决策树算法、贝叶斯分类器、人工神经网络、支持向量机等多种分类算法均已在儿童精神医学中得到运用。目前的分类方法运用于如下几个方面: (1)用于疾病的诊断识别:国内陈冰梅等[27]通过对全国1 125份病例资料的数据分析,将人工神经网络与专家系统相结合,编制了智能计算机诊断系统,经测试发现其诊断结果与资深专家诊断符合率为99%。国外Wall DP等[28]将人工智能分类技术用于孤独症患儿的筛查; Perego P等[29]将支持向量机技术用于孤独症的早期诊断。(2)用于风险预测和严重程度评估: Pazzani M J等[30]用贝叶斯概率模型用于新生儿患智能发育迟滞的风险评估。Ang RP等[31]将预测型数据挖掘技术与传统Logistic回归分析相比较,用于青少年攻击行为的预测,确证了决策树、人工神经网络、支持向量机等分类技术的效果。Stahl D等[32]利用支持向量机技术分析了婴儿事件相关电位数据库(这些婴儿后来被诊断患有孤独症),建立了孤独症患病风险的预测模型。(3)决策支持:决策树分类与成本效益分析相结合,能够指导人们作出最优策略,其运用有着较早的历史,早在1995年Fletcher J等[33]将决策树技术用于产前唐氏综合征的筛查方式比较,用成本效益分析比较血清测定法与羊膜穿刺法的优略。决策支持技术不断地得到运用和发展,如Magyary D等[34]将决策树技术用于注意缺陷多动障碍患儿的评估和管理,发现结果与几个国家专业机构发布的多动症指南相一致。Ebesutani C等[35]用决策支持系统发现预先用自评问卷调查可以减轻青少年心理治疗的负担。
2.5回归分析数据挖掘技术中的回归分析不仅包括Logistic回归等经典回归分析法,还包括人工神经网络、回归树等不能用函数表达的复杂算法,具有广阔的运用前景。(1)经典回归分析: López-Villalobos JA等[36]以200例注意缺陷多动障碍患儿相关数据为学习样本,以年龄、匹配熟悉图测验(MFFT-20)分、儿童嵌图测试分(CEFT)、Stroop测试分数为自变量,建立是否患有多动症的Logistic回归模型,经测试后该模型预测的灵敏度为85%、特异度为85%(相对于DSM–Ⅳ诊断标准)。(2)人工神经网络: Nuovo AG等[37]尝试建立测定智商的神经网络,其测试性能比韦氏智商量表更精确(置信区间5个单位)。(3)回归树算法:当决策树输出的是连续变量时称之为回归树,而实际上单纯运用回归树的研究并不多见,通常是将分类与回归结合在一起,称为分类回归树(Classification And Regression Tree,CART)。该算法已得到广泛的运用。Mckenzie DP等[38]用短期心境和感受问卷(SMFQ)调查5 769名美国及加拿大青少年,用分类回归树法(CART)进行数据分析,结果发现自我憎恨和不被爱是增加抑郁水平的两个重要预测因素,由此考虑制定相应措施。Brabant ME等[39]成功运用CART法预测受性虐待的少女的自杀风险。
2.6时间序列分析时间序列分析是当前人工智能和数据库系统研究的热点之一。但目前尚未发现有专门将时间系列分析用于儿童精神医学的报道,但可以在相关的学科如脑电图中见到一些零星研究。Ferri R等[40]曾有将时间系列模型用于分析新生儿脑电图的报道。Kim SH等[41]报道,将时间系列分析与自回归分析相结合后分析癫痫患者的脑电图,预测的速度和准确率明显高于以前的方法。
2.7异常值监测和时间系列分析类似,仅在儿童精神医学相关的领域见到报道。Mefford HC等[41]将异常值监测技术用于研究人类基因组变异(CVNs),发现1 105名不明原因智力残疾的儿童(非孤独症)中有7名儿童染色体位点16p11.2缺失,而16p11.2缺失曾经被认为与孤独症有关,且发现异常值监测法相比其他方法更加经济实用。
3 运用展望
从以上综述中我们看到数据挖掘技术已经在儿童精神医学中有一定的应用,但这种应用刚刚起步,今后必然会不断地发展和完善。首先,数据挖掘需要面对的是海量数据,而上述数据挖掘技术在儿童精神心理疾病中的应用研究样本量非常小,更多的是尝试性运用,今后研究者必然会扩大样本量,在大规模数据库中验证其应用价值和实际可操作性。其次,数据挖掘技术在具体运算之前还要经历漫长的数据预处理阶段,包括数据清洗、数据格式转换、变量整合、数据表连接等,使其应用远没有传统统计学广泛。随着简洁实用的数据挖掘软件技术的发展,预计数据预处理会更加简便,数据挖掘技术也更易得到推广[43]。再次,目前在儿童精神医学中所用的数据挖掘技术比较单一,可能仅挖出数据背后众多规律的一小部分,这难免造成重要知识的遗漏和数据资源的浪费,因此今后各种挖掘方法必然趋向于整合,从而提高挖掘效率。最后,信息贵在新、快,即所谓的“实时性”。对于儿童精神心理疾病,越早发现和治疗,预后越好。这就需要数据挖掘技术与自动化技术和视频、音频、图像处理等技术结合起来,实时监测,快速转换、运算和分析,并及时给出危险警示和指导措施,充分发挥其实用价值[44]。
参考文献
[1]Codreanu DE,Parpandel DE,Popa I.Extracting knowledge from data-data mining[J].Challenges of the Knowledge Society,2013,1: 2020-2025
[2]Winship K.Data mining in children and family services: the Contra Costa County experience[J].J Evid Soc Work,2012,9(1-2) : 19-26
[3]Alazemi AR.Data,text and web mining for business intelligence:A Survey[J].International Journal of Data Mining&Knowledge Management Process,2013,3(2) : 1-21
[4]Trebuňa P,Halˇcinová J.Mathematical tools of cluster analysis [J].Applied Mathematics,2013,4(5) : 814-816
[5]Anwar MA.Finding association rules through efficient knowledge management technique[J].International Journal of Advanced Computer Sciences and Applications,2013,3(12) : 131-134
[6]Dash SR,Dehuri S.Comparative study of different classification techniques for post operative patient dataset[J].International Journal of Innovative Research in Computer and Communication Engineering,2013,1(5) : 1101-1108
[7]龚著琳,陈瑛,章鲁,等.生物医学数据挖掘[M].上海:上海科学技术出版社,2011: 25-44
[8]Momani NM.Time series analysis model for rainfall data in Jordan: case study for using time series analysis[J].American Journal of Environmental Sciences,2013,5(5) : 599-604
[9]Chandore P,Chatur P.Outlier detection techniques over streaming data in data mining: A research perspective[J].International Journal of Recent Technology and Engineering,2013,2(1) : 157-162
[10]Kaur H,Wasan SK.Empirical Study on Applications of Data Mining Techniques in Healthcare[J].J Comput Sci,2006,2(2) : 194-200
[11]朱艳丽,赵山明.少年教养人员人格类型及其与自尊、成就动机、应对方式的调查[J].中国组织工程研究与临床康复,2007,11(17) : 3306-3309
[12]Clarke AR,Barry RJ,Mccarthy R,et al.EEG activity in girls with attention-deficit/hyperactivity disorder[J].Clinical Neurophysiology,2003,114(2) : 319-328
[13]Thapar A,Heron J,Jones RB,et al.Trajectories of change in self-reported psychotic-like experiences in childhood and adolescence[J].Schizophrenia Research,2012,140(1-3) : 104-109
[14]Lane AE,Young RL,Baker AZ,et al.Sensory processing subtypes in autism: association with adaptive behavior [J].J Autism Dev Disord,2010,40(1) : 112-122
[15]Hrdlicka M,Dudova I,Beranova I,et al.Subtypes of autism by cluster analysis based on structural mri data[J].Eur Child Adolesc Psychiatry,2005,14(3) : 138-144
[16]Goldstein G,Minshew NJ,Allen DN,et al.High-functioning autism and schizophrenia: a comparison of an early and late onset neurodevelopmental disorder[J].Arch Clin Neuropsychol,2002,17(5) : 461-475
[17]Cuccaro ML,Tuchman RF,Hamilton KL,et al.Exploring the relationship between autism spectrum disorder and epilepsy using latent class cluster analysis[J].J Autism Dev Disord,2011,42(8) : 1630-1641
[18]冯永亮,牛红峰,左霞云,等.上海市大学生非意愿性行为的聚类特征分析[J].中国卫生统计,2011,28(1) : 33 -36
[19]Rizzo R,Gulisano M,Calì PV,et al.Long term clinical course of Tourette syndrome[J].Brain Dev,2012,34(8) : 667-673
[20]García EG,Blasco BC,López RJ,et al.Study of the factors associated with substance use in adolescence using Association Rules[J].Adicciones,2010,22(4) : 293-299
[21]Vianna RC,Moro CM,Moysés SJ,et al.Data mining and characteristics of infant mortality[J].Cad Saude Publica,2010,26(3) : 535-542
[22]江文庆,杜亚松,辛秦,等.上海市网络成瘾中学生的应对方式与社会支持[J].上海精神医学,2011,23(2) : 87-91
[23]刘文文,杨曹骅,张林娜,等.父母亲对孤独症症状的认识及严重程度影响因素的研究[J].中国儿童保健杂志,2013,21(6) : 575-577
[24]Yurdusen S,Erol N,Genz T.The effects of parental attitudes and mothers' psychological well-being on the emotional and behavioral problems of their preschool children[J].Matern Child Health J,2013,17(1) : 68-75
[25]Snoek HM,Engels R,van Strien T,et al.Emotional,external and restrained eating behaviour and BMI trajectories in adolescence[J].Appetite,2013,(67) : 81 -87
[26]Le TN,Stockdale G.The influence of school demographic factors and perceived student discrimination on delinquency trajectory in adolescence[J].J Adoles Health,2011,49 (4) : 407-413
[27]陈冰梅,樊晓平,周志明,等.基于人工神经网络与人工智能的计算机系统在儿童心理障碍诊断领域的应用[J].中国组织工程研究与临床康复,2011,15(13) : 2467-2470
[28]Wall DP,Dally R,Luyster R,et al.Use of artificial intelligence to shorten the behavioral diagnosis of autism [J].PloS One,2012,7(8) : e43855
[29]Perego P,Forti S,Crippa A,et al.Reach and throw movement analysis with support vector machines in early diagnosis of autism[J].Conf Proc IEEE Eng Med Biol Soc,2009: 2555-2558
[30]Pazzani MJ,Mani S,Shankle WR.Acceptance of rules generated by machine learning among medical experts[J].Methods of Inf Med,2001,40(5) : 380-385
[31]Ang RP,Goh DH.Predicting juvenile offending: a comparison of data mining methods[J].Int J Offender Ther Com Criminol,2013,57(2) : 191-207
[32]Stahl D,Pickles A,Elsabbagh M,et al.Novel machine learning methods for ERP analysis: a validation from research on infants at risk for autism[J].Developmental Neuropsychology,2012,37(3) : 274-298
[33]Fletcher J,Hicks NR,Kay JD,et al.Using decision analysis to compare policies for antenatal screening for Down’s syndrome[J].BMJ,1995,311(7001) : 351-356
[34]Magyary D,Brandt P.A decision tree and clinical paths for the assessment and management of children with ADHD [J].Issues Ment Health Nurs,2002,23(6) : 553-566
[35]Ebesutani C,Bernstein A,Chorpita BF,et al.A transportable assessment protocol for prescribing youth psychosocial treatments in real-world settings: reducing assessment burden via self-report scales[J].Psychological Assessment,2012,24(1) : 141-155
[36]López-Villalobos JA,Serrano-Pintado I,Sánchez-Mateos JD,et al.Utility of a statistical model of cognitive styles in attention deficit hyperactivity disorder[J].Psicothema,2011,23(4) : 818-823
[37]Di Nuovo AG,Di Nuovo S,Buono S.Intelligent quotient estimation of mental retarded people fromdifferent psychometric instruments using artificial neural networks [J].Artif Intell Med,2012,54(2) : 135-145
[38]Mckenzie DP,Toumbourou JW,Forbes AB,et al.Predicting future depression in adolescents using the Short Mood and Feelings Questionnaire: a two-nation study[J].Journal Affect Disord,2011,134(1-3) : 151-159
[39]Brabant ME,Hébert M,Chagnon F.Identification of sexually abused female adolescents at risk for suicidal ideations: a classification and regression tree analysis[J].J Child Sex Abus,2013,22(2) : 153-172
[40]Ferri R,Chiaramonti RM,Musumeci SA,et al.Nonlinear EEG analysis during sleep in premature and full-term newborns[J].Clinical Neurophysiology,2003,114 (7) : 1176-1180.
[41]Kim SH,Faloutsos C,Yang HJ.Coercively adjusted auto regression model for forecasting in epilepsy EEG[J].Comput Math Methods Med,2013,545-613
[42]Mefford HC,Cooper G.A method for rapid,targeted CNV genotypingidentifies rarevariants associatedwith neurocognitive disease[J].Genome Res,2009,19(9) : 1579-1585
[43]Raju SH,Latha TS.An Unique Data mining Task for Sorting: Data Preprocessing for efficient External Sorting [J].International Journal of Advanced Research in Computer Engineering&Technology (IJARCET),2013,1(9) : 69-76
[44]Güiza F,Van Eyck J,Meyfroidt G.Predictive data mining on monitoring data from the intensive care unit[J].J Clin Monit Comput,2013,27(4) : 449-453
(收稿日期:2014-07-08)
通讯作者:杜亚松,E-mail: yasongdu@163.com
*基金项目:国家重点基础研究发展计划项目(编号: 2010CB529602) ;上海市科学技术委员会科研计划项目(编号: 11411952401)
doi:10.3969/j.issn.2095-9346.2015.01.026
【中图分类号】R749.94
【文献标识码】A
【文章编号】2095-9346(2015)-01-0077-04
作者单位:200030,上海交通大学医学院附属精神卫生中心