医疗数据挖掘综述
2016-02-15丁中正刘云景慎旗张昕
丁中正,刘云,景慎旗,张昕
(南京医科大学医学信息学与管理研究所 南京医科大学第一附属医院,江苏 南京 210029)
医疗数据挖掘综述
丁中正,刘云,景慎旗,张昕*
(南京医科大学医学信息学与管理研究所 南京医科大学第一附属医院,江苏 南京 210029)
通过对医疗数据挖掘技术的使用,从海量的医疗数据中获取一些有价值的信息来服务于医疗行业和患者,促进医疗行业的发展。综述介绍了医疗数据的特点,医疗数据挖掘的关键问题,数据挖掘技术在医疗行业上的广泛使用以及对医疗数据挖掘技术的未来展望。
数据挖掘;医疗数据;综述
0 引言
随着计算机信息技术的迅速发展,各个行业对数据库的大规模使用,积累了越来越多的数据资料。在这些庞大的数据资料中,人们并不能够从中获取有效的数据资料,导致了数据多知识少的局面。此外,更高性能的计算机和操作系统,英特网,数据仓库等新技术或新概念的出现。在此背景下,数据挖掘[1](Data Mining,DM)和数据库中的知识发现(Knowledge Discovery in Database,KDD)应运而生。医疗数据挖掘已成为一个越来越最重要的研究方向。
1 医疗数据的特点
(1)数据的多态性。医疗数据相对于其他数据的一个重要特点就是医疗数据的格式种类有很多种;主要包括有纯数据(如化验结果,体征参数等)、信号(如脑电信号,心电信号等)、图像(如B超,CT等医学成像设备的检测结果等)、文字(如病人的诊断结果,病症的描述等),以及语音、动画和视频信息[3]。此外,数据的表达也会有多样性,对于同种疾病的描述也没有统一的标准。
(2)数据的海量性。随着医院逐步的推广医疗信息化,以及国家对全民医保的投入和重视,医院每天的门诊人数逐步增多,产生的数据也逐渐变多;此外医院买入的一些大型高科技医疗设备,广泛的投入使用,也会产生海量的数据。这些原因都会导致医疗数据的海量性。
(3)数据的不完整性。对于任何一种疾病,医学数据不可能全面的反应出它的全部信息。此外,针对某一种疾病,也不可能通过数据挖掘技术提出完整可靠的治疗方案。正是由于医学数据信息在记录和保存方面不是很全面,还有对于那些已经保存的数据,其本身的信息记录不完全。这些原因导致
了医疗数据的不完整性。
(4)数据的时间性。一般情况下,医学信息中对病人的情况记录具有时间性,并且随着时间的变化会产生不一样的效果。例如一些手术后的病人体温的监测,都具有时间性,每个时间段的体温都是在变化的。此外,一些医学的波形、图像的信息变化都是随着时间而变化[9]。
(5)数据的冗余性。医学数据库是一个庞大的数据资源,并且每天会产生相同的部分被记录下来。例如一些病人的病症基本相同,检查、化验的结果和最后的治疗方法也基本相同。这些相同的记录都会被保存到医学数据库中,这就会造成数据的冗余性。这样的医学数据信息快速的增加不仅会造成数据的冗余行,还会导致数据挖掘的困难。
(6)数据的隐私性[9]。在医疗数据记录的病人信息中,很多信息会涉及到病人的隐私方面,这些都是需要医院为病人这些信息做保护。当这些信息遭遇到一些非法入侵导致信息泄露或者数据挖掘操作的一些开放性和共享性操作与隐私性相冲突时,就需要以保护隐私性为前提。
2 医疗数据挖掘关键问题
由于医疗数据的特点,造成了医学数据在使用数据挖掘技术的同时会遇到这样的一些问题:
数据预处理:如之前所述医疗数据的特点,医疗数据具有多态性,海量性,冗余性等一些特点,导致在对数据采用数据挖掘技术前需先对数据进行预处理,以保证数据的一致性,为之后的操作简化过程[4]。
信息融合技术:针对格式繁多的医疗信息,包括文字,数据,图像,语言,视频等,因此处理这些不同的数据需要采用不同的处理技术,对处理完成后的结果可以融合并且在需要的时候可以对结果进行综合的处理和分析[4]。
快速的、鲁棒的挖掘算法:广泛的涉及面、大量的信息以及众多的种类是医学数据库的重要特点,在这样一个海量的数据库中挖掘到自己需要的知识,时间的耗费比其他数据库要更多,因此必须考虑到效率问题。同时,医学数据库的类型较多,而动态变化又是其特点, 因此要求挖掘算法具有一定的容错性和鲁棒性[4]。
提供知识的准确性和可靠性:医疗活动和管理的科学决策是医疗数据挖掘的主要目的,完成这一目的前提是必须保证数据挖掘算法所提供的知识具有较高的准确率和可靠性。医疗数据挖掘在实际中的应用关键就在于要提高挖掘结果的准确性和科学性[4]。
3 数据挖掘的应用
3.1 临床医疗诊断挖掘分析
针对某些地区一些发病率较高的疾病,使用数据挖掘技术对病人的一些基本信息进行分析,例如:职业、年龄、身份、居住地等,根据关联规则发现一些疾病的发病率会和病人的职业、居住地、生活习惯或其他的一些信息有很大的关联,这样在诊疗的时候,医生针对这种病人可以有效的针对性治疗。此外针对一些常见病,多发病和重大传染性疾病等,对这些疾病的临床诊疗数据进行横纵向比较,选取一些与数据挖掘目标相关的数据属性,通过建立数据模型,让医务人员对模型进行分析,最终得出最合理的实施方案[6]。
3.2 数据挖掘在医保系统的应用
随着国内经济的发展、国家对医疗保险的重视以及人们对健康的关注,全民医保已经慢慢的成为一个重要的热点和话题。国家也加大对全民医保的投入,各种各样的医保病人在医院中占有越来越高的比例,与此同时,医院的营业收入也有很大的一部分来源于医保的收入;医保的广泛推广造成了另一个问题的出现,由于我们人口众多,对各个阶层的医保政策不尽相同,导致了医院在管理各类
医保病人的费用总数和医保比例已经成为一个重要的问题。问题总是伴着解决方法,数据挖掘技术的出现可以有效的解决这一类问题。通过建立医院的HIS和各类医保的数据接口,建立起治疗项目、药品等一些对照表,制作医嘱和费用的一些接口传输,通过这些方法实现HIS和医保系统之间的信息传输,也方便了医保中心和医院之间对医保病人的资料审核和一些监管;在医生给病人开立医嘱等一些情况时,医生可以通过数据挖掘技术,根据病人现在的医保类型和医生等级等,提示医生注意病人的药物和诊疗的一些使用情况,提前和病人说清楚情况,避免一些不必要的麻烦;通过使用数据挖掘技术及时的了解自己科室所在的医保病人的费用诊疗情况,合理的控制医疗费用,此外,医保部门也可以及时的了解各个科室医保病人的费用情况,方便对科室的监控和把握[7]。
4 医疗数据挖掘发展展望
医疗数据挖掘是基于计算机科学技术、人工智能、统计学和现代医学信息资源等相结合的一门交叉学科,因此包括计算机,数学和医学等方面的知识。同时,一些算法的研究需要深厚的数学功底,有很高的技术难度。随着数据库、人工智能等数据挖掘的工具的不断进步,数据挖掘理论的研究的不断发展,以及计算机技术的普及应用,必然还会有越来越多的其他格式的医学数据的出现[5]。医学数据包含很多种格式的数据,而目前数据挖掘在医学数据中的应用主要是以结构化数据为主的关系数据库、事物数据库和数据仓库,对一些复杂类型的数据挖掘还尚处在起步阶段。由于这一情况的存在,说明医学数据挖掘技术在未来的发展,充满了机遇和挑战。需要广大从事计算机行业的工作人员和从事医疗工作的人员加强合作,针对医学数据的特殊性和复杂性,选择适合医学数据类型的数据挖掘工具,尽大家合作的力量发挥出数据挖掘技术在医学的应用,从中获取更多有价值的信息来更好的服务于医学,更好的受惠于患者。随着数据挖掘的技术的发展和理论研究的不断深入,结合医疗信息的特殊性,数据挖掘未来在医疗行业的运用肯定会发挥越来越大的作用。
[1] 孔抗美,张莹,李韶斌,赵紫奉.医院医疗数据挖掘与分析[J].中国卫生信息管理杂志.2011(12).
[2] 马江洪,张文修,徐宗本.数据挖掘与数据库知识发现:统计学的观点[J].工程数学学报. 2002(02).
[3] 戴召洋.浅谈临床医疗信息数据挖掘[J].中国农村卫生事业管理.2009(06).
[4] 陈明.医学数据挖掘综述[J].医学信息学,2008(01).
[5] 郑继刚,王边疆.数据挖掘研究的现状与发展趋势[J].红河学院学报.2010(04).
[6] 缪亮.数据挖掘技术在医疗信息管理中的应用[J].中国科技信息.2016(06).
[7] 龚著琳,陈瑛,苏懿,刘雅琴,徐立钧.数据挖掘在生物医学数据分析的应用[J].上海交通大学学报(医学版).2010(11).
[8] 耿哓中.数据挖掘综述[J].长春师范学院学报(自然科学版),2006(06).
[9] 汪菊琴.医学数据挖掘综述[J].电脑知识与技术.2011(05).
Review of Medical Data Mining
DING Zhong-zheng; LIU Yun; JING Shen-qi; ZHANG Xin
(Institute of Medical Informatics and Management, Nanjing Medical University; The First Affiliated Hospital of Nanjing Medical University, Nanjing 210029, Jiangsu,China)
Through the use of medical data mining technology, from the massive medical data to obtain some valuable information to serve the medical industry and patients, and promote the development of the medical industry. This review introduces the characteristics of medical data, the key issues of medical data mining, the widespread use of data mining technology in the medical industry and the future prospects of the medical data mining technology.
Data Mining; Medical Data; Review