基于医疗数据的挖掘算法研究与应用
2021-04-04郭志豪
郭志豪
(兰州城市学院 甘肃 兰州 730000)
1 引言
为更好地推进我国医疗卫生事业的发展和进步,国家卫健委在2015年通过了医院监管系统建设方案,其对于我国各个医院数据采集工具的使用做出了明确说明,要求对各项数据的应用必须要规范化、科学化和合理化。医疗数据统一上传,集中管理,可以帮助患者更加便捷地查询自身就医信息,医务工作人员对于患者的就医以及病史等也有了更加深入的了解和认识,其是医疗卫生事业进步的重要表现。但实际上,我国建设方案虽然出台已久,但是实际应用的质量效果却不尽如人意,医疗领域的信息化程度没有跟上互联网发展的步伐,尤其是在一些县镇医院,其实施效果比较差,这对于我国医疗卫生的进步实际上产生极为不利的影响。为此,本文尝试对医疗大数据中数据挖掘技术进行研究和分析,希望能够更好地发挥相关技术的作用优势,推进各项工作朝着更好的方向发展[1]。
2 数据挖掘技术概述
在当前的信息化背景下,科学技术、医疗服务领域产生的信息呈爆炸式增长,这些信息中的一些数据十分关键,具备较高的分析价值。将这些数据转化为容易被人们接受的图表,一方面可以方便医疗工作人员的日常工作,同时也可以推动医疗大数据挖掘的进步[2]。所谓的数据挖掘,主要是指从海量的信息中挖掘出具备价值的信息,涉及机器学习、人工智能、统计分析和模式分类等不同学科的知识[3]。一般情况下,数据挖掘主要分成如下3个阶段。
(1)数据准备。数据准备阶段需要剔除干扰数据,主要围绕数据的清理、集成和选择几方面展开工作。将数据挖掘的基础性数据形成一个数据库,然后再对其降噪,最后再从数据库中找到有用的信息;(2)发现规律。该阶段主要是指通过运用各种算法来分析数据库,并且发现有效信息,是整个数据挖掘中十分重要的环节,该环节主要是对最终的决策提供必要的支持;(3)表现规律。该阶段是在发现了数据的规律以后,利用可视化的工具将其展示出来,便于医疗人员的研判。
3 医疗大数据中的数据挖掘应用分析
为充分地发挥出数据的作用,需要对医疗大数据进行深度挖掘,并详细整理、分析看似杂乱的数据,找到其中蕴含的价值信息,从而方便临床护理、医学研究和疾病治疗等方面的研究。对于患者来说,也可通过全面分析医疗大数据的相关信息,使其享受到更加高效精准的服务,免去一些不必要的检查,避免医疗资源的浪费。医学领域的研究也可通过深度挖掘医疗大数据为疾病的诊断和药物的研发提供强大的支持,攻克很多过去无法解决的医学难题。纵观整个医疗领域,挖掘分析医疗大数据可在医疗成本评估和医疗质量管理两方面起到一定的作用。
在以上两方面的应用过程中,主要是通过对于医疗大数据信息进行深度挖掘来密切监测广大群众的健康状况,并从中分辨出一些疾病的高发人群,从而精准预测一些流行病或区域性疾病的发展走向,从而为公共卫生政策的制定提供一定的支持。数据挖掘技术是合理分析医疗大数据的关键,随着深度学习技术的不断进步,数据挖掘领域也得到了前所未有的发展,主要包括关联规则挖掘、异常挖掘等,这些算法是医疗数据应用的基础,同时在上述算法的基础上也衍生出了其他拓展算法,下面分别说明。
3.1 关联规则算法分析
关联规则发掘技术主要是通过分析不同实验,然后对其中有一定依赖或关联的信息进行收集和分析,在数据挖掘技术中属于关键性问题。关联规则挖掘这一研究方向一经提出,在国际上得到了学者的广泛关注,通过这些年的不断发展也推出了很多关联规则的挖掘算法,典型的有Apriori算法。该算法是关联规则挖掘算法中第一个被成熟应用的算法。在医疗行业的运行过程中,每天都会产生海量的数据信息,而这些信息之间看似杂乱无章,但实际的内在联系十分密切,通过关联规则挖掘算法的统计分析,可提取其中有关联的知识,从而对致病因素、疾病诊疗及公共卫生健康监测等工作提供一定的帮助。
例如,通过海量的电子病历信息,可以发掘心血管病死亡情况和传统危险元素之间的关联规则,然后通过分析这些数据,还可以总结出心血管病死亡和体重超标之间的内在关系。又如,通过Apriori算法分析大量的女性乳腺疾病方面的数据,可以建立乳腺癌和其他属性之间的关联规则。很多医学科研工作需要分析病因,如一些新出现的并发症是不是由另一种并发症诱发而来的,这就需要数据挖掘技术中的关联算法从大量的随机个例中找寻内在的关联。关联算法的优点主要在于在该算法下更容易识别内在的因果关系,如果在前后时间序列的互推中具有较高的置信度,则说明两者之间存在着较为强烈的因果关系,否则为单方面映射或无映射。
3.2 分类挖掘算法分析
分类挖掘分析可通过分类算法将数据库中的对象映射成某一个预设的类别,从而便于模型来计算和预测,进而实现对未知对象的类别归类。上文中所提到的序列数据库,主要是由一系列的数据对象构成,在这些数据对象中每一个单一对象都可以视为多种特性所构成的综合输入向量,且训练样本需要带有多种类别标记。
现如今,对于不同数据类别的应用场合,已经有多种多样的分类挖掘模型,较为常见的有机器学习、神经网络、专家系统等方法。分类挖掘分析结合医疗行业来看及应用主要包括如下两方面:首先,基于智能算法的疾病预测;其次,预测一些医疗事件。
在医疗服务中,大部分的疾病诊断都局限在经验性诊断上,但由于不同的病患存在着较大的个体差异,同时复合疾病也对经验性诊断带来了一定程度的限制。所以,在具体的诊断过程中,对于一些疑难杂症,医生很难凭借现有的经验给出十分精确的判断。但通过正确的搜集海量的诊断病例的信息,然后借助大数据分析工具,可以详细地分析所有病例中的综合症状,然后研究出疾病类型和病症之间的内在联系。在实际的临床诊断过程中,通过分析患者所提供的基础性信息,将其输入到诊断系统中,就可给出较为精确的确诊结论。国内目前有很多医学专家和机器学习算法科研人员都通过医疗大数据的分类挖掘分析逐步构建起以预防早期慢性病为目的的防控体系。在新冠肺炎疫情的防控过程中,腾讯公司也联合一些国内的医疗机构研发了一系列的智能诊断系统,减轻医疗人员的压力。
3.3 聚类算法分析
所谓的聚类分析主要是根据不同的规律按照个体属性来分成不同的类别,其目的主要是为了缩小同类别下不同个体之间的距离。许多领域目前都广泛应用了该技术,例如人工智能领域。聚类分析与分类学习相比,所分析的对象并没有类别的标记,而是通过算法来自动确定,但由于训练数据库中对象的不同,其本质上有类别标记。近年来,聚类分析逐步成为大数据挖掘领域中较为前沿和热门的研究领域,经过学者们不断分析研究,逐步开发了K均值聚类算法、BIRCH聚类算法等一系列的聚类分析模型,主要针对未知分布规律的数据展开挖掘,同时还可以挖掘具有代表性的事件集。
聚类分析算法被应用到医疗领域中的典型场景,主要有疾病的分布分析和医疗费用两方面。过去的临床科研研究对象一般以医院的患者为主体,通过分析临床指标和患者的基本变量展开研究。但一般情况下,性别和年龄存在差异的患者其医学特征也并不相同,所以还要根据性别和年龄对病患展开分组,在分组过程中采用人工划分的方法,例如以10年或5年为一个跨度,但这种分组难以客观地反映出研究对象的年龄分布规律。而采用聚类分析算法,可以更加科学合理地换位研究对象的年龄和性别,并且对于不同性别和年龄组别下的患者,临床指标也能展开深入的分析。
3.4 异常挖掘算法分析
数据库建设过程中可能会遇到这样或者那样的问题,研究对象难以真实反映情况的现象也并不少见,之所以如此是因为研究对象与数据库中的一般性样本并不匹配,这些数据样本通常被人们称作离群点。为了保证数据挖掘技术应用的质量与效果,通常情况下,这些离群点可能会事先被当作异常数据处理掉,但在实际应用过程中,可能会发现这些异常数据反而更具有特点,如果进一步深入挖掘,可以挖掘出更加多元化的信息。在异常挖掘过程中,科研人员必须弄清楚如下两方面的问题:(1)选择何种挖掘算法作为确定异常点的挖掘方法;(2)在数据库中何种特征的数据被划分为异常数据。目前,较为成熟的异常挖掘分析算法,主要有基于距离的算法、基于偏差的算法及基于统计的算法。
例如,国内的有些学者就借助心电图的历史数据实施异常挖掘,在挖掘过程中主要采用了时间序列数据,通过对数据进行挖掘,疾病诊断效果大幅度提升。同时,也可以针对医疗账单中的数据进行挖掘,找到可能存在的医保欺诈行为,该方法在控制医疗保险行业的欺诈行为中存在着十分明显的效果。但值得注意的是,上述数据挖掘分析方法,在整个医疗大数据的应用过程中相对比较理论化,在应用过程中还要结合具体情况不断调整使其适应医院的实际形势。
4 结语
综上所述,当前医疗大数据中的数据挖掘技术,对于我国医疗卫生事业的发展和进步有着较为积极促进作用,其可以为广大人民群众提供更好的治疗效果,可以使医疗工作更具有针对性。但是不可否认的是,当前医疗大数据中的数据挖掘技术在具体应用中,还存在多方面的不足,而要想更好地发挥相关技术的优势作用,就需要正视其存在的缺点和不足,然后采取针对性措施予以优化,以便更好地发挥大数据技术的作用与价值。