基于人工智能的医疗数据分析及预测研究
2018-02-16曾一昕
曾一昕
摘 要:随着计算机科学技术的发展,人工智能正在成为各个领域的核心技术,并分别得到了广泛的应用。其中,智能医疗在近年来蓬勃发展,成为人工智能的一个重要应用方向。基于此, 本文以人工智能医疗为例,阐述了人工智能和机器学习的背景,提出了若干人工智能在医疗领域的潜在应用。与此同时,本文还基于结构化查询语言对医疗大数据进行了定量分析,进一步采用向量机算法探究了控制参数如惩罚系数,核函数,批尺寸等对训练模型效率的影响,其结论对于智能医疗相关的应用算法具有参考意义。
关键词:人工智能;医疗;机器学习;大数据;应用算法
中图分类号:TP18 文献标识码:A 文章编号:1671-2064(2018)22-0028-02
1 引言
追求健康始终是人类社会最长久不衰的议题之一,因此医疗行业的每一次发展与突破都对社会产生着深刻的变革。在21世纪信息化时代的新背景下,随着机器学习和深度学习等人工智能技术(Artificial Intelligence,AI)的大获成功,深入开发和研究AI的浪潮席卷全球,人工智能在各个领域都得到了广泛的应用。
人工智能在医疗领域的应用具有划时代意义,是越来越多的数据科学家和临床医生进行诊断、治疗等研究的热点。对此,许多学者对智能医疗给出了自己独到的见解。周雪芹等人在2015年就发表了报告,对国内外大数据发展的现状进行了深入的讨论,分析了大医学数据的具体来源和应用前景[1]。李兰娟等人2017年发文详细阐述了智能医疗对个人,健康产业及国家政策的意义,指出了智能医疗发展所面临的挑战和智能医疗发展的一些参考思路[2]。最近,赵飞等人总结概述了目前我国人工智能在医疗领域的相关研究,并结合了我国国情,提出与我国人工智能有关的发展建议[3]。如何利用人工智能手段及大数据分析,基于繁复冗杂的海量信息对疾病进行有效的分析与预测,已成为计算机科学领域关注的焦点之一,同时也是迫切需要突破和解决的难点之一。
基于此,本文以医疗数据为研究对象,基于人工智能相关的软件技术对某医院的共计10000例档案进行了的筛选分析,并通过机器学习对其进行了预测,对不同函数模型下的准确率、召回率及运行速度的影响进行了比较和讨论,最后给出了全文总结。
2 人工智能的背景及医疗应用
2.1 人工智能与机器学习
人工智能是指机器产生的智能,在计算机领域是指,根据对环境的感知,做出合理的行动,并获得最大收益的计算机程序。自1956年达特茅斯会议,时至今日,历经三起三落,人工智能的发展已经走过62个年头。2016年,AlphaGo以4:1的比分击败韩国顶尖职业棋手李世石,人工智能一夜间大放异彩,成为当下的焦点。21世纪以来,缘于计算机技术和大数据的迅速发展,以深度学习(Deep Learning)等算法为内核的驱动的新一代人工智能出现了井喷期,弱人工智能在其各领域,如无人驾驶,图像识别,自然语言处理,金融管理,电子商务,搜索引擎,教育辅导,智能医疗等方面得到了广泛的应用。
深度学习是机器学习的一个分支,而机器学习最基本的做法,是使用算法来解析数据,从中学习,然后对真实世界中的事件做出决策和预测。与解决特定任务的传统硬编码程序不同,机器学习使用大量的数据来训练和学习如何通过各种算法从数据中完成任务。在人工智能的早期,神经网络已经存在,但它需要大量的运算。得益于21世纪计算机能力的迅速提高,人工神经网络算法的实现成为了可能。机器学习主要包括以下三个步骤:人工输入训练集,计算机学习算法,输出结果,如图1所示。首先由人工采集数十万甚至上百万的大量数据,并对数据进行加工和整理成为训练集(training set),再通过算法例如决策树学习、推导逻辑规划、聚类强化学习、贝叶斯网络、支持向量机、人工神经网络和深度学习等训练计算机,最后输出结果。
如图2所示,机器学习可分为以下四种算法类别:
(1)监督学习:监督学习是指将训练集中需要程序去学习的特征数据人为标注出来,相当于事先给机算机要学习的数据进行了分类,让计算机去学习。(2)非监督学习:非监督学习和监督学习之间的区别是非监督学习不标记数据。(3)强化学习:强化学习是通过人为设定规则让计算机与环境之间进行互动,告诉计算机哪些行为是负面的,哪些行为是正面的,让计算机得出最优的方案。(4)迁移学习:顾名思义,由于许多模型之间存在相关性,可以将学习好的模型参数迁移到新的模型中来帮助新模型進行训练,而不用像前几种算法那样从零开始学习,提高了算法的学习效率。
2.2 机器学习在医疗领域中的应用
机器学习在医疗领域有非常广泛重要的应用。如智能影像识别,药物研发,智能诊疗等。智能影像识别可以大大降低人工操作所产生的失误,检索影像中人工不易察觉的极其细微的生理变化,在疾病早期及时发现,利于后期的治疗。智能药物研发通过大数据分析等技术手段快速准确的挖掘和选出合适的化合物,自动进行数学模型构建,分析出新型化合物具有的化学性质和生理学性质,缩短新型药物研究周期,促进更多安全,有效,价廉,的新型药物上市。通过大数据筛选出理想临床实验候选者,缩短实验周期。智能诊疗将人工智能技术用于智能辅助诊疗中结合每个病人的家族病史,日常习惯,甚至是基因序列,为每一个病人定制个性化用药方案结合可穿戴设备,实时监测高危人群的各项生理指标,在异常情况出现时,及时告知患者家属和医生。通过人工智能优化看病流程,患者在网上预约,算法兼顾当日的人流量,患者情况的紧急程度,医生的擅长领域等其他环境因素,自动适配最合理的时间段和最合适的医生,提高医院的看病效率。
3 人工智能的医疗数据分析及预测
3.1 基于结构化查询语言(Structured Query Language,SQL)的数据分析
本文接下来以某医院近年来的病例数据为基础,采用结构化查询语言(SQL),对该庞大的数据库进行信息提取和分析。结构化查询语言(SQL)是指访问和处理系统的计算机语言,使我们有能力访问关系数据库;SQL语句用于取回和更新数据库中的数据,配合数据库软件共同工作。
基于SQL语句进行的统计,本文涉及的数据表中总共包含10000个档案,其中男性为4996例,女性为5004例,如图3左图饼状分布所示;年龄在20到60岁之间和其他年龄段的人群数分别为5790和4210。
本文還对该数据表中受教育程度的人群进行了数据统计,统计结果如图3右图所示。其中,初中学历2502人,小学学历4863人,本科学历356人,高中学历916人,未填写学历的1363人。
3.2 基于机器学习的预测分析
向量机算法是几种常见机器学习算法之一,是从线性可分的情况下的最优分类面发展而来,把低维为线性不可分的数据,通过核函数映射到高维空间。本文接下来将探究支持向量机算法中,通过调整惩罚系数(C),核函数(Kernel),批尺寸(BatchSize)这三个参数对准确率(Precision),召回率(Recall)及运行速度(Time)的影响。通过训练模型预测患者信息,比较算法速度和效果如表1所示。
由表1可得如下结论:(1)控制其他参数不变,改变核函数类型(Kernel)发现,RBFKernel函数模型使准确率和召回率极不均衡,该模型基本没有实际价值;对于polykernel和Puk函数而言,polykernel对准确率和召回率的影响更出色,且运行时间更短,具有更大的实验价值。(2)控制其他参数不变,改变惩罚系数对比可知,惩罚系数等于10时运行时间最短。(3)控制其他参数不变,改变批尺寸可知,三组实验差异不大,可能是样本量不大效果不明显所致。
4 结语
综合上述,本文对人工智能医疗的相关的背景及研究概况进行了总结,阐述了机器学习在医疗领域中潜在应用,并基于机器学习的向量机算法,通过调整惩罚系数(C),核函数(Kernel),批尺寸(BatchSize)这三个参数讨论分析了相应预测效率,其结论对于智能医疗应用的算法具有一定的参考价值。新兴的人工智能技术无疑将给医疗领域带来全新而深刻的变革,为人们提供更高质量的生活,创造更美好的明天。
参考文献
[1]周雪晴,罗亚玲.信息化建设中医疗大数据现状[J].中华医学图书情报杂志,2015,(11):48-51.
[2]李兰娟.智能医疗的进展与前景[J].中国科技产业,2017,(1):66-67.
[3]赵飞,兰蓝,曹战强,孙昊,尹新,金征宇.我国人工智能在健康医疗领域应用发展现状研究[J].中国卫生信息管理杂志,2018,15(03):344-349.