一种基于健康医疗大数据的智能治理系统
2023-06-21黄寿孟韩强冯淑娟
黄寿孟 韩强 冯淑娟
摘 要:目前健康医疗大数据可应用于全民健康管理、互联网医疗、民生卫生检测与疾病预警等领域,作为公共卫生健康事业的新资源,可优化民生健康事业,提高民生医疗质量。针对目前健康医疗大数据治理的问题,设计出满足用户需求的健康医疗智能数据治理系统,实现各个医疗机构的医疗数据互联互通,利用Spark平台实现大数据的高速处理以及采用Hive数据库存储,从而提升医疗大数据的可拓展性及高容错性,方便医疗数据分析工作,促进全民健康大数据管理的发展。
关键词:健康医疗;大数据;数据治理;智能治理
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)01-0014-05
An Intelligent Governance System Based on Healthcare Big Data
HUANG Shoumeng1,2, HAN Qiang4, FENG Shujuan1,3
(1.School of Information & Intelligence Engineering, University of Sanya, Sanya 572022, China; 2.Academician Guoliang Chen Team Innovation Center, University of Sanya, Sanya 572022, China; 3.Academician Chunming Rong Workstation, University of Sanya, Sanya 572022, China; 4.College of Information Science and Technology, Qiongtai Normal University, Haikou 571100, China)
Abstract: At present, healthcare big data can be applied to national health management, Internet medical treatment, people's health detection and disease early warning and other fields. As a new resource of public health, it can optimize people's health and improve the quality of people's medical care. Aiming at the current problems of health and medical big data governance, an intelligent health and medical data governance system is designed to meet the needs of users to realize the interconnection of medical data in various medical institutions. Spark platform is used to realize high-speed processing of big data, Hive database is used for storage. So as to improve the scalability and high fault tolerance of medical big data, facilitate medical data analysis, and promote the development of national health big data management.
Keywords: healthcare; big data; data governance; intelligent governance
0 引 言
大數据改变了人们生活,也引领了人们生活。对于医学领域的信息化增长,产生了健康医疗大数据,国家卫生健康委员会和地区卫生医疗机构正积极推动健康医疗大数据的汇集和应用试点,打造当地医疗健康大数据治理系统,为医学数据分析、民生医疗档案、疾病检测等方面提供数据基础[1]。因此对于健康医疗大数据的治理可提高医疗数据的利用价值,增强医疗资源分配管理能力,方便民生就诊体验,也提高当地医疗服务水平,降低医疗成本,同时治理后的数据可为健康保险行业、医药产业提供精准的投保及生产工作[2]。
1 相关研究
1.1 数据融合
数据融合是指采用现代技术手段对某些大数据进行科学处理、精确表述、精准服务,将多源数据之间的互补特点更全描述目标。数据融合(data fusion)最早被应用于军事领域[3],使原来由人工操作与分析处理的大部分功能改为由计算机数据处理系统快速、准确、有效地自动完成。目前数据融合应用广泛,比如医疗健康的多源影像复合[4]、无人机的多任务、多场景航迹规则、机器人的智能仪器系统、车联网的识别专家系统等领域[5-8]。数据融合在多信息源、多平台、多系统中影响极大,特别是多源异构大数据,它在数据分析过程中能起到协调作用,加以智能化合成处理,产生更精确可靠全面的估计和判断[9]。其实人类本身就有着卓越的数据融合能力,通过视觉、味觉、触觉、气味,人类可以对食物的喜好做出准确的判断:这个是我爱吃的,那个我不喜欢吃。但如果仅凭一种感觉,我们则无法对食物的喜好做出这样的判断[10]。同样地,在军事上,我们希望在比如空对空防御和地对空防御中,综合地基和飞机电磁信号数据做出更准确的预警;在非军事领域,比如医疗领域,我们希望通过X射线、核磁共振、目视检查等多种数据进行综合处理来做出更准确地疾病诊断。
1.2 健康医疗大数据
近日,国家卫健委公开大力发展“互联网+医疗健康”的便民活动。健康医疗的主题活动也深入各大社区、医院、医疗机构等活动场所,与此同时也产生出健康医疗信息化管理平台系统,这些系统中的大数据通常包含以下内容:以健康检查服务为主的各种健康数据、以医疗保险服务为主的各种保险数据、以药品治疗服务为主的各种医药数据、以病症监管服务为主的各种公共卫生数据、以患者治理服务为主的各种行为与情绪数据、以医疗生育服务为主的各种统计数据、以家庭婚姻服务为主的各种人口管理数据、以健康生活相关的各种环境数据。
未来健康医疗信息化技术人员通过采集与处理这些大数据,将实现真正精准医疗和“治未病”理念。目前健康医疗大数据已经应用于数据驱动型临床和手术决策、支持精准医疗以及降低护理成本等方面。比如亚马逊云科技可以为医疗健康与生命科学客户提供成熟且方便易用的云服务,可帮助企业加快创新速度、发挥健康数据的潜力、开发更个性化的治疗和探索护理方法。
1.3 国内外研究现状
欧美国家最先建设了医疗数据库,处于实现精确诊治的领先地位。2007年美国建立了医疗电子信息化监测系统,实现医疗数据资源整合,构建医疗健康大数据库;英国收集全民医学信息完成国家医疗服务系统;丹麦、日本等国也正完善健康医疗大数据平台[11-15];欧盟各国的医疗公司也参与共享战略卫生信息化网络工程的医疗信息。
而我国医疗大数据起步有点慢,医疗信息化系统还在探索阶段。江苏、福建正收集各地大医院就诊数据,南京完成了本市医疗数据中心的建设;2018年上海成立了醫院共享数据中心,可为500家医院共享数据。本文结合健康医疗大数据的特点,充分利用数据融合技术,设计出多源异构医疗数据的健康医疗智能数据治理系统,发挥健康医疗数据的价值,监控民生健康质量,打通医疗机构数据共享瓶颈。
2 系统设计
2.1 需求分析
通过调研了解海南省S市10多家医疗机构的1 200多万条健康医疗大数据,分析这些数据的多样多源异构,整合汇总到同一个数据库中,进行数据治理工作的前期准备,建立统一的数据存储模式,转换错误的数据,准备数据源用例表,如表1所示,进行数据源配置处理。
另外为了实现数据共享,需要对多源医疗数据进行数据融合,打破各医疗机构的业务信息壁垒,实现健康信息互通,图1为医疗数据融合用例图。
2.2 系统架构设计
根据系统的功能需求分析,设计出智能治理系统的整体架构,如图2所示,最底层是数据源,接着对数据源的各种异构数据统一编码匹配后存储于Hive数据库,中间层为数据处理阶段,采用Spark平台进行数据集成、数据质量管理、数据融合等方面的优化处理,最后是用户应用层,属于系统管理的应用界面。
2.3 详细设计
医疗智能治理系统首先在数据融合前进行数据集成,即按照统一编码匹配各种异构数据优化为标准的数据结构存储到Hive数据库,为下阶段的数据融合处理做准备工作,数据集成的具体工作如图3所示,从中可见从数据源开始检查配置信息,完成数据抽取工作,方便记录日志、查看任务的进度。
数据融合处理是本系统的核心功能之一,它通过患者ID索引患者医疗信息,但不同医疗机构ID的信息不统一,因此本系统设计了一种采用机器学习的规则匹配算法,它首先对源数据进行预处理,接着通过匹配算法的处理数据归入索引表,匹配不成功可再进行人工审核,详细流程如图4所示。
3 系统实现
上节对系统需求、功能设计、详细设计等内容进行了说明,接下来就是系统的实现展示,本系统的功能架构如图5所示。因系统设计功能模块较多,每个模块的子功能内容较复杂,使用代码编程较烦琐,因此本文只展示其中关键部分。
3.1 医疗数据集成
由于医疗大数据的特殊性,需要解决不同医疗机构的数据源类型,本系统支持的数据源类型有HDFS、HBase、Hive、SQL Server、MySQL、Kudu、0racle、FTP、Teradata、DB2、SFTP。本系统存储的数据仓库为Hive数据仓库。数据集成功能主要完成数据源的增、删、改、查等准备工作,还有医疗数据源特有配置信息在配置成功后还要进行数据抽取和集成信息的连接测试。其中配置信息包括电话相似度、姓名相似度、出生日期相似度、籍贯相似度、职业相似度、民族相似度、性别相似度、地址相似度,每项信息的相似度代码表示方法:值为“1”则代表一致,“0”为不一致,缺失值为“0.5”。完成此项工作后将进行机器学习算法——随机森林算法的模型训练。
3.2 医疗数据融合
数据融合方法有基于贝叶斯理论的融合模型,比如卡尔曼滤波模型、马尔科夫模型等,也有基于知识理论的融合模型,而这些融合方法也有一些缺点,要么对噪声数据敏感,要么对高维度数据处理不当,要么对缺失数据处理较难。目前许多基于机器学习的数据融合模型,本系统设计出一种基于深度学习随机森林算法的数据融合方法,构建唯一患者主索引ID进行关联数据融合,加速模型训练及优化,解决不同医院的数据源问题。将数据融合处理后统一储存在Hive数据仓库中,解决多源异构数据的集成融合,当模型的训练值达到需求分析设计时的标准时,还要进行审核匹配处理,具体处理过程如图4所示。若数据有缺失项、重复值、错误值、空值等问题时,系统将有相应验证审核功能模块来处理,产生监控数据的日志报告或数据质量报告,从而提高健康医疗智能治理的数据质量。
3.3 系统管理界面
本文所设计出的智能治理系统管理界面如图6所示,本系统管理界面有相应的功能管理模块:医疗数据集成、医疗数据融合、医疗数据可视化、数据质量管理、日志管理、用户管理,其中日志管理是数据处理各阶段产生的日志报告表,如数据源日志表、数据集成日志表、数据审核日志表、数据质量日志表等。
3.4 系统测试
为了更好地验证本系统的可用性、稳定性、安全可靠性等性能,我们进行一系列的测试,具体情况为:
(1)测试环境。2台Hadoop服务器(内存:512 GB,CPU:48 Core,资源占有率:35%,数据库:Hive,操作系统:Linux);2台客户机(内存:32 GB,硬盘:1 TB,操作系统:Win 10,浏览器:火狐)。
(2)测试数据。收集10所医院的真实数据,共有11 243 584条数据,内含身份证号码3 256 139个。
(3)测试内容。数据源的连接情况、患者配置信息表、数据集成抽取情况、数据融合索引表、数据审核情况、数据可视化、用户日志报告情况、系统性能测试等功能范围,具体测试用例情况如表2所示。
4 结 论
本文针对当前健康医疗大数据的智能治理特性,设计出一种随机森林算法的数据融合方法,实现医疗大数据的特殊特征工程,解决多源异构数据的集成融合,提高信息匹配的效率,实现医疗数据质量管理的多个区域数据治理项目。总体而言,本系统对医疗数据进行治理有一定的价值,也有一定的应用场景,希望以后添加更多功能模块,挖掘健康医疗大数据的背后价值,更好发挥数据智能治理的作用。
参考文献:
[1] 张行.健康医疗智能数据治理系统设计与实现 [D].济南:山东大学,2021.
[2] 舒影岚,陈艳萍,吉臻宇,等.健康医疗大数据研究进展 [J].中国医学装备,2019,16(1):143-147.
[3] 閆宣辰,姚进文,陈耀龙.甘肃省健康医疗大数据治理的实践与探索 [J].甘肃医药,2020,39(11):1026-1030.
[4] 王觅也,郑涛,李楠,等.医疗大数据集成及应用平台体系构建 [J].医学信息学杂志,2019,40(8):37-42.
[5] 冯淑娟,黄寿孟.跨源多维政务数据治理综述 [J].网络安全和信息化,2021(11):76-79.
[6] 黄寿孟,夏王霞.基于LBSN中锚链接方法的链路预测模型 [J].海南热带海洋学院学报,2021,28(5):72-77.
[7] 黄寿孟,夏王霞.一种基于LSH技术的链路预测方法 [J].信息记录材料,2021,22(7):139-142.
[8] 黄寿孟.一种基于监督学习的异构网链路预测模型 [J].计算机科学,2021,48(S2):111-116.
[9] OLNES S. Beyond Bitcoin Enabling Smart Government Using Blockchain Technology [EB/OL].[2022-08-02].https://www.docin.com/p-1843278025.html.
[10] ELISA N,YANG L Z,CHAO F,et al. A framework of blockchain-based secure and privacy-preserving E-government system [J].Wireless Networks,2018:1-11.
[11] RASHIDEH W. Blockchain technology framework:Curent and future perspectives for the tourism industry [J].Tourism Management,2020,80[2022-08-02].https://www.sciencedirect.com/science/article/abs/pii/S0261517720300510?via%3Dihub.
[12] ACQUAH M A,CHEN N,PAN J S,et al. Securing Fingerprint Template Using Blockchain and Distributed Storage System [J].Symmetry,2020,12(6):951.
[13] MORABITO V. Big data and analytics:Strategic and Organizational Impacts [M].[S.I.]:Springer,1980.
[14] KIM H Y,CHO J S. Data Governance Framework for Big data Implementation with a Case of Korea [C]//2017 IEEE International Congress on Big Data(BigData Congress).Honolulu:IEEE,2017:384-391.
[15] FAN W F,GEERTS F. Foundations of data quality management:synthesis lectures on data management [EB/OL].[2022-08-04].http://www.morganclaypool.com/doi/abs/10.2200/S00439ED1V01Y201207DTM030?journalCode=dtm.
作者简介:黄寿孟(1975—),男,汉族,广东湛江人,副教授,硕士,研究方向:信息技术、现代教育技术研究;通讯作者:韩强(1982—),男,汉族,海南海口人,讲师,硕士,研究方向:软件应用、数据安全、人工智能。
收稿日期:2022-08-26
基金项目:海南省哲学社会科学2021年规划课题(HNSK(ZC)21-109);海南省自然科学基金项目(622RC735);三亚学院重大专项课题(USY22XK-04)