基于多源数据的突发公共卫生事件医疗服务知识库研究
2022-11-28王成文
王成文 熊 励
(上海大学管理学院,上海 200444)
突发公共卫生事件医疗资源是事件处置中的关键资源,有效的医疗资源管理对医疗决策至关紧要。以新冠肺炎疫情为例,疫情防控中涉及感染预防与控制、医学筛查、诊疗等大量医疗活动,这些活动需要消耗多种多样的医疗资源,统计协调相关资源数据,提取有价值的决策信息存在较多困难。由于不同主体产生和采集的多源数据存在数据冗余、数据缺失和不一致等问题[1],使得数据无法满足决策需求,最终影响医疗决策效率。此外,针对突发事件的应急医疗资源优化配置模型专业性强,较难迁移到其他场景,在遇到类似事件时仍需重复大量工作,重复构建模型,面向突发事件医疗资源有效管理与利用的智能方案仍需拓展。
医疗健康对经验和知识依赖性强,相关解决方案需要领域知识的支撑[2-3]。多源数据中存在大量共性知识,基于共性知识的提取,形成概念框架,一旦遇到类似问题,即可重用框架,及时实例化具体对象,并结合具体场景优化知识推理规则,实现当前问题中对象的管理、潜在关系的挖掘和决策方案的生成,为突发事件提供决策支持。同时,在新问题的扩充下,领域知识被持续丰富和优化,进而驱动高效决策,促进决策系统之间的互操作和知识共享。以多源数据和知识驱动医疗服务管理智能化符合当前疫情多点散发的医疗决策需求,能够促进快速应急响应,提升决策效率。
在本次新冠肺炎疫情事件中,防疫部门、医学专家和医务工作者通过大量实践,在病例筛查、诊疗等医疗活动中积累了丰富经验,形成了一系列方案和指南。将相关经验转换为形式化、可共享的医疗知识和推理规则,有助于促进医疗知识的充分利用,进而为医疗资源的管理与协调提供依据。
对突发公共卫生事件医疗服务进行有效管理和协调是提升整体医疗救治能力的重要一环。本文基于多源数据,以知识为驱动,从服务管理和资源分配角度探究突发公共卫生事件医疗服务知识库构建策略,为实现决策系统之间的互操作和知识共享、促进高效医疗决策提供可借鉴方案。
1 相关研究
海量的多源异构数据增加了突发公共卫生事件医疗资源管理与协调难度[4],如何基于事件形势进行医疗资源的统筹管理和有效配置显得尤为迫切[5]。医疗健康对知识和经验依赖性强[2],知识服务是提升我国医疗资源利用率和医疗服务机构管理决策水平的重要手段[3]。基于多源数据提炼并整合医疗服务知识对提升突发公共卫生事件医疗决策效率具有重要意义。
1.1 知识驱动的医疗服务管理
医疗信息化的加速推进产生了大量医疗数据,这些数据蕴含的丰富医疗知识为医疗决策和医疗信息服务提供了丰富的知识元素[6]。在新一代信息技术驱动诊疗模式变革的背景下,亟需进行多源异构医疗数据资源的整合与利用,以推动医疗服务的智慧化和服务创新[7],赋能更有效的医疗决策[8]。本体尤其适用于医疗数据和知识的集成与利用,驱动智能医疗服务方案,促进对医疗健康服务的有效管理[9],因此成为医疗服务知识组织的关键方法。相关研究主要以本体为实现方法和载体构建医疗知识模型,对医疗服务进行知识表示,以支持医疗服务分析和决策。
医疗知识服务方面,高血压医疗知识服务模型[10]、面向个人的中医药健康知识库[11]、面向在线咨询服务的医生推荐模型[12]、慢病知识服务模型[13-15]主要通过本体融合及复用多源医疗数据和知识,基于医疗数据、信息的知识化,为用户提供个性化的医疗健康知识资源,这些研究主要侧重于基于本体实现医疗数据知识化,将提供医疗知识作为服务元素。医疗服务管理方面,本体为面向临床路径的医疗规划[16]、智能医疗服务语义描述[17]、健康监测与远程医疗服务管理[18]提供了关键支撑,这些成果为突发公共卫生事件医疗服务知识组织和基于医疗知识的服务管理提供了参考和借鉴。
突发事件场景下,应急医疗服务资源管理体现在资源的部署和利用方面,而医疗服务的优化配置是提高医疗效率、缓解医疗资源被挤兑的重要环节[19]。曾庆田等运用应急资源本体匹配突发事件和应急医疗、救援等资源[20],为应急资源高效部署提供了方案参考。医疗本体知识推理也被用于救援服务资源的调配方案中[21],实现快速应急响应。相关研究主要围绕医疗资源构建知识模型,通过推理为应急事件匹配医疗资源。这些研究仅仅围绕具体事件,没有考虑为类似事件提供可复用的服务知识架构,也没有系统区分参与医疗服务的多元主体,以及从服务角度区分多种医疗资源和资源的供需关系。
突发公共卫生事件医疗服务资源管理方面,COVID-19物资知识图谱主要面向多种物资的分类和检索[22],并未从服务视角研究医疗资源的管理与决策问题。通过文献梳理发现,基于多源数据,以知识为驱动进行突发公共卫生事件医疗服务管理的研究仍然欠缺。
1.2 突发公共卫生事件医疗服务知识库构建
以新冠肺炎疫情为代表的突发公共卫生事件是一类突然暴发、传播速度快、破坏力极强的事件,其防控与医疗救治难度大,有赖于通过多源医疗数据和信息的集成与共享,促进协同防治和智慧诊疗,进而提升防控能力和医疗救治效率[23]。但针对突发公共卫生事件医疗服务知识组织与利用的研究较为欠缺,相关研究主要侧重于突发公共卫生事件知识组织和常规医疗知识库构建两个方面。
突发公共卫生事件知识组织方面,徐健等基于现有的应急知识库,从事件整体角度提出了突发公共卫生事件知识库的5个模块[24]。基于疫情时序数据、开放知识图谱、医疗机构信息的疫情知识库实现了多源数据的整合和知识表示[25],但未突出医疗服务这一重要模块。宋培彦等借助语义相似度融合医疗相关本体,形成整合的专业知识[26],该策略融合了疫苗、症状、疾病等知识,但没有从服务角度研究各类医疗资源的管理与决策问题。
常规医疗服务知识库构建方面,面向医疗服务集成的智能医疗系统[18]、新冠肺炎检测方案知识库[27]、医疗设施与生物材料本体[28]等基于本体实现医疗服务资源的知识表示,提升了医疗资源描述的一致性,便于实现医疗服务知识的对比分析和集成,同时也为面向服务的医疗资源管理提供了参考。
医疗知识库构建策略方面,由于大量医疗数据来源于非结构化的文本,基于文本的医疗知识库构建策略成为研究热点。相关研究主要通过整合自然语言处理、文本挖掘、机器学习等方法实现概念与关系的提取,然后基于本体实现领域知识库。具体上,基于TF-IDF的症状术语识别[29]、基于图卷积网络的实体对齐[21]、结合语义相似度和概念匹配的多本体融合[26]、基于自然语言处理和文本分析的多源数据集成[25]主要采用整合的人工智能方法为医疗知识库构建准备数据和知识,其中,词袋模型、TF-IDF、文本聚类的组合策略常被用于术语提取、文本主题发现和术语分类[30],为基于文本的医疗本体知识库构建提供了方案支撑。在具体的本体知识库实现方法方面,文献[25]明确阐述了其结合本体编辑与检索工具RDFlib和owlready2的本体自动化填充策略,这一策略极大地提高了本体构建效率,为大规模本体构建提供了启示。
综上所述,相关研究主要采用本体进行医疗数据的知识表示与知识融合,形成面向特定医疗服务的知识库。在近年来突发公共卫生事件频发的背景下,大量医疗资源的管理与协调成为一个突出问题,但海量的多源异构数据增加了高效医疗资源管理与决策的难度,相关研究较少以多源数据和知识为突破口,探究知识驱动的突发公共卫生事件医疗资源管理策略。
在制造服务资源领域,制造服务资源管理[31]、基于异构信息的资源分配[32]、资源数据知识化与任务分发[33]、制造资源响应[34]等通过本体知识库驱动灵活的制造任务,提升了制造系统的性能,为医疗服务资源的知识建模提供了大量参考方案。本文借鉴基于本体的制造服务框架,从服务视角提取多源数据中的共性知识,以知识驱动突发公共卫生事件医疗服务管理,进而促进高效的医疗服务决策。文章结合当前疫情防控形势,采用基于词向量的聚类和相似度方法,从官方新闻发布会、疫情防控指南、风险区域地理数据、在线本体知识库等多源数据中提炼医疗服务知识体系,提出突发公共卫生事件医疗服务架构,并整合本体自动化策略构建知识库,为类似事件实现医疗资源管理和快速分配提供可复用的知识框架。
2 突发公共卫生事件医疗服务概念模型
知识库的核心在于概念及概念之间的关系,即为知识表示奠定基础的概念模型。根据知识库构建的基本思路[35],概念模型是从多源数据到形式化的知识体系的重要衔接部分,由概念和关系组成,是对现实世界中事物的抽象。基于当前疫情应急医疗服务情景和产生的大量数据,本文从多源异构数据中提取相关概念,从服务角度建模医疗资源,形成知识库的基本概念框架。
2.1 医疗服务概念提取策略
围绕新冠肺炎疫情防控,各地在实践中积累了大量经验,基于这些经验和历史上的类似事件知识,国家卫生健康委员会和相关机构出台了一系列应对指南和方案等规范性文件,这些文件涉及突发公共卫生事件医疗措施的保障与组织形式。以相关文件为依据,各地的疫情防控工作得以顺利推进。在疫情防控过程中,各地通过新闻发布会通报其疫情处置措施,说明该地在疫情处置中的医疗资源管理与利用过程。同时,生物医学领域存在大量医疗相关本体知识库,一些本体具备完备的知识体系而被大量研究和应用认可并借鉴。这些多源数据的整合为突发公共卫生事件医疗服务知识库的构建提供了丰富的知识元素。医疗服务建模中的基本概念主要从上述多源数据中提取,以保证知识库涉及概念的质量和共识性。
为了从多源数据中提取突发公共卫生事件医疗服务相关概念及概念间的关系,完成概念建模,本文采集了自2022年1月以来受新冠肺炎变异毒株奥密克戎影响较大的上海市、吉林省、北京市等地针对疫情防控工作的130余场新闻发布会的文本记录数据,如表1所示,将其构建为语料库,采用Word2vec对语料库进行词向量训练,通过余弦相似度提取医疗相关词,并结合K-means聚类算法获取各地疫情处置内容的主题,为概念分类提供基本依据。医疗服务概念提取策略如图1所示。
图1 医疗服务概念提取策略
表1 本文采集的2022年疫情新闻发布会文本数据
表1中,根据新冠肺炎疫情形势,2022年以来国家和地方的卫生健康委员会分别召开了一系列新闻发布会,本文结合各地不同时间段的疫情严重程度,选取与疫情处置相关的发布会,提取文本数据作为语料库。相关数据覆盖了2022年以来的疫情重灾区和对应的时间区间,具有较强的代表性。
具体上,医疗服务概念体系涉及疫情新闻发布会文本数据和在线本体知识库两类异构数据,涉及的3个环节由图1中3种不同背景样式区分,官方指南作为参考。首先,发布会文本数据被预处理为语料库,并经Word2vec提取医疗相关词集。K-means算法被用于对词向量进行聚类,以获取不同的防疫主题及对应词汇集。由于聚类中存在大量与医疗无关的词,因此,相关词集被用来对聚类中的无关词进行过滤,采用的过滤策略为编辑距离相似度,超过相似度阈值的词被保留。其次,为了准确确定各聚类词之间的相互关系,并实现对现有知识库中概念的重用,本文以聚类词为关键词,调用微软机器翻译API实现关键词的自动翻译,运用本体知识检索与编辑工具Owlready2对相关本体中的概念进行检索,然后采用标签模糊匹配获取相近的概念和概念的层次关系,由此确定医疗服务的概念集。
在突发公共卫生事件领域,存在大量成熟的生物医学本体,这些本体知识库中的大量概念被后续的研究与应用反复借鉴和重用,同时也为医疗服务概念建模和知识库构建提供了大量的知识元素。
2.2 医疗服务概念模型构建
针对新闻发布会的文本数据,本文首先运用自然语言处理工具Jieba进行文本分词和去除停用词等预处理,构建语料库,然后运用Word2vec训练模型,获取全部词语的词向量,通过计算词向量的余弦相似度获取词语之间的相似度。以“医疗”为主题词,本文提取了与其最相关的500个词语,形成相关词集。在此基础上,K-means聚类算法被用来对模型训练好的词向量进行聚类,获取反映不同主题的词汇集合。在聚类过程中,常用的肘点法和伦敦系数法被用来确定聚类数K的最佳值。针对聚类结果,编辑距离相似度算法被用来剔除聚类中的无关词,以保证聚类的准确性。肘点法和伦敦系数法获得的误差平方和及伦敦系数随K值变化的折线图如图2所示。
肘点法和伦敦系数法确定的聚类数均为4,说明语料应被聚类为4簇。获取的去除无关词后的聚类结果如图3所示。
图3 聚类结果
在图3的4个聚类中,聚类1突出的是对病例的医疗救治,基于定点医院和方舱医院等医疗组织,在诊疗方案的指导下,结合中医药优势实施分类治疗。聚类2反映的是感染控制,包括对无症状感染者、密切接触者等群体的隔离,以有效切断传播链条。聚类3反映的主题是医学筛查,通过核酸检测、抗原检测等形式加强对风险区域的筛查力度,促进对感染者的早发现、早报告、早诊断、早隔离、早治疗。聚类4的主题是感染预防,主要采样疫苗接种实现重点人群的病毒感染预防和死亡率的控制。4个聚类为疫情医疗服务概念模型的构建提供了关键线索。根据聚类结果,能够作为医疗服务概念的相关词语如表2所示。
表2 用于概念建模的聚类词
聚类主题呈现出新冠肺炎传染病医疗过程的4个环节,与这4个环节相关联的是各种医疗资源和医疗服务提供者、服务接受者等对象。这些概念是从大量的新冠疫情突发公共卫生事件处置方案中提取,是具体事件的共性体现,能够作为突发公共卫生事件医疗服务的概念元素。在被广泛采用的基本形式本体(Basic Formal Ontology,BFO)知识框架下[36],具有动作和变化状态的概念被作为一个过程(Process)[37],这为医疗服务概念建模提供了依据。
为了获取相关概念之间的层次关系,并实现概念复用,本文以外部知识为参考,通过在线本体资源平台Ontobee(https://www.ontobee.org/)确定参考范围,最终冠状病毒传染病本体(Coronavirus Infectious Disease Ontology,CIDO)、通用医学本体(Ontology for General Medical Science,OGMS)和语义科学集成本体(Semanticscience Integrated Ontology,SIO)被作为源本体,以支持概念关系的提取。3种本体知识库的基本信息如表3所示。
表3 本文3种源本体的基本信息
表3展示的3种源本体中,CIDO覆盖了各种冠状病毒传染病病因、传播、诊断、治疗等基本概念。OGMS包含从疾病与诊疗相关文献中提取的常规疾病概念和疾病相关的过程性概念,规模较小。SIO为物理、过程和信息实体的一致知识表示提供了一个简单、集成的上层知识体系,其包含的词汇表通用性较强。这3种本体知识库都从过程(Process)角度定义了医疗活动的部分概念,且均能通过Owlready2被在线检索。
基于Owlready2的概念匹配通过在线本体检索实现本体概念标签的模糊匹配,共获取30个相关概念。在标签匹配过程中,基于Owlready2的模糊匹配策略实现过程见算法1。
算法1:基于Owlready2的概念匹配Input: ontologyIRI,keywordOutput:concepts1: concepts=[]2: onto=get_ontology(ontologyIRI).load()3: T=onto.search(label=“∗”+keyword+“∗”)4: if T!=[]then5: concept=[]6: for object in T do7: term=object.label.first()8: superclass=object.is_a.first()9: father=superclass.label.first()10: concept=[object,term,father]11: concepts.append(concept)12: endfor13: endif14: return concepts
结合本文医疗服务主题的需要,概念被进一步筛选,最终表4中的概念被重用于本文的知识库中,形成相对完善的知识体系。算法1不仅提取了相关概念,也获取了其层级关系,部分概念的层次关系被直接复用(如medical intervention和medical procedure),不能直接复用的通过人工检索其更上一层概念,找到多个概念的公共父类,然后将这几个概念作为同一层次的概念,如(assay、treatment和vaccination)。本文主要选取用于描述医疗过程的概念来界定突发公共卫生事件中的医疗过程和医疗服务,剩下描述医疗报告、病史等名词性概念会应用到后续针对个案病例的研究中。
表4 复用于突发公共卫生事件医疗服务概念模型的概念
在表4确定的概念及其层次关系的基础上,本文参考新冠肺炎诊疗方案、疫情防控方案和核酸检测实施指南等官方文件,根据“疫情处置(服务需求)——医疗活动(医疗过程)——具体措施(医疗服务提供)”的逻辑关系,设计基本的概念横向关系,融合被复用的本体概念和聚类词集,最终形成的突发公共卫生事件医疗服务基本概念模型如图4所示。通过最终对比,概念模型主要复用了源本体SIO、CIDO的部分概念,同时,从疫苗本体(Vaccine Ontology,VO)和microRNA Target本体(Ontology for MIRNA Target,OMIT)复用了“感染预防”“感染控制”两个概念。
概念模型为突发公共卫生事件医疗服务涉及的服务项目、医疗活动(服务用途)、需求方和供应方的分类与基本关系构建提供了依据。图4中,被复用的概念的来源被标识,没有来源标识的概念来源于聚类词集和官方方案与指南。基于概念模型,结合具体的医疗服务类型和需求特征,本文对相关概念及其属性进行了扩展,以便于知识的扩充、共享和推理。
图4 突发公共卫生事件医疗服务概念模型
3 突发公共卫生事件医疗服务知识库构建
知识库构建是基于概念模型进行知识组织和表示的过程,是数据和信息的知识化环节。本文参考服务资源相关文献,结合突发公共卫生事件医疗活动特征,提出突发公共卫生事件医疗服务架构。根据知识库架构的分层实现方案和功能目标,医疗服务相关概念、规则、实例得以有序语义化,同时,也为类似突发事件医疗决策提供知识驱动的可复用方案。
3.1 知识库架构
在医疗服务概念模型的基础上,本文参考智能制造服务资源框架[34],基于多源数据,以本体为实现方法,提出知识驱动的突发公共卫生事件医疗服务资源架构,如图5所示。医疗服务资源架构将医疗服务知识库的构建划分为5个层次,明确了数据整合、概念提取、知识表示与规则设计、服务资源实例填充的实现路径。
图5中,数据层主要功能是采集各地官方疫情新闻发布会数据,借助自然语言处理完成数据预处理,构建语料库。同时借助Owlready2检索在线本体,确定复用的本体范围,采集并整理疫情统计数据,为本体实例化做准备。
图5 基于本体的突发公共卫生事件医疗服务架构
概念层的功能主要是采用文本分析方法提取语料库、官方方案和指南、本体知识库等多源数据中的概念和关系,实现数据融合和概念化。基于数据层提取的医疗服务概念模型为知识表示和推理提供依据,充当数据与服务实现的桥梁。
知识层是通过基于OWL(Web Ontology Language)的本体对医疗服务资源相关模块信息的语义化描述,形成医疗服务知识库。知识库构建的依据是概念模型中的概念分类和概念之间关系。
规则层的功能是根据病例检测或诊疗方案、医疗服务供需端共性条件等设计推理规则,如为保障核酸采样效率和质量,核酸检测组织实施指南中提出的考虑人口、距离、检测机构分布的相关规定[38]。知识推理规则采用SWRL(Semantic Web Rule Language)设计实现。
资源层旨在实例化医疗过程涉及的医疗资源,面向医疗筛查、感染预防与控制、诊疗等医疗活动,构建采样检测、医学隔离、疫苗接种、病例治疗等医疗服务的实例。医疗服务资源数据和信息经过本体的明确、形式化描述,实现知识模型与应用的分离,有利于知识的有效利用和共享。
由于核酸检测仍是病例筛查最可靠的手段,在近期的疫情防控中,核酸检测耗费了大量的人力物力。根据多轮疫情实际情况,疫情严重时期的核酸检测能力经常不足,无论是郑州市、长春市还是近期的上海市,在新冠肺炎变异毒株奥密克戎的冲击下,各地投入了大量的核酸采样与检测力量,甚至都难以及时完成病例筛查,而不得不寻求外部支援。因此,本文在医疗服务实例化与知识推理方面侧重于核酸检测服务的知识表示和分配。
3.2 医疗服务本体构建
基于概念模型和多源数据,本文采用Owlready2和RDFlib本体自动化策略,以三元组形式完成医疗服务本体的自动构建。其中,为了便于后续的推理和类似医疗服务的扩展,提升知识库的泛化能力,促进知识重用,本文以本体实例表示突发公共卫生事件医疗服务具体项目,涉及的主要对象如表5所示。
表5 医疗服务涉及的主要实例
以突发公共卫生事件医疗服务架构为指引,RDFlib本体自动化策略被用于数据层提取的概念和实例的构建,相关数据被批量填充到医疗服务本体中。自动构建的医疗服务本体如图6所示。
图6 突发公共卫生事件医疗服务本体
本体实现了医疗服务的知识组织,为服务的有效管理奠定了基础,此外,本体知识的互操作性和易于共享的特质也使得所构建的医疗服务知识库能够被应用于同类事件中。
3.3 SWRL规则设计
医疗服务本体知识库实现了知识驱动的医疗服务管理,通过推理规则对医疗知识进行推理计算,能够促进医疗服务知识的充分利用,并为医疗服务的有效协调提供决策支持。本文基于国家卫生健康委最新发布的《区域新型冠状病毒核酸检测组织实施指南(第三版)》(简称《指南》)[38],围绕封控区病例筛查需求和核酸检测的布局指南,设计从核酸检测机构到封控区的检测服务分配规则。《指南》提出,应综合考虑人口数量、地理交通、检测机构分布等条件,合理规划采样点。首先,根据地点的人口数计算采样人员的需求量。然后,根据医疗检测机构的分布,曼哈顿距离被用于地点到医疗检测机构的距离推算。最后,考虑人口数量、地点与检测机构距离的推理规则被用于实现核酸采样服务的分配。
在《指南》中,区域内全部核酸采样任务原则上应在6小时内完成,并根据人口数测算和安排采样检测能力。《指南》提出的采样人员需求量测算方式被表示如下:
(1)
根据《指南》,按照封控区被确定初期单人单管的采样方式,通过人口数量即可计算当天该地点的采样人员需求数量rs。式(1)中,snum为封控区s的人口数量,由于难以获取某地点准确的人口数量,根据数据的可获得性,本文通过该地点的户均人口数和户数的乘积得到该地点的人口数。如果掌握了各地点准确人口数量,可以直接采用人口数量计算。根据地点状态,测算方案可以灵活调整。在此基础上,本文设计了针对封控区核酸采样所需人员的推理规则,如表6所示。
表6 基于人口数量的封控区采样人数需求计算规则
表6中,人口阈值thd对应于式(1)的720,户均人数来自地点所属区域第七次人口普查报告。为了满足城市区域内部医疗服务调配的实际情况,本文采用曼哈顿距离计算各个地点与医疗检测机构之间的距离,这样同时考虑了机构的分布和交通,计算方式见式(2)。
dij=(|lati-latj|+|lngi-lngj|)×r
(2)
曼哈顿距离采用地点和医疗检测机构的经纬度的差值绝对值之和乘以1度的距离(即r=111km)计算得到,适合于城市内部小范围交通距离的计算。当范围扩大时,可以调整为两点的直线地理距离。基于式(2),地点到检测机构的距离计算规则集如表7所示。规则集D_SO1中,A代表多个医疗机构的集合。
表7 地点到医疗检测机构的距离计算规则
基于病例筛查需求和距离规则,本文通过SWRL设计了医疗服务用途、医疗服务供应、基于服务用途和距离的服务分配规则,规则如表8所示。
表8 面向封控区医疗检测服务的SWRL规则
基于以上15条SWRL规则(集),用于医疗服务分配决策的知识资源和决策信息能够被自动计算和提取,实现医疗资源分配。后续的研究中,可以继续扩充医疗服务机构的服务能力、机构资质等信息,并针对多种医疗服务设计推理规则,实现知识库功能的强化和实用性的提升。此外,将知识库推理产生的动态数据提供给适用性较强的优化模型,实现推理和优化模型的结合,将会实现更有效的资源分配。如式(3)~(6)所示,通过知识推理获取不断变化的地点与服务机构的距离,为服务机构均等分配任务,能够实现任务分配的公平性,同时保证总距离最小化。
(3)
(4)
(5)
xij∈{0,1}
(6)
式(3)~(6)中,i为第i个医疗机构,j为第j个地点(如封控区),m是医疗检测机构总数,n是地点的总数,dij为医疗检测机构i与封控区j的距离。
3.4 知识库应用
本文以2022年4月20日上海市某区的疫情数据为例,采集划定的封控区数据,通过高德地图API提取各个地点的经纬度坐标,并结合各个地点所处行政区域获取统计学人口数据,最终获取325个封控区地点的实例数据。通过RDFlib,325个实例被自动填充到本体知识库。SWRL的推理结果示例如图7和图8所示。
由图7的推理结果可知,基于推理规则集N,推理确定了封控区site299急需进行病例筛查,推理机根据该地点所处县区的户均人口数和户数推理,计算得到该地点的人口数量,然后根据式(1)推理确定需要的采样人数。最后,推理机根据SA1.A规则集,确定与site299最近的医疗机构,结合医疗机构提供的服务及服务的用途,通过距离和功能进行匹配推理,分配核酸检测机构,使site299获取对应的医疗服务。图中的蓝色框为推理结果,通过知识推理,确定了site299与8个医疗检测机构的距离、人口数和所需核酸采样人数,最终为其分配了核酸采样的服务方。
图7 管控区推理结果示例
图8是基于规则集SO和SA1.A的推理产生的结果。相关规则根据机构org6的类型确定其能够提供的服务种类,然后根据其服务用途、封控区的距离和需求实现服务匹配。图8的蓝色框中为通过推理为机构org6匹配的服务对象及org6能够提供的两种服务。通过推理产生的实体对象之间的关系网络示例如图9所示。
图8 医疗检测机构推理结果示例
规则推理将满足约定条件的实体关联起来,将服务知识中隐含的关系显性化,进而为医疗服务分配决策提供依据。图9中,围绕封控区site289,通过推理为其匹配到封控区急需的医疗处置措施,并基于相关服务的用途、医疗机构的服务供应和其与医疗机构的距离,按照《指南》分配相应的服务机构和服务项目。图9中带星号的实例关系为推理产生。
图9 基于SWRL推理产生的实体关系网络
通过实际疫情数据,本文构建了突发公共卫生事件医疗服务知识库,实现了基于多源数据的医疗服务知识表示,为应急情景下的医疗服务管理提供了知识模型,并以核酸检测服务为例,以《指南》为基本依据,设计了15条SWRL推理规则和规则集,实现了针对病例筛查的核酸采样服务分配。
4 结 语
突发公共卫生事件防控与医疗救治中需要管理和协调大量医疗资源,对这些医疗资源的有效管理和分配对实现高效决策、提升事件处置能力意义重大。但海量的多源异构数据增加了医疗资源管理和决策的难度。本文基于多源数据,采用词向量聚类、在线本体概念匹配等智能手段,从服务视角提取突发公共卫生事件医疗服务共性知识,参考制造服务架构,提出面向突发公共卫生事件的医疗服务架构,为同类事件中的医疗资源管理和资源快速分配提供可复用的知识框架。基于医疗服务架构,本文构建了突发公共卫生事件医疗服务知识库,结合基于官方指南的SWRL知识推理规则,从服务供需角度实现了医疗资源的管理和分配。本文的策略为突发公共卫生事件医疗资源管理提供了方案参考,同时也能为快速医疗服务响应提供决策支持。
后续的研究将拓展医疗服务模型,使知识库能够适应多种场景,为不同决策者提供医疗服务决策支持,同时复用医疗相关知识库,进一步提升知识库的互操作性,促进医疗资源相关知识的共享。