可计算生物医学知识视角下诊疗规范知识计算化模式研究
2023-12-18牟冬梅琚沅红于海涛等
牟冬梅 琚沅红 于海涛等
关键词: 可计算化生物医学知识; 知识计算化; 诊疗规范; 知识组织; 模式构建
DOI:10.3969 / j.issn.1008-0821.2023.12.007
〔中图分类号〕G203 〔文献标识码〕A 〔文章编號〕1008-0821 (2023) 12-0073-15
大数据时代知识密集型范式下, 如何从海量多源异构数据中识别并抽取知识, 将数据从物理层面的文献单元转化为认知层面的知识单元, 深化知识组织层次; 如何将知识组织对象从语法层次向语义、语用层次转变, 突破知识计量方式[1] ; 如何基于数据到知识的知识组织结果, 提高知识应用效能[2] ,是情报工程化和情报智能化亟需解决的问题, 也是解决大数据时代信息超载的关键[3] 。诊疗规范作为大数据的一部分, 是医学领域具有代表性的金标准知识, 也是临床决策支持系统(Clinical Decision Sup?port System, CDSS)的核心知识源, 能以“证据支持者” 的角色为诊疗决策提供科学依据, 对临床诊疗过程起到重要的指导和规范作用[4] 。传统医学范式下, 以诊疗规范为核心的医学知识从发表到落地实践平均需要17 年的时间[5] , 这极大降低了医学研究产生的知识被用于优化临床实践过程的效能, 也严重削弱了临床实践产生的真实世界数据被用于生成或改进新知识的能力[6] 。
为加快医学数据的转化利用再生进程, 打破传统医学范式下医学实践远落后于医学研究的桎梏,可计算生物医学知识(Mobilize Computable BiomedicalKnowledge, MCBK)应运而生。MCBK 是由美国密歇根大学提出的以加速医学知识向临床应用转化进程为目的的理念和行动[7] , 其以“数据—知识—实践”循环为核心思想, 以解决临床问题为目标, 主要包括3 个关键环节[8] , “数据—知识” (Data-Knowl?edge, D2K)关注于对知识进行结构化处理, 将知识转化为机器可读或可理解的格式, 实现知识在表示形式上可计算; “知识—实践”(Knowledge-Prac?tice, K2P)关注于将可计算化的知识应用于实践,实现知识在实践中“可执行”; “实践—数据”(Practice to Data, P2D)关注于从知识驱动实践的角度实现知识再生, 进而推动循环持续流转[9-10] 。MCBK 通过“数据—知识—实践” 循环, 致力于打通D2K、K2P 关键环节, 消除D2K 和K2P 之间的鸿沟, 促进P2D 关键环节知识再生, 并将循环中的各要素作为医学知识计算化过程中知识的抽象表示, 形象地展示了医学知识的产生、利用、再生等过程。
因此, 如何利用MCBK 核心思想及相关知识计算化手段, 从诊疗规范中高效精准地提炼知识,优化知识表示方式, 探索最佳知识实践路径, 提高诊疗规范赋能临床诊疗决策能力, 并在知识驱动实践的基础上加强医学知识的再生效率, 成为了促进“数据—知识—实践” 循环周期快速流转的关键。
1相关研究
1.1诊疗规范知识转化研究现状
现有的诊疗规范多以文本形式发布、保存、使用和交流, 来源广泛、结构多样、类型繁杂、版本较多, 且存在的难查阅、难记忆、难利用、难推广以及可植入性差等问题, 无法满足医护人员在诊疗过程中对知识的需求, 更加无法智能化辅助临床诊疗决策制定[11] 。为了优化诊疗规范转化利用问题,相关学者和机构多年来致力于对诊疗规范资源进行集成整合, 并力求探索最合理的方式结构化诊疗规范文本, 提升诊疗规范的计算机可读、可理解性,进而提高诊疗规范的转化利用效能。近10 年, 诊疗规范数量在全球呈快速增长趋势[12] 。目前, 与诊疗规范相关的知识转化利用研究较少, 相关研究主要集中于: ①构建诊疗规范知识库或数据库。龙囿霖等通过比较全球综合性临床指南数据库的功能特点及技术参数发现, 现有指南数据库的功能多是以篇章为粒度的检索、浏览、下载等, 局限于为用户提供相关摘要及其原文的链接, 而数据的更新多为新增信息和对现有指南的修订[13] 。例如: 美国国立临床诊疗指南数据库(National Guideline Clear?inghouse, NGC)以文本形式为公众提供了大量有价值的医学信息和实践指南[14] , 万方医学网临床诊疗知识库是一个专业、权威的临床诊疗知识参考数据库, 能为公众提供海量全文数据[15] ; ②集中于设计优化知识模型。以一篇或几篇诊疗规范为操作对象, 借助GEM、SAGE、GLIF、Asbru、Arden 等知识模型的特定组件或要素将诊疗规范从自然语言形式编译为计算机可读的形式, 实现诊疗规范计算机化[16] 。但这种程度的诊疗规范计算机化距离计算机对知识可理解、可解释并满足知识在实践中“可执行” 还有较大差距, 更无法从智能辅助决策的角度为临床诊疗提供知识支持。
1.2可计算医学知识研究现状
以经验为主导的临床实践模式正在向以知识计算为驱动的、以知识/ 证据支持为支撑的智慧化医学模式变革[17] 。在计算机信息技术、智能化技术的加持下, 诸多学者从学科归属、内涵限定、理论探索、实现方法等方面对可计算医学知识相关研究进行归纳总结或探索。在学科归属方面, Chen CM 等[18] 认为, 科学知识的计算化以及计算化知识在科学文本中的表达开辟了科学计量学和信息计量学研究的新领域, 拓展了医学信息学和信息计量学交叉研究的新方向。Li X 等[19] 从知识计量学角度出发, 认为知识计算是以知识单元计量为关键, 对社会知识容量和知识的社会联系进行综合研究的过程。在内涵限定方面, 可计算医学知识的概念包括医学知识在表示形式上可计算, 其表示结果在实践中可执行[10] 。且Li X 等[19] 和Han P K J 等[20] 根据可计算知识的核心特性——不确定性, 将知识分为具有矛盾/ 争议的、具有明显冲突/ 存在模糊性的、存在语义多样性的三类。在理论探索方面, 杜建等[10] 对可计算生物医学知识实现路径进行了框架层面的探讨。Li X 等[19] 构建了可计算医学知识对象的表示模型。Liu X 等[21] 提出了可执行知识单元概念并构建了可执行知识单元模型。Sun L 等[22] 基于事物属性的完整知识表示系统提出了知识元素模型框架。Guo X 等[23] 构建了可计算生物医学知识框架, 指导研究从科学出版物的相关陈述中对生物医学知识进行计算化研究。在实现方法方面, 通过利用规则库或知识库[24] 、数据驱动的疾病预测模型[25] 、语义三元组[26] 、纳米出版模型[27] 、微型出版物模型[28] 、以知识子图为可编辑的知识单元[29] 、谓词逻辑、本体、语义网、产生式规则、框架[30]等对医学知识的表示模型进行构建。在对知识进行计算化时, 现有研究多聚焦于利用文本中的不确定性线索词, 对通用领域知识的不确定性概率进行计算[19] , 相关方法有D-S 证据理论[31] 、群体论证理论[32] 、知识模型[33] 、量表[34] 、概率[35] 、信息熵[23] 、证据—评论网络[36] 等。
综上, 诊疗规范知识转化研究大多基于各种知识挖掘手段, 从文本外部特征入手对诊疗规范进行结构化, 较少涉及文本内容层面, 且基于内容的研究整体呈现出语义深度较浅、提取粒度过粗、组织维度片面等特点, 无法解决或改善诊疗规范实际使用过程中遇到的困难。通过对相关研究的梳理不难发现, 知识存在不确定性是知识能够计算化的前提、核心和基础, 而对知识计算化研究的本质就是对知识的不确定性进行描述、表示和度量。目前, 通用领域的知识计算化研究较多, 而医学领域相关研究较少。在理论探索方面, 医学知识计算化研究多聚焦于对其概念、框架和实现方法等进行初探, 其中,框架和实现方法相关研究对知识内容本身刻画不够深入, 对知识的不确定性测度仅停留在对相关知识的不确定性线索词出现的概率进行计算, 对知识计算化实现路径的探讨也不够全面和彻底, 且诊疗规范知识计算化模式及其实现路径研究未见报道。
鉴于此, 本研究在可计算生物医学知识视角下, 以文本形式诊疗规范为研究对象, 在厘清诊疗规范概念、内涵, 归纳诊疗规范数据来源、数据特征, 提炼诊疗规范知识可计算化特征, 明晰诊疗规范知识计算化目标的基础上, 构建诊疗规范知识计算化模式体系框架, 抽象诊疗规范知识计算化模式层级结构。通过结合诊疗规范知识的多维不确定性特征, 探索論证模式实现路径及其关键环节打通措施, 为实现诊疗规范知识计算化提供理论指导和方法路径参考, 助力推动医学“数据—知识—实践”循环效率, 提高医学知识提炼、应用、再生效能,为各领域知识计算化研究提供理论支撑以及方法学参考和依据。
2诊疗规范概念及内涵剖析
2.1诊疗规范概念
诊疗规范也称诊疗常规、诊疗护理常规, 是医疗机构和医务人员在日常诊疗过程中必须遵守的行为和技术规范[37] 。诊疗规范是以临床诊疗环境为知识建构背景、以临床诊疗实践过程为知识生产基础、以临床科学实验为知识验证或创新基石、以临床诊疗决策参与人员为知识目标受众构建而成的知识体系, 是与临床诊疗活动相关, 且贯穿疾病预防、诊断、治疗、预后、随访等全流程的, 包括临床实践指南[38] 、专家共识[39] 、临床路径[40] 、技术标准、指导原则、国家标准在内的, 由领域权威专家以循证医学为前提, 结合自身经验对具有代表性、有效性以及可行性的最新研究成果的全面总结和深度提炼[4] 。诊疗规范价值在于其源于临床实践, 终于临床实践, 是高质量医学知识或循证医学证据的重要组成部分, 能够指导医、护、患在特定诊疗情境下做出合理选择, 也能在规范医护诊疗行为、提高医疗质量和效率等方面发挥重要作用。
2.2诊疗规范内涵
医用语言学是以医学专业人员在医学学术论文写作、医学学术研究与交流过程中的语言规律以及医学活动中的言语行为为研究对象, 从学术体系、话语体系、学科体系用语原则和表达规范出发, 综合提高医学专业人员的学术语言表达能力的一门医学语言学分支学科[41] 。医用语言学为医学专业人员归纳、总结、分析、描述医学研究成果、临床试验发现、科学实践规律以及个人思维显式化呈现提供了合适的表达工具和有效的交流路径。本研究基于医用语言学, 从诊疗规范的语言特点、成文模式出发, 对诊疗规范数据内涵进行剖析, 深层次揭示诊疗规范知识资源特点, 为促进知识转化应用奠定数据基础。
1) 诊疗规范语言特点
医用语言学指导诊疗规范文本用语在整体上达到概念内涵外延剖析准确、论证推理合乎逻辑、表述内容准确客观、句法依存合乎规范, 能从文本载体、审美主体和实用价值上综合反映临床诊疗过程核心内容。医学专业人员以医用语言学作为抽象思维具象化的工具, 对临床诊疗实践中的客观事实、规律、原理等进行描述, 对其中的知识内容本质特征进行刻画, 并在综合分析和评价最新研究证据或成果、医生临床经验以及临床流行病学相关特征规律的基础上, 形成的能够为临床诊疗决策提供循证支持的最佳医学知识———诊疗规范。诊疗规范不但包括疾病相关症状、体征、诊断治疗手段、疾病流行病学特征等医学基础知识, 还集成了基础医学研究、临床试验、临床观察、调查报告、病历报告、病历讨论等循证医学证据。因此, 诊疗规范可归属于综述型文献, 既具备医学科技论文一般特征, 如规范性、科学性、时效性、可读性, 也具备循证医学证据的独有特性, 如综合性、权威性、系统性、专业性、可验证性、不确定性。其中, 不确定性是体现诊疗规范显真性的基础和核心, 也是支持医学实践打破桎梏、临床研究不断创新的保障[42] 。
2) 诊疗规范成文模式
诊疗规范的客观存在是基于医用语言学从逻辑思维角度, 以模式化、固定化的文体结构对客观真实、科学合理、严谨精确的最佳医学知识的具象化表示及其逻辑关系的完美概括, 能在一定程度上辅助临床医护和患者做出恰当处理。且诊疗规范文本的呈现离不开语言论证层面医学知识的逻辑自洽,以及语言展示层面知识载体逻辑框架的易读易用。因此, 诊疗规范成文时需在综合考虑诊疗规范主题类型, 例如: 临床指南、专家共识、临床路径等;诊疗规范受众类别, 例如: 医生、护士、患者、普通公众等; 诊疗规范实践场景, 例如: 医院、社区、家庭或临床诊疗、个人自主健康管理等要素的基础上, 参考医学领域学术论文通用文体结构、用语规范, 融合诊疗规范语言特点, 以临床诊疗全流程为论证逻辑线, 分别对疾病流行病学特点、危险因素、临床表现、检查检验手段、诊断标准、治疗措施、预后随访意见等的若干个方面进行论述。
3诊疗规范数据来源及特征分析
3.1诊疗规范数据来源
本研究根据诊疗规范概念及内涵, 调研了国内收录较为全面的8 个诊疗规范来源平台或机构, 对其中的诊疗规范检索字段进行了归纳整理, 并按照诊疗规范发布时间或发表时间, 列举了各平台或机构具有代表性的诊疗规范, 如表1 所示。调研发现,以制定和发布诊疗规范为主的机构或平台, 例如,国家卫生健康委员会、中国临床肿瘤学会, 诊疗规范类型以诊疗指南、临床路径、指导原则、技术标准为主。其他以收录为主的各平台或机构, 诊疗规范类型以指南和共识为主。且各平台或机构主要以形式特征, 如: 题名、关键词、机构、出版时间等为检索字段, 以篇章为医学知识获取粒度, 为用户提供简单的查询服务。诊疗规范整体上呈现数据分散、资源间缺少关联和耦合的特点, 且各平台的诊疗规范知识查询服务也缺乏完整的资源检索体系。
3 2 诊疗规范知识可计算化特征分析
知识能够被计算的前提和基础是知识存在不确定性, 而知识的不确定性与知识形式及内容密切相关。为实现诊疗规范知识计算化, 本研究依据诊疗规范概念及内涵, 从诊疗规范形式特征和内容特征出发, 对诊疗规范知识不确定性进行分析, 并基于此对诊疗规范知识可计算化特征进行凝练。诊疗规范知识可计算化特征是诊疗规范知识从形式上可表示向形式上可计算化转化的桥梁, 能为知识从形式上“可计算” 到“计算化” 奠定基础, 支持研究从知识可计算化角度对以文献为载体的诊疗规范知识对象进行深度组织和序化, 并深入到语义层面对其知识对象进行描述和刻画, 拓宽诊疗规范知识结构的揭示深度和广度, 促进计算化诊疗规范知识的细粒度描述、有序化组织、语义化揭示、多维度关联程度, 保障诊疗规范“数据—知识—实践” 循环良性发展。
1) 诊疗规范形式特征描述
根据对国内收录较为全面的诊疗规范来源平台的调研结果, 本研究提炼出30 个诊疗规范形式特征, 如表2 所示。从知识计算的核心基础——知识不确定性入手, 借鉴前人在可计算生物医学知识研究中对细粒度、结构化知识对象的总结[43-45] , 对诊疗规范形式特征中的知识可计算化特征进行提炼后, 发现诊疗规范中能体现知识不确定性的形式特征主要有: 发布机构和著者的权威性, 例如出版机构、著者机构、撰文作者、合著作者等; 发表时间次序, 例如出版日期、会议时间; 知识更新情况,例如版本/ 版次、出版卷期号; 诊疗规范主题类型,例如标题、主题、关键词、摘要等。
2) 诊疗规范内容特征描述
从宏观层面来分析诊疗规范的内容特征, 大体可从文本类型权威程度、整体内容结构要素等方面体现其知识的不确定性。①权威程度。临床实验方法和类型的多元性使得诊疗规范中证据/ 知识的分级及推荐具有差异性, 而这种差异性恰好能体现诊疗规范知识的不确定性程度。临床证据分级系统作为衡量以诊疗规范为核心的循证医学证据推荐等级和证据水平的有效性工具[46] , 在支持循证医学证据辅助临床决策制定中发挥重要作用, 其中以GRADE分级标准应用最为广泛[47-48] 。可根据GRADE 分级标准、临床实践经验等对各类型诊疗规范权威程度进行等级划分, 以体现其权威程度差异性; ②结构要素。对诊疗规范行文结构调研发现, 因研究方法、目标受众、应用环境的差异, 诊疗规范结构要素的逻辑组成也有所不同, 整体上以诊疗规范类型为标准, 呈现出结构要素个性化但内容范围一致性的特征。具体的, 其结构要素主要包括前言/ 引言、研究现状、评估方法/ 标准、证据类别、推荐等级、更新要点、基本概念、诊疗环节措施、小结、附录、参考文献等。其中, 因不同结构要素描述的内容不同, 不确定性知识分布也有差异性, 例如, 相对于证据类别、推荐等级、基本概念等描述性内容, 诊疗规范的前言/ 引言、研究现状、更新要点等部分包含的不确定性知识更多。
从微观层面来分析诊疗规范的内容特征, 需综合考虑诊疗规范形式特征以及宏观内容特征, 将诊疗规范知识的不确定性特征融入分析过程中, 从本质上对其证据等级、内容要素进行探讨。①证据等级。证据等级是诊疗规范知识存在不确定性最直观的体现, 且能以等级形式对诊疗规范知识不确定性进行定量描述。一般从证据类别和证据推荐等级两个方面对诊疗规范的证据等级进行刻画。通过包括证据水平、证据来源等在内的证据特征和专家共识度, 综合反映诊疗规范中知识的证据类别, 以及通过推荐标准和具体推荐级别对推荐等级进行描述;②内容要素。医学领域知识的不确定性现象主要是由不完善数据和有限经验导致的诊断过程及其结果不确定性、患者依从性和治疗效果不可预测、疾病预后结果不确定性等造成的[49-50] , 且这些问题在诊疗规范中均有体现, 例如: 诊断措施均以等级推荐形式描述、治疗手段和效果大多附有统计学参数、预后结果的置信度大多通过内容要素来描述。因此,可从诊疗规范中提炼出体现诊疗规范知识不确定性特征的内容要素, 主要涉及描述不确定性知识的不确定线索词, 包括统计学指标、参数、具有模糊/矛盾/ 争议性词汇等。
4诊疗规范知识计算化模式构建
本研究针对诊疗规范转化利用相关研究中知识内容挖掘深度较浅、文本结构化程度较弱的问题,借鉴可计算生物医学知识核心思想和DIKW 层级模型内涵, 构建“1-336” 诊疗规范知识计算化模式立方体, 深入探讨诊疗规范“数据—知识—实践”实现路径及其关键环节打通措施, 模式立方体包括1 个核心目标、3 个知识层级、3 条实现子路径和6个关键环节。
4.1诊疗规范知识计算化目标
诊疗规范知识计算化的核心目标是实现“数据—知识—实践” 循环快速流转, 即研究如何利用知识计算化手段, 高效、精准地将诊疗规范物理层面的文献单元转化为认知层面的医学知识单元,并在医学知识单元计算化研究基础上实现诊疗规范转化应用, 促进诊疗规范赋能临床诊疗决策的同时, 在知识驱动实践的基础上实现智慧驱动的知识再生、知识再创, 实现数据、知识、智慧驱动的知识生产、知识应用与知识创新。
4.2诊疗规范知识计算化模式核心思想
本研究以诊疗規范为研究对象, 聚焦诊疗规范知识计算化核心目标, 把握DIKW 层级模型各层级内涵[51-52] , 遵循CBK 核心思想, 以DIKW 层级模型四要素对标CBK 核心思想三要素, 并对CBK 核心思想的关键环节进行重新解读、定义和解析后, 将层级模型中的数据和信息、知识、智慧分别与模式核心思想中的数据、知识、实践相对应, 提炼出包含数据、知识、实践3 个要素, 以及数据—数据(Data to Data, D2D)、D2K、知识—知识(Knowl?edge to Knowledge, K2K)、K2P、实践—实践(Prac?tice to Practice, P2P)、P2D 等6 个关键环节的诊疗规范知识计算化模式的核心思想, 如图1 所示。该核心思想以要素之间的逐层流转作为实现“数据—知识—实践” 循环过程各环节有序转化的可行路径, 为诊疗规范知识计算化模式构建奠定思想及理论基础。
4.3诊疗规范知识计算化模式
遵循诊疗规范知识计算化模式核心思想, 引入“数据—知识—智慧” 三级驱动方式[53] , 赋能诊疗规范知识计算化实现过程并形成诊疗规范知识计算化模式立方体。该模式立方体将诊疗规范知识计算化过程分为数据准备、知识计算化以及知识转化3个主要部分, 如图2 所示。
第一, 数据准备部分, 即为诊疗规范文本的蓄积过程(D2D), 诊疗规范文本中的知识具备领域特殊性, 其形成需依据不同来源的权威证据/ 知识/ 数据, 从而支持诊疗规范知识在临床实践中辅助诊疗决策制定。且根据疾病发生发展进程和诊疗进程,诊疗规范文本类型会越来越多, 数量也会向规模化发展, 是整个模式实现的数据基础。第二, 诊疗规范文本的计算化过程可分为3 个环节。首先是数据驱动的D2K 环节和K2K 环节。D2K 环节即在数据驱动支持下, 利用知识组织、计算机技术等对诊疗规范文本进行数据获取、命名实体识别、实体关系抽取、知识表示等操作[54] , 从诊疗规范形式特征以及内容特征等多维角度对知识资源进行描述, 不断地对诊疗规范知识粒度进行细化, 加强实体间语义关联, 形成计算机可读可理解的医学知识单元,实现诊疗规范知识结构化。K2K 环节作为连接D2K 和K2P 之间鸿沟的桥梁, 通过在以医学知识单元为基础的数据结构内融入诊疗规范知识可计算化特征, 并对融合后的知识进行表示以形成形式上可计算的医学知识单元, 实现诊疗规范知识特征融合化, 为诊疗规范知识数据化奠定基础; 再者是知识驱动的K2P 环节, 旨在将医学知识单元从“可计算” 向“计算化” 转变, 是诊疗规范知识计算化过程的核心步骤, 也是计算化诊疗规范知识实践的基础。该环节以数据驱动的诊疗规范文本知识组织结果为依据, 在知识驱动下, 利用知识计算化技术或方法, 对可计算化医学知识单元中的可计算化特征——知识的不确定性进行测度, 形成计算化诊疗规范知识, 定量化描述诊疗规范知识不确定性的同时, 实现诊疗规范知识数据化, 为知识在实践中高效、便捷应用奠定基础。第三, 知识转化过程可分为两个环节, 即为智慧驱动的诊疗规范知识在实践中不断被验证的过程(P2P)以及诊疗规范知识的再生过程(P2D)。医学知识在实践中能够被验证且再生的根源在于医学知识存在不确定性, 且医学知识的不确定性是医学知识渐进式、颠覆式发展的关键[18] 。该部分以前序环节中产生的计算化诊疗规范知识中的不确定性为实践基础, 在医学研究不断发展的过程中, 通过在临床诊疗过程中对不确定性知识的不确定性程度进行反复验证, 若符合现实情况, 则继续在实践的反复验证过程中逐渐增强其确定性程度, 促进临床诊疗决策协同化发展。若出现医疗逆转[55] , 则产生新知识, 促进诊疗规范知识创新化发展。
研究紧密围绕诊疗规范知识计算化模式核心思想中的“数据—知识—实践” 循环过程, 在“数据—知识—智慧” 三级驱动下, 从知识组织层面,逐步实现诊疗规范知识单元描述维度由少到多、知识组织粒度由粗到细、语义关联强度由弱到强的转变; 从知识计算化层面, 逐步实现诊疗规范知识单元不可再分性由弱到强以及知识不确定性由高到低的转变。
5诊疗规范知识计算化实现路径及关键环节
以诊療规范知识计算化模式立方体为指导, 以诊疗规范“数据—知识—实践” 循环流转过程为研究主线, 在“数据—知识—智慧” 三级驱动下, 根据诊疗规范知识在各要素内和各要素间的流转特点,以及模式立方体各关键环节具体任务, 将模式立方体层级结构抽象为数据蓄积层、知识组织层和知识转化层, 并对各层级实现路径及其关键环节进行设计和探索, 使模式立方体各层级结构与实现路径、关键环节相呼应, 形成结构上环环相扣、层层衔接,内容上知识组织程度逐渐深化, 语义上知识关联程度逐渐加强的诊疗规范知识计算化模式实现路径,如图3 所示, 从而为探索诊疗规范知识计算化具体实现方式与各关键环节打通措施提供框架指导。
5.1诊疗规范数据规模化路径
数据蓄积层是整个模式层级结构的基础, 描述的是D2D 环节中诊疗规范文本从量和质上不断累积、规模化发展的过程。通过对各类型、各版本诊疗规范文本的蓄积, 能为诊疗规范知识计算化过程的知识组织层奠定数据资源基础。诊疗规范是对相关医学知识进行整合、分析、评价后的最终结果呈现, 是能够为临床诊疗决策提供循证支持的最佳医学知识。因此, 诊疗规范数据规模化包括原始医学知识的蓄积过程和以原始医学知识为基础数据形成的诊疗规范文本的蓄积过程。原始医学知识的蓄积是对所有相关医学知识的整合集成过程, 具体可从原始医学知识的来源、维度、结构、粒度、形式等角度进行分析。①来源视角。原始医学知识来源广泛, 从来源平台看, 有各类中英文医学文献数据库,英文以疗效评价文摘库(The Database of Abstracts ofReview of Effectiveness, DARE)、Cochrane 系统评价资料库(The Cochrane Database of Systematic Re?views, CDSR)、Mediline、PubMed 等为主, 中文以中国临床肿瘤学会(Chinese Society of Clinical On?cology, CSCO)、万方医学网临床诊疗知识库、中华医学期刊全文数据库等为主; 从来源场景看, 原始医学知识可源于临床诊疗、社区卫生服务、个人自主健康管理等场景; 从来源环节看, 根据临床诊疗全过程, 原始医学知识可源于预防、诊断、治疗、随访各个环节; ②维度视角。依据临床研究设计类型, 原始医学知识包括病例报道、描述性横断面研究、队列研究、病例对照研究、分析性横断面研究及(非)随机对照研究在内的原始研究和包括文献综述、定性系统分析及荟萃分析在内的二次研究[56] ;依据文献加工程度, 原始医学知识可分为一次文献、二次文献及三次文献; 依据知识外显程度, 原始医学知识包括以个人经验为主的隐性知识和包括教科书、文献、电子病历等在内的显性知识[57] ; ③结构视角。原始医学知识载体结构多样化, 有影像、病理切片、文本等非结构化知识, 也有电子病历、检查检验结果等结构化或半结构化知识; ④粒度视角。原始医学知识的粒度可以是一本著作、一篇文献、一项实验记录, 也可以是一个方法、一条规则或者一个事实; ⑤形式视角。原始医学知识呈现形式多样, 且多以.pdf、.doc或者.html等形式出现。这些不同来源、不同维度、不同结构、不同粒度、不同形式的原始医学知识, 囊括了个人临床经验、临床技能、临床资料和医学专业知识, 是形成诊疗规范的数据基础和核心, 能为诊疗规范的形成过程提供数据参考依据和评价基础。
诊疗规范文本的蓄积是由领域权威专家综合医学基础知识, 根据循证医学证据评价过程和标准,参照诊疗规范的语言特点、成文模式及领域专家自身具备的执业技能、临床经验、专业知识, 利用统计学方法、信息分析技术、数据科学方法等, 对不同来源、不同维度、不同结构、不同粒度、不同形式的, 具有有效性、代表性以及可行性的最新、最权威原始医学知识进行临床使用价值分析评价, 并对评价结果进行全面总结和深度提炼, 最终形成以诊疗规范文本形式存在的, 能支持临床诊疗决策制定的最佳循证医学知识的过程, 如图4 所示。随着医学研究的不断发展, 知识转化力度不断深入, 医学知识推陈出新, 不断支持领域权威专家对各方证据、经验的持续性总结和深度提炼的同时, 进一步促进诊疗规范文本内容不断更新和数量规模化发展。
5.2诊疗规范知识计算化路径
知识组织层是整个模式层级结构的核心, 研究的是诊疗规范知识计算化具体实现过程。“数据+知识” 驱动的诊疗规范知识计算化体现了诊疗规范知识转化利用再生的知识密集性、价值性, 数据驱动强调对规模化诊疗规范文本中知识的抽取、表示与关联, 从而实现诊疗规范文本知识发现过程。知识驱动强调在数据驱动诊疗规范知识组织的基础上, 进一步推动序化的诊疗规范知识向实践过渡的过程。无论是数据驱动还是知识驱动, 体现的都是在相关方法或技术支持下, 以诊疗规范文本为基础的知识组织和管理过程, 强调诊疗规范知识客观存在属性的同时, 有效连通数据到实践过程中间环节。离开“数据+知识” 驱动, 诊疗规范实践化将失去数据基础, 也就无法辅助临床诊疗决策制定, 更无法推动诊疗规范知识创新与价值共创。在文本挖掘和知识引导的联合驱动下, 以数据蓄积层积累的规模化诊疗规范文本为数据基础, 通过D2K 环节——知识结构化、K2K 环节——特征融合化、K2P 环节——知识数据化3 个关键环节实现诊疗规范知识计算化, 为计算化诊疗规范知识转化利用再生奠定知识实践基础。
1) 知识结构化
D2K 环节描述的是对诊疗规范知识进行知识单元序化和知识关联挖掘过程。数据驱动的知识结构化强调的是诊疗规范的数据属性, 探索的是如何高效、精准地将物理层面的诊疗规范文本转化为认知层面的医学知识单元的知识结构化过程, 是知识组织的核心任务, 也是实现知识发现的必要过程。首先, 在数据蓄积层的支持下, 通过检索数据库、爬虫、人工转录等方式, 对包括临床指南、专家共识、专家意见、临床路径、指导原则、国家标准等在内的诊疗规范知识资源进行采集与预处理工作,以便形成结构统一、格式一致、表达规范的诊疗规范语料, 为后续知识结构化奠定基础, 也为特征融合化、知识数据化环节创造前提。然后, 在诊疗规范语料的支持下, 根据诊疗规范形式特征、内容特征及病种特点, 将诊疗规范知识划分为不同类别。诊疗规范知识分类方式有: ①从疾病进展出发, 可将其分为早期、中期及晚期; ②從诊疗流程出发,根据诊疗规范知识源于临床实践而具备程序性特征, 可将其分为诊前、诊中及诊后, 或预防类、检验类、检查类、诊断类、治疗类、预后类、随访类等; ③从学科领域特性出发, 根据不同医学子领域分支特性, 可将其分为流行病学类、临床医学类、预防医学类等; ④从知识推理特性出发, 根据其是否具备推理能力, 可将其分为陈述性知识、过程性知识[58] 。鉴于此, 利用知识挖掘、知识组织理论方法和技术, 构建诊疗规范概念体系对语料中不同类别的诊疗规范知识进行概念分析、分类、描述和标引, 并在自然语言处理、潜在语义分析、机器学习等人工智能技术的支撑下, 通过人工构建专业领域词典或基于现有的标注数据对诊疗规范语料进行命名实体识别后, 利用人工定义的抽取规则或深度学习方式, 从语料中抽取出可以描述和表示诊疗规范知识的实体、概念、属性及关系的医学知识单元。最后, 使用XML、RDF、本体等语义网技术对医学知识单元进行知识关联[59] , 并通过规则、分布式表示、神经网络以及混合推理方式实现关联知识显性化, 动态展示知识向智慧转化的过程。
2) 特征融合化
知识结构化过程中形成的医学知识单元, 是对诊疗规范语料中相对独立的知识内容的形式化表示, 其以SPO 三元组(主语—谓语—宾语, Subject-Predication-Object)的形式对诊疗规范内容本身进行刻画, 未涉及诊疗规范知识的可计算化特征及其属性, 仅能形成计算机可读、可理解的医学知识单元。K2K 环节作为连接D2K 环节和K2P 环节的桥梁, 其目的是以医学知识单元为基础, 从知识不确定性角度入手, 基于诊疗规范知识的动态性、争议性、模糊性等特点, 对诊疗规范外部形式特征和文本内容特征中的知识可计算化特征进行筛选, 并将其与医学知识单元相融合, 实现特征融合化, 进而形成可计算化医学知识单元的过程。例如: 发表时间能表征知识的动态性、主题类型和证据等级能表征知识的权威性、相关论据的指标参数和不确定性线索词能表征知识的争议性和模糊性。可计算化医学知识单元的表示是在所构建的知识表示模型的基础上, 综合考虑诊疗规范知识可计算化特征及其属性, 利用语义链接技术从语义关联的角度对知识内容间存在的内在逻辑关联进行描述和刻画的过程。通过知识元语义链接形成的可计算化医学知识单元能够准确地描述和维系可计算化知识内部间的内涵关联和知识间的外延关联, 并从不同角度体现诊疗规范知识的可计算性, 为诊疗规范知识数据化奠定知识基础。
3) 知识数据化
D2K 环节和K2K 环节实现了诊疗规范知识在表示形式上可计算, 为K2P 环节实现知识在实践中“可执行” 奠定了知识基础。知识驱动的诊疗规范知识数据化强调的是知识的价值属性, 是对知识内涵的优化再造过程, 探讨的是如何基于可计算化医学知识单元打通诊疗规范知识“可计算” 到“如何计算” 的沟壑, 实现诊疗规范知识计算化,为智慧驱动的诊疗规范转化利用再生提供决策支持。且该过程的关键在于对可计算化医学知识单元的不确定性进行测度。
基于K2K 环节中从定性角度对可计算化医学知识单元相关知识对象属性的完整性描述, K2P环节从定量角度出发, 基于诊疗规范文本中对相关医学知识证据等级的描述情况, 参考循证医学证据分级标准, 从诊疗规范文本形式特征、内容特征入手, 对诊疗规范知识可计算特征的不确定性权重进行量化赋值。并在此基础上, 利用信息融合或知识融合方法, 对可计算化医学知识单元的不确定性权重进行度量, 获得表示知识对象的统一或一致的意见, 形成诊疗规范知识的证据化表示, 进而为知识转化层提供有效的、可靠的且具有置信度的计算化诊疗规范知识。其中, 利用信息融合或知识融合方法实现诊疗规范知识的不确定性测度, 可从多属性融合角度, 对诊疗规范知识的不确定性特征进行融合, 例如, D-S 证据理论、群体论证理论等; 从知识评价角度, 对诊疗规范文本内容中符合量表指标或具有评论性说明的知识进行提取和测度, 例如,量表、证据—评论网络等; 从信源稳定性角度, 借鉴物理系统稳态维持原理, 将诊疗规范文本内容中体现知识模糊性、冲突性、矛盾性或动态性的特征作为知识生态不稳定因素, 并以此为依据对相关特征进行概率统计以实现知识的不确定性测度, 例如: 概率、信息熵等。
5.3诊疗规范知识转化路径
知识转化层是诊疗规范知识计算化模式的终点, 探索的是计算化诊疗规范知识的利用及再生过程, 与“数据—知识” 驱动不同, 虽然粗粒度的诊疗规范文本, 细粒度、碎片化的医学知识单元和可计算化医学知识单元能在一定程度上支持临床诊疗决策, 但无法适应复杂性、综合性病情进展和诊疗环境的决策需求。智慧驱动的诊疗规范知识转化路径强调知识的决策属性, 是计算化诊疗规范知识能使实践智慧化、决策协同化、知识创新化的核心价值体现, 也是“数据—知识” 驱动发展演化的必然阶段。决策协同和知识创新作为诊疗规范知识转化路径的核心任务, 其本质是在社会发展、科研深入、医学进步综合影响下的, 以疾病诊疗全过程为知识转化背景的, 诊疗规范知识的不确定性长期渐进变化的过程。为了更好地探索诊疗规范知识转化实现路径, 本研究从临床诊疗全过程出发, 明晰决策协同化和知识创新化关键环节及其在“数据—知识—实践” 核心思想引导下的诊疗规范知识计算化模式中的作用和价值。
1) 决策协同化
P2P环节描述的是计算化诊疗规范知识的不确定性程度在实践中被反复验证、辅助决策能力逐渐增强的决策协同化过程。“数据—知识” 驱动文本形式诊疗规范向计算化诊疗规范知识转变, 而智慧驱动计算化诊疗规范知识在决策协同化过程中不断地被循证验证, 提升计算化诊疗规范知识不确定性程度置信度水平的同时, 促进诊疗规范知识与计算化诊疗规范知识的迭代进化。面向临床诊疗全过程,通过信息化技术将计算化诊疗规范知识移植于临床诊疗信息系统, 能够实现在医院、社区、家庭以及自主健康管理情境下, 为医生、护士、患者及普通公众等目标人群提供诊疗规范知识支持, 是诊疗规范知识与临床诊疗过程有机融合的关键, 是实现基于诊疗规范的智慧化临床辅助决策支持的基础步骤, 也是数据赋能医务工作者实现诊疗决策和诊疗质量同步“双优” 的不二法门。
在疾病预防控制阶段, 计算化诊疗规范知识能为目标人群提供定量化、可信可靠的疾病早防、早筛、早诊、早治等预防控制措施, 辅助医护指导患者防止疾病发生、延缓疾病进展, 辅助患者实现精准自主健康管理和健康状态自查, 在逐步实现疾病有效防控的过程中, 促进预防类计算化诊疗规范知识不确定性逐渐降低, 进而更好地为疾病预防控制服务。在疾病诊断治疗阶段, 计算化诊疗规范知识能辅助医生在综合考虑患者自身状况、医院救治能力等情况后, 在检查、检验、治疗等方案制定环节做出合理的诊疗决策, 提升医生诊疗同质化水平的同时, 提高患者的生存质量。面对不同时期不同患者个体, 在诊疗方案的不断执行过程中, 逐渐提高符合临床实践的诊疗规范知识的确定性程度, 不断强化知识的权威性及其在決策中的协同能力。在预后随访阶段, 以计算化诊疗规范知识为基础, 为医生预测患者生存状态、进展趋势等提供权威且具有置信度的数据支持, 提高医生对患者病情进展的把握程度, 并为后续随访的侧重点奠定工作基础。
2) 知识创新化
P2D 环节描述的是计算化诊疗规范知识在长期实践过程中, 出现医疗逆转, 即诊疗规范知识在一项最小化相关因素偏倚的随机对照试验中被发现无效或成本高于以往较低或较早的诊疗措施或护理标准且不为临床诊疗过程提供更多益处时[55] , 知识创新化的过程。医疗逆转是诊疗规范知识创新再生的源泉, 更是诊疗规范知识革故鼎新的基础和保障。因此, 本研究以临床科研医疗逆转案例为例来探讨计算化诊疗规范知识的创新化过程, 在疾病预防控制方面, 美国癌症协会建议40~49 岁女性每1~2年进行一次乳房X 线检查[60] , 但G?tzsche P C等[61] 通过系统回顾发现女性并未从此中获益, 且其因检查所受的风险远高于患病本身。在疾病诊断治疗阶段, 全世界范围内, 在手术麻醉中使用氯胺酮已延续50 余年, 且大量研究表明, 术中低剂量使用氯胺酮与心脏术后的疼痛减轻和认知改善有关。但是, 一项国际、多中心、双盲随机临床试验发现, 氯胺酮在大手术后未能改善老年人谵妄症状, 与安慰剂相比, 反而增加了幻觉和噩梦等副作用[62] 。在预后随访阶段, 多项系统评价发现, 早期支持性出院卒中康复服务可以减少脑卒中患者死亡率, 且不会给家庭照顾者带来更多负担。但Rich?ard I L 等[63] 通过两年多的跟踪调查发现, 在中风后施行以家庭为主导的康复计划是无益的, 是对患者及其家庭时间和资源的过度消耗。由这些案例不难发现, 医疗逆转现象的发生是对人们固有认知以及经验否定的根源, 且认知及经验被否定后的认知重建过程也是及其缓慢的, 且从诊疗规范中消除医疗逆转相关的知识, 对知识进行创新也是缓慢且艰难的[64-65] , 但不可否认医疗逆转从量变到质变的累积是知识创新的源动力, 更是推动诊疗规范知识不断被发现、被深入应用的基石。
6结语
“数据—知识—智慧” 驱动下情报研究范式的变革, 为实现数据向知识转化、知识向实践深化提供了理论依据, 为有效推动情报工程化和智能化发展打开了新局面。本研究以诊疗规范为研究对象,聚焦情报学领域知识深层次组织方式、知识定量化测度手段、知识高效率应用路径等科学问题, 在可计算生物医学知识视角下, 以解决诊疗规范知识组织、转化及再生过程缓慢等实际问题为核心目标,通过借鉴可计算生物医学知识核心思想与DIKW 层级模型内涵, 提炼出诊疗规范知识计算化模式核心思想, 并在模式核心思想的指导下, 提出了包括1个核心目标、3 个层级结构、3 条实现子路径、6 个关键环节的诊疗规范知识计算化模式立方体“1-336” 及其实现路径。模式立方体“1-336” 以“数据—知识—实踐” 循环为主线, 以“数据—知识—智慧” 三级驱动为“数据—知识—实践” 持续循环的助推剂, 在实现路径探索和关键环节打通的过程中, 与以往研究相比, 本研究从知识组织深度上, 逐步实现诊疗规范知识单元描述维度由少到多、知识组织粒度由粗到细、语义关联强度由弱到强转变; 从数据形式上, 逐步实现诊疗规范知识从文本到医学知识单元、到可计算医学知识单元、再到计算化医学知识转变; 从计算化程度上, 逐步实现诊疗规范知识从不可计算、到可计算、再到计算化转变; 从价值提升上, 逐步实现诊疗规范知识的属性从数据属性, 到价值属性, 再到决策属性转变。构建的模式立方体及其实现路径系统、综合且有深度。总体上, “数据—知识—实践” 循环过程的打通, 增强了诊疗规范知识在实践中的内涵认知程度, 提高了知识转化过程的适应性, 推动了知识在实践中的可执行性。
诊疗规范知识计算化模式的构建及其实现路径的探索, 以知识计算化手段作为连通数据到实践的有效路径, 从根本上解决了诊疗规范文本直接用于实践所面临的难利用、不易扩展及可植入性差等问题。且面对特定医学问题和诊疗决策需求, 实现诊疗规范知识计算化对改善现有医护大多基于有限的、不确定的知识进行医学决策的现状, 打破医学知识、临床经验与临床智慧之间的沟壑, 实现两者之间和谐共存, 促进知识到智慧再到临床实践转化效能,提高知识驱动下的临床决策支持效率, 具有里程碑式的价值和意义, 也为各领域知识计算化研究提供理论支撑以及方法学参考和依据。但本研究仅从理论层面探索了诊疗规范知识计算化模式及其实现路径, 前期从实证层面对诊疗规范知识计算化部分内容进行了实证研究。未来, 笔者将以诊疗规范知识计算化模式立方体“1-336” 及其实现路径为指导,继续对诊疗规范知识的提炼、知识转化应用及知识创新进行实证研究, 实现诊疗规范“数据—知识—实践” 循环快速流转, 为各领域知识计算化研究提供理论支撑、方法学参考和数据支持。