基于语料的脑卒中护理领域本体的构建
2023-01-09韩世范崔晓芳朱瑞芳
张 映,韩世范,*,曹 妍,薛 佳,崔晓芳,朱瑞芳
1.山西医科大学,山西 030001;2.山西医科大学第一医院;3.山西医学期刊社有限责任公司
脑卒中又称为脑中风,其发病率、致残率、致死率、复发率、经济负担方面等均较高[1],而我国在世界范围内属于脑卒中患病率、发病率和死亡率较高的国家之一[2]。目前,医疗信息化建设在我国已经得到了广泛且快速的发展,许多研究者将脑卒中与大数据结合进行了相应研究,如刘盾等[3]采用K-means 聚类算建立了脑卒中病人并发相关肺炎的预测模型。医疗信息系统的广泛建立、大数据信息的产生与收集、数据挖掘技术的发展使护理研究成了护理实践过程中发现问题重要工具,通过超级计算机、机器语言的开发使收集到的数据指标通过系统、科学的研究方法和专业化的研究评价该问题,直接或间接指导护理实践,改进护理工作,提高护理质量[4]。如今的信息产生迅速,大部分信息都是用非结构化的方式存储的。数据库来自不同的生产商,其网络环境和检索功能各不相同,护理科研人员在获取文献的过程中不仅需要经常反复在各数据库之间切换,还要熟悉各数据库的收录范围和检索方法,致信息检索不便[5]。大量的专业人员开始进行探索和研究,试图寻找一种合适的数据模型提高对自然语言的语义分析、特征提取算法,由此“本体”被引入了计算机领域。本体相当于一种知识的组织形式和表现形式,可以展示某一领域的概念和词汇,还可以展示这些概念和词汇之间的逻辑关系,并且可以外延出概念间、关系间之外的新的规则[6],所以本体在计算机技术的发展中发挥着重要的作用,研究人员也都探讨将一个领域的知识及词语间的关系建成一个本体,利用本体进行语义分析,提高信息检索的查全率和查准率[7]。目前,国内外已经建立了很多疾病本体运用于疾病监测、科学决策、生活指导等多个方面,如囊性纤维化本体[8]、肝炎本体[9]、2 型糖尿病生活干预本体[10],但这些本体的构建都是从医学角度进行分析,护理内容较少。国际公认的护理系统也有很多,如美国护理协会认可的护理干预分类系统、家庭保健分类系统、奥马哈系统等,这些系统主要依靠简单的枚举或组合方法构建,但很多词汇与本体论有一定差异,单词派生的不同、颗粒度级别的差异导致这些系统中拥有的相似之处无法被利用。临床与科研是相辅相成、浑然一体的。护理科研的发展来源于临床护理实践[11],课题应来源于临床实践,护理研究的成果应用于指导护理实践。所以,本研究旨在从护理角度构建脑卒中护理领域本体,从而设计护理领域本体构建模型,以便多个系统之间的术语能交互使用。
1 研究方法
1.1 语料收集与分类建模
1.1.1 原始语料来源 本研究原始语料来源广泛、形式多样,从临床实践经验到护理学教材,从纸质版教材到XML 文件。在计算机领域专家的建议下,经过团队讨论,以研究者在神经内科、神经外科临床实践过程中获得的脑卒中护理相关知识为基础,从《内科护理学(第6 版)》《外科护理学(第6 版)》《护理学基础(第6版)》《健康评估(第6 版)》等教材中选取关于脑卒中护理的相关知识,包括《外科护理学(第6 版)》中第十五章第一节脑卒中护理学知识,《内科护理学(第6 版)》第十章神经系统疾病病人的护理中第五节关于脑梗死、脑出血、蛛网膜下腔出血病人的护理知识。在全国图书馆参考咨询联盟中以“脑卒中护理”“书名”OR“脑卒中护理”“主题词”OR“脑卒中护理”“全部字段”为检索词进行检索,经过去重后获得书籍21 本,经小组讨论,将无法获取电子版的书籍进行排除,最终获得14本脑卒中护理书籍。由研究人员详细阅读每本书籍内容,根据内容详细程度、结构化程度进行讨论,选取《脑卒中高级护理临床实践》《脑卒中康复护理》《脑卒中中医特色康复护理规范》《脑卒中专科护理》《社区脑卒中病人康复护理技术》《脑卒中的康复护理》《急性脑卒中护理》7 本作为原始资料。此外,还选取《神经内科护理手册(第2 版)》[12]关于脑卒中护理的内容进行补充。通过上述语料收集到众多脑卒中病人常见的护理诊断,查阅《护理诊断、结局与措施》寻找每项护理诊断所对应的护理结局名称和护理措施名称,参考《北美护理诊断协会(NANDA)-Ⅰ护理诊断》补充每个护理诊断的内容,参考《护理措施分类(第5 版)》收集相应的护理措施,参考《健康评估(第6 版)》收集含有该项护理诊断的评估项目,护理目标来源于《护理结局分类(第3 版)》中原有的组织化结构。本研究以临床实践中获取到的脑卒中病人常用药物为基础,选取《临床药物手册(第5 版)》对其进行补充和扩展,从内科、外科角度出发收集脑卒中病人用药。
1.1.2 原始语料收集方法 采用文献回顾法,由研究者系统回顾全国高等教育护理学教材、神经内科护理手册、神经外科护理手册、脑卒中护理书籍、护理诊断、护理结局等文献中关于脑卒中护理的相关知识,了解脑卒中护理现状。同时,计算机检索国内外脑卒中相关网站中的脑卒中指南,并收集脑卒中护理知识。以临床实践中收集到的脑卒中护理知识为基础,对其进行内容、结构化和属性特征分析,选取最具有结构化和属性特征的内容。最后,将所有XML、PDF、EXCEL等形式的原始资料转换为Word 格式的文本,并对其内容采用人工方式一一进行校对。
1.2 属性字段标注 语义分析对原始语料进行精加工的过程,通过对原始语料进行属性标注,形成属性词表,并构建数据库字段结构,同时也方便后续的语料解析。属性字段是指一段文本所要阐述的内容,通过属性字段观察即可了解到该段问题主要简述的内容,为了便于计算机识别和分析,需要对收集的所有脑卒中护理的资料进行属性字段设置。根据护理学教材、脑卒中护理的相关书籍、现有的药物本体、临床药物手册、神经内科护理手册、神经外科护理手册等广泛收集护理常用的属性字段,并分析概念、属性字段、文本内容之间的三元组关系,通过语义分析将收集到的脑卒中护理原始资料进行属性字段的设置。由小组另一个成员对所设置的属性字段进行检查,发现同一性质的内容不同的文件库中的属性设置不同,在计算机专家的建议下,需对具有相同性质的属性字段名称进行分析和统一。
1.3 分类建模 在本体构建中,分类的目的是基于资源构建层级的概念模型,目前已有众多的分类方法,包括中图法、MeSH 词表、护理诊断分类、护理措施分类、护理结局分类[13]等,这些分类方法都为脑卒中护理领域本体构建的分类提供了借鉴。本研究采用混合性方法将上述获得的脑卒中护理的相关知识进行分析,在中图法、MeSH 词表、护理程序等中检索其所在的位置,寻找上级类目和下级类目,根据上级类目进行寻根,找出其所在的护理领域范围,查看其下级类目或子类,判断哪些护理学知识可以作为其下级类目。如果中图法和MeSH 词表的护理部分对某些护理内容并没有进行类目设置,本研究将参考医学中的类似名称的类目体系进行护理类目级别的新增,以尽量全面涵盖脑卒中护理的相关知识。
1.4 Word 文档解析入Solr 库 XML Schema[14]可以通过定义所收集文档中的元素、属性、子元素、子元素的次数和数目、元素是否为空或包括文本、元素和属性的数据类型、默认值和固定值来定义文档的合法构建模块。基于JAVA 环境,使用开发工具IDEA 或Eclipse,将进行标注后的Word 文档运用XML Schema的描述语言,通过预先规定XML 的元素和属性,定义XML 文档的结构和内容,运用解析插件,遵循一定的开发规范编写,形成结构化的XML 代码,实现了从原始Word 文档到再生资源的转换。脑卒中疾病护理中,先定义元素“nursing routing”,将其注释为“疾病护理”,再将其设置为复合元素类型,复合元素是指该元素之下还包括其他元素或属性。护理实践库内容庞大,包括多种类型的护理,各类型原始资料之间有很多相同的属性名称,所以先在护理实践中引用共有的属性类别,然后再将各复合元素独有的属性类别分别进行引用设置,之后再将各个元素的注释一一进行编写。运用XMLSpy 软件作为Schema 的开发环境。在Solr数据库中进行索引配置与解析。
1.5 Sorl 库索引库抽检 入库的过程中或许因为代码编写错误、字段设置或系统等问题出现入库不全、资料解析不全或位置错误等问题,为保障资料的合理性,采用人工的方法对入库后的内容进行抽检,从每个文件中随机选取2 个及以上的标题内容进行人工检验与核对。如护理常规选取的“脑出血”“脑梗死”“缺血性脑血管病护理”,检索式为:“type:护理疾病”AND“title:脑出血OR 脑梗死OR 缺血性脑血管病护理”。将抽检到的问题进行汇总,与相关技术人员进行讨论交流,依次对问题进行解决,然后再进行抽检,直至无误。
1.6 词表构建
1.6.1 概念词表构建 采用人工词表构建的方法将原始资料中所涉及的概念名词按照文件分类的方法进行等级划分和概念收集。解剖部分的概念名词则直接运用现有的本体MeSH 词表,因MeSH 词表既具有一定的权威性且各概念名词之间形成了严格的等级结构,可以为本研究的解剖部分直接使用,也符合本体构建过程中复用现有本体的理念。在概念收集的过程中难免出现重复的情况,需要进行合并去重、整合去重[15]。
1.6.2 属性词表本体关联构建 属性词表主要包括概念类别(定义域)、属性名称、属性类别、值域、取值资源、检索字段、返回字段。概念类别,即定义域,是指脑卒中护理领域中的概念大类,例如概念词表的“疾病”“护理诊断”“操作护理”“康复护理”等均为概念类别,每个概念类别均需对其进行属性设置,为避免遗漏,本研究将所有的概念类别进行列举,之后再对其进行属性设置。属性类型包括固有的基础属性和专业属性。基础属性是指固定、确定的或具有专业认同性、公认性的,不会因某些因素的变化而发生改变的属性,或者可以自身独立,与其他概念类别之间无需关联的概念类别;专业属性是指可以使两组概念之间产生关联的属性名称。
1.6.3 同义词词表构建 同义词词表分为两种,一个为概念同义词词表,另一个为属性同义词词表。概念可以反映某一事物具有的本体属性或特有属性,某一个概念可能具有不同的叫法,即术语,一种对概念的语言指称[16]。为了扩大知识获取范围,尤其是为了获得尽可能多的语料,将设置相应的概念同义词词表,如“CVC”是“中心静脉置管”简称,可以将“CVC”认为是“中心静脉置管”的同义词。
1.7 专家咨询 为了保证本体关联的科学性,研究过程中不断进行文献研讨、小组讨论和专家咨询,进行评价和修改。本研究是对脑卒中护理领域的本体构建研究,所以经过团队成员的反复讨论、修改,认为该本体必须突出护理特色,围绕护理理论开展脑卒中护理,所收集的概念术语必须有所属类目。将概念词表和属性词表采用面对面的方式与小范围的护理专家进行咨询。专家入选标准[17]:副高级及以上职称;从事本专业工作≥10 年;本科及以上学历;具有严谨求实的科研工作态度,自愿参与;前3 条符合2 条即可。于2022 年1 月向山西省14 名、上海市1 名护理学专家进行咨询,专家年龄(46.07±6.76)岁,从事神经内科、神经外科、急诊、重症监护、护理教育工作多年,具有丰富的科研、临床、管理、教学经验。因概念词表内容过多,所以在进行专家咨询问卷制作时对一级类目、二级类目进行了全部展示,为便于了解二级类目下的内容,因此保留了部分三级类目。交谈过程中先从研究背景、目的、研究过程、词表来源等多个方面对本研究进行了详细介绍,然后由专家查阅词表,及时反馈专家提出的问题,并将建议及时准确地进行记录。
2 结果
2.1 原始语料收集结果 经过大量的文献回顾和小组讨论后,最终获得的脑卒中护理资料主要包括管路护理要点、护理操作并发症的预防处理、常用操作流程、脑卒中疾病的内科外科护理常规、脑卒中并发症护理、危急值管理、分级护理制度、护理敏感指标、适用于脑卒中病人的一般性评估量表和专科评估量表、专科检查护理、体格检查、常见合并症及并发症康复护理、常见康复护理操作技术、康复工程-常用康复工具的使用、常见功能障碍康复护理、社区康复护理指导、运动护理、中医康复护理技术、作业治疗护理、心理分期护理、中医心理护理、三级预防护理、药物治疗护理、脑卒中神经介入治疗的护理、外科手术护理、特殊治疗操作护理、脑卒中危重症的主要监测项目、脑卒中危重症病人的护理、重症监护技术、脑梗死、脑出血全责护理规范及工作流程、健康教育、脑血管解剖结构、饮食护理、脑卒中常见护理诊断、护理结局评价、护理措施等众多脑卒中护理资料。
2.2 分类建模结果 根据上述分类方法,结合计算机专家医学领域本体构建的经验,经过团队多次的讨论、修改,最终将脑卒中护理领域资料进行了以下分类:以脑卒中护理为中心分为疾病护理、药物治疗护理、护理实践和解剖四大类。
2.3 专家基本信息及权威程度 专家基本信息见表1。专家权威程度用权威系数(Cr)表示[18],由专家判断依据和熟悉程度计算而来,本研究专家的判断依据为0.92,专家熟悉程度为0.68,专家权威系数为0.80。
表1 专家基本信息(n=15)
2.4 本体构建结果 根据专家意见,研究团队进行了详细讨论,最终形成概念类别20 个,概念共1 917 个,属性关联词表共获得154 条。概念类别中含属性名称最多的为“疾病和症状”,共19 个属性名称,占12%,其次为康复护理,含有17 个属性名称,占11%,说明在资料收集和属性标注过程中疾病、症状收集的资料相对较全,属性标注的较为细致;康复护理因包括操作、训练、中医、社区、工具等多种护理类型,所以其属性名称也较多。属性词表中概念类别情况见表2。
表2 属性词表中概念类别情况
3 讨论
3.1 脑卒中护理原始语料收集 在原始资料收集过程中虽然研究人员已经从教材、脑卒中护理书籍、护理手册、临床实践、护理学词典等多个领域广泛收集脑卒中护理领域的相关资料,但因本研究需提供Word 文档,必须将所有资源进行格式转换和文本校对,需耗费大量的人力、物力和财力资源[19]。加之研究时间有限,无法完全收集到所有关于脑卒中护理的资料,存在一定的遗漏现象。随着医疗技术的不断发展、新药物的研发,会有很多新概念词的出现,所以本体是一个随着时代的发展而不断完善的过程[20]。并且该本体系统具有自学习机制,所以在后续的研究中将继续收集脑卒中护理的相关语料,对现有的本体进行扩充。
3.2 脑卒中护理相关量表 本研究在前期资料收集过程中通过临床实践和相关数据获得30 余个脑卒中病人常用量表,但因系统问题,无法进行表格识别和解析,所以在后续解析入库中并未将量表进行解析,因此在本体验证阶段会出现某些概念或属性无法识别的现象,在后续的研究中将考虑改进系统或进行格式转换,努力实现表格文本的解析入库。
3.3 机器学习 目前,机器学习算法在汉语方面的研究已经取得不错的成绩,但因数据量比较低,中文分词在汉语言的处理上较难[21],从而导致机器学习的效果并不是很好,可能是因为机器学习其本体是建立在大量的数据基础之上的,数据量越大,其学习效果越佳,准确度越高。对脑卒中护理知识进行本体构建之前,需要对脑卒中护理书籍进行数据挖掘,即运用现代科学的技术手段对脑卒中护理内容进行深度加工和整理,此过程非常复杂且十分困难,在概念自动获取和领域概念属性关系自动获取方面具有很大的挑战性,希望相关学者在后续研究过程中不断进行完善和改进。
4 小结
经过专家咨询和系统展示,本研究通过语料建立了概念词表、属性词表和本体关联,遴选的专家积极性和权威性都较好,研究结论可靠。本研究从脑卒中护理为切入点,通过脑卒中疾病的护理建立模型和本体,尝试构建出其他疾病也适用的模型构建方法、模型构建结果及本体构建方法,为后续护理领域本体的构建提供参考。