APP下载

基于依存关系和倒排索引的中医电子病历检索方法

2020-12-29郭坤丁有伟

计算机时代 2020年12期
关键词:病历本体检索

郭坤 丁有伟

摘  要: 医疗信息化背景下,依托大数据的智慧医疗成为研究热点,而电子病历检索作为中医数据处理的基础操作,其性能直接影响到上层统计分析和挖掘应用的性能。目前中医电子病历采集和存储尚未形成统一标准,存在大量非结构化数据,基于传统关系型数据库的检索方式已不再适用。文章提出一种基于依存关系和倒排索引的中医电子病历高效检索方法,通过挖掘关键词之间的依存关系,使用二元组表示,并为二元组建立倒排索引以提高检索效率。该方法根据关键词之间的依存关系重构原文,创建倒排索引提高检索性能,保证海量数据的高效访问。

关键词: 中医电子病历; 依存关系; 倒排索引; 结果重构

中图分类号:TP391.1          文献标识码:A     文章编号:1006-8228(2020)12-56-04

Abstract: In the medical informatization, intelligent medical treatment relying on big data has become a research hotspot, and electronic medical record retrieval, as the basic operation of TCM data processing, directly affects the performance of upper statistical analysis and application. At present, the collection and storage of traditional Chinese medicine electronic medical records has not formed a unified standard. There are a lot of unstructured data, and the retrieval methods for traditional relational database are no longer suitable. This paper proposes an efficient retrieval method of TCM electronic medical records based on dependency relationship and inverted index. By mining the dependency relationship between keywords, using binary group to express, and building inverted index for the binary group to improve the retrieval efficiency. This method reconstructs the original text according to the interdependence of keywords, creates inverted index to improve the retrieval performance, which ensures the efficient access of mass data.

Key words: electronic medical records of Chinese medicine; dependency relationship; inverted index; result reconstruction

0 引言

随着医疗信息化的不断推进,临床信息系统建设逐步完善。直到2014年,医院临床医疗管理信息化(CIS)系统在医疗信息化解决方案中占比44.4%,预计在2021年超过医院管理信息化(HIS)的规模[1]。在人工智能,大数据应用增加的背景下,中医电子病历已成为各类辅助系统和智能应用的数据支撑[2],但如何高效利用临床诊疗信息对数据拥有者和应用开发者而言均是巨大的挑战。

现有对电子病历中非结构化数据的检索方法主要分为两类:基于查询重构的方法和基于本体的方法。查询重构主要有两种形式,一是关键词拓展[3],即依托外部医疗知识为原检索扩展关键字,如UMLS、ICD-9编码等。此类方法在实际应用中效果不明显,且容易发生查询漂移的问题;二是关键词权重调整[4],即在原查询的基础上,分析关键字在文档中的贡献度,查询重构本质上是一种基于关键字的方法。而仅仅依赖关键词作为检索的标准则存在明显的弊端。有研究认为,关键字之间语法关系的缺失是造成文本匹配不准确的重要原因[5]。许多不相关的文档之间可能存在相同的關键字[6]。

基于本体的检索方法通过定义专业词汇和专业术语,深层次地理解检索对象。该方法在电子病历检索领域得到广泛应用。曾红武等人[7]提出一种运用模糊向量空间模型的概念,挖掘分析海量电子病历,建立本体知识库,能够高效识别病历中疾病的诊疗模式和依据。巩沐歌等人[8]结合高血压诊断知识与本体库,构造了高可用的高血压电子病历库。但此类方法需要建造健全的本体库,这使得检索的效果很大程度上依赖本体库的质量。

本文提出一种基于依存关系和倒排索引的中医电子病历检索方法,提炼关键词之间的依存关系,使用依存关系重构原文,并在此基础上创建倒排索引。该方法兼顾检索结果的准确性和数据存储的高效性。

1 基于依存关系的中医电子病历核心语义提取

依存语法分析的目的是发掘复杂文本中关键词之间的依存关系。本方法采用了注意力机和多层感知机作为实体关系的提取模型。模型包含输入层,抽象层和输出层。输入层完成特征编码,抽象层产生依存关系矩阵,输出层解析依存关系矩阵得到依存关系向量。

1.1 输入层

输入层接受三种特征输入,分别为词嵌入,词性和词类。词嵌入使用Word2Vec算法,设每个词语256维;词性和词类使用人工标注的方法,针对儿童哮喘病历数据,共使用7种词性,5种词类,如表1所示。

1.2 抽象层

抽象层由注意力机制和多层感知器组成,对模型输入进行深度抽象,最终得到依存矩阵。设存在句子[Sentence=word0,word1,word2,…,wordn],抽象层输出依存矩阵[D=λ0,0…λ0,n???λn,0…λn,n],其中wordn表示句中第n个词,[λx,y]表示[wordx]与[wordy]的依存值。

对于中医病历中非结构化数据,具有依存关系的关键词并没有固定的排列规则,这主要体现在两个方面:①关键词之间的语序不固定,即关键词之间没有严格的前后关系,这主要是由不同的书写,记录习惯导致;②关键词之间的词距不固定,尤其当出现嵌套关系时,相关联的词对可能距离较远。而注意力机制本身对位置信息不敏感,能很好地提取全局特征。

注意力机制本质上可表示为一个查询与一系列键值对的映射关系。

设A为注意力函数,S为相似度函数,存在一个查询(query)和L组键值对(key, value),Source表示键值队集合,i表示键值对的序号,则注意力计算公式如下:

1.3 输出层

输出层解析依存矩阵得到依存向量。根据依存句法分析公理[9],在一个完整的语句中,任何一个词语都不能依存于2个或2个以上的其他词语,进而在依存向量中每一个值可以表示为依存对象在句中的索引。

输出层主要采用Esiner算法[10],Esiner算法在每一个间隔[s,t]计算最佳结果。s表示左界的索引t法表示右界的索引且s和t中至少有一个是头节点。

该算法以哈希表为基本数据结构,以间隔[s,t]为键,数值分为两类,即L(头节点在s处)和R(头节点在t处)。实际计算中考虑四种情况,如表2所示。

1.4 依存向量转子查询

依据依存向量将原始语句分解成多个子查询,子查询记录成二元组的形式。首部为核心词,尾部为依存词。设对于句子[e0,e1,e2,e3]有依存向量[-1,0,-1,2T],则可以拆分为子查询集[e0,e1,e2,e3]。表3所示依存向量转子查询的实例,该文本包含18个关键词,其依存矩阵为D18x18,解析后得到维度为18的依存向量。

在众多子查询中,并非每一个都需要作为检索特征,过多地引入非关键子查询反而会降低查询地精度。找出关键子查询可以大大优化检索效率和准确度[11]。本文筛选出有效的子查询,例如药剂与服用量,病症与患病程度。

2 基于倒排的索引創建

正排索引为整个文档创建索引,并记录下文档中词语的词性、词频等信息。该方法优点在于创建简单,易于后期维护;缺点表现为,查询时需要依次扫描所有文档,效率低下。倒排索引为文档中每一个关键字创建索引。这种方法虽然创建维护比较复杂,但在处理海量数据时优于正排索引。本文以子查询为基本单元,构建倒排索引。根据电子病历的需求和数据的结构特点,设计倒排索引的数据结构如表4所示。

3 实验分析

实验数据为某名老中医诊治儿童哮喘的3000份病历,每次迭代包含4条数据,总共训练10个epoch。

4 结论

针对目前中医电子病历中非结构化数据检索效率低的问题,本文引入依存关系分析,在此基础上,筛选有效子查询并创建倒排索引,最大程度还原语义的同时提高检索效率。

实验表明,本文提出的基于注意力机制的依存关系挖掘网络较传统神经网络在收敛速度和准确率上都有提升,对依存关系进行规约并创建倒排索引的检索方式在数据容量以及检索速度方面优于传统的关系数据库。本研究成果具有重要的理论研究意义和实际应用价值,该方法可广泛应用于医院信息系统及中医药大数据中心与云平台领域。

参考文献(References):

[1] 王群.我国医疗信息化现状与趋势分析研究[C]. SingaporeManagement and Sports Science Institute, Singapore、Information Technology Application Research Association, Hong Kong.Proceedings of 2017 2nd International Conference on Education Research and Reform (ERR 2017) V20.Singapore Management and Sports Science Institute, Singapore、Information Technology Application Research Association,Hong Kong:智能信息技术应用学会,2017:268-272

[2] 孟岩,罗德芳.基于临床知识库的电子病历智能化应用研究[J].中国卫生信息管理杂志,2019.16(5):601-604

[3] Gao J,Xu G,Xu J.Query expansion using path-constrainedrandom walks[C] //Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572

[4] Chang YC, Chen SM. A new query reweighting methodfor document retrieval based on genetic algorithms[J].IEEE Transactions on Evolutionary Computation,2006.10(5):617-622

[5] Cui H, Sun R, Li K, et al. Question answering passageretrieval using dependency relations[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM,2005:400-407

[6] 付鹏斌,陈帅帅,杨惠荣,李建君.结合依存关系与同义词词林的相似度计算[J/OL].计算机技术与发展,2020.1:1-8[2020-01-31].http://kns.cnki.net/kcms/detail/61.1450.TP.20190925.1523.042.html.

[7] 曾红武,彭丽.基于本体的电子病历后结构化模型关键技术[J].中华医学图书情报杂志,2017.26(8):13-16

[8] 巩沐歌. 基于本体的高血压电子病历知识库研究[D].西安電子科技大学,2010.

[9] Yaghoobzadeh Y, Schütze, Hinrich. Multi-level Repre-sentations for Fine-Grained Typing of Knowledge Base Entities[J]. 2017

[10] Eisner, Jason. Three New Probabilistic Models forDependency Parsing: An Exploration[J]. Computer Science,1997:340-345

[11] Kumaran G , Carvalho V R . Reducing Long QueriesUsing Query Quality Predictors[C]// Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2009, Boston, MA, USA, July 19-23, 2009. ACM,2009.

猜你喜欢

病历本体检索
Abstracts and Key Words
强迫症病历簿
对姜夔自度曲音乐本体的现代解读
“大数的认识”的诊断病历
2019年第4-6期便捷检索目录
为何要公开全部病历?
专利检索中“语义”的表现
《我应该感到自豪才对》的本体性教学内容及启示
村医未写病历,谁之过?
Care about the virtue moral education