APP下载

信息抽取与中医药文献资源利用

2017-10-26王建文

电脑知识与技术 2017年22期
关键词:中医药

王建文

摘要:信息抽取是高效利用文献资源的重要信息化手段,是从非结构文献资源快速挖掘潜在的有意义的研究方向和创新资源的重要信息化途径。该文结合中医药理论和中医药学科的内在规律特征,初步探讨信息抽取规则生成模式及其构建体系。

关键词:信息抽取;抽取规则;生成模式;中医药

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)22-0185-02

1概述

信息抽取是从非结构化的自然语言文本中确认提取重要的结构化信息单位和关键知识节点,将复杂模糊的自由文本数据转化为结构清晰的线性数据。信息抽取作为文本挖掘的一个重要技术手段,可利用它来抽取解析很多文献所包含的知识元及其相互作用关系,从非结构的信息源中挖掘出不同知识元间新的具有隐含意义的关联性,这样可以极大地提高文献的利用价值,发掘出很多意想不到的创新思路。无数中医药临床实践与海量的中医药理论研究文献,包含着大量的具有潜在逻辑关系的主题。因此,充分利用现有中医药的各种文献数据庫,采用信息抽取技术,形成对文献的二次开发,通过整理揭示不同主题间的内在关系层次,发掘创新资源与重要的研究线索。

2结合中医药理论,建立中医药相关研究部分的领域本体

本体是一个揭示世界本质的哲学概念,是针对客观事物的一种抽象的系统化的描述。领域本体是对特定领域知识的一种系统化描述,也是对该领域所具有的特性和规律的一种结构化表述,包括领域概念、概念属性及概念间相互关系的层次体系,一定的推理规则等。

图1和图2就是中医药领域的一个微型知识的本体构建过程,通过本体结构说明如何将中医药自然语言语义化和信息化。

按照本体论原理,根据中医药语言特点及学科体系,设计一种中医药本体信息系统,解决中医药学科概念间的逻辑层次及其相互关联性。

3信息抽取与抽取规则生成模式系统分析

信息抽取器根据规则生成器生成的抽取规则,对文本进行分析抽取,并将抽取结果存入数据库,整个过程和体系结构如图3。

其中最为关键的部分是抽取规则生成模块,要完成该模块的构建,又必须完成好以下几个模块的设计。

1)本体解析:本体解析是将领域本体中包含的概念、关系及其逻辑结构等解析出来,并把这些概念、关系的形式化描述结果存入数据库中。数据库表中记录反映的是本体中概念及概念间的关系。以下示例说明概念间层次关系解析必须遵循具体科学的内在本质规律。

2)字典模块的设计:利用领域专家编撰的词典,采用某种匹配策略,可以从文体中抽取具体的词汇。在本体解析中,只记录了框架性的概念、关系,并没有记录这些概念、关系所包含的具体词汇。字典就是为了整理归集标示这些概念、关系的关键词汇。

3)抽取规则及其生成模式:对于要处理的自然语言文档,首先必须借助语法分析模块对文档进行一般性的语法预处理。抽取关键信息元,剔除无关的杂音信息。根据前面数据库中的解析结果和字典记录生成合理的信息抽取规则,系统再依据此规则对预处理后的文档进行信息抽取。

由于概念的属性、属性的取值范围,每个概念变量所包含的关键词集合,以及各概念间的本质关系等是由具体学科的内在逻辑联系所决定的。因此,本体的构建和字典编辑都必须严格依从和反映具体学科的内在本质规律,这也是最基础最艰巨的工作。

4总结和展望

目前,领域本体解析系统的构建还处于探索阶段,还只是一种某些专业机构的解决思维。它的功能虽然强大,前景虽然诱人,但由于很难突破专业领域片面性的瓶颈,至今没有形成一套广泛适应的成熟的方法。中医药本体所包含的范围很广大,中医药词汇和概念的确立和归集,如何将立体的全方向的概念关系穷尽离散分解成结构化的二元关系或其他线性关系,需要中医药领域专家的广泛参与和不断总结摸索。

由于古汉语的复杂性以及医学术语的多样性,概念与概念之间复杂关系的内在逻辑的模糊性,以及如何将这种内在逻辑关联性揭示出来,并转化为便于计算机理解分析的结构化语言等等,都直接影响到领域本体的创建和信息抽取的准确性。因此,总结分析影响抽取正确性的因素是今后值得相当关注和研究的方向。

猜你喜欢

中医药
中医药非凡十年
——中医药科研创新成果丰硕(一)
《中华人民共和国中医药法》实施四周年
中医药在恶性肿瘤防治中的应用
中医药在治疗恶性肿瘤骨转移中的应用
献身中医药事业的巴渝中医人
重视中医药发展,发挥中医药作用
两会聚焦:中医药战“疫”收获何种启示
贯彻实施《中华人民共和国中医药法》促进中医药振兴发展
从《中医药法》看直销
中医药立法:不是“管”而是“促”