APP下载

中医药术语同义词查询数据库建设初探

2019-02-22王正山朱建平

中国科技术语 2019年1期
关键词:工具书词条术语

王正山 朱建平

(中国中医科学院中国医史文献研究所,北京 100700)

中医药术语的规范化,是中医药学一项重要的基础性的系统工程。它对于中医药知识的传播,国内外医药交流,中医药科技成果的推广,中医药书刊和教材的编辑出版,乃至中医药现代化、国际化都具有十分重要而深远的意义。由于中医药术语形成的历史性和特殊性,中医术语规范成为中医现代化、国际化的关键问题之一[1]。

在3部《中医药学名词》审定发布之后,用户反馈积极,同时也有一种困惑,即淘汰了一些不规范术语,一时又不知道该用哪个规范术语。为此,2012年国家科技基础性工作专项重点项目“中医药基础学科名词术语规范研究”启动了中医药术语同义词查询数据库建设,以解决这一问题,促进规范术语的推广。

一 问题的提出

2000年,全国科学技术名词审定委员会中医药学名词审定委员会成立,开展中医药名词规范化工作,先后审定、发布了《中医药学名词》之基本名词、内科妇科儿科、外科皮肤科肛肠科眼科耳鼻喉科骨伤科等3部国家规范名词,推动了中医药的标准化、现代化、国际化。规范内容之一是根据“单义性原则”[2],在遇到“多词一义”时,只选取一个为规范词,其他为淘汰词。例如,“大头瘟”为规范词,而“大头风、大头痛、时毒、大头伤寒、虾蟆瘟、捻头瘟、大头天行、疫毒、瘟毒喉痹、瘟疫红喉、蝦蟆瘟”等为同义词,规范后被废弃,在规范术语数据库里不再出现。

从2003年以来发布的《中医药学名词》3部国家规范名词使用反馈情况来看,一些已经废弃的术语仍在被使用。比如:“肺痿”为规范术语,“肺萎”则是应该被废弃的同义术语,但一些期刊中仍然使用“肺萎”。如杨淦等《特发性肺纤维化与肺痹、肺萎关系浅析》[3]一文中就使用非规范术语“肺萎”。又如“下消”为规范术语,“肾消”则是应该被废弃的同义术语,而期刊中仍然出现“肾消”。如张婵娟《〈外台秘要〉论消渴》”[4]一文中就使用非规范术语“肾消”。又如“肺痨”为规范术语,“肺劳”则是应该被废弃的同义术语,而期刊中仍然出现“肺劳”。如刘继民等《王檀教授应用中医康复疗法治疗咳嗽、肺劳经验总结》[5]一文中就使用的是非规范术语“肺劳”。

总之,非规范术语仍在中医药期刊、书籍中使用。进一步的研究表明,其原因主要有以下两个方面:(1)不少从业者、研究人员对中医药术语规范工作了解甚少,不知道哪些术语已被废弃;(2)部分从业人员,虽然对中医药术语规范工作有所了解,也愿意使用规范术语,但缺乏相关的检索平台,检索相关规范术语的过程有些麻烦,或者不知道当前使用的是被淘汰的术语,或者虽然知道是淘汰词,却一时找不到对应的同义规范术语。

二 建库的意义

针对上述存在的问题,国家科技基础性工作专项重点项目“中医药基础学科名词术语规范研究”的任务之一就是建设中医药术语同义词查询数据库。中医药术语同义词查询数据库的建设内容是:(1)确立中医药的规范术语,及其对应的同义词(淘汰词)。计划收录全国科技名词委公布的规范词约1.3万条,以及基于《中医大辞典》等辞书的同义词数万条[6]。(2)提供检索平台,方便用户查询,以便推广应用规范词,废弃淘汰词。其意义在于使用者即使查询的是已被废弃的术语(提示“不是规范术语”),也可通过该数据库关联到已经公布的同义规范术语,从而为推广中医药规范术语提供技术支持;将来还可以广泛应用于各种中医药数据库中,实现按同义词的扩展检索等。

三 同义词的获取

在构建中医药术语同义词查询数据库之前,需要先获取所有中医药规范术语的同义词集。其中包括几个关键的环节:

1. 工具书抓取。提取同义词,需要依赖比较权威的工具书,如《中医大辞典》《中医辞海》《中药大辞典》等,其中的部分书籍可以从一些网站上获取。因此针对不同的网站,需要编写不同的抓取程序,保证抓取结果的正确性。这一步是准备工作。如果能够从其他渠道获取工具书文本,则此步可以省略。

2.同义词提取。这是整个工作中核心的一步。传统上,一般只能依靠人工进行,耗时耗力,且容易出错。为此,项目组创建并使用了基于模式识别的中医药术语同义词自动提取方法,利用计算机技术自动提取同义词。该方法包括准备辞典、编写提取程序、提取抽取和过滤规则、按规则提取同义词、结果审核、有效性评价等步骤。统计数据表明,该方法提取同义词,准确率约为94%,召回率约为94.5%。作为一种辅助方法,基于模式识别的中医药术语同义词自动提取可以大大提高同义词提取工作的效率。

3. 人工审核同义词。这是整个过程中非常关键的一步,并最终决定同义词提取的质量。人工审核主要有三个方面的作用:

(1)同义词审核。机器提取同义词,无论其算法如何可靠,都有可能产生错误(误提或者漏提),因此需要人工对提取的同义词进行审核。

(2)文本校对。网上抓取到的文本,其文本质量也会存在问题。文本质量问题也是制约同义词提取效果的一个关键因素。这也需要在人工审核时予以发现和校正。

(3)模式发现。同义词提取的模式和规则,并非提前设定的,这些规则需要在审核同义词的过程中发现并完善。

4. 人工审核的工具支持。由上可见,人工审核同义词的工作非常烦琐而容易出错。为了提高效率,保证工作质量,项目组开发了辅助工具。

5. 同义词归并。在《中医大辞典》《中医辞海》等工具书中,对一组同义词,一般选择其中之一进行详细解释,其他同义词词条则通过关联专用词指向该词条。如果用人工的方式,要找到词条A的所有同义词,理论上讲,就至少需要把辞典中所有的词条都查阅一遍,看看是否与A同义。这是费时费力又很难完成的一项工作。在本项目中,因为有计算机的辅助,只需要制定规则,把所有词条的同义词利用程序自动提取出来,再人工审核一遍,之后就可以利用计算机自动进行归并,把所有与A同义的词条加入A的同义词集即可。

在中医药名词审定工作中,对于“一词多义”的处理,采取了分化不同义项、保留不同学科之间的一词多义现象等措施[2]。因此本项目在归并同义词后,需要人工审核,避免将不同义项的同义词归并到同一个术语的同义词集中。

6.专家评估。由于本项目的目标,是制定中医药术语的同义词规范,建立同义词查询数据库,因此所产出的所有结果,最终都需要提供给领域专家进行人工审核,审核通过后方能入库,向社会开放,供业界查询。

四 数据库构建

对中医药术语的同义词考证完成后,就可以在此基础上构建中医药同义词数据库。

1.选择数据库管理系统(DBMS)

数据库管理系统的选择,主要考虑其性能、安全性、易用性等。本研究中所涉及的问题比较简单,数据量比较小,大约5万~10万条记录,50~100M级存储量,因此可以利用Access这样简单易用的数据库管理系统进行存储。

目前市场上存在的各种关系数据库,相互之间可以比较方便地进行数据迁移,因此,在研究阶段,数据库的选择应以简单易用为原则,不需要耗费过多的精力。

2.设计数据存储结构

数据存储结构,主要包括逻辑存储结构和物理存储结构。在此简单介绍一下逻辑存储结构。中医药术语同义词查询数据库主要包括图1的3个数据表。

图1 主要数据表结构

(1)中医药工具书表,存放需要抓取和分析的工具书基本信息。

(2)中医药术语同义词表,用于存储从各工具书中提取的所有词条及其解释,也包括该词条在工具书中的具体页码,便于人工核对。“正名”字段用于存储该词条所在工具书中对应的正名。“同义词列表”字段用于存储计算机自动提取的同义词列表。“同义词汇总”字段用于存储每个词条的归并后的同义词列表。

(3)中医药术语规范表,用于存储本项目组拟定的所有中医药学规范名词术语,约13 000条。这里需要注意的是,一个规范名,有可能分属多个学科,因此对应不同的术语编码和规范解释。“同义词”字段用于存储该术语最终审定后的同义词列表。

3. 开发前端检索工具

到上一步为止,数据库构建的主体工作就完成了。但是,如果没有相应的接口,用户就不能查看数据库,也无法查询到规范术语、翻译及其同义词。为此需要开发一个Web检索平台,作为最终用户的使用接口,一方面可以方便使用,另一方面也能屏蔽底层数据,防止数据资料泄露。

Web检索平台后台的主要逻辑如下:

第1步:启动后台程序,初始化数据,启动监听程序。

第2步:监测客户端发来的查询请求,直到收到客户端请求,然后转第3步。

第3步:处理客户端请求。

当收到客户端发来的查询后,首先检索“中医药术语规范表”。

a)如果找到对应的词条,则说明该词条为已经定义过的规范术语,返回该术语的标准英译、同义词列表、定义、版本信息等。

b)如果没有找到对应的词条,则说明该词条不是已经定义过的规范术语,需要进一步查询同义词列表,看是不是某个规范术语的同义词,如果是,则返回提示信息,说明该词条不是规范术语,对应的规范术语为×××;如果不是,则说明该词条不是规范术语,也不是淘汰词,需要进一步查找“中医药术语同义词表”,看看该词条是否在某个工具书中有定义,如果有则返回相关定义,没有则提示用户查询结果为空。

第4步:组装查询结果,并发送给客户端。

第5步:跳转到第2步,继续监听请求。

五 用户端查询结果展示

现在扼要介绍一下中医药术语同义词查询数据库用户端使用的方法。用户可以通过手机或者电脑使用本项目开发的中医药术语查询工具。

当用户查询“瘟疫”时,因为这是一个规范术语,所以返回的是规范的定义、英文翻译、同义词、版本信息等,如图2所示。

当用户查询“温疫”时,因为这是一个淘汰词,所以返回的是相关提示信息。手机端界面如图3所示。

随着中医药术语同义语查询数据库向社会开放,将会收到用户的反馈意见,届时再加以改进,不断完善,使该数据库在中医药学规范术语的推广中发挥更大的作用。

图2 手机查询规范术语结果

图3 手机查询非规范术语结果

[4] 张婵娟.《外台秘要》论消渴[J].河南中医,2018,38(4):521-523.

[5] 刘继民, 李萌, 刘通,等.王檀教授应用中医康复疗法治疗咳嗽、肺劳经验总结[J].世界最新医学信息文摘,2018,18(91):11-12.

[6] 朱建平.中医药名词术语规范的实践与思考.中国科技术语, 2017,19(6):11-14.

猜你喜欢

工具书词条术语
诗词工具书二种
诗词工具书二种
好风凭借力伴我泛书海
——小学语文阅读教学中使用工具书的指导
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
2016年9月中国直销网络热门词条榜
大数据相关词条
网络时代工具书阅览室的建设