从术语知识发现视角看术语科学定名的重要性
2015-06-30张榕
张榕+
摘要:科学的术语定名是术语工作的一项重要内容。一个科学的概念指称的创立,是术语推广、传播与术语标准化工作的前提条件。文章从术语知识发现这一新的视角论述了术语科学定名对于术语知识发现工程的重要作用,从应用角度进一步论证了术语科学定名的重要性。
关键字:术语定名,术语知识发现,术语定义抽取,术语定义聚类,术语识别
中图分类号:H083;N04文献标识码:A文章编号:1673-8578(2015)03-0014-04
Abstract:The scientific term designation is one of the most important aspects in term work. The creation of the designation of a concept is the prerequisite for the popularization, spread and standardization of terms. This paper analyzes the importance of scientific term designation from the perspective of term knowledge discovery.
Keywords: term designation,term knowledge discovery,term definition extraction, term definition clustering, term recognition
术语定名是给一个概念制定科学的术语的过程。术语定名应遵循准确性、单义性、系统性、语言的正确性、简明性、理据性、稳定性、能产性原则[1]。上述原则对于术语所指称概念的推广与传播、术语标准化工作都具有重要的理论与现实意义。
近年来,术语学研究与中文信息处理技术相结合成为术语学研究的新方向。术语知识发现的相关研究已有了不少的成果。本文将从基于大规模语料的术语定义抽取、术语定义聚类与术语识别三大主要术语知识发现的应用研究出发[2],探讨术语科学定名对于术语知识工程的支撑作用,从语言工程的实现过程对术语科学定名的重要性进行论述。
一术语科学定名在术语定义抽取中的作用
术语定义抽取是了解术语概念最基本、最直接的方式。基于网络海量信息的术语定义抽取通常是将一个术语查询项提交给抽取系统,系统根据该查询项关键词进行文本检索,再通过一系列规则与统计的计算方法,将得分最高的句子抽取出来作为术语定义的最优选项 [3-4]。
冯志伟认为名称与概念之间具有单参照性,即一个名称与一个且只与一个概念相对应。他还认为术语的同义现象会导致术语使用的混乱。在术语工作中,应该尽量减少术语的同义现象,这是术语标准化的任务之一[5] 。
当术语同义现象严重时,由于提交给查询系统的关键词每次只有一项,这就必然造成系统无法识别出包含其同义术语的文本集合,从而降低了抽取系统的准确率。例如,路甬祥谈到术语滥用的问题时举例,“ergonomics”一词,分别有人机学、人机工效学、人类工程学、人体工程学、生物工艺学、人类环境改造学、劳动经济学、工作环境改造学、工效学等22种叫法[6]。
我们将上述名称分别作为查询关键词,提交给术语定义抽取系统,进行实验。对抽取结果分析后发现,提交查询项对抽取质量的影响较大。系统的准确率与查询项术语的使用频率正相关。在公众中知晓度与使用度相对较高的术语如“人机学”“人际工效学”“人体工程学”作为查询项时,系统返回的文本数量较大,文本中的信息与术语定义相关度高,抽取准确率高。反之,使用的查询项权威度、知晓度、流通度与使用频率均较低时,虽然多数搜索引擎在关键词处理过程中会使用同义词扩展功能,但抽取结果排序时通常给原始查询项赋予一个较高的权重,这就造成质量较高的同义词定义排在后面,从而降低了抽取结果的准确率。例如“人类环境改造学”“工作环境改造学”由于在公众中的知晓度与使用度降低,搜索引擎返回的文本数量极其有限,抽取出的候选句子的数量会受到很大的制约。同时,由于知晓度低,这些文本并非包含权威机构发布的术语定义,通常是网络上自媒体参与者发表的个人观点,客观性、规范性与科学性都无法得到保证,在这些文本集合中进行术语定义的自动发现,会大大降低术语知识提取的准确度。
从语义角度考察,在这22种叫法中,“生物工艺学”“劳动经济学”与源语语义相似度较小,与科技文献翻译的相对等值性原则背离甚远,以该类词语作为查询项得到的结果显然不能对所指称概念进行合理的描述。
作为查询项的术语,其定名的合理度即与术语的定名原则契合度越高,对识别系统的贡献度越大。如果将上述22个名称通过择优整合成一个术语,从术语标准化的角度来说,有利于普及术语概念。另一方面,网络文本撰写者逐渐统一使用固定下来的权威、规范的术语,也同样可以加速术语指称概念的传播。用统一的术语作为查询项,其识别效果显然远远大于多名术语的抽取结果,术语定义的抽取系统又直接服务于术语概念的理解,从而实现了概念普及的良性循环。
在考察中我们还发现,首字母缩合词术语同名异义的现象,在所有术语类型中最为普遍。无论从术语学本体或术语知识发现的角度,存在的问题都较大。
术语的单义性是指在某个特定领域内,术语具有形式与意义的一一对应关系,一个术语只表达一个学科概念,然而对于具有跨领域特性的多义术语,不具备形式与意义的一一对应性。换言之,在术语的命名过程中,术语的单义性原则只能落实到单一领域的范围。以首字母缩合词“CPI”为例,该术语共有17个不同义项,分别覆盖经济、政治、信息、管理、医学等领域,其中消费者物价指数(consumer price index)在这17个义项中知晓度与使用频次最高。其余义项知晓度与使用频率较低,这类术语更多被所属领域的专家或学习者使用,领域内部的流通率较高,但领域外流通率较低。在这些跨领域的多义术语中,即使同一领域内部依旧存在同形异义的现象,例如“费用绩效指数”“关键绩效指数”“成本绩效指数”。由于上述术语的英语首字母相同,造成同一词形表达完全不同的概念,这显然违背了术语单义性的原则。在术语定义识别过程中,造成了大量的识别噪音。在首字母缩合词术语的命名过程中,术语学家需在术语构成的经济性原则[7]与单义性、准确性原则之间找到最佳平衡点。endprint
术语定名的单义性与准确性原则对于术语定义的识别系统的支撑作用是显著的。如果查询术语符合术语的定名原则,特别是符合在单一领域内单形单义的定名原则,将提高系统抽取的效率。
二术语科学定名在术语定义聚类中的作用
术语定义聚类是按照术语的领域归属类别将术语定义划分到各自所属的类别的过程,该系统的实现能解决大规模术语定义自动分类问题,对于领域术语数据库的构建以及规模化地研究领域术语具有重要意义。
我们知道,一个新概念的产生必定要使用一个指称去描述此概念。从认知科学的角度而言,任何一个新概念的产生都不是凭空而来的,绝大多数新概念都是在原有领域的相关概念的基础上产生的。反映在语言学特征上,大多数新术语不是凭空而造的词,而是与先前的相关术语在语义上构成一定的关系。因此描述新概念的术语,所采取的语言形式多为组合型术语。概念体系是由一组相关概念构成的集合,以属种关系为框架,层级结构分明,并包含了各种纵向与横向的联系,每个概念在概念体系中占有明确的位置。依据术语命名的系统性,新术语的命名需纳入原有系统之中,概念体系间结构层次分明便于规范指称,使被定义概念在术语概念体系中准确地找到其相应的位置。
例如,“基金”是一个上位术语。随着近年来基金业的迅猛发展,基金的种类不断增加,这就需要越来越多的术语来指称这些概念。其下位术语包括:投资基金、开放式基金、封闭式基金、公司型投资基金、契约型投资基金、成长型投资基金、收入型投资基金、平衡型投资基金、股票基金、债券基金、货币市场基金、期货基金、期权基金、指数基金、认沽权证基金、区域基金等。
经过自动分词系统的处理,这些词组型术语的整体语义与词组中每个词的语义之和的关系示例如下:
成长型投资基金→成长+型+投资+基金
认沽权证基金→认沽+权证+基金
货币市场基金→货币+市场+基金
开放式基金→开放+式+基金
由于这些新术语尚未收录在分词词表中,在分词过程中被切碎成几个词组的组合序列,然而聚类系统的实验统计却表明,未收录术语对最终聚类的准确率的影响可以忽略不计。聚类系统使用语义知识库进行语义间的相似度计算。从上述切分结果可以看出,被切碎词组的义项之和与该术语本身的义项基本相同,即被切分词语的碎片与原术语之间保持着较大的语义相关度。
反之,某些外来意译型未收录术语,经过分词系统切分后,每个碎片的语义之和与术语整体语义关联度较小。例如“漂绿”(green wash)意为“公司、政府或是组织以某些行为或行动宣示自身对环境保护的付出但实际上却是反其道而行的行为”。
分词系统切分为:漂绿→漂+绿
切分后的义项累加与原术语之间没有过多的语义关联,两者之间的语义相似度极低。由于领域聚类的过程是基于句子之间的语义相似度计算,显然这种术语的定名方式对整个聚类系统的准确率造成了很大的影响。
从语言学特征来看,“漂绿”的表意特征较弱,理据性较差,使用者无法从指称推断其相关概念。我们进行了一项实验,受试者为20—50岁年龄段,包含各个教育等级的人群,数量为20人。实验结果表明,受试者均无法从该术语的字面意思推测出该术语的大致意义,甚至无法推测出其领域归属类别。确保意译术语的简明性,同时符合汉语的概念理解模式,在科学性、概念体系之间的关联性,以及源语与译语间形式与意义的忠实度之间找到一个最佳平衡点,是术语学家在术语定名过程中须着重考虑的问题。
遵循术语定名规范的词组型术语的语义与构成该术语的每个词语的语义之和相似度极高;反之造成被切分后的碎片部分语义之和与原术语语义的割裂,对聚类系统的准确率影响较大。该现象从术语工程学的角度也验证了:科学规范的术语命名对高质量的术语定义聚类系统的实现起到一定的支撑作用。
三术语科学定名在术语识别中的作用
大多数的新术语都是在相关旧术语的基础上建立或演化而来的,与该领域内部的其他术语保持某种意义上的关联关系,如层级关系、部分—整体关系、联想关系等。术语系统将新产生的概念囊括在原有相关概念体系之中,并与原有概念建立一定的结构、层级与语义关系。术语的语缀体现了术语命名的系统性与能产性的特征。在术语系统中,出现频率较高的词缀包括:
前缀:亚、超、有、无、非、不、泛、类、可、反、单、双、多、自、总、半、云、次、大、小、被、逆、子、准、过等。
后缀:率、化、学、度、性、论、式、法、物、子、系、质、素、炎、仪、计、剂、体、器等。
很多包含高频词缀的术语是伴随着新的学科领域而产生的,这些词缀具有强大的构词能力,可与其他已知概念组配在一起,产生一批与该概念相关的概念集合。虽然有的语缀出现时间较短,但影响力大,能产性高,数量增幅巨大,覆盖领域广泛。以术语前缀“云”为例,我们统计到的包含“云”的术语超过一百个。这些术语都是基于“云技术”而产生的,词缀构词的术语定名法便于术语所指称的概念在概念网络中找到相应的节点,分别与“云技术”建立关联。包含“云”的术语几乎涵盖了与百姓日常生活密切相关的政治、经济、文化、科技、娱乐、教育等各个领域,如:云政务、云支付、云社交、云指控、云音乐、云学习等。可以理性地推断,在不久的将来,以“云”为前缀的新术语的数量将会继续增长,覆盖领域将更广泛,社会影响力以及知晓度和使用频率将越来越高。
术语的语缀从语义上准确表达了术语所表达概念的重要属性之一,对于概念的识别作用明显。例如词串:云+N,V+率。若前缀“云”后紧跟一个名词,或后缀“率”前出现一个动词,那么这种词汇共现关系与术语成词概率是紧密相关的,即“云+N”与“V+率”的词串作为术语的概率较高。实际上,即使出现在术语定义上下文窗口中,术语的位置也是不固定的,尤其从网络获取到的术语定义,语言结构灵活多样,术语可能出现在句首、句尾或句中的任何一个位置。位置信息的缺失在一定程度上也造成了术语识别的难度。在术语粗抽取的基础上,识别系统利用语缀信息,在发现术语语缀之后,通过抽取方向的选取以及相应的抽取算法,将术语识别出来[2] 。
语缀具有术语识别的指示功能,从术语建设与管理的角度而言,语缀构词法便于术语在术语知识库中找到其相应的节点,方便术语的整理、归类,也能提高术语数据库用户的查询、检索的效率。从术语知识发现的角度而言,术语语缀尤其是能产性强的语缀,对于术语的自动识别、新术语的自动发现起到了强大的支持作用。利用语缀信息可辅助系统准确、快速地识别出一批包含特定概念的术语,有效地提高了识别的效率。
四结语
在信息技术高速发展的今天,术语学研究离不开中文信息处理技术的支持,该技术使得大规模的术语知识发现、领域术语的系统化研究以及术语数据库的构建成为可能,对术语学本体研究具有重要的推动作用。从另一个角度而言,术语学本体研究影响着术语知识发现系统的实现。科学的术语定名不仅对术语概念传播、术语标准化工作具有积极意义,同时也能有效提高术语知识发现系统的效率。
参考文献
[1] 冯志伟.现代术语引论[M].北京:语文出版社,1997.
[2] 张榕.术语定义抽取、聚类与术语识别研究[D].北京语言大学信息科学学院,2006.
[3] 荀恩东,贾爱平,宋柔.基于互联网的术语定义获取系统[J].中文信息学报,2004(4):37-44.
[4] 荀恩东,李晟.采用术语定义模式和多特征的新术语及定义识别方法[J].计算机研究与发展,2009(1):62-69.
[5] 冯志伟.术语中的概念系统与知识本体[J].术语标准化与信息技术,2006(1):9-16.
[6] 路甬祥.我国科技名词的规范和统一任重而道远[J].编辑学报,2006(4):241-242.
[7] 冯志伟.术语形成的经济率-FEL公式[J].中国科技术语,2010(2):9-16.endprint