APP下载

术语查重探讨

2016-11-19赵伟

中国科技术语 2016年4期
关键词:集合查重符号

赵伟

摘要:对术语审定中的查重工作做了概述,并揭示和解决了术语查重工作中的几个关键问题,对术语工作者,尤其是多语种术语数据库工作者有一定帮助。

关键词:术语学,数据库,查重,文字串,符号,集合

中图分类号:N04;TP392文献标识码:ADOI:10.3969/j.issn.1673-8578.2016.04.004

Abstract: This paper outlines the term duplicate checking in term examination and approval. Several key problems in term duplicate checking are revealed and solved. We hope it is helpful to term workers, especially to workers engaged on multilingual terminology database.

Keywords: terminology, database, duplicate checking, character string, symbol, set

引言

术语(中国习惯称“科技名词”)查重工作是术语审定工作中的必要环节,对保证术语的单义性至关重要。笔者在全国科学技术名词审定委员会(以下简称“全国科技名词委”)曾从事多年名词审定工作,也曾多次参与国家电工术语标准的审定工作,对术语查重工作的重要性有切身体会;术语查重工作也具有一定的复杂性——笔者从2003年开始从事术语审定工作,到目前为止,曾接触或了解的术语查重程序至少已经有3个,这些查重程序的功能逐渐增强,多年来,为规范科技名词做出了重要贡献。但“百尺竿头,更进一步”,术语查重程序还有待继续完善。事实上,全国科技名词委审定公布的科技名词数据库和国家术语标准中都有一些表示相同概念但定名却不同的术语,一部分是文字录入有误或各学科已约定俗成、不宜统一所致,另一部分则与查重处理不够完善有关。

由此可见,术语查重工作在应用上有其重要性和复杂性,还没有得到妥善解决,因此,这是个值得认真研究的课题。

一术语名称查重概述

术语的名称包括中文名和英文名(对多语种术语数据库而言,则更有用多种语言表示的术语名称)。中文名包括正名(规范名,有且仅有一个)和异名(不一定都有)。异名包括全称、简称、又称、俗称、曾称等[1]。英文名虽没有正名和异名的说法,但也有与中文名相对应的英文名(中文正名均有对应的英文名,但中文异名不都有)。

查重,顾名思义,是查找重复、相同之处。术语查重,从微观上来讲,自然就是查找两个术语中各组成部分是否相同以便进一步确定这两个术语是否表示相同概念。因术语包括名称和定义两部分,所以术语查重自然就应该包括术语名称查重和定义查重两部分。由于术语定义查重比较复杂,所以,目前大多数术语数据库都没有开展此项工作。

术语名称查重,具体而言,就是要对某个术语的每个中文名和英文名与另一个术语的每个中文名和英文名一一比较,看其是否相同。这里要强调的是:术语的每一个名称(包括中文正名和所有中文异名以及对应的英文名)都要参与查重。如果只查中文正名和相应的英文名,就会漏掉很多重名的术语。如以下两个例子:

①测量结果的计量可比性metrological comparability of measurement results简称:计量可比性(metrological comparability)

②计量可比性metrological comparability

这两个术语,明显能看出是表示同一概念。但如果查重程序只查中文正名和相应的英文名就无法发现,因为二者这两项都是不同的,重名的是①的中文简称和②的中文正名以及①的中文简称对应的英文名和②的中文正名对应的英文名。所以,要强调术语的每一个名称都要参与查重。另外,没有编号而只在术语定义中出现的带英文名的术语也要参与查重。

如果两个术语的所有中文名和所有英文名都不相同,就可以认为这两个术语是表示不同的概念;如果两个术语的中文名或英文名中至少有一个相同,还要把这两个术语放在一起继续比较。以两术语之间各中英文名异同的对应关系来分类,具体还可再细分为以下几种情况:①两术语的中文正名和相应英文名相同;②一术语的某个中文名和相应英文名与另一术语的某个中文名和相应英文名相同(不包含①的情况);③某个英文名相同,而对应中文名不同;④某个中文名相同,而对应英文名不同。当然,以上只是单一的分类,实际情况更复杂,但也都是以上各种情况的组合。所以,讨论这几种情况就足够了。

以此为基础,要对每个学科所有术语一一进行查重(即所谓“内部查重”,这是为了保证该学科内术语的单义性),以及对该学科所有术语与术语审定机构已审定公布的所有学科术语一一进行查重(即所谓“外部查重”,这是为了保证术语审定机构审定的所有学科术语的数据库内术语的单义性)。

以查重结果为基础,还要进行协调处理。处理时,对两个术语的所有中文名和所有英文名都不相同的情况,可以认为这两个术语是表示不同的概念,无论“内部查重”还是“外部查重”,都要收录;而对两个术语的中文名或英文名中至少有一个相同的情况,则还要分清它们是否表示同一概念。

如果是表示不同的概念,则按照术语单义性的要求,尽量一词一义,给这两个术语分别赋予不同的名称。如确有必要,则不管是“内部查重”还是“外部查重”,也可维持现状,各自保留。

如果是表示相同的概念,则还要继续细分:第①类情况,对内部查重而言,只能保留一个;对外部查重而言,可继续保留。第②类情况,对“内部查重”而言,只能保留一个术语,但要对术语的名称进行处理;对“外部查重”而言,要对该术语的名称与术语数据库内的其他学科进行协调处理,尽量保证“正名”对应“正名”,“异名”对应“异名”。第③类情况,对“内部查重”而言,只能保留一个术语,但要处理术语的中文名称;对“外部查重”而言,也要协调处理术语的中文名称。第④类情况,对“内部查重”而言,只能保留一个术语,但要分清这两个英文名哪个更常用,更合适;对“外部查重”而言,也要分清这两个英文名哪个更常用,更合适。

据了解,这是到目前为止包括全国科技名词委术语库在内的各术语库开展术语查重工作的主要做法。这种做法能发现大部分有重名的术语,对保证术语的单义性功不可没,但仍然有待改善。以下是具体分析。

二术语文字(包括数字)串查重

以术语名称作为查重对象,看似合情合理,但深入分析,便可发现,这种做法也有不完善之处:有些术语,虽然其名称并不相同,但看起来非常相似,用术语名称作为查重对象却查不出来。这样的例子参见表1。

以上都是在审定过程中出现的术语,而不是已经正式公布的术语,这些术语已经由以术语名称为比较对象的查重程序做过查重,查重结果显示是不重复的术语。但由表1可见,编号为奇数和偶数的

相邻两个术语,明显能看出其中文名或英文名非常相似,很可能是表示相同概念的术语,但以术语名称作为查重对象,却无法发现其共性。这会造成以下两个问题:一是对学科“内部查重”而言,在查重阶段用查重程序无法发现内部重复的术语,只有在做按拼音排序的索引的时候才有可能发现,这就要删除其中一个重复的术语。这时要么在该被删除的术语位置补充一个名称、定义和字符数都相近的术语——但补充一个合适的术语并不容易,要么对该术语所在章节的术语重新编号,重新排版——这会非常麻烦。而无论怎么补救,都会影响审定进程。二是对外部查重而言,在查重阶段用查重程序无法发现与已审定公布学科重复的术语,根据上文提及的查重处理原则,会被当作新术语而收录到术语数据库中,但我们却对此毫不知情,只有在用户偶然用“包含”等条件在数据库中搜索术语时才能发现。由此可见,以术语名称作为查重对象,虽然看似合情合理,但其实并不妥当,而且会造成不良影响。

既然以术语名称作为查重对象有无法解决的矛盾,该以什么作为查重对象呢?先分析表1的术语。表1里编号为奇数和偶数的相邻两个术语,既然能看出来是表示相同概念的术语,说明它们的名称必然有某种共性,而查重程序无法发现这种共性,说明它们的名称也有一定的差异。正是这些术语名称的共性和差异混在一起才导致查重程序无法发现其共性。如果能消除这些术语名称的差异,而提炼出它们的共性,自然就可以发现它们是表示相同概念的术语了。这些术语有什么共性和差异呢?

仔细观察可发现:编号为1和2的术语,其中文名称都包含按“正仲转换”顺序排列的汉字,这是其共性。1的中文名称比2多了一个符号“—”,这是其差异。编号为3和4的术语,其英文名称里都包含按“transverseelectromagnetictransmissioncell”顺序排列的英文字母,这是其共性。3的英文名称比4多了一个符号“”,这是其差异。比较这两对术语,可以发现,这两对术语的共性体现在:它们的中文或英文名称都包含按照同样顺序排列的相同的文字串;其差异体现在:它们的中英文名称都包含有不同位置和种类的空格和符号。而且,只要消除了这些术语名称中不同位置和种类的空格和符号,即消除其差异,其共性——相同的连续文字串就水落石出。由此可见,术语名称可以再细分为两部分,一部分是表示有实际意义的文字(包括各种数字,如阿拉伯数字、罗马数字等),另一部分是无实际意义而只起间隔作用的空格和符号。在对术语查重时,以消除术语名称中的空格和符号(包括全角和半角)而形成的连续文字(包括数字)串为查重对象,就可以发现以术语名称为查重对象时无法发现的看似相同的术语。

实际上,表1这些术语中不同的空格和符号应与术语提供者的使用习惯和文字录入的失误有关,尤其是当这些术语都分别处在各学科概念体系中相距较远位置的时候,再仔细的审定编辑也难以发现它们是仅在符号上有细微差异的同义术语。但以术语文字为比较对象进行查重就可以把它们聚拢在一起,使其不受使用习惯差异和符号录入失误的影响,而得到正确的查重结果。

这种方法的可行性如何呢?粗看起来,空格和符号的位置不确定,不好定位。但空格和符号的种类在各种语言和各种输入法中都是有限的,所以只要按照类别查找、删除即可,而无需考虑其具体位置。因此,这是适用于多语种术语数据库的通用而可行的方法。

能否对该方法加以拓展,以发现更广泛的术语文字共性呢?例如,可否考虑把两个术语的文字串的差异个数限定在一定范围内(一两个字等等)?对中文来说,这就会查找到更多相去甚远的术语。如速度、角速度、加速度、相速度等,尽管它们只相差一个字,但却是完全不同的术语。而英文更是词形变化较多的语言,如名词的单复数,动词的原形、不定式、过去分词、现在分词等,再考虑到复合词术语,则要想找到包含多种词形变化而又是同义的术语,就要将文字串的差异个数扩大得更多,而这将会导致查找到更多完全不同的术语。因此,以消除术语名称中的空格和符号而形成的连续文字串为对象做查重不宜继续拓展。

另外,在实践中还要注意一些特殊符号的处理,如括号(包括中括号、圆括号,全角、半角都计在内)内的文字通常是表示可以省略的,删除括号时要把术语名称分为两个来查重处理,一个是带括号内的文字,一个是不带括号内的文字;有时括号内的文字是表示另一个名称或缩写,有的在“,”“;”“/”后表示另一个名称,那么这个名称也要参与查重。目前表示所有格的英文有的在名词后加“s”,有的只加“”,有的什么都不加,可统一删除为不加,以方便查重。

三文字的规范

如同符号和空格的差异会影响查重的精确性一样,文字的差异也会有影响。对英文名而言,因为有多种英语,最好统一用一种英语表示(如美国英语)。查重应不区分外文大小写,以消除文字录入失误的影响。外文除必须用复数者,一般用单数形式。对查重文件要进行拼写和语法检查,以消除文字错误。以上这些工作应安排在消除符号和空格之前完成。

四外部查重数据库的选择

如前所述,每个学科的术语除了要做内部查重以外,还要对该学科所有名词与全国科技名词委已审定公布的术语数据库内所有学科名词之间一一查重,即所谓“外部查重”。这也是全国科技名词委自开展术语查重工作以来一直沿用的做法。这种做法对每次只审定公布一个学科名词的理想状况来说,是合情合理的。但实际的审定工作是复杂的,往往在一个学科审定公布到下一个学科审定公布期间,有多个学科在开展审定和查重工作,而已审定公布学科名词的术语数据库在此期间是不变的,这意味着在此期间多个学科都要与包含同样数量和内容的术语数据库进行查重。另外,由于单机版的查重程序一次只能对一个学科开展外部查重工作,因此,多个学科要开展外部查重时,只能每个学科依次进行,即在查重时间上是串行的,这就会耽误很多学科的审定工作进程。为解决这个矛盾,有人提出可以利用云计算的方法,同时开展多个学科的外部查重工作,即所谓“并行处理”,可以节省查重时间,加快审定进程。这两个做法是否正确、可行呢?为讨论方便,以下用集合的原理进行论述。

为考虑方便,就以最简单的两个学科开展外部查重工作为例,这两个学科可分别表示为集合A和B,而已审定公布的术语数据库则可表示为集合T,这些集合分别用图1、2、3中的圆形区域来表示。显然,学科A和已审定公布术语数据库T的交集A∩T,就是它们之间有重复的术语,用图1中竖线阴影的区域表示,按照第一节中介绍的外部查重处理原则,这部分术语需要进行协调处理;而A-T则是它们之间没有任何重复的术语,用图1的圆A中除阴影部分之外的区域表示,这部分是要作为新术语而无需做任何处理就直接收录到术语数据库中,见图1。当对学科A进行外部查重处理之后,也要对学科B进行外部查重处理,同样的含义和做法也适用于B∩T和B-T,见图2。对这两个学科进行查重处理的流程可图示为图1→图2。

显然,在对学科A和学科B先后分别进行外部查重处理时,我们目前并没有考虑这两个学科术语之间的关系。但既然考虑了A∩T、A-T和B∩T、B-T,我们不妨也考虑一下A∩B∩T和A∩B-T(用图3中横线阴影的区域表示)。(A∩B-T) (A∩B),而A∩B是表示学科A和学科B之间有交集、重复的术语集合,所以A∩B-T中就很有可能存在学科A中的英文名与学科B相同而中文名却不同或这两个学科的中文名相同而英文名却不同的术语,按照术语单义性的要求,这两个学科的这些术语显然是需要进行协调处理的。另一方面,A∩B-T是属于与已审定公布术语数据库T没有任何交集的术语集合。按照前述外部查重的处理方式和原则,由于学科A与B是先后各自与已审定公布的术语数据库T做的外部查重处理,所以,显然这部分术语是要作为新术语而无需做任何处理就直接收录到术语数据库T中的。由此可见,在对学科术语做外部查重时,每个学科都分别单独与同一个已审定公布学科的术语数据库查重,而没有与已做过外部查重的其他学科再做查重,这会导致很多定名不同的同义术语没有经任何协调处理就直接流入已审定公布学科的术语数据库中,而我们对此却毫不知情。这是术语数据库中存在许多定名不同的同义术语的重要原因。

知道了这个原因,就可以明白想同时独立开展多个学科的外部查重工作的并行处理方式是不可行的,因为这会导致术语数据库中出现更多定名不同的同义术语。要想避免出现这种情况,就要改变目前外部查重的处理方式,即要把已审定公布学科的术语数据库和之前已经做过外部查重处理的所有学科合在一起作为一个外部查重数据库,需要进行查重的学科要与这个数据库做外部查重。每个学科处理完毕,就合并到外部查重数据库中,然后下一个学科才能与这个新的外部查重数据库开展查重和协调处理工作。其处理流程可图示为图1→图3,显然这是一个串行的处理方式。

对短期内有多个学科需要查重应怎样处理才能不耽误工作进程呢?其实很简单,只需要把这几个学科的术语合在一起作为一个大学科,对这个大学科开展内部查重和外部查重协调处理就可以了。

五浅议术语定义查重

前文所述都是与术语名称有关的查重,而没有提及术语定义查重,因术语定义查重确实比较复杂,全国科技名词委目前还没有开展此项工作。但在实际审定工作中,术语定义查重有时还是有必要的。笔者在从事计量学名词内部查重的工作中,就曾经以删除术语定义中的符号和空格形成的文字串为对象,做过定义查重。结果发现以下这两个术语,即:

定标器scaler包含一个或几个定标电路的、对电脉冲进行计数的装置。

计数器counter包含一个或几个定标电路的、对电脉冲进行计数的装置。

在计量学名词体系中,这两个术语位置相距甚远,其各自的中文名、英文名也都不相同,但其定义文字却完全相同,这样的两个同义而完全异名的术语,如果不用定义查重,是不可能发现的。

但术语定义查重,如果以术语定义的全部文字来做查重对象,也有其缺点,毕竟两个同义术语其定义文字一般情况下不可能完全相同,总会有一定的差异。那么要想用术语定义来查重就可以考虑以两个术语定义文字的重复率为指标进行比较,重复率高者可以视为可能相同的术语。对同一个学科来说,本学科内部同一上位概念下的几个下位概念,可能由同一个作者撰写,其术语定义可能只相差几个字。但对不同学科来说,同一概念因作者行文风格差异、是否有外延、公式等原因,其定义文字却可能相差甚远。所以以两个术语定义文字的重复率为指标进行比较,其结果也不一定可靠。

既然以术语定义的全部文字来比较也不可靠,该怎么办呢?术语定义文字很多,但其重要性却各有不同,我们可以忽略其中次要的文字,而抓住其“关键词”。除不言自明、无法定义的术语之外,任何一个术语都是由其他术语以及它们之间的关系来描述的。所以,术语定义还可以考虑用定义该术语的术语以及描述它们之间关系的术语(如果这种关系可以用术语来表示)来表示,这些术语就是术语定义中的“关键词”。概念用术语来表示,大部分概念的术语名称在术语数据库中是唯一的,但也有一些表示相同概念但定名不唯一的术语,所以,再深入分析,就可以按照概念而不是按照术语来组织术语数据库,把术语数据库中各学科表示相同概念的所有不同术语名称都给予相同的编号。在此基础上,就可以把新术语的定义转化为用定义该术语的术语所表示概念的编号的组合来代表,从而把术语定义查重转换为概念编号的查重,就可以利用术语名称查重的方法对概念编号进行查重,进而实现术语定义的查重。

六建议及结语

综上所述,笔者建议以删除术语名称中的空格和符号而形成的连续文字串为对象进行术语查重,这样可以发现文字相同而空格和符号各异的术语,从而实现更精确的查重。对学科“内部查重”而言,就可以在做索引之前就发现这些重复的术语,减少无效劳动,加快审定进程。

对学科“外部查重”而言,建议把已审定公布学科的术语数据库和之前已经做过外部查重处理的所有学科合在一起作为一个外部查重数据库,待查重的学科要与这个数据库做外部查重。每个学科查重处理完毕,就合并到这个数据库中,形成新的外部查重数据库,然后下一个学科才能与这个新的外部查重数据库开展查重和协调处理工作。

这两个建议都可以减少术语数据库中同义异形的术语,维护术语审定工作的严谨性和权威性。

另外,根据以上建议,尤其对目前已处于预公布阶段的学科和已经做过查重处理但尚未到预公布阶段的其他学科,由于这些学科还是用术语名称为对象做的查重,查重结果不够精确,所以建议把这些学科的术语合在一起作为一个大学科,开展以术语名称中的文字串为对象的内部查重,并与已审定公布学科的术语数据库开展以术语名称中的文字串为对象的外部查重。

以上是笔者对术语查重工作的浅见。对以术语名称中的文字串为对象的查重思想也通过Microsoft Excel 2007予以实现,并已在多个学科的内部查重工作中得到证实,可发现很多查重程序找不到的定名各异的同义术语。希望此文能对广大术语工作者,尤其是多语种术语数据库工作者有所帮助。

参考文献

[1] 邬江.科学技术名词审定工作中的同义词问题初探[J].中国科技术语,2011(6):31-33.

猜你喜欢

集合查重符号
学符号,比多少
学位论文查重乱象引关注
“+”“-”符号的由来
学术论文该“查”什么?
论文查重别大意
学术论文该“查”什么?
变符号
论述高中数学中集合的类型及基本运算
一道数学填空题引发对细节的思考
解读《集合》