汉英统计学术语建库探索与思考

2017-09-07陶李春陆晓蕾

中国科技术语 2017年4期

关键词：分词

陶李春+陆晓蕾

摘要：对通过平行术语抓取技术所搜集的3852对汉英对照统计学术语展开统计分析，简要介绍了统计学术语库的创建过程，并运用汉英分词统计软件分析其形式特征，从而对统计学术语的经济指数进行比较分析，结果显示统计学术语的主要构成模式是：低频修饰词+高频主体词；术语构造中的连字符“-”虽然可使术语更容易理解，但是会降低一定的经济指数；中文术语的经济指数远远高于英语的术语经济指数。

关键词：统计学术语，术语库，分词，经济指数

中图分类号：C8；H083文献标识码：ADOI：10.3969/j.issn.1673-8578.2017.04.001

Abstract： In this paper， word segmentation techniques are used to analyze the form features of 3852 pairs of statistical terms， which are captured by parallel terms grasping technique. In addition， a model is established to compare the economic rate of statistical terms. Our results show that statistical terms are consisted of lowfrequency modifier and highfrequency main word； that although hyphen will reduce the economic index， it will make the terms easier to understand； and that the economic index of Chinese terms is much higher than that of English. Based on these findings， we put forward two basic principles， and introduce the construction process of terminology database.

Keywords： statistical term， terminology database， word segmentation， economic index

引言

术语是学科专业知识在语言中的结晶，其所表征的概念或范畴，以及由这些概念和范畴所构成的学术话语，均为人类物质文明和精神文明延续传承的基本条件[1]。统计学术语是统计学概念、原理的重要表征，是该学科及相关领域学术交流的重要媒介，是学术传承与发展的重要见证。

随着信息技术的不断普及，术语建库已成为术语学、术语翻译研究等相关领域的重要手段。南京大学外国语学院魏向清教授主持的国家社科基金重点项目，题为“人文社会科学动态术语数据库的构建研究”，涵盖了22个学科，其中包括统计学汉英术语库的构建与研究。通过术语建库，能够对统计学术语的汉英对照情况做全面而系统的探究。

一汉英统计学术语形式特征分析

1. 汉英统计学术语的自动抽取介绍

术语抽取的基本理论是基于其结合紧密性和领域性这两个特征[2]。以“摆动指数”这个统计学术语为例，在前期对初始数据库分词之后，这个术语被分为“摆动”和“指数”两个词语，结合关联挖掘的思想，在统计学的数据库中，这两个词同时出现的概率远远大于其他类目的数据库，所以在这种情况下，数据库会新增一个名为“摆动指数”的术语，这就是术语结合紧密性和领域性的体现。

具体的提取过程简要介绍如下：

（1）考虑到初始的统计学数据库不可能也无法涵蓋所有的文章，所以只选取了一定数量的不同级别的统计学期刊或与统计学相关的期刊，并以论文题目为参考标准，选择了各期刊不同年份的一定数量的论文，形成统计学数据库。

（2）然后对统计学数据库进行分词，统计出各个单词的出现频率，将出现频率较多（达到一定的阈值）的单词作为抽取出的简单术语。

（3）结合上述的结合紧密性和领域性的特征，通过比对不同学科之间复合词出现频率的不同来抽取复合术语。

（4）将简单术语和复合术语整理归类，通过专家讨论会的形式筛选出最终确定的统计学术语列表。

（5）通过相关匹配技术，匹配出汉英双语对应的统计学术语列表。

2. 英文统计学术语的形式特征

对通过上述过程抽取到的3852条英文统计学术语进行简单的文本分析，英文的文本分析主要使用R语言编程进行，主要是使用“tm”包构建语料库（corpus对象），实际的操作过程中，因为要用之前抓取的英文术语向量构建语料库，所以使用“corpus”和“VectorSource”函数配合使用，从而创建一个corpus对象（语料库对象，即每个单词出现的次数），为了避免与术语没有实际联系的噪声，使用参数“Remove Punctuation”移除标点等符号，本次主要是在去除左右括号、连字符、引号等符号的影响后对每个单词的出现频率进行分析。

从中提取到2558个单词，总频数是9035，可见每个统计学术语的长度大约是3.53个单词；其中1465个单词只出现了一次；2403个单词出现的次数小于10次（对corpus对象进行按照出现次数进行汇总排序）；其中出现次数超过70次的有10个单词（如表1所示），将其称为统计学的主体词，分别是distribution、test、model、sampling、design、estimator、regression、method、function、analysis；其中distribution（分布）和test（检验）出现的次数最高，可见统计学是一个研究数据的分布和进行假设检验的学科；从中还可以发现，这10个单词都是名词，并且大都处在各个术语的末尾部分，有一部分处在头部（比如一部分的sampling），剩余的单词都是对这些单词的具体补充，称为修饰词。而出现频率较低的单词中，具有名字属性的单词较多，由于名字翻译并没有标准的翻法，这就给统计学术语的中英互译造成了一定的困难。

3. 中文统计学术语的形式特征

对上述英文相对应的3852条汉语统计学术语进行分析，其中268条是“英文+中文”的形式，仔细观察后发现，英文部分大多是人名词，所以在下面分析的时候不考虑这部分。

对剩下的3584条中文术语进行中文分词，本次中文分词分析直接借助了大数据语义分析平台，最后得到2154个中文词，总频数10 899，其中1054个中文词只出现了一次；1937个中文词出现的次数小于10次；其中出现次数超过90次的有10个单词（如表2所示，对从平台中得到的结果使用R语言进行进一步的清洗和分析），分别是“检验”“-”（连字符）“量”“模型”“差”“回归”“估计”“图”“多”等参数，其中“检验”（test）和“-”出现的次数最高，在出现频率较低的单词中，具有名字和地点属性的单词较多，这一点与英文术语是一致的，由于中文分词技术的欠缺性，分词的结果并不理想，比如“差”和“多”这两个词应该以词语的形式体现出才更好。

通过对中英术语的分词分析，发现如下两点规律：

（1）统计学术语的长度特点：在去除中英混杂的3584个汉语术语中，67.94%的中文术语长度是4～6个字，其中4个汉字的最多，占了32.48%；在3854个英文统计学术语中，83.94%的术语由2～3个英文单词组成（连字符相连的单词视作一个单词），其中59.03%的术语只由两个单词构成。（2）统计学术语形成模式特点：对于中文的统计学复合术语，主要由一个名词充当形容词（低频修饰词）加一个名词（高频主体词）。

二汉英统计学术语互译策略及方法描述

基本原则是分而译之，往往先将术语拆分为两部分，术语的主体词往往比较容易找到对应的译文，而且对应的译文往往就是英语术语分析中出现频率最高的几个单词之一，例如“分布”对应distribution，“检验”对应test，“模型”对应model，“抽样”对应sampling，“估计量”对应estimator，“回归”对应regression，“设计”对应design，等等，剩下的便是修饰词，可能是数量词、人名、惯用法等等。

1. 直译法

直译法是将意义上与英语术语中相同或相似的词语或短语直接翻译过来，这是术语英译的主要途径[3]。译者只要准确把握中文术语的意义，就可以找到对应词。直译法能够充分忠实于原文，使译语和原语的信息密度保持高度一致，如下几点情况下直译法较为常见：

（1）术语构成词的表意和其实际意义相似或者一致；（2）可拆分的复合术语，拆分后的单词满足情况（1）；（3）约定而成的特定含义的单词。比如“单纯形”和simplex的互译，“因子”与factor的互译。

术语的高频主体词部分往往符合状况（1），可以直接使用直译，而低频修饰词部分情况比较复杂，需要多种译法综合考虑。

2. 音译法

音译法是借词的一种重要手段和表现形式。赵元任提出，语言甲借用语言乙的词汇，通过自身与之相当的音来当一个词使用[4]。术语翻译中音译法十分常见，尤其是在语言差异和文化差异十分明显的情况下，音译法占比较大，因此有必要对音译进行统计分析和深入研究。

三汉英统计学术语系统经济指数对比分析

1. 术语形成的经济律简介

冯志伟先生提出了术语形成的经济律，这是我国学者对术语学基本理论研究的一个重要贡献。术语形成的经济律反映了术语系统内的术语构词规律，是语言经济机制的一种体现。在一个术语系统中，系统的经济指数E与术语的平均长度L的乘积，恰恰等于單词的术语构成频率F[5]。用公式表示为：

在术语经济指数的公式中，F表示单词的术语构成频率，E表示术语系统的经济指数，L表示术语的平均长度，通过相关公式能给上述公式中的每一个变量进行界定和计算，具体可以表述为：单词的术语构成频率F=R/W（其中R是指术语系统中的单词总数，W是指不同的单词数量）；术语系统的经济指数公式为：E=T/W（其中T指系统的术语数量，W的指称同上）；术语的平均长度计算公式为：L=R/T（R和T同上，分别指单词总数及术语数量）[6]。对于一个术语系统而言，其经济指数越大，系统的经济效应就越高，因此提高系统的经济指数的最好办法是在尽量不过大改变术语的平均长度L 的情况下，增加单词的术语构成频率，所以在术语形成的过程中，将会产生大量的词组型术语，使词组型术语的数量大大超过单词型术语的数量[5]。在实际的术语系统中，词组型术语一般都占据大部分，这个事实正是术语形成的经济指数作用结果。

2. 中英统计学术语的经济指数分析

这里通过R语言中的tm包和reshape2包对相关指标进行了测算，其中tm包负责文本挖掘，用来进行多种情况分词比较，形成相应的语料库对象，reshape2包是进行数据整合的，以特定的形式输出数据，结果如下所示：

从表中可以看出，对于英语统计学术语来说，由于主体词占比比较高，停用词（如“of”和“the”）等虽然都会使得系统的经济指数下降，但是下降得并不明显，然而对于“”来说，去除连字符的影响之后，整个术语系统的经济指数从1.48上升到1.506，产生了巨大的提高，由此可见英语中的“”虽然能将两个概念之间的联系紧密化，让人更容易理解，但是可能会降低一定的经济指数。

将平行的两个汉英统计学术语系统进行对比，中文术语的经济指数远远高于英语的术语经济指数，这一方面是不同的语言的表现力的差异，另一方面是中文分词规则所致，比如“窗宽”这个术语，其对应的英文术语是windows width，“传染期”对应的是infectious period，这两个词的T=1，而中文的R=1，英文的R=2，这就导致了中文的经济指数较大，体现了中文对术语表达的一定的优越性。

四汉英动态术语库编撰说明

术语数据库（terminology database），简称术语库，用以存储术语数据[7]。术语库也被称作“存储在电子计算机中记录概念和术语的自动化电子词典”[1]。在信息技术飞速发展和日益推广的今天，创建术语库并利用术语库来支撑翻译实践和开展语言研究已成为现实。术语库最大的特点是能快速检索相关信息，并在使用术语库的同时及时更新术语库，开展相关研究，有效促进术语标准化与规范化，杜绝术语使用混乱等情况，进而确保翻译质量。下文以统计学汉英动态术语库为例，简要介绍由统计学术语构建的汉英动态术语库。

1. 动态术语库数据项说明

本说明参考南京大学“人文社会科学汉英动态术语数据库的构建研究”项目语料库编撰说明，下文针对统计学术语库构建中比较重要的几项指标项进行一定的解释。

（1）词性

为防止中英词性的混乱，统一以 n.、v.、adj.、adv.等英文缩写来标记词性；如有多重词性，用“/” 隔开，事实上统计学术语库中以名词性的术语为主，所以词性默认标记为n.。

（2）汉语语境/英文语境

本库的“汉语语境”与“英文语境”均为学术语境，且原则上要求是平行语境，在统计学术语库的构建中要求术语的汉英语境应选自统计学的权威期刊、杂志、会议，且中英文应表达同一个意思；为了便于理解术语，语境不能为简短单句或传统定义模式，应达到一定数量的字数或字符要求。

（3）库内关联术语

即在该学科总术语表中与该术语有语义关联，或属于同一术语系统的参见术语，或是常常一起出现在同一个语境的术语。比如“回归”和“残差”“方差分析”和“方差齐次性”应该属于库内关联术语。

2. 术语库数据项编撰心得汇总

在本次统计学术语库的编撰过程中，遇到一些困难和问题，通过项目团队研讨和专家评审等途径加以处理。本次动态术语库原则上应该以“汉英”为主，但是统计学诸多的概念都是源于欧美，术语含义应该以英语为主，所以术语库也应该以“英汉”为主，最后还是通过计算机的平行术语抽取和专家学者的多轮讨论、修改、删减避免了这个问题。

对于上述的诸多字段来说，语境信息的查找与修改是最大的问题，也是本次编著的主要难点与重点。首先并没有一个途径可以找到所有或者是大部分的术语的平行语境信息。其次，在大部分找到的平行语境中有一部分的中文或者英文的语言表述有一定的问题，难以直接使用，这时我们还需要理解语境，并且对其表述的语言进行一定的修改。

通过各种方式的尝试，我们发现通过以下几个途径寻找到一定的平行语境：

（1）库内检索

这是应“人文社会科学汉英动态术语数据库的构建研究”项目的需要，在前期准备阶段构建的一个数据库，主要包括一定的相关论文的摘要，可供参考检索。

（2）硕博论文摘要

通过国内学术电子资源如“中国知网”“万方”等，查找含有相关中文术语或对应英文术语的硕博论文摘要，可获取汉英平行语境信息，其中学科领域、检索条件可细化。

（3）谷歌学术/百度学术

推荐检索方式如下：检索“英文术语”（对英文字符加双引号，以增加检索的准确性），在界面左侧选择“中文网页”，便于查找双语信息。

（4）CNKI翻译助手

不同于一般的英汉互译工具，CNKI翻译助手是以CNKI总库所有文献数据为依据，汇集从CNKI系列数据库中挖掘整理出的800余万常用词、专业术语、成语、俚语、固定用法、词组等中英文词条以及1500余万双语例句、500余万双语文摘，形成海量中英在线词典和双语平行语料库。

（5）相关实体书籍查阅

主要有上海外语教育出版社的《英汉汉英统计词汇使用手册》和剑桥大学出版社（Cambridge University Press）的THE CAMBRIDGE DICTIONARY OF STATISTICS（THIRD EDITION）（《剑桥统计学词典》（第三版））两本比较权威的书。

（6）其他学术信息网站

统计学术语的检索还可以参考以下网站（详见表4）。

此外，在参与编撰的过程中，还遇到了一些其他问题，并通过组内讨论交流等方式处理了这些问题，总结如下：

（1）编撰期间可以通过“新建一个TXT文本”进行过渡来自动过滤文本格式，保证所粘贴的信息在平台上能够识别，否则容易保存失败；

（2）確保每个数据项中所填信息的第一个和最后一个字符不是空格，否则会引起保存失败；

（3）在英文语境中，对于某些符号，比如“%”，由于平台无法识别而无法保存，所以要避免这类符号的出现。

从统计学语境搜索反观统计学术语库建设现状，在国内拥有资源最丰富的术语库或许是CNKI翻译助手，不仅涉猎各个领域，而且还提供了譬如英汉词语、短语，甚至是整句的翻译检索，并提供相关的固定用法、俚语等诸多用法。笔者主要关注翻译这个功能，它的翻译主要是由计算机直接抓取的，在翻译的合适度、准确度和专业精确度上尚有一定的偏差。

五结语

术语的标准化有利于翻译实践和术语学的相关研究，有必要开展面向翻译的术语库建设及相关研究[8]。术语翻译作为翻译研究的重要领域，其重要性不言而喻，由于术语定名应当遵循专业性、单义性、理据性、透明性及约定俗成等原则，所以建立一个汉英动态术语库是必不可少的[9]。在逐渐完善这个术语库之后，一方面可以加速术语在汉英双语之间的交流，另一方面可以逐渐达到规范术语的目的，避免由翻译所造成的损失。

本数据库通过初始的自动抽取一定量的平行汉英双语的术语进行构建，通过对术语的形式分析，明确基本的翻译策略，提出两种基本的翻译方法。在数据库逐渐充实的过程中，始终坚持一一对应的原则，保持较高的系统经济指数，在进行术语翻译时，应该充分地考虑术语系统的经济效应，同时，术语形成的经济指数也能在一定程度上指导术语的翻译和定名。

参考文献

[1] 冯志伟.现代术语学引论＼[M＼].增订本.北京：商务印书馆，2011.

[2] 王可为.基于统计的双语术语自动抽取＼[D＼].南京：南京理工大学硕士论文，2007.

[3] 陈战.浅析中医药术语英译策略＼[J＼].吉林省教育学院学报，2013（4）：123-124.

[4] 赵元任.论翻译中“信达雅”的幅度＼[C＼]//吴宗济，赵新那.赵元任语言学论文集.北京：商务印书馆，2002.

[5] 童毅见.也谈术语形成的经济率＼[J＼].中国科技术语，2012（2）：17-18.

[6] 冯志伟.FEL公式——术语形成的经济律＼[J＼].情报科学，1988（5）：8-15.

[7] 中国国家质检总局.GB/T 19101—2003 建立术语语料库的一般原则与方法＼[S＼].北京：中国标准出版社，2003.

[8] 李健民.从科技翻译的角度探讨术语学建设＼[J＼].中国科技术语，2008（3）：16-21.

[9] 陶李春，殷健.论社科术语翻译研究的多层次与多维度＼[J＼].中国科技术语，2015（5）：35-35.