APP下载

语料库驱动的《海洋考古术语汉英辞典》编纂刍议

2023-04-06冯浩达王麒凯

中国科技术语 2023年1期
关键词:辞典词条汉英

冯浩达 曾 罡 王麒凯

(大连海事大学,辽宁大连 116026)

引言

自“海洋考古”这一术语正式引入学界[1],有关海洋考古术语的研究日渐活跃,已形成包括语言学、考古学、术语学、翻译学等多学科交叉、相互渗透的热点领域。据有限统计,仅以“海洋考古”这一关键词为索引,在科睿唯安(Clarivate Analytics)数据库显示有37个相关期刊,其中《科学》(Science)有229项检索结果;中国知网(CNKI)检索结果有47项,且呈逐年递增趋势。海洋考古术语整理、术语管理、术语打磨、术语概念内涵与外延、术语体系特征描摹、术语体系构建策略等成为该领域核心话题,且呈多元化发展趋势。前期相关研究理论视角达10余种,如本体论[2]等。

然而,既有成果虽然丰硕但也存在明显不足,主要体现为针对特定领域、特定区域研究居多,如从中国南海诸岛文物遗迹、航线与沉船、舆地考释等角度探讨了术语的语源、变异、整理[3]。此类研究虽注重学术互动与学科知识表征的变化规律,然而全息视角的缺失造成术语使用缺乏一致性,无论作为研究对象还是研究视角,显然不足以对探索海洋考古术语体系构建路径形成全面观照和映射。从这个角度讲,编纂一部《海洋考古术语汉英辞典》可有效解决海洋考古术语概念结构和内涵剖析较为零散、语际对比尚付阙如、术语体系构建有待系统化、理论化等问题,在一定程度上利于描摹该领域热点及发展态势,汇集交叉学科优势与资源,树立共同的学术目标、发现共同的学术问题,发挥思想碰撞与科研凝力、形成强有力的学术共同体,以更好地构建海洋考古术语学“三大体系”,提升在国际学界的话语权。

《海洋考古术语汉英辞典》体现着该术语体系构建的核心要素(如概念、逻辑、框架等),其编纂的要务便是方法的科学化[4]。本研究采用语料库驱动法,通过文献计量分析,探讨《海洋考古术语汉英辞典》编纂的原理及框架。

1 语料库驱动法与文献计量分析

语料库语言学是具有较强方法论导向的语言学分支[5]158,语料库驱动法与术语体系研究联系紧密,已广泛应用于辞典编纂等工作。其原理可归纳为通过观察大规模语料库中真实的语言数据,析出对研究领域有意义的词、词块、词汇搭配、程式化序列等,进行术语提取、术语定义、术语分类、术语分析,制成词表并整理词条入典。基于专业术语的特殊性(如海洋考古术语),构成语料库所用的语料受语域限制,一方面需为所研究领域兼具权威性、代表性、前沿性的学术文献(如专著、核心期刊论文等);另一方面需对其进行文献计量分析,用数学和统计学的方法,定量地分析所研究领域知识载体[6],注重量化的综合性知识体系,计量对象主要为词汇(如关键词、高频词等)、作者(如个人、团队)、文献量(如出版物、引文),以厘清该领域术语界定、热点术语、术语发展态势,从而深化术语辞典编纂的指导意义。因此,本研究的方法论主要由三部分构成:海洋考古语料库构建、术语数据提取及处理、海洋考古文献计量分析。

1.1 海洋考古语料库构建

本研究按照海洋考古相关性择取语料并构建可比语料库(comparable corpora),旨在采用自下而上的语料库驱动的范式对海洋考古汉英术语体系进行统一整体描写。该库包含“中国海洋考古文献语料库”(Chinese Maritime Archeology Corpus,简称CMAC)及“英语海洋考古文献语料库”(English Maritime Archeology Corpus,简称EMAC)两部分,由权威性、代表性、前沿性的学术文献组成。其中,CMAC语料来源为2012至2022年间出版或公开发表的30部中文海洋考古专著及50篇中文核心期刊论文;EMAC语料来源为2012至2022年间公开发表的100种英文海洋考古核心期刊论文。CMAC与EMAC语料容量各自为1000万形符(token)。此外,本研究对英文期刊做了限定,须同时满足以下三个标准:

(1)以海洋考古为主要研究对象的刊物;(2)被《科学引文索引》(SCI)、《社会科学引文索引》(SSCI)或《艺术与人文科学引文索引》(A&HCI)收录;(3)刊物影响因子在0.5以上。

CMAC与EMAC在语料规模、语料类别、语料时效上均具有较强的可比性。

1.2 术语提取及处理

在本质上,术语是“领域专家用来刻画、描写领域知识的基本信息承载单元,是信息检索和信息抽取的重要单元,是知识库中的核心成员,也是本体构成的基本单元”[7]124。领域术语提取及处理方法大致可分为三类,即基于语言规则的方法、基于统计的方法、规则和统计相结合的方法。基于规则的方法主要应用规则库或规则模板,通过提取语料库中与之对应的中文的字、词、词组或英文的词、词块、词汇搭配、程式化序列等来确定术语。基于统计的方法则是依靠统计量度发现语料库中字与词的使用规律识别、提取术语(如基于互信息和似然度的方法[8]),或基于机器学习算法,如决策树(Decision Tree)、支持向量机(Support Vector Machines)、最大熵模型(Maximum Entropy Model)、隐马尔科夫模型(Hidden Markov Model)、最大熵马尔科夫模型(Maximum Entropy Markov Model)等,对语料学习生成、训练模型,继而实现术语的自动识别、提取。规则和统计相结合的方法则综合了这两类方法的优点,在一定程度上弥补了语言学知识和统计学方法的不足,将规则模板、统计手段、机器学习有机结合起来,利于进一步提高术语提取的准确率和效率(如基于规则与统计的本体概念自动获取方法[9])。本研究基于海洋考古术语挖掘的穷尽性原则,从“总体史学”观考察海洋考古术语体系,故采用规则和统计相结合的方法,其流程可见图1。

图1 术语数据提取及处理流程

表1 EMAC语料库语料来源期刊样例名录

本研究涉及的中英文数据提取及处理均采用Python计算机语言编程完成。

1.2.1 中文数据提取及处理

中文数据处理主要包括分词、标注、候选术语检索三个主要步骤。首先,将CMAC语料库中语料进行分词,其目的是便于候选术语检索。在Python

集成开发环境(Integrated Development Environment,简称IDE)中,中文分词可通过Jieba[10]等工具实现。在Python IDE中,其代码[11]如图2。

图2 中文语料分词代码

其次,对所得中文文本进行词性标注,其目的是便于候选术语词性界定以及辞典词条录入。词性标注亦可通过Jieba实现。在Python IDE中,其代码[11]如图3:

图3 中文语料标注代码

再次,结合规则和统计的方法,对候选中文术语检索并过滤。从规则层面讲,海洋考古术语的界定需要建立在海洋考古学科语言使用特点的整体分析基础之上,因此,本研究在借鉴前期研究成果[12]的基础上,总结出三条规则对候选术语进行过滤:

(1)海洋考古术语词条不得以介词、量词作首尾;(2)海洋考古术语词条不得包含代词、语气词及部分助词;(3)海洋考古术语词条至少包含一个动词、名词或名词结构。

从统计层面讲,海洋考古术语的提取需注重单元性和领域性,对于这两个属性的正确评价是“进行候选术语过滤的关键步骤,直接决定着术语抽取的准确率和召回率”[12]14。本研究采用Frantzi提出的术语抽取统计参数C-Value和NC-Value[13]来衡量候选术语的单元性和领域性。其计算公式分别为:

C-Value(a)=log2|a|·f(a) (a未被其他字符串嵌套)

NC-Value(a)=0.8×C-Value(a)+0.2×

∑b∈Cafa(b)·weight(b)

1.2.2 英文数据提取及处理

与中文数据处理不同,本研究涉及的英文数据处理主要包括N元组(N-gram)提取、搭配强度计算、词形归并三个主要步骤。提取N元组的目的在于基于N-gram语言模型在尽可能大的语料库数据中穷尽收集海洋考古术语。N-Gram 语言模型表示了语言中各词之间的依赖情况[14],其中N指大于等于1的任意自然数,如一元组(unigram)、二元组(bigram)、三元组(trigram)等。语言研究中,N一般情况小于等于10。N元组的提取主要依靠NLTK库中ngram模块,在Python IDE环境中,其代码[11]如图4:

图4 英文N-gram提取代码

所得N元组进行清洁处理后,考察元组内各元之间的搭配强度对海洋考古术语做进一步过滤。从统计量度角度讲,本研究引入似然率(the Log-likelihood ratio)作为衡量搭配强度的方法,并确定比值大于等于3.84[15]的N元组构成海洋考古候选术语。例如,二元组的计算公式如下:

LL=-2logλ=-2log

可使用NLTK库中的collocations模块在Python IDE中计算其搭配强度,其代码[11]如图5:

图5 英文N-gram搭配强度计算代码

此外,海洋考古术语词条的录入要求英文条目忽略曲折变化及派生变化,因此,研究中对所得N元组进行词形归并(lemmatization)处理以有效过滤术语。

1.3 海洋考古文献计量分析

大多前期辞典编纂相关研究并未虑及文献计量分析,而本研究将其纳入领域术语体系研究框架从宏观到微观主要有三方面原因:首先,研究采用语料库驱动法,旨在对汉英海洋考古术语体系做全息描摹,因此,通过文献计量分析,可以厘清汉英体系的海洋考古领域术语界定、热点术语、术语发展态势;其次,运用数学和统计学的方法,定量地分析海洋考古研究领域知识载体,是注重量化的综合性知识体系的表现,利于构建新时代中国特色海洋考古术语体系;再次,以学者类型、期刊类型、语言类型为变量,从热点话题、高被引论文、高被引学者、高被引论文的国家(地区)分布等因素进行多维度交叉分析,利于探讨汉英海洋考古术语体系接口,进而利于术语对译(图6)。

图6 汉英海洋考古文献计量分析原理

对比热点话题用于探讨海洋考古术语规范、术语更新、术语对译、本土元语言等问题。对比高被引论文用于探讨海洋考古领域学术动态与趋势、理论创新与发展、学科发展与融合、本土理论构建等问题。对比高被引学者用于探讨海洋考古领域学术权威与成果引用、学者研究兴趣与焦点、本土学者培养与国际化等问题。对比高被引论文的国家(地区)分布用于探讨民族主体与文化自信、话题选择与成果推广等问题。上述分析意在围绕海洋考古术语领域“我国目前优势有哪些?”“在哪些方面领先?”“在世界上处于何种水平?”“尚存哪些薄软环节?”“如何弥补这些弱势?”等问题进行理据探讨,继而为编纂《海洋考古术语汉英辞典》服务,为构建新时代中国特色的海洋考古术语体系建设服务。

2 编纂《海洋考古术语汉英辞典》的基本框架

2.1 汉英海洋考古术语对译

综上所得海洋考古术语词表经过人工复检,按照如下三条原则进行对译:

(1)单义性原则,汉英海洋考古术语对译过程按语义内涵与外延对接,具有意义排他性,即术语的意义是单一的、专用的,一个概念只能对应一个专门固定的术语,“一词一义”。

(2)科学性原则,汉英海洋考古术语双向“对比”与“反馈”要从科学概念出发,根据所描述事物的属性准确地、严格地进行语义对接,做到“名副其实”。

(3)系统性原则,汉英海洋考古术语根据各自体系概念相关联的程度,以“术语群”的方式构成合理的分类体系(如上下义关系)的有机整体,做到“物以类聚”。

值得注意的是,不可译性术语遵循“三贴近”原则[16],即贴近中国发展的实际,贴近国外受众对中文术语的需求或中国受众对英文术语的需求,贴近中外受众的思维习惯进行转译,力求规范统一、遵从习惯、译名从实、功能对等。缩略词依据惯用性、通俗性原则进行对译,如“laser”对应“激光”,不对应“受激辐射放大光波”。

2.2 词条录入

依据汉英海洋考古术语对列表,利用辞典编纂法,制定《海洋考古术语汉英辞典》词条收录规范及标准,系统整理、录入词条,同时解决海洋考古文献中术语规范、术语更新、本土元语言等问题。辞典所列词条在形式上简明、精练,在语义上准确、清晰,在内容上丰富、全面,旨在涵盖海洋考古学科的所有基本范畴。每个词条包含以下要素:中文术语、注音、对应的英文术语、中文注释、英文注释(或译文)、配例、引文等。此外,因罕用术语,或称“一次词”(Hapax legomenon),在术语规范、术语更新、本土元语言层面有着较大的研究价值,故在本研究中词条录入环节除涵盖上述要素之外,还注明罕用术语出处。

《海洋考古术语汉英辞典》中文词条录入注重单元性与领域性,根据术语表人工复检结果,仅录入在海洋考古领域具有“严格意义”的术语作为拟编纂辞典词条。中文词条注音参照《汉语拼音正词法基本规则》(GB/T 16159—2012),并严格按照该标准中的分词连写规则、人名地名拼写规则、大写规则、标调规则、移行规则、标点符号使用规则以及变通规则等[17]。英文术语对照相应的中文术语进行录入,如遇文献计量分析中只有一方体系存在(如,术语在中文文献中存在,在英文文献中缺失;反之亦然),而对应术语采用转译等手段来编制录入的情况,则以符号“[译]”进行标注,以方便学界明晰不同术语体系间的差异性,以及学术热点与态势等。中文术语注释遵循“中文学术文献定义为主、百科资料(如百度百科)为辅”的原则,言简意赅地对中文术语的内涵与外延做系统描述。同理,英文术语注释遵循“英文学术文献定义为主、百科资料(如维基百科)为辅”的原则,言简意赅地对英文术语的内涵与外延做系统描述。中英文配例依据CMAC与EMAC中的真实语料为海洋考古术语提供语境,一方面可以弥补术语注释的不足,另一方面便于辞典使用者理解术语,并基于语料库所提供的语境从语用角度采用“忠实-模仿-创新”的原则正确使用术语。术语引文主要涉及术语词源信息与相关资料,便于辞典使用者“追根溯源”,明晰术语演化历程、推演术语发展趋势。本文仅以“声呐-sonar”这一术语对为例,描摹《海洋考古术语汉英辞典》中术语的呈现。

表2 《海洋考古术语汉英辞典》词条样例

2.3 进展安排与总体反馈

《海洋考古术语汉英辞典》拟收录不少于6000个词条,其总体思路遵循提出问题、术语界定、数据挖掘、数据应用、理论构建与评价的思路开展研究,对海洋考古史料做整体梳理,挖掘术语数据并打磨,形成汉英海洋考古术语辞典及数据库,并系统化、理论化。主要采用四种具体研究方法,即语料库驱动法、文献计量法、辞典编纂法、理论凝结法,遵循体系化、链条式顶层设计,按照“分工协作、交叉进行、相互配合”的实施路径,围绕海洋考古术语的理论体系构建与实践应用开展研究。总体进度安排分为三个阶段(36个月):

(1)综述、建库:文献整理,首先进行分类并排序,制作成电子文本,以便共享;其次,对资料进行定性和定量分析,去粗取精、去伪存真,全面建成CMAC和EMAC。

(2)录入、编纂:采用“渐进式”词条录入原则,完成术语整理、筛选、标注、分类、可视化分析,研发基于N元组模型开发术语词表,完成拟收录词条的全部编辑及排序。

(3)审查、理模:赴中国海外交通史研究会、北京大学海洋研究院、中国海洋大学海洋文化研究所等开展调研,针对专家反馈进行校验,并构建海洋考古术语体系理论模型。

目前,该辞典编纂工作已完成“综述与建库”阶段,并对约2000个词条进行了整理与编辑,经过前期模拟校验,基本达到了预期目标。与其他同类辞典相比,《海洋考古术语汉英辞典》体现出如下优势:

(1)穷尽性:从“总体史学”观出发建构框架,坚持归纳与演绎、科学与价值辩证思维,整合世界范围内海洋考古研究资源,对海洋考古术语做全息描摹。

(2)前沿性:语料库驱动、文献计量、词典编纂、理论凝结等方法互相支撑,兼顾理据,依据近十年国内外海洋考古研究文献做术语整理,体现学术前沿。

(3)创新性:语言学、考古学、术语学多学科交叉融合,问题聚焦;计算机语言与统计分析软件结合使用,优势互补,推进海洋考古术语跨学科创新研究。

2.4 海洋考古术语体系建构

编纂《海洋考古术语汉英辞典》的意义不仅是为学界增添一部工具书,而且是通过这部工具书描摹、探析海洋考古汉英术语体系的异同,继而构建起新时代中国特色海洋考古术语体系、提升中国在国际学界的话语权。因此,利用理论凝结法,从民族主体性、理论原创性、术语规范性、学术权威性等角度出发,按照互为参照与体系分类相结合、量化分析与质性分析相结合、整体研究与个案研究相结合的原则,探讨中国海洋考古术语体系构建的理论框架亦是本研究的理论价值与实践价值所在。

首先,依托中国海洋文化价值观,探讨海洋考古术语研究的动态与趋势、理论创新与发展、学科发展与融合、本土理论构建等问题是术语体系构建的前提。海洋考古术语领域的发展历程表明,没有任何一种理论和方法是放之四海而皆准的[18]。立足中国国情来研究中国和世界海洋考古的趋势,既是学术自觉与学术自信的回归,又是提出新理论、提供新方法的有益尝试。语料库与计算机编程技术相互支撑,文献计量与统计分析相互补充,知识与应用互为观照,将更多的方法论纳入研究范围,消除学科壁垒,使其成为一个横跨文理的学科群。换言之,术语体系的构建过程也是理论创新、方法创新、知识创新的过程,而《海洋考古术语汉英辞典》的编纂则是推动这一进程的内生动力。

其次,发展本土海洋考古术语,适当择用本土元语言,制定海洋考古术语研究“中国标准”是术语体系构建的关键。从这个角度讲,《海洋考古术语汉英辞典》的编纂是一个围绕“什么是术语?”“术语界定标准是什么?”等问题,探讨海洋考古领域概念内涵与外延、厘清概念间的相互关系、梳理概念逻辑结构的过程。作为概念载体的术语,其归属权往往与学术话语权有内在的关联[19]。在海洋考古领域,学术元语言基本以英文为主,以致我国学者在理解重要理论与方法、在国际学界发表观点与见解等方面在很大程度上仍囿于西方学者。因此,海洋考古术语体系的构建要结合中国社会文化语境来探析概念、归纳演绎领域术语,使用中文对英文海洋术语体系进行解构、并立足本土研究与实践惯例对其进行重新建构,形成一套有中国特色的术语使用规范,以提升在国际学界的话语权。

再次,深化“总体史学”观,以本土语料为驱动,探索本土研究范式,树立“考古术语学”理念是术语体系构建的必要条件。术语体系构建离不开语言数据,术语提取、术语分类、术语定义、术语分析也离不开自然语言文本的挖掘、检索、统计、定量定性分析等。语料的性质、来源对于术语体系的建设起到了决定性的作用。范围过窄、数据不足、方法陈旧则明显不利于体系建设,反之亦然。《海洋考古术语汉英辞典》编纂所采用的语料几乎涵盖了近十年间海洋考古领域的权威性前沿成果,具有一定的代表性,可从统一整体观对其做全息描写,对比分析亦形成全面的观照和映射。加之,中文语料的比例较以往研究而言有着较大幅度提升,着重挖掘本土术语数据,为推动本土研究、提升学科地位有着重要意义。因此,海洋考古术语体系的构建需要拓宽其研究视野、丰富其研究内容。

此外,《海洋考古术语英汉词典》编纂的本体研究对语料库驱动法及该方法论所涉及的定量与定性分析做了详尽的剖析,并提出理据。不难看出,与基于语料库方法相比,语料库驱动方法视语料库为一个整体,从数据挖掘的角度而言,通过设置“规约”与“条件”等手段,过滤掉语料库中的“冗余数据”。因此,该方法更为“彻底”,具备全面性、系统性、穷尽性等特点。就《海洋考古术语英汉词典》编纂原理而言,语料库驱动法显现出一定的普适性,对其他学科领域术语体系的构建亦有一定的指导和借鉴意义。

3 结语

海洋考古术语研究作为海洋考古学、语言学、术语学、翻译学相互交叉的领域,吸纳了众多学科的专业知识,并积极与其他学科“对话”,努力形成了可持续发展的“学科群”。尤其,随着语言学与计算机科学的深度融合,语言资源的数字化为海洋考古术语体系的动态建设注入了新的动力。术语数据的处理、管理、计量、统计等技术的更新、迭代都为其体系建设提供了有力保障。

编纂《海洋考古术语汉英辞典》的目的是在尽可能大的海洋考古领域的语言数据中,通过文献计量分析,对海洋考古本体范畴的概念进行挖掘、描摹、比较、汇总、归类、分析、解释,形成科学化、系统化、理论化的中国特色海洋考古术语体系,从“总体史学”观解决前期研究“碎片化”、较为零散的问题。该辞典契合了海洋考古“三大体系”建设,体现了该领域术语体系构建的核心要素,在一定程度上利于描摹该领域热点及发展态势,汇集交叉学科优势与资源,突破研究领域桎梏与学科壁垒,拓展研究范围[20],旨在树立共同的学术目标,发现共同的学术问题,发挥思想碰撞与科研凝力,形成强有力的学术共同体,推动海洋考古学科发展,提升该领域在国际学界的话语权。

猜你喜欢

辞典词条汉英
亚鲁辞典
2017年2期《IQ辞典》答案
2017年1期《IQ辞典》答案
2016年12期《IQ辞典》答案
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
话题链在汉英篇章翻译中的统摄作用
从目的论看环保公示语的汉英翻译
2016年9月中国直销网络热门词条榜
大数据相关词条