APP下载

基于大型语料库的中医药术语翻译“约定俗成”原则研究❋

2023-11-03陈彦君徐茂玲王世龙袁东超杨茗茜李可大

中国中医基础医学杂志 2023年10期
关键词:词频术语英译

陈彦君,徐茂玲,王世龙,袁东超,倪 菲,杨茗茜,王 嫄,李可大

(1.辽宁中医药大学中医学院,沈阳 110847;2.天津科技大学人工智能学院,天津 300457;3.辽宁中医药大学中医药标准化研究所,沈阳 110847)

在过去的几十年中,中医术语英译研究百家争鸣,取得了一系列研究成果,其中就包括中医药术语的翻译原则。然而这些翻译原则如何去实现,理论如何指导具体翻译实践,一直是没有解决的问题。本研究采取基于语料库的描写性研究方法,探索了中医药术语翻译“约定俗成”原则的实现方法,为今后的中医药术语英译研究与实践提供了参考。

1 中医药术语翻译的约定俗成原则

“语言是约定俗成的”这一观点在现代语言研究中得到了广泛的认同。由于翻译过程也具备语言的“任意性”和“规约性”特点[1],其过程也需要“约定”来完成,没有“约定”就相当于语言毫无规范和标准,也无法发挥语言相互交流沟通的功能[2]。

近年来,约定俗成作为中医药翻译的重要原则之一,已经在学界和译界达成共识。译界学者多认为翻译中应注意保留中医文化因子,注意规范性和统一性[3]。而规范性和统一性,就集中体现在中医药术语翻译的约定俗成原则上。“约定俗成”原则也在多种中医药名词术语国际标准中广泛应用,如《WHO西太区传统医学国际标准名词术语》《中医基本名词术语中英对照国际标准》以及近期发布的《WHO中医药术语国际标准》等。

然而,在约定俗成原则的实际运用中,谁来“约定”,如何“约定”,“约定”是否发生变化,如何变化,这些都是需要进一步解决的问题。中医翻译对比研究多为定性研究,鲜见定量研究[4]。有学者指出,对于同一中医药术语的不同翻译大都还是基于传统的经验或者人工的方法进行研究,缺乏相关的语料库和术语库的支撑,迫切需要采用语料库和术语库等实证的研究方法,对中医药术语的翻译进行检索、统计和比较[5]。通过中医药英译语料库的建立,中医药翻译实践者可以获取“约定俗成”的量化数据, 为中医英译提供标准化、规范化的依据[2], 故本文通过数据挖掘的方式,建立大型中医药英译语料库,并希望以此探索中医药术语翻译“约定俗成”原则的实践方法。

2 语料库建设与数据挖掘

2.1 语料库的建立

本团队所建立的语料库与之前所建立的中医药英语或双语语料库最大的区别在于数据规模与数据来源。在数据规模方面,团队通过计算机建模的方式,建立起千万单词级别的中医药英译语料库,其数据量远大于现有的中医药英译语料库;在数据来源方面,以现实中使用的自然语言为文本,对其语言特点的描写结果比以中医药典籍及其译本、国际标准等为数据来源的语料库更具有代表性。

主题模型(topic model)是近几十年来自然语言理解任务中常用的一种文本分析探索方法,主要以非监督学习的方式对文本的隐含语义结构进行聚类(clustering)[6],通过学习文本表征来应用于文本语义分析(semantic analysis)和文本挖掘(text mining)等问题,例如按主题对文本进行收集、分类和降维;也被用于生物信息学(bioinformatics)的研究[7]。其中,隐含狄利克雷分布(latent dirichlet allocation, LDA)、动态主题模型(dynamic topic models, DTM)等是目前常见的主题模型[8]。团队建立了可用于收集、挖掘、分析中医药术语的主题模型,并以PubMed数据库中的论文为数据来源,收集不同时段中医药相关论文摘要部分的文本信息,建立起共包含34 902 435个单词的中医药英译语料库。

2.2 数据来源

PubMed是一个免费的MEDLINE数据库,提供生物医学和健康科学领域的文献搜索服务。MEDLINE是当今世界上最权威的文摘类医学文献数据库之一,团队建立的主题模型以PubMed中收录论文的摘要内容(包含论文题目,摘要,关键词,作者,作者单位,发表期刊等)为数据来源,以Chinese medicine,traditional Chinese medicine,TCM,Chinese herbal medicine为关键词,分2013—2023、2003—2012、1993—2002以及1993以前4个时间段对中医药相关文本进行爬取(数据截至日期为2022年5月)。

对入库的52 225 788单词进行清洗,首先过滤特殊字符,空格等;然后使用自然语言工具包NLTK对文本进行分词,得到文本词集;最后去除英文停用词(如a,an,very,more),得到包含34 902 435单词的中医药英译语料库,语料库的具体数据信息如表1:

表1 分时段单词数量统计

3 中医药英译语料库的运用

3.1 解决谁来“约定”的问题

“约定俗成”是一种社会现象,它应该是自发的,而不是强制性的,是一种翻译在市场机制下打败了其他翻译而得到的胜利[9]。如果从翻译模因论的角度把某个中医药术语的英译看成是一个模因,它的传播过程就是模因像基因一样去感染并影响他人的过程[10],那么与自然选择一样,如果一个英译版本得到了更多受众的认可,并主动开始使用它,就证明这个译本的传播是成功的。所以,中医药术语英译的“约定”,还是要由术语英译的使用者来“约定”,也就是使用英语对中医药进行科研、教学、医疗实践、对外交流等的人员。如今中医术语翻译标准化难以实现的一个原因是我们把重心放在了中医翻译家之间的分歧上, 而不是读者的接受度上[11],所以本研究试图通过了解使用者真正使用的“约定”翻译,来进一步指导中医药术语翻译。

团队建立的中医药英译语料库,包含了34 902 435单词量的文本信息,具有一定的代表性;且数据来源为是当今世界上最权威的文摘类医学文献数据库之一,具有一定的权威性。团队借助计算机软件模型,得以实现数据的大规模收集与分析,其比较结果能够反映使用英语交流的学者对于中医药术语的“约定”结果,具有较高的参考价值。

3.2 部分中医药核心术语翻译的“约定”结果

在使用语料库进行词频搜索时,为了保证统计数据的准确性,团队采用了不同的数据筛选方法,包括对中医药术语的精确匹配和模糊匹配。对于核心词汇,同时采用精确匹配和模糊匹配,分别探索精确的词频及重叠性词组词频;对于罕见词汇,采用在文本中逐字符匹配、逐词匹配等筛选方法,以进行后续多方面的扩展性分析。

3.2.1 关于“中医药”的翻译 近年来,关于“中医药”到底应该如何翻译的争论一直没有停歇过。主要的争论点在于traditional Chinese medicine和Chinese medicine哪个英译版本更合适。一方面,WHO最新发布的中医药术语标准和ISO的中医药标准化委员会(TC249)的命名均使用了traditional Chinese medicine这个版本,但国内多所中医药大学的英文名称仍旧保留了Chinese medicine的译法。在团队建立的中医药英译语料库中,各个英译版本的频次统计如表2所示。

表2 “中医药”主要英译版本频次统计

根据词频的统计结果,可见traditional Chinese medicine及其缩写TCM的词频要远大于Chinese medicine及其缩写CM的词频,故在撰写中医药相关的英文论文时,中医药的英译“约定”结果为traditional Chinese medicine,也可缩写为TCM。

3.2.2 关于“脏腑”的翻译 “脏腑”为内脏的总称,为中医学基本的解剖观,是中医学认识机体形态结构的基础[12]317。按照其生理功能特点,可分为脏、腑和奇恒之腑。其中,“脏”多被翻译为zangorgans或zangviscera,而“腑”多被翻译为fuorgans或fuviscera。在团队建立的语料库中,organ的总词频为4 061次,viscera的总词频为249次,“脏腑”相关的词组出现次数如表3所示。

表3 “脏腑”相关术语主要英译版本频次统计

通过比较词频得出,在表示中医“脏腑”时,使用organ的词频大于viscera的词频,故建议脏翻译为zangorgan,五脏翻译为fivezangorgans,腑翻译为fuorgan,六腑翻译为sixfuorgans。值得注意的是,此结果与之前学者建立的小型语料库的统计结论相吻合[13]。本数据库中关于奇恒之腑的词条过少,故结果在此不表。

具体脏腑术语多采用直译归化的方法进行翻译,如使用heart直接翻译“心”,唯有“三焦”为中医特有脏腑概念,无法进行归化翻译,故诞生了多个异化翻译的版本,其词频统计如表4所示。

表4 “三焦”主要英译版本频次统计

其中词频最高的译本为triple energizer,此结果与之前学者建立的小型语料库的统计结论相吻合[13]。与此同时,与triple energizer词频接近的译本为sanjiao,这也是2022年最新发布的《WHO中医药术语国际标准》中的翻译版本,故此版本的读者接受度在不断提升,并在将来有超越triple energizer成为“三焦”主流译本的可能。

3.2.3 关于“气”的翻译

关于中医药术语“气”的翻译,当前学术界的主要争论在于气作为中医药术语,英译时首字母是否需要大写。从词频统计结果来看,见表5,两个版本的使用频次相当,故两者都可以作为气的翻译的“约定”结果。

表5 “气”主要英译版本频次统计

3.2.4 关于“证”的翻译

“证”是中医中所特有的概念,指对疾病过程中一定阶段的病位、病因、病性以及病势等所作的病理概括[12]197。关于“证”的翻译,目前最常用的两个翻译版本为pattern和syndrome,但这两个版本的翻译均不能涵盖中医“证”所包含的全部内容。从语义角度来说,pattern的含义比较宽泛,可指模式、范例、花样、模型等,syndrome主要指“综合征”或“典型表现”,pattern为syndrome的上位词。作为中医药核心术语,pattern和syndrome在语料库中出现的总频次分别为7 055和22 812,为确保两词均对应中医中的“证”,团队在抓取时选取“辨证”作为核心词组,抓取结果如表6所示。

表6 “辨证”主要英译版本频次统计

其中,syndrome differentiation的出现频次远大于译本pattern differentiation,故团队认为syndrome differentiation为“辨证”的“约定”翻译结果,其中,syndrome为“证”的“约定”翻译结果。为了验证此结果,团队又比较了“阴证”和“阳证”的两个译本,结果如表7所示,其中包含syndrome的词组出现频次远大于包含pattern的词组出现频次,这个结果也验证了之前的结论。

表7 “辨证”主要英译版本频次统计

3.2.5 关于“经”的翻译

经络是人体经脉和络脉的总称,其中经,有路径的含义,为直行的主干。包括十二经脉、奇经八脉,以及附属于十二经脉的十二经别[12]250。为了保证抓取的核心词为经络之“经”,团队采取了抓取词组的方法,抓取的词组为十二正经相关词条(不包括三焦经),分“脏/腑+meridian”和“脏/腑+channel”两组(其中大肠经和小肠经均使用“intestinal+meridian或channel”的形式来概括),来对比meridian和channel两种关于“经”的译本,具体词频统计如表8所示。

表8 “经”相关术语主要英译版本频次统计

其中,包含meridian的译本的出现频次大于包含channel的译本。从语义角度分析,meridian本义为“子午线;经线”,使用meridian来翻译“经络”,在语义上发生了“从抽象到具体”的变化,而“经”的原意是“纵丝”,有路径的意思,简单说就是经络系统中的主要路径,存在于机体内部,贯穿上下,沟通内外。channel含义较广,其含义包括途径;渠道;系统;水渠;水道,使用channel来翻译“经络”,在语义上也发生了“从抽象到具体”的变化,但由于channel所指喻体较多,在读者脑中无法得到统一的映射,对于不熟悉中医术语的人而言,用一个多义词表达中医学中一个明确的概念,不符合科技翻译的选词标准[14]。故meridian为“经”的“约定”翻译。

3.2.6 其他相关术语的翻译。

本研究以数据为基础,展示部分术语英译的约定结果,故不从术语内涵进行过多讨论,表9中为数据库中其他几组常见术语的英译版本频次统计。

表9 其他常见中医药术语主要英译版本频次统计

3.3 “约定”的变化

语言是不断变化和发展的。由于中医药早期译介与当今译介有所不同,对于中医药术语英译的“约定”也在不断变化。张顺生[15]提出“就翻译系统整体而言,翻译的约定俗成是一种永无终结的探索性认知过程,是在人类漫长的翻译实践中完成和完善起来的。随着人的认识在深度和广度上的提高,约定俗成的翻译也可能随之发生变化,因此,人们应在总体遵循‘约定俗成’的同时,不断突破局部不合理的约定俗成的藩篱,与时俱进,适时开始新一轮约定俗成” 。

分段词频统计可以得出,即使某个中医核心术语有更多人使用的“约定”版本,其他的英译版本也具有顽强的生命力,如Traditional Chinese medicine与Chinese medicine之争,虽然前者在数据上占优,但后者依然有着庞大的用户群。随着今后中医药在国外的不断发展,是一种版本逐渐盖过另一种版本成为“唯一的”约定结果,还是两种版本交相辉映共生共荣,都不得而知。

以“辨证”各个英译版本的分时段词频统计为例,见表10,虽然各个版本目前的使用频次之间差距明显,但各个翻译版本的频次都在不断上升,见图1,没有发生一个“约定”结果完全“消灭”另一种约定结果的情况。由此可见,在中医药论文撰写与学术交流领域,各个英译版本“百花齐放”的情况将会持续,并通过“百家争鸣”的方式,促进中医药英译的进一步发展。

图1 “辨证”各英译版本频次变化趋势

表10 “辨证”各个英译版本的分时段词频统计

4 总结

团队所建语料库词频统计显示,在过去几十年中医药的英译过程中,核心术语的使用者们逐渐“约定”了常用的翻译版本。如中医药的“约定”版本为Traditional Chinese medicine (TCM),五脏和六腑的“约定”版本为fivezangorgans和sixfuorgans,证的“约定”版本为syndrome,经的“约定”版本为meridian等。然而,本语料库包含数据的文本类型单一,只包含了中医药相关论文中的常用术语,在今后的研究中,团队会从中医药典籍、中医药教学资源、中医药产品、中医药国际标准等不同角度补充现有数据库,也会关注各个英译版本在不同领域更加详细的变化趋势,使得出的结论更具有代表性和针对性。

通过数据的辅助,团队得出了当前中医药术语翻译“约定俗成”原则的实践结果,为中医药术语英译提供了数据支撑。而基于数据挖掘的中医药核心词“约定”翻译,也为日后中医药术语的描写性翻译研究带来了新的视角。

猜你喜欢

词频术语英译
基于词频分析法的社区公园归属感营建要素研究
摘要英译
摘要英译
要目英译
要目英译
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势