基于平行语料库的专利摘要术语和词汇量化分析
2018-11-05李诗品
李诗品
摘 要 谷歌专利(Google Patent)为广大用户提供了便利的专利检索和翻译服务,但其(Google Patent)翻译文本仍然存在着一定的不足。本文基于谷歌专利(Google Patent)的检索文本,探讨美国专利局专利摘要在专利词汇层面的差异,进而探讨计算机通信领域专利摘要中存在的翻译共性。本文从谷歌专利(Google Patent)中随机选取100篇专利摘要文本,借助Antconc文本分析工具和微型平行语料库探究其词汇层面的翻译共性。研究表明,谷歌专利(Google Patent)在术语的层面,虽然大多数核心词能做到相对精确的对应,但仍存在着部分名词的指代偏差、修饰词搭配偏差和术语结构顺序偏差。在词汇密度和类符比方面,美国专利局的专利摘要文本和谷歌专利摘体现着一定程度的翻译共性。 关键词 机器翻译 专利摘要 平行语料库 翻译共性
中图分类号:H315.9 文献标识码:A DOI:10.16400/j.cnki.kjdks.2018.08.030
Abstract Google Patent provides a convenient patent search and translation service for users, but there are still some shortcomings in its translation. Based on the search text of Google Patent, this paper explores the differences in patent vocabulary between US Patent Office patent abstracts, and then explores the commonalities of translation in patent abstracts in computer communications. This paper randomly selects 100 patent abstract texts from Google Patent, and explores the commonality of translation at the lexical level by means of Antconc text analysis tools and micro-parallel corpus. Studies have shown that Google Patent at the level of terminology, although most of the core words can achieve a relatively accurate correspondence, there are still some nouns of the deviation of the reference, modifier collocation deviation and term structure order deviation. In terms of vocabulary density and class proportions, the US Patent Office's patent abstract text and Google patent abstracts reflect a certain degree of translation commonality.
Keywords machine translation; patent abstracts; parallel corpus; translation commonality
1 概述
通信互联网行业作为21世纪的新兴产业,其专利需求量与日俱增。仅从2012年到2016年,世界范围内战略性新兴产业领域的专利数量激增,全球战略性新兴产业发明专利申请量达到357万件,五年年均增长率为 5.8% 。[1]专利不仅承担着向特定读者群体传播技术发明的作用,同时可以作为预防侵权的有力证据。作为记录授予发明人一定时间的权利的法律文件,专利对保护知识产权的合法权利和生产起着至关重要的作用。[2]而专利翻译摘要作为专利检索的切入点,可以助于专家总览全文。谷歌专利(Google Patent)作为一个在线专利网站,其丰富的语库可以实现一定程度的翻译服务,达到一定程度的翻译对等。然而,这种对等仍然没有实现赖斯 (Kantarlna Relss)所提出的功能对等。[3]在实际操作中,专利翻译者需要注重翻译细节和专利文献的功能对等。随着中国新兴产业的迅速崛起,专利成为知识产权“走出去”的有力保障。探究中英文专利翻译摘要文献与谷歌专利(Google Patent)所生成的机器翻译文本在术语层面的差异,不仅具有较高的学术价值,同时对实现专利的机助翻译具有十分重要的意义。
2 文献综述
自20世纪50年代初,一些学者开始重视机器翻译。江镇化指出了潜在的困难,并提出了机器可用于翻译活动的假设。[4]机器翻译在专利领域的研究始于2007年,刘韧介绍了第一个专利机器翻译引擎。[5]2011年,中国专利信息中心——北京师范大学机器翻译联合实验室成立。
此后,越来越多的学者研究机器翻译在专利翻译领域的应用以及专利机器翻译的优化。[6]随着机器翻译的兴起,翻译语料库应运而生。
语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断。[7]梁茂成指出,存在着“基于语料库”的研究范式和“语料库驱动”两研究模式。[8]前者只是将语料库视为众多数据种类中的一种,不排斥在必要时使用其他类型的数据,而后者主张一切源自语料库。其中,基于语料库的翻译语言研究十分活跃,就翻译共性而言,胡显耀、曾佳等发现,翻译语料与原创语相比,表现出明显的简化、显化和范化特征;[9]而且,无论是文学还是非文学语料,翻译语与原创语相比具有词语变化度偏低、詞汇密度偏低、虚词和指代方式显化、常用词频率增加等特征。[10]
从文本量化层面,Tsai、Y.在专利翻译词汇层面研究对比了中英专利文献的字长、词频、关键词和类型标记率。[11]她发现,英文专利摘要更多的使用短句,而中文专利用词更为多样化。然而,她只是调查了中英文专利摘要的差异,两者区别对于机助翻译显得并不是那么直观。班尼特特别关注了翻译的问题,他认为学术文本的写作惯例具有准确、简洁和清晰的特点,这与专利文本的标准非常相似。[12]
3 研究方法
在文本选择层面,美国专利局的专利包括实用专利、外观设计专利和植物专利。[13]而我国将专利分为发明专利、实用新型专利和外观设计专利。[14]因为我们根据世界知识产权组织(WIPO)根据合作专利分类(CPC)章程,选定了隶属于(H4)电力通信行业范畴的专利文本。
在语料库层面,我们采用随机选取的策略,在谷歌专利中设置了检索限制。将专利文本限制在2013年1月1日到2017年12月30日。同时考虑到专利是否同时具有中英文版本,以及这些文本是否具有代表性。我们选择了高通、华为、中兴等通讯行业的巨头作为研究对象。通过Excel 软件做成标题对齐、句子对齐和段落对齐的三种语料库。
在量化层面,我们使用了美国当代语料库(COCA)。同时,使用语料库在线对于中文文本进行标注,进而使用antconc和WordSmith探索中英文专利和机器翻译文本在词频、词密度、字长和类符比层面的差异,进而研究其翻译共性。
4 结果和讨论
词法分析旨在研究目标语中的字长、词频、关键词和类符比。单词长度是指一个单词中的字符数,而词频为每个文本提供文体特征的统计证据。[15]使用语料库工具可以搜索文本中的单词或短语,进而系统地展示其文本特征。
4.1 术语差异
专利摘要中的术语必须符合国家规定或行业内的共识,因而其选择是极为严格的,同时专利的术语通常集中在专利文摘的标题中。[16]因此,我们随机抽样了100份专利摘要的标题,并且对比了美国专利摘要和谷歌专利(Google Patent)翻译文本的差异。实验表明:(Google Patent)可以实现37%标题完全对等,这足以显示机器翻译在专利术语层面的准确性较高。同时26%的标题实现了名词的完全对等、只有形容词和动词的细微差别。
谷歌专利(Google Patent)可以在术语选择方面实现较高的准确度。与美国专利局专利相比,谷歌专利(Google Patent)在相同、相似和核心词对等的百分比已达到90%。然而仅37%的完全对等并不能满足翻译的要求。术语的选择可以反映专利写作的准确性。例如在“用户设备”中,user device和user equipment表面上看都是可以接受的。但是,事实上,当我们使用COCA进行验证时,结果表明user device比user equipment更容易接受。同时,user device的MI值达到3.06,超过3.0这一搭配界限。
类似的例子,如在“系统装置”中。其装置可以通过COCA语料库来验证。其结果是, apparatus指代需要装配起来的装置,device强调已经装配完整的装置。除了以上的名词差异外,在专利中delivery method 和 delivering method也有着一定的差异。delivery method这一术语在COCA语料库中出现频率较高。虽然可以将转化为method of delivering,但鉴于专利撰写的简洁性而舍弃。
在术语层面,除了名词术语的差异外,形容词差异为另一个突出问题。如:
中文:RRS由远端接口单元、射频收发单元(TRU)和天线
美国专利局:The RRS includes a remote interface unit, a RF transceiver unit (TRU) and an antenna
谷歌专利局:The RRS is composed of a far-end interface unit, a radio-frequency transceiver unit (TRU) and an antenna
三个版本除了远端 这一形容詞不同之外,其余术语基本一致。在美国专利局的摘要文本中,技术写作者选用了remote而不是far-end。我们可以通过COCA语料库进行验证。结果表明,far-end一词通常用于描述噪音,而remote多用于通信行业。而我们在COCA界面搜索remote,我们可以在5173个文本中搜索到多个MI值超过3.0的搭配。因此,远端接口中的remote更符合语料库的表达习惯。
4.2 词汇密度和类符比
词汇密度指的是文本中实词的数量。更准确地说,词汇密度可以反映词汇在语境中的比例。较高的词汇密度可以反映文本的简洁度。另一个词汇层面的衡量标准是类符比。类型是指文本中所有词汇的数量,而形符是指文本中不同单词的数量。词汇密度和类符比可以反映文本单词总数和样本中使用的各种词的数量之间的关系(见表1)。
将100随机选取的专利摘要平行语料库中。我们发现美国专利局的词汇类型和符号数分别1310和12016,而谷歌专利翻译所对应单词类型和符号数分别为1466和14139,美国专利局类符比为10.9%,而谷歌专利机器翻译的类符比10.2%。而中文标注之后的文本类型和符号数分别为1273和16882,汉语原文的类符比7.5%。根据贝克的在翻译共性中提到的翻译简化理论,译者会对原语文本中的“语言 / 信息下意识地简单化”。[17]可以看出,美国专利局的翻译文本和谷歌专利机器翻译的翻译文本相比,在句长和词汇密度方面都更为精炼、简洁。
结合上一具体事例,我们可以看出三种文本的情况。这从侧面证实了谷歌专利翻译在英文译本中存在着一定的翻译共性。即在谷歌专利(Google Patent)英文翻译中,虽然存在着词语变化度偏低、词汇密度偏低、虚词和指代方式显化、常用词频率增加等特征。
5 总结
专利文献摘要作为专利检索的核心,有着举足轻重的作用。其文本质量不仅决定着文本能否通过,同时也决定着某一项创新能够得以保护。尽管很多专家在专利翻译的术语选择方面进行了一定的研究。但是结合语料库从翻译共性和文本量化层面的研究仍然不多。本文从词汇入手,结合语料库的工具,探索了谷歌专利在专利摘要词汇层面的翻译共性,得出谷歌专利在术语层面可以实现较为精准的对应,但在限定词层面需要使用语料库进行验证。同时,在词汇密度和类符比方面,美国专利局的专利摘要文本和谷歌专利摘虽然存在着一定的翻译共性,但其文本词汇密度比中文偏高。
综上所述,中英文专利摘要文献在写作中存在着很多差异。考虑到现实的操作性和平行语料库的严格要求,专利样本并不大。但基于选择专利摘要的随机性原则,所选的专利文本和实验结果仍然具有一定的有效性。同时,这一实验结果对我们进一步探索中英文专利文献的写作特点和基于机器翻译的后期编译具有一定的参考价值。
参考文献
[1] 杨国鑫,刘磊,王奕洁,等.战略性新兴产业发明专利授权报告(2009—2013)[J].科学观察,2016(1):27-47.
[2] Marco A C,Toole A A, Miller R, et al. USPTO Patent Prosecution and Examiner Performance Appraisal[J].2017.
[3] 许庆华.功能对等理论在科技英语汉译中的应用研究[D].吉林大学,2009.
[4] 胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].语言文字应用,2015(1):136-144.
[5] 江镇华.怎样阅读及翻译英文专利文献.知识产权出版社,2010.
[6] 薛宝.中国专利信息中心-北京师范大学机器翻译联合实验室揭牌[J].北京师范大学学报:自然科学版,2011.47(2):137-137.
[7] Sinclair J.Corpus,concordance, collocation[M].Oxford University Press,1991.Chapter 1, pp 12-35.
[8] 梁茂成.语料库语言学研究的两种范式:渊源,分歧及前景[J].外语教学与研究:外国语文双月刊,2012.44(3):323-335.
[9] 胡显耀,曾佳.基于语料库的翻译共性研究新趋势[J].解放军外国语学院学报,2011(1):56-62.
[10] 王克非,胡显耀.基于语料库的翻译汉语词汇特征研究[J].中国翻译,2008.29(6):16-21.
[11] Tsai Y. Text analysis of patent abstracts[J].JoSTrans,2010.13:61-80.
[12] Bennett, G., & Jessani, N. (Eds.).The knowledge translation toolkit: Bridging the know-do gap: A resource for researchers[M].IDRC,2011.
[13] Leydesdorff L, Kushnir D, Rafols I. Interactive overlay maps for US patent (USPTO) data based on International Patent Classification (IPC)[J].Scientometrics, 2014.98(3):1583-1599.
[14] 董濤,贺慧.中国专利质量报告——实用新型与外观设计专利制度实施情况研究[J].科技与法律,2017.7(2):220-305.
[15] Popiolek M. Terminology management within a translation quality assurance process[J]. Handbook of Terminology,2015.1:341.
[16] Tsai Y. Linguistic evaluation of translation errors in Chinese–English machine translations of patent titles[C]//FORUM. Revue internationale dinterpr ation et de traduction/International Journal of Interpretation and Translation. John Benjamins Publishing Company, 2017.15(1):142-156.
[17] Mauranen A. Universal tendencies in translation[J]. Incorporating corpora: The linguist and the translator,2008:32-48.