APP下载

基于自建小型语料库的石化类论文英文摘要对比分析

2015-06-07唐文萍

关键词:第一人称情态代词

唐文萍

(西南石油大学 外国语学院,四川 成都610500)

基于自建小型语料库的石化类论文英文摘要对比分析

唐文萍

(西南石油大学 外国语学院,四川 成都610500)

为了探讨国内外作者在英文摘要上存在的差异,自建了小型的国内外石化类英文摘要语料库,对两个语料库英文摘要中词组、词簇、人称代词、情态动词的使用进行数据统计与分析.通过对比以上四点在国内外英文摘要中体现出的共性与个性发现,相比于国外作者的摘要,国内作者的英文摘要用词相对较单调,缺乏语言多样性且偏向于使用第三人称表述.至于情态动词的使用,二者差异不大,均惯于使用低值情态动词来保证文章的客观严谨性.

自建语料库;词簇;情态动词;人称代词

1 研究背景

论文摘要对于一篇学术论文而言,就是灵魂所在,传递着论文正文的中心思想.摘要写得有水平,才能引起他人对文章的兴趣,文章的搜索率自然而然就得以升高,而英文摘要则是文章的门面,是使其登上世界舞台的核心.近年来有越来越多的学者使用大型语料库对论文摘要进行分析[1-5],但对石化类的摘要分析还较少见.由于缺乏相应的石化类摘要语料库,而且小型自建语料库语料较少、使用方便,且针对性强,不易产生冗余数据.因此本文自建了中外石化类论文的英文摘要语料库,并对其词组、词簇、人称代词、情态动词的使用进行数据统计与分析,从而总结出二者的异同.

2 研究设计

2.1 研究问题

针对所收集的语料库特点并参考相关文献,本文希望回答以下几点问题:

(1)国内石化类期刊论文中,有哪些高频词语?国内外作者是如何用英语来表述这些词语的?在英文的表述上有什么差异?

(2)国内外石化类期刊论文中,有哪些高频词簇?词簇的分布又是如何?词簇如何对摘要的书写发挥作用?

(3)国内外石化类期刊论文中,第一人称代词使用有何差距?

(4)国内外石化类期刊论文中,情态动词使用有何异同?

2.2 分析工具

(1)Anctonc

Anctonc是日本早稻田大学Laurence Anthony博士2002年研发的一款绿色语料处理软件,具有词语检索、生成词表和关键词索引等多项功能,本文采用的是Antconc3.2.4w版本.

(2)www.cncorpus.org

由教育部语言文字应用研究所计算语言学研究室所建立的在线语料库网,主要针对汉语语料进行分词和词性标注及字词频率统计.

2.3 语料建立

(1)寻找语料并建库

语料库一:CN-Abstract Corpus(CNAC)

笔者从石油化工类核心期刊中精心挑选了五个期刊,分别是《石油化工》《石油炼制与化工》《石油学报》《石油学报·石油加工》《中国石油大学学报·自然科学版》.所选期刊在石化领域权威性较高,论文内容各部分格式规范,都有对应的中英文摘要和关键词,且英文摘要质量较高.之后从每个期刊各自挑选十多篇文章,共100篇论文,发表时间都在2000-2014年间,以保证其时代性.将论文的标题、中英文摘要及关键词下载后整理成独立的word文档并对文本进行认真校对,保证语料的真实有效,最后以UTF-8编码纯文档格式保存为CNAC.txt.

语料库二:EN-Abstract Corpus(ENAC)

为确保库中语料与石化相关,作者从ACS全文数据库中输入与中文论文中出现主题最多的五个关键词catalytic pyrolysis、enhanced oil recovery、fluid catalytic cracking slurry、petrochemical waste water、straight-run diesel oil搜索相关论文,均来自知名期刊,如Energy Fuels;Journal of Chemical Engineering Data;Industrial and Engineering Chemistry Research Fundamentals;Industrial and Engineering Chemistry Research; Environmental Science and Technology;Macromolecules;Journal of the American Chemical Society;Accounts of Chemical Research.之后笔者挑出仅为英语国家作者的文章,防止所建外文摘要库出现汉化英语,更具权威性.每个主题各自挑选十多篇,共100篇.将其摘要和标题下载整理成word文档,最后以UTF-8编码纯文档格式保存为ENAC.txt.

(2)处理语料

下载安装Antconc后,打开主界面.将两个txt文件在Antconc打开,分别得到两库的词频表.

2.4 统计与分析

根据数据分析,国内作者的英文摘要字数为16164,类符数是5607,形符数为38037.而外文摘要字数为21637,类符数是3884,形符数为21509.两个摘要数量相同,均为100篇,可以观察到相同数量的摘要,外文摘要的篇幅要相对长一些.在两个库的词频表中排名较前的词如 the;of;in;and等,都是日常生活中经常用的词,不论哪类文本都缺少不了这些冠词、介词和连词,因此在分析时不把这些词纳入研究范围.

(1)语言表达分析

摘要的语言表达往往体现在作者的遣词造句中,因此笔者将对国内外作者所写摘要的词语表达进行对比分析.我们通过在线工具www.cncorpus. org对国内作者的中文摘要进行字词频率统计.从中文摘要中筛选了几个石化领域中出现频次较高的词组,分别是:表明;分析;性能;条件;作用;进行;处理;具有;影响;效果.然后对其英文摘要用词进行进一步探析.因文章字数有限,下面就举一例说明整个操作过程.进入Antconc中Concordance检索界面,在左边的按钮条输入框里输入检索词“表明”,选中regex框,提取所有包含“表明”的语句.concordance hits值为62,说明检索项共出现62次.通过汉英字典查阅,我们可以看到“表明”有以下几种表达方式:show,indicate,demonstrate,suggest,point,reveal等.分别打开 CNAC.txt和ENAC.txt语料库,从中寻找这几个关键词,发现中文作者的英文摘要里出现的表达方式主要是show,indicate,极个别使用suggest.而在英文作者的摘要中我们得到的词组却很多样化,除了上面提及的用法外还增添了demonstrate,reveal,study, investigate,introduce,discuss,present等表达方式.

下面对比两个摘要语料库对于“表明”的一些表达方式.

国内摘要的句法结构大都是show或indicate直接加从句,然后按字面直译;或是将it作形式主语,钟爱使用“it is…ed that”句式引出所表达内容.但国外摘要似乎并不倾向于这一句式.通过语料库分析这些词语的表达形式,在词语翻译或选择时就可使用语料库的方法查看词语的适用语境,然后根据情况来确定最后要选择的词语.

CNAC:

①It is showed that the quality of the products was improved…(《Co-Mo/γ-Al2O3催化剂上煤焦油加氢裂化工艺》,石油化工,2014,05)

②The characterization results showed that the catalystwas Cu-SSZ-13 molecular…(《Cu-SSZ-13分子筛对甲醇转化制烯烃反应的性能》,石油化工,2013,10)

③The 1500 h continued running data indicated that said catalyst series had good stability…(《上流式渣油加氢催化剂的开发及工业放大》,石油炼制与化工,2006,01)

④It is suggested that the main charging point should be around Yi 411 and Da 415 wells located between two dominant faults…(《利用原油含氮化合物研究油气运移》,中国石油大学学报(自然科学版),2000,04)

ENAC:

①The thermogravimetric(TG)experiments showed that the reaction pathway of soybean oil…(《Influence of Molten Salts on Soybean Oil Catalytic Pyrolysiswith/without a Basic Catalyst》,Energy Fuels,2014,28)

②Recently,a laboratory study showing low-salinity EOR effects from composite carbon…(《Conditions for a Low-Salinity Enhanced Oil Recovery (EOR)Effect in Carbonate Oil Reservoirs》,Energy Fuels,2012,26)

③These results indicate that pyrolysis followed by… (《Molecular Products and Radicals from Pyrolysis of Lignin》,Environ.Sci.Techn o l,2012, 46)

④This work also demonstrates that CO2can be effectively and permanently stored when deployed in association with CO2-EOR…(《Opportunities for Using Anthropogenic CO2for Enhanced Oil Recovery and CO2Storage》,Energy Fuels,2012,27)

⑤The higher percent of sulfur conversion of the pure FCC feed relative to the conversion of the H2S suggests that both reaction of H2Swith olefins or diolefins…(《Industrial Investigation on the Origin of Sulfur in Fluid Catalytic Cracking Gasoline》,Ind. Eng.Chem.Res.2009,48)

⑥Experimental results revealed that CO2uptake capacities of the titania composite sorbents increase with…(《Capturing CO2with Amine-Impregnated Titanium Oxides》,Energy Fuels,2013,27)

我们可以从“表明”的表达方式看出,国外英文摘要用词更为丰富,如show,indicate,demonstrate,suggest,reveal.而且形式也更多样化,使用了定语从句(…which shows that…)、分词形式(…showing…)、不定式(…to show…;…to indicate…)等.

(2)词簇分析

词簇,又称多词序列、词块、N元组等.任何语言中都有大量的词簇,它是指在语料中高频出现的连续词语组合,是语言中结构和意义的单位.由于其在会话和写作方面起着重要作用,因而近年来这一现象一直为研究者所关注[6].在本文中,它的定义是:在文本中前后相接的一组词,近似于词组或者短语,且重复同现,出现频率高过一般的搭配词.

“本族语者能够准确、流利地说出较为复杂的语句,并非因为他们的心理词库中储存了大量孤立的单词,而是因为他们大脑中储存了大量的多词序列.在产出话语时,他们从大脑中提取出来的也并非单个的词,而是整块地提取预先存放在大脑中的多词序列[7].”

进入N-grams界面,提取3-5词的词簇,并对结果进行手工过滤及剔除,尤其是出现频率过高但与石化领域并无很大联系的词簇.

经过过滤分析,排名较前的高频词簇如下:

英文:the oil recovery,enhanced oil recovery,oil and gas,of crude oil,temperature of the,CO huff and puff,effect of the,original oil in,characterized by means of,at…℃,used in the…

中文:oil and gas,enhanced oil recovery,pour point depressant, temperature of the, were characterized by,of petroleum processing,CO huff and puff,particle concentration distribution in,reaction temperature of,the sweep efficiency…

将国内外摘要的高频词簇进行分析之后,发现里面的名词词簇占多数,显示出了学术文本的特征.中心词主要有采油、石油加工、反应温度、处理方法、表征特性、实验效果等.其次是介词词簇,主要是体现实验过程中的使用用途、加工程序、温度、所用原理、所需数量等.再次是动词词簇,用来说明实验的研究内容、实验最终效果等.

对摘要里面的词簇分析之后可以找到石化类期刊当前探讨得比较热门的话题,让对其感兴趣的研究者可以更加便捷地对此类摘要进行浏览.对国外石化类期刊中的词簇进行归纳分析,可以让国内相关研究者逐步了解并掌握石化类期刊英文摘要的词法和句法特征,以文中出现的较为典型的词簇为基准点,让其在摘要翻译中摆脱仅仅以词为单位进行输入输出的习惯,改变逐字逐词翻译的定式思维,提高国内作者英文摘要的书写及翻译能力,最终使作者写出接近本族语者的学术论文.同时也可以使论文更容易被国际著名检索机构收录,有利于国际上的学术交流.

(3)第一人称分析

在科技论文中,作者一方面要对同行表现出自己的谦逊,另外还要考量读者群所具有的专业知识,以使自己的观点能得到同行和读者的双重认可.这种种因素决定了专业论文中作者与读者之间要培养一种必要的互动关系.于是此时,作者使用人称代词的重要性就显而易见了.近年来众多语言学家对第一人称代词在学术文章的使用做了一系列研究[8],多数人认为第一人称代词是学术语篇重要的文体特征之一,对学术语篇写作有重要影响.下面我们要对这两个语料库中第一人称代词的使用作简要对比分析.

在Antconc界面分别检索 “I”和 “we”.“I”在两个语料库中均未出现.至于 “we”,在国内外语料库中出现的频数分别为0次和19次,国外语料库we的频数明显高于国内语料库.检索结果显示,国外语料库中与we搭配的主要动词有: investigate,discuss,observe,present,focus on, carry out,use,study,examine.这些搭配组合表明,we主要使用在表示作者研究对象和研究内容的句式中.

国家标准局实施的GB644786(文摘编写规则)规定了论文摘要中 “要用第三人称的写法.应采用 ‘对……进行了研究’、 ‘报告了……现状’、‘进行了……调查’等记述方法标明一次文献的性质和文献主题”.因为使用第三人称这一标准在当时看来是顺应着国际科技论文写作潮流,可以保持学术文章的客观科学性并且避免作者对文章的主观介入.这就决定了我国论文作者从那之后的很长时间对于第三人称的青睐,甚至相关教材文献都强调撰写摘要避免用第一人称,一律采用第三人称.所以我们可以看到在所收集的国内石化英文摘要语料库中基本没有第一人称代词.

然而在国外石化类英文摘要语料库中我们能看到不少 “we”的使用,不过 “I”也基本不使用.这可能是因为不同学科的研究形式各异,对于理科和文科学术研究而言,大多数是采取以个人为单位进行工作或实验的研究方式,而对于石化领域研究而言,则更需要实验室和团队合作才能完成.所以从语法的角度讲,作者人数为二人及以上时不会选择 “I”.

那么国外作者为何更偏爱 “we”?原因有以下几点:1)“we”是为了在论文一开始就突显自己,向读者强调正在进行的研究工作的新颖性和价值性,表明是作者本人提出观点并得出结论,对所属领域做出了个人贡献,这是一种引起读者关注度的自我推销手段.2)可以增强研究的说服力,似乎该论文除了作者还有其他支持者,拉近与读者的距离,建立与读者的关系,使其更容易信服或接受自己的文章.3)国内外文化有差异,国外更偏向于个人主义,愿意为自己提出的观点负责,也不会对自己在论文中的身份产生质疑,所以会在论文中采取一种更为主观的态度来阐述内容.

“任何一种文体都不会一成不变,其语言、结构和内容等特点会随着时间的推移发生变化.不同于传统学术语篇,现代学术语篇不仅要客观地展示作者的研究成果,还要努力推销作者的研究,让研究得到包括同行、编辑和其他读者的赞同,而第一人称代词是实现这一目标的手段之一.”[9]

学术论文中对于人称代词的使用已经进入了一个新的方向——解封第一人称,充分发挥其在学术论文中的功能.然而,这一方向并未引起国内学术界的高度重视,相关研究寥寥无几.全球化影响日益深化,学术研究也亟需与国际接轨.国内的学术论文英文摘要绝对不能仅仅止在几十年前的标准,必须紧跟时代步伐,遵守现行国际通用公认的语法规则与表述方法,一定程度上也可以根据论文需要使用主动语态与第一人称.英文摘要直接影响作者成果能否被世界公众准确理解并顺利接受,成功者便能踏入国际学术舞台.因此,缩减国内摘要与国外摘要的差异势在必行.

(4)情态动词分析

一篇学术论文,尤其是科技论文,首先要遵守的就是在客观和准确的基础上表达观点、传递信息.为了使作者的研究能较大范围地被认可接受,就需要借助一些语言策略.情态动词便是其中一种重要方式.语用学观点认为,科技论文撰写者在使用情态动词对所述内容进行判断和表示态度时,实际上是在使用一种语用手段与读者进行 “对话协商”[10].

Halliday认为,情态动词有三类量值等级:低值、中值、高值.不同量值的情态动词会表达不同的情态意义进而实现不同的人际功能.下面我们用语料库对这三种量值的情态动词进行频次分析.

进入Antconc软件检索,得出国内外摘要中所使用的情态动词使用频次及在使用总频次中所 占的比例,见表1.

表1 情态动词使用频次及比例

12种情态动词中,高值情态动词在石化类论文中的使用频率最低,国内的使用比例甚至不足5%,足以看出在石化类科技文章中基本上是不使用高值的情态动词的.其次是中值情态动词在国内外两个语料库中使用频次比分别为23.71%和21. 59%,差别不大.其中will、should的使用频次更多.究其原因,主要是石化类论文作者在实验过程中会作出一些推测,should正可以表示推测和可能性,做 “按理说、应该”解.而所建预料库中检索到的will都是起着表将来时态的作用,用来对实验所得产品或效果进行前景预测.最后是使用频率最高的低值情态动词,两库所占百分比均超过50%,占有明显的分量,尤其是can和could的使用最为突出.

这是因为石化类论文摘要主要涉及作者所研究的主题、实验过程、使用方法以及实验或研究的结果、效果、评价、应用等.每篇论文都是作者在通过自己的认知和研究对于自己学术领地进行的建构.在此过程中,作者必须十分谨慎,因为自己的研究成果不可能是毫无差错的;再则作者提出自己的新观点时,必定是冒着被批评甚至被否定的风险.所以作者往往需要通过一定的交际策略,适当缓和语气,can和could两个词表示可能性时,语气不会过弱,导致信服力不足,也不至于太强,让读者觉得太决断.而might在语料库中的使用频率相对极低是因为其还可以表达说话者的委婉和礼貌.基于科技文章语言讲究客观性和科学性以及直接和简明的特点,所以在石化类论文中情态动词的使用必须与科技文体特征相适应,较少使用礼貌和委婉表达.

科技论文摘要中情态动词的运用传达着作者的主观态度,又体现出作者的客观精神,同时在面对读者和同行的质疑与挑战时,将作者承担的责任最大限度地减小.合理使用情态动词并不会降低科技语言的准确性,反而会增强作者论点的严谨周密,没有过分肯定或武断,从而加强了学术文章的客观性和协商性,最终达到被大多数读者认可的目的.

3 结果与讨论

国内英文摘要用词单一而且结构简单,往往重复着前人所用过的词语,大多仅是将中文摘要逐词逐句翻译为英文.国外英文摘要相比而言用词丰富,而且形式更具多样性,如使用定语从句、分词形式、介词短语、主动被动语态变换等.在词簇问题上,因为国内作者非英语国家的作者,遣词造句时难免出现不地道的表达方式,本文建议作者可以用语料库的方式对国外英文摘要进行分析整理,观察词簇之间的差异性.如若在之后的词簇使用中出现障碍,就可以参考国外作者的表达方式,使自己的文章尽量 “异化”,让广大国外读者更容易更迅速理解作者要传达的意思.另外在人称代词的使用上,国外作者是在把握文章客观性的基础上同时重视与读者群的互动,不像国内作者一味突出客观,缺少与读者的交流.至于情态动词的使用,国内外文章的差异并不明显,二者都是更习惯于使用低值情态动词来保证文章的客观严谨性以及在读者群的认可度.

由于条件限制,本研究还存在许多不足之处,如自建语料库规模小、材料单一、数据分析不够专业,研究涉及内容过多分析时难免会不够透彻,这些问题将在以后的研究中加以改进.

参考文献:

[1]蔡美兰,国外英文医学期刊中典型词块研究——基于自建小型语料库的研究 [J].中国高等医学教育,2012(06):15-16.

[2]范晓筠.基于语料库的中国学术英语论文词簇特点研究 [D].新乡:河南师范大学,2009.

[3]连小英.语料库与语料库方法在术语翻译中的运用 [J].福建医科大学学报 (社会科学版),2012,13(4):60-63.

[4]梁茂成.利用WordPilot在外语教学中自建小型语料库 [J].外语电化教学,2003(6): 42-45.

[5]陆元雯.基于语料库的英文论文摘要的语言特点研究 [J].解放军外国语学院学报, 2009,32(6):8-13.

[6]岳红,张杨.基于自建新闻语料库对think及其同义词的搭配特征分析 [J].内江科技, 2009,30(2):32-33.

[7]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2010.

[8]张玫.《科学》杂志摘要语态及第一人称代词使用的实证研究 [J].上海翻译,2009(3): 32-35.

[9]Hyland,K.Humble Servants of the Discipline: Self-mention on Research Articles[J].English for Specific Purposes,2001(20):207-226.

[10]宋改荣,孙淑芹.科技论文摘要中情态动词的语境顺应性解读——一项基于语料库的研究 [J].阜阳师范学院学报 (社会科学版), 2013(1):65-68.

Comparative Analysis of English Abstracts of Petrochemical Papers Based on a Self-compiled Corpus

Tang Wenping

(Southwest Petroleum University,Chengdu,Sichuan 610500)

Based on a miniature self-compiled corpus,the paper compares the English corpora both at home and abroad,and analyzes the characteristics of English phrases,word clusters,personal pronouns and modal verbs.From the collected data,the author explores the similarities and differences in domestic and foreign abstracts.It is found that the domestic abstracts are lacking in variety in words and patterns and that the third person is frequently used in domestic abstracts.Apart from the above differences,they share some similarities in the use ofmodel verbs-the frequent use ofmodal verbswith low value to acquire the objectivity of the abstracts.

self-compiled corpus;chunk;modal verb;personal pronoun

H314

A

1008-293X(2015)08-0115-06

(责任编辑 王海雷)

10.16169/j.issn.1008-293x.k.2015.08.26

2015-03-04

唐文萍(1990-),女,陕西咸阳人,主要研究方向为外国语言学及其应用语言学.

猜你喜欢

第一人称情态代词
代词(一)
代词(二)
情态副词“说不定”的情态化研究
表示“推测”的情态动词
表示“推测”的情态动词
这样将代词考分收入囊中
汉代铜镜铭文中的第一人称
“我”最初是古代兵器