APP下载

医学学术论文英文摘 要中be done的短语学特征分析
——基于自然语言处理的研究

2017-04-17曹静曹凤龙

关键词:语步医学论文语料库

曹静,曹凤龙

(蚌埠医学院公共课程部,安徽蚌埠233030)

医学学术论文英文摘 要中be done的短语学特征分析
——基于自然语言处理的研究

曹静,曹凤龙

(蚌埠医学院公共课程部,安徽蚌埠233030)

在医学论文英文摘 要中,be done是使用率较高的一类句式。选择医学论文英文摘 要建立英文纯文本语料库,使用Python程序设计语言和自然语言处理工具(NLTK),对医学论文英文摘 要中be done句式进行检索提取,结合体裁分析理论,对其语义分类和语篇功能进行研究,旨在为医学论文英文摘 要撰写提供参考。

be done,医学学术论文;摘 要;语义分类;语篇功能

摘 要是研究性论文的一个重要组成部分,它体现了论文的要点。据中国科学技术期刊编辑学会医学分会2002年对全国700余种医学期刊的调查,在统计的591种学术类、技术类和综合类医学学术期刊中,95.5%有英文摘 要,足见英文摘 要的重要性[1]。英文摘 要如此重要引起了国内学者的研究,他们从不同角度对医学论文英文摘 要进行了研究。这些研究有从宏观角度展开,例如关于医学论文英文摘 要的写作特点或关于论文中英文摘 要的对比;也有从微观搭配特征层面展开,如“基于语料库的医学论文摘 要动词语言特点探析”[2]、“医学论文英文摘 要中第一人称代词使用之分析”[3]、“期刊论文英文摘 要核心动词研究——以医学期刊为例”[4]、“医学英文论文中with使用的常见问题及其修改”[5]、“中外医学论文英文摘 要的语言分析——基于语料库的研究”[6]。

但是对于被动语态be done的系统研究却是一片空白。众所周知,在医学论文英文摘 要中,被动语态句式是使用频率较高的一种句型,因此,能否正确使用be done影响论文摘 要质量的高低,是判断摘 要是否规范的指标之一。本文尝试建立语料库,利用自然语言处理技术,对医学论文英文摘 要中的被动语态进行研究,分析be done的分布特点、高频词汇及在语篇中发挥的作用。

一、研究设计

作者自建一个库容为815318词的医学论文英文摘 要语料库。为确保数据的准确性和权威性,选取语料来源于在医学领域学术论文出版方面具有一定权威性的Wiley-Blackwell。这些摘 要涵盖免疫学、儿科、神经病学、皮肤病学、内分泌学、血液学等学科,选取期刊有Arthritis Care&Research、Head&NeckSurgery、Catheterization and Cardiovascular Diagnosis、Cephalalgia、Australasian Journal on Ageing、Child:Care,Health and Development、BJU International等。这些摘 要均为医学实证研究论文的英文摘 要,满足背景、方法、结果、讨论/结论(IMRD或IMRC)的结构特点。

为更加精确地进行数据统计和分析,作者使用Python程序设计语言和自然语言处理工具NLTK,编写了适用于本研究的统计分析程序。该程序第一步针对不同时态和语态情况下be动词的不同存在形式,在语料库中搜索be动词之后的各个单词,剔除不属于be done结构的单词(如“an”“in”“then”等),得到语料库中的所有be done结构。第二步则是对be done进行数据统计,计算出其出现频率,并分别对be done在引言、方法、结果及讨论/结论部分出现情况进行统计。

二、研究结果与分析

(一)be done的总体分布

作者对语料进行统计分析后发现,be done大量出现于医学论文英文摘 要中,共计14721次。be done的大量出现说明医学论文摘 要作为科技论文的一种,具有科技论文典型的语言特点,即大量使用被动语态。背景、方法、结果、讨论/结论(IMRD或IMRC)中均包含be done,但在四部分出现的数量具有显著差异(见表1)。出现概率最高的是在摘 要中的方法(Methods)部分,占47.79%。Methods部分如此高的出现率说明在这些顶尖期刊发表的论文的作者多采用被动语态来描述实验过程。被动语态的使用首先能突出实验方法的客观性,其次其重要性也得以体现,因为将本不在主位(theme)的实验方法置于主位上,说明论文发表者希望阅读者能迅速了解实验方法,也能使论文审稿人快速了解其研究方法[2]。

表1 be done的总体分布

(二)done的语义分类

运用Python程序设计语言和自然语言处理工具NLTK,本研究统计出排名前20位的动词过去分词以及它们出现的频率(见表2)。这些动词均为有实际意义的行为动词。大致可分为以下四类:

第一类为描述过程类动词。一般出现在摘要中的方法(Methods)部分,在其他三部分少量出现。比如use、perform、observe、include、determine、analyze、measure、obtain、collect、conduct等。这类动词出现的语句中,主语多为实验方法、实验数据、实验对象等。例如:Chi-square and independent t-tests、Qualitative data、Patients in pediatric、Serum oxidative stress、liver function、and HBV DNA level。

表2 摘要中done出现频率最高的前20位动词

第二类为关联比较类动词。这类动词有associate和compare。与associate搭配的主语多为非积极类名词,如疾病、疼痛等消极意义名词,因为摘 要中常会提及疾病或疼痛的相关因素。如Severe post-operative bleeding in cardiac surgery、Amino acids(AA)。与compare搭配的主语多为实验结果或数据,例如:Data on patient and tumour characteristics。同时,associate与compare通常与with搭配构成短语。

第三类为描述结果类动词,比如observe、identify、report、seen、increase、need等。这类动词多出现在讨论(Discussion)和结果(Results)部分。搭配主语多为表示实验结果的名词,例如outcome、effect、diagnosis等。

第四类为描述评价类动词,如assess、evaluate等。这类动词主要出现在方法(Methods)部分,多表示实验中对某种方法的评估。搭配主语多为实验对象,如exclusion rate、cell proliferation、patients等。

(三)be done的语篇功能分析

关于be done在医学学术论文英文摘 要中实现的语篇功能,作者以排名前20位的过去分词为例进行了探讨。参照IMRD(背景、方法、结果、讨论)模型,笔者对排名前20位的单词在四语步中的分布进行了统计(见表3)。为分析其在摘 要中的语篇功能,笔者在四类词中选择具有代表性的associate、perform、see和need进行分析。

be associated是医学论文英文摘 要中出现几率最高的,排名第1位,共计896次,这说明associate在语篇构建中起到至关重要的作用。使用统计分析程序对语料库进行检索(部分检索结果如下),可以发现,be associated搭配主语多表示疾病、症状、疼痛(如pro-inflammatory cytokines、post-operative bleeding、Amino acids、kidney injury、maternal intrapartum fever、Pupils'abnormalities)等消极词汇,这体现了医学论文的学科特征。从语篇分布来看,be associated主要出现在语步1、语步3和语步4中,并且在这三个语步中分布相当,只有极少量出现在语步2中。当be associated出现在语步1中时,主要作用为引出相关研究主题,为介绍研究目的作铺垫。通常be associated后有The aim of the study is to…,We explore that…,We hypothize that…,We want to investigate that…等表示研究目的的语句。当be associated出现在语步3时,用于总结研究结果。笔者发现在医学论文英文摘 要中,当be associated出现在结果(Results)部分时,句中多出现实验数据,并且使用significantly、commonly、independently、strongly、positively、strongly、predominantly、inversely等表示情感态度的单词来修饰be associated。若be associated介绍当前研究结果,则出现在语步4中。通常句式为be associated with improvements、be associated with a/an…risk of。be associated在极少数情况下出现在语步2,在此不做讨论。be associated在摘 要中的广泛分布,体现了其多样的交际功能。

Surgeryinducesinflammation and pro-inflammatory cytokinesare associated withpost-operative complications.

Pre-operativefibrinogenlevelsare negatively associated withpostoperativebleedingincardiacsurgerypatients.

Inmultivariateanalysis,EAwasassociatedwithincreasedrisk with low AS,AOR 1.27(95%CI 1.16–1.39),but not with diagnosis of encephalopathy,1.11(0.96–1.29).

All item-total correlations were rho≥0.20.The ICQ-S demonstrated criterionvalidity,forexample,ICQ andICQ-Swerestronglyassociated(rho=0.86).81%of patients completed the ICQ-S within 5 minutes and 97%found completion‘not difficult’.

IL-37 expressionwas positively associatedwith atopic dermatitis,whereas IFN-α,IL-13,IL-28,and Tbet expressionswerenegativelyassociated with allergic diseases.

The microbial diversity score,that is,sumofdetectedqPCRs,wasinversely associated withrisk of wheezing and was significantly(inverted-U shape)associatedwithsensitizationto inhalant allergens.

Particularly,AUS/FLUScases with focal features suggestive of PTCseemtobeassociatedwithamuch higherriskofmalignancythanother patterns.

Goutwas associated withan increasedriskofdevelopingDMcompared to that in patients with OA after adjustment for potential confounders.

be performed在英文摘 要中共出现574次。尽管在四大语步中均有分布,但绝大部分出现在语步2中(Methods),共计497次(占总数的86.59%)。在语步2中,含有be performed的语句主语均为研究方法(statistical analysis、t-test等)。与perform同属一类的表示描述实验过程的词,从表3中可以看出,均有相同特点,即主要出现在语步2——方法(Methods)中。

be seen在摘 要中共出现189次,其中140次出现在语步3中,用于总结研究结果,其搭配主语与语步1中的研究主题呼应。

be needed集中分布在语步4中(154次),其实现语篇功能和be performed、be seen一样,较为单一,主要用于对论文未来研究的展望,因此搭配主语为further work、additional study、further re-search等。

三、结语

经过对医学论文英文摘 要中be done分析,可以得出以下结论:

1.be done大量出现在医学论文英文摘 要中,背景、方法、结果、讨论中均有大量be done,其中方法所占比例最重。be done能突出话题焦点,使阅读者快速了解研究问题、方法、结果等重要信息。

2.不同类别动词出现在摘 要的不同语步中。描述实验过程类和评价类动词主要出现在方法(Methods)部分;描述结果类的动词主要出现在讨论(Discussion)和结果(Results)部分;表示关联的associate在四语步中均有分布,而表示比较的compare则主要出现在语步2中。

3.be done在四语步中均大量出现,承担了不同的语篇交际功能。学术论文摘 要体裁的主要交际目的是“创建科研空间”,而为了实现科研空间的创建,需要各个语步实现不同的交际目的[7]。在医学论文英文摘 要中,be done广泛分布于四大语步,并能促成摘 要交际目的的实现,例如引入背景、方法介绍、总结结果、展望前景等。

本文通过自建语料库,对医学论文英文摘 要中的be done进行了研究,检索提取了be done中排名前20位的高频动词,并对这些动词的语义分类以及实现的语篇功能进行分析研究。研究结果表明be done广泛出现于医学论文英文摘 要中,IMRD/IMRC四大语步中高频动词各有不同,以及be done在四语步中实现了不同的交际目的。希望本文的研究结果为国内医学工作者撰写医学论文英文摘 要时正确使用be done提供参考。

[1]周晴霖,等.论医学期刊英文摘 要编辑中信息的完整性[J].编辑学报,2012(S1):16-18.

[2]齐晖.基于语料库的医学论文摘 要动词语言特点探析[J].福建医科大学学报:社会科学版,2012(2):68-72.

[3]丁茂平.医学论文英文摘 要中第一人称代词使用之分析[J].编辑学报,2009(6):500-502.

[4]叶莹.期刊论文英文摘 要核心动词研究——以医学期刊为例[J].南京晓庄学院学报,2010(5):35-38.

[5]陈望忠,等.医学英文论文中with使用的常见问题及其修改[J].中国科技期刊研究,2007(3):527-529.

[6]马跃珂.中外医学论文英文摘 要的语言分析——基于语料库的研究[J].郑州航空工业管理学院学报:社会科学版,2013(4):76-80.

[7]张继东,储静.科技论文引言中搭配框a*of的短语学特征研究——以医学论文引言为例[J].东华大学学报:社会科学版,2013(2):73-80.

责任编校 人云

H315

A

2095-0683(2017)01-0110-05

2016-12-06

安徽省高校省级人文社会科学研究重点项目(SK2015A410)

曹静(1984-),女,安徽安庆人,蚌埠医学院公共课程部讲师,硕士;曹凤龙(1973-),男,安徽涡阳人,蚌埠医学院公共课程部教授。

猜你喜欢

语步医学论文语料库
医学论文中引言的写法
医学论文中引言的写法
医学论文中引言的写法
裁定书的语步结构分析
《语料库翻译文体学》评介
医学论文中引言的写法
英汉石油学术论文摘要的语类结构对比研究
中外光学学术论文摘要非常规语步的对比分析
基于JAVAEE的维吾尔中介语语料库开发与实现
语篇元功能的语料库支撑范式介入