近二十年国内医药英语相关语料库建设回顾与展望
2023-03-10冷冰
冷 冰
(安徽医科大学,安徽 合肥 230601)
一、引言
近二十年来,语料库相关研究发展迅速,已成为语言学界重要的科研方向之一。许家金指出当今语言研究中,语料库相关的研究与应用已引起了学界的广泛关注[1]。医药相关语料库指以医药相关话题为主题的语料信息集合,是专门化语料库的重要分支之一。2022年,教育部高等教育司继续提出高质量高等教育体系建设,深化“四新”建设,积极探索医文融合的健康学科体系,启动学科交叉的创新性研究。医药相关语料库建设作为重要一环,可为医药相关研究的纵深发展提供新的数据发现点。然而,目前针对医药相关语料库建设的研究分散在不同领域,采用的语料类型、标注方法,乃至以后的发展趋势也尚不明确。
鉴于此,本文以中国知网、万方、维普的期刊论文为数据来源,在CiteSpace的支持下,采用文献综述法总结国内2002年至2022年药相关语料库建设的特点与趋向,并提出些许建议。
二、研究设计
(一)研究方法
本文采用系统文献综述与文献计量分析结合的方法展现近二十年国内医药语料库建设的研究现状,采用CiteSpace计量分析工具整合文献信息,客观呈现领域内知识结构的发展进程。拟回答3个问题:
(1)语料采集的类型有何特点?
(2)语料标注的方法是什么?
(3)语料建设的发展有何趋势?
(二)文献收集
文献筛选自中国知网(CNKI)、万方数据(Wan-Fang)、维普数据库(VIP)。由于医药相关语料库建设相关信息可能存在于以语料库为研究方法的文献中,因此以“语料”和“医”相关的表达作为检索词,具体检索篇名包含“语料”,且篇关摘含有“医”或“药”“病”“症”“患”“诊”“护理”的学术期刊,检索式为TI=语料AND(TKA%‘医’OR TKA%‘药’OR TKA%‘症’OR TKA%‘病’OR TKA%‘患’OR TKA%‘护理’OR TKA%‘诊’)。检索时限为2002-01-01至2022-12-31。初步检索到498条相关期刊,经过NoteExpress软件删除重复文献及不相关题录175篇,剩余323篇。
(三)发现与讨论
本文对2002~2022年所发表的323篇文献进行关键词共现分析(图1),按照话题中心度排名,前十名关键词分别是:医学英语、中医英语、中医药、翻译、中医、医患会话、教学、英译、会话分析、词汇教学,表明该领域的研究主题包括医学英语教学、(中)医药翻译及医患话语分析。对所得文献进行人工梳理,从语料类型、语料标注、发展趋势三个方面进行综述。
图1 关键词共现图谱
1.语料类型:从单模转向多模态语料
医药语料库材语料选择与研究主题息息相关,医学英语教学与(中)医药翻译相关主题往往采用传统单模文本语料,而医患话语分析主题则多采用多模态语料。
单模文本语料是指以文本为主要表现形式的材料。以医学英语教学为研究主题的语料库建设以学术期刊为主,如中美医学论文英文标题语料库[2]、国际医学论文摘要语料库[3]。(中)医药翻译为主题的语料库通常以双语平行语料库的形式出现,语料选自汉英对照丛书、经典原文及权威译文,如英语丛书、教科书、工具书[4]、涵盖多种医药学科的文库[5]、《黄帝内经》等典籍汉英双语书籍[6]。
多模态语料是指以音频、视频等多种信息整合的材料。目前,语料库建设逐渐涉及医疗场域下的语言,包含医患会话、特殊人群话语、电子病历及医学影像等。医患会话以医生或患者为话语主体,是医患社会关系的重要参考,语料收集注重客观性和多元性。学者通常整合不同级别下医院的多个科室的真实医患即时会话,采用多模态会话标注方法,如标注音律、体态语等人际交互要素,分析发现医生会灵活使用人称[7]、调整言语行为[8],以缓解患者的忧虑。特殊人群话语以特定疾病患者为话语主体,采用即席自然话语或任务诱导话语,如智力退化老人言语表现[9]、中国失语患者任务话语表现等[10]。此外,电子病例及其医学影像话语,是生物医学文本挖掘的重要资源,具有多模态实体对应的特点。一些学者分别就心血管疾病[11]、儿科疾病[12]以及甲状腺结节[13]患者电子病历及相关影像资料,构建相应疾病多模态语料库。
就目前检索到的文献来看,多模态语料库是语料库建设的新起之秀,不仅能够调用视觉、听觉等感官信息,还能够实现多模态语料与检索及实体对应,后续可应用于多模态翻译研究、多模态医药教学等。因此,医药相关语料库建设应进一步挖掘多模态语料的深度和外延。
2.语料标注:从重复人工到智能识别
语料标注是指对语言样本的属性和特征所做的描述。语料标注方法因语料类型而各异。单模文本语料标注与双语平行语料库标注方法差异不大。目前,软件辅助的文本标注方法成为主流,减少了人工标注的成本。刘建鹏通过UAM CorpusTool以及LIWC软件对阿尔茨海默病患者话语进行功能词和实体词角度的跨语篇的特征描写。李文通过EmEditor软件去除信息杂质,再借助UAM CorpusTool中的TreeTagger软件对收集的以XML为格式的现代医学英语书面语语料进行词性赋码。
多模态语料标注涉及电子病历、医学影像以及特定疾病患者数据。电子病历(electric medical record)是指医疗活动中产生的文字、符号等诊疗记录。曲春燕开发实体标注工具,参照i2b2 2010(Informatics for Integrating Biology&the Bedside)评测数据构建规范进行标注,最终结果由IAA评价体系检验[14]。昝红英采用最大双向匹配对标注语料进行预标注,并采用专家多轮标注及协定的方式明确结果。此外,患者多模态数据标注也是重要内容。比如,陈珍珍采集命名性失语患者会话内容,通过CLAN(Computerized Language Analysis)计算语言分析软件将会话、动作、表情等语料转换为CHAT(Codes for the Human Analysis of Transcript)格式并进行自动标注,最终结果由MOR(Morphology)语法检验[15]。
当下语料标注技术吸收计算机技术已取得不小进展,但标注层级构建因研究视角及内容载体不同而杂乱无序,也无统一的建设与检验标准。以电子病历标注为例,虽然脑卒中与甲状腺疾病都能够通过医学影像体现,但因表征不同以及人们对素材的理解和分析遵循不同路径,语料标注层级差异较大。因此,后续医药相关多模态语料库建设应尝试建设统一的检验标准,以保障后续语料库信息化数据的延续使用。
3.发展趋势:“医+文”交叉成为主流
突现词是指在一定时间范围内使用频次显著上升的词,体现该领域在一定时间范围内的研究热点以及未来研究趋势。由图2可见,2009年以前,医药相关语料库建相关突现词为教学、英语、词汇教学、错误分析,表明早期专注(中)医学语言教学,关注语言表层信息,可称为语言教学研究期。2010年至2017年,突现词有医患会话、指示语、语步、医学期刊、医学英语、词块、英文摘要、护理英语、医学论文、搭配、对比研究、英译、翻译、中医英语,表明该段时间以医学学术文本、医患诊疗会话、中医药翻译为重点,研究内容得到拓展和丰富,可称为多体裁文本研究期。2018年以来,突现词包含精准医学、中医、深度学习、自闭症、自主学习、中医药、人际意义,表明该时期语料库建设突破学科限制,运用计算机技术将语料库应用于医学实践等领域,可称为交叉实践研究期。
图2 突现词演变
就当下而言,医药相关语料库建设应用于精准医学领域,体现在将医药相关文字信息化,关联实体工具,用于临床诊治工作。医学影像及其电子病历的识别与标注是重要研究领域。苏嘉提出适应中文特点的心血管疾病风险因素标注体系,构建了第一个中文心血管疾病因素的语料库。昝红英融合国内外医学标准资源,构建了面向儿科疾病的医学实体及关系语料库与儿科医学问答系统。此外,计算机辅助新视角给传统医学英语教学研究提供了新思路。比如蔡莹基于ELAN构建小型医护英语教学多模态语料库,对师生话语、行为互动等进行反思,改变学习者被动聆听的角色。周旭通过循证医学专业语料库,提升中医药本科生循证医学英文写作能力。
由此可见,医药相关语料库建设逐渐向“医+文”的学科交叉方向发展。但所建设的语料库多局限于研究者使用,建设成果很少公开。实践于临床领域的医药相关语料库以临床诊断作为分类依据,建设主题多样,需要多领域专业人士支持。然而,建设方法和程序未能公开阐述,给未来语料库升级带来不少困难。因此,后续医药相关语料库建设,尤其是针对“医+文”交叉领域,应相应地公开提供语料库建设方法细则,持续更新语料库资源,确保数据的适时性。
三、结语
借助CiteSpace技术,本文梳理了近20年国内有关医药相关语料库建设,发现:①多模态语料成为新的建设主体,但深度与广度还需进一步拓展。医药多模态语料引起实体对应特性,逐渐成为多领域研究的重要载体,后续可对医药图画、医学形象、临床教学等语料进行分析。②计算机辅助标注与人工检验结合成为主流,但标注层级需标准化可检验。医药相关语料库建设在计算机学科的支持下已取得提高效率和丰富内容的进展,但学者间研究视角及模态间内容差异导致标注层级纷繁复杂,后续研究亟须语料库建设专家与医药领域专家联手建设统一检验标准。③侧重应用的“医+文”交叉领域成为新的研究热点,但其研究成果有待公开化。医药相关语料库建设应用于精准医学应用不仅推动临床诊治工作发展,而且赋予传统研究新的活力,后续研究者应公开语料库建设细则并持续更新。面对新医科、新文科建设的诉求,医药相关语料库建设不仅可以充分发挥语言学相关学科的效用,也能推动临床相关学科及研究发展,值得关注。