机器翻译对提高云南高校图书馆开展留学生服务的思考
2021-12-30景艳梅
景艳梅
(云南师范大学 图书馆,云南 昆明 650500)
近年来,围绕国家“一带一路”倡议和云南面向南亚东南亚辐射中心建设的战略定位,云南充分发挥毗邻南亚东南亚的区位优势和丰富多彩的民族特色,开展教育国际交流与合作。目前,云南的外国留学生达1.9万多人,主要来自南亚东南亚国家,留学生人数在全国排在第9位[1]。随着留学生人数的不断增加,高校学生结构发生了变化,图书馆服务对象也发生了结构性改变。留学生作为高校图书馆用户中的特色服务群体,对“以读者为中心”为服务理念的图书馆提出了新的要求和挑战。高等学校国际化的发展趋势为高校图书馆提升国际化服务能力提供了良好契机,云南高校图书馆应结合本馆的实际情况,借鉴国内外其他图书馆成功案例和经验,为留学生提供优质、高效的服务。
1 云南省高校图书馆留学生服务现状——基于48所高校图书馆网站的调查
高校图书馆门户网站高度集成了图书馆的所有资源和服务,它提供了读者一站式服务平台,也是向外宣传图书馆资源和服务的展示窗口。据云南省教育厅发布的全省高等学校名单,截至2020年6月30日,云南省共有高等学校83所,其中云南大学、昆明理工大学、云南师范大学等48所高校具有招收外国留学生资质[2]。考虑研究项目可操作性,笔者基于具有招收留学生资质的48所高校图书馆网站进行调研,研究云南省高校图书馆对留学生开展服务情况和存在的问题。结合图书馆开展的常见服务,针对留学生的服务主要包括:是否开发设计外语版图书馆网站;在外语版网站下是否提供参考咨询服务;网站上是否有中外文对照版图书馆指南;是否开展针对留学生的专题讲座和培训。
来华留学生一般有学历教育和短期访学,中方学校一般都会对汉语水平有要求,中文能力至少达《国际汉语能力标准》四级(HSK4)水平,对英文授课的专业或项目对英语水平也有一定要求。对母语为非英语国家的留学生来说,英文版网站内容对他们来说有一定的困难,图书馆可考虑针对学校留学生来源国设置多语版的门户网站,这样外国留学生能方便快捷的导览图书馆资源和服务。通过网站调研发现:①具有招收留学生资质的48所高校图书馆,只有云南大学图书馆开发设计了外语版门户网站,涉及英语、日语、泰语、越南语、缅甸语,且该网站目前是国内第一个响应式设计的多语言图书馆网站;②剩下的47所高校图书馆中,有35所没有外语版图书馆门户网站,4所打不开图书馆网站,8所查找不到图书馆网站,网站打不开或查找不到的基本上是高职高专院校图书馆;③云南大学图书馆多语言门户网站揭示的内容主要包括图书馆介绍(借阅规则、开放时间、读者证申请说明及图书馆导览图)、图书馆发生的新闻事件、特色资源数据库(中国西南民族研究数据库、云南花卉数据库、云南大学机构知识库及云南大学学位论文数据库)及汉语版的图书馆宣传片,在外语版环境下并未提供参考咨询服务窗口,也没有找到多语版的图书馆服务指南;④在48所高校图书馆网站上搜索查找,没找到有关专门针对留学生的读者培训和讲座的通告和相关新闻报道。
2 云南高校图书馆开展留学生服务存在的问题及原因分析
语言障碍是影响留学生获取图书馆资源和服务的最主要原因,即使对留学生有汉语水平能力要求,就像中国人学习英语一样,很大程度上是被动学习和应付考试,根本不可能像浏览母语那样一目十行。通过网站调研结果显示,云南省高校图书馆针对留学生服务情况不容乐观,只有云南大学图书馆开设了多语版网站并且揭示的内容层次比较浅,网站内容也没有与中文版网站内容对应及时更新,没有设置专门针对留学生参考咨询服务窗口,所有图书馆基本没有开展针对留学生的读者培训服务,不能实现外语版环境下馆藏目录和数据库检索,加之留学生对馆藏排架和检索规则不了解,在中文版网站下很难找到所需的图书。不难发现,造成图书馆面向留学生服务缺失有两方面原因:①留学生自身的原因,如语言能力、信息知识获取习惯、知识水平结构和文化差异等造成利用图书馆资源和服务存在障碍;②图书馆缺乏积极主动的资源推广(纸本资源、数据库资源、空间资源等)和服务推广(读者培训、参考咨询、馆际互借等)。很多图书馆已经意识到了针对留学生服务空白的窘境,但捉襟见肘,很多中小图书馆碍于人员和经费的不足,很难开展留学生服务。以云南师范大学图书馆为例,近3年都没有新进人员(除学校内部人员调整从其他学院调入2名),全馆只有一名日语老师,处理英文文献的老师很多也不是英语专业的,针对部分小语种文献,只能临时聘请小语种学生进行加工。在资源建设方面,由于经费和语言障碍,主要以英语文献为主,其他语种的文献很少购买。
3 机器翻译在云南高校图书馆留学生服务中的应用场景
机器翻译,即基于人工智能技术、通过计算机终端智能设备进行不同语言的翻译任务,越来越引起人们的广泛重视,并且已经开始服务于人们日常工作、生活中的各种跨语言应用需求。在智慧图书馆的驱动下,机器翻译必将在图书馆界大放光彩。机器翻译方法主要可以分为基于规则的机器翻译方法和基于语料库的机器翻译方法。后者基于建模方法不同,又可以细分为基于实例的机器翻译方法、统计机器翻译方法和神经机器翻译方法。近年来,神经机器翻译技术在学界和实际商业应用中获得了迅速的发展,神经机器翻译相对于传统的机器翻译方法在翻译质量上获得显著提升,已经在大语种上(汉语、英语、日语等)成为商用在线机器翻译系统的核心技术,大网络科技公司在线语言翻译系统已经采用神经机器翻译方法,如微软翻译、谷歌翻译和百度翻译等。
3.1 利用机器翻译实现跨语言馆藏目录检索
图书馆每年都会将大量的经费用来购买纸质图书和数据库,也是图书馆资源建设的重要内容和为读者服务的重要资源保障,纸质资源查询通常是通过图书管理系统联网进行馆藏目录查询,根据索取号在对应书架位置上找到目标图书。而云南高校图书馆目前都只能用中文进行馆藏目录查询,这给刚来华学习的留学生在图书馆使用上造成了极大的心理障碍,面对动辄几百万的馆藏图书,却找不到想要的一本。针对以上语言检索障碍,笔者有一个大胆的设想:留学生用母语输入题名、作者、关键词等,就会有相关图书检索出来,检索结果上呈现图书原语种,并且检索出来的图书的题名已经翻译为留学生母语,这样留学生就可以快速浏览相关内容图书,挑选出最有价值的图书来阅读。以云南师范大学图书馆图书管理系统UILAS为例,输入“机器翻译”检索条件,一共检索出25条结果,只要通过题名大概浏览一下,就可以确定想要借阅的图书。同样,如果把图书题名翻译为留学生母语,留学生也可一目十行快速浏览挑选出感兴趣的图书,决定是否需要借阅认真研读。
3.2 借助机器翻译实现跨语言数据库导航检索
很多高校图书馆开发了数据库导航系统,大概有以下几种查看方式:按字母顺序查看(A~Z)、按学科查看(综合、人文社科、艺术、计算机、物理、化学等)、按文献类型(文摘索引与评论、学位论文、报纸、电子期刊与会议等)。数据库导航涵盖了图书馆购买和试用的所有电子资源,读者可根据需要快速检索所需资源。目前所有的数据库导航只是把数据库名称按不同的规则做了归类(包括清华大学数据库导航系统),是否可以尝试把数据库名称翻译为相应的语种,并注明数据库收录文献语种,方便留学生在上百个数据库中找到想要检索的目标库,这只是笔者的拙见,望向专家求教指点。
3.3 借助机器翻译实现图书馆资源和服务推介
随着“双一流”建设的推进与实施,各高校图书馆也在积极探索并实践“双一流”建设举措。在继承图书借阅、参考咨询、图书推荐等传统服务的同时,利用新媒体技术创新服务方式,更好地实现资源和服务推荐,实现个性化需求服务[3,4]。可以尝试在图书馆主页放置多语言版图书馆宣传片,请外教或留学生参与拍摄和制作,主要宣传图书馆馆藏资源和服务内容,让学生理解索取号的意义,了解图书和期刊排架规则,方便学生根据索取号找到想要借阅的图书。还可借助学校其他科研院所研究力量,把专家学者对外语种的研究成果与图书馆资源和服务推介工作结合起来,比如昆明理工大学智能信息处理重点实验室主任余正涛教授带领的研究团队在汉越、汉泰、汉缅等东南亚小语种机器翻译方面做了大量的科学研究,图书馆可以利用自有资源和机器翻译研究专家深入合作,针对东南亚留学生开展特殊文献服务[5-7]。
4 机器翻译在云南高校图书馆留学生服务中的应用策略
机器翻译研究如何利用计算机自动地实现不同语言之间的相互转换,随着翻译模型和技术的不断发展,欧洲一些国家将翻译软件集成到数据库检索系统中,在国内也有多家图书馆实现了英文环境下的馆藏目录检索。要实现跨语言信息检索,首要任务是建立双语语料库,构建翻译引擎,并建立翻译评价机制[8,9]。
4.1 语料获取
在自然语言处理研究领域,数据也称语料,不同类型、用途的数据放在一起完成一项任务,称为语料库,机器翻译需要大量的语料来训练模型。语料获取有多种渠道,一些熟知的渠道包括电子词典、各种应用场景积累的数据、各种侧批活动及共享任务提供的数据,以及一些机构组织编辑发布的数据(例如欧盟语料库、联合国语料)等。语言数据联盟和互联网数据挖掘是两个重要的数据来源。不过这些数据来源主要是针对大语种(比如汉语、英语、日语等),针对东南亚小语种这些平台共享数据可能不太实用,不过可以利用迁移学习借鉴大语种语料收集过程中的技术和方法,同时也借鉴一些低资源小语种人工智能翻译的方法和成果。
4.2 语料处理
平行语料是机器翻译模型训练的基石,平行语料的规模和质量对机器翻译系统性能至关重要,两者是正相关效应。目前,随着不断的积累,以及一些自动方法的引进,平行语料库的来源得到扩展,其规模已经较大,能基本满足要求,但它们的质量却并不高。多数平行语料库包含着大量错误,这些错误有构造平行语料库的原始语料中所存在的错误,如拼写错误、错别字、错误的译文等;也有在构造平行语料库过程中带进来的新错误,如篇章对齐或句对齐错误而导致的错误翻译等等。所有这些错误都将影响训练结果的可靠性,进而影响翻译系统的性能。除包含错误以外,多数平行语料库中还包含着一些无法在如今的翻译模型训练算法中起到贡献的句对。这些句对通常包含成语、特殊翻译方式等,它们本身没有错,也具有良好的互为翻译性,但是目前低智能的学习方式非但不能从这些句对中受益,反而会受到这些句对的干扰。因而,前期的语料处理成为构造高性能的统计机器翻译系统的关键。
4.3 建立双语语料库
双语语料库的建设和应用研究得到了国内外研究者的广泛重视。国际上已经出现了一些大规模双语语料库,如加拿大的议会会议录(Canadian Hansards)是非常著名的英法双语语料库,在平行语料库的建设和研究过程中要侧重语料库的对齐加工标注,多级自动对齐技术以及双语平行语料库在机器翻译和翻译知识获取等方面的应用技术。而就深入开展双语信息化处理研究来说,建立语料库之前还需要根据具体的应用要求制定语料收录规则,对收录的范围、内容、标准、格式、信息标注、校对、抽检办法等进行规定,结合图书馆业务建立图书馆行业双语数据库。
4.4 建立机器翻译评估机制
可以预见,在不远的将来机器翻译必将成为跨语言交流和翻译的工具,图书馆界也会迎来无障碍跨语言检索的时代。针对图书馆行业的机器翻译结果研究出一套实用的客观评估和主观评估方法是非常有必要的。在研发机器翻译系统过程中,算法改动或训练数据变更都会对机器翻译系统的翻译性能造成影响,需要对机器翻译性能设定一个标准,用来评价机器翻译系统的几种不同实现方法中哪一种更好。
5 结束语
通过对云南具有招收留学生资质的48所高校图书馆门户网站调研,笔者认为,云南高校图书馆留学生服务整体水平落后,学校层面应发挥高校优势与特色,积极主动融入国家“一带一路”倡议,抓好“澜湄合作”机制,完善和优化留学生培养体系,鼓励和选派教师出国访学,全球范围内招聘国际化人才,提升师资队伍国际化水平。学院层面,应制定留学生培养方案和优化专业课程设置,引导留学生积极参与学院各项活动,为留学生与中国学生交流创造更多的机会。图书馆层面,培养学科馆员与留学生院深度合作交流,借助学校外教力量和机器翻译技术的融合,搭建与留学生的沟通桥梁,了解留学生对图书馆服务的需求,丰富馆藏体系,开展针对留学生的个性化服务。只有各层面相互配合,主动融合合作服务模式,国内外兼并吸收,才能将留学生的教学和管理工作开展得更好,进而提升云南留学生服务和管理的整体水平,助力高校“双一流”建设,服务云南国际化办学。