拓展人工智能时代词典研编新方向
2024-01-19侯复旦赵翠莲
侯复旦 赵翠莲
* 基金项目:2018年度国家社会科学基金重点项目“中华文化信息在新时期汉英词典中的凸显表征模式研究”(项目编号18AYY026)。
2019年至2022年这四年,亚洲辞书学会(ASIALEX,https://asialex.org/)国际学术大会从线下走到线上,从土耳其伊斯坦布尔(ASIALEX 2019,线下)走到印度尼西亚雅加达(ASIALEX 2021,线上),又来到中国广西南宁(ASIALEX 2022,线上),会议主题从关注词典学研究的过去、现在、未来,转换到关注词典编纂和语言文献,又转向关注数字时代下亚洲词典学研究所面临的挑战与对策。第十六届亚洲辞书学会(ASIALEX 2023)国际学术大会恢复线下,于2023年6月22日至24日在韩国首尔延世大学举行,主题为“词典学、人工智能和词典用户”。本届大会收到摘要逾百篇,接收论文70多篇,最终将其中的59篇录入大会论文集ASIALEX 2023 Proceedings。
来自世界各地近150位辞书学界和语言学界的专家学者出席了本次大会,通过大会发言、分组会议、专题讨论、海报展出四种形式进行了深入交流。
一、 主 旨 发 言
本次大会主旨发言的四位专家学者,为英国语言学家、词典学家Michael Rundell教授,美国词典学家Erin McKean,日本词典学家Yukio Tono教授,韩国Jonghwan Kim博士。
Michael Rundell教授曾任朗文系列词典总编辑(1983—1997)和《麦克米伦词典》主编(1997年至今),现担任“词汇计算有限公司”首席词典官。在题为“自动生成词典:我们接近了吗?”的发言中,他系统梳理了2011年以来语言处理技术在词典编纂中的应用,展示了词典编纂如何在一定程度上实现自动化,指出在“后期编辑词典编纂”模式中,人类词典编纂者的角色是对自动生成的词典初稿进行编辑、评估和提炼。最后他尝试使用ChatGPT生成词典文本,探讨人工智能工具替代当前最先进的词典编纂技术的可能性。在结论部分,Rundell教授回答了三個问题:1) 针对用户词汇查询,ChatGPT能否直接提供答案(因而不再需要词典)?2) 如若不能,ChatGPT能否以微乎其微的人工介入生成好词典(因而不再需要词典编纂者)?3) 如若不能,ChatGPT能否产出质量够好的词典初稿,供人类后期编辑(因而不再需要我们现有的工具)?他认为,对于简单的词汇查询,ChatGPT并不具备优势;对于复杂的词汇知识,ChatGPT则存在相关度与信度问题;ChatGPT会生成貌似可信的词典文本,但因其存在遗漏、杜撰或提供虚假信息的问题而经不起推敲;与人类编纂者相比,ChatGPT缺乏认知推演和识别语用与语义韵等信息的能力,与基于语料库的后期编辑词典模型相比,ChatGPT产出的文本难以溯源,因而难以验证其准确性。当然,ChatGPT还在改进,有望产出更好的词典文本,但目前尚不能预示“词典编纂的末日”。在问答环节,针对日本早稻田大学Shigeru Yamada教授的提问“ChatGPT能否适用于学习词典的编纂?”,Rundell教授认为值得尝试,但需要设置参数变量,以适用于外国人学习英语。
Erin McKean博士是在线词典Wordnik.com的创始人、牛津大学出版社《美语词典》主编。她在题为“人工智能在词典编纂中的投资回报率”的报告中指出,大型语言模型(LLM)正用于许多基于语言的任务(如翻译、总结与解释、情绪分析)以及内容生成任务(如代码生成、用自然语言回答搜索查询、为客户服务等领域的聊天机器人赋能)。由于现代词典编纂多基于调查分析大型语料库,即类似于训练LLM的语料库,因此她做出了“LLM可用于典型词典编纂任务”这一假设。她尝试使用OpenAI开发的ChatGPT gpt-3.5-turbo来完成词目扩展、短语和词形检索以及释义与示例生成。结果表明,LLM会输出错误与“幻象”(杜撰事实),需要大力监控,因而达不到人类编纂工作的标准;此外,使用LLM的外部效应会增加总体成本,如对环境的影响、虚构信息或复制有偏见的文本,甚至增加了知识产权归属的问题。在问答环节,以色列的Ilan Kernerman认为,虽然ChatGPT在词典编纂中存在不少问题,但我们仍要利用这种新工具,因为此乃科技潮流,而我们要找到合适的方法去拥抱新科技。
Yukio Tono教授为ASIALEX创始成员兼前任主席(2011—2013),长期致力于二语词典编纂、词典使用、基于语料库的第二语言学习和习得等方面的研究。他在题为“电子词典编纂时代的词典使用研究”的报告中,首先概述词典用户研究史,追溯用户研究兴趣之演变,并强调电子词典和在线词典对语言学习者日益增长的影响。在一项针对日本大学生的问卷调查中,Tono指出,词典查阅行为呈现出显著变化,反映了在线词典和翻译工具的日益普及对学生语言能力发展既有积极又有消极的影响。最后,Tono展望了今后的词典用户研究,强调要继续深入理解词典使用与语言学习的关系,促进外语教学方法的技术变革。在问答环节,Tono再次强调在线词典均源于纸质词典,但在线词典在排版等方面均比纸质词典更灵活自由,这也是吸引大量用户从传统纸质词典转向电子词典的原因。针对香港中文大学(深圳)的李兰教授的提问“有否合适的研究方法来测试纸质与电子词典的效果?”,Tono举例说明,可用不同的学习任务来测评词典使用效果,比如可将深度阅读与闲读任务用于测试两类词典的效果差异。
Jonghwan Kim博士为韩国NAVER公司全球词典制作中心主任,近年专注于激活开放词典PRO、Accentia和全球英语词典服务。在题为“NAVER词典用户参与研发:NAVER开放词典PRO与Accentia个案研究”的报告中,他首先介绍了众包NAVER开放词典PRO这一用户参与型编纂平台,其特点是,集词典编纂和内容消费于一体;是大众化平台,提供便于普通用户参与的结构;是开放型平台,可编写各种主题词典;其结构灵活,可编写格式各异的词典。他还介绍了NAVER读音产出平台Accentia,这一大众读音制作平台可收集每种语言的各种真实口音。Kim博士的话题引发了广泛兴趣与讨论。Michael Rundell教授针对在线众包词典去除错误或敏感信息等噪音问题进行提问,Kim博士回答说NAVER公司有一套严谨的审核机制以去除词典中的噪音,可应对目前的数据量,还将研究如何应对海量用户所带来的新需求和新挑战。Kim博士最后提到,截至2023年5月,该平台已有6000多个不同类型的词典,普通大众特别是青少年对于多主题词典编纂颇感兴趣,如平台上出现了小学生编撰的零食词典。
二、 分 组 会 议
分组会议围绕以下主题顺次展开:词典编纂中的文化与社会表征、词典使用与用户研究、词典编纂中的语义表征、双语与多语词典编纂、词典编纂中的方言表征、词典编纂问题与方法、词汇学与词典编纂、短语学与词典编纂、术语与专业词典。
(一) 词典编纂中的文化与社会信息表征
Judit Freixa和Sabela Fernández-Silva以“女权主义词汇的词典化”为题探讨了西班牙语词典中对女权主义词汇的处理,西班牙语词典编纂方法与葡萄牙语、加泰罗尼亚语和法语等其他罗曼语是否相似,以及西班牙语中女性主义单词的词典化优先标准等问题。徐海、汤之杰在题为“老龄歧视与积极老龄化:《现代汉语词典》中的老年人形象”的报告中,从批评话语分析视角探讨了这部词典所反映的老年人形象的社会认知,说明其形象展示均衡多样,从有别于年轻人的年衰弱势之刻板身份到在家庭中的重要作用;例证分析显示,中国社会关心尊重對社会和家庭做出贡献的老年群体,这源自于其特有的社会意识形态和话语体裁。Jesus Federico Hernandez的报告“名字里有什么?姓名学、身份和菲律宾词典”,对一系列菲律宾词典中所收录的菲律宾姓氏进行溯源与分类,以厘清其可能的民族文化语言源流。Winda Luthfita和Adi Budiwiyanto的报告“面向用户的地名收录:词典编纂视角”对31名《印尼综合词典》用户进行了问卷调查,并探讨了地名、地名学及其与语言学、用户研究和词典评估的相关性。
(二) 词典使用与用户研究
Naho Kawamoto和Yukio Tono以“L2词典使用技能描述符之研制初探”为题,探讨了外语学习背景下研发词典技能描述符的可能性,以及按照CEFR水平对这些描述符进行Rasch分析校准。孟凡菲等人在“电子词典的错误及其对汉语使用者的影响”这项研究中,通过实验、问卷调查和词典批评,研究中国最流行的电子词典“有道”对学生英语学习的负面影响。Pasqualina Sorrentino和Massimo Salgaro在“不要扔掉纸质词典!利用不同类型的词典提高EFL词汇学习效果”的报告中,汇报了在线词典与纸质词典对于英语学习诸多方面的影响,比如词汇习得、记忆、新词、阅读理解、新词的长时记忆,结果表明,纸质词典在单词短时记忆测试中的正确率以及用户友好度测评两方面得分略高。另有报告讨论了单语和双语词典在近义词辨析中的区别、词典用户对词典软件的关注点等话题。
(三) 词典编纂中的语义表征
Vincent B.Y. Ooi在“《NAVER英语词典》中的英语变体及其包容性”的报告中重点研究了这部词典的内在结构特征及意义,通过样条模型、词汇启动、三角测量等手段测评其收词广度与收词量,并评估其在全球词典编纂 “扩张期”做出的努力。Maria Koliopoulou在“词库与本体:二者的关系是什么?”的报告中指出,词典学视域下的词库概念与哲学视域下的本体概念在各自描述的范畴中均表征概念及其层级关系,但在起源、目的和结构方面存在差异,因而属于不同的知识组织体系(KOS)。此外,还有学者报告了“菲律宾单语词典中的形容词语义结构”“《延世韩语同义词词典》的编纂与使用”等研究。
(四) 双语与多语词典编纂
Li Fei和Hansaem Kim的报告题为“辨析通用汉字常用词的非常见用法 ——对《三国通用词汇词典》实体的定量分析”,调查了这部中日韩三语词典中的300多个通用汉字词条和数千条语料库索引行,发现许多同形汉字词在各自的语境中呈现非常见的用法,反映了汉字词汇在不同语言系统中不断扩展和多样化的趋势。Elena Berthemet在“构建多语学习者习语词典”的报告中分享了在线多语习语表征模型,可详细描述理解、使用习语所需的信息,实现跨语言多向检索,这是传统纸质词典无法实现的处理方式。此外,Shigeru Yamada就“数字时代理想的日英词典”进行了综述。
(五) 词典编纂中的方言表征
Mats-Peter Sundstrom和Marlene Nilsson在题为“在‘圣书’和‘词书’的交界处:《圣经》翻译与词典编纂”的报告中,通过南非恩东加语圣经翻译的视角,阐明翻译与词典编纂之间的界面研究。Moira Saltzman在“济州话口述词典:在线协作语言复兴数据库”的发言中,以在线济州话多媒体语料库的研发为例,展示运用跨学科方法创建多用途濒危语言的永久记录。
(六) 词典编纂问题与方法
Syed Shahrier Rahman和Mithun Banerjee 在“孟加拉语形容词词缀的词典处理”的发言中,汇报了通过整合两部孟加拉语词典与孟加拉语单语语料库以构建其形容词宏观结构。Elsie Marie T. Or的报告“菲律宾单语词典中部分功能词的处理”,考察了所选功能词的微观结构及其在文献中的分析程度,进而提出处理建议。Ma. Althea Enriquez的“多语环境下编纂单语词典的挑战:菲律宾词典项目报告”,针对单语词汇的多语宏观领域、词条文本设计的微观领域、词典作为标准化指标的中间领域这三方面,提出了词典编纂应聚焦语言及其使用,但也应考虑社会结构和社会环境的观点。Samantha Jade Sadural在题为“建设Marayum项目:词典编纂问题与解决方案”的报告中,讨论了协作型菲律宾诸语言在线词典平台创建过程中所涉及的语言学问题与决策,包括词类、词形、派生词、多义性、文化表征等方面。
(七) 词汇学与词典编纂
Qihui Fan和Sun-Woo Chang的“韩语外来词的词典信息与学习者接受度研究”,以《基础韩语词典》中的1569个基本外来词条为研究对象,分析其发音、词性和词义三方面的信息,考察了这些词典信息对中国大学生学习韩语的影响,找出其优缺点,并提出改进建议,以更好地服务于韩语学习者。赵翠莲在题为“使知其然、知其所由然——论双语词典文化信息的前景化”报告中,探讨了文化信息在(汉英)双语词典编纂中的收录和表征情况,强调不仅要提供单词和短语的含义和用法(使知其然),还要通过陌生化、前景化等手段凸显其文化背景(使知其所以然)。另有研究者探讨了几部牛津词典的外来词及新词收录情况。
(八) 短语学与词典编纂
陈恋的报告“(元)短语学与短语语义学:DiCoP——短语单位的计算机资源”围绕DiCoP(词典和短语语料库项目)展开考察,旨在研发与短语单位相关的多语种短语电子词典(目前为法汉汉法词典)。其他报告基于语料库探讨连接副词besides的措辞,以及从短语学视角对比独立描述与整体描述的问题。
(九) 术语与专业词典
高永伟的报告“词典中应该收录多少术语?——OED案例研究”,通过比较在线OED等英语词典及部分新词词典,指出OED在术语数目、学科领域覆盖、术语标识、缩略词收录等方面存在的问题及原因,并提出改进建议。Ping-Yu Huang和Yueh-Tzu Chiang以“专业文本和专科词典中的学术词汇有何意义?”为题,调查学术词汇在专业语料库中的特定词义(如,resident 可以是“住院实习医生”),并依据语料库调查为专科词典提出建议。Eric G. Englert和Sadaf Munshi在题为 “避免‘某种植物’:多学科词典编纂方法案例研究”的报告中,提出了多学科视域下的曼基亚利语词典编纂方法,通过动植物调查以及民族医学研究,生成涵盖学术、科学及社区知识的词汇库。Elizaveta Krivetskaya和Alexey Matyushin在题为“供医疗协调员使用的学习者专门用途词典:词典学概念”的报告中,讨论了可用于医疗协调员和主题领域培训的多语学习者专门用途词典的研发,对其宏观与微观结构进行概念化论述。Juwon Park等人的报告“朝鲜和韩国传染病词汇编纂实践研究”,介绍了首个“朝韩传染病词汇表”的编写,涵盖诊断、治疗和预防各种微生物引发的传染病的诸多术语。
三、 专 题 研 讨
专题研讨分两场进行,分别是“第 5 届全球辞书学会词典编纂与新词(GWLN-5)”和“词典教学(LexTeach)”。GWLN为年度研讨会,致力于汇集全球新词发现、分类、描述与评判方法诸方面的观点及其词典处理与表征;GWLN-5主题为“词典中未收录的词目”,高永伟、Raquel Amaro、Nam Kilim、Yinxia Huang等围绕语音语料库、社交媒体、仇恨话语、诗歌等中的单词及表达方式以及非标准单词或新造术语等话题做了报告。LexTeach为ASIALEX向公众推介词典知识的项目,由香港科技大学Amy Chi发起,旨在让用户了解词典如何满足其需求,熟悉使用词典的专业知识并欣赏其价值;项目以讲座形式进行,邀请具备该领域相关知识的ASIALEX成员担任讲座嘉宾。Amy Chi在“LexTeach能成为普及词典学知识的典范吗?”的报告中详细介绍了该
項目。
四、 海 报 展 出
海报展出是近年来国际学术会议的一种交流方式,以其直观呈现、图文并茂、作者与观众面对面交流等特征而广受推崇。本届大会共展出海报11份,内容涉及在线词典访问调查、学习者词典偏误表征、基于语料库的用法模式调查、少数民族语言词典中的民族文化、基于语域的未收录条目分类与词典收录研究、多义词的认知语言学描述、语音变化与词典注音、多方言词典编撰中的问题与挑战、社交软件术语研究、情感词典编纂、网络方言词典编纂等。
五、 总 结
自从1997 年在香港科技大学成立以来,亚洲辞书学会始终秉承其宗旨,致力于促进亚洲语境和世界范围的辞书研究与编纂实践,推动辞书领域的学术与专业活动。辞书活动涉及多种学科,与相关理论和编写技术的创新与发展密切相关。本次大会从组稿到举办期间适逢基于大型语言模型的ChatGPT等聊天机器人推出,一时风靡互联网,给辞书编纂带来了机遇与挑战,也给词典学研究提供了新的视角。
历时三天的ASIALEX 2023围绕人工智能时代的词典编纂与词典学研究展开讨论,话题从传统的收词立目、词条结构、语义网络、语用和文化信息表征、单语和多语词典等,到词典编纂出版技术的创新,如人工智能赋能,不一而足。本次会议拓展了词典用户的边界研究,甚至从作为唯一用户的人类拓展到了“机器可读”模式中的潜在用户——机器。此外,本次大会引导词典学领域的学者和专业人士进一步认识词典的时代性这一要素,通过与公众接触互动倾听新时代的需求,创造现代社会所需的词典。需要指出的是,语言处理技术的革新为词典编纂出版和词典学研究插上了翅膀,但若无人工介入,基于大型语言模型的“已知知识”,甚至依赖“暗箱操作”的ChatGPT等“智能”软件在词义消歧、推理、抽象思维等方面时有“弱智能”之表现。在识别未录入语料库的“未知知识”和解释自动生成的语言数据等方面,智能软件尚不能替代人类智慧。Gregory Grefenstette在20世纪末(1998)曾发问“到公元3000年时还有人编词典吗?”近四分之一世纪过去了,人工智能尚未取代人类词典编写者。
最后,本次大会产生了新一届亚洲辞书学会执委会,成员分别来自韩国、中国、日本、新加坡、菲律宾、伊朗。亚洲辞书学会第十七届国际学术大会(ASIALEX 2024)将在日本东京东洋大学举行。
(四川外国语大学 成都 40003)
(责任编辑 刘 博)