AI拯救冰岛语
2023-05-02仇广宇
仇广宇
冰岛一处公路上的指示牌。图/视觉中国
你知道Sau??ljóst是什么意思吗?它是冰岛语中的一个词,描述的是一天中一个特殊时刻,在这个朦胧的黎明时分,大自然的光线,刚好让人们能够看清楚羊群。
用一个简单的词汇传达出诗意和美感,这正是冰岛语的特色。多年来,这门语言的精美让不少文人墨客为之着迷。但近百年来,这门精美的语言曾经数次面临灭绝危机。随着全球化和高新科技的发展,只有三十几万人使用的冰岛语,在现实里会受到英语等强势语言的威胁,在网络空间里也没有太多展示的空间。
不过,冰岛人一直在为自己母语的生存而努力,而且这种努力已经颇具成效,它甚至强大到将冰岛语本身的命运反转了过来。2023年3月15日,美国人工智能研究公司Open AI发布最新的人工智能系统——GPT-4,并公布了一些正在使用GPT模型的案例。通过这些案例,人们才发现,冰岛政府正在训练GPT模型学习冰岛语。目前这种训练已经取得了相当大的突破,GPT-4已经可以具备逻辑地用冰岛语回答问题,并学会书写冰岛语的诗歌了。
人工智能学会了保护小众语言,这件事,让人工智能软件在人们眼中多了一层善良、温柔的色彩,人们发现它不只会抢走人类的饭碗,也能够在恰当的利用之下,做一些保护传统文化的有益工作。不过,说到底,这件事还是倔强的冰岛人促成的。
科技背景下的语言危机
冰岛人之所以会选择用人工智能去保护冰岛语,是因为冰岛语在十几年前遭遇过一次濒临灭绝的危机。2012年,一份由欧洲多家学术机构联合编写的、名为《欧洲语言平等》的报告显示,因为缺乏数字技术的支持,有超过20种语言可能在网络世界中灭绝,其中,冰岛语的消失风险名列榜单的第二位,仅次于马耳他语。那时,报告研究者忧心忡忡地呼吁,导致问题的原因,可能是多数欧洲语言都严重缺乏语言资源——这种资源,指的正是相关的语言数据库和语言技术工具。
具体说来,这种危机是科技革命给小众语言带来的生存困境。十多年前,智能手机开始普及,之后,智能语音系统也开始伴随智能音箱等产品进驻千家万户。在使用电子产品时,人们必须使用某种语言去和机器对话。但是,冰岛人慢慢发现,当他们在自己家里使用智能音箱或者其他设备时,这些设备中没有冰岛语的选项。当然,大部分冰岛人都是精通多语种的,他们可以改用英语、挪威语、丹麦语,也不会觉得有太大问题,但在政府层面看来,这种不能在自己家里使用母语的局面,实在是有些荒唐。
从那时起,这个问题就留在了很多冰岛人的心里,他们开始思考如何解决冰岛语在数码世界可能消失的问题。担忧的人包括诗人、学者甚至科技从业者,而首先站出来的正是一位技术从业人员——特劳斯蒂·克里斯蒂安松(Trausti Kristjánsson)。克里斯蒂安松的父亲编纂过冰岛语词典,他对本民族语言也有着强烈的情感。早在2012年,在谷歌公司任职的他就开始强烈建议,要求他身边的同事把冰岛语加入谷歌语音的备选语言中。
但这个提议一开始就被谷歌的其他员工否决了,原因是,这些科技公司想要在语音系统里加入冰岛语,就首先需要为冰岛语建立数据库,而对科技公司而言,为越小众的语言建立数据库,他们所支出的成本就会越多,因为原始的语言材料不够,为了收集这些材料,公司还要花费额外的人力物力,这样做,对一家企业而言很不划算。为此,克里斯蒂安松只好与冰岛当地的一位学者展开合作,通过手机收集了冰岛人朗读的数百万个句子。最终,通过他们当年收集的语料基础,谷歌建立了互联网上第一个完整的冰岛语语料库。如今,谷歌翻译里的冰岛语翻译选项,也是以这个数据库为基础制作的。
在克里斯蒂安松之后,冰岛政府也开始行动。2014年起,冰岛政府开始在一项语言保护计划的牵头之下,组织相关公司收集语言资料,促成人工语言数据库的建设。数年后,当数据库的建设初具规模,冰岛官员就开始了下一步行动,他们公开致信,或是亲自到访各大科技公司,希望他们开展用机器学习冰岛语的业务,或者,希望这些公司至少先在系统语言中添加冰岛语选项。
冰岛文化和商务部部长莉莉娅·阿弗莱德多蒂尔(Lilja Alfredsdóttir)曾在2021年写信给迪士尼,希望对方在网络播放的电影添加冰岛语的字幕和配音,后来迪士尼回复称,愿意在《冰雪奇缘》等动画片中添加冰岛语的字母和配音。此后,她又致信苹果公司CEO蒂姆·库克,但没有收到回音。直到2022年4月,事情出现了较大的突破,冰岛总统古德尼·约翰内松亲自带着团队访问了Open AI,并最终促成了该公司与冰岛的合作。
高新科技如何保护一门小众语言?
对于能够教会人工智能说冰岛语,冰岛文化和商务部部长阿弗莱德多蒂尔笑得很开心,曾为此事多方奔走的她,激动地对媒体讲述:為了训练人工智能说冰岛语,冰岛方面花费了四五年时间,调集了六十多名专家来研究这个问题。此外,数家冰岛科技公司也参与了这一过程。
使用人工智能学习一门语言,其背后的道理并不难理解。当人工智能学会了某门小众语言,就相当于这门语言有了一个永不停歇、不断进化的“传人”,那么,它作为小众语言的灭绝风险也就会大大降低了。这个学习的过程同样不难以理解。只要人们能够收集到某种语言使用者提供的、足够多的语言资料,比如对话、互联网网页和出版物等文字资料等,将这些资料建成语言数据库,再把数据库的内容输入人工智能的模型中进行训练,稍微花费时间和精力,就可以做到。
但简单道理的背后,还是有不少困难需要解决,尤其是,人工智能对语言的学习是依靠语言资料组成的语料库完成的,那么语言本身的特点,以及数据库的质量,就会决定人工智能学习一门语言的效果。语言学家、教育部语言文字应用研究所研究员,84岁的冯志伟是中国计算语言学的开拓者。在他看来,中文即使比冰岛语大众很多,在机器学习方面,它也面临很多挑战。
首先,如果语言材料本身的内容不丰富,量不够大或者质量不够高,都会令机器的学习效果大打折扣。比如,单独以书本资料作为考察对象,中文的出版物大概只占目前全人类的语料库的百分之5%,相比之下,英文出版物可以占到整个语料库的60%,这样的话,机器学习英语的效果自然更好。其次,如果某一门语言的独特性过强,也会妨碍机器对它的学习。比如,中文在世界语言中的独特性就很强,它不属于表音文字,是表意的,其一个词汇可能有很多重含义,此外,中文的词和词之间没有空格,机器对这种一长串组成的句子并不能很好地理解。这也增加了机器识别的难度。
用这几个条件比照,在机器学习领域,冰岛语确实面临着类似的困境。由于使用人数、语言资料都比较少,因此用冰岛语书写的互联网资源的数量更是少得可怜。其次,冰岛语虽然属于表音的语言,但有大量长度极长,中间不会空格的复合词,这些单词也容易让机器“读不懂”。
如今,能够成功训练人工智能,其背后数据库的建成,都是冰岛人共同努力的结果。除了前述谷歌员工建立的数据库之外,自从2014年政府建立相关项目以来,冰岛本土的一些科技公司都投入到了数据库的收集中去。比如,有家公司为此建设了一个网站,呼吁所有会说冰岛语的人都把自己说话的录音传上去,为语料库做一份贡献。冰岛前总统维格迪丝·芬博阿多蒂尔也带头参加这些语音项目的收集工作,亲自在数据库里录下了她的声音。
数据库建成后,又有其他冰岛本地的公司参与进来进行后续工作。其中一家公司组建了将近40个人的团队,这个团队每天的主要工作就是专门负责训练GPT-4 回答冰岛语问题。这些工作人员每天给GPT-4 留一些冰岛语的“作业”,他们负责把答案收集进行评估。若发现机器的回答不准确,再重新教会它改进,如此循环往复,这种训练有了成果,在GPT4的上一代模型——GPT3.5所输出的答案里,还会混有英语或其他北欧语言的单词,但是很快,GPT4就能给出纯冰岛语的答案了,而且日益准确。
“语言规划部”和“人名规划局”
在语言学家冯志伟看来,语言保护是冰岛政府的“国策”。而冰岛人将这种保护做出了特色。除了应用人工智能技术保护语言,冰岛一直设有一个类似“语言规划部”的语言规划组织。该组织受到政府的资助,其中活跃着很多语言和技术学者,这些人的工作是审定外来技术词语,再以此为标注提倡冰岛公民使用。冯志伟提到,这种保护规格还是很高的,目前在欧洲国家中,除了冰岛,只有法国才有“法语推广委员会”,其他国家都没有专门建立。
人们会好奇,为何冰岛人如此执着于本民族的语言保护?除了民族性格之外,这也与冰岛的历史传统相关。将语言上升为一种民族情感和“国策”,这与冰岛建国的历史有很大的关系。从公元9世纪起,冰岛就开始有移民居住,在这个小岛上,很早就诞生了独立的民族意识和自己的文化,但千百年来,它始终不能算是一个独立的国家,而是处于挪威和丹麦的势力范围内。后来,冰岛于1944年正式建立共和国。
冰岛人形成了一种文化共识,他们深知,他们的祖国不是一个大国,因此,独立的经济和独特的文化才是他们的生存之道。因此,大概也是从19世纪开始,冰岛的上层人士和学者们,就开始把这种共识传播开来,逐渐形成了冰岛人骨子里对民族语言文化的热爱。此外,虽然长期和挪威语、丹麦语以及英语共处,但在现代社会之前,冰岛语的样貌没有太多变化,它一直是与古代北欧语言最接近的一门语言,冰岛人可以毫不费力地阅读他们的祖先在千年前写下的诗歌。这种身为世界文化遗产的自豪感,也促进了冰岛人对冰岛语言的热爱。
因为这样的共識,冰岛人早在百年前就开始尝试用系统方法进行语言保护。那个所谓的“语言规划部”早在1927年就成立了,如今,它的名字是阿尼·马格努松研究所,是一间由冰岛大学独立资助的学术研究机构,在冰岛文化和商务部的主持下运作。最早,这个机构是为了解决外来词和冰岛语的结合问题而设置。当时,随着时代发展,越来越多的外来词涌入冰岛,为了和游客、客户等对象沟通,普通百姓也开始将英语等其他语言与冰岛语混用。慢慢地,大到学术会议的官方语言,小到家电说明书,食品商标和孩子们玩的游戏卡,冰岛人眼中的外语词汇日益增多,母语词汇一再被蚕食。这一现象令政府人士十分头疼。
为了解决这一问题,“语言规划部”想到了一个办法:他们把所有外来词都用冰岛语的语法重新造词,再通过手册、报纸、广播、电视等各种形式推广至全国。这些词汇很多都是当年比较新的科技发明。举例说来,冰岛语中原本没有“电视”和“电脑”这两个词,当出现了这些新鲜事物后,研究所就开始构造这些词汇,他们构造出的“电视”这个词,是“视觉”加上“投射、发射”的意思组合而成的。而诸如“TV”“Computer”这样的外来词,是不被鼓励在冰岛本土使用的。
随着时代发展,冰岛语语言危机愈演愈烈时,“语言规划部”反而越挫越勇,它们甚至发展出相关的“人名地名规划局”来规范人名和地名。现在的阿尼·马格努松研究所有一个下属机构,专门对人名和地名如何进行准确地冰岛语表达加以研究。
如今,一切努力都有了成果。当人工智能成功地学会了用冰岛语写诗歌,执拗的冰岛人展露出了欣慰的笑容,除了“语言规划部”以外,他们从此有了一个新的、守护本民族语言的帮手。在最新公布的2023年版的《欧洲语言平等》报告中,冰岛人为本民族语言留存所做的一切努力都得到了高度赞扬,在这些研究者看来,尽管冰岛语依然有着灭绝的风险,但这个趋势是在不断减小的。这也正如冰岛文化和商务部部长阿弗莱德多蒂尔所感慨的那样:作为一个小国,只要做足了功课,我们依然可以很好地保护我们的语言。
(参考资料:《冰岛主权观念:构建文化独特性与优先经济发展》,作者陈安琪)