大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会成功举行
2018-08-14刘益光方昱
刘益光 方昱
一、会议综述
2018年4月14日上午,“大数据时代的语言研究研讨会暨冯志伟先生八十寿诞庆祝会”在浙江大学紫金港校区启真酒店求是厅隆重举行。来自全国各地近两百位学界同仁共同探讨语言学研究的国际化与科学化进程,并为计算语言学家冯志伟先生庆贺八十寿诞。冯志伟先生的老朋友——浙江大学外语学院原院长邵永真教授,应用语言学专家应惠兰教授,汉语研究专家吴洁敏教授等专程到會祝贺。浙江大学外语学院梁君英教授担任大会主持。
国际世界语学院院士、浙江大学求是特聘教授刘海涛做了题为“信息时代的语言观”的主旨演讲,深情回顾了冯志伟先生的学术生涯,并借此揭示语言学研究方法科学化、成果国际化的奥秘。作为中国计算语言学的先驱与资深专家,冯志伟先生的学术生涯堪称传奇,为中国乃至世界的语言研究作出了巨大贡献。60年前,当时正在北京大学地球化学系上学的冯志伟对语言产生了浓厚的兴趣,并听从内心的声音转系到了中文系潜心进行语言研究。用刘海涛教授的话说:这次从理到文的转系,创造了中国语言学的一个历史。本科毕业后,又接着在北大中文系师从语言学家岑麒祥读研究生。
此后,冯志伟先生考取了中国科技大学的机器翻译研究生,并被公派到法国学习数理语言学。留学法国期间,冯志伟先生于1981年完成了“汉—法/英/日/俄/德多语言自动翻译试验”,在机器翻译领域走在了世界前沿。鉴于乔姆斯基短语结构语法存在的局限性,冯志伟先生在1983年提出了MMT模型(多叉多标记树形图分析法),以此为基础进行自然语言计算机处理和机器翻译研究,MMT模型是迄今为止中国学者在计算语言学方面最重要的成就的之一。除了这些学术成就,冯志伟先生还努力将当时世界最前沿的语言学理论、模型和方法带回中国,先后为国内学界介绍了法国语言学家泰尼埃的“从属关系语法”以及齐普夫定律(Zipflaw),为中国计量语言学的发展奠定了坚实的基础。此外,冯志伟先生在1987年发表了专著《现代语言学流派》,系统梳理了现代语言学的格局,直至今日仍是最重要的语言学流派参考书。
冯志伟先生一直投身语言学研究,共出版专著38部,以英、德、法、汉等多种语言发表了431篇论文。值得一提的是,其中300余篇论文都是其退休之后的成果,这成为冯老永葆学术青春的最佳注脚,这份执着和坚守令人钦佩与动容。报告的结尾处,刘海涛教授以其15年前发表的对冯先生的书评《计算语言学不仅仅是计算》一文中的一段话作结,以此与在场语言学同仁共勉:“我们学到的不仅仅是一些有关(计算)语言学的知识,而是一种精神,一种人类原本应该具有的对于未知的探索精神,一种理想主义的精神,一种爱国主义的精神。”
之后,浙江大学人文学部主任黄华新教授、浙江大学外语学院副院长程乐教授、教育部语言文字应用研究所研究员郭龙生教授先后致辞,分享对大数据时代语言研究理解和看法的同时,向冯志伟先生表达了崇高的敬意。值冯志伟先生八十寿诞之际,大会为其举办了庆祝会,仪式虽简短却饱含深情,在场各位共祝冯老福如东海、寿比南山!
庆祝仪式结束后,冯志伟先生做了题为“大数据—人工智能—翻译技术”的主旨演讲。冯老从翻译的起源、当今世界的翻译需求讲起,指出当今翻译市场高达90%的翻译需求无法得到满足,这凸显了发展机器翻译的必要性。基于此,冯志伟先生回顾了机器翻译的发展历程,大体上可以分为基于规则、基于统计和基于神经网络三个发展阶段。第一代机器翻译关注语言本体,以短语结构语法等为基础,研究人员力图编写完备的规则让机器模拟人类的翻译过程。结合自身的研究经验和成果,冯先生认为该类机器翻译应用场景局限性大、研发过程耗时耗力且翻译正确率有待提高;第二代机器翻译基于统计数据完成翻译过程,如2003年,来自德国亚琛大学的奥赫曾利用平行语料库,现场构建翻译系统进行演示。基于统计的翻译系统的机器翻译体系正确率大幅提高,是目前的主流;而随着人工智能和深度学习的发展,谷歌翻译等基于神经网络的机器翻译系统完成了“弯道超车”,虽然其翻译原理仍不明确,但翻译成效令人称赞。不过,发展至今,机器翻译仍在文学等专业翻译领域存在明显的不足。
现阶段,机器翻译的发展主要由谷歌、微软等科技公司的计算机专家主导,而语言学家日渐式微,这难免造成科技界的过分乐观和语言学界的担忧。冯老认为两者都不可取,一方面,科技界过分强调语言的符号性,却忽视了语言是凝结文化的复杂系统,这不利于机器翻译解决反讽等多样化翻译难题;而语言学界也不必妄自菲薄,我们应该拥抱技术革新,同时致力于机器翻译背后原理的探究,破解尚存的“黑箱”问题。冯老的发言既是鼓舞也是指引,字里行间洋溢的信心和勇气催人奋进。
二、分组讨论
下午,“大数据时代的语言研究研讨会”分组讨论在浙江大学紫金港校区东五教学楼青荷咖啡吧和201会议室同时进行。讨论分为四组,来自北京大学、复旦大学、南洋理工大学、浙江大学、华中科技大学、西安交通大学、广东外语外贸大学、大连海事大学、北京语言大学、杭州师范大学、华南师范大学、南京师范大学、中国传媒大学等高校的学者共报告了20余项研究。
(一)关注当下新兴的人工智能、机器学习等技术。冯志伟、詹宏伟介绍了语音自动识别在人工智能会话中的应用。他们首先梳理了语言自动识别的历史与现状,随后介绍了影响语音识别效果的四个可变维度:词汇量的大小、语音的流畅度和自然度、信道和噪声以及说话人的语音特征,指出语音识别需经历特征抽取、声学建模和解码三个阶段。常宝宝、张浩和裴亚军则探讨了从科技文献中自动识别并提取术语的方法。他们采用的多损失双向LSTM模型,不仅可以标记文献中重合的术语,还能够标记文献中的新术语。乐明、张翼利用大数据探究特定语法现象,利用BNC语料库,从格、数、人称、时态四个方面讨论了英语it-分裂构式的特点。
(二)主要探讨如何以大数据视角研究词长、词频等语言基本特征。陈芯莹报告了基于谷歌大数据的汉语词长历时研究,研究发现近300年来,汉语词长呈现多音节化、加速增长的趋势。互动环节有人认为,若语料未剔除外来词,这一趋势或许与外来词影响有关。陈芯莹指出,外来词的判定本身难以统一标准,此外外来词的进入确实可能是汉语词长变化的一个动因,但它们之间的因果关系需要更多相关研究进行佐证。陈衡、刘海涛基于兰卡斯特现代汉语语料,发现汉语语法符合门策拉定律,即句子越长,组成句子的小句越短。
(三)主要关注语料库研究。雷蕾、Dilin Liu对比了2016年美国总统竞选过程中特朗普和希拉里的演讲内容,发现两位竞选者在演讲中的主题词和用词情感色彩都存在明显差异。具体而言,相较于克林顿,特朗普的演讲用词更具商业用词特点,用词的情感色彩更偏负面。现场有老师指出,特朗普的这种说话风格也许跟其情绪化的性格有关,或许特朗普所用的正面词汇也较多,而情感程度较低的中性词较少。对此,雷蕾老师表示认同,并认为可以从不同的角度进一步探讨这一问题。
(四)主要探讨了语音和词共现网络两个问题。黄伟以10个方案为对象,报告了汉语罗马化拼写经典方案的计量研究。研究结果发现,汉语拼音方案虽然在6个考察指标上都非最优解,但其综合表现最为均衡。赵雪等人对个人口述史、民族志和新闻访谈等三类访谈的共现词网络进行了分析,发现三类访谈的关键词区分非常明显,口述史的话题具“个体性”“时代性”,民族志话题具“族群性”“文化性”,而新闻访谈话题则具“公众性”和“时效性”。
三、会议总结
分组讨论结束后是展板交流环节,三十余位参会学者展示了自己的研究成果,并在现场与到场的专家学者进行了面对面的交流,气氛热烈而融洽。这些研究涵盖语言学研究的方方面面,集中展现了大数据时代下语言学研究的新趋势,同时也体现了将更为客观、科学的方法引入语言研究的重大意义。
与会的学界同仁在向前辈表达敬意的同时,深入探讨了大数据时代下语言研究的新形势和新发展。援引大数据创新团队梁君英教授的话,这次大会真正实现了学科交叉、学术交融、学者交流的目的。