“语言与智能技术”多人谈
2016-05-30连谊慧
连谊慧
编者的话:人工智能近年来的飞速发展离不开自然语言处理技术,即让机器理解人类的语言。自然语言处理技术的发展和应用正在改变着人类的生存方式。它既是语言生活的重要组成部分,也是推动语言发挥社会功能的重要动力。8月28日,中国中文信息学会和中国计算机学会联合主办的“首届语言与智能高峰论坛”在北京召开。在论坛的讨论环节中,八位专家就“语言与智能技术的未来发展”发表看法,分别探讨了类人语言理解系统的特点、深度学习的原理及应用、AlphaGo成功的启示、未来五年语言理解领域关键技术和研究方向等问题。本期我们整理了这部分发言,以飨读者。
关注人类学习语言的过程
孙 乐(中国科学院软件研究所) 人类智能的演化历经猿脑到人类祖先的进化,灵巧手及简单工具的使用,基因遗传智力的发展,大脑容量持续增加以及语言的出现。其中基因遗传智力、大脑容量的增大以及语言的出现,是人类智能发展的几个关键节点。
人类语言不同于动物语言的地方在于:人类的语言单位是非常明晰的,音义结合具有任意性,语言具有结构性、开放性、可传授性,不受时间、地点的约束,我们可以看到,人类语言的句子可以进行切分,而且可以依据语法把切分得到的成分重新进行组合,生成新的语言片断,从而能够用有限的符号表达出无限的意义。
以色列历史学家尤瓦尔·赫拉利在《人类简史》中提到,距今7万年前智人的认知能力发生了革命性的变化,智人在与其他人类物种的竞争中胜出的原因,最有可能的是智人拥有独特的语言。这本书给出了几个例子,当智人会讲述河边有只狮子的时候,实际上是具有了传达身边环境信息的能力,而进一步能够规划并执行复杂的计划,比如狩猎。此外,智人逐渐具备了另外一个能力,就是八卦,这实际上是人和人之间对社会关系的信息的传递,也意味着人类开始有了能够传达虚构概念信息的能力。有了虚构故事以后,就可以组织更大更有凝聚力的团体,也可以开展陌生人之间的分工合作和协同创新。
当代最有影响力的哲学家卡尔波普尔教授提出了三个世界的理论。他把世界分成客观世界、精神世界和知识世界,而这三个世界之间是交互的,进而形成了人类社会与自然界之间错综复杂的关系。自然语言正是对这三个世界的描述。随着语言研究的深入,我们越来越认识到问题并不仅仅在于语言的复杂性,而在于整个世界的复杂性。
在人类语言的习得过程中最关键的是出生后五年的时间,从牙牙学语到单个词的发音,到两个词的组合,最后到短语、复杂句子的掌握。对这个过程的论述有两种传统论点:一是乔姆斯基的先天论,语言功能被编码于人类大脑之中;二是斯金纳的后天论,语言通过学习原理获得。
如今的AI(Artificial Intelligence,人工智能)大势,涉及从逻辑推理到规则专家系统,到深度学习、机器学习的大数据智能。可以说,大数据时代代表的人工智能系统,不但要有数据、模型,还需要有大规模的知识和强大的计算能力。在这一主题下,我们应重点关注人类学习语言的过程,并研究如何构建一个类人的语言理解系统。未来五年,语言理解领域中需重点突破哪些关键技术、拓展哪些研究方向,还有待学界共同探索。
从“迁移学习”反观人类如何学习语言
杨 强(香港科技大学) 人是否能够从少量的样本学习语言,这是关系到人工智能发展的一个核心命题。对此,我们目前还不知道人是怎么学习语言的,而更多的只是知道如何让机器学习语言。但是,我们会从一些现象中看出这一点:我有很多朋友在美国,也在做自然语言处理研究,但是当他们有了小孩子以后,观察自己的孩子学习语言,会发现语言学可能“白费了”。孩子往往能举一反三,不知道哪一天就学会了语言,他们就觉得非常的惊喜。
从机器智能的角度有几个方面可以作为研究的入口,比如“迁移学习”。在“深度学习”和“强化学习”策略的基础上,把模型从一个通用的场景迁移到一个个性化的场景,迁移到小数据以及有冷启动需求的场景,就可以引入“迁移学习”。我认为人类正是在大脑已经有了很多固定的模型的基础上,再借助其中一些可以改变的地方,通过“迁移学习”,加上环境影响以及初始几年的观察去学习语言。
脑科学研究也呼应了这一假设。中国科学院外籍院士蒲慕明教授在第二届人工智能大会上表示,人类在一开始确实存在很多神经网络,留给后天学习的空间,但是随着年龄增长,很多又被遗忘,遗忘的速度和人类的疾病又直接相关。如果遗忘得太多就变成老年痴呆,如果遗忘得比较慢就会变成自闭症。这完全是从生物学角度来观察,却给了我们新的启发。
语言理解领域未来五年的机遇和挑战
胡 郁(科大讯飞股份有限公司) 在语言理解领域,研究需要和工业应用紧密结合,但二者却有着各自的特点。
首先,是它们关注的领域不同,分工也不一样,而且各自的发展是交错递进的。比如说,做语音识别的黄金时间是20世纪90年代,有大量的文章建立在隐马尔可夫模型基础上,建立在贝叶斯网络的基础上,取得了不少研究成果。然而最终这方面的技术在工业上的应用却比较有限。事实证明,近十年来深度神经网络方面的研究成果却被工业界所广泛使用。
其次,对于同样的领域,学术研究和工业应用的出发点和研究路径也不同。以深度神经网络为例,可以通过它很简单地用大数据去凝练一个东西。从工业界的角度来说,这没有问题,因为工业界要看最终结果,只要能够为我所用,整合起来用到产品上并产生效益即可。而研究不是这样的套路,研究需要去了解其背后的模型以及方法,包括其内部的结合规律。学术研究需要“积累一桶水”,而工业生产可能“只取一瓢饮”。从技术发展的角度讲,技术总要从初步研究阶段到达技术爆炸阶段,然后跃过技术爆炸,再到技术普及的阶段。
未来五年,学术界应主要做两方面的事情,一是进行更加前瞻性的研究。比如脑科学领域,它对人工神经网络到底会产生什么影响。二是深度神经网络的应用型研究。在这方面,工业界的广泛应用已经形成了大数据。学术界需要在此基础上深入发掘,看看里面还有没有其他的机器学习规律和需要解决的问题。对于工业界,目前有两大挑战。一是在技术还不完美的情况下将其充分应用,如何扬长避短、取长补短,并通过产品设计和场景设计让技术真正有用。二是对技术本身的拓展,如何充分发挥已有的大数据和人工智能成果,联合学术界进行深入研究。
什么是“语言的理解”
聂建云(加拿大蒙特利尔大学) 什么是语言的理解?在不同的时期谈到的语言理解,意义不一样。过去,某个人对语言的理解就是会用这个语言,比如写一个句子可能没有语法错误等,据此可以认定他已对该语言有一定的理解能力。而现在我们讲的语言理解更多是从语义角度来说的,比如说话人所讲的一些概念、所要说的内容,我们能否完整地理解。
此外,语言的理解存在不同的层次。举一个例子,某人写了一篇英语文章,但其英语不是很好,叫一个人去改英语。修改者对文章的内容或许并不理解,但他完全可以从语言的角度进行修改。这时候我们说他对文章有一定的理解,并非意味着对其内容有完整的理解,而是对语言本身有一定的理解。而更深入的层次,应该是对语言本身和文章内容的双重理解。
因此,我们考虑建立一个完整的语言理解体系,必须明确目标,即做到哪一个层次。对于相关领域的企业,有哪些任务,需要用什么手段去完成,这和语言理解到什么程度,针对哪个方向、哪个方面的理解密切相关。某个方面的运用可能并不需要对语言里的每一个层次都去理解,可能只需要某一个方面的理解。比如,我们对英语的改错,可能对内容不需要理解,只需对表面的现象做一些修改即可。
另外,在促进语言理解方面,少量样本学习非常重要。目前,我们尚未充分发挥其作用。学界做了很多知识图谱,重点关注如何将其从大数据里挖出来并形成规律,然而对这些知识如何运用却挖掘得比较少。究其原因,我们从文本里挖掘知识的前提是描述知识本身,而要去描述对知识的应用则困难得多。从这个角度上来说,少量样本学习的研究有更加广阔的空间,应引起更多的关注。
如何构建一个类人的语言理解系统
王海峰(百度公司) 构建类人的语言理解系统,首先要确定“类”的内涵。比如,我问一个人他专业领域之外的问题,他能听清楚我说的每一个字却无法回答我的问题。如果我去问这个领域的专家,专家一定可以回答。然而,若一个90后的小朋友用网络语言的表达方式来问他,他则不一定能听懂,从而也无法回答。反过来,如果他听懂了问题并用一种专业的表述来回答,这个小朋友也听不懂。
这里涉及一系列的问题。以问答系统为例,一是要有对人类语言的理解,二是要有对知识的掌握和运用,三是要有语言的生成,这样一个问答系统才能够形成。这是计算机模拟人的问答交流的过程,而模拟人的翻译过程又是另一套方法。因此到目前为止,我们还无法去建立一个完全通用的“类人”系统,“类人”和目标设定密切相关。
对语言的理解,对知识的掌握和运用,其背后是什么?我认为是基于大规模数据的深入挖掘。不管是挖掘语言规律,还是挖掘知识,或是运用这些知识去推理,都需要从海量数据中做数据挖掘。目前,从完成任务的角度来说,在某些方面,计算机的水平甚至比人的水平还要高,比如“百度翻译”,可以翻译几十种语言,很多场景下翻译结果基本是可靠的,从某种程度上来说这超出了一个人的能力。
人和机器的不同在于,人可以去举一反三,或采用这样一种学习模式,而机器不是“看到一个反三个”,而是可以直接看到一百个、一千个,甚至更多,进而去学习、整理。比如,一个翻译系统,我们可以用数以亿计的人翻译过的、从互联网中挖掘出来的双语数据去训练它。再比如,AlphaGo之所以可以战胜李世石,正是因为它能够利用计算机的优势看到更多的棋谱,从而进行学习。因此,机器和人的学习机理不一样,这也正是计算机进行语言理解的优势,是我们构建“类人”的语言理解系统的基础。
从技术向原理回归
邢 波(美国卡耐基梅隆大学) 这几年在机器学习以及NLP(Natural Language Processing, 自然语言处理)领域,刷比分的文章层出不穷,我对此比较担忧。我认为,学者们应有自觉的冲动和热情去关注技术的原创性和原理的突破。
从我个人的观察以及与很多同行的交流来看,很多谈论都集中在对于问题的描述或者宏观性的展望,少有对于技术性或者原理性的执着。很多知名学者和研发领袖的大量言论、频繁演说都集中在这个层面。近几年,这种情况在机器学习领域中非常突出。甚至还有一些近乎轻浮的观点,诸如建议初学者不要从理论开始入手,不要在算法上花费太多时间,甚至无需懂线性代数这样的误导性极强的、来自个别新潮明星应用工程师们的论调在公共论坛中大行其道,被奉为圭臬。
特别是当有一个“大锤子”,像深度学习这样的方法出现之后,就更加速了大家去“摘果子”的热情,对原创性、原理性的热情便减弱了。原创性研究和对原理的探索非常枯燥,回报周期长,但却是任何一个学科发展的必要环节。此外,这样的工作不是某个人、某部分人或者某个团体能够独立完成的,它需要学术界和工业界共同合作完成。
一个好的研究环境不存在学校和企业、工程和理科的区别,一个好的学者必须拥有融会贯通的能力,能够在对实际问题进行深入理解的同时充分地掌握原理。而这往往是我们在现代科学环境里缺乏的一种学术品位。
举个例子,如果在原理不明的情况下去推动一个产品,你是否敢用,如何介绍给别人用呢?原理不清,就表示你对其结果没有十分的把握,在这种情况下售卖产品有极大的风险性。就最近的特斯拉自动驾驶车事故来说,一个机器视觉或者机器人专家绝不会在自动车上把手离开方向盘去睡觉,因为他知道这个系统其实没有那么可靠。但是由于过度的宣传以及社会对人工智能的依赖和期待,人们往往忽视了它的局限和缺陷。这就需要学者和工程师对产品的原理和透明度有执着的追求,也需要媒体、政府对人工智能应用开发的理性和冷静,对基础研究的理解和重视。
在常规的人工智能开发中去做任何一个突破性的判断,都值得研发者充分思考。希望大家更冷静一些,去关注数学原理,重视枯燥的基础性的工作,在实现的形式和算法的保障方面多下功夫。
语言理解的数据、方法和应用
周 明(微软亚洲研究院) 关于语言理解领域,我特别关注三方面的问题:
一是数据。过去几年无论是做搜索还是做语音,方法在一定水平情况下动不了的时候,谁有大数据谁就最厉害,比如搜索,学术界玩儿了半天IR(Information Retrieval,信息检索),没有大规模的用户搜索的日志和反馈数据,水平根本上不去。语音也一样,像Siri,把海量用户的每天使用的语音数据拿过来重新训练系统,Siri的语音就提高了很多。似乎数据工作包括获得数据、整理数据,从数据中做出一些归类、聚类,发现知识和规律,似乎是很烦琐的工作,但却是我们这个学科的根本。在今年的ACL(Annual Meeting of the Association for Computational Linguistics,计算语言学年会)上,少有学者谈数据的问题。我认为数据是值得大家好好讨论的问题,尤其是对中国学者而言,如果狠抓各类有用数据,包括无标注、有标注的数据,就很有希望实现赶超。
二是方法。将“迁移学习”演绎一下,就是将在A领域好用的方法,放到B领域去研究、继承和发展。通过应用可以发现有什么更好的方法,会遇到哪些挑战,遇到挑战后如何调整?这样又会产生新的方法。迁移的概念,推而广之,其实就是跨学科合作或跨领域合作的问题。目前神经网络机器翻译很热,可是我们从中发现了很多问题,比如丢词特别厉害,或者翻出了多余的片段。现在大家都在把统计机器翻译的方法一点点放到神经网络中去。现在神经网络机器翻译中的Attention 模型,它是概率分布式的,对每个词的翻译,要利用所对应的源语句子的词汇,按照不同的概率发生作用。统计机器翻译中的成分,比如翻译概率和词汇对齐,通过这种方式融入到神经网络中,我认为就是一种有效的方法的迁移和融合,只不过上升到了一个新的概念。目前,多数文章都从自己的角度阐述了应用神经网络改进某些NLP(自然语言处理)任务,但是少有将领域有关的知识、规则和深度学习相融合的研究。我认为这两者融合未来非常重要。
三是应用。自然语言处理是一个应用学科,要由应用来牵动科研的发展,如果没有应用驱动,可以天天谈脑科学的问题,谈50年、500年也还是这些问题。通过应用将研究的长远目标和短期目标结合起来,是学科发展的关键。
最后谈谈NLP未来的研究重点,我比较关注如下两个方面。一是上下文建模和多轮对话。我们做机器翻译,做问答系统,做聊天系统,目前面临的最大问题就是对上下文建模的能力不足,而且多轮对话能力不足。随着手机的应用越来越普及,NLP工作者渴望解决口语现象和多轮对话问题。也许深度学习和强化学习会有很好的用武之地。二是神经网络机器翻译。目前已有很好的进展,但是方兴未艾。其中探讨神经网络机器翻译和统计翻译各种形式(模型、特征)的结合,将会有很大的发展前途。
AlphaGo的成功对语言理解有何启发
马少平(清华大学) AlphaGo(一款围棋人工智能程序,由Google旗下的DeepMind公司研发)到底成功在哪里?从原理上说,其核心是深度学习、左右手互搏以及强化学习,但如果从方法策略上来说,它与以前的成果,比如深蓝(IBM公司生产的一台超级国际象棋电脑),存在很大的不同。
两者之不同和围棋本身的特点有关。围棋感性的东西多,模样怎么样,是厚还是薄,这些东西很难描述,过去之所以认为计算机下围棋存在困难,正是因为这一点。深蓝采用α-β剪枝的办法,有一套评价体系,评价完全是靠知识。IBM在研发时请了很多下棋高手、国际大师帮他们总结各种知识,最后再结合搜索来实现。 而多年来围棋的评价一直没有得到解决。AlphaGo靠深度学习来解决了评价的问题。它有四个网络,包括快速网络、两个策略网络和估值网络。其中,快速网络严格来说不是深度的,是很浅的,甚至就是一个回归,是根据人的知识在几万个模式的基础上构成的。它在AlphaGo中起了很大的作用,然而单靠它可能打不过李世石。它的网络速度非常快,比第二、第三个网络快一千倍左右,在蒙特卡罗树搜索(Monte Carlo Tree Search)时用于模拟,可以在同等时间内快一千倍。这对最终胜负起到了关键作用。
因此,AlphaGo既有人的知识,又有深度学习感性的东西,同时又借助了蒙特卡罗树搜索。知识和搜索都是传统的基于符号主义人工智能的精髓,而深度学习是所谓的连接主义。这样,AlphaGo把符号主义的方法跟连接主义的方法很好地融合在一起。这是他成功的地方。
现在大家都运用深度学习,靠数据驱动,把知识完全拆解掉了。然而,我们应该深入思考如何把规则和知识,即传统的符号主义思想和深度学习的连接主义思想结合到自然语言处理中,这样才能够解决问题。两者通常是互补的。举个例子,AlphaGo跟李世石比赛第四盘下输了,源于一步错着,至少到7月份距离比赛已经过去了4个月的时候,AlphaGo也未能解决这个问题,即便经过长时间训练,仍然没有解决。基于深度学习大量数据的训练方法,想把一个错误改掉是很难的,而且改正以后其他问题不一定不出现。而基于知识和规则,就很容易避免。
将知识、规则与深度学习相结合,AlphaGo给予我们很深的启示。这也应该是自然语言处理领域今后努力的方向。
责任编辑:刘玥妍