APP下载

走向智能时代的语言信息化产业

2016-05-30郭玉箐徐俊王海峰

语言战略研究 2016年6期
关键词:机器翻译搜索引擎

郭玉箐?徐俊?王海峰

提 要 语言文字是信息最主要的载体,语言文字的信息化是实现国家信息化战略目标的基础。在语言信息化产业中,搜索引擎和机器翻译是最具代表性且已经实现大规模产业化的两大领域。本文以这两个领域为例,详细解读语言信息化技术和产业如何应对互联网时代的新机遇和新挑战,并展望语言信息化产业的智能化趋势。

关键词 搜索引擎;机器翻译;深度神经网络

Abstract In recent years there has been an enormous boom in Computational Intelligence in Information Systems. This paper attempts to provide rich information and professional observation about the recent progress made in adapting Chinese language processing and computing industry to the new challenges arisen from rapid advancement of the Internet as well as the worldwide proliferation of mobile devices and social media. In the process of language digitization, search engine and machine translation are the two major typical areas pertinent to large scale industrialization. Through tracing the developing trajectory of these two areas as exemplar cases, we attempt to demonstrate how language digitization as a technology and industry deals with a range of new challenges, including intelligent applications and big data, such as business intelligence, social analytics, data/text mining, machine learning, text summarization and information retrieval. In conclusion, we are optimistic for the future of the fields in achieving even better quality based on paradigm shift away from linguistic/rule-based methods towards empirical/data-driven methods which have been made possible by the availability of large amounts of training data and large computational resources.

Key words search engine; machine translation; deep neural network

互联网技术和产业的飞速发展,不仅使信息量呈爆炸式增长,更带来了丰富多变的语言现象,对语言信息化技术提出了新的需求和挑战,驱动搜索引擎、机器翻译等语言信息处理技术和产业的快速发展。近年来,随着云计算、大数据处理、深度学习等技术的进步,更加智能化的互动型产品也由实验室阶段逐步走向市场化。本文以搜索引擎和机器翻译为例,阐述互联网时代背景下语言信息化面临的问题、解决的技术手段和前进的方向。

一、互联网时代的新机遇与新挑战

语言文字的数字化彻底改变了人们使用语言文字的方式,从学术论文、会议纪要、工作汇报到生活日记,几乎所有书写的场合均可以使用计算机来完成。数字化极大地便利了语言信息的编辑处理,也为语言信息的高效传递奠定了必要的基础。数字化的语言信息几乎没有重量、没有体积,互联网的兴起使得语言信息的传递没有了距离,从而极大地降低了语言信息传递的成本,空前地提升了语言信息传递的效率。互联网的迅猛发展,深刻地改变了语言信息获取和传播的方式,带来了海量规模的数据和多元化的信息资源,产生了大量新的语言现象和问题,这为语言信息化产业发展带来了新的机遇,同时也向语言信息处理技术提出了新的挑战。

(一)新模式

互联网时代不仅催生了新型的信息承载形式——网站,也带来了信息获取和传播方式的革命性变化。

在早期的门户网站时代,网站在信息传播中居主导地位,网站是信息汇总和发布的平台,语言信息从网站单向传播给用户。在中国,新浪、网易、搜狐等一批门户网站的首页曾是用户获取信息的大门。

此后,用户在信息传播中由单纯的阅读者越来越多地参与到信息的建设中,普通用户既是网站信息的阅读者又是网站信息的贡献者,语言信息开始在网站和用户之间双向传播,即进入了交互网站时代。wiki、百科、知道、博客等新型网站开始大量涌现。交互式网站允许用户以多种形式参与网站内容的编辑。博客网站一般允许用户在网站留言评论,网站所有者(博主)可以回复评论。以百度知道为代表的问答类网站提供了一个网友之间相互答疑解惑的平台,有相同或相似疑惑的用户可以通过其他用户的回答获得信息。交互网站逐步发展,衍生出社交网站。网站的角色彻底淡化,成为一个信息多向交互的通路,社交网站改变了之前以信息为中心的传递模式,随着以微信为代表的微型通信服务平台的出现,用户和用户之间可以直接交流观点,可以分享朋友圈的信息,彻底实现了以用户为中心的信息传递模式,语言信息传播的途径被完全打通。

(二)新资源

随着信息传播方式的演进,互联网上语言信息资源的特点也呈现出变化:从规模大到来源多、变化快。

短短数年之间,互联网就积累了海量网页,这些是语言信息处理重要的语料来源。互联网的规模有多大?恐怕很难有人能给出一个精确的数字。但可以肯定的是,互联网上所蕴含的信息已经远大于世界上所有图书馆所拥有的信息的总和。百度作为世界上最大的中文搜索引擎,抓取到的网页数量已达到千亿量级。这些海量规模的网页,本身即是信息获取的来源,同时也真实地体现了各种语言现象,基于这些超大规模的语料库,可以进行统计分析,并从中抽取语言特征和规律。

交互式网站带来的是用户生成内容,这是互联网时代的新生语言信息和资源。UGC数据可细分为三类,即知识分享数据、博客和微博数据以及社区/论坛数据。知识分享型资源,如wikipedia、百度百科等在线百科类资源,由人工编辑,相对内容准确、噪声较少,对于实体识别、信息抽取和自动文摘等语言信息化技术具有重要价值。博客/微博近年来越来越成为普通网民展示和表达自我的方式。根据2015年新浪第三季度财报,截至2015年9月30日,新浪微博月活跃用户数已经达到2.12亿人。博客/微博数据的最大特点在于其内容的个性化、主观性以及时效性。这些特点使其在语言信息处理的很多方向上可以被加以研究和应用,例如用户个性化兴趣模型的构建、博客和微博内容的个性化推荐、主观性内容的情感倾向性分析、热点事件及舆情的检测与跟踪等。社区/论坛数据内容丰富,从社区和论坛的发帖、回帖数据中可以抽取问答知识,提供问答资源的检索与推荐,或是对问答资源的数据质量进行自动评估。

(三)新问题

互联网在提供给我们丰富多样的资源和数据的同时,也提出了诸多的问题和挑战,具体体现在以下两个方面:

其一,应对快速涌现的新的语言现象,包括:新词(如“给力”“雷人”),新概念(如“80后”“啃老族”),新专名(如“筷子兄弟”“旭日阳刚”),新用法(如“粉丝”“围脖”),以及大量的网络语言甚至“火星文”等。UGC数据的膨胀催化了新的语言现象的出现,同时也给自然语言处理技术带来了很多新课题。只有准确地对新词进行切分,对新概念/新专名进行挖掘,对新用法进行统计,对网络语言进行改写和规范化,才能够满足信息抽取、机器翻译、自动问答等应用需求。

其二,数据噪声的过滤与纠错。互联网数据的一大特点是信息的质量良莠不齐,具体体现在网页数据中含有为数不少的不实新闻、虚假广告、“软文”等内容;在UGC数据中更是含有非常多的主观性内容。因此在利用互联网数据的时候应首先考虑数据内容的真实性、可信度、主观性等方面,否则便容易受到错误或不实信息的误导。此外,互联网信息中还含有很多失范现象,主要体现为错用别字、同音近音替代、表达随意、句法不规则等。这些失范现象给语言信息处理的一系列底层技术,包括分词、词性标注、句法分析等提出了难题。因此一方面需要考虑如何对不实信息进行甄别,另一方面也要考虑如何对噪声数据进行纠错和过滤。(Sun et al. 2010)

互联网时代,语言信息以惊人的速度增加,千禧年左右广为引述的一句话很好地阐释了这个时代的特征:“近30年来,人类生产的信息已超过过去5000年信息生产的总和。”而事实上,这个速度仍在加快,最新的数据显示,人类近四五年产生的信息已经超过过去5000年信息生产的总和。在浩如烟海的信息之中,如何将人们同所需要的信息连接起来就成为互联网时代语言信息化的核心目标。

二、搜索引擎

语言信息爆炸增长给用户便捷获取信息带来了严峻挑战,如何高效搜索到所需信息成为语言信息化的焦点,直接带动了搜索引擎行业的蓬勃发展。

(一)传统搜索模式

搜索引擎是指按照一定的策略从互联网上收集信息,在对信息进行组织和处理后,为用户提供检索服务,并将相关信息展示给用户的系统。互联网发展早期,以雅虎为代表的网站分类目录查询非常流行,网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。目录查询方式的效率显然远高于盲目的“地毯式搜索”,但是人工维护这样一个目录势必难以适应互联网语言信息数据的爆炸式增长。

此后,以谷歌搜索、百度搜索为代表的新一代搜索引擎推出了基于关键词的全文检索模式,搜索引擎对从互联网上收集到的网页数据进行信息提取并组织建立索引库,然后依据查询的关键词在索引库中检索出相关网页,并对网页和查询词的相关度进行评价后返回结果。大致包括以下三个步骤:

1.搜集信息:搜索引擎利用称为“网络蜘蛛”的自动搜索机器人爬取每个网页的超链接。机器人程序顺着的超链接,从一个网站爬到另一个网站,就像日常生活中所说的“一传十,十传百……”,从少数几个网页开始,沿着网页上的超链接,机器人便可以遍历互联网上的绝大部分开放网页。

2. 整理信息:搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这个过程称为“创建索引”,具体包括去除重复网页、分词、提取关键词,并使用一种名为“倒排索引”的技术建立索引库。如果信息是不按任何规则随意堆放在搜索引擎的数据库中,那么每次查找信息都得把整个数据库完全翻查一遍,这样即使是再快的计算机系统也没有用。有了索引,搜索引擎就不用重新翻查所有保存的信息而迅速定位到所要的资料。

3.接受查询:用户输入关键词进行查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户发出的查询,并根据这些查询检索索引数据库,快速找到与用户需求匹配的网页,在对网页进行相关性排序后返回给用户。目前,搜索引擎返回结果主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息,以帮助用户判断此网页是否含有自己需要的内容。

(二)现代搜索引擎

虽然基于关键词的全文搜索引擎较之早期的目录索引无论在网页数据搜集还是在用户检索效率上都有了质的飞跃,但是随着互联网海量信息的快速增长,由原来的以单一的文本信息为主发展成为文本、语音、图像等多模态的信息处理。同时,用户的需求也从关键词搜索为主的信息获取向着基于语义理解的自动问答、辅助决策等智能交互的方向发展。这对现代搜索引擎提出了更高的要求,首先由于信息量急剧膨胀,要求返回排序结果更为准确;随着搜索广度和深度的提高,要求对返回结果有汇总和聚合的能力,或者对于用户问题能够直接给出答案,实现“即搜即得”;更进一步,现代搜索引擎要能真正理解用户需求,基于用户行为实现个性化推荐和引导,即“不搜即得”。它有如下两大特点:

1. 更准确的结果排序

优质的搜索引擎返回的结果应该和用户查询具有紧密的基础相关性,此外还要考虑结果的权威性、时效性、多样性等,反映用户的个性化需求并过滤作弊结果。准确的结果排序依赖于分词、词性标注、命名实体识别、词汇重要度、词汇相关度计算等自然语言处理、机器学习和大数据挖掘技术。

由于网络语言具有碎片化及口语化的特点,要求现代搜索引擎具有更强的语义表达能力,包括拼写纠错、词干提取、繁简转换、数字格式统一、同义词发现、近义表达归一化等。例如“明天伤害的天气”,对于这个查询,纠错技术需要自动甄别出其中可能存在的输入错误:“伤害”应为“上海”。针对口语化结构灵活的用语,需要复述和改写技术,一种方法是借鉴机器翻译的思路,将查询改写看作是同一种语言间的翻译问题,将用户的冷门查询“翻译”成同义热门查询;或者通过从互联网资源中抽取复述短语(Bhagat & Ravichandran 2008),对相似意图的语句进行聚类和归一。如“请问明天上海的天气怎么样啊”是很口语化的查询,在语义上等同于“明天上海天气”这个更常规化的句子。进一步,还可以基于当前日期对“明天”进行解释,以便于精确查询。

近年来深度神经网络(DNN)技术再次获得人们的广泛关注,在自然语言处理中,主要使用DNN技术学习词汇的语义表达,即在大量语料统计的基础上,将词汇映射为一个低维连续向量,称之为词嵌入(Bengio et al. 2003)。基于词嵌入的表示方式,不仅一定程度上可以使意义相似的词具有相似的向量,还可以容易地表征词汇之间的类比关系,如果以W(“**”)表示“**”这个词的向量,则有W(“女人”)-W(“男人”)≈W(“王后”)-W(“国王”),利用词嵌入的这种属性,可以更好地对词汇之间的“相关/互斥”关系建模。同时,DNN技术可以充分利用几十亿用户的点击行为数据进行模型训练,通过自动学习获取用户查询与网页相似性特征,从而有效地提升返回结果排序的准确性。

准确的返回结果不仅指与查询语句的相似度,也包括对用户个人信息的匹配度。例如,同是“苹果”这条查询,不同用户的需求可能不同,包括水果、苹果公司、苹果笔记本电脑、苹果手机或者名为《苹果》的电影等不同的可能。每一个用户的职业、年龄、兴趣爱好等个人特征很大程度上决定了该用户预期看到什么样的搜索结果。即使是同一个用户搜索“苹果”,他想得到的搜索结果也可能不尽相同,因为用户在搜索时所处地点和状态也是影响其搜索需求的重要因素。为了使返回结果契合用户查询,需要用户建模技术,包括个性化和场景化建模。所谓个性化建模,是指针对每个人的属性(如性别、年龄等)、状态(如上学、求职等)、兴趣(如喜欢科幻电影、摇滚音乐等)、消费习惯(如经常购买电子产品等)等方面建立模型。例如,“中学生”在搜索引擎的查询中常会出现“试卷”“成绩”“考试”等关注点,“大学生”的查询里面常会出现“考研”“四级”“简历”等关注点,“上班族”的查询里面常会出现“搜房”“税率”“人事”等关注点。场景化建模则是指针对时间、地点、上下文语境甚至输入终端等条件建立模型。只有准确全面地了解用户信息,才能正确理解用户的意图、预测用户的行为,从而提供准确匹配用户需求的搜索结果。

2. 更直观的答案展示

对于现代化搜索引擎的另一个要求是,不应当只是给出搜索结果列表,让用户自己从中查找想要的信息,而是要做到真正理解用户问题,直接给出答案,找到服务。在这个需求驱动下,一种称之为知识图谱的关系网络应运而生。知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的标识符来标志,用属性—值对来刻画实体的内在特性,用关系来连接两个实体并刻画它们之间的联系。知识图谱的构建通常从包括百科类数据在内的多种数据源分别获取候选实体及其属性信息,从网页和文本中抽取两个实体间的关系(Banko et al. 2007)。知识图谱的构建依赖于实体识别、实体对齐、属性归一化等自然语言处理技术及远距离监督学习等机器学习技术。

当用户查询与一个命名实体相关的问题时,基于构建好的知识图谱,可以通过卡片等特殊形式展现问题中涉及的实体及其各种属性。例如,用户询问“火车是谁发明的”,搜索引擎直接返回答案“斯蒂芬森”及其别名、国籍、出生地、出生日期等相关信息,给用户以更加直观的满足。

图1 “火车是谁发明的”搜索答案

此外,知识图谱还可以赋予搜索引擎简单的推理计算能力。比如,查询“180以上的男明星”,可以推测出这里的“180”是指人的身高,并据此搜索图谱中所有身高在180cm以上的男明星,给出符合问题的答案集合。

是非型问题,如“宝宝能吃海参吗”“羽绒服能不能水洗”,以及观点类问题,如“宝宝打嗝儿怎么办”“红烧肉怎么做”等,是知识图谱不擅长的,此时需要深度问答技术。深度问答技术在自动分析问句需求和类型的基础上,利用搜索技术从网页中自动挖掘到一批候选答案,之后过滤、计算每个答案的相关性分数和可信度,最后排序输出可信度高的答案。其中不仅需要搜索结果聚合技术,还涉及自动文摘技术。例如,询问“wifi密码怎么改”,搜索引擎可以查找到“百度知道”中含有的相关答案,并对答案进行整理和摘要,基于汇总的结果生成步骤式的可读性强的答案。

3. 更高效的用户引导

现代搜索引擎,除了根据关键词相关性排序返回结果列表,还应具有查询引导机制,即根据用户信息和搜索历史,推荐相关高质量的查询给用户,引导用户浏览相关内容,让用户更快地得到所求。

高效的推荐引导,往往充分利用大数据挖掘技术,根据用户过往的搜索会话和点击日志等预测用户的关注点,准确扩展出与用户输入搜索意图相似或相关的高质量查询,引导用户进行新的搜索。例如,搜索“青藏高原”后,百度搜索识别出这是一首李娜的歌曲,猜测用户对李娜的歌曲感兴趣,则在主页面的右侧醒目地推荐“李娜的热门歌曲”,引导用户继续点击。而当用户搜索“小威”的时候,右侧也会推荐“李娜”,但这次推荐的不是歌唱家李娜,而是网球明星李娜,这是依靠大数据实现的实体消歧技术。此外,每个推荐实体的下面都会有一行灰色的小字,称为“推荐理由”,目的是给用户呈现更丰富的信息,同时也可以增加吸引力,让用户对推荐的内容更感兴趣。

推荐引导不仅可以在搜索完成后,还可以贯穿在用户查询操作的过程中,即用户已经开始在搜索框中输入关键词但输入还未完成的阶段。此时最常采用的方式是使用suggestion(简写为sug)的方式,结合用户当前输入,向用户推荐完整的高质量查询。优质的sug,需结合用户输入的上下文动态变化,例如用户在前一个查询中输出了“百度股价”,之后再输入“谷歌”时,根据上下文预测用户查询的是“谷歌股价”,并将其列在sug的首位;而如果用户前一个查询是“百度翻译”,则再次输入“谷歌”时,sug的首位则变为“谷歌翻译”。此外,还有“点击后推荐”,即当用户点击后回到搜索结果页时,在用户点击过的结果下为用户推荐相关查询。“上翻推荐”,当用户上翻搜索结果页时,随着用户上翻网页的同时,向用户推荐相关查询。还有更为醒目的通栏“浏览式引导”等。这些都为提升用户体验、激发用户需求、加速信息传递和获取的效率提供了很好的手段。

回顾互联网的发展历程,搜索引擎不愧为其中发展最为迅速的领域之一,如今,提供多语言搜索服务的谷歌公司的市值已突破5000亿美元,仅次于苹果公司位列全球企业第二。在中文搜索市场上,百度则一直独占鳌头,每天响应着来自世界上100多个国家和地区的几十亿次搜索请求。毫不夸张地说,没有搜索引擎,也就没有互联网的今天。

三、机器翻译

机器翻译综合多种语言的词法、句法、语义分析和生成等技术,一直被公认为自然语言处理研究最难的课题之一,也是人工智能领域的终极目标之一。同时,机器翻译又有着广阔的应用场景,可以带来丰厚的经济效益和社会效益。

(一)发展简史

早在计算机诞生之时,美国洛克菲勒基金会副总裁W. Weaver就提出并和英国工程师A.D.Booth讨论过利用计算机进行语言自动翻译的想法。1954年1月7日,美国乔治敦大学和IBM公司在IBM701上进行了第一次机器翻译试验,真正标志着机器翻译在人类历史上的出现。在中国,1956年机器翻译被列入中国科学工作发展规划。1957年,中国科学院语言研究所与计算技术研究所正式合作开展俄汉机器翻译试验,这可以说是中文信息处理的第一项工程。此后,机器翻译经历了20世纪50年代到60年代前半期不断上升的发展期,到1966年,美国科学院语言自动处理咨询委员会(简称ALPAC委员会)公布了一个题为《语言与机器》的报告,该报告全面否定了机器翻译的可行性,机器翻译发展陷入了停滞期。直至70年代中期,各国科技情报交流日趋频繁,计算机科学、语言学研究特别是计算机硬件性能大幅度提高,驱动机器翻译研究逐渐走向复苏。这一时期,机器翻译技术以基于规则的方法为主,在“中间语言”模式的基础上进行源语言分析和目标语言生成方法的探索(董振东 2000)。

进入90年代,商业和信息的全球化使得对翻译的需求空前增加,机器翻译进入快速发展的时期。在中国,随着中软公司率先推出“译星”翻译软件,“雅信”“通译”“华建”“东方快译”等产品相继上市,实现了机器翻译的产品化和商业化。这时的机器翻译研究被新兴的基于语料库的方法向前推进着,由IBM公司研究人员提出的统计翻译模型替代基于规则的方法成为主流,此外,日本著名的机器翻译专家长尾真提出的基于实例的机器翻译方法也具有比较广泛的影响。在翻译形式上,除了自动翻译,还出现了更贴近实用化的计算机辅助翻译工具,比如Trados公司的Translator Workbench,国内交大铭泰公司的雅信CAT系统等。这些系统融合了文本处理和出版软件、术语管理以及翻译记忆库等,可以辅助专业翻译人员提高工作效率,对传统语言翻译产业产生了极大的冲击和影响。

(二)互联网机器翻译

随着互联网的发展和经济全球化时代的到来,克服语言障碍、实现跨语言自由沟通的需求日益凸显。网络时代对机器翻译技术提出了新的挑战:(1)互联网数据规模和翻译需求的激增,导致翻译系统计算负荷加重;(2)互联网数据复杂多样,语言资源噪声大,领域分布不均,大多数小语种语言数据稀缺,翻译知识获取困难;(3)语言歧义现象多,语义理解困难,难以构建高质量翻译系统。

在这样的背景下,2010年初,百度组建了机器翻译团队,研发基于互联网大数据的机器翻译系统。2011年6月30日,百度机器翻译服务正式上线,经过几年的不懈努力,不断实现机器翻译领域技术难题的突破:(1)构建了基于互联网大数据的分布式机器翻译模型,快速响应高负荷翻译需求;(2)将百度最先进的搜索技术与翻译技术相结合,基于网页检索、网站权威性计算、大数据挖掘、新词侦测等技术,从海量的互联网网页中获取高质量翻译知识。同时提出了基于“枢轴语言(pivot

language)”的机器翻译模型,攻克了机器翻译中小语种覆盖和语言快速迁移的难题;(3)2015年5月,百度上线了世界上第一个基于深度学习的大规模线上机器翻译系统(He et al. 2016),并结合百度已有的多种主流翻译模型,包括传统的基于规则、基于实例、基于统计等翻译策略,发挥多种方法的各自优势,减少语言语义歧义,大幅提升了翻译效果。目前百度翻译可支持汉语、英语、西班牙语、日语、韩语、法语、俄语等27种语言,702个翻译方向,每天响应近亿次的翻译请求,在全球拥有超过5亿的用户。百度翻译语种目前已覆盖全球超过88%的国家和地区,惠及47亿世界人口。机器翻译技术的突破为人们生活带来各种便利,小到出国旅游、科技文献翻译,大到国际贸易、跨语言文化交流,用户可以通过百度机器翻译,解决衣食住行中遇到的各种语言难题。

此外,百度还通过开放API(应用程序编写接口),支持了华为、金山、OPPO、敦煌网等上万家第三方翻译应用,有力地提升了中国企业的开放创新能力,带动了相关产业的繁荣与发展。2015年,百度与中科院自动化所、中科院计算所、浙江大学、哈尔滨工业大学和清华大学共同研发的“基于大数据的互联网机器翻译核心技术及产业化”项目,凭借最广泛的全球使用人群及其实用价值,荣获了国家科学技术进步二等奖。

机器翻译研究已走过半个多世纪历程,人类对机器翻译的探索和渴求始终没有停止过。兼通文理、统合技术与艺术的学科魅力吸引了无数的研究者献身其中;促进跨语言交流的显著作用和巨大的应用价值吸引了大量的机构投资其中。互联网的普及和广泛应用进一步推动了机器翻译技术和产品的发展。现代机器翻译技术和产品正在逐步改变人们的工作、生活以及国际交往,并服务“一带一路”国家战略,让世界各地的人们自由交流,在全球范围内获取资讯和服务,创造显著的经济价值和社会效益。

四、理解语言,拥有智能

根据第36次《中国互联网络发展状况统计报告》,截至2015年6月,中国互联网普及率为48.8%,网民规模达6.68亿,其中手机网民规模达5.94亿。这标志着中国已经进入了移动互联网的时代。由于移动设备屏幕更小,键盘输入不够便捷,对使用文字以外的符号,如语音、图片等多模态的人机交互方式的需求越来越显著,特别是使用语音交互的方式逐渐普及。得益于深度学习技术在语音识别及合成中取得的成功,以及互联网所能提供的海量语音及文字数据,语音技术的效果得到了迅速提升,并已广泛应用于各类互联网产品中。根据《2015中国智能语音产业发展白皮书》,2015年全球智能语音产业规模达到61.2亿美元,其中语音领域的传统龙头企业Nuance的市场份额在迅速下降,而谷歌、微软、苹果、百度、科大讯飞等公司的语音技术及产品则迅猛发展。借助语音交互技术的语音助手、智能车载、智能家具和可穿戴设备的应用将变得越来越普遍。

无论是搜索引擎还是机器翻译,其使用场景和交互手段都朝着多模态、多维度的方向发展,用户的需求则朝着基于内容的语义理解和基于用户理解的智能交互和个性化服务的方向演变。例如,百度翻译不仅集成了语音识别和合成,还集成了文字识别和图像识别,这样中国人在国外的餐馆点餐时,就可以对外文菜单上的文字进行识别和翻译,也可以对手机拍的照片中的食物进行识别和翻译。随着手机以及智能眼镜、智能手表等可穿戴设备的普及,用户可以随时随地用各种方式发起搜索请求。更加智能化拟人化的交互手段和服务方式,比如多轮对话和智能机器人,开始占据越来越多的比例。

继谷歌在今年I/O大会上公布了智能即时通信应用Allo,全球几大科技公司陆续推出了各自的虚拟助理,包括苹果Siri、微软小冰 & Cortana、百度度秘等。这些虚拟助手各有特色,Siri主打智能语音与硬件控制,可以看作 iPhone/iPad/Mac 的贴身小管家;Cortana 背靠微软 Wndows 操作系统,扮演着办公室助理的角色,而小冰更像一个呆萌的少女,擅长卖萌聊天;Allo 中内置的 Google Assistant可以看作Google Now的升级版,植根于谷歌强大的个人账号体系,主打服务的强个性化;而度秘则根植于百度搜索及O2O战略,致力于更好地连接人与信息、人与服务。

从搜索引擎到问答系统、再到虚拟助手,语言信息化技术和产品正朝着人性化和智能化的方向不断演进,这得益于计算机和移动互联设备的不断革新,云计算、大数据处理能力的不断增强,自然语言处理、语音图像技术的不断进步。近年来,深度学习技术在视觉、听觉以及围棋博弈等领域都展现出了无坚不摧的能力。在机器翻译等自然语言处理任务中,虽然深度学习也比过往各种方法都行之有效,但对比在识别领域中取得的显著成效不免相形见绌(Manning 2015)。这是因为文本理解与语音图像的模式识别有着本质区别,语言作为知识的载体,承载了复杂的信息量,具有高度的抽象性,对语言的理解属于认知的范畴,不能仅靠模式匹配的方式完成。另一方面,深度学习采用的层次结构从大规模数据中自发学习的黑盒模式是不可解释的,即知道是什么,却无法解释为什么,然而以语言为媒介的人与人之间的沟通应是建立在相互理解的基础上的。

归根到底,语言信息处理技术不应该只聚焦于数据模型的能力,更应该关注语言和认知本身的问题,例如:如何系统化地表示语言的习得和变化规律;是否存在适用于人类各语种的通用的抽象语义结构;能够对个体类别进行抽象泛化的基本概念的范畴和力度是什么;适于进行推理计算的常识知识应如何进行表示等。尤其是句法分析标准、语义结构规范、知识表示方式,它们是计算机理解自然语言和实现智能化的基础。这些问题一方面需要对大量真实语言现象进行统计和总结,一方面也需要传统语言学工作者在理论上进行探索,予以引导。

面向智能化的语言信息处理技术的发展,势必要借助于语言学、计算机科学、数学、脑科学和认知科学等多学科的共同促进,才可能实现计算机与人之间自然高效的交流。“理解语言,拥有智能,改变世界”,是语言信息化技术和产业发展的终极目标,即让计算机理解人类的语言,打造真正拥有智能的产品,最终改变人们的生活,构建和谐美好的世界。

参考文献

董振东 2000 《中国机器翻译的世纪回顾》,《中国计算机世界》第1期。

Banko, Michele, Michael J. Cafarella, Stephen Soderland, Matt Broadhead, and Oren Etzioni. 2007. Open Information Extraction from the Web. Proceedings of IJCAI, 2670-2676.

Bengio, Yoshua, Réjean Ducharme, Pascal Vincent, and Christian Jauvin. 2003. A Neural Probabilistic Language Model. Journal of Machine Learning Research 3(6), 1137-1155.

Bhagat, Rahul and Deepak Ravichandran. 2008. Large Scale Acquisition of Paraphrases for Learning Surface Patterns. Proceedings of ACL, 674-682.

He, Wei, Zhongjun He, Hua Wu, and Haifeng Wang. 2016. Improved Neural Machine Translation with Smt Features. Proceedings of AAAI Conference on Artificial Intelligence.

Manning, Christopher D. 2015. Computational Linguistics and Deep Learning. Computational Linguistics 41(4), 699-705.

Sun, Xu, Jianfeng Gao, Daniel Micol, and Chris Quirk. 2010. Learning Phrase-Based Spelling Error Models from Clickthrough Data. Proceedings of ACL, 266-274.

责任编辑:刘玥妍

猜你喜欢

机器翻译搜索引擎
互联网+新时代下人机翻译模式研究
“语联网+行业” 助力中国伟大复兴
大数据背景下石油科技翻译
大数据背景下石油科技翻译
机器翻译不可盲取
基于免费在线翻译工具的机器翻译缺陷探讨
汉哈机器翻译中的文字转换技术研究
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发