APP下载

“人工智能+媒体”的实践与展望
——以“中国搜索”为例

2019-06-06李玉垒欧阳明

传媒 2019年9期
关键词:机器人人工智能内容

文/龙 飞 李玉垒 欧阳明

党的十八大以来,习近平总书记把创新摆在国家发展全局的核心位置,并在不同场合多次谈及人工智能的重要性与发展路径。在2014年和2016年召开的两院院士大会上,习近平总书记都提到了人工智能的迅猛发展。2017年,中国共产党与世界政党高层对话会上,习近平进一步强调人工智能的重要性,指出互联网、大数据、人工智能的迅猛发展使得人类生活的关联前所未有。在媒体领域,人工智能技术也在发挥着越来越重要的作用。从内容的产生,到内容的分发,再到媒体平台的建设,人工智能已经极大改变了信息的内容与传播模式。

人工智能的媒体应用与中国搜索

人工智能的概念诞生于1956年的达特茅斯会议,迄今为止,人工智能总共经历了三次发展热潮,第三次热潮以深度学习的提出为标志。2012年,深度学习之父Hinton的博士生Alex Krizhevsky将深度学习技术应用于图像识别,一举在ImageNet大规模图像识别挑战赛(ILSVRC)中夺魁,并完败第二名,将Top5错误率由26%大幅降低至15%,震惊了学术界。人工智能真正引起世界范围内关注的事件是2016年3月,AlphaGo以4:1的成绩战胜世界顶尖棋手李世石。新华社产品研究院副院长李俊认为,这标志着人工智能技术的发展进入全新阶段。自此,人类智慧的最后堡垒被攻破,人工智能也如水银泻地般渗透入人们生活的各个领域。

众所周知,视频、语音、图片、文字是人工智能四个重要的应用方向,其中图片和文字为媒体中重要的构成要素,分别对应了人工智能的两个重要分支:计算机视觉和自然语言处理,由于在技术实现中,视频一般转化为图片处理,所以计算机视觉和自然语言处理技术可以满足媒体的绝大多数需求。对媒体来说,内容建设和媒体平台建设同样重要。内容建设包括内容的产生、分发、反馈的闭环,对中国搜索来说,内容安全也是内容建设的重要部分。对于媒体平台建设来说,一般要求媒体具有互动性、易用性、趣味性和个性化。中国搜索正是沿着计算机视觉和自然语言处理两大技术路线精耕细作,为内容建设和平台建设提供技术支撑。内容和平台的关系可以比作酒与器,好酒需配好器,好器应盛好酒。只有酒香器贵,媒体才会有影响力,传播才会有好的效果。

中国搜索(简称“国搜”,www.chinaso.com)是由中央七大新闻单位——人民日报、新华社、中央电视台、光明日报、经济日报、中国日报、中国新闻社联手打造的国家级互联网高新企业。中国搜索具有媒体和技术的双重基因,一直致力于使用人工智能技术为媒体提供技术支撑和引领。

中国搜索在内容建设方面的实践

如上所述,内容建设包括内容的生产、分发、反馈和安全。在这四个方面,中国搜索利用人工智能技术都进行了实践。

内容生产。利用人工智能技术进行内容生产由来已久。早在2010年,芝加哥一家领先的自然语言生成企业级服务公司Narrative Science开发出一款高级自然语言生成平台QuillTM,该平台可自动将数据转化为智能的描述。2014年7月,美联社开始使用WordSmith进行财报类新闻的写作。数月之内,其专业程度已经超越了人类编辑。2016年8月,华盛顿邮报开始使用机器人Heliograf来进行里约奥运会的报道,一年间共写作850篇新闻,其中关于美国大选的500多篇报道收获了50余万的点击。国内媒体紧随其后,2015年后,腾讯财经的Dreamwriter,今日头条的xiaomingbot,新华社的“快笔小新”,第一财经的“DT稿王”都属于智能写稿机器人。至2017年两会期间,全国共有12家媒体推出15款智能新闻机器人参与报道。

虽然机器稿件距离有思想、有深度的人类稿件还有一定的距离,但其在体育、财经、自然灾害等稿件规律性很强的领域内可大大节约人力成本。有鉴于此,中国搜索于今年启动了“基于人工智能技术的突发事件融媒体报道生成系统”项目,该项目从海量的微信公众号、微博中监测突发事件,并自动生成合乎规范的报道。系统意在帮助媒体抢到新闻“第一落点”,同时辅助做好“第二落点”的相关报道,包括数据采集、智能识别、报道生成和数据呈现等子系统。首先,通过爬虫系统对可能发布突发事件原始消息的微博和微信公号进行监测,并采集数据;其次,通过深度学习方法识别其是否为谣言,并判断其是否属于突发事件;随后,使用机器学习模型提取突发事件的特征信息,并自动产生成报道;最后,对突发事件进行可视化呈现。

突发事件融媒体报道生成系统涉及的突发事件主要包括自然灾害、社会安全事件、群体性事件和交通事故等,这些事件都需要进行快速响应,而目前的媒体响应时间往往在数小时之后。同时平均约有7.87%的突发事件中曾出现谣言,这些都给突发事件的报道造成难度。该系统利用人工智能技术,提升了响应时间,保证了数据质量,是人工智能技术在内容产生环节的实践。

内容分发。人工智能技术,特别是推荐引擎技术的出现为内容分发模式带来了巨大改变。之前的内容分发模式为媒体选稿受众看,内容千人一面;推荐引擎出现后,分发模式变为受众阅读,机器分析,算法推荐,内容千人千面。今日头条的推荐模式获得成功后,个性化智能推荐已成为国内乃至印度、日本等国新闻类APP的主流模式。据路透研究院2017年研究报告显示,已有54%的受众倾向于算法为其选择阅读内容。中国搜索利用人工智能技术和积累的用户数据,为其移动端量身打造了推荐引擎,并具备了对外技术输出的能力。

内容反馈。在互联网时代,用户对内容的反馈至关重要。一篇文章只有被阅读、点评、转发,它的影响力才能真正得到体现。《赫芬顿邮报》的创办者保罗·贝里曾经说过:“在《纽约时报》,报道一旦被刊登,记者和编辑的工作便完成了,而在《赫芬顿邮报》,报道刊发后,它的生命才刚开始。”这句话充分体现了纸媒与互联网媒体的区别。在互联网时代,内容的质量更直观地反映在稿件的浏览数、回复数、转发数和评论数等指标上,人工智能技术利用这些指标可以很好地预估内容的影响力,并帮助编辑改善内容。

《纽约时报》研发的Blossom正是这样的机器人。Blossom通过对社交平台上的海量文章进行大数据分析,预测什么类型的内容更具热度,以帮助编辑挑选合适的推送素材。据统计,经Blossom挑选后的文章可收获普通文章38倍的点击量。受Blossom机器人启发,中国搜索也研制了自己的内容热度预测系统。该系统以网易新闻20周内的2.5万条新闻为训练数据,抓取了新闻的标题、内容和点击数,利用集成学习的方法预测文章在未来24小时的可能热度,得到了80%以上的准确率,高于当前同类技术的预测精度。随后,该系统又以新华社客户端2万余条数据进行验证,得到了类似的结果。该系统可用于文章在不同平台影响力的预估,相关成果已经发表在第三届智能科学国际会议ICIS2018上。

内容安全。对于媒体单位来说,内容安全无疑是重中之重,营造清朗的网络空间是媒体单位的共同责任。中国搜索利用人工智能技术开发了内容安全过滤系统,可对黄色、污秽、危害国家安全的内容进行自动识别,保证内容的安全。其中值得一提的是中国搜索研发的人脸识别系统,采用生成对抗网络模型,提升了人脸在低分辨率、侧脸等情况下的识别精度,已经成功嵌入中国搜索内容管理系统CMS,用于敏感人物筛查。

中国搜索在媒体平台建设方面的实践

对于媒体平台来说,其承载内容的质量固然重要,平台自身的建设也不可忽视。在对国内外若干成功的媒体平台进行调研后,笔者所在的调研团队认为,成功的媒体平台基本具有互动性、易用性、趣味性和个性化的特点。中国搜索利用人工智能技术为打造这些特点进行了不懈的实践。

利用人工智能技术打造互动性、趣味性的平台。媒体平台的交互性和趣味性是平台成功的重要因素。Facebook在2016年4月的F8大会上公布了Facebook Messenger聊天机器人计划,允许各大媒体在其平台上构建定制化的聊天机器人。CNN、BBC和《华尔街日报》等媒体随后入驻,各大媒体的聊天机器人可根据用户的问题智能回复,如CNN的聊天机器人可根据用户提问的关键词回复当日的头条新闻。近年来,国内一些媒体的客户端也推出了聊天机器人功能,如光明日报客户端的“小明AI两会”机器人,以40多万篇历年两会报道为语料,“小明”可以准确回答用户提出的关于两会的问题。除了聊天机器人外,某些基于人工智能的小游戏也能极大提升平台的互动性,让用户乐在其中。比如,《人民日报》在2017年7月大阅兵期间推出的 H5小游戏《我的军装照》,推出后反响极好,短短数日就收获了超过10亿的页面浏览量(PV),使得用户在游戏中了解我军的发展历史。

中国搜索十分重视利用人工智能技术打造平台的互动性和趣味性。早在2015年,中国搜索就上线了基于深度学习的国搜识图频道。该频道使用深度学习模型可精确识别出将近2000类物体。以此为基础的车型识别应用程序,可识别出市场现有的670余种车型,前五命中率达到90%以上。中国搜索的图像识别技术可以扩展至任意垂直领域,嵌入APP或网页中,与用户进行互动。

与《我的军装照》应用类似,中国搜索也开发了自己的趣味应用——“换脸”。利用面部特征提取、特征对齐、色彩均衡和面部融合等技术,将用户的头像换到任意明星照的头部。该技术可完成与军装照相似的功能,并可拓展至其他应用,而对计算资源的要求较低(军装照使用了腾讯提供的超过4000台的图像处理与后端服务器),因此可以较低的成本进行部署。“换脸”的实例如下图所示,左图为明星图、中图为用户图、右图为合成图。

图 中国搜索开发的趣味应用——“换脸”实例

除此之外,中国搜索还研发了作诗机器人“小师”。该机器人学习了5万余首古诗,利用文本生成技术,根据用户提供的主题进行作诗。经过训练,“小师”的作诗水平已经接近有一定诗词功底的人类。以下是“小师”以长江为题材,做的几首诗。

之一:夜泊浦口

帆樯入浦口,星月悬江中。

影落舟中响,思越波涛汹。

之二:江晚

江海千寻琉璃土,紫霞红树倚苍苔。

水边烟瞑飞云远,日月中宵望月来。

之三:帝里

江鸥惊飞翔帝里,金鞭南北望乡关。

水滨夜渡月摇海,月照山头草色间。

以上这些人工智能小应用如嵌入媒体平台中与用户交互,必定可提升平台的趣味性,从而增强媒体平台的影响力。

利用人工智能技术打造个性化、易用的平台。媒体平台的个性化和易用性也是影响其质量的重要因素。对于中国搜索来说,搜索质量是凸显其个性化和易用性的重要指标。为了更准确地帮助用户找到其所需要的答案,中国搜索着力打造智能搜索引擎。“智能搜索”是连接人与信息,人与服务的搜索引擎。需要利用语义理解、意图识别等技术对用户的搜索目的进行准确的判断,如男人搜Mac很可能是想了解苹果电脑,而女人搜Mac很可能是想了解魅可化妆品,使得搜索服务成为方便易用的个人助手,提升用户黏性。此外,为了方便国际能力传播建设,中国搜索已着手搭建自己的翻译引擎。尝试了神经机器翻译模型(NMT)和基于短语的机器翻译模型(PBMT),目前已经基本具备中英双语翻译能力。

结语

中国搜索将继续利用自身在人工智能方面的技术积累,寻找技术在媒体中的应用点。着眼用户需求,在垂直领域深耕细作,以技术促进内容建设、以技术加速平台发展、以技术深化用户服务。在自然语言处理方向,加强对机器翻译、情感分析、文本分类、语义理解等技术的研发。在计算机视觉方向,加强对图像语义理解、视频摘要、人脸识别等技术的研发。除此之外,还需要探索建立匹配主流媒体的主流算法体系和数据标准。以期将中国搜索建设成为导向正确、内容健康、方便实用的媒体平台。

猜你喜欢

机器人人工智能内容
内容回顾温故知新
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!
主要内容
机器人来帮你
认识机器人
机器人来啦