产学研合作路径下网红“Xiaomingbot”的前世今生——专访今日头条实验室技术总监李磊博士
2016-11-18刁毅刚,陈旭管
产学研合作路径下网红“Xiaomingbot”的前世今生——专访今日头条实验室技术总监李磊博士
“Xiaomingbot”是自动创作、辅助创作的一部分
《中国传媒科技》:里约奥运会之际,今日头条推出了“Xiaomingbot”写稿机器人,凭借其优异的表现引起了市场和用户的高度关注,推出这款产品的初衷是什么?
李磊:今日头条是一个基于大数据与人工智能的内容创作与分发平台,一边是内容创作者,另一边是读者,连接两边的是人工智能推荐算法。内容创作是其中的重要部分,我们希望能够通过技术来帮助更多的内容创作者和新闻工作者更好、更快地创作高质量内容。“Xiaomingbot”是内容自动创作或者说是辅助创作的一部分,我们希望“他”能够作为记者采编工作的补充。与此同时,我们也希望“Xiaomingbot”创作的内容是读者们希望看到的。
《中国传媒科技》:“Xiaomingbot”在奥运期间的表现如何?
李磊:整个里约奥运会赛季,“Xiaomingbot”撰写的稿件赢得了一百多万的阅读量,平均阅读率接近整个奥运会期间体育频道的阅读率,甚至还略高一点。从用户浏览量来看,机器创作出来的新闻与人写出来的新闻持平,令人惊喜。这也说明Xiaomingbot创作出来的简讯和资讯与记者写出来的可读性差距并不大。
技术先行,前沿研究驱动产品
《中国传媒科技》:在创造“Xiaomingbot”的过程中,都有哪些人员参与其中?
李磊:传统意义上的产品开发流程是先由产品经理做调研,确立了产品开发方向之后,再与技术人员合作,最后将需要的配套资源加上去。然而“Xiaomingbot”的研发成型是纯技术驱动的,最开始由头条实验室发起,我们的研发人员与北大万小军教授团队都在做文本生成技术,我们具备共同的兴趣和目的,因此我们在技术上有了合作。此外,参与“Xiaomingbot”产品研发工作的,除了头条实验室的研发人员外,公司内部还有体育频道运营人员负责与奥组委对接拿到实时数据;内容运营部门的同事帮助改进机器人稿件的“写法”;头条学院也提供了很多帮助,早期由他们试读“Xiaomingbot”的文章,并提出修改意见。整个过程得到了多方面配合,产品在启动后两周内就上线了第一个版本,然后不断快速迭代,奥运会之后又做了升级,直到现在看到的这个版本。
如果仔细阅读,你会发现从8月6日开始到现在Xiaomingbot生成的新闻内容是不断优化的。因为算法在不断改进,特别是文本生成算法做了比较大的升级,从一开始无配图、篇幅较短的简讯到后面篇幅可长达千字且智能配图的资讯出现,期间进行了大量技术创新和产品升级迭代。
《中国传媒科技》:整个研发过程大概有多久?
李磊:前期有较长时间的研发积累,这个时间大概有大半年。但是真正的产品化过程很快,从7月22号开始到奥运会第一篇新闻发出来大概用了十几天时间。
《中国传媒科技》:目前“Xiaomingbot”做了哪些技术改进,现在从事什么工作?
李磊:里约奥运会结束后,我们又研发了一项新技术,即根据时间线做赛事描述。比如,足球比赛的时间比较长,中间精彩的点很多,射门、犯规等动作都可以被捕捉到,结合一部分网上的文字直播,最后根据比赛进程来进行总结归纳。现在,“Xiaomingbot”在跟进报道欧洲的足球联赛、五大联赛,阅读率都还不错。以后,我们希望把他做得更加通用。不过这存在两方面困难,一方面是数据来源问题,体育数据比较理想,其他领域如社会新闻、娱乐新闻等未必会有比较适合的数据;另一方面是技术困难,“Xiaomingbot”应用的文本生成技术还有很多进步的空间,未来我们希望可以做到专业记者的写作水平。
《中国传媒科技》:据一些技术媒介评价,“Xiaomingbot”是领先的第二代机器人,您是否认同这个判断?
李磊:我本人没有做过断代的判断。我理解媒体所说“第二代”的原因可能是与腾讯、《华盛顿邮报》等同时期机器人之间的区别,后两者写稿机器人的主要应用技术是模板生成;所谓模板生成就是先写一个框架,里面有一些空白部分,像填空一样把时间、地点、结果和过程数据填进去;这种方法相对简单,但问题在于很难写得生动。我们的写稿机器人也应用了这项技术,但是除此之外,我们还采用了刚研发出来的新技术,能够生成长篇幅新闻。机器人通过获取网上的文字和讨论,将其总结归纳成为一个相对长的赛事描述,同时还可配图。从这一点来说,相比之前的写稿机器人,语气上更加人性化,信息元素更丰富,更具可读性。
《中国传媒科技》:您认为未来新闻机器人还有哪些研发趋势,是否有可能做一些突发性报道或者灾难性报道?
李磊:我认为是非常有可能的。做这一类新闻首先需要一些数据,像灾难性事件都会在微博或者其他社交网络上出现得比较快,比如天津发生爆炸事故时,微博上第一时间就出现了很多线索,在早期就可以整理出来形成报道。所以在数据获取上比以前更容易;同时还需要的技术是能够总结归纳,把很多人在微博上发的片段,甚至图片梳理起来变成通顺的文章。这些现在是由人完成的事,未来可以由机器人去做。
《中国传媒科技》:基于UGC信息做总结归纳,是否会造成时间上的滞后?
李磊:“Xiaomingbot”写作从生成到发布再到读者在feed流看到,整个过程平均2秒左右完成。未来的发展瓶颈并不在生成的环节,而是在数据采集环节。数据采集有多快,新闻生成就有多快。
《中国传媒科技》:机器人实现观点性报道或深度报道大概会需要多久的时间可以实现?
李磊:在某些特殊的限定领域,如娱乐类新闻实现这个目标可能相对较快,在通用领域还需要比较长时间。
两大方向
《中国传媒科技》:未来观点性的自动写作、深度写作,也是要按照领域去实现,是这样一个路径图吗?
李磊:两个方向,一个是按照领域,另一个是按照具体技术。目前“Xiaomingbot”比之前有一些进步,是因为我们有了一些技术可以生成长篇幅新闻,但还不足以实现生成深度新闻。我们需要研发更多技术,使机器人更具理解力,能够阅读历史新闻,理解新闻事件的来龙去脉并梳理出来,就像记者搞调研一样。
《中国传媒科技》:未来新闻机器人的研发难点是什么?
李磊:现在能够做到的是事实类新闻的报道,比如一场比赛谁参加了、比分多少,能够讲得比较清楚;还可以根据用户的评论生成文字,讲述也比较生动。但困难的是观点类的新闻,如分析美国大选,每个人的观点怎样、对政治观点进行评价,这就比较困难了。另外,在体育比赛中,分析球员打得怎么样、是否发挥出优势,目前这些评价比较难以做到,是需要我们未来研发的技术方向。
模板文本生成+摘要式生成
《中国传媒科技》:目前,市场上有一些机器人写稿的产品,那么今日头条的产品特色是什么,是否有向其它新闻机构推广该项技术的打算?
李磊:首先我们在技术上用了依据句法结构的模板文本生成技术和最新研发的摘要式生成技术,技术上是比较领先的;其次,我们的写稿机器人既能够生成短的简讯,也能够生成比较长的资讯;第三,头条拥有庞大图片类资源,写稿机器人可以自动地为新闻配上图片,使报道图文并茂。
二是实施组织优化方略,推进水资源一体化管理。鉴于水资源的流动性、循环性和基础性等特征,将隔断的水连接起来,推进涉水事务一体化管理。基于流域水资源合理配置,完善流域一体化管理;按照统筹城乡、以城带乡的要求,积极推进城乡供水统筹管理。加强水管理部门内部、水管理部门同环保、城建等部门的协调,进一步提高水资源管理的一体化水平,从短期来看,推进建立水资源统一管理机构;从长期看,建立资源环境一体化管理机构,从根本上改变水资源管理分散和割裂的局面,改善水资源的总体功能。
如果有(推广)需求的话,写稿机器人完全可以形成一个产业,但我们还是要说明写稿机器人的目标并不是取代记者,而是帮助记者更快、更好地采编。
准确率可达75%
《中国传媒科技》:据观察,头条实验室即将推出自动问答机器人,该款产品将于何时发布,回答的准确率如何?与微软小冰等同类产品相比有哪些不同?
李磊:头条已经掌握自动问答技术,在今年的国际计算语言学大会(ACL2016)上,我们发表的论文介绍了这项技术,但距离产品化还需要一些时间。我们希望把这个技术做得更通用一些。因为我们今年研发的这个技术是针对事实类的问题可以做自动回答。比如说:你问《北京折叠》是谁写的,机器人可以回答出来是郝景芳。不过回答像过程类问题,如红烧肉怎么做;观点类问题,你对什么事情有什么看法;以及解释性问题,比如,宇宙的外面是什么等等还是非常困难的。
目前看来,我认为技术上需要突破的还有很多。做问答最常用的技术是搜索技术和基于神经网络知识库的问答技术,我们用的是后者。
未来如果需要回答更多的过程性、解释性和观点性问题,机器学习、自然语言理解方面的技术还需要做很多突破。自然语言理解和生成,一方面需要对其进行理解,到底问的是什么意思;另一方面需要用人类的语言写出来,这就是自然语言生成。
头条问答机器人测试的准确率是75%,这是第三方的公开数据,一共有10万个问题和答案,其中7万拿来作为机器人的训练学习,剩下3万用来做测试,测试出来的结果表明数据准确率是75%,在我们之前做的最好的是Facebook,他们的准确率是62.9%,我们高出了12个百分点。
产品与前沿科技并重
李磊:头条实验室的宗旨是前沿技术积累和为头条产品提供技术支持。头条实验室是前沿研究和技术产品化并重,高效推进前沿技术到产品的快速转化。目前头条实验室最关注的领域是人工智能,具体的方向是机器学习、自然语言理解和计算机视觉理解。机器学习方面,我们会关注大规模的推荐、更高效的机器学习算法以及文本分类等问题,自然语言理解方面将继续研究包括文本的理解、文本生成、自动摘要、自动问答等领域的技术;在计算机视觉方面,我们会做一些技术去识别人脸、识别文字、识别相似的图片以及视频里的一些物体。未来将可以更好地为读者推荐内容。
在产出成果上,一方面我们会发表一些论文在国际顶级人工智能会议、期刊上,目前为止头条实验室已经在国际大会上发表了2篇论文;我们希望对学术圈做出贡献,技术研发后开放出来,同世界分享,可以促进人工智能领域的学者们将技术推到更高的水平,也希望有其他人或机构使用,让技术得到更多的实际价值。
数据是燃料
《中国传媒科技》:那么,在头条做研发工作,有哪些优势?
李磊:我们最大的优势是数据,头条作为一个平台已经积累了海量文本、图片、视频。这些数据可以作为我们研究人工智能的最大动力;人工智能技术像一个发动机,我们的数据就是发动机的燃料。
头条有四个方向可以与人工智能做结合。一个是创作;一个是分发、推荐,怎样把好的内容推荐给用户;还有讨论,如何促进读者对我们的内容进行讨论;最后一个是审核。这四个方面都与人工智能有关。而“Xiaomingbot”会与创作这个环节比较有关联。
《中国传媒科技》:有一种观点认为学校的东西很前沿,也很难产业化,那么这次与万小军老师的合作正好驳斥了这种观点,可否谈一谈这次合作的经验。
李磊:这是头条实验室成立以来与学术界的首次紧密合作,以往很多企业与学术界的合作仅仅停留在技术研发,发表几篇论文就结束了。但头条实验室与北大万小军的合作在发表了论文的基础上,还开发出了受到广大用户认可的产品,我们今后会多推动这种合作模式。
这次与万小军老师团队的合作是基于我们的共同学术兴趣,万小军老师对文本摘要与生成的研究是全世界领先的,所以我们邀请到万小军老师来我们实验室做技术交流,合作一事也在这次交流中一拍即合。一方面,我们可以凭借各自的技术特色相互促进;另一方面,学校和企业各有优势。比如,我们很容易利用各种资源把用户需要的产品快速落地,学校也希望能够把技术应用到产品上,这种产学研模式是成功的。
后记:在采访过程中,李磊博士还与记者分享了一则趣事,在奥运会期间,正值国际计算语言学大会在德国洪堡大学召开。万小军团队以及头条实验室的技术人员一边从事“Xiaomingbot”的运营维护工作,一边将新研发的技术在会议上发表分享。
此次采访中,我们看到的不仅是科技推动传媒业进步的成功案例,还看到了在冰冷的机器人背后那些力求以先进技术分享推动广泛应用、以科技进步改变未来人类生活的科学家们滚烫的赤子之心。