机器学习在新闻生产环节的应用分析
2018-07-19李烈鹏姜霄晗
李烈鹏 姜霄晗
摘 要 智能化的一个基础性技术手段就是让机器按照人设定的规矩和格局来运行。与新闻相关的人工智能技术如机器人、视觉信息处理、机器学习等,已经被大量运用。文章通过梳理国外新闻业界对这些人工智能技术在新闻生产中的实际运用,分析机器学习技术如何改变已有的新闻生产格局,同时剖析在新闻实践中使用机器学习技术产生的问题。
关键词 新闻生产;人工智能;机器学习
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)214-0075-03
中国巨大规模的移动互联网用户,以及阿里巴巴、腾讯、百度等大型互联网公司所拥有的海量数据,是中国成为在人工智能发展上最具潜力的国家。在新闻生产和研究中,人工智能技术与大数据、AR/VR、云存储等新兴科技,已经给新闻内容生产和分发带来了变革。从人工智能技术中的机器学习出发,具体到新闻实践和研究当中,机器学习是如何对新闻生产环节产生作用并使之做出改变?机器学习在新闻生产中的运用是否产生负面 效果?
1 与新闻生产相关的机器学习技术
机器学习是人工智能的一个子集,并且这个领域具有巨大的新闻潜力。机器学习既是一种工具,也是新闻审查的话题。
即使是研究机器学习的专业人士,对于“机器学习是什么”这个问题也会有不同的见解,到目前为止,还不存在一个广泛认可的关于机器学习的定义。1996,Langley提出,机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。卡内基梅隆大学Tom Mitchell教授在1997年提出,机器学习是对能通过经验自动改进的计算机算法的研究。2004年,土耳其伊斯坦布尔博阿齐奇大学教授阿培丁提出,机器学习是用数据或以往的经验,以此优化计算机程序的性能标准[1]。
他们关于机器学习的定义中,“经验”一词都被提及,可以想象,机器学习与人类思考的经验过程是类似的,不过它能考虑更多的情况,执行更加复杂的计算。笔者尝试给机器学习下一个定义:从广义上来讲,机器学习是一种能够赋予机器学习的能力,以此让机器完成直接变成无法完成的功能的方法。但从实践意义上来说,机器学习是一种通过利用数据以及以往经验,训练出模型,然后使用模型预测或者得出算法结果的一种方法。
事实上,机器学习的一个主要目的就是把人类思考归纳经验的过程,转化为计算机通过对数据和经验的处理计算,并得出模型的过程。经过计算机得出的模型能够以近似于人的方式解决很多灵活复杂的问题。监督式学习和无监督式学习是机器学习最大的分支。
监督式学习是从已有的实例中学到或建立一个模式,并以此模式分析新的实例。我们只需把数据交给算法系统,计算机会自动按照给定的规则填充公式化的表达,生成稿件。目前我国媒体主要运用这一种算法方式进行自动化新闻写作,运用于数据容易模板化的体育报道和财经新闻数据报道。另一方面,目前机器学习还可以在人脸上布置若干“标志点”,从而估算出各类情绪的概率值,这类技术可以运用到采访对象、正职演说等报道中去。
相比于监督式学习,无监督式学习是通过观察来进行自我学习。无监督式学习在学习过程中并不知道其输入与输出的内容,也就是并不知道何种学习是正确的,其主要目的是寻找相关关系和趋势、表面奇异值等,并不深入追究因果关系。通过无监督式学习,可以在没有任何人为干预的条件下简化数据,尝试寻找人力无法完成的新闻线索,人们无需知晓规则,新闻产品即是“无需推敲”的成品,然而编辑审稿环节对事实的核查、对真相逻辑链的追寻将困难重重。
在当下智媒化传播技术条件下,“签发”不是媒体工作的终点,写作完成也只是新闻工作中的一个节点。同时,新闻稿件将没有最终定稿的状态,将处于不断的人为干预的半自动化迭代过程中。机器学习在新闻生产和分发的过程中,占据着越来越重要的地位,而专业媒体机构从此不是唯一,各方技术的介入,使得新闻生产的过程更加多变,新闻生产的内容生态更为复杂,其操作流程更加难以辨识。
2 机器学习为新闻生产提供更多可能性
在人与机器的关系上,“增强新闻”是各国的新闻从业者基本可就此达成的共识,人将与机器合作完成新闻报道,机器学习广泛应用到新闻生产环节,诸如“自动化写作”“数据调查”等。
《亚特兰大宪法报》的调查团队在一则名为《医生和性虐待》的系列报道中关注了一个特殊的群体——那些曾对患者进行性侵犯的医生。这篇报道揭露了美国医疗界的一个严重问题:医生利用自己的身份对患者进行性侵犯,但是却没有受到应有的惩罚,他们中的多数人仍然可以留在自己的工作岗位上,继续行医,而他们的病人对此却一无所知。亚特兰大宪法报记者Danny Robbins在查阅佐治亚州医学委员会记录的2015年医疗犯罪案例时发现,在这些处罚令中,有70条和不当性行为有关的记录,同时,在佐治亚州,犯有不当性行为的医生,三分之二可以继续持有行医执照,其中包括了有重复性犯罪记录的医生。
调查团队想知道:这仅仅是佐治亚州的个例,还是全美存在的普遍现象。亚特兰大宪法报的数据新闻团队通过网络爬虫从各州医疗委员会的网站上爬取了共计十万份左右的处罚令文档。调查团队使用了监督式机器学习的方法,从已经确定的性侵处罚令中训练出一套模型,应用在新的处罚令上。在监督式的机器学习中,那些已经被确认和性侵犯有关的处罚令被当成是训练数据,计算机会根据相应算法自动提取训练集数据的特征。训练完成后,再把新的处罚令扔给计算机,计算机就会根据训练模型对其进行自动分类,判断新的处罚令是否符合这些特征。
通過这样的方法,他们最终确认了6 000份处罚令可能和不当性行为有关。之后,调查团队再通过人工比对的方法进行核实,排除掉那些重复的记录,并且确认在这些案例中医生到底受到了怎样的惩罚。在掌握了可靠的数据之后,调查团队又进行了一系列的采访和追踪调查。
这种通过海量数据来建立新模型的形式,可以应用在采访过程中对采访对象的情绪判断。在这方面,机器学习与婴儿逐渐学习并识别面部表情的原理很相似,可以通过不间断地向机器输入大量表情、微表情、语言以及语气,最终形成能够判断各类表情甚至体悟微表情的功能。这也将给记者在采访过程中提供更多的便利和线索。
Buzzfeed的记者用机器学习的方法发现了美国领空上存在许多执行政府监控任务的飞行器。首先,Buzzfeed的记者找到了100架已经被确认是来自美国国土安全部或FBI的飞行器,另外有从 Flightradar24网站上随机选择了500架其它的飞行器,并且获得了600架飞行器详细的飞行记录。Flightradar24是一个提供航班实时信息的服务商,能够提供诸多飞机的具体记录,包括飞机的起落时间、飞行时长和飞行轨迹等。记者将这些飞行记录当做训练数据,训练出一个模型,再从Flightradar24网站上获取更多飞机的飞行记录进行试验,找出那些飞行特征和训练模型十分接近的飞行器。通常,那些执行政府特殊任务的飞行器会被挂名在一个虚假公司下,以此来掩盖其真实的身份。Buzzfeed的记者循着这些飞机又找到它们背后所属的公司,并且确认这些公司属于美国军方或政府机构。
从上面两个案例中,我们可以发现,机器学习确实能够为新闻生产提供更多的选择和可能性,无论是帮助记者寻找选题,还是简化新闻生产过程中需要处理的庞杂的资料。机器学习最擅长的是在庞大的数据中寻找模式和规律,而这其实是很多新闻生产及其报道的核心所在。
当然,机器学习并不是一个万能的工具。在使用它进行辅助报道之前首先要理解它,知道什么样的选题或者问题适合用机器学习的方法来解决,以及在使用这种方法的时候,需要怎样的统计学和社会科学方法论的基础。
3 机器学习易滋生虚假新闻
虚假新闻是業界一直存在的现象,在网络时代,各种虚假新闻更是防不胜防,而机器学习在虚假新闻的产生方面也产生了一定的影响。机器学习不仅能够在新闻生产环节发生作用,帮助记者完成复杂的新闻生产过程。但是,机器学习也能写出大量以假乱真的假新闻。2017年10月,《科学美国丽人》的副主编Larry Greenemeier发表文章《AI是否可能成为假新闻和产品评价的未来》,文章认为:在虚假信息方面,“人工智能的发展可能会引起更大的问题。”诸如Yelp(美国版“大众点评”)以及亚马逊等网站的用户评论也正面临着真假难辨的 困境。
2017年9月,希拉里的新书《What Happened》首次在亚麻徐的主页上发布,几小时内,亚马逊上关于此书的评论数酒瓯超过了1 600条,然而亚马逊却迅速删除了900条可疑的虚假评论。这些评论者声称自己多么喜爱或者讨厌这本书,但却没有任何购买或者阅读此书的记录。这些虚假的产品评论很有可能随着自动化技术的日渐成熟而产生更大的影响,甚至左右大众的观点。
芝加哥大学的一个研究团队针对“AI大批量生成的虚假评论是否足够可信并影响受众”展开了调查。他们的一项最新研究使用机器深度学习的技术,分析并学习了上百万条现有的Yelp餐厅评价,进而自动生成假的Yelp餐厅评价。为了显得逼真,其中一些评论使用了复杂的语句;而另一些评论则故意使用了重复的语句,能被用户一眼辨别出来是假评论。
当研究者对这些由AI自动生成的假评论进行测试时,他们发现Yelp的过滤软件(同样基于机器学习算法)并不能准确识别真假评论。甚至说,剽窃检测软件也不能识别二者的区别。也就是说,机器自动写的假评论成功骗过了Yelp网站和剽窃检测软件。另一方面,人类受访者也难以区分出真实的评价和机器自动生成的假评价,当受访者被要求为Yelp评论的“有用程度”进行打分时,“AI撰写的假评论”和“人类撰写的真实评论”的得分几乎是一样的。
而这仅仅是在产品评论方面所出现的虚假问题,在这个机器能通过学习自动生产新闻产品的时代,网络上出现的新闻作品的真实性让受众难以分辨,这是机器学习在应用过程中不可避免的负面效应。当然也有更多的研究者投入到研制反虚假新闻技术当中。
随着AI技术的飞速进步和数据的指数倍增长,真假新闻在语言和语法上的区别将日益缩小。这也意味着检测文字和语法的算法将形同虚设,关键在于“攻击者”和“防御者”谁能先开发出更加复杂的算法和更为优化的人工神经网络。当然,除了技术方面,新闻记者也应该承担一定责任,帮助公众辨别和调查虚假信息,记者应该借助媒体鉴别工具等手段追踪信息流,这也意味着各大网络平台应该赋予记者更多接触平台数据的渠道。
4 结论
互联网带来的信息消费模式从“人找信息”向“信息找人”转变,而且由于算法公司不断地将用户出让的隐私用于构建“数字身份档案”,进而实现精准化推送,媒体受胁迫难以避免“流量工厂”的经营模式[2]。流量压力之下,为开发非公共性的“利基市场”、分众化的“长尾市场”,内容公司需要全部的用户行为数据,特别是用户“关系数据”,进而无条件“迎合”新条件下的受众需求。在机器学习等技术的助推下,向精细化导流的方向发展,新闻分发体系中将提供更加个性化的新闻,最大化地挖掘新闻作品的利 用率。
当下,机器学习等人工智能算法的不透明、新闻生产各环节对技术公司的强依赖、虚假新闻层出不穷并难以分辨等趋势,亟待研究者不仅仅停留在对技术层面能实现什么,而应该将实现转移到更多内在的层面。
传媒机构在使用人工智能进行写作、传送和资讯配置时必须承担相应的责任,必须清楚人工智能可以做什么,不能做什么。我们可以看出,未来的专业工作者的能力表现并不在于他能些什么、他能表达什么,而是对社会信息的表达和配置有更强的平衡能力、更多元的制衡机制。对于人工智能发展的焦虑,作为研究者事先要做好预判,当这个时代真正到来时我们就能通过预防使负面影响降到 最低。
参考文献
[1]阿培丁.机器学习导论[M].3版.北京:机械工业出版社,2016.
[2]仇筠茜,陈昌凤.黑箱:人工智能技术与新闻生产格局嬗变[J].新闻界,2018(1):28-34.