数据新闻现存的问题与解决之道
2017-07-15喻国明刘界儒李阳
喻国明+刘界儒+李阳
在人工智能各项技术的发展下,数据新闻生产的各个环节都获得了更成熟的技术支撑,从数据收集到数据分析再到数据展示,人工智能技术虽然不能解决数据新闻在发展过程中面对的所有问题,但是AI时代的数据新闻,势必获得前所未有的发展机会。更强有力的信息存储平台、更智能的信息识别与采集系统和更人性化的可视化技术,都为数据新闻的未来发展拓宽了道路。
同時,机器人写作、传感器新闻和可视化新闻等人工智能时代下发展起来的新闻生产创新模式也昭示着:AI时代下的新闻生产和传播领域将是智慧与智能的共同参与,人与机器合作建构的。
喻国明 刘界儒 李阳
【摘要】依靠数据的采集、挖掘和展示所形成的数据新闻已经以其独有的功能和价值在新闻传播领域崭露头角。但是由于受大数据技术发展的限制,还存在一系列问题亟待解决。从人工智能背景下大数据方法的关键性改善入手,探讨人工智能对于大数据技术在新闻传播领域中的应用所能提供的关键性技术支撑,分析和预测数据新闻生产的三个重要环节(数据新闻、传感器新闻和可视化新闻)的技术改善之道。
【关键词】人工智能;大数据方法;数据新闻;数据价值挖掘
虽然,数据新闻已经在既往的实践中有了长足的发展,但数据挖掘(Data mining)不足仍然是数据新闻发展必须面对的主要问题。数据挖掘指的是对数据库中的数据进行探索的一个过程,是在海量数据中挖掘有效数据的重要技术。一般而言,数据挖掘在概念的层面分为三个阶段:数据源数据的收集、对于数据源数据的处理以及最终的有效数据的表示。如图1所示,数据挖掘主要通过四个步骤实现:源数据的收集阶段、数据预处理阶段、数据处理阶段、数据评估以及知识表示阶段[1]。具体来说,数据挖掘不足可以体现在以下三个方面:数据收集来源单一、数据处理能力有限和数据可视化表达程度有限。
一、现阶段数据新闻的实操所存在的主要问题
(一)数据收集来源单一
目前数据新闻面临的首要问题就是缺乏可收集的数据信息源,或者数据库信息过于单一,缺乏全面、结构性的数据源数据库。从我国的情况来看,作为常用来源的商业数据库中的数据,通常只集中在某一个方面,其所能描述的用户特征也只是片面和单一角度的认识。腾讯作为目前拥有最大即时通信工具的互联网巨头公司,掌握着大量用户的社交关系数据,虽然通过微信线上支付(红包)的功能,占据了一定移动支付的市场,但比起支付宝(阿里巴巴旗下的个人第三方支付平台)来说,腾讯对于用户消费习惯和财务状况的洞察和了解又远不及后者。图2是2016年第二季度的第三方互联网支付市场交易份额,财付通(腾讯在线支付平台)虽然仅次于支付宝占据了移动支付市场的第二位,但仍然无法与支付宝等量齐观。从整体的数据库类型的情况看是这样,落实到具体的依靠数据挖掘实现个性化新闻生产的实践中时,依然面对着信息来源单一的挑战。
以今日头条为国内个性化推送新闻的媒体为例,作为国内第一个个性新闻化推送新闻的产品类实践者,今日头条自2012年创建后,到2016年8月,已经拥有装机用户超过5.5亿,日活跃人数超过6000万。从其CEO对今日头条有关用户的数据信息来源的介绍来看,主要是三个方面:第一,今日头条通过对用户的行为,如点击、停留、评论、转发等数据的搜集和聚合分析,获得用户对新闻信息的个人喜好和需求的推算。第二,根据用户所处的环境特征,上网环境是Wi-Fi还是付费流量、GPS所在地,是在常駐地还是旅游,是白天还是晚上等获得用户地理方面的数据信息。第三,基于用户使用社交网络账号关联登录后,系统对于用户社交圈和社交关系的分析,来得到关于用户更清楚的社会化画像,从职业身份或共同爱好入手计算用户的兴趣和需求。最后,系统通过把用户行为、地理、社交三方面特征组合,利用算法综合实现对用户偏好和个性需要的挖掘。
但是,伴随着个性化推送新闻的发展,也出现了“信息茧房”这种对现代人接收信息弊大于利的问题。有学者认为出现“信息茧房”的主要原因是,在互联网时代,人们可以完全根据自己的爱好定制信息,从海量信息中随意选择自己关注的话题,久而久之,这种“个人日报”式的信息选择行为会导致网络茧房的出现。当商业信息服务利用个人定制的需求开始为个人提供个性化新闻时,人们会不自觉地失去了解不同事物的能力和接触机会,深陷个人“信息茧房”之中。减轻“信息茧房”负面影响的方法首先是要提高算法对个人信息需求的构面了解,不但要满足受众显性的,比如根据行为特征收集到的需求,还要结合其社交圈子,综合改善个性化推送新闻对用户需求的完整定义和把握,尽可能避免越推送越窄,越推送越偏的现象。
(二)数据处理能力有限
除了数据来源单一以外,数据新闻目前存在的第二个问题是,处理数据能力有限。而数据处理和分析能力是决定数据挖掘的关键环节。目前,我们所使用的数据处理工具和算法都还比较传统,不适用大数据规模大、体量大的特点。祝建华教授说过,虽然大数据正在发生,但是我们对大数据的了解、处理能力还处在早期阶段。这就势必会影响数据新闻未来的发展。有学者认为成熟的数据处理技术涉及三个方面:存储、提取和统计分析[2]。
目前,在存储方面,我们计算机的存储水平还是远远跟不上大数据的规模,分析数据前先要把数据读到内存里,而现在功能比较强大的计算机内存也远远满足不了一个大型网站一天所产生的数据,这样一来,这个过程就需要耗费大量的时间,影响数据处理速度[3]。根据2014年万璞和王丽莎的总结,目前常见的分析数据的算法和模型有:①传统统计方法:抽样技术、多元统计分析和统计预测方法等。②决策树:它利用一系列规则划分,建立树状图,用树形结构来表示决策集合,可用于分类和预测,常用的算法有CART、CHAID、ID3、C4.5、C5.0等。③人工神经网络:它模拟人的神经元功能,从结构上模仿生物神经网络,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,是一种通过训练来学习的非线性预测模型,它可以完成分类、聚类、特征挖掘、回归分析等多种数据挖掘任务。④遗传算法:它是基于自然进化理论,在生物进化概念的基础上设计的一种优化技术,它包括基因组合、交叉、变异和自然选择等一系列过程,通过这些过程以达到优化的目的,是模拟基因联合、突变、选择等过程的一种优化技术。⑤关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…∧An→B1∧B2∧…∧Bn,一般分为两个步骤:第一步,求出频繁数据项集;第二步,用频繁数据项集产生关联规则。⑥最近邻技术:这种技术通过已辨别历史记录的组合来辨别新的记录,它可以用来做聚类和偏差分析[4]。
根据以上方法我们可以看出,现有的大数据分析技术都是基于计算机技术辅助统计技术实现的,除了遗传算法和人工神经网络外,都是经典的统计学算法,这些算法从19世纪七八十年代开始发展,到20世纪20年代初成型,距今已有80—120年的历史[5]。虽然它们具有极高的稳定性且较为成熟,但它们是为分析普通数据设计的,对于大数据的特点来说,难免有不能契合的方面。
(三)数据可视化表达程度有限
数据挖掘的第三个环节是数据展示,即可视化表达数据处理结果。米尔科·劳伦兹于2010年在阿姆斯特丹召开的第一届国际数据新闻圆桌会议中指出,數据新闻要以可视化的呈现数据并合成新闻故事为最后一个流程[6]。
数据可视化,在今天已经是一个固定的概念,指的是将数据信息的“量值”或“关系”等转变为直观的图形。数据的可视化加工,目前主要包括将数值型、文本型的数据及其关系用视觉化手段,例如图片、动画等形式呈现出来[7]。
可视化新闻是随着数据在新闻中的广泛运用出现并发展起来的,它是以数据为核心、信息为支撑、可视化为基本载体的跨媒体新闻报道形式。可视化新闻的价值一方面取决于它的表现形式,另一方面取决于它对隐藏在宏观、抽象数据背后的新闻故事性的展示。
然而,并不是所有的新闻事实都适合用数字或数字化的方式来表现。数据的可视化表达一方面受表达形式的局限,在告诉受众“发生了什么”的方面要强于告诉受众“为什么发生”。当数据的可视化仅限于告知事实时,可视化新闻或者数据可视化手段就只能用于最基础的新闻报道。像深度报道这一类的新闻,就不能很好地涉足。另一方面,即便可视化技术有所改善,也很难改变数据本身不擅长表现复杂因素和关系的特点。学者丁柏铨说过:“个人与个人或群体之间的关系多涉及政治、经济、文化等各种因素,涉及现实中的利害关系和历史上的恩恩怨怨。”[8]
二、人工智能时代数据新闻的发展之道
在人工智能时代,人工智能和大数据形成了相互推动的关系,一方面人工智能需要大量的知识和丰富的经验,使机器获得足够的数据量;另一方面,大数据技术在人工智能时代获得了前所未有的发展机会,我们就以上有关数据挖掘的三个环节,来看人工智能带给数据存储、数据分析和数据展示三个方面的机遇和挑战,作为探讨传感器新闻和可视化新闻未来发展的技术基础。
(一)云服务平台——夯实数据存储基础
在人工智能时代,伴随云计算的飞速发展,关于数据存储的技术能力迈上了新的台阶。云计算指的是在技术上可以理解为将众多能力较弱的服务器,通过网络有机集在一起,形成一个能力超强的、可动态伸缩的资源池以完成大任务。它是一种按需提供的网络访问,用户通过付费进入计算机资源共享池,这些资源包括网络、服务器、存储和应用软件等。而云平台的出现,使得云计算成为互联网上一项成熟的公共服务,它的优势在于,平台性的收集、聚合和储存海量碎片化的数据,为进一步分析数据提供可靠基础,是挖掘和处理大数据的操作平台。从整体上来看,这降低了个体储存、计算、分析数据的成本,使整个互联网上的数据存储和计算通过云平台获得了规模效应。
不管是技术上还是经济上,云平台都将为我们应对持续出现的海量数据提供最基础的技术保障,使人们能更游刃有余地应对数据洪流。未来新闻媒体建立自己独立的数据库是大势所趋,面对可能到来的海量数据,大型云服务平台的出现,将缓解有关大数据存储的困境。谷歌于2015年年底已正式建立谷歌云平台,综合其他服务为用户提供一体化解决方案。
(二)智能感知——传感器新闻:提高数据收集质量
随着物联网技术的发展,装配在大量终端上的各类传感器可以采集到海量且种类丰富的实时数据;不断升级的通信网络技术,又使这些数据可以完整地回传到云端服务器上;而应用广泛的云计算技术,令网络和设备运营商又有途径去进行实时存储和高效并行处理[9]。这些都为解决数据新闻来源缺乏的问题提供了希望,同时也为传感器新闻的发展奠定了基础。
传感器新闻来源于2013年6月成立于哥伦比亚大学托尔数字中心的“传感器新闻”工作小组,根据该中心的定义,传感器新闻指“利用传感器生成或收集数据,然后分析、可视化、使用数据来支持新闻报道”[10]。目前,在新闻领域应用传感器还属于比较新的探索,仅有美国的个别媒体在进行尝试。
虽然伴随着移动通信网络以及智能终端的发展,采集到的数据呈指数型爆发,但以传感器收集到的现场数据作为新闻数据源,却无法避免量化优势背后的数据体积大、结构复杂、冗余度高且价值隐匿等问题。这些问题都会使数据分析和提取格外耗费成本,并考验新闻从业者的综合素质[11]。
在人工智能时代,具有智能识别和学习能力的分析系统可以帮助媒体有效挖掘大数据中最有价值的信息。比如通过进行有效的数据分类,提高数据资源的利用率和匹配程度。一个常见的情形是,当传感器采集到大量数据进行数据汇聚和初步处理时,如果入网网关具备智能感知的功能,就可以过滤掉重复冗余的信息、只上传必要和价值高的数据,这样不仅可以节省大量的传输带宽,也可以在第一时间收集到敏感信息[12]。新闻媒体在筛选第一系统的数据时,如果能配合智能算法,也可以淘汰掉不符合新闻生产标准的低价值数据,并依据新闻生产的要求,筛选敏感信息和关键部分。最理想的情况是还能做到根据具体的应用场景和需求合理配置数据,提高数据资源的利用效率。
这样既缓解了数据新闻缺乏有效数据源的问题,又帮助数据新闻从生产源头起就提高了分析数据的操作效率,从数据的结构和质量两个方面作出有益的技术支持。
(三)智能展示——可视化新闻:完善数据展示功能
从米尔科·劳伦兹于2010年提出可视化新闻的概念到现在,虽然这一新闻形式诞生还不到十年,但是借助新媒体在信息传播中的主导地位以及数据采集和分析技术的不断突破,它已经表现出了强劲的发展势头。[13]在以大数据技术为核心基础上形成的新闻可视化,关键在于如何通过可视化的方式传递、通过数据挖掘,产生有价值的信息。
目前,数据新闻在发布过程中倚重图表表达和数说新闻的方式,在数据新闻的最终作品上,自然的科学性是它最大的特点,不擅长讲故事和缺乏传统新闻特有的人文主义关怀精神是它的局限所在。
人工智能(AI)时代,伴随着视觉技术的进一步发展和新闻打开方式的不断创新,数据展示技术也在不断提高,受众对数据成果的可接触程度也将获得新的深度。一方面数据分析后的结果可以最大限度地以最方便受众的方式呈现出来,另一方面数据挖掘出的意义关系也可以体现得更明显。近年兴起的虚拟现实(VR)/增强现实(AR)技术,都代表了未来智能展示技术的发展方向。以2015年媒体对9·3阅兵的报道为例来看,利用VR技术进行新闻现场直播和全景展示已经逐步进入新闻媒体的报道中,全景式报道和基于数据分析的可视化新闻已经成为新闻报道创新的一大亮点。日后,新闻+VR/AR的模式将帮助受众更清晰地进入时间或空间跨度大的环境中,在物理形式不受限的条件下认识到数据背后更长期、总体的规律。比起过去传统的可视化手段,大数据与视觉技术的结合带来的沉浸式新闻不仅是新技术手段下新的新闻革新方式,更是数据可视化新的发展机会。
数据可视化技术的创新不能解决可视化新闻的所有问题,在数据新闻发展的同时,我们不能放弃对新闻事实做质性分析和文字描述的工作,毕竟文字记录才具有表达丰富性和叙事故事性的特征,更能体现新闻产品的人文关怀和新闻活动的本质。
三、结语
随着人工智能各项技术的发展,数据新闻生产的各个环节都获得了更成熟的技术支撑,从数据收集到数据分析再到数据展示,人工智能技术虽然不能解决数据新闻在发展过程中面对的所有问题,但是AI时代的数据新闻,势必会获得前所未有的发展机会。更强有力的信息存储平台、更智能的信息识别和采集系统、更人性化的可视化技术,都为数据新闻的未来发展拓宽了道路。
同时,机器人写作、传感器新闻和可视化新闻等人工智能时代发展起来的新闻生产创新模式也昭示着:AI时代的新闻生产和传播领域将是智慧与智能的共同参与、人与机器的合作建构的。
参考文献:
[1]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(5).
[2]祝建华.从大数据到数据新闻[J].新媒体与社会,2014(11).
[3]祝建华.从大数据到数据新闻[J].新媒体与社会,2014(11).
[4]万璞,王丽莎.数据挖掘与人工智能技术研究[J].无线互联科技,2016(5).
[5]祝建华.从大数据到数据新闻[J].新媒体与社会,2014(11).
[6]王传宝,滕瀚.新媒体时代的“新闻可视化”初探[J].新闻研究导刊,2014(3).
[7]彭兰.“信息是美的”:大数据时代下信息图表的价值及运用[J].新闻记者,2013(6).
[8]丁柏銓.数据新闻的价值与局限[J].编辑之友,2014(7).
[9]孙松林,陈娜.大数据助推人工智能[J].邮电设计技术,2016(8).
[10]许向东.大数据时代新闻生产新模式:传感器新闻的理念、实践与思考[J].国际新闻界,2015(10).
[11]许向东.大数据时代新闻生产新模式:传感器新闻的理念、实践与思考[J].国际新闻界,2015(10).
[12]孙松林,陈娜.大数据助推人工智能[J].邮电设计技术,2016(8).
[13]叶文宇.大数据时代可视化新闻的特点及发展趋势[J].传播与版权,2015(9).
(喻国明为教育部长江学者特聘教授,北京师范大学新闻传播学院执行院长,中国人民大学新闻与社会发展研究中心主任;刘界儒、李阳为北京师范大学新闻传播学院硕士生)
编校:王 谦