头条属于谁?大数据说了算
2015-01-07蒋远翔
文|蒋远翔
头条属于谁?大数据说了算
文|蒋远翔
随着科技的进步和社会的飞速发展,全球的互联网保持高速发展的趋势。截至2013年底,全球互联网中数据总量已经达到4ZB,如果将数据存储在DVD光盘中,总厚度有26万公里,大约是地球到月亮距离的三分之二,其中34%的数据具有价值,但只有7%的数据被标注整理,1%的数据被分析。在此背景下,大数据应用与分析服务快速崛起。而现阶段各大门户网站对新闻重要程度的评价的主要还依旧处于人工判定的阶段,这种方式无法反映某一新闻的真正影响范围。在大数据背景下如何从种类多样、内容多变、形式多元的实时数据中获取大家所关心的新闻并正确描述新闻演化的规律成为众人关心的重点。
影响新闻的真正因素
据Mary Meeker发布的2014年度互联网趋势报告显示,移动数据流量正在呈现爆炸式增长趋势,较去年相比其增幅达到81%,新兴计算设备的用户比上一代大十倍,互联网的用户数在未来可能突破百亿大关。互联网凭借其高效的实时性、广泛的覆盖面、内容的丰富性以及良好的互动性已经代替报纸、广播、电视等传统的传媒手段成为人们获取信息最重要的手段。而在互联网上层出不穷的社交软件、新闻客户端、信息推送软件将新闻的影响变得更加多元化,但直观的来看,新闻通过不同平台发布所造成的影响力完全不一样,因此新闻发布的网站也是衡量新闻影响力的重要标准。
近五年来,中国网民规模不断上升,网络普及率不断增高,截止到2014年6月底,全国网民人数共有6.32亿,互联网普及率达到46.9%;手机网民在所有网民中所占比重为83.4%,网民的平均每周上网时长为25.9小时,网民的评论和看法已经成为影响新闻影响力的重要因素,如图1所示。
因此通过综合考虑用新闻发布网站和用户观点来决定新闻的影响力应该是未来媒体发展的主要方向,大数据计算为这种评价方式提供了可能。
现阶段所面临的挑战
阶段随着互联网中的数据急剧增多,给新闻媒体和网民提出了巨大的挑战。人们每天接受到的信息量在快速增长,现阶段每人每天获取的信息量大约相当516张报纸,共计5000篇左右的文章。一方面新闻媒体需要考虑如何将大量的数据按照合理合适的方式展示给用户,以便在引起用户广泛关注的同时又能避免用户对大量冗余的信息感到厌烦,达到提升用户体验的目的;另一方面网民需要考虑如何利用有限的时间接受更多有用的信息、关注实时热点新闻以及新闻演化的整个过程,同时避免大量的冗余信息、过滤不关心的新闻并有效抵制无意义的信息推送。因此针对海量网络数据的热点新闻发现及演化必将成为已经成为了媒体大数据挖掘领域的热点,也是现实应用提出的迫切需求。
新闻影响力的可行计算方法
在进行新闻影响力计算之前,我们要对新闻的数据量有一个直观的认识,现阶段我国每天产生的信息量约有800EB,如果装在DVD光盘中要装1.68亿张、装在硬盘中要装80万个。如此庞大的信息量,哪怕只取其中的1%去处理,传统的计算方式是无法达到了,因此利用分布式的处理框架来进行海量数据的处理,是现阶段较为可行的方式之一。
在进行新闻影响力计算的过程中,我们要分别考虑媒体的影响力和网民的影响力。在计算媒体影响力的过程中,我们通过媒体每天发布的新闻的个数,以及媒体每天的访问量进行一个计算,得到媒体在整个网络中的影响力。对每一个新闻来说,我们可以通过采集网民的评论个数,网民的评论时间,以及新闻的发布时间,通过计算得出单位时间内某一新闻的评论量以及评论的正负面倾向,综合考虑媒体的影响力和网民的影响力得到一个关于新闻影响力的综合排序。
除此之外我们可以通过统计网民对某一领域的关注程度,得出网民的兴趣点以及所关心的主题,通过计算热点新闻和网民兴趣点之间的关系,得到一个关于网民的个性化的新闻推荐策略,实现高效推荐与定点推荐相结合,提高了推荐的效率和有效性,这可以很大程度上减少网民阅读海量信息的负担,增强用户的体验,推动媒体界的可持续发展。
图1 网络用户规模和普及率
在计算新闻影响力的基础上,通过获取新闻访问量和用户评论量的动态变化,以及信息学中信息衰减的原理,构建一种基于时间变化的新闻影响力变化曲线,通过曲线我们可以查看新闻的整个演化过程,以及在演化过程中新闻关注点以及网民关注点的变化。
计算新闻影响力的意义
首先,新闻热度计算过程中新闻的涵盖范围更广,网络中查看热点事件时,只在单一的几个网站中查看个别事件,并没有过多的时间和精力和关注所有相关的事件和内容,新闻热度计算不但给用户一个关于新闻热度的定量描述,还可以消除用户关注与某一特定网站的局限性,将不同网站间所有相关的内容一次性展示给用户。
其次,新闻热度计算可以为用户提供一种直观的描述,新闻重要与否,可以通过热度值直观的表示。通过网页发布时间、抓取网页文本时间、点击量评论量我们可以较为合理的计算出每一个新闻的热度,热度值的计算可以代替传统的人工判读,减少了大量的人力开销,也在一定程度上减少了主观因素。
再次,新闻热度就有很强的实时性,传统的热点排行榜通过统计事件报道次数和网页的历史点击量来评价计算事件的热度,或者通过人为判读来确定事件的重要程度,这种方法无法计算新闻的实时热度。我们通过计算不同时间片内的新闻的热度,得到关于某一新闻的热度曲线,通过新闻中关键字的变化来描述新闻内容的演化过程,整个过程具有很强的实时性。
最后,通过热度曲线描述的新闻演化过程可以使人们了解一个新闻从发生、发展、衰退到消失的全过程。也可以通过整个过程来分析新闻的规律,对敏感事件的爆发做到提前预防,甚至可以将网络恶性传播事件消灭在萌芽当中。
这种新闻影响力的计算和演化方法,实现了大数据背景下热点新闻影响力实时计算的功能,为政府和民众提供了一个掌握实时热点新闻平台,实现对热点新闻的全方位监控,为网络舆情控制奠定了坚实的基础。
(作者单位:新华社湖南分社技术中心)