大数据时代的新闻生产<br/>——以“今日头条”为例研究分析个性化新闻推送

大数据时代的新闻生产
——以“今日头条”为例研究分析个性化新闻推送

2018-02-22韩璐媛

新闻研究导刊 2018年1期

关键词：今日头条新闻资讯爬虫

韩璐媛

（辽宁大学新闻与传播学院，辽宁沈阳 110036）

一、大数据时代催生个性化新闻推送

（一）大数据

在维克托·迈尔·舍恩伯格的《大数据时代》一书中提到，“大数据”这一概念最初是指需要处理的信息量过大，已超出一般电脑处理数据时使用的内存量，因此需要改进处理数据的工具。这里说的“大数据”着重体现了数据的海量性，即巨大的数据量。

中国人民大学喻国明教授认为：“大数据的真正价值不在于它的大，而在于它的全——空间维度上的多角度、多层次信息的交叉复现，时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。”因此，在大数据时代，怎样有效地运用大数据使其发挥出最大价值，将是各个领域尤其是新闻传播领域值得关注的问题。

（二）大数据催生个性化新闻推送

大数据时代的到来及移动互联网的迅速发展，为移动新闻客户端的诞生以及新闻客户端实现个性化新闻推送提供了可能。例如，今日头条、一点资讯这一类由技术公司为运营主体的移动新闻客户端，其主要不是生产新闻，而是聚合其他媒体的新闻资讯，以实现新闻资源的有效整合。这些移动新闻客户端都在不同程度上通过搜集用户的行为记录，实现有针对性的个性化新闻推送。

在数据海量的背景下，用户的注意力便成了各商业机构及各家媒体争相抢夺的资源。对于用户而言，迫切需要过滤无关冗杂的信息，在众多信息中获得有价值和自己喜欢的信息。对于信息生产者和传播者而言，怎样才能让自己的信息具有吸引力，进而将用户的注意力进行二次售卖实现经济获利，这些都变得越发重要。

2012年3月，今日头条诞生，其创办宗旨是“你关心的，才是头条”。今日头条以微博、微信、网易等账号实现一键登录，来获取用户的行为记录。为用户私人定制新闻信息，帮助用户在海量的新闻信息中获取自己感兴趣的话题和信息，增强用户黏性，提升用户的使用体验。今日头条构建了一个用户主导的阅读环境，而用户接收到的新闻内容推荐是基于剖析用户行为二产生的。

二、今日头条个性化新闻推送分析

（一）整合抓取新闻资讯

实现个性化新闻推送的前提是有足够的新闻资讯可供选择，这样才可以通过算法推荐将不同的信息推送给不同的用户，以满足用户的不同喜好需求。

今日头条实际上是一所具备媒体属性的科技公司，本身不生产新闻内容，如何做到新闻内容的抓取聚合便是其最重要的问题。通过资料查询，今日头条的新闻来源主要来自两个方面：一方面是通过网络爬虫技术从各大新闻媒体门户网站中抓取新闻；另一方面则是今日头条为各大新闻媒体、国家机构，包括自媒体在内提供的新闻发布平台——“头条号”。

今日头条的网络爬虫技术以互联网中的超链接网络为运用基础，在互联网网页中存在超多的超链接，而互联网中的巨大超链接网络正是由这些超链接将各网页链接在一起之后形成的。网络爬虫就是从某一网页开始，找到存在于网页中的超链接，然后进行访问，如此循环往复。通过不断点击超链接来为今日头条抓取海量的新闻信息内容，为用户制定个性化的信息推送打下数据基础。而另一类新闻来源就显得更为简单直观，作为今日头条原创内容的生产源——“头条号”成为今日头条继网络爬虫技术之后的又一重要内容整合工具。

（二）定位用户喜好实现个性化推送

网络爬虫技术和头条号为今日头条获取大量新闻资讯，如何定位用户个人的喜好将信息推送出去便是另一个关键问题，也是今日头条能够在众多新闻聚合分发平台中脱颖而出并且持久发力的关键之处。

今日头条的用户用已有的如微信、QQ等社交账号进行一键登录，方便后台机器人分析用户的社交数据、行为记录，对用户进行前期的信息推送。这种第三方账号登录的注册方式，避免了产品前期因用户数据太少不能准确推送信息而导致用户流失的问题。但用户的兴趣图谱并不是一成不变的，且图谱的建立需要一个长时间的持续探索，需要今日头条通过不断记忆与分析用户的操作行为，才能做到对用户的精准推送。

判断用户对于一条新闻资讯是否喜爱，今日头条的后台机器人可以通过分析用户的阅读记录以及对资讯的点击评论、收藏等操作行为来实现。比如，用户较长时间地浏览一条资讯，且持续下拉到了资讯的底部，则一般表明用户对此类资讯感兴趣，那么在下一次推送中可能就会尽可能推送此类的信息。而且这种类似新闻资讯的推送并不是延迟性的，而是实时性的。比如，笔者在使用今日头条时，点击并收藏了有关考研的内容，在经过几分钟的阅读之后，再次刷新推荐页面，就多了几条考研方面的内容。

三、今日头条个性化新闻推送的问题所在

（一）“我们不生产新闻，我们是新闻的搬运工”——陷入版权纠纷

虽然今日头条和部分新闻网站签订爬虫协议合法抓取新闻资讯内容，但由于互联网强大的超链接网络，网络爬虫在不断访问各个网页的超链接时，势必会抓取到那些未签订爬虫协议的网站内容，并由此构成对其他媒体的侵权。自2014年以来，广州日报等多家媒体都曾经声称今日头条侵犯版权。2017年5月2日，南方日报也发表公告称今日头条窃取自家新闻2000多条。朱巍认为：“‘今日头条’所提供的新闻并非是用户直接通过搜索引擎得来，而是‘今日头条’事先通过爬虫技术对新闻进行整理、归类排行和大数据算法之后，对新闻的二次加工，这种二次加工的新闻如果未经作者授权而转载是构成侵权的。”

（二）算法推送有待优化

基于大数据的算法推送关注的并不是行为之间的因果关系，而更多的是相关关系。这种对相关关系的关注势必会导致对受众兴趣的错误解读。这也是人工智能不及人工推送之处。笔者对今日头条进行了使用体验，对其推荐的内容进行点击阅读和点赞收藏。在点击阅读并收藏文章《异性之间，做了这4件事，关系肯定“不一般”》之后，又点击阅读了《女人愿意送你这4样东西，说明她今生只爱你一个人》，之后刷新了头条首页，首页便出现了约60%的有关女性的话题，其内容中含有大量“性暗示”的内容。这种由于一时兴起而得到的点击量，算法是否能真正了解用户的真实喜好，还有待考究。

（三）“你关心的，才是头条”——形成“信息茧房”

今日头条的算法推荐虽然能够帮助用户筛选出自己喜爱的新闻信息，但同时也会将人们的某些爱好偏差无限放大，进而不断强调这种偏差，用户“信息茧房”的产生成为必然。而且强调某些偏差的同时，也极易出现与社会主义主流价值观相悖的新闻推荐。2017年以来，北京市网信办先后两次就今日头条涉嫌违规提供涉黄内容问题进行约谈。人民网在2017年下半年也曾连发《不能让算法决定内容》《别被算法困在“信息茧房”》《警惕算法走向创新的反面》3篇文章，矛头直指今日头条的算法推荐问题。文章称，客户端仅依靠揣摩人们的浏览点击，不断地推荐低质量内容，只能让人生厌，算法和技术不应该成为限制媒体的工具。

[1]喻国明.大数据方法与新闻传播创新：从理论定义到操作路线[J].江淮论坛，2014（4）：5-7.

[2]林楚方.今日头条如何玩转大数据[J].新闻与写作，2015（11）：19-21.

[3]朱巍.网络版权侵权认定与法律适从——以“今日头条”版权纠纷说起[J].青年记者，2014（22）：17-19.