社会化媒体的算法想象研究:以微博“热搜”为例
2020-12-05
一、研究缘起:算法研究用户视角的缺失
中国互联网络信息中心发布的《第38次中国互联网络发展状况统计报告》显示,基于用户兴趣的算法分发逐渐成为网络新闻主要的分发方式。面对信息分发权力从人工编辑向智能算法的转移和让渡,学者围绕算法的社会权力问题展开了深入讨论,并提出“算法即权力”[1]、“媒介即算法”[2]等观点。
随着研究的深入,学者提出了不同看法,认为算法并不是孤立的决定性因素,而是处于一个由“规则、人、物、过程和资源”所构成的网络中不可分割的一部分。[3]米歇尔·威尔森(Michele Willson)指出,算法内嵌于一个更广大的生态系统之中,这个系统既包括技术——软件、代码、平台和基础设施,也包括人类的设计、意图、用户和使用。[4]因此,算法需要被放置于其所处的社会技术集合中进行分析,而用户是集合的重要组成部分。
延续此思路,泰娜·布赫(Taina Bucher)强调,算法的社会权力来自人与算法之间循环的力量关系(force-relations),算法想象,即人们想象、认知和经验算法的方式,会影响实际的媒介使用和消费。[5]塔尔顿·吉莱斯皮(Tarleton Gillespie)以“占领华尔街”未登上推特“热门话题”所引发的争议为例,指出“在我们认为算法是什么、我们需要算法是什么,以及算法实际上是什么之间存在着张力关系。”[6]围绕“算法是什么”的问题,国内已经涌现出较为丰富的研究成果,学者考察了平台媒体的算法推荐机制、算法价值观念等。然而中国语境下有关算法想象——“我们认为算法是什么”以及“我们需要算法是什么”——的学术成果尚不多见。
为了弥补国内算法研究用户视角的缺失,本文试图以微博“热搜”为例,探讨用户对社会化媒体的算法想象。
2018年初,北京市网络信息办公室约谈微博,要求其对“热搜”等功能下线一周进行整改。此次整改为本研究的开展提供了契机:用户对“热搜”算法有怎样的认知、评价和期待?用户认为哪些内容应当/不应当上“热搜”?面对算法系统,用户并不是被动的、缺乏抵抗力的,而是会运用实践的艺术、巧妙的计谋和抵制的策略来将其纳入日常生活实践。[7]探究上述问题有助于我们更好地理解算法社会权力的复杂性。
二、研究设计
(一)研究对象
根据微博发布的《微博热搜榜2016产品报告》,“微博热搜榜是全网最实时最权威的热点排行榜,依据用户的真实搜索量,呈现最新鲜、最热门、最有料的资讯。”本文选取微博“热搜”作为研究对象,原因有二:
其一,“热搜”功能是算法分发模式在社会化媒体的典型应用。西方传播学界围绕脸书、推特的“热门话题”功能已经开展了深入讨论,中国语境下的相关研究有助于我们更好地理解算法的内嵌性,即算法在不同语境下的社会建构。
其二,“热搜”在引导公共讨论和流行文化方面发挥着重要作用。微博“热搜”常常被认为是用户关注和讨论的“晴雨表”和“风向标”,其度量指标(metrics)日益成为一套对议题流行度和人物影响力进行测量、排序的合法化标准。[8]根据《微博热搜榜2016产品报告》,用户每日主动搜索2.5亿次,引导1.35亿搜索热度,每人日均搜索超过12次。
(二)研究方法
如前所述,2018年初,微博“热搜”功能下线一周进行整改,下线时间从1月27日21时至2月3日21时。“热搜”下线的一周,为用户集中表达意见和观点提供了契机。通过对相关讨论话语进行深度挖掘,可以探知用户对“热搜”算法的认知、评价和期待。需要指出的是,多数用户并不了解“热搜”背后是算法在进行自动化地信息分发,本文所探讨的“算法想象”,更多是用户对“热搜”上榜规则的想象。
2018年4月19日,笔者请技术人员使用爬虫软件爬取了整改期间用户发布的所有包含关键词“热搜榜”“整改”的微博内容,共获取7719条。随后对获取结果进行了人工清理,剔除以下两类内容:
第一类是包含关键词但是与研究主题无关的微博,包括商业宣传类、粉丝声援类(如“黑我幂的那些人看你们以后怎么买热搜榜黑她”)、个人情绪表达类(如包含不文明语言的微博)。在清理过程中,笔者发现所爬取的微博中有大量包含“#热搜榜等版块暂时下线整改#”话题,但是与研究主题无关的微博,例如“#热搜榜等版块暂时下线整改#新战国七雄!我是齐国,你呢?”。
第二类是机构发布的纯新闻内容或互动内容,包括媒体(如《中国日报》、澎湃新闻)、高校(如暨南大学团委、成理工程新鲜事儿)、商业组织(如璞拾婚纱摄影)。经清理,最终获取1863条有效微博。
三、研究结果与发现
基于对1863条有效微博的文本分析,笔者将用户对微博“热搜”的算法想象归类分析如下:
第一类认同“热搜”现有的算法分发模式,表达了对“热搜”功能的依赖,以及对其下线整改的不适应。以下是用户发布的较为典型的微博:“微博热搜榜整改我像是与世隔绝,啥事都是后知后觉”,“热搜榜整改的第一天,严重感觉到信息流通的滞慢”。
经过词频分析,“想它”“想你”或“想念”共出现40次,“错过”共出现34次,“与世隔绝”共出现28次,“慌”共出现23次,“不适应”“无从适应”则出现了11次。借用米切尔·斯蒂芬斯(Mitchell Stephens)的论述,“热搜”下线损坏了用户渴望新闻的“社会知觉”,其带来的馈赠“不是关于特定事件的特定信息,而是能知觉‘任何’重大、有趣之事的信心。新闻……是一种意识,一种安全感。”[9]
研究发现,一部分用户强烈依赖“热搜”为其筛选信息和设置议程。例如,一位网民指出,“没有‘热搜’,感觉像是去吃饭没有菜单一样。”“热搜”背后的算法根据提前设定好的价值观念,对搜索词进行数据化、自动化、程序化地处理,然后以排行榜的方式供用户浏览和点击。在这个过程中,复杂的现实世界被转化为了井然有序的信息条目。算法通过对信息条目进行收纳、过滤和排名,决定哪些话题可以成为公众关注的焦点,而哪些话题瞬间淹没在信息的汪洋大海。根据议程设置理论,媒体对话题赋予的结构秩序将影响人们对其显著性的认知和判断。
第二类质疑和批评“热搜”的分发模式,指出现存问题,并提出具体的整改意见和建议。用户集中反映的问题如下:
其一,花钱买“热搜”、撤“热搜”,以及炒作、水军、营销号泛滥。正如尤尔根·哈贝马斯所指出的,“那种仅仅由于暗中注入金钱或组织权力才能造成的公共意见,一旦这种社会权力来源昭示于众,其可信性立刻就会化为乌有……公共领域是不能随意‘制造’的。”[10]如今,算法对公共领域的形塑成为西方学界讨论的热门话题之一。例如,2013年纽约大学召开了主题为“算法是公共领域信息流动的仲裁者吗?”的学术会议,而汉堡大学则建立“算法化公共领域”(algorithmed public sphere)博士后研究网络。
算法并非在真空中纯技术性地运行,“买热搜”“撤热搜”背后是多个权力博弈主体的盘根错节。尽管“热搜”不是严格意义上的公共领域,但它发挥着沃尔特·李普曼(Walter Lippmann)所说的“聚光灯”和“探照灯”的作用,对人、物、话题的可见度(visibility)进行分配,在形塑公共讨论方面发挥着重要作用。因此,作为信息流动仲裁者的算法不仅要满足商业目标,还要承担一定的社会责任。如一位用户所言,“我也希望热搜干干净净公公正正,多点阳光多点公平多点透明。”用户期待一个免受金钱和组织权力干预的“热搜”。
其二,明星琐事霸占榜单。根据“微博热搜榜”发布的报告,“热搜榜”的主要内容集中在以下四个方面:娱乐类新闻资讯(明星动态、圈内八卦)占比34%,非娱乐类新闻资讯(时事新闻、社会事件、财经新闻、体育新闻)占比27%,新生事物(数码新品、美妆潮流、网红新词、热议段子)占比25%,而影视综艺(热门电影、热播电视剧、火爆综艺)的占比为13%。娱乐性质的内容占据了主导地位,而严肃议题则处于边缘化的状态。
用户表达了对明星霸占公共注意力资源的不满。笔者爬取的一条微博较有代表性:“整天都在关注些明星,八卦,出轨,婚变,其实我们是被绑架的,我们更希望看到关于世界的,国家的,民生的,进步的,有价值的!”
针对上述问题,用户主要提出了以下建议和意见:传播正能量,反映人民群众的真实关切;提高“热搜”的公平性、公正性和真实性;整改其他相关问题,如强制关注、网络暴力、谣言等。
第三类集中讨论了政治权力对“热搜”算法的规训。针对此次整改,用户的评论多以赞扬为主,如“给力”“喜大普奔”“疯狂打call”“期待成果”“改头换面”“大快人心”等,并有不少用户怀念早期的“热搜”,认为以前更为纯粹和有看头,内容多样化且排名较为公正。
也有少部分用户表达了对整改可能带来的言论限制、信息审查、宣传色彩过浓等问题的担忧。用户使用了诸如“新闻联播”“太平盛世”“粉红色”“主旋律”等表述来抵抗政策干预。“热搜”所发挥的社会动员、信息汇聚、舆论监督等功能被这部分用户突出强调。以下是较为典型的微博:“热搜被整改是不是意味着新闻联播里的生活即将来临?”,“不该热搜的可能确实下去了,但该热搜的恐怕也更难上去了。” 包裹着技术的外衣,算法生成结果看起来浑然天成且不可避免。信息控制从明处走向了暗处,变得更加隐蔽,且难以察觉。
有学者提出算法新闻学研究的六种社会学路径:政治和公共政策视角、经济视角、制度和场域视角、组织动力学视角、文化-历史视角以及技术与新闻视角。其中,第一种路径关注新闻业所处的政治情境,尤其是“公共政策决定如何促进或限制算法新闻的发展”。[11]面对政治权力的规训,整改后的微博“热搜”开始将导向正确纳入算法价值要素,包括上线“新时代”版块,优先推荐正能量内容(如弘扬家庭和谐、爱岗敬业、友善互助、自强不息等中国传统价值观念的内容)。[12]
用户也对此次整改的原因进行了讨论和猜测,其中,“紫光阁地沟油”事件被认为是此次微博产品下线整改的导火索。2018年初,中共中央国家机关工作委员会《紫光阁》杂志社连发三条微博,批评嘻哈歌手PG one的歌词低俗、教唆吸毒、侮辱女性。PG one的粉丝误认为紫光阁是一家饭店,于是雇佣水军刷“紫光阁地沟油”的话题,使其登上微博实时“热搜”榜单。该事件成为用户质疑“热搜”真实性和公正性的典型案例。
值得指出的是,有少部分用户意识到了“热搜”背后算法所发挥的重要作用。例如,笔者爬取的一条微博的内容是:“热搜榜被整改说白了就是准备换新算法,有些事能上有些事就不能上。” 可以预见的是,随着算法分发逐渐成为主要的信息分发方式,用户的算法素养也将逐渐提高。整体而言,此次整改促进了有关“热搜”上榜规则的公共讨论和思考,而对相关讨论话语的深度挖掘有助于我们探知用户对社会化媒体算法的认知、评价与期待。
四、讨论与结论
本文以微博“热搜”为研究对象,探讨了用户对社会化媒体的算法想象。研究发现,“热搜”发挥着重要的议程设置功能,网民对其批评主要集中在金钱干预、人民的声音被边缘化、上榜规则缺乏透明性和公平性。无论是西方的“占领华尔街”话题未登上推特“热门话题”,还是中国的“紫光阁地沟油”登上微博“热搜”,都引发了公众的广泛质疑。长此以往,榜单的公信力也将消失殆尽。由此可见,用户想象、认知和经验算法的方式会影响具体的媒介使用和消费。因此,平台媒体必须处理好“实际采用什么样的算法”和“用户想要什么样的算法”之间的张力关系,而本文代表了对这种张力关系的初探,具有一定的学术价值。
学者在《理解社会化媒体逻辑》一文中指出,算法的权力主要体现在编程性(programmability):一方面是社会化媒体平台刺激和引导用户进行创造性或沟通性贡献的能力;另一方面是用户通过与这些被编码的情境互动,转而影响平台信息流的能力。[13]杨保军也认为,“算法即权力”的说法略有夸张,算法体现的不仅是技术的权力,还是其背后不同社会主体(包括创造算法的人、社会大众)的权力。[14]通过对微博“热搜”算法想象的研究,本文提供了思考算法社会权力的用户视角,拓展了算法研究的视野。
此外,“热搜”不仅是关于最新事实的信息交流活动,它同时也是时代精神的重要呈现窗口。自2020年3月1日起开始施行的《网络信息内容生态治理规定》将“热搜”列为重点环节。第十一条和第十二条指出,网络信息内容服务平台应当坚持主流价值导向,优化信息推荐机制,加强版面页面生态管理。当“热搜”主要为明星琐事、八卦娱乐提供展示舞台,看台上人们的精神世界也一定是浮躁荒芜、百无聊赖。
学者指出,使用算法和大数据来识别公共议题带来了公共领域新的结构转移,“我们面临的首要问题是理清哪些人、哪些话题在结构转移中被边缘化了。”[15]当互联网公共空间上哪些话题“热门”、哪些话题“边缘”越来越依赖算法来进行仲裁,学者需要对算法进行密切审视和调查,进而推动算法为人民的公共利益和民主生活服务。从这个方面来说,研究“热搜”及其背后的算法也具有重要的社会价值。
最后,本研究尚存在一些不足,本文所爬取的微博并不能确保毫无疏漏。一方面,微博数据本身也存在被过滤、被删除的问题;另一方面,也存在用户使用策略性表达来避免发布内容被爬虫软件抓取的情况。未来研究可以通过问卷调查、焦点小组等研究方法,进一步丰富用户视角下的算法研究。