机器行为特征建构:传播学视野下社交机器人识别方法研究
2022-12-07张洪忠斗维红任吴炯
张洪忠 斗维红 任吴炯
(北京师范大学 新闻传播学院,北京 100875)
社交机器人是在社交网络中扮演人的身份、拥有不同程度人格属性、且与人进行互动的虚拟AI形象。(1)张洪忠、段泽宁、韩秀:《异类还是共生:社交媒体中的社交机器人研究路径探讨》,《新闻界》2019年第2期,第10-17页。当前,社交机器人已经成为社交网络中的一个常态。一方面,社交机器人账号越来越多地出现在社交网络空间中,数据显示Twitter上的活跃账号中有9%~15%是机器人账号(2)Onur Varol,Emilio Ferrara,Clayton A.Davis,et al,“Online Human-Bot Interactions:Detection,Estimation,and Characterization”,Eprint Arxiv,2017.,Facebook(3)2021年10月,Facebook公司正式改名为Meta。本文中与此相关的数据是改名之前的,因此使用Facebook这一名称。宣称每月有10万个社交机器人账号活跃在平台上(4)Florian Daniel,Cinzia Cappiello,Boualem Benatallah,“Bots Acting Like Humans:Understanding and Preventing Harm”,IEEE Internet Computing,Vol.23,No.2,2019,pp.40-49.;另一方面,社交机器人正在参与各类事件和议题的扩散,研究发现Twitter上围绕“中美贸易战”“新型冠状病毒疫情”等议题的讨论中均存在大量社交机器人的影子,它们不仅分发与议题相关的信息,还通过与人类用户的交互来扩大自身影响力(5)张洪忠、赵蓓、石韦颖:《社交机器人在Twitter参与中美贸易谈判议题的行为分析》,《新闻界》2020年第2期,第46-59页;师文、陈昌凤:《议题凸显与关联构建:Twitter社交机器人对新冠疫情讨论的建构》,《现代传播(中国传媒大学学报)》2020年第10期,第50-57页。,这意味着社交网络已经成为“人+社交机器人”的共生空间。
面对人机共生的环境,传播学研究充分重视社交机器人的存在,对其进行识别是开展研究的第一步。然而,受到人工智能技术发展的影响,对社交机器人的识别一直处于探索与挑战并存阶段,当前的社交机器人识别方法与特征指标表现出一定局限。对此,本文试图探讨如下几个问题:一是社交机器人对传播学研究带来了哪些挑战?二是现有社交机器人识别方法与指标的局限性有哪些?三是如何从传播行为及其结构特征出发构建社交机器人识别体系?四是新的识别特征与体系在传播学研究层面有何意义?
一、当前社交机器人对传播学研究的挑战
社交机器人已然成为传播空间中的重要议题,且对现有传播学研究造成挑战。这些挑战主要表现在数据类型更加混杂、分析逻辑亟需多元化、社交机器人对人产生影响、社交网络空间结构发生改变四个方面。
一是数据类型更加混杂。作为人工智能技术支撑下的新兴传播主体,社交机器人在利益的驱使下模仿人类用户在互联网平台灌入大量信息,形成泡沫数据,污染原先社交媒体环境中人类用户生产的大量数据,甚至扰乱网络虚拟传播市场秩序。(6)荣婷:《机器人水军的演进、问题与治理研究》,《中国出版》2021年第13期,第72-75页;杨慧芸:《隐形操纵与数据污染:社交媒体中的机器人水军》,《新闻知识》2020年第1期,第3-10页。有研究主要分析2020年前三个月Twitter中围绕新冠肺炎疫情的讨论,发现占比6.88%的社交机器人生产了7.34%的推文(7)石韦颖、何康、贾全鑫:《人机交互:社交机器人在新冠肺炎疫情议题架构中的行为分析》,《教育传媒研究》2020年第5期,第32-36页。;另一项针对Twitter上关于叙利亚议题推文的研究发现,在所有推文中由社交机器人发布的内容占比33.5%;而在新闻内容中,社交机器人生产的内容高达52.6%。(8)Norah Abokhodair,Daisj Yoo,David W.McDonald,“Dissecting a social botnet:Growth,content and influence in Twitter”,Proceedings of the 18th ACM conference on computer supported cooperative work & social computing,2015,pp.839-851.因而,随着大量社交机器人在社交网络空间中刷数据、制造流量、争夺注意力(9)黄月琴、黄宪成:《“转发”行为的扩散与新媒体赋权——基于微博自闭症议题的社会网络分析》,《新闻记者》2021年第5期,第36-47页。,社交媒体上的信息成为人类用户与社交机器人共同生产的内容数据,海量杂糅的内容为相关研究带来数据清洗、筛选、管理等方面的难度。
二是分析逻辑亟需多元化。从范畴上来讲,传播学是一门研究最基本的人类行以及这些行为所构建的各种关系的学科。(10)朱春阳、张国良:《2002年中国传播学研究的回顾》,《新闻大学》2003年第2期,第13-20页。一方面,随着社交机器人的加入,行为数据更加多样,且社交机器人行为与人类行为存在差异。社交机器人作为由各种人工智能技术所支撑的传播主体,其传播行为受到技术建构的影响,在社交网络空间中的生产、转发、评论等行为均与人类行为存在一定区别。另一方面,由行为构成的关系网络也呈现出复杂状态。当前的传播并非单一的线性模式,而是网状模式,不同的传播方式就像一张张动态的网络结构将社交媒体用户笼罩其中(11)吴飞:《社会传播网络分析——传播学研究的新进路》,《中国人民大学学报》2007年第4期,第106-113页。,社交机器人的传播行为增加了传播网络关系中的节点、密度等构成,造成关系网络分析的困难。因此,对传播主体的行为分析逻辑亟需多元化,纯粹依靠人类用户传播行为的研究经验很难直接用于分析社交机器人的传播行为。
三是社交机器人会对人类用户产生影响。一方面,社交机器人已经成为重要传播节点,对用户所处的社会传播结构产生影响。在人机交互过程中,主体包括传播主体、实现主体、收受主体、影响主体,各个主体之间相对独立又彼此连接,其中的核心关系是平衡矛盾(12)杨保军、潘璐:《论人机交互新闻中的主体构成及其相互关系》,《山西大学学报(哲学社会科学版)》2021年第2期,第76-82页。,充分体现出用户所处结构的复杂性。另一方面,在这种复杂情境下,人的认知、观念、情感也很难不受到影响。研究发现人机交互过程中用户会产生包括认知和情感在内的社会临场感,而社会临场感会进一步影响其心理体验,重塑用户媒介使用行为。(13)李晶、薛晨琦、宋昊阳:《人机交互中的社会临场感研究——以弹幕短视频为例》,《图书馆论坛》,http://kns.cnki.net/kcms/detail/44.1306.g2.20211012.1020.002.html,2021年11月8日访问。与此同时,社交机器人会使人类自身的情感认同受到影响(14)易显飞、刘壮:《会化机器人引发人的情感认同问题探析——人机交互的视角》,《科学技术哲学研究》2021年第1期,第71-77页。,甚至会让人类更加孤独(15)韩秀、张洪忠、何康等:《媒介依赖的遮掩效应:用户与社交机器人的准社会交往程度越高越感到孤独吗?》,《国际新闻界》2021年第9期,第25-48页。。此外,社交机器人还能够通过冒充现实中的用户影响个体真实的社会交往。(16)李凌、陈昌凤:《信息个人化转向:算法传播的范式革命和价值风险》,《南京社会科学》2020年第10期,第101-109页。因此,面对社交机器人对人类的复杂影响,传播学研究还需要纳入这层关系,充分考察人机交互下各类主体传播行为的多变性。
四是社会网络空间结构正在发生改变。在5G 技术加持下,各类技术层出不穷,不断扩展新闻传播学的学科边界。其中 ,智能技术异军突起,成为传播研究中不容忽视的主体,并伴随带来大量机器生产内容(Machine Generated Content,MGC)。(17)喻国明、曲慧:《边界、要素与结构:论5G时代新闻传播学科的系统重构》,《新闻与传播研究》2019年第8期,第62-70。基于这一变化,社交机器人直接改变了传播结构中的传播者和传播内容两个要素。同时,基于上文提及的人机交互及其影响,社交机器人还会对传播系统中的受众和传播效果产生深刻影响。此外,研究还指出,在人工智能的助推下机器人成为新的反馈通路,人工智能对传媒业产业链的影响之一便是社交机器人正在作为传播渠道实现信息沟通与反馈(18)喻国明、侯伟鹏、程雪梅:《“人机交互”:重构新闻专业主义的法律问题与伦理逻辑》,《郑州大学学报(哲学社会科学版)》2018年第5期,第79-83页。。综上所述,社交机器人对传播主体、传播内容、传播渠道、传播受众、传播效果等要素均产生了影响,因而对整个社会网络空间结构的研究不能忽视社交机器人。
二、现有社交机器人识别方法与指标的局限
已有对社交机器人的识别方法主要有三种,分别是基于众包的识别方法、基于社会网络信息的识别方法、基于机器学习的识别方法,基于这些方法研究人员还开发了相应识别系统;同时,这些方法依赖社交机器人的账号特征、信息特征相关指标实现识别。不过,随着识别研究的深入,这些方法和指标均表现出一定局限性。
(一)识别方法的局限
其一,基于众包的识别方法。基于众包的方式指将识别社交机器人的工作分配给工人,通过传统人工方式对社交机器人账号加以甄别,利用人类智能应对人工智能。众包恶意社交机器人检测系统是其中的代表性系统。(19)Gang Wang,Manish Mohanlal,Christo Wilson,et al,“Social Turing Tests:Crowdsourcing Sybil Detection”,Eprint Arxiv,2012.该系统同时利用了自动识别技术和众包人类智能识别方式,由过滤层和众包层两部分构成。有研究基于众包方式对在线网站中的虚假信息进行识别与标注,以减少虚假新闻的传播。(20)Sebastian Tschiatschek,Adish Singla,Manuel Gomez Rodriguez,et al,“Fake news detection in social networks via crowd signals”,Companion Proceedings of the The Web Conference,2018,pp.517-524.该方法的局限性主要在于,一方面,社交机器人可以快速繁殖且不需要多少成本,但众包方式中的人工成本并不低(21)Kai Cheng Yang,Onur Varol,Clayton Allen Davis,et al,“Arming the public with artificial intelligence to counter social bots”,Human Behavior and Emerging Technologies,Vol.1,No.1,2019,pp.48-61.;另一方面,技术迭代下可以快速产生大量社交机器人,而能够识别的工人在数量上远远不够。同时,为逃避检测,社交机器人能够利用算法快速调整行动方式,对众包人工的培训速度也赶不上算法变化。此外,众包系统中的工作人员还会面临道德伦理问题,其工作过程中随时都在接触大量社交媒体账号的隐私信息,识别过程存在侵犯用户隐私的可能。
其二,基于社会网络信息的识别方法。基于社会网络信息的识别方法将重心集中在社交机器人的关系网络中,以此来区别人类用户和社交机器人账号,其中的重要假设即社交机器人与人类的社交网络关系特征存在差异。该方法中常见的方式有“联结免责”和“蜜罐法”,前者认为“与真实用户产生互动的用户是真实的”,因此人类用户不会与社交机器人产生社交关系,据此可以识别社交机器人;后者则是通过在社交媒体中创建机器人账号来吸引更多社交机器人关注自己,从而发现社交机器人账号。(22)张洪忠、段泽宁、韩秀:《异类还是共生:社交媒体中的社交机器人研究路径探讨》,《新闻界》2019年第2期,第10-17页。该方法能够可视化地展示社交机器人的社交网络关系结构,呈现内容包括节点度、中心度、网络密度、凝聚子群等。但该方法的局限性在于社会网络结构的复杂性。社交媒体传播环境中存在大量信息噪音,社交机器人的社会网络结构中还存在大量的节点和边,受噪音、节点、边的影响,识别过程对算法及相关技术的要求极高,数据清洗与分析耗时严重,并且不能保证准确性,存在识别失败的风险。(23)周钰颖、闵勇、江婷君等:《社交媒体机器人的研究现状、挑战与展望》,《小型微型计算机系统》,http://kns.cnki.net/kcms/detail/21.1106.TP.20210818.1054.030.html,2021年10月27日访问。
其三,基于机器学习的识别方法。基于机器学习的识别方法指将人类用户和社交机器人账号的社交媒体数据转换成机器可识别的特征值供其学习,基于大数据学习帮助机器区分二者。供机器学习的数据特征包括网络特征、用户特征、好友特征、内容特征、时间特征、情绪特征等。(24)Emilo Ferrara,Onur Varol,Clayton Davis,et al,“The Rise of Social Bots”,Communications of the Acm,Vol.59,No.7,2014,pp.96-104.Botometer是利用机器学习方法识别的典型系统,前身是BotOrNot,由印第安纳大学科研机构开发并开放给所有用户使用。(25)Clayton A.Davis,Onur Varol,Emilio Ferrara,et al,“Botornot:A system to evaluate social bots”,Proceedings of the 25th international conference companion on world wide web,2016.研究在考察2018年美国大选、2019年加拿大竞选期间Twitter上的社交机器人时均利用了Botometer进行识别。(26)Luca Luceri,Felipe Cardoso,Silvia Giordano,“Down the bot hole:Actionable insights from a one-year analysis of bot activity on Twitter”,First Monday,Vol.26,No.3,2021;Ludovic Rheault,Andreea Musulan,“Efficient detection of online communities and social bot activity during electoral campaigns”,Journal of Information Technology & Politics,Vol.18,No.3,2021,pp.324-337.该方法的局限性主要在于:第一,社交机器人的各种特征不断变化,为保证高效精确识别,需要不断更新供机器学习的数据;第二,识别过程和效果受制于特征提取和分类算法,不同数据集可能会带来不同结果;第三,Botometer在实践中也暴露出漏洞,研究发现Botometer除了能够识别粉丝机器人外,几乎在所有情况下都无法识别出宣传机器人、广告机器人、趋势话题机器人等。(27)M.Bugra Torusdag,Mucahid Kutlu,Ali Aydin Selcuk,“Are We Secure from Bots?Investigating Vulnerabilities of Botometer”,2020 5th International Conference on Computer Science and Engineering(UBMK),2020.
(二)识别指标的局限
其一,围绕账号特征的识别。过去的研究基于账号特征对社交机器人进行了识别。账号特征主要包括是否认证、是否受到保护、所属地理位置、账号头像、账号描述、个人简介带有链接、账号所使用的设备、账号名称、账号创建时间等。(28)Mucahit Kantepe,Murat C.Ganiz,“Preprocessing framework for Twitter bot detection”,International Conference on Computer Science & Engineering.IEEE,2017,pp.630-634;Sangho Lee,Jong Kim,“Early filtering of ephemeral malicious accounts on Twitter”,Computer Communications,Vol.54,No.1,2014,pp.48-57;Jin Dan,Jieqi Teng,“Study of Bot detection on Sina-Weibo based on machine learning”,2017 14th International Conference on Service Systems and Service Management(ICSSSM).IEEE,2017.基于这些特征能够识别社交机器人的可行性在于:例如,就头像而言,一方面,社交机器人的头像可能是窃取来的,将头像图片在浏览器中搜索能够发现头像来源,因为算法能够自动化地爬取互联网中的任意照片作为头像(29)师文、陈昌凤:《社交机器人在新闻扩散中的角色和行为模式研究——基于《纽约时报》“修例”风波报道在Twitter上扩散的分析》,《新闻与传播研究》2020年第5期,第5-20页。;另一方面,大量社交机器人会使用同一头像,因为拥有一个好看的头像能够博取更多浏览量、关注量。(30)刘蓉、陈波、于泠等:《恶意社交机器人检测技术研究》,《通信学报》2017年第S2期,第197-210页。不过,基于账号特征开展社交机器人识别仅停留在账号表面,早期还能够利用这些特征进行有效识别。但随着社交机器人技术的发展和账号拟人化的深度完善,机器人已经能够轻松调整账号特征,使其看上去跟人类用户一模一样,以回避这些检测指标。账号特征逐渐成为社交机器人识别特征中的辅助特征。
其二,围绕信息特征的识别。相较于账号层面,信息特征将注意力聚焦在账号所生产、传播的内容层面。信息特征所包含的指标包括信息发布时间、信息长度、信息来源、信息主题、信息所使用的语言、内容是否包含外部链接、内容是否带有标签、信息重复性或相似性等。(31)Manul Egele,Gianluca Stringhini,Christopher Kruegel,et al,“Towards Detecting Compromised Accounts on Social Networks”,IEEE Transactions on Dependable & Secure Computing,Vol.14,No.4,2017,pp.447-460;Kurt Thomas,Chris Grier,Justin Ma,et al,“Design and Evaluation of a Real-Time URL Spam Filtering Service”,32nd IEEE Symposium on Security and Privacy,2011,pp.447-462;Amit A.Amleshwaram,Narasimha Reddy,Sandeep Yadav,et al,“Cats:Characterizing automation of twitter spammers”,2013 Fifth International Conference on Communication Systems and Networks(COMSNETS).IEEE,2013.以信息长度为例,有研究对比了社交机器人、意见领袖和普通用户的推文长度,发现意见领袖发布的推文字符数较多,而社交机器人的推文字符数最少(32)马晓悦、孟啸、王镇等:《网络突发事件中社交机器人情感的交互式影响机制研究》,《图书情报工作》2021年第8期,第74-84页。;以信息是否带有外链为例,当社交机器人的目的在于推广某恶意网址或将其他用户吸引到特定网站时,其会在推文中带上链接诱使用户点击。(33)Rashmi Ranjan Rout,Greeshma Lingam,Dvln Somayajulu,“Detection of malicious social bots using learning automata with url features in twitter network”,IEEE Transactions on Computational Social Systems,Vol.7,No.4,2020,pp.1004-1018.然而,信息特征并没有帮助研究者完全有效识别社交机器人。一方面,在技术升级的支持下,社交机器人能够复制和学习人类用户的信息特征,尽可能地表现出高度拟人化的信息特征以回避检测;另一方面,信息特征只是局限于账号内容,而真正能够反映社交机器人目的的是行为数据。基于信息特征的识别同样受到挑战。
三、从传播行为结构建立社交机器人识别指标特征集
与心理学等行为科学一样,传播学是研究人类行为的学科(34)崔保国:《信息行为论——受众研究的一种新思维》,《当代传播》2000年第1期,第34-37页。,尤其聚焦人类的传播行为规律,社交机器人作为社交网络空间中的新传播主体同样需要从行为层面展开研究。社交机器人极力在社交网络中模拟人类的各种行为,但始终与人类行为存在差异。研究指出,社交机器人的行为在数量和程度层面的相似性比人类用户更高。(35)Stefano Cresci,Roberto Di Pietro,Marinella Petrocchi,et al,“Emergent properties,models,and laws of behavioral similarities within groups of twitter users”,Computer Communications,No.150,2020,pp.47-61.还有研究认为,二者差异具体体现在账号特征、发布内容、情感表达等方面。以情感表达为例,人类触发情感的频率高于机器人,且情感表达更为强烈,社交机器人的情感表达则显得比较“笨拙”。(36)洪杰文、许琳惠:《社交网络中社交机器人行为及其影响研究——基于国外相关文献的综述》,《全球传媒学刊》2021年第4期,第68-85页。此外,多项实证研究也支持了网络事件、议题表达中社交机器人与人类用户存在行为差异。对新浪微博数据进行分析后发现,社交机器人发布微博、使用“@”功能、与人类互动的整体积极性低于人类用户,转发微博来源同质性高于人类用户,使用词汇多样性低于人类用户,更关注正面或负面事件,不太关心中性事件。(37)卢林艳、李媛媛、卢功靖等:《社交机器人驱动的计算宣传:社交机器人识别及其行为特征分析》,《中国传媒大学学报(自然科学版)》2021年第2期,第35-43页。学者对Twitter数据分析后同样发现,社交机器人之间的互动明显少于人类用户之间的互动,社交机器人乐于直接转发来自人类用户的推文,而不回复或者引用人类用户的推文。(38)师文、陈昌凤:《分布与互动模式:社交机器人操纵Twitter上的中国议题研究》,《国际新闻界》2020年第5期,第61-80页。围绕与人类用户的行为差异,可以对社交机器人展开识别。
社交机器人在社交网络空间中的最大目的即扩散议题与信息,达到特定传播目的,研究行为的重要性和可行性在于三个方面:其一,信息扩散之路中的传播行为特征是不易改变的,意味着行为结构具有稳定性;其二,行为的稳定性决定了行为的可测量性,能够通过转发、点赞、评论等具体指标客观呈现;其三,相较于账号属性和内容属性,行为属性更能反映传播者的真实意图。因此,本文从行为特征出发提出识别社交机器人的相关指标,同时,考虑到社交机器人社会网络结构的复杂性,进一步结合社交机器人的社会网络和行为特征考察网络行为结构。值得说明的是,基于账号特征和信息特征的识别方法也在不断完善,未来的识别工作并非摒弃这两项指标,而是适当降低权重,配合行为特征以及网络行为结构特征共同展开识别。
(一)行为特征
社交机器人行为特征的相关指标主要包括社交行为、集群行为、情感行为。
首先是社交行为。社交行为主要包括关注与被关注、互动。
关注与被关注。社交机器人很容易与人类建立社会交往关系,其逻辑在于人类在社交媒体上并不排斥来自陌生人的好友请求。有研究将自己创建的社交机器人作为考察对象,发现一段时间内有两百多名用户主动与社交机器人建立了社交关系。(39)高山冰、汪婧:《智能传播时代社交机器人的兴起、挑战与反思》,《现代传播(中国传媒大学学报)》2020年第11期,第8-11页。社交机器人账号最直接的社交行为即关注与被关注,结果体现在关注数和粉丝数。研究针对Twitter上的可疑用户,从关注者和粉丝特征方面发现社交机器人并没有大量关注者,却拥有大量粉丝。(40)Alex Hai Wang,“Don’t follow me:spam detection in twitter”,Proceedings of the 2010 International Conference on Security and Cryptography,2010.与此相反,有的社交机器人账号会不断对各类账号进行关注以寻求这些账号的“回粉”,在这种情况下,其关注数量会大于粉丝数量,并且它们往往倾向于关注大“V”或意见领袖。这些研究表明社交机器人账号关注与被关注特征存在数量上不协调的表现。因此,基于关注与被关注特征可以识别社交机器人。
互动。与社交机器人及人类用户的互动也是社交机器人社交行为的重要表现,通常通过点赞、评论、私信、“@”等方式实现。在政治选举中,社交机器人会大量点赞和评论其背后力量所支持的候选人,从而营造出被支持者更具支持度的虚假景象(41)于家琦:《计算式宣传——全球社交媒体研究的新议题》,《经济社会体制比较》2020年第3期,第107-116页。;社交机器人对人类用户的常见私信行为主要表现在营销类社交机器人、订阅类服务机器人(如天气预报订阅服务)等定期向用户发送信息,且信息具有高度同质性;通过“@”知名人物、意见领袖、议题当事人能够提升信息的扩散速度或明确社交机器人发文目的(42)Chengcheng Shao,Giovanni Luca Ciampaglia,Onur Varol,et al,“The spread of low-credibility content by social bots”,Nature Communications,Vol.9,No.1,2018,pp.1-10.,也是社交机器人的常用互动方式之一。因此,基于点赞、评论、发布私信、在推文中“@”别的用户等社交行为开展识别的方法具有可行性。
其次是集群行为。作为特殊的传播主体,社交机器人往往还会表现出明显的集群行为。在围绕某一事件或议题的讨论中,短时间内会爆发出大量社交机器人大面积参与互动,从而促进信息与内容的扩散。研究发现,在新冠肺炎疫情暴发期间,Twitter上有一大批活跃的用户通过带入#COVID-19、#COVID19标签扩散信息,仅127个社交机器人就集中发布了超过18万条的信息。(43)Ahmed Al-Rawi,“Bots as Active News Promoters:A Digital Analysis of COVID-19 Tweets”,Information(Switzerland),Vol.11,No.10,2020.由此可见,社交机器人一旦产生集群行为,其传播力量是无穷的,极端情况下甚至会快速引发冲突。所以“少量用户通过集群行为传递信息产生极大传播效果”也是能够识别社交机器人的行为特征之一。
最后是情感行为。当前人工智能实践已经能够模拟人类情感供机器去感知、理解(44)邓卫斌、于国龙:《社交机器人发展现状及关键技术研究》,《科学技术与工程》2016年第12期,第163-170页。,使得社交机器人在人机交互过程中表现出情感行为。在技术层面,社交机器人进行情感劳动的逻辑表现在对人类的情感进行计算、编码、复制。(45)蔡润芳:《人机社交传播与自动传播技术的社会建构——基于欧美学界对Socialbots的研究讨论》,《当代传播》2017年第6期,第53-58页。社交机器人的情感行为表现为两个方面:一方面,社交机器人通过文本内容表达较为鲜明的积极或消极情绪。如在参与事件或议题的讨论时,当其使用“很难不支持这项决定”“喜欢这些活动”等语句表达时,能够向其他用户传递积极情感,而“我太累了”“这些都是没有意义的实践”等则会传递消极情感。另一方面,社交机器人与人类用户之间的情感关系更多是“单向度”的。(46)王亮:《社交机器人“单向度情感”伦理风险问题刍议》,《自然辩证法研究》2020年第1期,第56-61页。社交机器人目前还无法完全模拟人类情感,以及在人机交互中根据人类用户的对话进行实时情绪反馈。因此,可以利用情绪表达直接、情绪输出单向、缺乏情绪反馈等特征表现开展社交机器人识别。
(二)网络行为结构特征
单一的行为并不能充分反映社交机器人的意图,需要依赖结构性的网络行为,因而需要结合社交机器人的社会网络与行为特征构建基于网络行为结构特征的识别指标。具体包括不同账号的协同行为、账号间的互动能力。
一方面,依靠不同账号的协同行为。社交机器人的背后是有组织的力量,这些组织为达到特定目的并不会利用单一账号开展传播活动,而是借助批量账号。不同账号的协同行为指标如下所述。
不同账号共同转发、点赞、评论来源较为集中的信息。参与特殊事件或议题讨论,或为达到特定目的,极大范围扩散议题信息,大批社交机器人账号会集中力量提升账号和内容的传播力、影响力。其中的议题信息非常集中,信源也比较单一,因而当不同账号集中转发、点赞、评论同一来源的信息时,这些账号极可能是社交机器人。
不同账号共同使用相同的标签、外链、图片等内容。除了会共同关注、转发来自同一信源的信息外,社交机器人还会在传播活动中利用社会网络关系进行信息扩散,依靠同质化内容表达同一主题,往往通过使用共同标签、外链、图片等实现。通过相同信息表达同一主题能够在短时间内起到造势作用,达到传播目的。因而可借助这些共享主题的行为方式对社交机器人开展识别。
不同账号相互之间存在转发、点赞、评论、“@”等关系。单纯转发来自少数信源的内容可能并不会极大程度地扩大信息的传播力、影响力,此时需要不同社交机器人账号之间相互转发、点赞、评论。多个账号的协同作用于目标受众,实现整体大于部分的涌现演化传播效果。(47)郑晨予、范红:《从社会传染到社会扩散:社交机器人的社会扩散传播机制研究》,《新闻界》2020年第3期,第51-62页。多个社交机器人互动传播,能够在短时间内通过两级传播甚至多级传播促成信息的极大扩散。所以当多个不同账号表现出极其复杂的互动关系时极有可能是社交机器人。
另一方面,依靠账号互动能力。基于多个账号间的互动关系,可分析其具体互动表现以及互动能力强弱,以进一步推进对社交机器人的识别。账号间的互动能力具体指标如下所述。
是否给多个用户私信相同内容。为实现精准推送、定向传播,社交机器人会给用户发送私信。一方面,这是一种“一对多”传播,接收者不仅仅是关注和粉丝列表中的账号,而且在数量层面远远大于发送者;另一方面,内容具有同质性,一般会被用户看作骚扰信息和垃圾信息。Twitter中就存在大量的此类垃圾邮件机器人。可以通过发送私信的数量和内容一致性来识别社交机器人。
点赞、评论、回复评论的速度。作为社会化线索的互动反应速度可以刺激人们对社交机器人的分类。(48)申琦、王璐瑜:《当“机器人”成为社会行动者:人机交互关系中的刻板印象》,《新闻与传播研究》2021年第2期,第37-52页。在人工智能及其算法技术支持下,社交机器人点赞、评论、回复评论的行为基本没有时间差:一条推文发出后,其可以立即点赞并发表评论;对于收到的评论,其仍然可以快速做出回复。因此,可以利用这种互动反应的时间序列差异对社交机器人展开识别。
回复评论的数量和内容。在回复评论的速度之外,回复数量和内容也是社交机器人与人类用户存在差异的指标。第一,社交机器人会回复每一条评论;第二,社交机器人对不同评论的回复内容基本相同,并且比较简单;第三,社交机器人的回复很多时候跟评论是不相关的,存在答非所问的情况。对人类用户而言,这种情况不太可能大量存在,因而能够借此识别社交机器人。
与不同账号间的互动行为差异。此外,还存在一种情况即社交机器人本身也可能无法有效区分社交机器人和人类用户,所以当依靠技术与算法与其他账号进行互动时,其并不会因人类账号和机器账号而表现出行为差异,而人类用户会因此表现出不同。因此,当大量账号之间具有相似的互动行为且差异较小时,其极有可能是社交机器人。
(三)如何构建网络行为结构
如何将上述行为特征、网络行为结构特征层面的指标结构化以应用至实际的识别过程中?首先,需要围绕上述特征对不同网络平台中的社交机器人进行人工标注,找出各个特征指标的大小、具体表现以及在识别过程中的显著性,形成有效数据供机器学习;其次,需具体问题具体分析,各个指标在识别中的权重需要精准计算,应该根据不同平台、不同议题属性的差异设置具有差异化的识别指标权重;最后,除平台层面的差异外,还应该关照时间层面的差异,使得这些指标的结构化保持动态性,在总体稳定的基础上,随时间变化适当调整指标权重,不断提高识别的准确性。
四、基于网络行为结构识别社交机器人的传播学讨论
作为一门研究人类传播行为与过程的学科,传播学为诸多传播行为提供了学理解释。对社交机器人而言,社交关系网络构成了其复杂的传播结构和传播行为,结合背后的技术力量,这种网络行为结构在传播学层面具有一定意义。
第一,社交机器人的传播行为背后实则是人的意志与力量,但是它的行为规律与人类用户不一样,只有识别后才能有效分析。社交机器人的活动行为始终离不开背后操纵者的意图。(49)张洪忠、段泽宁、杨慧芸:《政治机器人在社交媒体空间的舆论干预分析》,《新闻界》2019年第9期,第17-25页。我们必须承认,虽然社交机器人受益于日益精进的自动化技术,但这一切无法脱离技术持有者、购买者、使用者的意志,所以社交机器人的传播行为实则受到人类传播价值和规律的影响。而另一方面,社交机器人的行为与人类用户又存在一定差异,只有有效识别社交机器人才能够分析其中的差异性。对社交机器人的识别同样是对人类智能的考验,识别工作愈发体现为社交机器人设计者和识别者之间的双向博弈。(50)卢林艳、李媛媛、卢功靖等:《社交机器人驱动的计算宣传:社交机器人识别及其行为特征分析》,《中国传媒大学学报(自然科学版)》2021年第2期,第35-43页。
第二,社交机器人信息传播扩散的最大效果是形成回音室,在此情况下,网络行为结构会更加凸显。回音室是指大量同质化的信息传播而形成的信息空间,既是个性化的力量也是封闭的共同空间。(51)凯斯·桑斯坦:《标签:社交媒体时代的众声喧哗》,陈硕、孙竞超译,中国民主法制出版社2021年版,第3页。社交机器人的传播规律受到人类传播规律的影响,人类传播规律的最大特点之一即放大信息扩散效果,实现特殊传播目的。因此,当社交机器人围绕某些议题或时间开展信息传播活动时,多个账号转发相同的信息,相互私信分享信息、点赞、评论以表达共同的主题及兴趣,快速回复来自共同社交网络好友的评论,共同推进信息的扩散效果,导致形成回音室。在此过程中,信息沿着社交机器人的网络关系和行为结构不断扩散,网络行为结构的作用得以凸显。
第三,除回音室的形成外,当社交网络空间中有博弈活动时,社交机器人网络行为结构的特征和作用也会更加显著。我们一再承认并强调社交机器人背后人的意志和传播规律,关键一点在于人类传播行为拥有的特定目的,它有助于我们更好地理解社交机器人为实现特定博弈目标而形成的集群行为,以及集群过程中表现出的网络行为特征。如政治选举中,为营造其背后力量所支持的候选人,批量社交机器人账号会发布大量有助于该候选人当选的信息,从而影响网民对政治实体的认识,甚至影响选举结果。(52)Alessandro Bessi,Emilio Ferrara,“Social bots distort the 2016 US Presidential election online discussion”,First monday,Vol.21,No.11,2016,pp.1-14.实现博弈成功的手段无非是多个账号集中以及相互转发、点赞、评论围绕同一信源及主题的信息,形成内容造势、扩大信息声量。对博弈成功的一方,社交机器人账号网络行为结构的力量不容小觑,特朗普于2016年当选总统就离不开这一过程和机制的影响。(53)Philip N.Howard,Samuel Woolley,& Ryan Calo,Algorithms,Bots,and Political Communication in the US 2016 Election:the Challenge of Automated Political Communication for Election Law and Administration.Journal of Information Technology & Politics,Vol.15,No.7,2018,pp.1-13.
本文创新性地从传播行为结构层面提出的识别指标具有两方面意义。一方面,行为特征弥补了账号特征、信息特征的不足,在识别体系中增加了具有持续稳定性的特征;另一方面,从行为特征到网络行为结构特征,指标关照了社交机器人基于网络关系达到传播目的过程中所呈现的多重行为特征,通过利用多个账号间的协同行为、互动行为开展识别。当然,这些行为特征指标也还存在一定不足:一是网络行为结构本身极其复杂,我们所提出的协同行为、互动行为远不能涵盖社交机器人的全部行为,需要不断研究其行为表现;二是人工智能技术的快速发展持续支撑社交机器人的拟人化进程,越过账号特征和信息特征,未来的社交机器人在行为特征层面也会越来越拟人化,指标需要不断进行完善。
只要人工智能技术不断革新,社交机器人识别工作就始终充满挑战。因此,未来的识别研究、实践还需更加深入地考察社交机器人网络行为结构,持续关注社交机器人与人类用户的多方面差异,完善已有指标,开辟新的指标维度,不断利用技术识别技术,利用技术对抗技术。