算法技术对信息分发机制的创新与反思
2019-04-04李炜娜
李炜娜
(西北民族大学 新闻传播学院,甘肃 兰州 730124)
“算法(Algorithm)”源于计算机领域的专业概念,指一系列解决问题的清晰口令或代码,用系统性方法描述解决具体问题的一种数据策略.而在人工智能和大数据推广应用的今天,算法推荐应运而生.通过大数据分析和信息过滤机制,并根据用户个性化需求,对信息进行深度智能分析来过滤优化,以实现用户信息的科学和深度的匹配.个性化推荐用户的推荐算法已经成为内容生产的“标配”,在目前互联网资本市场赢得了市场价值,成为了互联网资本市场备受瞩目的全新领域.在国外,算法型个性化信息推送以 Facebook 为代表的社交媒体和News Republic 新闻 APP的个性化推送应用、BuzzFeed新闻聚合网站以及Amazon 等电商为代表;在国内,较早使用算法推荐的是豆瓣,目前主要是以今日头条、天天快报等算法类资讯平台为代表.
1 互联网信息分发的发展与模式类型
1.1 由线性信息模式到非线性分发平台
从“人找信息”到“信息找人”、从门户时代的“千人一面”到移动互联网时代的“千人千面”,互联网信息分发由信息分发1.0阶段发展到信息分发2.0阶段.基于底层媒介技术形态不同,传统媒体的分发模式是一种以“内容为王”的固化的线性分发模式,主要依据信息产品的内容来决定分发.新闻内容生产各个环节与分发环节相互依赖、密不可分,受众所看到的是线性生产的相同信息产品.目前“数据技术思维”和“用户本位思维”下的信息分发以2.0为主要模式.
目前,内容生产环节和分发环节已分离开来,新闻内容的分发已成为专业化的独立部门,信息产品集社交、搜索、场景识别、个性化推送以及智能化识别为一体.信息分发2.0主要基于算法技术推荐和三大主流推荐系统:一是基于内容的推荐系统,二是基于协同过滤推荐,三是混合的推荐.例如:推荐算法应用最早的是电子商务网站“Amazon”,它在1998年就推出了基于项目的协同过滤算法,来处理数百万商品,并为他的用户提供精准信息推送.在我国,人工智能信息最早始于 2012 年的“今日头条”,之后搜狐、网易新闻和微博、微信相继在自身产品中添加算法技术,特别是在2016年末(如图1),信息分发2.0 模式的逐步推广,直至 2017 年,互联网信息分发个性化精准推送系统的应用已超过68%.内容分发成了各大互联网巨头的核心争夺资源点.阿里、腾讯等也先后建立起各自的信息分发机制.数据搜索引擎成为分发渠道中的核心技术.状态空间盲目搜索包括广度优先搜索(Breadth-First-Search)、深度优先搜索(Depth-First-Search);状态空间启发式搜索包括:A搜索算法(A search algorithm)、A*寻路(A*Search Algorithm) 、D*寻路(Dynamic A* Search Algorithm).例如:百度推出信息分发2.0模式,即“搜索+推荐”双向智能适配结合的PUSH推荐模式,全面实现及时动态建模和实时匹配计算,将内容智能匹配给定向的用户,以实现界面成像的“千人千面”“亿人亿面”.
图1[1] 人工推送和算法推送演化发展数据
传统的内容分发模式已无法解决海量的咨询数据与用户特定需求之间的矛盾,因此内容的匹配度和推荐精准度成为核心.内容和用户之间从之前的弱链接发展成了新的强连接关系.
1.2 互联网信息分发模式类型
1.2.1 人工采编型
这种信息分发模式多见于传统媒体和Web1.0时期的媒体新闻客户端和门户网站,编辑和记者在这一时期仍掌握着内容生产领域的绝对主宰权,内容的把关和议程设置明显,信息的内容生产和信息分发之间的边界模糊,但其协同性较强地解决了所谓“头部信息”的初级社会化分发,仍缺乏受众的个性化、场景化的信息分发意识.
1.2.2 社群分发型
以Web2.0的博客、微博、微信的社群化媒体为代表的“UGC——社交分发”,充分利用了互联网时代中的“关系资源”,构成了信息产品生产线上的=的“数字劳工”.其分发信息的内容差异主要表现为与个体关联网络社群频度、广度、数量、程度对信息用户的接触以及消费等行为的相关度影响,因此,这一过程已经初步形成了信息内容生产对社群亚文化以及UGC价值共创的社群媒体运用意识.信息内容的价值大多由社交互动来评定信息的价值.
1.2.3 算法分发型
大数据技术推广应用,以Web3.0人工智能化和场景化为特征,数据引擎成为内容“标配”,给用户个性化的推荐以形成“千人千面”的资讯形态.这种全新的信息场景适配方式和感知手段,不仅带来了信息内容生产整合以及分发模式的变革,更重要的是重构了语境的转变以及信息用户的关系赋权.
2 算法技术对信息分发的路径创新
2.1 信息分发2.0用户路径:“用户身份档案”的算法建模
算法技术应用于信息分发的最大优势是能够科学地把控用户的深度画像,信息生产的最初环节以用户的兴趣为起点,以用户的需求为终点.算法基于用户数据化的兴趣图谱、社会关系图谱、生活习惯图谱等,定制用户所需的个性化内容,打通了内容生产与信息需求的深度连接,优化了数据化的新闻生产,带动了业务发展和信息资源生产的研发.目前所使用的用户建模的手段有:①基于爬虫(Spider 技术)、后台数据库以及个人信息档案.②用户网络痕迹的用户画像还原.③用户参与性的评论和转发进行算法型推送.但其局限性多见于文本形式.通过文本语义标签等进行预测和建构,若缺乏语义文本,对于协同过滤类推荐算法无法解决信息算法的冷启动问题.如图2所示,基于追踪用户阅读行为的推荐算法,通过大数据资源库获取用户各维度的信息,建立专属个人的兴趣图谱.其最基本的维度包括用户的性别、年龄、职业、教育信息、兴趣爱好、地理位置等,以及用户行为痕迹(包括点击、浏览、评论、转发、点赞、停留时长等).在用户的“用户画像”系统建模中,性别和年龄可通过第三方社交关联登录获得,用户的地理位置可通过GPS定位获得.除此之外,兴趣类属和场景化还原是通过模型数据评估和预测完成的,例如常见的协同过滤推荐模式.这一环节是算法型信息分发的关键,直接影响“用户画像”的还原度和信息分发的精准度以及用户的产品体验感.
图2[2] 移动网络算法技术的用户信息建模
2.2 信息分发2.0内容生产路径:重构新闻价值的顶层设计
传统媒体时代整个信息制作流程遵循着塔奇曼的“新闻常规”,即依据新闻价值对信息进行流程化的加工和呈现.而数字革命的发展拓展了信息生产领域边界,同时也重构了新闻价值的内涵.以前学界界定的新闻价值主要涉及:真实性、时效性、显著性、趣味性、接近性五大方面,而当今“大数据+”的思维下,“内容文本标签”的意义和“边生产+边分发”的内容生产样态,使得新闻价值演化为:即时性、标签性、交互性、情景性和世俗性.整个信息生产和分发在遵循重构后的新闻价值的标尺上,从选题策划,信息采集,信息加工到信息反馈进行了顶层设计,形成了人机协同,相互校正的形态,提升了对外部信息的抓取、整合以及场景适配的能力.
2.3 信息分发2.0平台路径:拓展平台边界摆脱“冷启动”
算法技术应用的平台路径分为技术路径和社群路径.其中技术路径最为直接的代表就是采用了第三方登录的形式.一般采取“投靠原则”,即向“BAT”(百度、阿里巴巴和腾讯)靠拢,通过较为成熟和完善的平台直接快速地获取用户的个人信息以及兴趣图谱,摆脱了算法冷启动的困境.腾讯通过微信支付,可以拿到交易金额的数据,但却拿不到如商品名称、商品单价等更有价值的交易数据;而阿里巴巴除了丰富多元的电商交易数据外,还可通过菜鸟获取仓储物流的数据,通过饿了么等获取餐饮交易数据,通过蚂蚁金服获取数据、通过盒马获取线下零售数据等.另外,人际社群路径则建立在用户协同机制的自组织传播,用户数量巨大,需要用户生产与传播内容,用户之间交互,用户与系统之间的信息交换,来不断充实和完善数据库,使得算法路径从简单走向复杂、从无序走向有序、从信息与用户的弱链接走向强弱链接的交融互动.
2.4 信息分发2.0营销路径:重构信息价值变现思维
达拉斯·斯麦兹曾提出的“受众商品论”在算法技术争夺信息资源市场中,已失去它原有的解释力,发展到今天“数字劳工商品”化,逐渐拨开了当下互联网商业运作的迷雾.用户不仅仅消费信息产品,同时也在生产和“搬运”着信息产品.例如喻国明老师提出如图2数据平台的资本运作流程中,个性推荐系统智能分辩用户消费行为以及知识付费趋势是关键.因此从广告营销角度讲,推荐系统的数据提取、分析,广告的投放,是一次从用户量级到精准度的投放.广告信息流产品打通了用户搜索和信息获取的便捷路径,开始让“广告内容化”“投放定向化”“广告交互化”,真正实现“千人千面”2.0广告推送营销模式,极大地降低广告的投放成本,优化了广告宣传渠道,形成了“利基市场”形态下的精准推送.
图3 数据平台的资本运作流程
3 算法技术对信息分发的范式创新
3.1 回归“用户本位”的传播价值
传播过程中受众本位的传播思想的理论支撑是“使用与满足”,著名大众文化理论家费斯克提出:受众是意义的生产者,有能力根据自己的文化背景和社会经验对文本进行解读,从而生产出自己的文化,其阅读行为是“在已有的文化知识与文本之间建立联系”[3].算法型的信息推荐不仅激活信息资源的深度价值,使得用户地位升级,更使“传者本位”向“受众本位”转变,促成了用户社交需求和价值认同的相互对接.情境,西方学者戈夫曼、梅罗维茨、伊尼斯等学者从不同维度阐释其意义.在不同学术领域也可以找到情景的踪影,例如社会学的situation,电影学的scene,物理学中的context field,以及舞蹈学中scenery等.其中具有代表性的媒介情境学创始人梅罗维茨则认为媒介的出现,打破了社会交往中的前后台区间,也经媒介产生了新的场景形态.如鲍德里亚的著作《仿真与拟象》中解读现实场景下的“拟象”.智能算法技术下,信息用户逐步建构起自我创作与人机互动的模式,同时通过符号的表征形态延伸出自我沉浸的实际场景和虚拟场景之间的切换.
3.2 用户关系赋权的新建构
基于算法技术的场景适配是未来信息资源的核心.场景的本质不仅要适配信息分发与提供精准服务,更要重构适合社会关系以及用户赋权关键的助力.由于算法型场景适配从本质上革新了人与信息连接的方式,推动了信息生产以及分发的重心偏移,同时使得网络社会化组成从差序格局、团体格局向开放、互动的分布式网络转型,这必将带来更为隐秘的信息与用户之间的新型赋权关系.
算法推送下的信息除更加小众化、个性化、场景化外,还形成了一种平民化、交互性、协商式的叙事方式.互联网算法作为一种新的权力来源,它对于用户个体与主体权利被激活,将特定的“官方话语”“官方议题”以及被算法推送的“民间议题”被解构.这与以往信息传播相比,已经发生了赋权范式性的变革.原本分散、微弱、边缘化的用户力量在互联网算法技术的推动下形成聚合、延伸为主导力量,产生了更为深远的信息内容“长尾效应”.
4 信息分发2.0的“算法风险”与优化策略
4.1 算法“黑箱”:更隐蔽的算法偏见
人工智能和算法运用在新闻生产领域,在目前的技术维度上分为机器学习、自然语生成和处理、语音交互、视觉信息处理以及机器人技术,其中机器学习是整个新闻数据处理的关键所在.机器学习技术分为监督式机器学习和无监督式机器学习.无监督式机器学习无固定数据输入(出)以及运算模板,这种大数据处理方式将新闻生产置于“技术崇尚”和“科学神话”的“黑箱”中,而黑箱的内部运算透明度差且运算复杂让人难以驾驭,例如:奥地利符号计算研究所的Christoph Koutschan博士曾在他的论文中谈到了32个人核心的大数据算法,例如分支界定算法(Branch and Bound)、Buchberger算法、Diffie-Hellman密钥交换算法、Dijkstra算法、LLL算法、Q-learning学习算法、RSA——公钥加密算法、Struk turtensor算法等.“黑箱”中所产生的算法偏见就显得愈发隐蔽.这其中的算法偏见包括算法设计者的偏见、数据输入(出)的偏见,算法运算的偏见等.目前算法技术的发展在一定程度上显示了场景适配力的精确性,但容易在实际信息分发中产生“噪音”.笔者认为其算法型推送的用户场景的适配主要体现在以下几点:①画像的逼真性;②场景的高度还原性;③推送信息场景的偏移性.这些都在算法的黑箱中建构拟态环境,更为隐蔽地影响用户的判断和认知.
4.2 用户“个人日报”:非制度性地建构“社会共情”
“信息茧房”是哈佛大学教授桑斯坦在《信息乌托邦》中提出的概念,指在信息传播中,因公众自身的信息需求并非全方位的,公众只注意自己选择的东西和使自己愉悦的信息,久而久之会将自身桎梏于像蚕茧一般的“茧房”中[4].算法推荐在提升了分发信息的精准度及用户信息产品的适配体验的同时,不断固化和狭窄化用户对外部世界认知的边界,在加固已有的认知偏见的同时对受众进一步进行“社会共情”的建构.“信息孤岛”让人们开始反思技术带来的双面性.麦克卢汉理论中的“媒介即人的延伸”放在智能算法推荐技术中,无疑是对人体更深层次的延伸,是对人类认知、行为、思维功能的延伸.但盲目的技术崇拜只能将信息生产者与信息用户的能动性扼杀,我们需要思考是否应该对技术设限,例如人工冷冻“标题党”和给“热点”降权.
4.3 算法技术的牢笼
北美媒介技术著名学者保罗·莱文森的“媒介进化理论”,对技术的迭代和发展持有一种较为乐观的哲学态度.这种态度基于对“技术中立”的秉持.我们在算法的语境下所强调的“技术中立”,应是强调算法本身就是中立的,不做价值判断,只看合不合规,将选择权交给读者.但算法模型和个性化推荐系统都是人主观创造的结果,是一系列代码和程序经人之手,自然在数据提取、处理等环节不可避免地受到人的主观影响,因此一味地将价值的选择和判断标准下放于用户,会给算法技术背后埋下算法伦理的“陷阱”.算法技术本身不具有价值取向,但通过人工智能的筛选和识别,对内容的真伪、优劣、雅俗等内容,很难进行充分“把关”,信息垃圾将无法避免.因此,应在工具理性和价值理性中找到平衡点,人、技术与伦理道德三者之间相互影响、融合交汇,应摒弃单一片面的技术决定论,形成算法背后较为客观的社会技术整体互动论.例如:2018年4月“今日头条”因发布低俗视听信息受到了查处,这是因过于盲目迷信算法推荐和智能分发机制所致.在此之后“今日头条”也在不断探索一条算法技术整体互动之路,做好工具理性和价值理性之间的平衡.
4.4 算法分发技术的优化策略
4.4.1 算法透明(algorithmic transparency)
让算法“黑箱”增加透明度,无监督式的机器算法与监督式机器算法协作生产,同时在法律层面确保大数据的安全性.把算法素养纳入新闻传播教育的范畴中,提高新闻从业人员和公众的数据专业技术和意识.
4.4.2 在深度挖掘用户信息和“数字遗忘权”中找到平衡点
信息的分发基于用户的兴趣图谱的清晰度,而这就要求数据挖掘的深度和精度.目前业界也在致力于用户数据的深度挖掘,进一步进行流量争夺,例如:百度的“聊新闻”通过人机交互进一步挖掘用户潜在的需求,而这其中规避不了个人隐私权的探讨,特别是近些年被关注的欧盟提出的“数字被遗忘权”.用户个人数据意识的觉醒是一个技术时代的进步,但如何在“用户思维”和“市场逻辑”中找到平衡点,将决定算法技术分发是否能在大数据时代既被用户“叫好”,也被资本市场“叫座”.
4.4.3 优化算法迭代效率,构建算法评估体系
想要不断优化算法的规则和策略,需要建立一个算法评估体系.这种评估体系从信息推荐系统的适配性入手,分析微观的语义、词频等,以此进行实时监控确保算法模型的科学实用性,同时需做到兼顾短期指标和长期指标、兼顾用户图谱指标和信息生态指标,必要的时候需要做具体要素的隔离统计和建模.只有建立长期的、稳定的、高适配性的算法评估体系,才能保证反向的实时监控,个性化信息分发模型的科学性、可适用性的充分发挥.
5 结语
用户个性化的内容诉求逐渐觉醒,对信息的“量”的追逐转变为对内容的优质、精准的需求.人工智能算法技术使得移动端的内容创业从野蛮生长过渡到一个有秩化的发展阶段,是人和媒介以及社会三者的更高境界的融合.而基于用户建模的“算法”分发是否会有更多的“噪音”、是否会造成新的“知沟”“爬虫”等技术,涉及侵权等问题,是人工智能面临的挑战.人们应该包容地接纳技术、灵活地使用技术、积极地发展技术的同时,更应该用理性的思想判断迎接和使用大数据.