APP下载

算法推荐的法律问题及对策

2019-02-11

关键词:算法用户信息

黄 琪

(明光市人民法院,安徽 滁州 239000)

自人类进入互联网时代尤其是大数据时代以来,我们接受信息的途径越来越多元化,对需要的信息或感兴趣的新闻,我们往往通过点击行为进行“投票”。对于当今的网络服务提供者而言,“得流量者得天下”,流量就是关注度,而如何获得用户的流量,这就需要大数据支撑,通过对用户数据的挖掘、收集、分析与利用,掌握用户的关注意向与行为踪迹,从而为用户精准推送信息,成为市场的“宠儿”,进而在市场竞争中占得先机。算法推荐的背后,数据的处理已超出我们的认知与授权范围,一切与个人有关的信息,无论是已经公开的还是采取保密措施的,均在数字空间无处遁形。算法推荐在给我们带来精准与个性化服务的同时,我们亦不得不警惕它给当前公民权利乃至公共秩序带来的冲击与挑战,而如何面对此种变局,正是本文讨论之所在。

一、算法推荐的定义与工作原理

随着互联网逐渐智能化以及各种消费的深入发展,互联网逐步成为用户个性需求的理解者与提供者,用户不再需要耗费大量的时间、精力即可享受到高效、便捷、个性化的网络服务,而算法推荐就是用户能体验此类服务的关键推手。

(一)算法推荐的定义

算法推荐由“算法”+“推荐”组成。其中,“推荐”为最终呈现在用户眼前的决策结果。而“算法”则为运作的过程或原理,对于用户而言,算法极度复杂,作为一种技术“黑箱”,用户只能被动接受由它带来的结果而无法洞悉、操控其运行过程。对于算法究竟是什么,可以将其理解为一种计算机程序,是逐步执行程序的一组指令[1]。在算法推荐中,“数据”是输入的原料,“推荐”为输出的结果,而“算法”则是中间的运行过程。没有“数据”与“算法”,“推荐”便无从谈起;没有“推荐”,“数据”与“算法”就无法实现预期目的,故“推荐”是“数据”与“算法”的终极任务。从本质上而言,算法推荐属于算法决策的一种。对于用户而言,“数据”与“算法”皆不可视,唯有“推荐”的结果才是最直观或与自身利益最密切相关的。

算法本身不生产任何信息,它只是将互联网中的信息通过智能计算以决定是否推送或“雪藏”,从而实现设计者或使用者的特定目的。算法没有自己的思想情感与道德伦理,它不对所推送的内容进行价值判断。算法推荐作为一种被广泛应用的智能技术,用户无需付费便可享受由其带来的服务。因此,算法推荐可以简单易懂的定义为:依靠智能算法精准、高效推送(提供)信息服务或咨询决策的一种技术。

(二)算法推荐的工作原理

算法推荐目前主要的运行机制包括协同过滤算法、基于内容的推荐算法。协同过滤算法的工作原理为收集、分析不同用户的数据并计算出用户之间的相似性,进而生成与目标用户兴趣爱好最相近的top-N项信息并予以推荐。而基于内容的协同算法主要根据用户的历史行为信息来预测用户喜好并推荐与其喜好相近的信息。无论何种算法推荐,其目标均在于对资讯、商品、服务(在互联网中,此三项内容均以信息的形式推送给用户,故可以“信息”术语统称)等内容向用户进行精准推送与有效供给,因而被广泛应用于网络传播、搜索引擎、电子商务、社交网站、数字化图书馆等领域。算法已经深度介入了人类的生活,我们在网络空间所看到的、所享受到的(甚至权益被损害)基本上是算法推荐的结果。

在传统的纸媒时代以及互联网初期阶段,对信息的投送主要采取“狂轰滥炸”的模式,面对海量、杂乱的信息覆盖,用户只能被动接受。伴随着消费的深入发展以及技术的进步,网络服务提供者纷纷采用“精确制导”模式,摒弃低效率的投送模式,追求信息与用户的精准匹配,达到个性化推送效果,以增强用户的“黏性”,力求提高经济效率与市场竞争力。要实现“精确制导”的效果,两个条件至为关键:一是要有丰富的数据(没有数据,就无法准确定位用户的需求与喜好,更不可能“投其所好”);二是技术的进步能够对数据进行计算与分析,并将结果推送给用户。由此可以归纳为,算法推荐需要数据支撑与技术支撑。

二、算法推荐引发的法律问题

(一)信息隐私问题

在工业时代,石油是机器与工厂得以运转的关键资源,而在算法社会,数据对算法与人工智能的发展至关重要,以至于硅谷有言“数据就是新石油”。廉价且便利地收集、整理、分析巨量数据是算法社会得以建立的前提。如果用户不提供必要的个人信息,就很难在网上进行各种交易(如网络购物)或享受各种网络服务(如网络社交)。但这并不意味着网络服务提供者可以对用户提供的信息(或隐私)进行“任性”利用,这涉及到“信息受托”(Information Fiduciaries)问题。传统的信息受托最典型的莫过于医生和律师,他们都收集并知晓客户大量的私密信息,而客户愿意透露敏感的个人信息是因为需要他们的专业服务,但医生与律师有义务对客户的信息保密并不得用于其他目的。而在网络服务中,用户与网络服务提供者可能存在或不存在契约(或准契约)的关系。在存在契约(或准契约)的关系时,二者分别扮演信息委托人与信息受托人的角色,从用户角度而言,其真实意思为委托网络服务提供者对其提供的个人信息在特定范围内进行合理使用以换取各种服务,而网络服务提供者应接受委托审慎、合理使用用户的个人信息以提供服务并承担用户隐私保护义务。在不存在契约(或准契约)的关系时,网络服务提供者则须承担“公共义务”(Public Duties),对用户的个人信息仍应合理使用并承担隐私保护义务[2]。当然,这仅是一种理想状态,互联网的现实境况并非如此。

在互联网上无论是注册个人信息还是浏览新闻、商品等信息,均会遗留记录,而用户在互联网上的一举一动经过复杂的后台处理会转化成可供处理、分析与利用的数据。用户在互联网上留下的“脚印”愈多,其个人数据库就愈完备,其个人特征、环境特征等信息愈容易被算法计算出来,从而可以被精准地推送其所感兴趣的信息。算法并没有奇幻的“魔力”,没有数据的喂养,算法推送的信息是不可能主动精确寻找(匹配)到个人。用户在享受便利的同时,其个人隐私也在不知不觉中被侵犯。以网络传播中的算法推荐为例,要实现新闻的个性化推送,首先就必须广泛挖掘用户的浏览关注记录,对用户的喜好进行分析总结,绘制出用户画像(它是通过对用户信息的收集、利用而形成的网络个性档案,这在很大程度是建立在侵犯用户隐私的基础上),然后计算每条新闻与用户画像的相似度,将相似度最高的新闻推荐给用户,从而达到个性化推送的效果[3]。再比如,电子商务网站根据用户以往的购买记录或相似用户的购买行为或商品之间的关联精准推送商品信息,使用户免于在“琳琅满目”的商品中费力找寻自己满意的商品。在某种情况下,喜欢阅读何种新闻或喜欢购买何类商品可能是用户的个人私密,而互联网通过算法推荐以隐晦的方式告诉用户“你喜欢什么、你干了什么、你将要做什么,我全都知道”,不仅知晓已经存在的隐私,未来的隐私脉搏也被把住。在互联网中,无需见面沟通,仅凭用户的“只言片语”便可勾勒出其网络形象,用户为保护其隐私而采取的保密措施在强大的算法技术面前也基本上形同虚设,在算法社会,网络用户基本上无隐私可言。

(二)算法损害问题

“算法损害”(Algorithmic Nuisance)源于网络服务提供者通过多种途径收集用户数据,利用算法对用户进行决策的事实[4]。由此可知,算法损害来源于算法决策(决策也是一种推荐,其通过算法的结果对我们施加压力或影响)。

关注算法损害(负外部性)有两条路径:(1)算法内部的设计规则;(2)算法外部的行为与后果。我们通常过于相信算法的客观公正性与有益性而忽视其负外部性。算法的内部设计以及数据的质量决定着算法的结果。算法的设计目的、设计理念等无不渗透着设计者或使用者的主观选择与价值追求,设计者或使用者的走偏会导致算法结果的走偏。另外,数据是算法赖以生存的养料,数据质量本身也会影响着算法的最终结果,数据是社会现实的反映,本身可能带有瑕疵,由瑕疵数据喂养的算法可能造成所谓的“带病进出”现象。

算法损害对公平正义的影响是巨大的,主要体现在名誉伤害与歧视两方面[2]。算法损害名誉存在两种途径:分类与风险评估。算法通过判定你是一个有风险的人(财务风险或犯罪风险),或把你分类到一个特定类型中(对个人而言是一种耻辱),对你进行不公正的对待(评价)或排斥你享受公平服务的机会。而歧视是根据风险评估和/或分类工作,来决定是否给你提供一些机会,或将他人无需承担的成本强加于你。算法歧视会体现在诸如性别、种族、贷款、就业等方面。比如,在许多网络广告服务中,男性群体会比女性群体看到更多的招聘广告。招聘算法会将特定种族背景的人排除在劳动力市场外。未能充分积累个人声誉与信用评分的社会主体更容易被排除在征信系统外。

公平正义作为社会的基石,不仅是法律的灵魂,更是文明的标尺。当今社会越来越依赖于算法进行决策,而算法决策缺乏正当程序、透明度与可解释性,这导致算法在影响福利、损害公平正义时,我们基本上无能为力。另外,算法会固化或放大弱势群体的缺陷,导致弱势群体越来越被无情排斥,进而造成“马太效应”,这不仅违背了法律的公平正义精神,也给整个社会造成无法弥合的裂痕。

(三)算法权力(操纵)问题

在当今,无论对于政府还是企业而言,以模糊的经验或通过旷日持久的调查(考察)作出决策无疑是不符合时代潮流的(决策的科学性与准确性另当别论)。因此,算法不可避免的被引入决策的过程中,甚至在某种程度上,算法主导了决策。当人类社会绝大部分事务的处理离不开算法时,算法权力便产生了。算法给商业/公共机构创造了操纵人类的机会,同时还刺激人类使自己的生活顺从算法的要求以避免不利判断。在当今时代,人类看似获得了极大的自由,却正不知不觉中“通往被算法奴役之路”。

奥威尔(George Orwell)在《1984》一书中为我们刻画了一个对人民生活进行无孔不入的监视与操纵的极权社会,在这个社会里,老大哥(Big Brother)控制着一切,人民的自由被剥夺、思想被钳制,生活在单调乏味中循环。算法就是当今时代的老大哥,它已经规划好了轨道与路线,公众只需按照指定的方向前进即可,而无需思考为什么,算法无时不在引导着我们的行为,塑造着每个个体以及社会。在传播领域,算法的“信息茧房”以及“回声室”效应塑造着人们的认知与行为模式,控制着我们对世界的看法与主张。在金融领域,算法可以决定是否给某个用户发放贷款以及贷款的具体额度。在司法领域,算法对嫌疑犯的犯罪风险进行评估,决定量刑的程度。算法操纵最典型的例子为在2016年美国总统大选期间,剑桥分析公司利用Facebook的用户信息帮助特朗普竞选团队量身定制并投放政治广告,对特朗普的最终当选发挥了重大作用。投票给哪位总统候选人看似由选民自由(主)选择,但算法早已通过其“无微不至”的力量将我们变为其傀儡,我们所享受到的权利与自由实际上并没有翻出算法的“五指山”。虽然算法权力也会对公平正义造成影响,但它更主要的是对自由的桎梏。保障个人自由是各国宪法的精髓,自由是所有社会的目标,公共道德、私人道德以及技术的进步皆依赖于此[5]。没有自由,便无所谓人之尊严。自由存在实体自由与程序自由,然而算法的结果以及算法的黑箱使得个人自由与公开、透明的决策程序不断被侵犯。我们被算法套上枷锁,自由意志被否认,尊严被践踏,法律原始的保障程序被破坏。面对新的权力格局和权利处境,法治的方向在哪里?未来的法治秩序将是何种面貌?

(四)虚假新闻、低俗不良信息的泛滥问题

自人类有传播活动之始,虚假新闻、低俗不良信息便已有之。传统纸媒在制作、分发信息的过程中存在着编辑等职业把关人的理性判断与价值抉择。而算法能自动计算出热点信息的内容、主题词、标签等以指导发布机构创作迎合用户需求的信息,并且算法掌握了信息的分发渠道。对虚假新闻、低俗不良信息的泛滥,算法起到推波助澜的作用。

虚假新闻缺乏媒体编辑的规范标准以及保证信息准确性与可信性的流程[6]。在算法时代,互联网是虚假新闻传播最重要的主渠道与推动者,网络平台不仅提供发布虚假新闻的媒介而且提供工具促进其传播。某些网络平台为吸引眼球而故意制造虚假新闻博取关注,借助夸张的标题和内容获取用户的流量,从而吸引企业投放广告并以此牟利。算法并不能识别虚假新闻,而极具争议或热点的虚假新闻以及由此衍生的话题更容易被算法捕捉并被推送,从而出现虚假新闻层出不穷、被广泛传播的情况。虚假新闻对当事人的损害无疑是巨大的,在公共领域,虚假新闻的传播甚至会危及社会公共秩序与国家安全。

当今互联网中低俗不良信息的泛滥,算法推荐难辞其咎。算法推荐具有天然的“逐热性”,哪种信息热度高、受追捧就推送哪类信息,并在推送的过程中不断固化、泛化。但是我们应认识到,算法结果的优劣程度往往与算法设计与输入数据的优劣存在着正向比例关系,而设计与数据来源于人类,并非都是完美无暇的。算法不可避免的承继了人类的局限性。有报道将诸如快手、火山小视频、内涵段子等平台的崛起形容为“电线杆式的低俗生意,裹上了算法的外衣”[7]。虽然何种信息可被推送、推送给哪类用户被算法控制,但算法体现的是设计者或使用者的价值取向与利益追求。算法的背后,是思想认识的外化与价值观念的传导。某些网络服务提供者为利益的最大化利用算法推送低俗不良信息,不仅违背了法律的公序良俗,还“喂食”着低俗平庸的民众与社会,贻害无穷。

三、算法推荐问题的解决方案

在算法的深度介入下,我们在“无处不计算”的环境下精准生活,同时逐渐沦为算法的“瘾君子”,自身的合法权益乃至公平、自由被无形剥夺而不自知。为创制出有利于算法健康、有序发展的规范体系,本文提出如下构想:

(一)隐私保护责任,由数据主体转向数据控制者(或使用者)

隐私作为一种没有公开或所有者不愿意被公开的个人信息,其核心准则为由隐私所有者自主决定、自我控制。隐私包括“直接隐私”与“间接隐私”,“直接隐私”为由所有者采取保密措施保护的隐私,“间接隐私”为从公开的个人信息中挖掘到的隐私。无论是“直接隐私”还是“间接隐私”,均在算法中被转码成可供计算机读取、识别的数据代码。

在算法社会,数据无时无刻不在流动与使用中,如果仍沿用传统的“告知与许可”规则,无疑会造成数据流“堵车”,影响效率。这就需要设立一个全新的隐私保护模式,此模式的重心并非放在收集数据之初取得数据主体的同意与许可上,而是着重于让数据控制者为其行为承担责任。如此,无须再取得数据主体明确之同意便可对数据进行收集与利用,但这并不意味着数据控制者可以滥用或不合理利用数据,一旦出现损害数据主体合法权益的事实,数据控制者则须承担诸如民事赔偿、罚款甚至刑事处罚等责任,只有在具备强制力规范的情况下,数据控制者才会正确评估数据使用的风险、规避或者减轻潜在的伤害,也才能确保责任履行到位,改变隐私保护中数据控制者开“无轨电车”的局面。此外,数据掌握在数据控制者手中,它是数据使用的最大受益者,也比任何其他主体更明白应如何使用数据以及保障数据安全(它具有使用数据与保障数据安全的强大技术条件与优势),若造成不利后果,应由数据控制者承担责任。算法社会纷繁芜杂,如不将隐私保护义务由数据主体转向数据控制者,个人将无法应对允许数据使用或拒绝使用所带来的未知结果。而通过转向,将责任“打包”给数据控制者(本文所讨论的让数据控制者承担责任的前提为数据主体已对其隐私尽到合理的注意保护义务),这一操作看似简单,实则蕴含着法律背后深厚的价值逻辑。数据主体与数据控制者之间存在巨大的“数据鸿沟”,如果法律不将此鸿沟填平,则数据主体将长期处于不利地位。正如在环境污染侵权纠纷中,由侵权人(污染者)而非被侵权人承担举证责任,通过举证责任的倒置,以缩小双方之间的不对等地位,维护法律的公正。

(二)干预算法设计,完善事后救济,加强政府监管

如上文所述,算法推荐要发挥作用,需要技术支撑与数据支撑。当今算法所衍生的一系列问题可以从这两个方面寻找到根源。阿西莫夫(Isaac Asimov)提出著名的“机器人三定律”,试图为机器人立法提供指引。尽管他并未验证技术上的可行性,但从源头上提出了使人类免受机器人侵犯或伤害的制度设计与构想,这对于干预算法设计,从源头维护公平正义、公序良俗无疑具有借鉴意义。干预算法设计须从二“源”着手——技术“源”与数据“源”。算法的设计理念、技术标准、目的等要素无不凝结着设计者的主观选择与价值取向。算法在表面上就缺乏法律的公正性与普适性,它毫不掩饰地服务于设计者或使用者。这便需要依靠算法的顶层设计来防止消极后果。这种“顶层设计”可以称为“算法的宪法”,其制定或生成需要法律人士与技术专家共同合作,以使算法进入法律,法律进入算法,从而使算法符合人类的法律与伦理[8]。对算法的顶层设计,最主要的是制定相关规则对算法设计者进行约束,对算法预设道德准则,进行伦理指引,也即在设计过程中将人类社会的伦理、道德、法律等规范嵌入算法之中。另外,数据喂养着算法,通过数据的净化可以在很大的程度上优化、纠偏算法,使算法成为社会公正以及法律良好秩序的维护者而非破坏者。这可从以下方面展开思考:对算法需要的数据或信息资源进行管理。譬如,征信系统不得收集用户的性别、种族、政治倾向、私人财务状况等带歧视性信息;禁止以信誉积分的多寡作为推荐服务或利益机会的依据。通过干预算法设计以及净化数据,让算法的结果符合良善的社会价值理念与法律追求。

除了需要事前干预算法设计外,还须扎牢事后救济的防线。事后救济是弥补民事主体权益损失的最后救济路径,其思路为法院或监管者通过后果进行个案判断,而无需深入算法内部或审查算法本身(即便深入算法内部或审查算法本身,他们需要依赖具有这方面专业知识的人,这可能会导致法官偏离法律问题而陷入陌生领域)[9]。需要注意的是,算法损害可能是设计者或使用者故意造成的,也可能是由算法自身的缺陷导致的,无论是恶意为之还是缺陷所致,根据目前的法律规则,责任仍应由算法设计者或使用者承担(在设计者与使用者之间存在雇佣关系时,适用转承责任)。然而在算法大行其道的今天,以后果施加责任并不是无虞的,事后救济过弱则无法达到弥补损害、维护公平正义的效果,事后救济过强则会提高算法设计者或使用者的成本、打击技术进步的积极性。这需要在权益救济与促进技术进步之间达成一种平衡,当然,这有赖于法院的具体裁量、个别衡定。

此外,为防范算法对公平正义、公序良俗带来系统性风险,建立以政府监管为主要内容的监督体系也是重要的一环。事前干预算法设计过于复杂,事后进行权益救济则过于缓慢,而政府监管一般会带来立竿见影的效果。政府根据相关法律法规的规定,通过约谈、责令整改、行政处罚等措施减少或剔除算法的不良影响,净化社会环境。但我们应认识到,政府监管一般只能带来短期效果的改善,即使没有今日头条,也会出现“明日头条”,没有快手,也会有“慢手”。要想彻底改变算法“行恶”,还须算法本身具有道德与良知,这才是长久解决之道。

(三)打开算法“黑箱”,反数据垄断

算法作为一种技术“黑箱”,其决策程序不公开透明且超出正常理解范围,这导致普通公众在算法“黑箱”面前基本上无计可施。人无法控制或约束自己不懂的东西,因此,要打破算法权力,打开“黑箱”便成为必然要求。即便算法“黑箱”非常复杂,一旦有相关要求或存在某种压力,技术界便会想方设法使算法之可解释成为可能。比如,谷歌大脑计划研究员Chris Olah完成一项“可解释性的基础构件”(The Building Blocks of Interpretability)的研究成果,该成果使算法的运作状态回归“人类尺度”,能够被普通人看懂和理解[10]。可见,让“黑箱”可视化或可理解在技术上是可行的。当算法权力较大、支配性较强时,建立算法的审查监督体系就尤为重要。对此,可以参照传统“黑箱”的处理规则,法律应要求数据企业用自然语言定期披露或公开其算法“黑箱”,推行透明的算法披露机制,解释算法设计原理,透明算法运行程序,评估算法结果,以消除公众对算法的困惑或误解。另外,还可以考虑设立由计算机科学、数学、统计学等领域的专家组成的“算法审计师”,定期审查与监督算法“黑箱”并向公众出具审查或监督报告,在案件遇到算法问题时,还可以作为专家为案件审理提供援助。至于“算法审计师”的公正、资历以及专业水准等条件可另行通过制定规范标准进行约束。数据企业内部可设立“算法合规师”,监督算法的日常运转,对算法的负面运作进行预警,确保企业合理使用算法。通过这一系列设计,让算法“黑箱”暴露于阳光下,规避算法权力的“任性”。

数据是算法得以运行的基础,因此,算法权力就是数据权力。为防范政府权力过于集中带来的风险,“三权分立”便应运而生;为规避托拉斯对市场的垄断,反垄断法被制定出来。当人类将大量事务交由算法决策时,我们就被数据统治着。当今,数据日益集中在少数互联网巨头手中,他们通过“先占”契机已经在数据领域积累了极大的优势地位,甚至公权力部门也不得不求助于他们,以进行决策、立法、执法等活动。“绝对的集中会导致绝对的权力”,这就需要在数据领域中引入反垄断制度,遏制数据巨头在市场上“攻城略地”,在隐私与数据安全得到严格保障的前提下,应允许企业间的数据交易或强制数据共享,以分散数据的集中带来的权力集中,构建多样、多元的社会格局以及自由的人格。

四、结语

算法是科技与人文发展到一定阶段的产物。不经意间,算法已成为人类“躲不掉、离不开、失不得”的一部分。算法在给人类社会带来巨大福祉的同时,也对隐私保护、公平正义、自由以及公序良俗等方面造成巨大冲击。对于隐私保护问题,可通过转变责任主体予以规制;对于算法损害公平正义以及公序良俗,可通过干预算法设计、完善事后救济、加强政府监管等途径予以应对;对于算法权力剥夺自由,可通过打开“黑箱”,反数据垄断,分散权力,让算法在阳光下运行。

算法既然由人类创造出来,那么也应当具有控制它的能力。在算法社会,人类不应碌碌无为,更不应把希望全部寄托在算法上。算法提供的答案不是最终答案,而只是参考答案。人类应时刻保持警惕意识,打破唯算法论的弊端。算法是一种工具,人类在使用这一工具时,应当铭记人性之本,切勿成为工具的奴隶。在算法的发展进程中要不断通过法律、政策、技术、伦理的修正以完善算法,让算法闪烁科技之光与人性之辉。

猜你喜欢

算法用户信息
Travellng thg World Full—time for Rree
进位加法的两种算法
订阅信息
关注用户
关注用户
一种改进的整周模糊度去相关算法
关注用户
一种基于L-M算法的RANSAC图像拼接算法
如何获取一亿海外用户
展会信息