平台经济中的数据与算法安全
2022-07-25郑婷一庞亮靳小龙
郑婷一,庞亮,靳小龙
1. 中国科学院计算技术研究所数据智能系统研究中心,北京 100190;
2. 山西能源学院电气与控制工程系,山西 晋中 030600;
3. 中国科学院大学计算机科学与技术学院,北京 100049;
4. 中国科学院计算技术研究所中科院网络数据科学与技术重点实验室,北京 100190
0 引言
随着互联网技术在各行业的普及与发展,平台经济以技术和商业模式创新为驱动,构建了基于行业数据的新算法、新服务、新商业的全新数字经济体系,成为我国经济高质量创新发展的内在驱动力。但平台经济具有开放性,其“自采数据+自治算法”双轮驱动[1]的显著属性带来了算法滥用、野蛮生长、恶意竞争、行业垄断[2]等突出安全问题,对国家、社会、企业和个人等造成不容忽视的安全威胁。为此,如何在保障数据和算法安全的前提下促进平台经济的创新和发展成为全球市场经济和互联网平台共生发展的难题[3]。
当前,政府的监管治理和技术的创新研究是解决平台经济安全问题、保障其规范持续发展的两大途径。政府监管和治理的根基是制度建设,为此各国对平台数据和算法安全高度重视,相继颁布了相关政策法规,保障平台的安全环境。美国发布了《联邦数据战略和2020年行动计划》,确立了数据存储、流通安全等基本原则;日本和新加坡修订了《个人数据保护法》;欧盟发布了《欧洲数据保护监管局战略计划(2020—2024)》及《为保持欧盟个人数据保护级别而采用的数据跨境转移工具补充措施》。另外,各国企业也采取措施保障政策落地,如脸书(Facebook)建立了开源差分隐私库,苹果公司限制第三方App获取用户位置信息等。我国也相继展开了一系列制度制定工作,主要从数据和算法规范管理两个方面为平台经济的健康发展提供了有力支撑[4-5]。2021年9月1日,《中华人民共和国数据安全法》(以下简称《数据安全法》)颁布实施,该法是我国首部与数据安全有关的法律,界定了什么是数据,以及如何维护数据安全等,明确了法律适用范围,为我国各行业的数据安全提供了监督依据,也标志着我国在数据安全领域有法可依。为了解决自治算法滥用[6]、大数据“杀熟”等问题,打破算法“黑箱”,确保算法公开透明,保障消费者的消费权益等,2022年3月1日我国《互联网信息服务算法推荐管理规定》颁布实施。该法律是专门针对算法的法律文件,保证了监管的落地和落实,深入推进算法综合治理和算法推荐服务规范。此外,2022年1月19日,国家发展和改革委员会、中共中央网络安全和信息化委员会办公室、工业和信息化部等9个部门联合发布了《关于推动平台经济规范健康持续发展的若干意见》,分别从健全制度、提升监督能力、优化发展环境、增强创新发展能力、赋能经济转型发展等6个方面给出意见,推动平台经济规范健康发展。
基于对平台经济中数据与算法安全问题的思考,本文从以下3个方面展开论述:第1节介绍平台经济中数据与算法安全的内涵与外延;第2节梳理数据与算法安全的现状和挑战;第3节探究平台经济的体系框架,提出平台经济中数据与算法安全的技术生态发展思路与建议,为相关研究提供参考。
1 数据与算法安全的内涵与外延
数据是平台用户信息形式化的体现,隐含了信息背后的含义,可直接用于传输、存储、分析等。算法是以平台为载体,用户、经营者在平台中交易等过程中,为了解决问题而主动执行的命令。打破“数据孤岛”,实现数据的全面赋能及提高算法的预测能力是互联网平台快速发展的决定性要素[7]。由于近年来平台的宽松发展环境,在各平台竞争中产生了诸多数据和算法安全隐患。
1.1 数据安全的内涵与外延
《数据安全法》中对数据安全的定义是,通过采取必要措施,确保数据始终处于有效保护和合法利用的状态,并且具有可保证数据持续处于安全状态的能力[8]。因此,平台数据安全的内涵主要包含两个方面,即数据防护安全与数据利用安全[9]。前者是指数据保密、完整、可用,保证各大平台自有数据不会被其他平台非法获得和被黑客恶意篡改,同时还能满足平台的使用需求。后者是指在数据产生、流动和利用的过程中,平台通过制度和技术手段保障数据自身始终处于安全状态。从内涵分析,数据安全的外延可分为数据泄露和滥用等风险[10]、数据安全保障技术[11]、行业数据分级分类[12]和数据安全管理。
1.2 算法安全的内涵与外延
算法是对解决方案的完整描述,是旨在解决某一特定问题而设计的指令序列,即在有限时间内将一组输入转化为一组输出的计算过程,或者说算法是基于特定目标的计算模型。随着人工智能和深度学习技术的发展以及平台不断追求利益最大化,平台算法逐渐演变为一种“利用平台用户数据进行训练的人工智能模型”。随着算法越来越“智能”,算法为平台用户提供了更加个性和精准的信息服务,与此同时,也给用户带来了日益强烈的“不适应感”,这种“不适应感”实质上是由平台算法的安全风险[13]造成的。算法安全是指算法体系完整、核心算法技术可控、决策结果公平以及算法应用合法[14]。因此,平台算法安全的内涵主要涉及算法自身存在的漏洞、黑箱性、脆弱易攻击性等技术风险因素,而平台算法安全的外延涉及由算法的不合理应用带来的算法偏见、歧视和信息茧房等社会风险因素。
2 数据与算法安全现状和挑战
平台企业通过“数据+算法”的合谋机制,在为用户提供精准信息服务的同时,获取了巨大的经济效益,但也带来了用户隐私数据被过度采集及泄漏、算法漏洞、“黑箱”及滥用等问题。与此同时,这给维持市场和社会秩序、保障用户合法权益、促进平台良性竞争带来了严峻挑战。
2.1 数据安全的现状及问题
近年来,由于平台管理漏洞,企业商业秘密和数据用户隐私数据被滥用和泄露等危害企业及个人信息安全的事件频频发生。可见数据安全是网络空间安全的根本保障,是关乎政府、企业和个人安全的重要方面。
(1)数据泄露问题
人们在工作和生活中频繁使用App、网页和小程序等,其大多要求用户填写身份信息、授权访问位置信息等[15],而数据主体的自我保护意识欠缺、数字平台获取用户数据的隐蔽性、数据共享与个人隐私间的矛盾[16]都加大了用户数据泄露的风险。尤其在特定应用场景中,用户使用的数据往往涉及隐私信息,简单明文数据的传输和利用很可能导致隐私泄露。此外,当用户的隐私数据从高保障的地区流向低保障的地区时[17],可能会因为数据保护技术欠缺、管理能力有限、立法不足等原因导致数据泄露[18]。
(2)数据垄断问题
平台通过多样性、多场景的服务,收集用户的大量隐私数据,对用户信息进行全面、深入的挖掘,形成“生态垄断”[1]。近年来,部分平台追求利益最大化造成了数据被过度采集、数据权利滥用等数据安全隐患。一旦平台服务器出现安全问题,会导致大量的用户隐私数据泄露,造成不可逆的危害。在防止资本过度扩张的背景下,作为数据安全风险的来源之一,平台企业要对数据的生态型垄断保持注意和警戒。比如,随着“互联网+交通”的发展,打车平台掌握了大量用户数据和城市交通信息,它甚至可以利用动态数据对城市状况进行实时监控。
(3)数据安全保障技术问题
保障数据安全主要从基础安全技术、数据安全技术和技术应用3个方面展开。其中,基础安全技术中的可信防护,数据安全技术中的数据加密、脱敏、标记,技术应用中的数据交换共享等,均面临重大挑战。此外,对安全风险的实时监测、防护处置技术水平也需进一步提升。
(4)行业数据分类分级问题
为了落实数据分类分级制度,2021年12月发布的《网络安全标准实践指南——网络数据分类分级指引》[19]明确了原则、框架、网络数据分类方法及实现流程,并提供了分类参考实例。因此,亟待行业和企业一起参考指引制定标准,并以标准为基础不断优化数据分类分级制度。
(5)数据安全管理制度问题
数据采集、存储、传输等过程复杂,若采取层层审批、闭环的流程,必将增加企业管理及职责部门的工作量,同时降低工作效率。因此,对于平台企业而言,如何制定科学合理的管理制度是一项十分有挑战性的工作。同时,网络空间安全作为国家主权的新领域[20],各大平台频繁出现虚假新闻、违法广告等问题,亟须通过制定制度,实现有效治理。
2.2 算法安全的现状及问题
得益于我国移动通信基础设施的大力建设与通信终端的大量普及,用户产生的海量数据得以积累,在此基础上开发的人工智能算法改变了人们的生活方式。网络购物、网约车和网络游戏等应用逐渐走进人们的日常生活,在极大地方便了人们生活的同时,支撑了大量互联网高科技企业的营利与发展,创造了极高的价值和利润空间。但互联网算法的大规模应用是一把双刃剑,在经历了无序疯狂扩张后,算法开始逐步“侵犯”人们的合法权益,在一定程度上扰乱了社会秩序,甚至危害了国家安全[21]。
(1)算法漏洞问题
与人类思维方式不同,人工智能算法并不能直接记忆事物的外观,而是通过分析事物的关键信息来推断结果[22]。例如,基于人工智能系统的图像识别算法在对图像进行分类时,关注的特征只是图像中的像素值,而不是图像本身。攻击者只需对图像做一些人类无法察觉的小改变,就可以误导人工智能系统将图片识别为错误。这样的攻击方法同样适用于文本、音频或视频。因此,网络攻击者可通过算法自身的缺陷或漏洞控制算法,实现操纵物理硬件、引导舆论、伪造虚假图像或音视频、制造信息噪声等,严重威胁企业和个人安全。
(2)算法可解释性问题
算法“黑箱”的本质在于不透明、难解释。在主观方面,互联网算法及数据主要掌握在平台企业手中,算法本身并不对监管机构和社会直接开放。因此,监管部门很难对算法运行过程中的关键数据和流程进行有效的监管。在客观方面,由于算法固有的黑箱性,平台无法对算法的运行决策机制给出合理且令人信服的解释,导致在金融、医疗等可靠性要求较高的场景下,人们无法完全信任算法做出的决策[14],公民的知情权得不到保障[23]。
(3)算法滥用问题
首先是大数据“杀熟”。平台通过对用户基础数据、行为数据等进行分析,构建用户画像[24],根据用户的消费喜好和收入水平对用户进行区别对待,以获得最大的利润。其次是致瘾性推荐。平台通过分析用户感兴趣的主题,对其进行个性化的内容推荐,使用户沉迷致瘾。更有一些平台利用自身在行业内的垄断地位,在交易过程中设置不合理的条款,或者选择性地展示对平台有利的信息,误导消费者做出不理智的选择。这些问题严重影响了交易的公平性。
(4)算法歧视问题
算法由大规模数据训练而来,在这个过程中,算法本身不受人们的直接控制,完全依赖于输入数据。例如,国外相关研究发现,由于国际商业机器公司(IBM)、微软等企业用于训练人脸识别算法的数据集中包含更多男性和浅色人种的图片,最终开放使用的人脸识别算法会在一定程度上“歧视”女性和深色人种,该算法对女性和深色人种的识别准确率明显低于对男性和浅色人种的识别准确率,识别准确率甚至达到34.3%的明显差异[25]。可见该识别算法对不同性别或肤色的人存在明显的“歧视”,这种不公平性降低了人们对智能算法的信任,也阻碍了算法的大规模落地。
(5)算法治理问题
算法治理是算法时代的核心议题[26],中共中央印发的《法治社会建设实施纲要(2020—2025年)》提出,应制定完善的算法推荐、深度伪造等新技术应用规范管理办法,加快算法领域的立法建设,出台与算法安全治理相关的治理法律法规、监管标准规范等,从而保护消费者的合法权益和公平竞争的市场环境。
3 数据与算法安全的技术生态发展思路与建议
平台经济已逐步进入智能化阶段,用户数据和算法技术商业化带来的安全问题亟须解决。为了保证平台技术生态的健康发展,政府应加强平台经济监管,创新监管理念和方式,平台应落实主体责任制,做好日常检查、备案和问题整改,同时鼓励核心技术突破和模式创新。目标是实现以监管保安全,以创新促发展,推进平台自主创新,促进平台健康、有序发展。
3.1 构建体系架构,赋能平台数字转型
平台数据与算法安全的技术生态体系架构如图1所示,由监管体系、核心技术、模式创新三大模块组成。监管体系是“树根”,核心技术是“树干”,模式创新是“枝叶”。
图1 平台数据与算法安全的技术生态体系架构
3.2 完善监管体系,优化平台环境
基于我国平台经济的发展现状,要实现平台经济健康发展的目标,首先要打破数据垄断和算法自治,从规范数据和算法方面制定相关标准,务实法律基础[27]。
(1)规范数据和算法,促进平台健康发展
平台应承担主体责任,在切实落实网络安全等级保护制度制定的基础上,制定数据合法使用和算法基础标准[28],规范数据获取和传输流程,规范算法的备案工作,同时按照一定的原则和流程,将开放、共享和使用等过程中的政务数据划分为不同级别,明确什么是用户敏感信息和平台重要数据,以便对不同级别的数据实行针对性的保护。
(2)落实平台责任,推动平台高质量发展
平台应提升算法透明度,确立算法可解释权,做好算法备案,促进平台间的有序竞争。2021年2月7日,国务院反垄断委员会制定并发布的《国务院反垄断委员会关于平台经济领域的反垄断指南》明确了对“二选一”“大数据杀熟”“算法合谋”等行为的判定标准,但算法的不可解释性和黑箱性增加了监管的难度,有必要进一步梳理“算法合谋”的特征和算法滥用行为。
(3)加强监管和防范,筑牢平台安全防线
虽然《数据安全法》对平台数据安全风险加强了防范规定,但未明确合法与非合法间的法律界定标准,因此,相关管理部门需进一步制定分类分级标准、监管标准、风险评估标准、垄断的法律识别与认定方法等,在数据静态保护的基础上,加强数据和算法的动态保护。此外,还需构建基于影响维度的评估指标体系和基于算法问责制度的评估指标体系来加强监督和防范[29]。
3.3 突破核心技术,提升平台能力
《 互联网信息服务算法推荐管理规定》提出要鼓励算法创新发展。平台应重点提升算法的自主可控能力,提高算法产品的推广力度和使用力度,提升平台的核心竞争力,监管部门也应积极开展算法研发工作,以保证对平台的高效监管,最终实现“用算法治理算法”。
(1)实时监测
首先,算法场景化智能识别。在人工智能行业,技术落地的难点在于应用侧的千变万化,算法难以满足多变的需求。平台在运营中积累了全面的用户和运营数据,可利用不同的数据体系,通过细分场景设计,提升算法场景化应用的智能识别能力。其次,智能化动态在线监测。由于平台数据和算法具有动态变化特性,应设置前、中、后全周期智能在线监测体系,实现对经营主体、交易规则和价格等的实时动态监测。最后,多维度数据画像。通过聚合平台的多源数据信息,构建平台经济经营者的全面、精准、多维度大数据画像,帮助监管部门全方位掌握平台情况。
(2)安全评估
首先,算法风险监测。算法风险监测需常态化进行,其监测内容包括:平台自我监测、群众监督举报和监管部门巡查走访等[30]。从技术角度看,应对算法的使用进行日常监测,其监测内容包括:信息传播路径、价格涨幅、用户评论等。其次,算法安全评估。为了对算法的潜在风险进行详细的分析与评估,监管机构与平台需对算法的安全性展开评估,其评估内容包括:算法的设计方案、算法在设计和使用中的漏洞、算法的复现等。
3.4 鼓励平台模式创新,助力平台发展
平台经济作为新形态的数字经济,应在保证其高质量健康发展的前提下,鼓励平台监管与包容创新并举,积极推进要素融合模式创新、资源共享模式创新、安全监管模式创新[31],实现社会资源的有效配置与共享。
(1)要素融合模式创新
数据是平台经济的战略性资源和关键生产要素,技术是平台的核心竞争要素。作为推动我国经济高质量发展的新引擎,平台经济应围绕数据要素时代,将数据纳入生产要素管理,在融合传统要素的基础上,持续释放数据要素价值、加快技术创新驱动、催生新产业新业态、开启新发展势能,推动平台经济高质量发展。
(2)资源共享模式创新
共享是资源整合的主要表现形式之一,平台发展需要坚持政府、平台、企业、用户等多元协同参与,尤其平台间通过共享模式进行资源运作,将实现资源及信息的共享,促进平台释放创新潜能,激励平台共同发展,为优化平台经济的运营和竞争环境提供有力保障。
(3)安全监管模式创新
平台安全监管需要从机制、体系和技术3个方面实现模式创新。机制方面,应强化企业主体责任、加强治理规范和监督检查、优化治理结构、强化协同治理等;体系方面,从算法备案工作、公众监督举报、监管巡查等维度构建监管体系;技术方面,积极推进监管与算法的协同创新[32],科学评估算法漏洞,加强算法安全科技攻关,提升算法风险研判和安全风险监测能力。
4 结束语
平台经济在驱动经济社会发展的同时,也因其数据和算法的不规范应用给国家、社会和人民的安全造成了威胁,给政府监管和平台治理带来了严峻挑战。针对平台经济中的现状及问题,应以筑牢平台安全防线为主题,以智治平台经济为主线,以深化改革创新平台经济为根本动力,以促进平台经济健康发展为根本目的,完善监管体系,突破关键技术,鼓励模式创新。在平台治理过程中,不仅需要加大平台监测的技术攻关力度,保障数据和算法的合法合规利用,规范市场竞争,而且需要加强政府监管制度体系建设,共同推进平台经济的治理和可持续创新发展。