数字技术与数据交易安全治理
2023-09-15欧阳日辉李文杰
欧阳日辉 李文杰
数据交易安全治理是建设数字中国,保障数据要素市场化配置的基石。随着数据流通交易日益频繁,面临的安全风险和问题逐渐显现,如数据隐私泄露、交易欺骗行为、数据交易环境不可信等风险。这些数据安全问题不仅影响了个人、组织和企业,也逐渐影响到各行业及社会经济发展。在此背景下,我国将数据治理上升到国家战略问题,在2021年正式实施的《中华人民共和国数据安全法》中明确提出要以数据安全自由流动为原则,建立健全数据安全协同治理体系。2022年1月,国务院印发的《“十四五”数字经济发展规划》进一步指出要强化数字经济安全体系,增强网络安全防护能力、提升数据安全保障水平、有效防范各类风险。可见,数据安全治理问题已成为数字经济时代的重点关注问题。
在数字经济时代,数字技术赋能各经济产业的作用逐步增强,为数据安全治理提供了智能化技术支持。随着数字技术的迭代创新,数据技术可以为数据产品提供技术支持和服务保障,确保数据的安全性、流动性和可信性,如联邦学习、密文检索、多方安全计算等数字技术提高了数据安全保障能力,能够帮助建立健全数据安全协同治理系统,为解决数据利用与数据保护之间的矛盾提供了新的解决方案。然而,数字技术也为数据交易安全治理带来了一定挑战,因此,进一步研究数字技术与数据安全治理问题,提高数据交易安全水平至关重要。
相关文献评述
在互联网技术飞速发展及数据流通交易与日俱增的环境下,数据交易安全治理问题日益重要。Janssen等人(2020)提出数据治理是组织及其人员定义、应用和监控规则和权限的模式,以指导组织内和组织之间数据和算法的整个生命周期的正常运行并确保对这些数据和算法的整个生命周期负责。在数据要素交易中,数据治理可以增加数据价值并最大限度地降低与数据交易相关的成本和风险。当前,数据安全问题突出,如Al-Karaki(2019)研究发现黑客以比银行数据高出20倍的价格出售患者数据,仅在过去20年中,对卫生数据库的攻击就造成近300亿美元的损失。IBM对数据泄露调查(IBM,2020)显示,2020年医疗保健公司发生的数据泄露的平均成本为713万美元,比2019年增长了10%以上,虽然人们普遍认为隐私主要与医疗保健和国防数据相关,但日常生活中也经常遇到电话号码、身份证号泄露情况,如收到垃圾邮件、垃圾电话与短信等。可见,数据隐私泄漏的几乎是各个行业发展的障碍,已成为当代国家、企业及个人的痛点问题。由于大数据已成为国家基础性战略资源与重要生产要素,促进数据要素流通交易也成为激活数据要素潜能,释放数据要素价值的主要途径,因此确保数据交易安全与可信安全流通至关重要。
虽然各国已采取行动解决已经出现或可能出现的数据安全治理问题,但大数据安全威胁在数据生成、采集、处理、共享等大数据产业链各环节普遍存在(Sun et al,2021)。目前,关于数据技术赋能数据交易安全治理的研究主要分为数据交易安全保护与数据交易监管两方面。首先,在数据交易安全保护方面,Tao和Zhang(2021)提出我国人工智能数据治理的特点是“协同治理”和“治理场景”,作者在分析AI数据安全治理现状的基础上,基于技术自身需求分析了AI数据安全治理风险和技术解决方案策略。Jiang等人(2022)研究了基于区块链技术的数据交易平台,利用AES对称加密和同态加密技术保护用户交易数据安全。Guo等人(2022)提出基于物联网数据区块链的交易模型,使用零知识证明和代理重新加密,解决了隐私挑战和密钥泄露的问题,以及使用非对称加密在区块链上共享数据时灵活共享数据的风险。其次,在数据交易监管方面,Mamoshina等人(2018)讨论了深度学习和迁移学习技术在医疗数据中的应用,并提出区块链和深度学习技术的安全透明的分布式个人数据市场能够解决监管机构面临的挑战。Treleaven和Batrinca(2017)采用智能合约、区块链、算法等数字技术进行自动化监管,以实现监控和合规的自动化。
通过梳理相关文献发现,当前数据交易安全问题突出,已有部分学者研究了数据交易安全治理方面的制度问题,但基于数字技术的数据交易安全治理研究相对稀缺。在数字技术赋能数据要素交易市场作用逐渐增强的背景下,本文研究数字技术在保护数据交易安全与进行交易监管环节中的作用机制,旨在为数据安全治理研究贡献新方法和新思路。
数字技术保护数据安全和隐私的作用机理
数据要素存储安全
云计算技术具有高效分配和释放数据资源的能力,且降低了数据存储成本。数据存储是利用数据的基础,是数据处理、数据挖掘、数据价值等实现的前提。大数据时代无时无刻不在产生数据,随着需要存储和处理数据的增多,传统的数据管理工具无法满足需求,企业数据存储空间不足,为了避免花费大量资金用于存储和管理数据,因此越来越多的所有者将数据存储在云中。在云计算中,虚拟化技术、云存储技术、云安全等关键技术都有助于有效利用和存储数据,使得存储、管理和分享大量的数字内容成为可能。云计算技术在提高资源利用效率的同时,可以处理从设备和传感器收集的大量物联网数据,并将其转化为数字信息存储在云上使得用户可以随时随地访问和处理数据信息。
虽然云存储技术的应用可处理大量数据,但云服务提供商存储的用户数据容易受到安全和隐私问题的影响,仍需要其他数字技术进行解决。由于数据存储的位置不再处于数据所有者所控空间内,容易出现数据被政府或其他组织、个人合理或不合理利用的现象,面临数据安全、数据完整、数据机密等问题(Capitani ,et al,2017)。一方面,由于云基础设施由多个用户共享和使用,各应用系统均能根据需要获取存储空间和软件服务,所有恶意用户可能利用此共存问题攻击云上数据,造成数据损毁或泄露(Kaaniche & Laurent,2017);另一方面,数据所有者将数据分类存储在云上,使用时再登录云端获取,虽为用户存储数据提供了方便,但云存储基础设施复杂且需要可信的第三方参与,可能导致数据隐私泄露,因此许多组织不愿将其敏感数据传输到远程存储云;除此之外,云服务提供商也可能为节省存储空间而丢掉尚未访问或很少访问的数据,并隐藏数据丢失,造成数据质量下降。
针对存储中存在的诸多问题,将多种数字技术相结合可以实现云存储数据的安全与隐私保护。首先,区块链与云存储系统相结合来存储数据可有效防止数据被篡改,由于区块链是去中心化的数据库,其存储模型具有不可篡改和可追溯特点,不仅可以保证数据存储安全,还可以保证未经授权的用户无法访问数据所有者的数据,能够在无可信第三方授权的情况下存储数据,从而提供了具有安全功能的隐私保护环境。
其次,将区块链和数据加密技术相结合来保障隐私数据安全,是实现数据保密的安全保证。例如,以联邦学习、差分分析为代表的明文加密技术,以多方安全计算为代表的密码学加密技术和以可信执行环境为代表的硬件加密技术。其一,对称加密和非对称加密技术中的公私密钥可用于数据加密和数字签名,也可确保数据的安全性。基于上述加密技术特性,数据提供方可加密所存储的交易数据,数据使用方可通过密钥解密读取交易数据,不仅能够实现字段级别细粒度的交易数据隐私保护,还能在链上高效稳定地共享私密数据。其二,差分隐私技术可在数据集中添加适量噪声来扰乱数据,能够在不降低数据精度的情况下降低个人记录被识别的概率,从而保护个人及数据隐私。此外,通过零知识证明,用户只能通过非透明加密凭证确定其数据的运算结果和获取权力,而无法获知实际的数据运算过程与内容,从根本上杜绝了交易就会泄露隐私的情况。如Kosba(2016)介绍的Hawk是首次在区块链中同时提供交易隐私和可编程性的作品,基于零现金和智能合同系统的理念,用户向智能用户发送加密和承诺的信息,其中安全存储和传输数字签名文档对隐私保护起了很大作用,并且以加密方式或以加密方式执行的某些工作意味着数学技术用于加密和解密数据,这样可确保数据在以电子方式传输或存储时保持私密性。
最后,区块链与点对点分布式文件系统IPFS结合可确保存储数据不变性,提高数据可信度。基于IPFS不易受各种攻击影响及区块链可消除第三方的特性,同时基于区块链技术的IPFS系统可充分发挥分散式数据存储的优势,建立不可篡改的数据存储系统。基于IPFS的区块链存储模型为每个存储文件提供唯一的哈希值,可从本地区块链数据验证区块链的有效性,一旦恶意节点想要更改某个区块的数据,其IPFS哈希值就会发生变化,造成块头哈希改变,无效块不会被区块链网络识别,从而保证了块数据的安全性,能够有效防止第三方篡改数据并确保存储数据的可信性(见表1)。
表1 基于数字技术的云存储数据安全和隐私保护
数据可信流通安全
确保交易可信。区块链技术的数据账本在本质上是在“弱信任”的环境中实现多主体的数据流通和协作的,数据交易各主体在共识机制下平等交流进行数据共享,其去中心化特点及非对称加密算法的应用可保障数据资产拥有者的合法权益不受侵犯,能够降低数据交易过程中的信任成本和提高交易效率,建立一个被用户信任的数据资产交易环境。智能合约是执行合约条款的计算机化交易协议,合约双方不需要相互信任,交易自动执行且不能干预的算法设计自行约束交易双方遵守合约,可有效规避交易对手风险(Wright,2015)。区块链与智能合约的应用可保证数据交易执行的公平公开性和不可篡改性,避免数据交易时交易双方的欺诈,保障交易的安全。
数据可信计算。隐私计算技术可以实现数据交易中的“原始数据不出域、数据不动模型动、数据可用不可见、数据可用不可得”,可在不泄露数据隐私的情况下实现可信计算。在实际数据交易计算中,联邦学习可以在不接收、不传输数据以及看不到原始数据的情况下进行计算并获取数据价值。联邦学习技术也可整合到单块区块链上并进行共识过程,通过使用许可区块链检索相关数据不仅可以对数据的可访问性实施限制,还可以记录数据所共享的时间以便跟踪数据流向。在数据共享计算过程中,数据仍留存在本地,所共享的数据则是经过分散的联邦数据模型而不是原始数据,由此可避免原始数据泄露。除此之外,多方安全计算技术可以在不转移数据控制权的情况下为第三方提供数据价值,保证相关参与方仅能获取数据价值,而不能获取原始数据及数据控制权。如谷歌采用联合学习技术可在不暴露用户数据的前提下从众多用户处进行学习来更新键盘预测打字模型。
数据追踪溯源。数据交易平台可能存在数据供应商、技术服务方私下缓存或转卖数据的行为,而数字签名技术、数字水印技术、区块链和智能合约等数字技术可实现数据追踪溯源,防止数据不当使用。一方面,数字签名和数字水印技术可在数据流通交易前对数据进行唯一标识,由于该标识不易被感知与篡改,因此可通过追踪数据标识来对数据进行追踪和溯源。另一方面,区块链上的每个区块都有各自的时间戳,数字时间戳以数字化形式自动执行并记录数据交易的明确时间,可以帮助跟踪数据信息为数据来源及交易信息提供证据。此外,智能合约技术可以构建可追踪的数据供应链,实现了数据移动的可见性,能够有效跟踪数据来源。在上述数字技术加持下,可随时追溯交易中的数据及相关信息来源及归属,为审查数据泄露主体、不可信数据供应主体、数据攻击者等不诚实、不可信行为提供了方案。
数据交易市场安全
数字技术可以保障数据交易市场安全,一方面体现在区块链、智能合约等技术可保护交易参与方安全,避免身份欺诈;另一方面体现在数字技术可以打造安全可信的交易环境,保障交易的公开性与不可篡改性。
在保障交易者安全方面。由于基于区块链的数据交易平台不仅记录交易信息,并且还提供交易申诉及监管服务,所以可以在保证交易可靠性的同时维护交易双方利益。一方面,区块链可以在数据交易前相互验证对方身份来避免身份欺诈,克服交易失信。如在数据传输时通过密码学技术中的私钥和公钥对交易双方的身份进行认证,或通过以太坊地址验证双方身份,在身份核验成功后,数据交易双方通过智能合约进行交易。另一方面,区块链上的智能合同可以缓解合同的模糊性和信息的差异,保障交易参与者利益。体现为智能合约可以自动执行数据交易流程,确保数据产品交付及付款。此外,智能合约还可充当仲裁员,负责事件验证、服务级别协议违规和计算罚款,可在无第三方参与的情况下解决云平台中的问责制和信任问题(D'Angelo et al,2018)。
在打造安全交易环境方面。一是区块链技术通过在去中心化网络中分配信任来取代受信任的中心化机构,其数据在所有参与者间是一致的,为交互提供了透明度和可追溯性,进而降低数据交易过程中的信任成本并提高交易效率,降低欺诈的可能性。二是链上非对称加密算法的应用可保障数据资产拥有者的合法权益不受侵犯,从而建立一个被用户信任的数据资产交易环境。此外,基于不同技术的信任管理模型可以打造可信交易环境和数据安全平台(DSP)。DSP通过将现有的各个独立的数据安全技术和功能整合在一个统一的平台之下,为用户提供跨数据类型、存储孤岛和生态系统的数据安全服务,从而实现更简单、一致的端到端的数据安全。
基于数字技术的数据交易监管
从数字技术赋能数据交易的监管主体上看,可分为行业自律监管与行政机关监管。其中行业自律监管主要是数字平台及机构利用数字技术监管数据交易行为及数据使用情况,行政机关监管则主要是政府机关对数据交易中的违规行为进行监管与处罚,如监管数据交易税收以及对侵权行为进行仲裁等。
行业自律监管
相关数据交易机构可利用数字技术监测数据交易行为及数据使用情况。
基于区块链的安全监管技术可及时发现链上攻击或异常。一方面,可以通过分析不同节点行为来监管有可疑交易行为的节点,并通过交易货币流向寻找对手区块链地址,从而获得可疑用户IP地址并监管相关用户。另一方面,机器学习技术和算法可以基于历史数据交易信息来识别数据交易平台上的可疑数据交易序列,还能够将该序列信息与历史恶意交易序列进行比较,不仅能够提前识别数据攻击类型,还能够及时预防并处理该恶意行为。
在监督数据使用情况方面,数字技术既可以在数据传播前监测数据是否合规,又可以在数据传播后监测数据侵权行为。第一,在数据市场上列出数据集之前,可以使用相似性算法技术检测数据集间的相似度,从而识别非法转售行为;或者在数据流通前,使用智能合约和区块链技术查询数据所有者所要登记或出售的数据版权是否归其所有,即确认名义数字版权正确与否,防止不合规数据进一步流通。第二,在数据交易传播后,数字水印技术、数字签名技术、区块链及智能合约等数字技术可以实时跟踪数据交易市场中的数据流转信息,能够及时监测并防止数据买方在未获得数据所有权的情况下违规出售所拥有的数据。此外,数据挖掘技术,如机器学习、深度学习、图学习技术也可对区块链进行异常检测。
数字技术可在发生数据版权侵犯时及时确定侵权责任主体。数字签名和数字水印技术具有不可伪造和篡改的特点,可在数据出售前所嵌入个性化信息可以随时追溯数据原始所有者,通过打开数字资产中的水印信息便可知道发布盗版副本的买家身份,从而实现数据提供者的版权保护愿望和侵犯版权者的可追溯性。如Zhao等人(2018)设计了基于水印的有效DRM算法,通过嵌入基于DCT的水印来检测滥用,当发生数字产品版权纠纷时,可以提取数据载体中的鲁棒水印,检测滥用信息及验证版权的归属。除此之外,区块链上的时间戳以及智能合约协议也可以记录并追溯数据流转全生命周期的版权转让与流转过程,为追踪侵权主体提供有效信息。
政府行政监管
审查数据交易主体资质和进行数据版权登记。在审查资质方面,实行数据交易平台的事前准入制度可以有效提高数据交易市场经营的安全性,机器学习算法和风险识别技术可以自动识别并衡量相关数据交易平台的经营风险与经营能力成熟度,通过剔除劣质经营者来保证数据交易市场的合规安全。在监管数据交易登记方面,一是区块链技术与版权登记算法能提高版权登记效率降低版权登记成本。由于区块链版权注册系统采用预先设定的算法实现版权登记,不受时间流量限制,任何机构和个人均可在任意时间段进行版权登记,从而提高登记效率;此外,通过消除第三方、中介和交换资产的间接成本,能够降低数据版权注册成本。二是区块链的不可篡改特性可以有效抵御空间数据版权信息被篡改。用户先在版权登记系统中输入相关信息,如数字版权号、版权名称、版权类型等,然后采用哈希加密算法将要登记确权的数据加密打包并上传至系统。由于区块链上节点共同记账与维护,链上的数据与信息具有不可篡改性,因此能够保证数据版权不被篡改。
构建基于区块链的电子税务系统可实现对数据交易的税收监管,能够降低税务信息不对称性问题。区块链与智能合约等技术的自动化与合规性特点可以实现报税验证和纳税自动化,提高纳税效率。一方面,通过在电子票上添加序列号并将纳税人的身份信息与税单绑定可实现税单唯一性与纳税人的匿名性,避免了恶意用户重复使用税单,可以显著降低欺诈和逃税的风险;另一方面,基于区块链的电子税收方案可以审查全球范围内的税务数据,具有不可伪造性,能够在不透露纳税人真实身份的情况下验证纳税人的真实性,还能够在保护纳税人匿名的同时追踪恶意纳税人的真实身份,有效平衡了税务信息隐私和监管间的矛盾,解决了数据交易中税务信息校验难、查询难、不透明等问题。
针对平台监管中出现的数据交易纠纷,可通过技术手段提供电子证据并进行仲裁。在云计算环境中通过可信和安全的通道可进行短程数据采集与取证,取证完成后可使用RSA签名建立数字证据监管链,保护证据数据传输(Pichan et al,2015)。在此过程中,区块链技术能够实现电子证据保全服务器的去中心化性,在保证证据安全性的同时可以固化证据并赋予其司法效力,还可通过跨链方式构建区块链司法联盟链从而将电子证据传输给司法系统作为司法证据。通过该方法,一方面,司法系统可通过执行证据链获得与该数据相关的证据证明,如数据所有者,数据控制者,数据修改信息等(Billard,2018);另一方面,法院可根据用户信息在联盟链中提取数据版权源文件作为核验证据从而解决虚假诉讼等问题。例如,北京、杭州及广州的互联网法院已采用司法区块链来进行版权司法维权。通过构建主动存证与跨链接入相结合的天平链电子证据存证平台,解决电子证据存证、上链证据在线勘验问题,进而实现司法执行的智能化与公开透明化。
监管大数据交易平台的数据垄断与恶意竞争行为。大型数字平台具有强大网络效应,在数字市场中充当守门人角色,具有实施垄断与不正当竞争行为激励。大型数字平台可能相互串通勾结,恶意抬高相关产品价格,或者采取技术及排他性措施来限制其竞争对手对数据的访问与获取,阻碍数据共享和兼容。由于数据和数字技术为数字平台的竞争基础与优势,因此需要采用人工智能等数字监管技术对数字平台中的技术与经济行为进行监管。数字技术为监管大型数字平台中的数据垄断与恶意竞争行为提供技术手段,可以监管占主导地位平台的反竞争做法。数字技术可以对数字平台或机构的违规行为进行智能监控,防止垄断行为产生负面影响。如运用大数据和人工智能工具可以增强监管能力和垄断的可预见性,实现监管的实时性和智能化;运用反串谋算法可以监测平台中的合谋行为,从而进行价格管制;此外,以大数据、云计算、人工智能等数字技术为技术底座的监管沙盒或数字平台监管人工智能系统可以跨时空监测相关数字平台的行为及风险,能够及时提供风险分析和预警,有助于提升平台监管协作能力、创新信用监管工具、提高智慧监管水平、实现精准监管,减少反垄断监管成本和提高监管效能(孙晋,2021)。
数字技术的监管挑战。数字技术在数据交易监管环节具有两面性,一方面可以创新监管工具及手段,另一方面会造成交易监管困难。区块链应用具有跨国、加密、分散及假名性质,区块链无法防止格式良好但不准确的数据存储在系统中,可能用作非法内容传播渠道。当信息以加密的格式存储在区块链上时,使得双方加密通信更加容易,恶意用户也可借机进行非法交易,在假名条件下执法机构难以识别和起诉这些新兴技术用户,因此削弱了执法部门打击非法交易的能力。此外,由于在分散式市场中政府干预较为困难,因此,试图避免市场操纵、降价或其他反竞争行为的法律以及禁止市场销售商品或产品的法规将会变得更加难以执行。
此外,数字技术的发展还不可避免地造成数据隐私泄露,加大隐私监管难度。由于区块链上的数据公开透明,网络中的每个人都可以看到所有公钥细节和余额,会造成数据泄露。虽然区块链可以保证用户身份匿名,但由于每个加密密钥的余额和交易身份是公开可访问的,可通过跟踪用户来识别用户,对数据买方造成威胁。此外,丢失私人密钥、智能合同漏洞以及区块链加密算法被破解等都会造成数据隐私泄露。而在数据存储方面,云存储模式使得数据平等地存储在云平台上,这种无差别的的存储使得隐私数据不再隐私,数据暴露地存储在云服务器上,不受所有者控制,更有可能暴露给潜在的对手。容易受到各种攻击,并且存在恶意用户收集用户信息及非恶意用户破坏数据的行为。云计算无法处理海量数据,在许多用户同时发送访问请求时,网络带宽和传输速度都会降低,数据传输存在延迟,用户与云中心间的远程传输会造成计算资源浪费。此外,云服务提供商存储的用户数据容易受到安全和隐私问题的影响,并且云计算的动态运行会使数据分散于多种网络介质中,这提高了数据隐私保护的难度。
结论与展望
数据交易已成为数字经济创新发展的关键领域,但交易过程中仍面临安全问题且缺乏有效治理,为提高数据要素交易市场的活力与效力,亟须探索新技术手段解决上述问题。本文通过梳理相关文献发现,人工智能、区块链、算法等数字技术的创新发展和研发投入可以为数据识别、数字水印、隐私计算等数据安全关键技术的能力提升和创新发展提供有力支撑,可一定程度上解决数据交易中的安全治理问题。然而,当前尚处于萌芽期的新兴技术在该领域的赋能作用仍不完善,单点防护功能无法充分应对数据流动中的诸多风险,尚未很好地应用于数据交易实践中。未来仍需要以“平台化、体系化、持续化”为研究点,探索数字技术在数据交易安全治理中的作用,加强隐私计算、区块链、数据水印等数据安全保护技术的研发创新与普及,解决数字技术漏洞,统筹数据隐私保护、数据垄断治理与数据价值流通释放间的关系。