APP下载

数据规模化利用的法律规制

2024-01-03

地方立法研究 2023年5期
关键词:规模化规则人工智能

袁 曾

引言

2023年年初,以ChatGPT、Midjourney为代表的生成式人工智能被投入规模化商用为标志,生成式人工智能正式进入市场应用端,极大地改变了数字社会的生产力形态。(1)参见刘振宇:《生成式人工智能的法律规制:承认还是再分配》,载《地方立法研究》2023年第4期,第38页。相较于传统人工智能,生成式人工智能在技术应用的底层逻辑上发生了重大改变,其基于互联网全域范围内的数据进行深度学习与运算,以自然语言交互的形式输出非预设结果,已在绘图、视频剪辑、法律解答、医疗看诊等注重内容输出的领域部分甚至全面替代人类劳动。(2)2022年全球生成式人工智能市场规模为101.6亿美元,预计到2030年将增长到1037.4亿美元。生成式人工智能是人类迈向通用人工智能时代的奇点,其发展和利用的基础在于数据的规模化利用。(3)笔者注:数据规模化利用从应用类型上划分,可以分为内外两个维度,对外维度的规模化利用主要包括数据的定价、交易、流转、使用等,对内维度的规模化利用包括各种主体使用自身掌握或控制的大量数据,例如,脸书公司、谷歌公司利用其平台积累与生成的数据训练人工智能模型与算法。由于对内维度下的数据规模化利用主要涉及公司治理、行业规范等具体建构,因此本文以数据规模化交易等外部维度作为数据规模化利用的宏观论证导向。实务界与学术界已经较为重视数据的利用与发展规则建构,但结合新一代人工智能技术发展逻辑下的数据规模化利用的治理规则与法治框架仍属缺位。(4)参见袁曾:《数字法学研究现状的再反思——法学理论向何处去?》,载《上海政法学院学报(法治论丛)》2023年第3期,第117页。2022年6月,习近平总书记在主持中央全面深化改革委员会第二十六次会议时指出,数据基础制度建设事关国家发展和安全大局,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系。2022年12月19日,中共中央、国务院印发《关于构建数据基础制度 更好发挥数据要素作用的意见》(以下简称“数据二十条”),明确提出建立合规高效、场内外结合的数据要素流通和交易制度。我国拥有丰富的数据资源储备,而数据是生成式人工智能发展的基石。数据是数字经济的核心资产,我国拥有数据体量优势与应用场景优势,按照何种技术导向设定规则以使用海量数据,直接决定着数据资源开发利用的规模与效率。(5)参见袁曾、张执南:《数字社会下的法律工程思维建构与适用》,载《西南民族大学学报(人文社会科学版)》2022年第12期,第85页。面向生成式人工智能迭代发展与数字社会建设的需要,探索数据规模化利用的规则并形成行之有效的治理机能,是法学研究应予以关注并需尽快解决的关键问题。

一、当前数据利用规则体系存在的问题

我国有关数据利用的规则体系虽已逐步建立并完善,但在规模化利用的要素效应、模式建构等方面仍有诸多不足。

一是有关数据利用的规则体系虽已初步构建,但未能有效发挥数据交易、使用等规模化利用的要素效应。据国际数据公司评估报告显示,我国数据规模预计将从2021年的18.51 ZB,于2026年增长至56.16 ZB,年均复合增长率接近25%。2014年以来,我国陆续设立上海数据交易所、深圳数据交易所等大型数据交易平台,在数据的生产端与流通端聚集了海天瑞声、京东万象等人工智能数据龙头企业,但相较我国数据的体量规模,数据实际交易在其中仅占微小的比例,未能发挥数据作为基础性战略资源的功能。

就我国数据利用的规则体系分析,当前数据利用体系呈现出以下几个特点:其一,有关数据交易等利用细则的框架性法律法规缺位。虽然《数据安全法》第19条规定“国家建立健全数据交易管理制度,规范数据交易行为,培育数据交易市场”,从法律层面为数据利用提供了原则性指引,但是诸如数据交易所运营模式、交易规则、配套法律制度以及行业标准等具体规则明显滞后,缺乏详细且具备可操作性的指引。(6)参见张永忠、张宝山:《构建数据要素市场背景下数据确权与制度回应》,载《上海政法学院学报(法治论丛)》2022年第4期,第106页。其二,关于数据法律属性、数据权属、数据确权(包括是否应当确权、在何种程度上确权)等基础性问题,尚未达成共识,对于数据分类授权管理使用等原则性规则缺乏立法支撑。基础领域的治理模型缺失,客观上导致了数据供给方缺乏供给积极性、数据集成方定价不透明、数据安全流通范式不足、数据使用不可控等多方面现实困境,数据交易、定价、风险管控等利用的具体内容缺乏更高层级的实践指导,尚属理论研讨阶段。其三,在规制导向上过于强调数据违规利用的风险防控,未能有效发挥鼓励扩大数据规模化利用的路径指引作用。在当前数据合规、出境审查等特殊背景要求下,由于单方面强调合规管控而忽视了数据快速规模化利用机制的同步建设,导致数据持有主体面临的数据合规法律风险远大于其利用数据可能获得的收益,从经济效益上使得当前对于数据的利用仍以单个数据主体的小规模使用为主,难以发挥数据的规模化集群效应。(7)参见洪凌啸:《论疫情防控中个人信息的数据利用与保护》,载《地方立法研究》2022年第4期,第56页。“数据烟囱”“数据孤岛”效应明显,这进一步导致数据利用特别是大规模利用层级上的相对低效,无法充分发挥数据资源在第三次分配改革中的应有作用。(8)参见蒋冰晶:《面向数据要素供给的政府数据开放激励研究》,载《理论学刊》2023年第3期,第117页。

二是对数据的利用模式过于强调结构化,而忽视了规模化的模式建构。数据需与个人信息相区别,单个的个人信息具备高度敏感性的资源价值,但单个的数据特别是脱敏后的数据就其定价与应用来分析,必须作为整体即规模化应用才能体现其真正价值。例如,典型的大数据服务包括数据查询、信息检索、数据预测等,均需以高性能和高吞吐量的方式来实现大众化服务。(9)参见毕文轩:《生成式人工智能的风险规制困境及其化解:以ChatGPT的规制为视角》,载《比较法研究》2023年第3期,第170页。“数据二十条”对数据要素价值发挥所需的基础性规则建构做了极好的理论创新,明确提出了探索数据产权结构性分置制度,建立以公共数据、企业数据、个人数据为类型化的分级确权授权制度,为数据的有效利用确定了基础利用模式。但从实际分析,当前学界与实务界对数据的利用模式仍以原则性要求与鼓励性规定为主,尤其过分纠结于数据权属厘清,忽视了从促进数据广泛有效利用的实际出发这一点。

近年来,法学界关于数据权属的认定争论不断,存在“肯定论”“否定论”这两派截然相对的观点。肯定论支持者始终坚持“权属界定—初始分配—市场流转—保护救济”的概念法学要求,沿着数据控制、使用、收益的相应权属对应设计相应的权能,权属界定的困难又导致数据交易市场等现实应用始终不温不火。(10)确权论的代表性论述,参见龙卫球:《数据新型财产权构建及其体系研究》,载《政法论坛》2017年第4期,第63-77页;纪海龙:《数据的私法定位与保护》,载《法学研究》2018年第6期,第72-91页;申卫星:《论数据用益权》,载《中国社会科学》2020年第11期,第110-131页;王利明:《论数据权益:以“权利束”为视角》,载《政治与法律》2022年第7期,第99-113页。否定论支持者反对数据权利的证成,提出从行为规制的角度构建数据科学合理使用行为的正当性评价标准,为利益主体提供间接、消极的保护。(11)否定论的代表性论述,参见梅夏英:《企业数据权益原论:从财产到控制》,载《中外法学》2021年第5期,第 1188-1207 页;陈柏峰:《超越数据界权:数据处理的双重公法构造》,载《华东政法大学学报》2022年第1期,第18-31页;周汉华:《数据确权的误区》,载《法学研究》2023年第2期,第3-20页。以与产权制度、权益分配紧密结合的数据定价为例,2021年,《广东省数据要素市场化配置改革行动方案》便已提出建立、完善数据流动交易机制及配套建设。2022年9月30日,广州数据交易所在广州南沙揭牌,推广以成本模型的测算方式为企业提供数据交易定价参考,但总体分析依然缺乏数据规模化利用面向下的规则导向与模式建构,导致数据交易的规模较小。据其官网数据显示,自其成立至2023年5月11日间,累计交易金额仅为10亿元。数据因其非独占性、使用非损耗性以及动态变化性等特征,导致数据定价问题确实非常复杂。(12)参见刘艳红:《生成式人工智能的三大安全风险及法律规制——以ChatGPT为例》,载《东方法学》2023年第3期,第32页。但定价的复杂性无法替代数据利用的基础要求,数据应当也必须得到规则指引下的高效率应用。在现有数据利用规则体系下,司法实践往往倾向于回避数据权属认定,将数据作为数据控制者的竞争性财产权益。无论是“大众点评诉爱帮网” 案,抑或是“新浪微博诉脉脉非法抓取用户信息不正当竞争” 案,再或是“大众点评诉百度公司不正当竞争纠纷”案,等等,裁判者均倾向于将数据置于具备财产权益特征的类似商品的地位。(13)参见周汉华:《论平台经济反垄断与监管的二元分治》,载《中国法学》2023年第1期,第231页。在数据体量随着技术与社会的发展不断扩张的背景下,过于纠结数据的权属界定,易导致数据规模化应用的创造性价值被人为忽略。数据的应用价值目标应调整为创造新供给和新需求,以期在生成式人工智能等新技术的加持下打破原有规制边界,提供促进新的生产力发展的内涵价值,以数据规模化应用为导向的产业落地方向、盈利模式和定价策略,也亟待法律予以清晰的规定。(14)参见任保平、王思琛:《新发展格局下我国数据要素市场治理的理论逻辑和实践路径》,载《天津社会科学》2023年第3期,第88页。

三是当前数据利用的规则体系无法有效回应生成式人工智能技术发展的底层逻辑要求与发展风险。在技术的可持续发展中,战略性规划与运用数据资产,已成为商业管理和市场竞争的核心因素。(15)参见陆小成:《“双碳”目标下中国企业“走出去”战略研究》,载《企业经济》2023年第6期,第149页。数据利用的最终目标是实现更加安全、有效的使用和开发。(16)参见卜林、任硕:《我国交叉性金融业务的风险监管与防控》,载《西南金融》2023年第6期,第52页。如前文所述,我国目前数据利用的规则多体现为原则性规定,但随着技术的发展变化,全域利用的数据通常以多个或集成的数据库整体作为利用的标的。区别于传统的人工智能技术以数据集中训练和数据预测为主的模式,生成式人工智能直接带来数据规模化利用的强烈现实需求。生成式人工智能使用机器学习算法并主动创建数据集,改变了传统运算架构和算法模式,形成了新的无监督或部分监督下的算法模式,使计算机能够结合以前创建的内容(如文本、音频、视频、图像和代码)创建全新的数据产品和内容。(17)参见孙莹:《企业数据确权与授权机制研究》,载《比较法研究》2023年第3期,第61页。以OpenAI公司研发的生成式人工智能ChatGPT程序为例,其基于大模型的深度神经网络架构,专为自然语言处理任务而设计,以从互联网中筛选的高质量数据集为底座,利用自然语言处理和机器学习算法生成符合逻辑的文本,实现了机器与操作者之间的高质量问答响应。在生成新的合成数据方面,ChatGPT根据从训练数据中学习到的模式和结构生成新的合成数据,用以帮助解决数据相对稀缺问题。(18)参见袁曾:《生成式人工智能的责任能力研究》,载《东方法学》2023年第3期,第19页。在数据大规模处理方面,ChatGPT可以协助模型或应用程序数据进行全流程干预。ChatGPT的非结构化数据分析(如客户反馈、社交媒体数据和在线评论等),在强大的算法支持下可以发现新见解并改进决策过程,而其自动化前景可以使数据处理者专注于更复杂的任务,极大地提升操作人员的工作效率,降低失误概率。

就数据的利用而言,生成式人工智能以及未来通用人工智能在数据集成、数据清洗和数据溯源等基础环节明确要求数据的规模化应用,这种应用并不仅仅是指使用数据的规模,还包括数据收集、采买、脱敏、维护、应用、反馈等应用链条上的全环节规模化应用及其匹配规则的构建。过分纠结于单个或小规模数据的权属厘清,将无法满足提供未来数字技术发展所需的数据矿产底座的效率要求,客观上可能减损新科技生产力在国内市场的迭代发展速度与规模优势。

二、调整数据利用规则的规制逻辑

法学是社会科学,其关注与应用的重点是调和并促进生产关系的发展,在数据作为新科技时代重要战略资源的逻辑前提下,秉承一切从实际出发的方法论,数据利用的规则应符合市场运行规律与技术发展规律,有关数据利用的法律规则演进趋势也基本符合这一脉络。为适应生成式人工智能技术井喷后生产力跃升的现实,数据利用的规则调整也应符合相应的技术路线。

(一)市场逻辑下的数据利用规则

市场逻辑下,数据利用主要面向交易与流转使用,以使得数据作为资源价值的利益得到最大限度的发挥。当前,我国法律规则体系已形成包括数据流通、数据交易、数据治理等在内的通用性规范文件,以及以数据资产估值定价、数据定价会计处理等为代表的专项性规范文件。(19)参见李冬青、刘吟啸等:《基于数据全生命周期的数据资产价值评估方法及应用》,载《大数据》2023年第3期,第40页。在现行立法中,《民法典》第127条对数据保护仅作出原则性规定,通过引致条款的立法技术将数据权属、数据保护范式等问题交由未来立法者解决,(20)《民法典》第127条规定:法律对数据、网络虚拟财产的保护有规定的,依照其规定。但明确表明法律对数据进行保护的立场、态度。《数据安全法》第19条也明确提出,“规范数据交易行为,培育数据交易市场”。

目前数据交易在规制上被纳入传统财产交易规则予以研究规制,(21)参见梅夏英:《数据交易的法律范畴界定与实现路径》,载《比较法研究》2022年第6期,第13页。尚有许多前置性重大理论问题未得到有效解决。如上文所述,针对数据交易的定价规范,还未形成定论,缺乏妥善的理论模型。在数据定价中,以“报价—估价-议价”为路径的协议定价模式是市场上最普遍的形式,即交易双方通过反复协商达成一致价格,如中关村数海大数据交易平台的买卖双方自由定价,贵阳大数据交易所线上与线下相互结合以撮合客户进行大数据交易,上海数据交易所推出“数商”实现数据撮合、评估、定价等。(22)参见杨东、高清纯:《双边市场理论视角下数据交易平台规制研究》,载《法治研究》2023年第2期,第98页。总体而言,协议定价简单可行,但因交易双方信息不对称或意向价格悬殊无法达成共识,在一定程度上制约了数据交易效率。

而基于传统经济理论(供需模型、动态定价模型)和博弈论(非合作博弈模型、斯泰克伯格模型)产生的数据定价模式,同样因相对单一的定价模式,无法满足不同层次、不同产权、不同周期等不同类别和阶段的数据定价需求。(23)参见刘子赫、申来津:《数据赋能:数据要素市场化的基本格局与培育机制》,载《科技与法律(中英文)》2023年第3期,第47-56页。数据定价同样受到交易频次和交易规模的影响。类似于股票交易市场,数据场内交易需要依托数据交易所,买卖双方必须注册成为市场成员,在数据交易机构全过程监督审核下,撮合数据买卖双方达成交易,使数据最终实现商业化。(24)参见章永奎、宋寅寅等:《实体企业金融化与数字技术赋能》,载《财会月刊》2023年第11期,第34页。当前我国尚未形成统一的数据交易市场规则体系,数据交易平台多由国资主导建设,强调公权力属性和公益性,数据市场建设在立法基础、产权性质、权责侧重、管理体制等方面与其他国家存在明显差异。

我国现有实际运营中的数据交易所近30家,2022年度的交易规模仅约40亿元。数据交易所在我国数据交易市场中所占份额仍然较少,2022年《中国数据交易实践趋势报告》显示,没有实际交易量甚至没有数据交易产品,是许多数据交易所面临的窘境。相较而言,不受约束的场外数据交易规模屡创新高。如何在充分挖掘数据价值潜力的基础上建立安全高效的交易体系和数据定价机制,对于促进数据流通交易和形成合理定价标准具有关键作用。(25)参见高富平:《数据持有者的权利配置——数据产权结构性分置的法律实现》,载《比较法研究》2023年第3期,第31页。就经济规律来分析,定价作为数据交易的重要环节,合理的数据定价范式有助于企业或数据提供者拟订定价策略并提高数据销售收益。(26)国务院办公厅印发的《全国一体化政务大数据体系建设指南》提出“鼓励各地区各部门开展制度创新,完善数据要素法治环境,构建数据要素市场化配置体制机制,规范数据权属、数据定价、交易规则”。《中国(北京)自由贸易试验区总体方案》要求“增强数字贸易国际竞争力,探索数据交易流通的定价、结算、质量认证等服务体系,规范交易行为”。财政部2022年12月发布的《企业数据资源相关会计处理暂行规定(征求意见稿)》针对企业购买数据后在记账、摊销等方面如何进行数据要素定价的会计处理问题进行探索,为后续数据价值确定并引入企业资产负债表形成铺垫。参见张新宝:《论作为新型财产权的数据财产权》,载《中国社会科学》2023年第4期,第161页。对于数据交易对手方而言,购买数据的主体通过预先获知数据的通用定价模型将促进其作出合理决策,重点选择性价比高的数据交易方式,遵循可行的市场化定价规则,将有效促进数据的广泛流通。(27)参见刘子赫、申来津:《数据赋能:数据要素市场化的基本格局与培育机制》,载《科技与法律(中英文)》2023年第3期,第48页。

为丰富生成式人工智能发展所需的数据基础,必须建立高效、庞大的数据市场以满足数据利用与保护的现实需求,但我国现行数据立法在数据规模化交易范围、责任规范等机制上的缺位,导致了行为指引功能在数据交易领域未能得以充分发挥,现行数据治理规则总体呈现政策驱动、法治不足的特点。(28)参见杨东、毛智琪:《公共数据开放与价值利用的制度建构》,载《北京航空航天大学学报(社会科学版)》2023年第2期,第42页。数据作为一种生产要素参与市场化分配的过程,就是数据价格逐步形成的过程。(29)参见张广胜、孙学涛:《数字化转型背景下企业杠杆率选择与经济效率提升》,载《暨南学报(哲学社会科学版)》2023年第5期,第121页。“价值决定价格”是马克思政治经济学中的核心观点。传统意义上物理形态的商品,其市场价格在充分交易量下通常围绕供求关系保持总体平衡,并反映商品蕴含的本身价值。(30)参见吴宸梓、白永秀:《数字技术赋能城乡融合发展的作用机理研究——基于马克思社会再生产理论视角》,载《当代经济科学》:http://kns.cnki.net/kcms/detail/61.1400.F.20230612.1601.002.html,最后访问时间:2023年8月20日。数据若作为商品的一种,在某些交易场景下同样符合上述特征。在市场经济下,各商事主体发出数据需求,数据收集者通过采集数据、建立数据库从而形成数据产品以满足产业市场需求,此时数据作为商品本身参与市场化交易环节,数据的价格也会因供需双方的响应程度波动调整,以此来体现供求关系的变化。数据市场顺应生成式人工智能产业的发展,也需要逐步成为一种典型的生产要素市场,同样需要建立顺应发展需求和自身特殊规律的价格形成机制,以有效反映数据要素市场的供需关系和数据的实际价值贡献。(31)参见高富平:《数据持有者的权利配置——数据产权结构性分置的法律实现》,载《比较法研究》2023年第3期,第30页。而数据的稀缺性和集中性导致市场竞争不充分和信息不对称现象普遍存在,数据窃取、暗网传播、黑市交易也客观存在,仅依靠传统市场化的价格生成路径极有可能导致数据市场“价格失灵”,因此,数据合规应用等数据规模化利用的前置环节,需要调动立法者参与规制并发挥积极的主导作用。(32)参见欧阳日辉:《数据要素流通的制度逻辑》,载《人民论坛·学术前沿》2023年第6期,第25页。此外,囿于数据类型化公示登记系统的具体规则缺位,数据供求双方面临着高昂的数据搜寻成本,数据供求方无法迅速匹配数据需求方,导致数据交易中的沟通成本过高、违约责任不明。(33)“阿罗信息悖论”甚至认为数据无法被客观定价。该论认为若数据不进行公开披露,则市场无法根据全样本数据评估交易数据的实际价值,而数据一旦公开披露,则数据需求方便不再需要从数据供求方交易数据。参见戴昕:《数据界权的关系进路》,载《中外法学》2021年第6期,第1575页。从削减交易成本的宏观维度出发,在尊重市场规律的前提下,构建顺应“数据二十条”多层次数据交易市场体系、“三权分置”框架下的新型数据产权机制等规模化利用规则体系,是充分考虑我国数据要素市场发展实际和经济建设的未来面向,构建适应中国式现代化发展要求下数据治理框架的必经路径。

(二)技术逻辑下的数据利用规则

在确定了生成式人工智能时代数据应当规模化利用的逻辑后,通过分析可以发现,现行数据利用规则特别是域外数据利用规则整体呈现了向规模化利用的修正模式。例如,在生成式人工智能极端依赖的数据跨领域交换领域,欧洲数字主权项目(GAIA-X)、日本数据交易联盟(DTA)、美国纳斯达克数据链路平台(NDL)等相关数据治理框架和政策倡议均提出,应基于数据规模化运用市场现状逐步形成标准化模式,以持续鼓励和推动可信赖的跨平台、跨地域、跨行业的数据交易和应用生态系统。(34)参见程增雯:《“守门人”责任视角下平台私法事前审查义务的构建》,载《南大法学》2023年第3期,第109页。再如,在数据资产评估和管理运用方面,数据规模化利用的潜在需求在不断增强,互联网平台企业等技术主体对数据资产进行集中管理和整体运用是其健康发展的关键动力源。(35)参见李冬青、刘吟啸等:《基于数据全生命周期的数据资产价值评估方法及应用》,载《大数据》2023年第3期,第39页。由于数据资产的特有性质,数据资产的价值实现不仅与数据资产的内容和质量呈现关联,也与数据资产利用过程中的算法、模型、算力等要素高度相关,并依赖于数据资产的泛在化应用场景。特别是数据资产的持续不断产生,使得数据还具有衍生性和可加工性,在应用的过程中又衍生出不同的价值。传统生产要素的价值与其应用场景是相对固定的,而数据的应用场景可以在应用的过程中不断丰富和创新。同一数据资源在基本权属认定上的不同,必然导致所形成的数据资产不同,由于数据所包含的信息有效性会因时而异,因此数据资产的价值可能随维度的不同而不断波动,使得生成式人工智能等先进技术的提供者在利用数据时所支付的成本存在高度不确定性。(36)参见吴汉东:《数据财产赋权的立法选择》,载《法律科学(西北政法大学学报)》2023年第4期,第45页。

数据规模化利用的规则向度,客观上回避了当前学界对于数据权属厘清的过分苛责。值得注意的是,在新技术革命的背景下,立法者对于数据利用发展的话语权明显增强,以规则优势引领技术优势的效应愈发明显。当前对生成式人工智能治理的风险担忧主要集中于隐私保护与数据滥用等领域,由于生成式人工智能需要大量使用高质量数据作为运算的基础,在强大算力的加持下,甚至连生成式人工智能技术的提供者也无法预判其使用的数据是否包含侵权的内容。(37)参见袁曾:《生成式人工智能责任规制的法律问题研究》,载《法学杂志》2023年第4期,第121页。在数据需要加以规模化利用的前提下,必须进一步明确数据权益和信息权益是两个截然不同的概念,不能简单地将数据等同于信息。(38)参见周斯佳:《个人数据权与个人信息权关系的厘清》,载《华东政法大学学报》2023年第2期,第88页。

当前关于数据保护争议较为突出的问题,主要在于没有厘清个人信息与数据保护的区别,对数据的综合性权属缺乏共识。现行《个人信息保护法》第2条将个人信息的利益表述为“个人信息权益”,明确了个人对其信息财产的排他效力与处分效力。就数据权益而言,我国《民法典》第127条对数据权益的民法保护进行了宣示性规定,但仍未明确数据的权利性质和规则配置。对数据权益的确认,是进行数据定价、交易进而开展数据规模化利用的前提和基础,当前可以达成共识的是,数据权益是一项综合性的权益,既可能包含个人信息权益,也可能涵盖知识产权等财产性权利。(39)参见张新宝:《论作为新型财产权的数据财产权》,载《中国社会科学》2023年第4期,第144页。在数据定价过程中需要全面审视其权利涵摄范围,而不能简单地将其与个人信息权属和保护范围混为一谈。当然,关于数据本身来源的合法性和价值评估风险,仍需要予以特别关注。(40)参见吴泽勇:《个人信息泄露侵权的证明责任问题——以不明第三人侵权为中心》,载《地方立法研究》2023年第4期,第6页。数据作为信息的载体,通常按照0、1进制组合而成的比特流(Bit)被计算机输入、计算、输出,进而展现出信息背后蕴含的价值形态。尽管数据具有释放巨大价值和应对重大社会挑战的潜力,但单条、少量的碎片化数据缺乏联动性,价值极其有限。智能家居、物联网、社交媒体、移动应用程序和其他技术正在产生前所未有的数据量,但正如第一章所述,只有形成规模化数据集并进一步转化为应用程序和价值服务,数据才足以被赋予价值内涵。(41)参见戚凯:《ChatGPT与数字时代的国际竞争》,载《国际论坛》2023年第4期,第21页。在投喂生成式人工智能发展所需的基础数据量规模要求下,围绕“数据二十条”不断丰富完善数据要素相关的规则体系和配套机制,进一步完善数据基础制度体系,(42)参见康宁:《数据确权的技术路径、模式选择与规范建构》,载《清华法学》2023年第3期,第167条。通过数据规模化应用推动公共数据、企业数据、个人数据进一步合规高效流通使用,将成为推动数字经济与数字技术加速发展的关键环节。

三、数据规模化利用的规则重构

数据规模化利用的规则构建是化解生成式人工智能时代数据大规模综合利用的关键举措。为适应生成式人工智能等新技术的发展需要,需要结合数字经济规律,进一步完善数据规模化利用的治理框架与细则,按照市场调节的方式对数据进行可控、高效的规模化应用,对当前数据利用规则进行以“经济利益—风险控制”为主要价值导向的系统性调整。在数据规模化利用的具体建构上,我们可以从以下几个方面着手进行整体控制。

(一)确定面向鼓励数字经济发展的规模化利用原则

数据必须规模化利用才可以有效发挥其经济效能,高效提振我国数字经济发展的水平与能力,数据规模化利用的关键步骤在于迅速通过规制原则的变化,快速建立符合清晰、安全要求下的数据市场。在数据权属争论暂无法形成统一意见的背景下,不妨将有关数据权属的讨论暂时搁置,从而构建数据规模化利用指导原则下的数据资产评估、定价、使用的相关系统性规范。数据资产的价格成本受到技术在采集、存储、加工等过程中形成的固定成本,以及市场竞争与个别需求产生的浮动成本两方面的影响。(43)参见李金璞、汤珂:《论数据要素市场参与者的培育》,载《西安交通大学学报(社会科学版)》2023年第4期,第79页。同时应注重以人工智能治理数据,在数据定价中引入生成式人工智能技术嵌入,迅速、便捷地根据成本变化、市场需求、对手价格、消费者支付意愿进行价格设定与变更,更有效率地推动实现规模化市场效应。(44)参见邱冬阳、蓝宇:《ChatGPT给金融行业带来的机遇、挑战及问题》,载《西南金融》2023年第6期,第19页。再以数据定价为例,单个或小规模的数据集成无法定价,对其加以过于明确的权属推定负担将无益于数据的快速流转与利用。定价规则标准模糊和计算模式繁复,又逆向为数据供给方、数据处理方滥用算法提供了契机,亦增强了数据消费者的抵触心理。例如,企业碳排放数据可以应用于能源定价、产能优化等方面以实现经济价值,应用于碳汇市场交易则可以实现生态产品价值,应用于地区经济统计和政策制定模型能够实现社会价值。在不同使用场景下,同一数据产生的贡献与表现价值往往有较大差异,在数据规模化运用背景下针对数据交易继续采取非标准化的定价策略,不合理的定价标准将破坏市场主体对数据交易的潜在需求和信心,而数据要素定价规则缺乏统一性也将阻碍数据定价实现通用化和标准化。(45)参见任保平、王思琛:《新发展格局下我国数据要素市场治理的理论逻辑和实践路径》,载《天津社会科学》2023年第3期,第81页。而当前数据利用规则在数据价值评估上也存在较大漏洞。(46)笔者注:例如,美国波耐蒙研究所(Ponemon Institute)针对以色列数据治理软件平台DocAuthority公司的一项数据价值评估调查结果显示,不同部门对于数据价值评估模型及成本认定存在争议,一份财务报告泄露事件的预估损失在信息安全团队视角下价值13万美元,而在财务人员视角下价值则为30万美元。相反,员工薪酬信息在人力资源部门视角下价值5.8万美元,而在信息安全团队视角下价值为9.4万美元。数据价值从获取直至形成定价的过程涉及多部门协同,对数据供给者的身份信息识别结果直接决定了数据价值评估水平,基于不同评估视角下的数据价值评估结果往往差别显著。(47)参见李策划:《数字资本特性与行为规律研究》,载《企业经济》2023年第6期,第98页。关于数据价值认知上的差距会直接导致数据集成商在保护不同类型数据以及处理数据后续流转方式上存在差异,错误的数据价值评估也会影响数据安全控制措施的实施。(48)参见吴晓灵、李曙光等:《金融改革与法律监管》,载《中国法律评论》2023年第3期,第11页。我们极有必要在规制层面重构以保护数据消费利益为目的的规模化定价机制安排,促进经济利益与隐私保护同重的数据定价规则快速发展。2023年3月,全国首份“数据资产价值与收益分配评价模型”团体标准编制在青岛发布,该标准提出,应根据数据在运营过程中的使用与收益情况,量化数据质量、数据应用、变现量和收益分配比例,进而对数据资产的价值与收益分配进行评价。“数据二十条”等文件也从数据的持有权、使用权、经营权等制度,对数据一级、二级市场化发展进行了说明,从实践维度对形成明确的数据规模化确权体系和定价制度规范提供了研究指引。

(二)建构面向新技术发展的数据规模化利用规则体系

结合生成式人工智能等新技术发展的底层逻辑,我们需要在数据利用规则层面建构责任规制下的分类控制,确定相对统一的数据规模化利用机制。其一,数据供给方应作出数据合规承诺,承担过错责任,以保证生成式人工智能等新技术在完整、准确的数据底座基础上执行数据运算。数据规模化过程中不可避免地将引致隐私权保护的争议,简单的数据匿名技术会带来数据供给方的隐私风险,欧洲《通用数据保护条例》(GDPR)和美国加利福尼亚州《消费者隐私法案》(CCPA)已经将透明度、用户控制和隐私设计等概念部署至数据供给方的首要位置。其二,包括生成式人工智能研发者在内的数据集成方,负责规模化数据管理机制的构建。对于数据授权运营过程中各项工作的职权职责予以明确,厘清数据集成机构方的权责边界和管理准则,包括设定数据生成访问内容“禁区”,在确保效率的前提下对数据分类分级工作和精细化管理,避免数据“休眠”“失联”。同时注重优化数据集成方在进行数据价值评估中的部门协同流程,限缩各评估环节价值评估公允价值差异系数,降低数据价值评估离散的风险。《生成式人工智能服务管理暂行办法》对大数据模型在实践中暴露出的安全及伦理问题已经展开原则性规制,要求生成的内容应当真实准确且不得扰乱经济秩序和社会秩序,但在生成式人工智能访问供给者数据时未划定访问内容“禁区”,应当在后续立法中设定前置禁止性规范,例如,设置访问内容负面清单,并适用惩罚性规则。其三,由数据消费者承担最终使用责任,少数数据资源涉及个人信息和商业秘密,数据消费者作为数据的最终接收与使用端口,具有信息保密和隐私承诺的义务,否则应承担过错责任。其四,当前数据要素的利用缺乏统一模式,其难点在于数据具有不同于其他生产要素的独特特征,其关键在于如何利用数据的规律和特征,在规模化运用背景下形成通用化和标准化的利用规则。(49)参见申卫星:《数据确权之辩》,载《比较法研究》2023年第3期,第1页。传统要素研究模型和框架,多基于对要素产品本身的特性机械叠加,从而定义其使用场景和应用范畴,而数据要素更为复杂、多变,其利用规则更需要适应数据要素特征。数据规模化利用应当在确保数据价值有效传递的前提下,分层逐级降低隐私和安全风险,降低利用复杂度,使数据确权的复杂问题得到相对统一的解决。

(三)创新以利益与风险为主要考量的数据规模效益分配

新科学技术带来的生产力水平提高,最终应服务于社会财富的总体增加,通过合理的制度安排,将技术收益与资本收益通过规则路径转移至相关主体,从而促进人类社会的整体发展,实现正向的发展循环。数据是新科技时代的新型矿产资源,在数字社会下,自然人、法人等不同类型的主体每时每刻均在生产、利用数据。数据要素是事关维护政府、市场、社会多元主体利益共同体的关键生产要素。(50)参见陆小成:《“双碳”目标下中国企业“走出去”战略研究》,载《企业经济》2023年第6期,第143页。如何将数据资源高效、准确、公平地转换为现实收益,是数据规模化利用规则整体建构过程中所应考虑的重中之重。特别是在我国人口结构变化、社会基尼系数加大的客观背景下,如何利用数据这一新型生产要素实现全民收入结构调整并大幅增加数据财产性收益,是关系分配制度改革创新的重大议题。若数据规模化利用可以实现收益的规模化获取与完善利用,新技术的发展与变革也可以在规则的导向下形成强大的资本支持。党的二十大报告指出,扎实推进共同富裕,完善分配制度,构建初次分配、再分配、第三次分配协调配套的制度体系。而数据规模化利用规则体系可以构成三层次分配基础性制度安排中的重要一环。站在促进数字经济高质量发展和实现共同富裕目标的维度,应从价值体系和制度规范层面建设数据权益增值模式和数据权益利益分配机制,从顶层设计的高度明确数据权益的三层次收入分配机制,特别是发挥数据收益在第三次分配中的重要作用。(51)参见梅傲、柯晨亮:《数据共享与数据财产化》,载《四川师范大学学报(社会科学版)》2023年第5期,第5页。

在数据规模化利用的指导原则下,结合经济利益与风险承担的市场现实,以设计数据权益三层次分配制度框架。在数据权益形成和初次分配阶段,以实现经济利益为主要考量,按照“谁投入、谁受益”的原则,由市场评价贡献、按贡献决定数据权益的分配,保障不同所有制形式的数据生产者、数据集成者、技术研发者、数据服务者、数据消费者等主体公平参与数据交易和竞争。(52)参见刘奕、李清逸等:《基于数据价值链的数据要素交易机制创新研究》,载《学习与探索》2023年第4期,第88页。在数据规模化利益再分配阶段,关注“公平分配”目标实现,发挥政府在数据权益分配中的引导、调节作用,重点调节大型和中小型数据主体的数据权益比例分配差距,防止市场出现“中间小、两头大”的分化情况。(53)参见汪旭晖、朱力:《中国式现代化背景下畅通国内大循环的理论逻辑与制度安排》,载《经济学家》2023年第1期,第67页。在第三次分配阶段,强化“风险控制”环节把关,补强市场“弱自调节”短板,对于大型数据主体特别是民营、外资数据集成主体,以总体国家安全观为规制导向,根据数据对于数据权利主体的价值以及其实际承担的风险程度,对获得的数据规模化收益加以分级分类分配。例如,针对涉公用事务类、国家机密类数据,可通过基本立法明确国家专管机制,针对非机密类常规数据,应引导数据集成平台向社会部分低价或部分免费开放。同时,健全第三次分配的数字税收优惠制度,形成创造经济利益、坚持规范运作、实现风险管控这三个维度下的三层次数据权益分配机制健康繁荣发展。(54)参见刘吉文、陈婕妤等:《大数据驱动下的企业全面预算管理体系构建研究》,载《财会通讯》2023年第12期,第165页。

另外值得注意的是,对于公共数据而言,应当始终坚持数据规模化收益取之于民、用之于民的用益导向。公共数据是指行政机关以及依法履行公共管理和服务职能的事业单位以及社会组织在履行职责过程中收集和产生的数据。由于公共数据的产生与流通是由全社会主体共同参与完成的,数据在规模化利用后可以实现较大的规模收益,应注意国际上政府投资收益从管理企业向管理资本转型的大趋势,可以适时考虑由国家主管部门主导建立国家数据主权基金,将基金收益所得划转社保基金,全面充实社会保障体系的收入来源体系。例如,借鉴挪威国家主权基金(Norway Government Pension Fund Global)的成功运作范式,将数据基金权益所得收益归属于所有公民,通过规模化数据管理和数据定价销售实现量级收入,将数据资源转化为可再生的金融资产,盈余部分返投至基金体系进行长期投资,基于国内与国际性投资的混合错配安排,实现数据权益风险相对独立,在一定程度上形成经济风险对冲。

四、余论——以规则优势引领发展优势

技术对于法律的冲击大致可分为三种:第一种是技术形成传统法律难以适用的新空间时,技术将直接冲击法律权威机构的主张;第二种是技术发展速度过快冲击了法律原理;第三种是技术全面侵蚀人类对于法律的概念权威和尊重性思维,这种冲击对于社会发展的破坏深远。(55)参见[印尼]萨法里·卡西亚安托、[德]穆斯塔法·基林茨:《元宇宙的法律难题》,郑志峰等译,载《财经法学》2022年第6期,第127页。当前生成式人工智能技术的应用对于法律的冲击尚属第二种类型,如何通过法律规则的顶层设计因势诱导技术按照预设的技术路线快速发展,并使得科技发展的成本收益最大化,是法学研究应予重视的最新课题。数字时代的法律必然伴随数据技术的不断冲击而形成新一轮的突破和创新。小样本的数据对于数字经济的发展而言作用不强,只有将数据进行科学高效的规模化利用,才能充分发挥我国海量数据规模的优势与丰富场景应用优势,有力推动我国数字经济发展。面对数据在新时代的基础性战略作用,2022年12月19日,中共中央、国务院发布了《关于构建数据基础制度 更好发挥数据要素作用的意见》,明确指出要探索有利于数据安全保护、有效利用、合规流通的产权制度和市场体系,完善数据要素市场体制机制,促进形成与数字生产力相适应的新型生产关系。2023年3月,中央印发了《国务院机构改革方案》,明确提出组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等职能。

当前国际上已形成中、美、欧三极的数字经济发展格局,不少国家将发展数字经济、促进数据价值释放作为关键任务。2022年以来,英国、德国相继更新修正了本国的数字战略,力图通过数字技术发展、基础设施建设和数据力量释放以助推经济增长和创新,其中极为重要的一环就是打造支持创新的完整规则框架,为人工智能、数据和数字竞争的发展提供规则优势,进一步提升数字化能力与数字经济竞争优势。据此分析,数字经济已成为当今各国角力的重要战场。在此大背景下,如何有效利用规则创新优化制度优势形成数字经济发展硬实力,从而为国家牢牢抓住数字技术发展的主动权提供理论模型与规制架构,直接关系着能否把握新一轮科技革命和产业变革发展先机。因此,通过不断完善构建数据规模化利用的规则体系,推动数据分级分类治理机制落地,在共同富裕目标的指引下完善数据权益分配制度,将有助于实现数据交易放量增长,逐步提升我国在国际数字市场上的数据定价、利用、发展等领域的话语权重,真正实现以规则优势逐步引领发展优势,确保我国在新科技时代的领先地位。

猜你喜欢

规模化规则人工智能
益林中草药 初现规模化
撑竿跳规则的制定
数独的规则和演变
规模化育肥羊场免疫程序的探讨
2019:人工智能
人工智能与就业
规模化猪场暴发PED后的快速稳定策略
让规则不规则
数读人工智能
TPP反腐败规则对我国的启示