APP下载

联邦计算中的数据交易预期收益分配模型

2024-12-31王子玄黄倩倩任明

现代情报 2024年11期
关键词:收益分配

关键词:收益分配;联邦计算;Shapley值法;数据交易;模型改进

DOI:10.3969/j.issn.1008-0821.2024.11.011

〔中图分类号〕F49;F224.32;G203 〔文献标识码〕A 〔文章编号〕1008-0821(2024)11-0108-10

近年来,我国数据要素市场化建设进程稳步推进。贵阳数据交易所、上海数据交易中心等一批数据交易平台相继成立,数据要素市场规模不断扩大,但仍然处于发展的起步阶段,面临数据要素流通困难、市场生态发育不良、场内数据交易量不足等一系列困难与挑战[1]。由于合作价值和分配规则的不清晰等种种原因,数据供应方入场意愿低下,数据合作开发和交易难以开展。探究合理的预期收益分配机制,为数据供应方提供稳定预期的决策支撑,对促进数据流通、加快数据要素市场化进程,具有重要的研究意义。

多方数据协作是指多个数据供应方开展数据合作开发,提供数据产品,并依据一定的规则对最终的数据产品的收益进行分配。数据供应方的横向联合或纵向联合使得数据资源有效汇聚,促进数据的价值挖掘和数据产品的收益提升。横向联合指数据供应方提供数据所具有的属性相同或相似,多方联合使得数据所覆盖的样本量增加;纵向联合指数据供应方提供数据所具有的属性不同,多方联合主要增加了数据维度。考虑到隐私保护和数据安全,各数据供应方不会直接将数据进行共享汇聚,而联邦计算为更好地提升多方数据协作水平、释放数据要素价值提供了重要支撑。在数据交易的撮合环节,依赖联邦计算等技术,多个数据供应方可以提供部分样本数据进行数据实验,根据实验结果和具体的定价策略对未来数据交易中的数据产品进行估价,进而形成合作与收益分配的意向。

Shapley值法能够根据各参与者对合作联盟总目标的贡献程度进行价值分配。但是,直接将Sha⁃pley值法用于联邦计算得到的数据产品预期收益分配也存在若干问题。首先,Shapley值法所考量的通常是模型表现、构建成本等因素,这种单一的因素往往不能全面地衡量各方的贡献。收益分配不仅要考虑各方对数据产品价值的直接贡献,也要考虑各方对数据产品开发的间接影响。其次,在交易撮合期间,由于信息不完全,数据供应方决策理性有限,且各方博弈水平存在差异等原因,预期收益分配结果难以准确衡量。因此,对Shapley值法进行改进,才能够形成有效的联邦计算的预期收益分配,更有力地支撑多方数据协作的合作意向达成。

本文提出改进的Shapley值法进行联邦计算的预期收益分配,包括引入影响合作和交易的各类因素,以及使用模糊数对预期收益进行表达。进一步地,通过仿真实验探究各因素对数据供应方合作与收益分配的影响,为促进数据合作开发提供参考建议。

1相关研究

1.1数据产品交易

数据产品是数据市场的交易对象,包括原始数据集、脱敏数据集、模型化数据和AI化数据[2],既包括某个数据供应方提供的数据,也包括数据合作开发的成果。数据产品应用于具体的业务或生产场景,数据产品价值判断同样基于场景。一方面,应用场景产生收益后,数据产品的价值才具体体现,数据产品的供应方应获得数据产品应用后的部分收益;另一方面,数据产品风险管理责任主要由数据供需双方承担,数据产品供应方应尽可能保证数据产品的质量,避免交易风险,提高数据产品的可用性增加收益。

多方数据协作的数据产品收益分配需要评估数据产品质量以及各数据供应方数据产品(即各方因参与数据合作开发提供的数据)质量贡献。数据产品的质量评估有多个维度。《国家数据质量评价标准》提出了规范性、完整性、准确性、一致性、时效性、可访问性六大指标。数据产品的价值还可从成本、数据质量、应用价值和品牌价值4个维度综合评估[3]。此外,由指标所搭建的质量评估模型的应用应该考虑数据交易的不同阶段,数据产品的质量评估也应该贯穿数据交易全过程。交易前、交易中、交易后3个阶段都应该对即将或已发生交易的数据产品进行评估与审核,并在交易时针对具体场景和需求提升数据产品质量[2]。

数据交易平台是数据产品交易的场所,也是连接数据供应方、模型训练方和数据需求方的纽带,具有监督和服务支撑功能,提供数据信用综合评估、数据合规审核认证、数据要素综合评估[4]、数据溯源研究[5]等服务。数据产品交易模式采用撮合交易模式,即平台进行数据供需关系撮合,不久前成立的上海数据交易中心就是采用此种模式[6]。数据交易平台应构建“撮合实验环境”和“生产计算环境”两个分离的环境,而交易未达成的交易撮合阶段应在撮合实验环境中进行。撮合实验环境一定程度上保障了数据安全,数据供应方和其他相关方可以在应用平台所提供的数据处理工具,预测合作前景,选择合作策略[7]。数据合作开发需要在撮合实验环境下进行模拟,以方便数据供应方达成合作意向并制定收益分配方案。

1.2收益分配

数据合作开发成果数据产品的收益分配模型需要评估数据供应方的数据价值,由于各方无法统一数据产品的价格以及数据资产的价值,第三方评估成为数据价值评估的重要方法,即委托专业的第三方人士对数据产品、数据资产进行评估[8]。第三方考虑数据资产成本、排他性水平、年龄、风险等因素,根据数据质量评价指标给出评价结果[9],直接或者间接对比近期市场上相似数据资产的交易价格,分析并排除其中差异的影响,给出价格区间以服务于数据供应方达成交易[10]。

数据合作开发的收益分配属于合作博弈,即各参与方自主决策,签订协议达成合作。其中,合作博弈的讨价还价模型需要所有参与者就如何价值分配进行谈判以达成协议,当各方对价值分配方式达成一致时,合作或者交易才会发生。研究者进一步改进讨价还价模型以更好地在收益分配中应用,包括在讨价还价模型中考虑社会福利等因素来防止不公平交易[11];用重置成本法、收益现值法给出大数据资产的理论价格区间,构建基于价格区间的三阶段讨价还价模型[12]。讨价还价模型适用于复杂谈判条件下的谈判,但问题在于耗时且达成合作的协商成本较大[13]。

合作博弈中的Shapley值法为研究者打开了新的思路。Shapley值法根据各参与者对合作联盟总目标的贡献程度进行价值分配,符合按劳分配为主的分配原则,并且Shapley值法与隐私计算技术有较好的适配性。现有研究将隐私计算和Shapley值法相结合,在此基础上提出算法的改进,包括考虑数据异质性对Shapley模型的影响[14],改进Shap⁃ley模型中贡献指数计算方法以提升计算效率[15],或结合交叉熵理论和模糊测度构建最优模糊测度Shapley模型[16]。

2基于改进的Shapley值法的联邦计算预期收益分配模型

2.1收益分配的影响因素

模型构建应充分考虑数据供应方合作和利益分配的各类影响因素与各方博弈水平。合作开发得到的数据产品其价值一方面由模型直接体现,模型训练的数值结果可作为相关价值的衡量指标;另一方面数据产品的价值间接体现在业务和场景中,不能通过模型训练直接得到相关价值的衡量指标。相对应在进行利益分配时,一方面,考虑各方对于模型训练的贡献,通过模型训练的数值结果直接表现各方贡献;另一方面,数据供应方各方带来的交易风险、减少的交易成本以及创造的隐性价值等因素也应当考虑到利益分配中去。因此,将数据供应方合作的影响因素分为模型因素以及非模型因素,模型因素包括模型的预测准确率、预测稳健性;非模型因素包括应用场景、市场环境、数据信用度、数据投入成本。

1)预测准确率:一般情况下,数据产品服务于预测任务,模型使用历史数据进行训练和学习,以预测未来的风险情况和发展趋势。因此,模型的预测准确率是数据产品对模型学习结果贡献的最直接体现,各个数据供应方提供的数据对模型预测准确率的提高应当被考虑到数据产品利益分配中去,这恰恰符合以按贡献分配为主的分配原则。然而,数据对模型预测准确率的贡献并不能完全体现数据对数据产品价值的贡献。其一在于模型本身带来的不稳定性可能会导致对贡献衡量的偏差,例如改变模型参数或增加模块,同样的数据集得到的准确率贡献就会改变。其二在于数据集对业务场景、交易风险等方面的影响无法体现在单一的预测准确率评价指标中,因此,应当考虑更多衡量因素。

2)预测稳健性:稳定预期是开展合作的重要前提,模型训练方如果无法在撮合实验中对未来收益有稳定预期,则可能为避免劳动力和资金投入的浪费而选择放弃合作;数据供应方如果无法在撮合实验中明确预期收益,则可能为避免他人的“搭便车”行为而导致的不公平利益分配而选择放弃合作。因此,各方希望数据产品在模型训练中的表现具有一定的稳健性,也要求数据供应方各方为预测的稳健性提供支撑,预测稳健性应成为参与利益分配的因素之一。

3)应用场景:数据产品价值的实现依托具体的业务生产场景。数据产品价格,即数据供应方获得的总体收益是场景中获得收益的一部分,当合作中只存在横向联合时,各数据供应方所提供的数据产品对应用场景的贡献一致,无需作为单独的因素纳入分配模型。但特殊情况在于,如果数据供应方的合作中存在纵向联合,数据产品的属性维度将会增加,适用的业务与生产场景有增加的可能性,最终使得数据产品的获利增加。所以应当考虑各数据供应方对应用场景数量扩展的贡献。

4)市场环境:市场环境对数据要素市场具有系统性的影响。相同的数据产品由于市场大环境的变化,其价值也将发生变化。例如,随着隐私保护规则的收紧,数据产品可应用的业务与生产场景可能受到约束,但随着隐私保护机制的完善和技术进步,数据产品可应用的业务与生产场景也会增加;当市场对数据交易呈消极的态度时,数据产品的开发成本和交易成本可能增加,其价值可能被低估,而收益反而会减少,反之,当市场对数据交易保持积极态度时,同样的数据产品开发成本和交易成本都将会下降,其价值也可能获得较高的认可度,数据供应方可获得更多收益。

5)数据信用度:数据信用度指数据与数据供应方可被信任的程度,和合作风险息息相关。一方面,数据存在造假敷衍的可能性,数据的信用度低将会严重影响数据产品的质量;另一方面,数据供应方本身的信用水平也影响着合作成功的可能性,数据供应方信用水平低,其他参与合作的数据供应方的信息安全可能受到威胁,这将会影响合作进程。数据信用度可依赖数据交易平台给出评价,平台可通过整合法人基础情况、行政许可、行政处罚、守信激励名单、失信惩戒名单等信息,利用机器学习、专家评级等模型输出量化的数据供应方信用评级[17],而数据信用度也可作为影响因素嵌入数据供应方合作的收益分配模型。

6)数据投入:数据投入指数据供应方对自身数据的开发投入,例如资金、人力等成本,代表数据供应方对数据合作开发的推动作用以及努力程度。数据投入提高,意味着数据供应方越注重提升自身的数据质量,对合作更加积极主动,越有利于数据产品提升价值。值得注意的是,随着数据投入增加,数据产品价值与数据供应方收益的增加是边际递减的,数据投入不会也不应当覆盖数据对数据产品价值本身的直接贡献。

根据以上分析发现,各因素对数据产品价值的影响程度并不相同,可根据对数据产品价值的影响直接与否将其区分为直接影响因素和间接影响因素,如表1所示。直接影响因素的变化可以直接体现在数据产品的价值变化中,包括模型因素中的预测准确性,非模型因素中的应用场景以及市场环境。间接影响因素的变化对数据产品收益的影响具有隐蔽性,通常不会直接体现在数据产品的价值中,包括模型因素中的预测稳健性,非模型因素中的数据信用度以及数据投入。这些因素为数据产品利益分配提供评价标准和参考依据的同时,也激励数据供应方提升自身的数据质量,提高数据和组织的信用水平,积极参与数据合作开发和数据交易。

2.2基于多因素的修正Shapley值法

假设n个数据供应方组成了合作联盟S,以合作形式进行数据合作开发,其中任意若干供应方进行合作都会获得一定收益v,且增加供应方参与合作不会引起收益降低,则全部n个数据供应方合作将带来最大收益。对于合作联盟中的个体i,Si代表合作联盟S中所有包含i的参与者组合,即包含i的S的子集,计算在组合中i的边际贡献,并通过权重因子w消除计算顺序的影响,加和得到个体i的分配值φi,合作联盟S中的每个个体的分配值组成了一个Shapley值分配方案。

3仿真实验

3.1数据描述

利用实验模拟数据供应方的数据合作开发,进一步验证数据供应方合作的收益分配模型的适用性和有效性。为尽可能模拟数据供应方的合作,探究收益分配影响因素作用机制,利用公开数据集模拟数据合作开发。本研究选择计算机视觉的经典数据集MNIST数据集及其识别模型模拟数据的合作开发,MNIST数据集分类任务简单明确,易于操作,数据量较大,便于数据集分割处理。

假设有3个数据供应方A、B和C参与数据合作开发。分割MNIST训练数据集为3份,每份20000个训练样本,数据供应方A、B和C数据集构成如表2所示。

在模拟数据合作开发过程时,考虑数据“可用不可见”的应用环境,参考联邦学习传递模型参数而不传递数据的模式,使构建的模型以某种顺序在A、B、C三方的数据集上依次训练,并在每次训练后在同一个测试集上测试。改变迭代次数和学习率,得到不同情况下的预测准确率。最后,改变3个数据供应方数据集的训练顺序,使所有顺序的数据供应方组合都进行上述操作。

3.2实验设计

1)影响因素参数设置。由于MNIST数据是同一类型,且有相似数据结构的,则实验不涉及数据供应方增加使得应用场景拓展的情况,设置任意数据供应方合作得到的数据产品应用场景参数的初始值均为1。市场环境对数据产品价值具有系统性影响,实验中视为外部影响因素,设置市场环境参数的初始值为1。数据信用度与数据投入修正因子系数初始值设置如表3所示。设间接影响因素修正因子权重(β,β,β)为(1/3,1/3,1/3)。

2)收益模拟函数。在实验中设计符合实际且合理的收益函数是极其困难的,另外,实验的目的主要在于发现Shapley值法改进后的有效性和合理性,并分析影响因素。因此,本次实验拟设计收益模拟函数代替收益函数在Shapley值法中的应用,将因素对收益的影响放大呈现在收益分配结果当中。

首先,考虑收益与预测准确性的关系。当预测准确性极低时,少许增加不会对模型的有效性有本质的提升,都不能够应用于实际生产服务;当预测准确性较低时,少许增加可能会使模型有效性有较大改善,使其价值大幅提升;当预测准确性较高时,原本的准确率已经达到使用预期,模型价值的提升反而随着准确率增加而边际递减。据此引入Sigmoid函数,以c为收益调整,设计收益模拟函数与预测准确率的关系见式(18):

其次,设计应用场景因子系数为D,则应用场景每扩展1个单位,收益增加1×D×v。设置D初始值为1。最后加入外部影响因素市场环境,则得到收益函数见式(19):

3.3结果及分析

A、B、C三方数据集模拟数据合作开发的预测准确率结果如表4所示。

从表4中可以看出,模型预测准确率结果有较大的波动性,与实际场景中的模型训练情况相似,这有利于模拟数据合作开发的实际情况。根据表4直接得到各数据集组合预测准确性的上下限,进一步得到预测稳定性修正因子,如表5所示。

用预测准确率下限数据和上限数据分别进行基本Shapley值法、修正Shapley值法的计算,再引入三角模糊数得到模糊Shapley值法以及模糊修正Shapley值法的计算结果。收益分配值计算结果如表6所示。

分析实验结果,本文认为模糊修正的Shapley值法博弈模型具有其优越性。Shapley值法使得分配首先避免了单纯按照数据量进行收益分配,凸显了数据供应方的数据集对于最终数据产品的贡献,使分配结果反映数据质量,数据供应方得到更加合理的分配额;其次,修正Shapley值法加入预测稳健性、数据信用度以及数据投入因素,考虑了数据供应方对数据产品合作开发的间接贡献,进一步改变了数据供应方得到的分配值,减少了在风险控制、合作投入等方面表现最弱的数据供应方C的分配值。此外,采用模型准确率上下限作为精确值的Shap⁃ley值法缺少对供应方各自博弈水平的考虑,单次计算结果差别大,确定的分配值其实无法给予数据供应方确定的收益预期,而模糊Shapley值法为数据供应方提供了更具稳定性的预期分配结果作为参考。因此,认为模糊修正的Shapley值法较仿真实验中的其他模型更适用于数据产品的收益分配。

3.4拓展分析

为具体分析影响因素在数据供应方合作预期收益分配模型中的作用机理,分别改变预期收益精确度、应用市场、市场环境、间接影响因素,观察预期收益分配结果的变化并得出结论。

1)预期收益精确度的影响分析。预期收益精确度提高,三角模糊数预测准确性的扩散半径减小。假设所有数据集预测准确性下限提高20个百分点,则分配结果如表7所示,预期收益分配结果下限提高,上限下降,预期收益区间收紧,3个数据供应方的预期都更趋向稳定。因此,使用模糊修正后的博弈模型,数据交易平台以及模型训练方在撮合时努力提高预期收益的精确度,能够形成更稳定的收益预期,促成数据产品的合作开发。

2)应用场景和市场环境的影响分析。考虑应用场景的变化。假设数据供应方B、C的数据应用场景因子d为1,A的数据单独使用应用场景因子d也为1,而在两个及以上的数据供应方合作联盟中,若组联盟中有A的数据时,得到的数据产品应用场景扩大1个单位,即d为2,那么收益分配结果如表8所示,数据产品总体的预期收益提高;A的预期收益增加量比B、C预期收益增加量略大,即对场景扩展有更多贡献的数据供应商可获得更多的收益增加。因此,在数据供应方博弈模型中考虑应用场景影响因素,有利于促使不同行业、不同领域的数据供应方跨领域开展合作。

考虑市场环境的变化,假设外部环境鼓励数据交易,则设置市场环境参数值增加10%,那么Shap⁃ley值法分配结果如表9所示。数据产品总体的预期收益增加;同时,原本收益分配较多的数据供应方获得更多的收益增加量。外部市场环境鼓励下,在数据产品收益系统性增加时,使用本研究构建的模型进行收益分配,也会放大原本在数据合作开发中表现突出的数据供应方可获得的收益,鼓励数据供应方进行高质量数据产品开发合作。

3)间接影响因素的影响分析。如表10所示,提高数据供应方C的数据信用度的修正因子系数,相应地,A、B的数据信用度的修正因子系数减小。得到预期分配结果如表11所示。

对比表9可知,数据产品的总收益不变,使用修正后的Shapley值法,数据供应方C在提高了自身的数据信用度之后,分配额得到了显著的提升。改变预期稳健性和数据投入修正因子系数,得到的分配结果是类似的。因此,使用修正后的Shapley值法,有利于鼓励数据供应方进行场内交易,加大数据投入,提供更稳健、更具有信用度的数据。

4结论

本文阐述了基于联邦计算、数据产品合作开发的多方数据协作模式,分析数据供应方合作的主要影响因素,并构建模糊修正的数据供应合作的收益分配模型,并进行模拟数值仿真分析,观察各因素对数据产品收益分配结果的影响。研究发现,模糊修正的Shapley值法考虑了数据供应方对数据产品价值的直接贡献和间接影响,以及各方博弈水平的差异,具有合理性和有效性。模型通过加入预测准确性、应用场景以及市场环境因素,反映数据供应方对于数据产品价值的直接贡献以及外部环境对数据产品收益的系统性影响;加入预测稳健性、数据信用度、数据投入因素,反映数据供应方合作投入和信用水平对数据合作开发的间接推动力;并且,模型使用模糊数进行预期收益的模糊表达,为数据供应方提供更稳定的预期收益分配结果。

据此,针对数据交易平台建设和管理机制提出以下建议。首先,数据交易平台应充分考虑影响数据交易与数据合作开发的各类因素,促进收益分配的公平性。数据开发顺利与否以及数据产品的最终价值不仅与预测准确率、模型效用相关,还与多种因素密切关联,例如稳健性、信任程度等。数据交易平台在评估数据产品价值时考虑多种影响因素,这样有利于将数据供应方所承担的成本纳入考量,使分配结果更加公正,也有利于促进数据供应方提升自身的数据质量,形成数据开发良性循环。其次,数据交易平台应加强对数据交易市场数据的管理与掌控,支撑数据供应方和需求方形成稳定预期。在进行数据产品价值评估以及收益分配时,单一的撮合实验数据结果不足以支撑数据供应方决策,数据产品市场的总体情况、历史交易数据等则会对数据供应方形成预期收益颇有助益。然而,这些信息是杂乱的、多源的、动态变化的,数据供应方难以仅仅凭借自身的努力得到有效信息。为此,数据交易平台应该对数据交易市场的数据进行全方位的管理,提升对数据供应方的支撑服务。

猜你喜欢

收益分配
共同富裕视角下农村集体资产收益分配制度的完善
有户口但无承包地 无权参与收益分配
企业收益分配的原则和程序
医院绩效考核和收益分配要点分析
农村集体经济组织收益分配纠纷解决的路径选择
独立学院财务管理问题及对策研究
浅议集体经营性建设用地入市背景下的收益分配
民事强制管理制度研究
基于修正Shapley值的高速公路PPP项目收益分配模型
人力资本参与企业收益分配矩阵的构建