基于集成机器学习的数据资产定价模型及系统设计

2022-09-23任建宇

中国管理信息化 2022年14期

任建宇

（重庆交通大学经济与管理学院，重庆 400000）

0 引言

当今社会背景下，经济蓬勃发展，数据体量不断增长。我国政府始终密切关注数据发展，高度重视数据资产挖掘带来的价值，并出台多项专门政策支持数据资产应用于各大领域，由此，数据挖掘与应用领域迎来了悄无声息却影响深远的革新。表1 是近年来我国出台的关于数据发展的部分政策，笔者发现了相关政策对数据资产定价的有效指引，认识到有效发掘数据资产价值、快速实现数据资产交易已逐渐成为市场创造价值和促进决策的热点。

表1 关于数据发展的部分政策文件统计

数据资产交易虽逐渐成为热点，但目前市场数据资产的有效挖掘仍存在诸多难点和限制。数据资产是一种全新的无形资产，也因此具备无形资产的属性特点，即无实体形态，具有不确定性、时效性、非竞争性等。同时，数据的价值会受到数据容量、用途、规模等因素直接或间接的影响。笔者针对以上情况，在对大数据资产的应用场景及价值影响因素进行界定的基础上，应用集成机器学习的算法来评估数据资产价值，从而对数据资产进行更准确的价值评估。

1 文献综述

目前，不少学者通过改进传统研究方法建立定价模型，进行价值评估。其中，成本法、市场法和收益法是传统资产评估方法的代表。成本法作为反映企业经营情况最基本的方法，在市场不活跃的情况下更为适用，相较于收益法和市场法具有较大优势。市场法是指对市场上相同或相似资产的近期交易价格通过直接或者间接对比，分析其中的差异，估算数据资产的价值。刘琦等人提出了运用“市场法”评估数据资产价值的基本思路，在对技术水平、价值密度、数据容量等差异因素进行量化调整的基础上，评估同一类型的大数据资产的价值。收益法是评估大数据资产价值的首要方法。收益法在国际企业价值评估中的地位愈发突出，其使用前提是已知数据预期收益、折现率和效益期限。陈媛将收益法运用于房地产估价中，从多个维度进行深度思考。黄乐等人借鉴同样作为无形资产的品牌价值评估的主流办法，将收益法、成本法和市场法结合已有的数据资产评估模型，创造性地将平台活跃系数等参数引入平台式数据资产价值评估模型。左文进和刘丽君则在传统数据资产评估方法的基础上引入Shapley 值法和破产分配法，从而构建大数据资产价值评估模型。

由此可见，数据资产价值评估仍处于发展探索阶段，学术界对于数据资产价值评估缺乏统一的评判标准。另外，传统算法前期需要繁复的特征工程，效率低下，模型精确度很大程度上会受到特征工程的干扰。因此，构建相对完善的评估系统、选择客观正确的衡量标准对于健全当前数据资产评估体系具有积极意义。

2 数据资产定价模型的建立

数据资产评估特征多、特征复杂且冗余度高，使得如何寻找评估分类器的最优评估特征集成为难点。鉴于此，笔者通过建立一个模型，有效处理样本缺失值，降低特征工程的难度，提高精度。

在建立本数据资产定价模型时，笔者使用了多种模型和算法帮助系统功能的实现，包括引入词向量的概念，将文本数据转化为可供机器识别的数字数据，即对原始数据进行数字化预处理。另外，笔者利用爬虫抓取网络数据后生成原始数据表，该数据表将表格作为载体，在对数据表进行词向量化后生成词向量矩阵，将表中的文本数据转化为能被机器识别且与文本相对应的数字数据。除此之外，将以下模型和算法运用于整个系统的建立与运行过程中，这是本定价模型和系统的核心。①CBOW 模型（Continuous Bag-Of-Words Model）主要用于实现系统中词预测的功能，设定某个中心词的前后选取范围，通过范围内连续词来计算该中心词出现的概率。②长短期记忆神经网络（Long Short-Term Memory LSTM）相较于无法处理长距离依赖问题的循环神经网络，其细胞的结构和运算存在变化。其细胞状态能够传递序列处理过程中的信息，在训练过程中通过“门”结构不断学习保存或遗忘来实现添加和移除信息。③XGBoost 算法运用于预测结果的全过程，首先采用CART 回归树对数据进行拟合，每个样本可得到相应预测分数，将所有分数相加,可得到该样本在此模型下的分数。

从数据形态的角度来看，本系统基于以上算法和模型将原始数据进行数次分析转化，得出评估数据价值的结果。原始数据利用爬虫获取的文本数据在CBOW 模型的作用下转化为可供机器识别的数据，并建立数据矩阵生成三维词向量，在LSTM 神经网络的作用下使词向量二维化，最后利用XGBoost 算法进行回归分析，预测数据的价值。

3 系统设计及运行流程

3.1 系统功能实现

在建立数据资产评估模型的基础上，数据资产评估系统可以做到以下几点。首先，界定数据资产的使用场景。数据具有多维使用的特性，不同应用场景下的数据资产价值不尽相同，因此在定价前要分析数据资产标题的文本相似度，根据应用场景将其划分为不同类别。其次，推进数据资产定价合理化。根据现有数据资产交易平台上的交易相关信息构建恰当的指标体系，形成系统框架；根据可比交易的历史数据构建基于市场法的数据资产估值定价模型，为数据资产交易定价的公平合理提供更多、更易于被广泛接受的实践依据，同时支持实时数据估值计算。在对数据资产特征进行研究的基础上，使用机器学习相关算法，建立数据资产实时估值系统，通过模型参数的调优提高估值效率。数据估值系统的组成部分主要包括数据采集器、数据处理器、交互模块和数据估值模型。

3.2 系统模块设计

3.2.1 数据输入接口模块

数据输入接口模块能够反映数据资产交易信息特征类型多的特点。该模块分为两个子模块：一是数据输入模块。此模块测试数据包括数据大小、数据类型、字段数量、数据条数、采集时间等自变量数据。二是数据分类模块。此模块按照产业经济、金融征信、舆情监测、科研技术等应用场景，利用文本相似度将数据输入模块中，划分为不同的可比案例集。

3.2.2 数据采集模块

数据资产具备量大、高维、数据类型多样等特点，本系统有针对性地组建数据采集模块，借助Python对数据资产交易平台作最大限度的信息获取，信息类型包括块数据和数据资产标题、数据大小、数据条数、交易价格等。

3.2.3 异常数据预处理模块

针对历史交易数据存在数据类型繁杂、数据源不唯一、数据存在缺失等问题，本系统组建异常数据预处理模块，以提高数据质量。在实现数据采集和存储后，将若干条数据资产历史交易信息数据输入该模块，进行一致性检验、缺失数据处理和回归分析等预处理操作。

3.2.4 特征工程构建模块

在特征工程构建模块输入若干条数据资产交易历史信息数据，输出对应模型的特征数据，具体实现以下3 方面功能。①文本情感分析。将数据资产标题的文本转化为词向量，再利用词向量平均模型将其转化为句向量，通过卷积神经网络实现特征降维。②One-Hot编码。对于商品类别和数据类型这两类分类特征，将离散特征的取值扩展到欧式空间，优化特征之间的距离计算，使其更具合理性。③对于数据大小、采集时间、字段数量、字段条数等变量采用归一化和标准化处理方式，消除量纲级影响。

3.2.5 估值定价模块

在估值定价模块输入特征工程提取的特征信息，输出待估数据资产的参考定价，具体实现以下两方面功能。一是输入可比实例与数据资产特征数据，通过编码完成匹配后形成特征价格矩阵，作为可比基础。二是根据输入可比实例的特征数据，利用XGBoost 等多种机器学习算法训练数据，输入得到的可比案例至模型中，准确计算待估数据资产的市场价值并输出参考价格。

3.3 系统运行流程

系统运行流程如图1 所示。首先利用Python 爬虫技术在数据资产交易平台上收集数据资产交易历史信息数据，在数据输入模块输入数据，其中包括数据大小、类型、字段数量、数据条数、采集时间等；随后进行数据处理，针对数据类型繁杂、数据源不唯一、数据缺失等问题对数据进行一致性检验、缺失数据处理和回归分析等预处理操作；将经过预处理的数据输入对应模型的特征数据，对数据资产标题进行文本情感分析、One-Hot 编码与数据的归一化和标准化处理；最后输入可比实例的特征数据，利用神经网络等多种机器学习算法对数据进行训练，将得到的可比案例输入模型，准确计算待估数据资产的市场价值，并输出参考价格。

图1 系统运行流程

4 系统运行效果与展望

本系统已开发成功，可进行多个对象的预测，应用人工智能对数据资产特征进行系统分析、提取与量化。在完善评估系统后，评估系统部署于阿里云服务器，便于外部基本用户使用。本系统基于集成人工智能算法，有效解决了数据资产交易历史数据特征多、特征复杂、冗余度高的问题，相对于一般的机器学习算法具有更好的泛化能力和模型精度。系统可操作性强，可服务于数据资产估价机构及各大数据交易网站，具有强推广性和自主成长能力。

本系统将顺应时代发展不断更新。笔者认为，此定价模型及系统能适用更优化的模型和算法，从系统的预测精度和速度两个维度进行提升，利用体量更大、质量更好的数据不断训练优化模型，并持续更新数据，以满足系统的时效性要求。