基于模糊神经网络的大数据价值评估研究
2019-08-08王笑笑郝红军张树臣王京
王笑笑 郝红军 张树臣 王京
摘 要:大数据价值的评估对大数据的流通具有重要意义。现阶段对大数据价值的评估大多采用无形资产评估方法,由于大数据不满足无形资产定义与确认条件,采用无形资产评估方法具有一定的局限性。本文通过对大数据价值影响因素进行分析,构建大数据价值评估二级指标体系,将模糊综合评价与人工神经网络相结合,运用人工神经网络确定指标权重,建立基于人工神经网络的大数据价值评估的模糊评价模型,为大数据价值评估提供新思路。
关 键 词:大数据;价值评估;人工神经网络;模糊评价
DOI:10.16315/j.stm.2019.02.006
中图分类号: F49
文献标志码: A
Abstract:The evaluation of Big Data value is of great significance to the circulation of Big Data. At present, most of the evaluation of Big Data value uses intangible assets evaluation method, because Big Data doesnt meet the definition and recognition conditions of intangible assets, the use of intangible assets evaluation method has certain limitations. Based on the analysis of the factors influencing the value of Big Data, this paper constructs the twolevel index system of Big Data value evaluation, combines fuzzy comprehensive evaluation with artificial neural network, uses artificial neural network to determine the index weight, establishes the fuzzy evaluation model of Big Data value evaluation based on artificial neural network, and provides a new idea for Big Data value evaluation.
Keywords:Big Data; value assessment; artificial neural network; fuzzy evaluation
隨着互联网行业和移动通讯行业的快速发展,数据量迅猛增长,人类已进入大数据时代。数据的形式多样,有收发信息、浏览网页等主动创造的数据,还有位置定位、视频监控等被动获取的数据。数据量的增长速度之快,体现在互联网数据研究机构We Are Social和Hootsuite共同发布的“数字2018”互联网研究报告中,报告显示在全世界人口达到76亿的今天,全世界的网民总数已经超过了40亿(约为40.21亿)。微信作为国内最大的社交平台,在腾讯公布的2018年第一季财报中显示,微信用户首次突破10亿,达10.4亿,超50%的用户每天使用微信的时长达到了90 m,如此庞大的用户量,必然产生海量数据。
大数据作为一种新型资源,种类繁多,依据不同的分类标准可将大数据分为不同类型,从数据生成类型,可分为交易数据、交互数据和传感数据;从数据来源,可分为政府大数据、企业大数据、个人大数据;从数据格式,可分为文本日志、图片、音频、视频等;从数据关系,可分为结构化数据、半结构化数据、非结构化数据。本文以数据结构化程度作为分类标准,将具有特定格式,便于人机交互的结构化数据作为研究对象。大数据蕴含着大量可供挖掘的有用信息,广泛应用于各个领域。大数据最初应用于互联网行业,在电商领域对用户基本信息及行为信息分类整理,向用户推荐产品,进行个性化页面展示。随着大数据的快速发展,大数据的应用领域也逐渐扩大,在交通旅游领域政府通过收集个体出行数据,掌握道路交通流量规律,进行针对性的交通部署;在金融行业方面,通过用户画像,进行精准营销、风险管控、运营优化;在医疗行业方面,通过对众多病人的病症信息分析,可以实现流行病预测,为各类疾病的治疗方案优化提供数据支撑。大数据应用领域还有电信、工业、教育等,随着大数据覆盖更多的行业,运用的范围将更加广阔。本文研究的主要目的是指导大数据定价,使大数据以一个合理的价值区间在交易平台上进行交易,以期为交易双方带来合理的经济效益,因此本文对商业领域大数据的价值进行评估。数据交易市场上的数据价格是由供方定价,具有很大的主观性,其定价依据是什么,价格是否与价值对等等问题都没有客观依据。目前对大数据价值进行评估的方法主要采用无形资产定价方式,即成本法、市场法、收益法。成本法虽能真实反映实际交易情况,但不能客观反映资产真实价值,运用成本法易低估大数据价值。市场法能较合理的对大数据进行评价,却很难实现。大数据这一时效性很强的数据产品,具有一定的独特性,在同一市场的同一时期获得同类数据的市场情况的几率极低,因而适用性不高。收益法考虑了资产的时间价值,有利于决策者对资产进行合理估计,但收益法中重要参数折现率、收益期限和资产未来收益,大多是凭借对现状的分析,人为估计参数值,主观性太强,不能客观反映资产带来的价值。无形资产是指不具有实物形态,与该无形资产有关的经济利益很可能流入企业,并且该无形资产的成本能够可靠地计量。大数据虽不具有实物形态,但是其价值具有不确定性,未必能为企业带来经济利益。经济效益不稳定,成本无法准确计量,使得大数据不等同于无形资产,因而成本法、市场法、收益法作为无形资产价值评估的常用方法,但在大数据价值评估方面具有一定的局限性,不是合适的评估方法。
基于此,本文转向探索其他评估方法在大数据价值评估方面的适用性。大数据价值评估影响因素多样,既有定量指标,又有定性因素,模糊综合评价是根据模糊数学的隶属度理论将定性评价转为定量分析的综合评价方法,适于解决难以量化的模糊问题。通过对大数据价值影响因素进行筛选,建立大数据价值评估指标体系。由于对指标权重的确定常采用专家打分法、德尔菲法、层次分析法等主观意识较强的方法,为减少人为干预,构建人工神经网络结构,对人工神经网络进行有监督式学习,训练网络确定指标权重。然后将标准化后的指标值作为网络输入值,经网络计算,将输出结果与指标评语集进行对比,确定评估结果,完成评估过程。此方法主观性较弱,提高了评估结果的客观性,对大数据价值评估有参考价值和实践意义。
1 大数据价值评估文献回顾
自2008年《Nature》首次出版“Big Data”专刊,大数据逐渐成为政界、学术界、实务界的关注焦点,如2011年《Science》出版的专刊“Dealing with Data”和2012年达沃斯世界经济论坛发布的报告“Big Data,big impact:New possibilities for international development”等。大数据之所以能够如此迅猛的发展,在于其不断被分析挖掘出可用信息,这就是大数据的价值所在。自2009年IBM首次提出“智慧星球”概念,人们开始关注大数据的开发应用。Dynamic Markets研究结果显示,英国已有五分之一的企业将大数据作为资产进行计量,全球范围内对大数据进行计量的大企业占了三分之一。Wendy[1]对从大数据中实现价值做了文献综述,从6个方面揭示大数据价值。现阶段国外对大数据的关注点主要是如何将大数据作为资产进行管理、变现,但是由于标准化计量工具的缺乏,使得大数据价值难以评估。国内对大数据价值的评估大多是以资产形式对大数据进行定价计量。王玉林等[2]通过对大数据法律属性的探讨,结合大数据交易实践研究,揭示大数据是具有财产属性的无形资产。徐漪[3]通过对大数据价值构成和影响因素进行分析,提出数据资产的3种计量方式,收益现值法、市场价值法、重置成本法。刘文光[4]认为数据资产与无形资产在会计核算方法、独特性、确认内容等方面有着本质性区别,对数据资产的评估方式采用初始计量法,将生产数据过程中的数据加工成本、数据分析成本、数据收集成本三者加权平均值作为初始确认金额。上述所提出的评估方法多是基于无形资产评估方法而确定的,由于大数据与无形资产并不等同,采用无形资产评估方法对大数据进行评估会产生一定的误差。
人工神经网络具有强大的特征提取与抽象能力,能够整合多源信息,处理异构数据,捕捉变化动态,是大数据实现价值转化的桥梁[5]。人工神经网络在评估方面具有高速的自学习、自适应能力,但当评估对象影响因素、水平层级过多时,随着训练次数的增加,很可能会出现过拟合,进而无法得出准确评估结果的情况[6]。黄越等[7]通过利用模糊综合评判法结合相关资料建立样本数据,将模糊数学理论、主成分分析法与神经网络相结合建立了风险评估模型,选取45座公路隧道施工实例作为样本进行训练,以另外5座隧道作为评估目标进行评估,证明模糊神经网络比模糊层次综合评判法在评估公路隧道洞口施工风险时误差更小。陈静[8]提出基于神经网络的高校学生信用模糊综合评价模型,利用神经网络的高度非线性、高容错性等特点,通过反复对网络进行训练,减少了高校学生信用评价时的工作量,提高了评价结果的可靠性。杜义贤等[9]运用神经网络确定模糊综合评价中的权值,利用6台HYD200型液压凿岩机的性能数据,测试基于神经网络的模糊综合评价方法的适用性及准确性。模糊综合评价法与人工神经网络的结合,使得具有复杂多因素、多变量、多层级的评估对象能够获得较为准确的评估值。
人工神经网络和模糊综合评价相结合的方法在很多方面都有应用,但在大数据价值评估方面鲜有人涉足。本文将采用基于人工神经网络的模糊综合评价法,对大数据价值进行评估,以期带来合理的评估结果,如图1所示。
2 大数据价值评估指标体系构建
2.1 大数据价值评估指标体系
大数据价值难以评估,主要在于影响因素众多,有成本因素、数据本身因素、数据使用因素等,但并非所有的因素都对大数据价值有重要影响。考虑到大数据价值的特殊性和人工神经网络的适用性,选取大数据价值关键影响因素时需要满足以下要求:一是要反映大数据获取价值过程中所花费的成本;并非所有的数据都是有用的,从海量数据中筛选出所需数据,再对数据进行处理得到高精度的信息,处理后的数据需要存储,这一系列操作所产生的费用应该包含在大数据价值中[10]。二是要判断大数据的质量[11]。大数据具有很强的时效性,数据的有效性会随着时间的变化而变化,而且数据是否完整、是否过于冗余,都会影响到数据价值;三是数据使用情况的不同会带来不同的价值[12]。数据使用次数的增加会使得数据中潜在信息被更深入的挖掘,价值随之提高。大数据的产权直接影响大数据的使用情况,买方获得的权利越大,大数据的评估值就越高。不同的数据使用者将数据用于不同方面,使得数据带来的价值也不尽相同。
经以上分析可知,大数据价值由数据各项成本、数据本身和使用数据所带来的效用体现,因而本文选取大数据的成本、质量、使用情况3个因素作为大数据价值评估过程中的一级评价指标,构建大数据价值评估指标体系,如表1所示。
2.2 大数据价值评语集的选取
评语集合是对每个评估指标进行评估的集合,涵盖评估目标所有可能的结果,需要对每个评估指标的重要度设立不同的评语等级,规定评估因素可能符合的评估结果的选择范围。
对价值的描述常采用高低,从高到低对价值进行评价[13],因此本文将大数据价值评估指标分为5个等级,设V={v1,v2,v3,v4,v5}={极高价值,高价值,中价值,低价值,极低价值}。极高价值描述的是花费成本较大,运用很高的技术水平,在市场上具有较高的垄断性,时效性很强,价值稍纵即逝的数据;高价值大数据是指能为企业带来较高价值,但数据时效性较强,具有一定垄断性的大数据;中价值大数据指市场上对此类数据的供需基本持平,需要一定的技术对数据进行搜集处理,具有一定的收益风险;低价值大数据的取得不需要先进的技术,但数据质量不高,有时是数据残缺,有时是数据冗余,收益风险也比具有一般价值的数据高;极低价值大数据是指经过處理达到交易要求所花费的成本较其获得的收益高,且处理后的数据在市场上很难找到购买方。
3 基于人工神经网络的大数据价值指标权重矩阵确定
目前对模糊综合评价法中权重的确定多采用层次分析法或专家打分法等主观人为确定的方法,但这些方法受主观影响较大,不能保证评估结果的准确性。人工神经网络是一种仿照生物神经网络处理信息的数学模型,依托系统节点的连接关系进行调整,进而实现信息处理,具有很强的自学习和自适应能力;因此,本文采用人工神经网络确定大数据价值权重。人工神经网络由输入值、节点、连接、输出值构成。标准化后的大数据价值评估指标作为人工神经网络的输入,经隶属函数计算得到隶属度,将神经网络的输出结果与预期结果进行比较,调整权值,直至网络收敛,最后采用合适的模糊合成算子将隶属度与权值结合得出模糊综合评价结果,减少人为干预,提高结果的准确性。
3.1 构造人工神经网络结构
在对指标进行标准化,确定隶属函数,根据平均值法确定各级权重初始值后,神经网络结构完成建立。网络输入值的类指标共有p个,第i类指标中共有q个下层元素,有5个评语等级,即有5个输出。人工神经网络结构图,如图2所示。整个网络共有4层,第一层是输入层,第二层是隶属度层,第三层是二级合成评价层,第四层是一级合成评价层。
3.3 大数据价值综合评估
得到模糊关系矩阵和指标权重矩阵后,需要将模糊关系矩阵和指标权重矩阵进行结合,得到综合评估矩阵。模糊合成算子决定了模糊关系矩阵和指标权重矩阵的结合方式,模糊合成算子选取的适当与否会直接影响到评估的最终结果。
相乘求和型模糊合成算子是将权重向量与模糊关系矩阵分量先两两相乘,再将乘积相加得到结果,若得到的结果大于1,则输出的最终结果为1。此模型综合考虑了所有指标对结果的影响,适用于综合所有指标及单因素评价结果的情况。
由模糊合成算子对指标权重矩阵和模糊关系矩阵进行计算,得到的结果是大数据价值的综合评估矩阵,即评价对象对评语集的隶属矩阵,根据最大隶属度原则确定大数据价值评估的最终结果。
4 数多多数据交易平台大数据价值评估
4.1 数据收集与整理
数多多(www.DataDuoDuo.com)是由深圳视界信息技术有限公司自主研发的数据共享与交易平台。本文采用数多多数据市场上电子商务类别下展示的数据,通过对用户展示的数据基本信息分析,使用Python程序对数据信息进行深度挖掘,首先将收集到的数据按照以下规则筛选:当数据属性信息缺失时,若是主要字段信息缺失,数据已经不能反应其所代表的信息,则将此数据删除;若是一般属性值缺失,可利用默认值来代替缺失的信息,或是使用同类型样本预测值补全缺失值;当数据重复时,即同一发布者发布的同类型同价格数据,或是不同发布者发布的同类型价格相近数据,则只随机选取其中一条数据作为数据文件,其余数据删除;异常数据是指数据实际价值与标价严重不符的数据信息,若出现异常数据则删除。然后从筛选后的数据中随机抽取其中200条数据作为基于模糊神经网络的大数据价值评估模型的训练数据及测试数据,其中160条作为训练样本,40条作为测试样本。以10条数据文件为例,如表2所示。
4.2 隶属函数参数的确定
本文采用等分区间法确定隶属函数参数值,在前文已对隶属函数分析介绍,根据隶属函数的中心及宽度确定的参数值,如表4所示。
在MATLAB2016b中,使用函数newff创建基于结构模糊神经网络的大数据价值评估模型结构为945155(即输入层神经元数目45,隶属度层神经元数为45,二级合成评价层神经元数目为15,输出层神经元数目为5),输入层函数为标准化函数,隶属度层函数为隶属函数,后两层激励函数为logsig,函数输出值在\[0,1]内,符合输出值要求。学习函数是梯度下降动量学习函数learngdm,学习速率初始值选择范围为\[0.01,0.5],使用traingda函数训练网络,设置最大迭代次数为1 000,当训练次数达1 000次或网络输出误差小于10-5时,训练完成。经过368次迭代后,网络输出误差值e=9.027×10-6在预期误差10-5内,神经网络训练误差曲线如图4所示,确定的权重值,如表5所示。
4.4 网络输出
网络完成训练后,将40条测试数据输入网络,由Matlab软件sim函数进行测试,测试数据的误差范围均在可接受范围10-5内,其中10条测试结果,如表6所示。根据最大隶属度原则,将输入向量对应评语集中的最大权重作为输出结果,进而确定网络输出的最终结果。
5 结论
在大数据蓬勃发展的时代,大数据价值评估对大数据的流通具有重要作用。由于常用无形资产评估方法对大数据价值进行评估,导致结果不够准确,本文探索了将人工神经网络与模糊综合评价法结合,对大数据价值进行评估的合理性。首先对大数据价值影响因素进行分析,选取大数据成本、数据质量、数据使用情况作为关键影响因素,构建大数据价值评估指标体系;为减少人为干预,提高评估结果的准确性,通过运用大量样本对人工神经网络进行训练,确定大数据价值评估指标权重,构建基于人工神经网络的大数据价值评估模型;最后以数多多数据交易平台为实证对象进行实证,证实此方法的适用性及准确性,为大数据价值评估合理化提供参考。
参考文献:
[1] WENDY A G,MOHAMMAD H.REZAZADE M.Debating big data:a literature review on realizing value from big data\[J].Journal of Strategic Information Systems.2017(26):191.
[2] 王玉林,高富平.大数据的财产属性研究\[J].图书与情报,2016(1):29.
[3] 徐漪.大数据的资产属性与价值评估\[J].产业与科技论坛,2017(16):97.
[4] 刘文光.大数据资产的确认与计量研究\[J].经贸实践,2017(22):322.
[5] 章毅,郭泉,王建勇.大数据分析的神经网络方法\[J].工程科学与技术,2017,49(01):9.
[6] 朱庆锋,徐中平,王力.基于模糊综合评价法和BP神经网络法的企业控制活动评价及比较分析\[J].管理评论,2013,25(8):113.
[7] 黄越,龚珍,邓祥辉,等.基于模糊神经网络的公路隧道洞口段施工阶段风险评估\[J].工程管理学报,2018,32(03):119.
[8] 陈静.基于神经网络的高校学生信用模糊综合评价模型研究\[M].长春:东北大学出版社,2007:5.
[9] 杜义贤,田启华.基于神经网络的模糊综合评价方法\[J].系统工程与电子技术,2005(9):1583.
[10] 石艾鑫,郜鼎,谢婧.互联网企业数据资产价值评估体系的构建\[J].时代金融,2017(14):109.
[11] 李永红,张淑雯.数据资产价值评估模型构建\[J].财会月刊,2018(9):30.
[12] 张志刚,杨栋枢,吴红侠.数据资产价值评估模型研究与应用\[J].现代电子技术,2015,38(20):44.
[13] 冷雄辉,翟富源.基于模糊综合评价法的发明专利价值評估研究\[J].赣南师范大学学报,2017,38(3):26.
[编辑:厉艳飞]