烟草商业数据资产质量评估体系构建研究
2024-09-21张鑫嵩涛沈鑫
基金项目:贵州省烟草公司“烟草企业数据资产管理研究与应用”(中烟黔科(2022)13号2023XM29);贵州省烟草公司“贵州烟草商业数据治理关键技术研究与应用”(中烟黔科(2022)13号2023XM30)
摘 要:在数据资产质量评估内涵的基础上,本文结合烟草商业数据资产质量管理特点,从内容质量、表达质量、结构质量、效用质量四个维度七个指标构建烟草商业数据资产质量评估指标体系,并采用熵权法与模糊综合评价结合的方法,对数据质量进行客观评估。
关键词:数据质量;评估;熵权法;模糊综合评价
一、引言
随着信息技术的迅猛发展,数据已成为企业乃至国家的重要战略资源。数据资产化不仅意味着将数据视为可管理、可运营、可增值的资产,更强调通过高效的数据治理和质量管理,释放数据的潜在价值。烟草行业正面临国内外市场环境的变化和消费者需求的多样化挑战。数据的精准获取、高效处理和深度挖掘,已成为行业创新发展的关键。然而,由于历史原因和技术限制,烟草行业在数据质量管理方面存在诸多问题,如数据准确性不高、完整性缺失、一致性差等,这些问题严重制约了数据资产价值的发挥。烟草行业作为传统的经济支柱,其数字化转型和数据资产化进程对提升行业竞争力、实现可持续发展具有深远意义。构建数据质量评估体系,不仅有助于提升数据治理水平,而且对企业的决策水平提升、业务创新促进、数据安全保障等方面都具有重要意义。
数据质量评价是学界关注的热点问题之一,学者们针对不同领域已提出了一些有代表性的评价模型及指标体系。针对电子商务数据质量管理,孙俐丽等(2019)构建了包含内在维度、情境维度、应用维度、资产维度 4 个层次结构的数据质量评价指标体系。针对服务平台数据质量管理,程芳等(2020)通过分析数据质量关键因素提出数据质量能力成熟度模型框架及成熟度等级。针对CGSS数据质量管理,曾娆等(2021)从内在质量与使用质量两个维度包含准确性、一致性、描述完备性、及时性、丰富性、可靠性、完整性、平衡性七个指标建立评估体系。在数据交易方面,黄倩倩等(2022)提出了六大指标、五类主体、四类产品及三大评估方法为架构的数据交易流通质量评估模型。在政府数据质量管理方面,张珺等(2023)从政策规范和标准、数据源头管控机制、数据质量管理流程体系、数据质量实施管理体系等维度,提出了政府数据质量管理的实践体系。还有学者从元数据管理、产品视角、评估模型等角度,对数据质量管理展开了重要研究。
当前,数据质量管理评价体系及模型各具特色和优势,但在烟草行业大数据质量管理方面缺乏针对性研究。在上述数据质量评价的研究基础上,结合烟草行业对数据质量管理的实际需求,本研究聚焦烟草企业所拥有的核心数据,根据数据资产质量评估内涵,建立烟草商业数据资产质量评估指标体系。
二、数据资产质量评估概述
数据资产质量管理是一种对数据从计划、获取、存储、共享、维护、应用到消亡全生命周期的每个阶段里可能发生的数据质量问题进行识别、度量、监控、预警等一系列管理活动,是确保数据准确性、完整性、一致性、及时性和可用性的过程。准确性是指数据是否真实、可靠地反映实际情况;完整性包括数据记录、数据属性是否完整以及数据是否满足业务需求;一致性指数据在不同来源、不同时间、不同格式下是否保持一致;及时性是指数据是否能够及时反映出实际情况的变化;可用性则强调数据是否易于理解和解释。准确性是数据质量的核心,完整性是数据质量的基础,一致性是数据质量的重要保障,及时性是数据质量的重要特征,可用性是数据质量的重要标准。
数据资产质量评估是对数据资产进行全面、客观、准确的评估,以确定数据的质量管理水平是否达到预期标准,帮助企业了解数据质量管理的成效和不足。
三、烟草商业数据资产质量评估指标体系
根据上述数据资产质量评估内涵,结合烟草商业数据资产质量管理特点,从内容质量、表达质量、结构质量、效用质量四个维度七个指标,构建烟草商业数据资产质量评估指标体系,具体如表1所示。四个维度在评估数据质量时各具特色,相互补充,共同构成了全面、系统的数据质量评估体系。
1.内容质量
内容质量关注数据的“内在”属性,即数据所承载信息的准确性和完整性,这两个属性是确保数据能够真实、全面地反映现实情况的基础,关系到数据的可信度和使用价值。
数据的准确性是确保基于数据的分析和决策可靠性的基石。在烟草商业领域,数据真实性的验证,涉及到检查数据是否真实反映了实际情况,如销售量、库存量等关键指标。逻辑准确性的检查也不可或缺,要求数据必须符合业务逻辑,如价格不能为负数、库存量不能超过仓库的实际容量等。为确保数据的准确性,可采用对比验证,即将数据与可靠来源进行对比,以计算误差率或符合度。逻辑检查则通过预设的规则或算法检验数据间逻辑关系的合理性。通过重复观测,对同一现象进行多次观测并比较结果的一致性,提高数据的准确度和可信度。
数据的完整性是确保信息全面、详尽且无遗漏的关键,对防止因信息缺失而导致的分析偏差至关重要。在评估数据完整性时,可采用记录检查,即确认数据记录是否包含所有必要的字段,以确保没有遗漏任何重要信息。通过空值分析计算数据集中缺失值的比例,了解数据的完整程度。属性完整性的检查可根据预设的完整性规则验证数据检查是否满足必填字段的定义,以确保数据属性如产品规格、价格、销售日期等齐全,为烟草产品的市场分析、供应链管理和销售策略提供坚实的数据基础。
2.表达质量
表达质量强调数据的“外在”表现,即数据呈现方式的清晰度和易理解性。良好的表达质量使数据易于被用户理解和接受,无论用户的专业背景如何。
数据可理解性是评估数据是否易于被理解且无歧义的重要标准。数据可理解性可以采用多种方法,一是通过用户测试,让非专业用户尝试理解数据,并收集他们的反馈,从而了解数据在实际应用中的可理解程度。二是可进行元数据分析,通过检查数据是否有清晰的定义、标签和文档支持,确保数据的准确性和易于理解性。最后,还应该评估数据呈现方式是否过于复杂,并探索能否将其简化为更直观的形式,以提升数据的可理解性和使用效果。
3.结构质量
结构质量注重数据的“组织”方式,包括数据的一致性和及时性,确保数据在不同系统和部门之间无缝流转,减少数据整合和分析时可能出现的错误和不一致。
一致性要求数据在不同环境下保持统一,避免数据冲突和矛盾,包括格式一致性和业务规则一致性两方面。格式一致性要求来自不同来源或不同时间点的数据在格式上保持统一,如日期格式、货币单位等,以确保数据在处理和比较时的准确性。业务规则一致性则要求数据遵循统一的业务规则,如促销策略、折扣政策等,以保证数据在业务逻辑上的一致性。数据一致性计算可以采用比较同一数据在不同时间点或不同来源的值是否一致,格式/类型检查也是确保数据格式和数据类型在不同数据集或系统中保持一致性的有效方法。
数据及时性是评估数据更新速度和延迟时间的重要标准,以确保数据能够及时反映烟草业务的最新动态。数据更新频率的评估有助于了解数据更新的速度,而数据延迟时间的衡量则揭示了从数据生成到可供分析使用的时间差。及时性指标可通过在数据生成、处理、传输和存储的各个环节中,记录时间戳计算数据在各个处理阶段的耗时。延迟计算则是确定数据应该到达的时间点,并计算实际到达时间与应该到达时间之间的延迟。
4.效用质量
效用质量关注数据的“实用”价值,即数据在满足特定需求和解决问题方面的能力。
数据的相关性是指数据与用户需求或业务目标的匹配程度,评估不同数据表或数据集之间关联是否准确、一致的重要标准。数据相关性指标可通过业务目标对齐、历史趋势分析、相关性系数计算等方式获取。
可信度反映数据来源的可靠性和数据处理过程的透明度,是确保基于数据决策准确性的关键。可信度计算首先可采用来源追溯,即评估数据来源的权威性和可靠性,确保数据来自可信赖的渠道;其次是处理过程审计,检查数据处理过程中是否存在不当操作或错误,以保证数据的完整性和准确性;最后利用验证机制借助第三方验证服务或工具进一步确认数据的真实性。
四、烟草商业数据资产质量评估模型
1.指标权重确定
数据资产作为一种独特的动态资产,其价值随着时间的流逝不断增长和演变,因此指标权重须根据质量管理的进步和行业需求进行动态调整。这种灵活性不仅反映了数据资产质量的动态特性,更有助于推动数据质量评估指标的不断完善和提升,从而更好地服务于烟草行业的决策制定和业务发展。根据此特性,烟草商业数据资产质量评估指标权重采用熵权法。熵权法通过计算各指标的信息熵,根据指标的相对变化程度对系统整体的影响决定指标的权重,从而避免主观因素对权重分配的影响。
2.评价模型的确定
在指标体系中,存在部分指标不易定量的情形,如完整性、可理解性存在模糊性和不确定性,难以用精确的数值描述。据此,烟草商业数据资产质量评价模型可采用模糊综合评价模型。模糊综合评价则是一种基于模糊数学的综合评价方法,适用于处理边界不清、不易定量的因素,其通过构建模糊评价矩阵和确定隶属度函数,能够将这些模糊因素定量化,进而进行综合性评价。这种方法能够综合考虑多个因素,包括定性指标和定量指标,使评价结果更加全面、准确。
3.烟草商业数据资产质量评估应用
根据质量评估指标体系,因素集为U ={A,B,C,D,E,F,G}。将每个因素均分为五个评价等级优(V1)、良(V2)、中(V3)、差(V4)和很差(V5),评价集为V ={V1,V2,V3,V4,V5}。对“卷烟营销多源数据交叉客户信息”数据集采用专家打分法,得到了每个因素对应每个评价等级的隶属度,如表2所示。
对烟草行业所有数据集的7个因素中,能定量计算的指标直接计算信息变异程度,定性指标则先通过模糊综合评价将其量化,再应用熵权法确定权重,得到权重向量W={wA,wB,wC,wD,wE,wF,wG}={0.08,0.20,0.11,0.17,0.10, 0.18,0.16}。权重向量准确性因素A的权重为0.08,其权重最小,表明所有数据集在准确性方面相差较小,而完整性方面相关较大。采用乘积-求和算子,Bij=∑wi*rij。对每一列进行求和,得到模糊综合评价结果向量B={0.298, 0.327,0.261,0.083,0.031}。根据向量B,该数据集在“良”评价等级上的隶属度最高(0.327),因此可以认为该数据的质量评价为“良”。
本文采用熵权法与模糊综合评价相结合的方法,对数据质量进行了全面客观地评估。该方法不仅提升数据质量和管理效率,还为数据资产管理提供了直观的决策参考,对推动烟草行业的数据资产管理与价值转化具有实践意义。
参考文献:
[1]孙俐丽,袁勤俭.数据资产管理视域下电子商务数据质量评价指标体系研究[J].现代情报,2019,39(11):90-97.
[2]程芳,赵彦庆,王磊.基于数据服务平台的数据质量能力成熟度模型研究[J].标准科学,2020(10):120-123.
[3]曾娆,丁玲,王文强.CGSS数据质量评估的改进模型[J].湘潭大学学报(自然科学版),2021,43(1):22-27.
[4]黄倩倩,赵正,刘钊因.数据流通交易场景下数据质量综合管理体系与技术框架研究[J].数据分析与知识发现,2022,6(1):22-34.
[5]张珺,漆源.数据质量管理实践体系探讨[J].信息技术与标准化,2023(8):15-18.
[6]周艳会,曾荣仁.基于元数据的数据质量管理研究[J].信息技术与信息化,2020(7):26-29.
[7]LEE Y W,STRONG D M,KAHN B K,et al.AIMQ:a methodology for information quality assessment[J].Information&Management,2003,40(2):133-146.
[8]JORGE M,ISMAEL C,BIBIANO R,et al.A Data Quality in Use model for Big Data[J].Future Generation Computer Systems,2016,63(10):123-130.
[9]ARDAGNA D,CAPPIELLO C,WALTER SAMÁ,et al.Context-aware data quality assessment for big data[J].Future Generation Computer Systems,2018,89(9):548-562.
作者简介:张鑫(1986— ),女,苗族,贵州台江人,硕士,研究方向:财务管理、企业数字化;嵩涛(1990— ),男,汉族,贵州贵阳人,硕士,助理工程师,研究方向:数字营销;沈鑫(1990— ),男,汉族,贵州贵阳人,本科,研究方向:信息化管理、企业数字化。