以提升企业核心竞争力为导向的数据集市构建技术研究
2024-01-23尹晓明徐绍伦王智泉
尹晓明 徐绍伦 王智泉
(山东威海烟草有限公司,山东威海 264200)
0 引言
近年来,各级烟草公司都遇到了不同程度的发展瓶颈,面临诸多与生存和发展相关的痛点和难点问题。例如,在卷烟营销活动中,常常要面对原有卷烟品牌的维护、新品牌的投放、滞销品牌的退市等问题。以往,都是凭借员工的工作经验、专业知识,收集一定量的市场数据,进行分析、判断,在此基础上策划卷烟品牌的投放策略。但由于市场数据的抽样样本不足、人为因素的介入、营商环境的干扰,往往不能科学规划卷烟品牌布局,不能科学设计品牌投放策略,不能及时启动某些滞销品牌的退市机制,使卷烟营销工作一直很被动。与此同时,国际四大烟草公司包括菲莫国际公司、英美烟草公司、日本烟草公司、帝国烟草公司,在卷烟品牌培育、品牌衍生、品牌溢价等方面进行了大量探索和实践,在国际烟草市场的份额合计约占50%,呈现垄断格局。同时,这些国际烟草巨头也相继发力中国市场,外资烟草品牌在国内市场逐步扩张,市场占有份额逐步扩大。2019 年全国烟草工作会议上,国家烟草专卖局提出了“136/345”发展目标;国家烟草专卖局还提出了建设大品牌、大企业、大市场的行业战略目标,以及品牌要做大、规格要做精的具体要求;我国“十四五”规划和2035 年远景目标纲要都将“加快推动数字产业化,推进产业数字化转型”明确规定为打造数字经济新优势的重要内容。
因此,烟草行业要引入先进的互联网技术、数据挖掘技术、人工智能技术,实现烟草行业数字化转型,解决烟草企业发展的痛点和难点问题,是新时代下复杂的国际国内竞争形势给烟草行业带来的重大挑战和机遇,也是提高烟草企业核心竞争力,促进烟草经济快速发展,提升我国烟草行业国际竞争力的必然要求。
为推动烟草行业数字化,提高烟草企业的核心竞争力,研究面向烟草企业的数据集市构建技术,并提出以提高企业核心竞争力为导向的数据集市构建框架图,该框架主要包含数据收集、数据集市构建、数据管理与分析和数据应用等核心模块。通过数据集市的构建与应用,为烟草产业深度赋能,推动产业变革、产业技术升级和产业经济发展,促进烟草行业数字化转型,化解烟草企业发展过程中的问题,确保烟草公司的核心竞争力,从而从容应对经济新常态的挑战。同时,可以加速构建卷烟“强国”,使我国烟草企业真正参与国际化竞争,减少国际烟草企业对我国烟草市场的冲击。此外,可以优化资源配置、促进生产要素合理流动,确保烟草行业的高质量发展。
1 研究背景
目前,中国烟草行业的数字化转型得到了快速发展,不断涌现出重要的研究文献和研究成果。有研究者从市场状态、终端需求强度、品牌贡献度3 个维度设计卷烟品牌竞争力评价指标体系,构建基于熵权法的品牌竞争力模型,基于品牌竞争力评价结果、品牌生态调优模型结果,合理推荐卷烟品牌的发展建议[1]。有研究者认为,依托线上线下融合的体验营销对于卷烟品牌培育有至关重要的作用,应用增强现实技术(Augmented Reality,AR)等新型技术,创新体验营销场景与体验策略,提升卷烟消费者的产品感知度、体验度和友好度,有效增强其对卷烟品牌的认同度[2]。也有研究者对卷烟目标消费者的特征及购买行为进行了深入分析,针对卷烟品牌培育存在的问题,明确卷烟目标消费者理论对改善现状的积极作用,并提出基于目标消费者的卷烟品牌培育策略。以推动卷烟企业顺应市场化改革,为实现大品牌、大企业、大市场的行业战略目标,增强中式卷烟品牌的竞争力提供参考[3]。
此外,近年来知识图谱相关技术在各行各业也得到了快速发展与应用。知识图谱是一种语义网络,通过三元组形式对客观世界进行统一描述,其结点代表实体(Entity)或者概念(Concept),边代表实体/概念之间的各种语义关系。实体是知识图谱中最基本的元素,属性是指一个实体指向它包含的属性值,用实体、属性、属性值三元组刻画实体的内在特性,关系是指两个实体之间的某种关联,用实体、关系、实体刻画实体之间的相互关联。知识图谱有自顶向下和自底向上两种构建方式,针对自底向上的图谱构建技术,主要包含数据清洗、信息抽取、知识融合、知识加工等几个阶段。
知识图谱具有广泛的应用场景。在人工智能领域,有研究者提出利用知识图谱挖掘标签之间的语义关系,提升视频和图片分类任务的准确性。在烟草领域,为解决烟草行业各系统中的多源、异构科研数据有效管理与利用问题,有研究者设计了烟草科研知识实体及关系的数据模型,研发了烟草科研知识图谱服务平台[4]。此外,随着卷烟企业的不断发展,在日常的生产工作中产生了大量宝贵的经验和极具研究价值的知识,为预防卷烟企业知识和经验的流失,有研究者提出将知识库系统应用到卷烟企业[5]。同时,有研究者利用标签体系对零售客户精准画像进行分类,深入挖掘烟草企业内部和企业外部数据,设计了一套全域标签体系,极大助力了卷烟市场大户管理、货源精准投放等工作[6]。
2 以提升企业核心竞争力为导向的数据集市构建方案
为推动烟草行业数字化,提高烟草企业的核心竞争力,解决烟草企业发展过程中遇到的诸多问题,提出了数据集市构建与应用框架图,如图1 所示。该框架图主要包含数据收集、数据集市构建、数据管理与分析和数据应用等几个核心模块。
图1 数据集市构建框架图
2.1 数据收集
为高效构建实用性强的数据集市,在数据收集阶段需充分调研与烟草行业相关的各类数据,确定合理有效的数据源。
主要包含两大类数据来源,即企业数据和社会数据。企业数据包含主数据、生产数据、业务数据和财务数据;社会数据包含社会经济、政府管理和其他合作企业等数据,例如普查数据、年鉴等。主数据包含烟草局主数据和烟厂主数据,是核心基础数据,例如烟草行业卷烟生产决策管理系统、省局营销平台、市场信息采集系统、现代终端信息管理系统含有的数据;生产数据主要包含工厂生产过程中需要采集的数据,例如材料采购、加工生产、卷烟存储、能源供给、备品备件等数据;业务数据包含运输配送、客户销售数据、客户库存数据、全方位用户行为数据等与业务相关的多种数据;消费者数据包含消费者性别、年龄、地址、消费结构等;财务数据包含预算数据、成本数据、绩效薪酬等多种数据。
总体而言,本文需采集的数据具有来源范围广、数据类型多、数据体量大等特点,同时涉及政府和企业内部的核心关键数据,故制定了符合法律法规要求的分布式数据采集和存储机制。针对不同数据源的异构数据,解耦设计了多种符合需求的数据采集算法,并将算法分别部署在不同终端机器上,也将收集到的数据分别存储于不同的终端机器。这种分布式数据采集和存储机制可以按需分配计算和存储资源,提高机器管理效率、数据共享效率和资源使用效率,在性能、可扩展性和可靠性方面具有较大优势。比如,单机数据存储可能会由于机器故障导致关键数据丢失,而分布式数据采集和存储,则可以有效应对单机故障或者计算机网络故障等突发问题。
2.2 数据集市构建
知识图谱是一种由三元组构成的语义网络,其结点代表实体或者概念,边代表实体/概念之间的各种语义关系。知识图谱有自顶向下和自底向上两种构建方式,为高效构建大规模实用数据集市,本文采用自顶向下的构建方式,主要涉及Schema 模型定义、数据获取与清洗、数据集市构建与演化更新、人机协同等多个核心步骤。
首先,根据数据集市的构建需要满足实际应用需求,构建数据集市的初始Schema 模型,这是高效构建高质量数据集市的核心和基础。Schema 模型规范化了数据集市中的数据表达,即数据集市中应该包含哪些节点、节点之间有哪些连边关系,以及节点和边的属性、数据类型的相关信息。一条数据只有满足了Schema 模型的要求,才被允许更新到数据集市中。因此,初步抽象出数据集市应该包含的多种不同类型实体和各类型实体间多种关系,以及相关的属性等信息。例如,与卷烟销售相关的实体可以包含香烟种类、香烟等级、香烟品牌、香烟名称、生产公司、销售区域、销售周期、上市时间、销量、利润、用户性别、用户年龄、用户教育背景、用户籍贯、用户收入、用户工作等。
其次,收集的大量相关数据主要分为三类,一类是相关数据库中的结构化数据,一类是文本、图片、视频等非结构化数据,一类是网页、百科等半结构化数据。这些多源异构数据难免存在数据重复、数据错误、数据之间存在冲突等多种问题。因此,需要通过数据挖掘、统计分析、预设规则等方法对数据进行清洗和整理,保证数据的一致性,以形成规范化数据,方便构建数据集市。
在数据清洗和整理过程中主要考虑以下几个因素。一是处理数据中的无效值和缺失值,可以通过估算、变量删除和成对删除等方式完成,例如,通过平均值、最大值、最小值或概率估计等方式估算缺失值。二是检查和删除错误数据,例如,通过偏差分析发现可能的错误或异常数据,或者制定符合烟草行业数据特点的简单规则进行错误数据识别。三是删除重复数据。四是检查数据的一致性,包括数据的取值范围是否合理、数据语义是否存在冲突等。
数据集市的构建和演化更新主要包含信息抽取、知识融合、知识加工等几个关键阶段。信息抽取是通过实体识别、关系抽取和属性抽取等技术从多源数据中提取出符合数据集市Schema 模型要求的相关实体、属性以及实体间的关联关系。实体识别使利用基于规则的识别方法以及基于机器学习的识别方法。关系抽取是指识别图谱中实体间关系,是构建知识图谱的重要环节。为高效抽取关系,联合使用基于规则的关系抽取方法和联合关系抽取方法。对于前者,本文设计了基于触发词模式的关系抽取模型。通过咨询烟草行业的专业学者,依据烟草数据特点,本文构建了相关触发词库,用于抽取实体间关系。对于后者,通过模型直接完成三元组抽取,并非将任务拆分为实体识别和关系分类两个子任务。例如,利用Transformer 等预训练大模型完成实体识别和关系抽取,具体包含特征抽取模块、实体抽取模块、关系分类模块,关系分类模型可以利用BERT[7]预测实体间关系。
知识融合是指,由于通过不同数据源获取的实体和关系存在重复、冲突、缺失等问题,因此需要通过实体链接、实体对齐、实体消歧等技术整合提取的知识,以消除矛盾和歧义,获得统一的数据集市。知识加工主要是利用知识推理技术推理实体对之间可能存在的关系,用于知识图谱的自动化补全。同时,根据新的需求和原始数据的更新,可以利用相关技术对图谱进行演化更新。其中,知识图谱推理是构建高质量数据集市以及数据集市得以演化更新的重要途径。
知识图谱推理是根据图谱中已有的事实和关系推断出未知的事实和关系,其在数据集市构建的各个阶段都能发挥重要作用。例如,在知识融合过程中的实体对齐、在知识补全过程中的链接预测、在处理图谱冲突信息时的实体消歧等都涉及知识图谱推理技术。为充分发挥知识图谱推理的作用,采用基于归纳的知识图谱推理技术,其核心思想是通过分析和挖掘知识图谱已有信息进行分析推理,主要包含基于图结构的推理、基于规则学习的推理、基于表示学习的推理等方法,包含路径排序算法(Path Ranking Algorithm,PRA)[8]、基于不完备知识库的关联规则挖掘算法(Association Rule Mining under Incomplete Evidence)[9]、Trans 系列算法(例如TransE[10])等算法。
因为数据规模大、数据集市体量大,完全依靠规则和算法构建的数据集市难免存在低质量信息或者错误信息,所以通过人机协同方式提升数据集市的质量。具体通过主动学习技术对自动抽取的知识进行筛选,将算法不确定或可能预测错误的结果进行标记,并输入智标注平台进行核对。本文提出了基于信息最大化的主动采样框架,由于没有历史标注信息,通过最大化Fisher 信息实现。首先对标注过程进行建模,得到所有标注结果的对数似然函数l(x),可据此计算得到如下Fisher 信息量:
该信息量通常与样本标注结果无关,仅取决于标注样本本身,因此对标注噪声鲁棒。每次主动采样时,需选择使得Fisher 信息量最大的样本进行标注。在该信息最大化问题中,本文以谱图论为基础,将其转化为非归一化的图拉普拉斯算子(unnormalized graph Laplacian)的相关问题进行求解。
本文最终采用Neo4j 图数据库作为数据集市的存储方式。
2.3 数据管理与分析
数据管理主要利用数据集成管理工具从数据标准管理、数据质量管理、数据安全管理、主数据管理等多个角度进行高效安全的数据管理。并通过数据分析建模工具从关联、因果等多个角度深层挖掘数据价值,从企业经营、生产运行、工艺质量、财务等多个层面对业务经营活动进行赋值。
2.4 数据应用
数据应用主要包含智能生产、智能物流、智能财务、智能营销、供应链、智能质量、智能管理、战略决策等全方位立体化的应用服务。例如,智能财务可以实现自动化生成证财表、智能计算赋税;智能营销可以实现主动配货,对客户多维度分类,帮助零售户提升、优化卷烟营销管理能力;智能物流可以实现物流线路的优化、智能化工商网配管理等;智能生产可以指导原辅料进料、制丝生产、卷包生产、能源供给、备品备件物资供给直至卷烟成品打码入库的全生产过程。
3 结语
本文提出了以提升企业核心竞争力为导向的数据集市构建方案,旨在充分利用烟草行业相关的企业数据和社会数据,构建数据集市,充分分析和挖掘数据潜力,使其在烟草企业的发展和运营过程中充分发挥作用,为烟草企业充分赋能,促进烟草行业的数字化转型,提高烟草公司的核心竞争力。