APP下载

基于语义集成的客户知识挖掘模型研究

2015-02-03蔡皎洁

现代情报 2014年11期

蔡皎洁

[摘要]本文从对多结构化客户数据集成和预处理的成效不足、挖掘过程缺乏语义情景和上下文的支撑,从而所获取的客户知识模式质量不高等问题出发,提出了一种基于语义集成的客户知识挖掘模型。该模型充分利用了本体、语义集成等方法和技术,提高对数据语义分析和处理的能力,实现智能化客户知识挖掘过程,从而获取高质量的客户知识模式。

[关键词]语义集成;客户知识;知识挖掘;领域本体

[中图分类号]TP311 [文献标识码]A [文章编号]1008-0821(2014)11-0039-05

网络经济时代以“客户服务为中心”的经营理念表现得尤为突出,客户不再是传统经济模式中企业产品的被动接受者,而是广泛参与企业经营流程的主导者,客户需求精确化的个性化服务,渴望企业能够理解、关怀甚至是激发其潜在的兴趣,因此从客户数据中深度挖掘客户兴趣模式已成为企业成功开展电子商务的重要战略思想和技术手段。然而,电子商务环境中,企业与客户交互中所产生的数据量不断攀升、数据结构也不断地复杂化,常用的数据挖掘工具已不能满足企业发现有趣的客户兴趣模式的需求,提升客户知识挖掘流程的质量已势在必行。本文引用领域本体技术,在异构客户数据上重新建立一个“层”,用于对客户数据的组织和梳理,实施基于语义的数据挖掘流程,提升所获取的客户知识模式的质量。

1、语义集成与客户知识挖掘的研究综述

上世纪90年代中期到现在,数据集成研究的焦点已从解决系统异构、结构异构逐渐发展到解决语义异构问题上。国内外有关基于本体的异构数据语义集成的研究,从策略上主要有:基于领域本体的方法和基于本体映射的方法两种。Arens Y.等人提出SIMS系统,该系统构建了一个全局本体来描述信息资源的内容、数据模型和查询语言等。斯丹福大学的SKC项目,通过在多个数据源上建立不同本体,然后在这些本体之上建立一个代数系统,用这个代数系统来实现各本体之间的操作,从而达到异构数据源之间的互操作。厉浩提出基于本体的数据集成框架模型,为所有的数据源建立全局本体,再为每个数据源建立局部本体,定义本体与本体、本体与数据源之间的映射。

目前,国内外有关客户知识挖掘的研究已充分考虑到了客户情景和客户隐性知识的重要作用。美国加州大学ISI研究所开发的EXPECT系统。其核心思想是基于本体来辅助获取知识,用于建立领域知识的知识获取环境。德国Karlsruhe大学MFB研究所开发的一个建立在本体基础上的知识管理原型系统OKMS,它侧重于3个方面的研究:采用本体映射建立分布式异构本体间的集成机制;设计和开发管理本体演化的方法论;采用封装机制将企业已有的大量知识源提升到本体级。Bloehdom等提出了OTYO框架,该框架集成了领域本体的构建和基于领域本体的文本挖掘两大部分,当领域本体构建好之后,其中部件会对文档进行概念分析,提取概念特征,然后在此基础上进行相应的文本挖掘,从而发现蕴含其中的文本间、或文本中概念间的语义关系。Yufeng Li和Ning Zhong构建了一种基于本体的Web挖掘框架,它是一个包含4个部分的循环框架,分别是:数据挖掘、知识表示、知识推理和知识进化,主要是基于用户约束和元数据实施数据挖掘,然后基于本体把那些语义模糊、重复、歧义的规则模式进行改正。

总结上述国内外研究成果可知,知识挖掘研究领域与本体技术研究领域充分结合起来,充分利用本体技术来进行知识组织,解决多个数据源之间的语义异构问题,实现语义集成,即在知识挖掘的数据预处理阶段起到了公共语义描述的作用。但是,如何实现对多结构化的数据的低成本、高效率的语义集成,仍是知识挖掘领域研究的重点问题。

2、基于语义集成的客户知识挖掘模型

按照系统论的观点,模型是将真实系统(原型)的本质属性,用适当的表现形式(例如文字、符号、图表、实物、数据公式等)描述出来的结果,一般不是真实系统的本身,而是对真实系统的描述、模仿或抽象。客户知识挖掘是一个复杂的过程,涉及了挖掘任务的复杂性、客户数据的海量异构性、知识挖掘方法和技术多重选择性、客户知识模式的可理解性、重用性和共享性以及客户知识挖掘系统的更新性等多个方面。采用模型构建的方法,可以将研究问题抽象化、简明化,有助于我们研究的系统化、模块化、定量化。

2.1 企业对客户知识获取的需求分析

电子商务环境中,随着客户个性化需求趋势的增长,网络信息技术的发展也促使企业与客户交互渠道日益网络化和多元化,普通的以日常客户数据操作管理为目标的客户关系维护策略已不再适应该环境,难以获得良好的客户忠诚度和满意度,因此企业需要全面、有效、内涵表达准确的客户知识来维系高质量的客户关系。另外,客户数据每日都会成几何级数的倍数不断上升,而且这些客户数据结构多样化、语义异构化,为客户知识的有效获取设置了多重障碍。虽然数据挖掘理念和技术的出现可从一定程度上解决该问题,但多数数据挖掘工具和数据仓库技术等在客户数据预处理部分,由于缺少一个领域共享概念模型的形式化规范说明体系的支持,对客户数据语义异构的处理并不理想,这就造成了在低质量客户数据基础上所生成的客户知识模式有效性降低的问题。

因此,在基于语义集成的客户知识挖掘模型构建中,引入企业本体对异构客户数据进行语义集成,在此基础上实施客户知识挖掘过程,优点有:一是由于在基于企业本体对客户数据语义集成过程中已完成了对数据的清洗工作,因此基于语义集成的客户知识挖掘过程可以省略该阶段,进而提高了整体客户知识挖掘过程运行的效率;二是基于企业本体语义集成处理后的客户数据语义表达一致,并在一定概念层次上具备了语义关系,因此客户知识挖掘的目的是运用挖掘方法和算法获取更广或更深概念层次数据间的语义关系,进一步澄清客户数据所描述事物之间的本质联系,提高所获取的客户知识模式的质量。

2.2 基于语义集成的客户知识挖掘模型分析endprint

基于语义集成的客户知识挖掘模型如图1所示,该模型是一个循环的体系,目标是对基于企业本体的客户数据语义集成结果上,依据客户知识挖掘任务,运用相关知识挖掘方法和算法进一步澄清语义集成后的客户数据中或已获取的客户知识模式中所描述的对象及对象关系间的本质,挖掘具有潜藏语义关系的、更符合决策者需求的客户知识模式。其中包括了有价值客户数据收集与语义集成模块、异构客户数据语义集成结果分析模块、基于语义集成的客户知识挖掘模块、客户知识处理模块、客户知识存储模块和客户知识应用模块六大循环模块。各模块的作用和模块之间的关系介绍如下:

2.2.1 有价值客户数据收集与语义集成模块

该模块是整个模型构建的核心和基础,目的是为客户知识挖掘过程提供实施语义异构集成后的客户数据,以提高知识挖掘技术等对客户数据分析、挖掘的质量,减少数据清洗工作,提高知识挖掘过程的效率。

(1)有价值客户数据收集

有效甄别客户价值,有利于企业更好地实施“一对一”的个性化服务策略,降低客户数据语义集成的工作量和复杂度。本文采用从客户和企业的双重视角。按两次甄别的程序展开,其主要内容如下:

①从客户角度实施初次甄别

初次甄别主要从客户人口统计特征、客户需求与购买动机以及客户购买行为3个方面展开。客户的人口统计特征包括客户的年龄、婚姻、职业、性别、收入、教育程度、家庭生命周期、国籍、民族、宗教、社会阶层等,不同年龄、受教育程度不同的客户在价值观念、生活情趣、审美观念和消费方式等方面会有很大的差异,而家庭人口和收入差异,也同样会导致消费的观念不同。企业在设计产品之初就决定了它的有价值客户人口统计特征,如产品的价格、品牌价值等因素会自然带动与其匹配的客户的消费意识,而那些人口统计特征与企业产品营销战略匹配程度差异较大,但却发生偶尔购买行为的客户价值较低。

消费者需求是指消费者生理和心理上的匮乏状态,即感到缺少些什么,从而想获得它们的状态。动机是“引起个体活动,维持已引起的活动,并促使活动朝向某一有价值进行的内在作用”。在人口统计特征类似、消费环境类似的条件下,客户所产生购买行为的差异证明隐藏在其背后动机的强弱,而动机较弱的客户应该在主导动机和非主导动机之外,这些客户价值较低。

不同的客户人口统计特征及消费动机都会产生不同的购买行为。我们可从客户购买行为变量中简单地对客户进行归类,如从企业CRM系统记录中查询客户购买产品的频次、频次累积最高的时间长度、一次购买产品的数量、一次支付产品的价格等变量,还可通过浏览Web使用记录等方式查阅客户网购行为变量,如客户登录站点的方式、客户停留某页面的时间、客户停留站点的时间、客户是否有添加收藏夹、客户是否有复制、粘贴、客户是否有放入购物车及客户是否有电子支付等行为变量。这些客户行为变量都与客户购买行为密切相关,而行为变量值较低的客户价值就较低。

②从企业角度实施二次甄别

若仅从客户角度来划分客户价值,则忽略了企业成本,二次甄别的方法主要采用考察客户生命周期价值的高低,即从企业盈利的角度出发来研究企业从客户身上所获得的价值。关于客户生命周期价值(CLV)的计算模型,这里引用Paul D.Berger和Nada I.Nasr(1998)和陈明亮(2001)定义的计算模型,公式为:

其中,在第t年客户的净利润函数是P(t),客户保持率是r,客户生命周期时间长度为n,折现率为d。其中,客户保持率的大小直接代表了客户满意度,而客户的高满意度产生客户对产品的高感知价值,即从客户角度出发的客户让渡价值直接相关。

由此可见,在制定有价值客户甄别方案时,应从客户和企业两个角度出发,并兼顾彼此,不断细化高、中低和无价值客户群体,分别将相对应的客户数据进行归类整理,为以后客户知识挖掘应用做好客户数据准备。

(2)有价值客户数据语义集成

主要对两种比较常见的客户关系型数据库数据和Web文本数据,在参照领域本体全局概念体系的基础上,实施了语义集成过程。其主要内容如下:

①参照企业本体全局概念体系构建基于语义的数据仓库元数据,指导数据仓库ETL过程,实现客户关系数据库的语义集成。即通过本体学习的方法为每个语义异构的客户关系数据库构建子领域本体,通过本体映射方法对这些子领域本体与企业本体的映射过程转换生成基于语义的元数据。

②参照企业本体全局概念体系构建Web文本语义分析和标注策略,实现Web文本的语义集成。即基于企业本体的概念体系对每个Web文本进行语义分析和标注,从中学习Web文本中的概念和概念间的关系。

2.2.2 客户数据语义集成结果分析模块

基于企业本体对异构客户数据语义集成的过程,即是发现客户数据所描述事物之间语义关系的过程,因此该集成结果中包含了一定概念层次上的客户知识模式。该模块主要功能是针对具体的客户知识挖掘任务,完成对异构客户数据语义集成结果中已形成的客户知识模式的整理、分析和获取。主要由人工方式(如领域专家等)凭经验从中获取与客户知识挖掘任务相关的、语义关系清晰的、有价值的客户知识模式。采用的主要方法通常有概念描述、归纳总结及统计等。由人工方式对客户数据语义集成结果中所形成的客户知识模式进行删选和总结,这样做可以避免客户知识挖掘过程的重复工作。而针对具体客户知识挖掘任务,无法用人工方式从带有语义标签的客户数据中发现的客户知识模式,将交给基于语义集成的客户知识挖掘模块使用更为复杂的方法和算法来发现具有潜藏语义关系的客户知识模式。该模块的处理结果可直接输入到客户知识存储模块中。

2.2.3 基于语义集成的客户知识挖掘模块

该模块主要功能是基于异构客户数据语义集成基础上,并在具体的客户知识挖掘任务的约束下,从客户数据语义集成结果分析模块中,提取相关的、带有语义标签的客户数据,进而选择相关的知识挖掘方法和算法,将这些客户数据转换成有利于知识挖掘方法和算法实施的格式,从中挖掘潜藏的、有价值的、语义关系更符合挖掘任务需求的客户知识模式。另外,该模块还可以完成针对具体的客户知识挖掘任务和决策者的要求,提取客户知识存储模块中的相关客户知识源再次进行挖掘,以发现这些客户知识源中具有更广或更深概念层次和关系的、潜藏的和有价值的客户知识模式。该模块的处理结果直接输入到客户知识处理模块中,有待进一步的调整和优化。endprint

2.2.4 客户知识处理模块

该模块主要功能是针对具体客户知识挖掘任务和决策者的需求,对基于语义集成的客户知识挖掘模块中所输出的初始客户知识模式进行调整和优化,以进一步提高其质量和有效性,主要包括客户知识模式的调整和优化两个阶段。该模块的处理结果如果能让决策者满意,就直接输入到客户知识存储模块中;若结果并不能让决策者满意,则作为客户数据语义和数据间语义关系的澄清结果输入到客户数据语义集成结果分析模块中,针对具体的客户知识挖掘任务再次进行新一轮的分析或挖掘,一是让领域专家更好地发现客户数据间的语义关系,以便发现更有价值的客户知识模式;二是若人工手段无法完成,则进入下一轮的客户知识挖掘过程中。

2.2.5 客户知识存储模块

该模块主要功能是存储由客户数据语义集成结果分析模块中由人工方式可以直接获取的客户知识模式、由客户知识处理模块提交的已经调整和优化良好的、更加具有实用价值的客户知识模式、以及来自于对客户知识存储模块中客户知识源的二次挖掘所生成的、具有更广或更深概念逻辑关系的、更符合决策者需求的客户知识模式。

2.2.6 客户知识应用模块

该模块主要完成对来自于客户知识存储模块中的客户知识模式的共享、重用和创新,前提是对这些客户知识模式要有良好的解释。本文提出以语义网络为载体表示本体形式化内容的方式来解释客户知识模式,并从客户主观认知的角度,对客户知识模式中所描述的概念及概念间关系赋予兴趣度权值。在这个过程中企业会利用原有客户知识模式产生新的客户信息或知识,那么依据企业市场营销目标,这些有关客户信息或知识可作为新的客户数据来源直接输入到有价值客户数据收集和语义集成模块中;另外,这些客户信息或知识也会涉及最新企业信息中包含的概念语义和语义关系,可补充或更新企业本体,进而达到对整个基于语义集成的客户知识挖掘模型的更新。

3、总结与展望

本文从电子商务环境中,客户知识挖掘领域所面临的主要问题出发:一是客户知识挖掘过程中所面对的数据量不断增大、数据结构日益复杂化,单靠目前市面上常用的数据挖掘工具已不能满足企业对高质量客户知识模式的需求;二是支撑客户知识挖掘过程的情景及上下文中缺乏语义环境,如实施基于数据仓库的关系型数据库数据挖掘,E1L过程缺乏基于语义的元数据支撑;实施文本数据挖掘,在关键词的抽取过程中,缺乏考虑关键词之间的语义关系等,这些因素均会导致所获取的客户知识模式质量低下的原因。因此,本文构建了基于语义集成的客户知识挖掘模型,利用基于领域本体的异构数据语义集成的策略和方法,融合到客户知识挖掘过程中,在客户数据语义标注的前提下,实施精准化的客户知识挖掘过程,提高所获取的客户知识模式的质量。有关基于语义集成的客户知识挖掘过程、异构客户数据语义集成方法和流程、领域本体构建和学习等内容将在后期不断做出研究。endprint