APP下载

基于粗概念格模型的电子商务领域本体的构建研究

2014-09-15徐红升张瑞玲

计算机工程与科学 2014年3期
关键词:约简粗糙集本体

徐红升,张瑞玲

(洛阳师范学院信息技术学院,河南 洛阳 471022)

基于粗概念格模型的电子商务领域本体的构建研究

徐红升,张瑞玲

(洛阳师范学院信息技术学院,河南 洛阳 471022)

以构建电子商务系统中的本体为出发点,分析现有的本体构建技术中存在的缺陷。针对这些不足,综合考虑变精度粗糙集模型和形式概念分析的相关理论,提出基于粗概念格模型来构建本体。将变精度粗糙集的β选取算法和可辨识矩阵属性约简算法进行了改进,使β-上、下分布的约简方法适用于形式背景的约简,从而提出基于变精度粗糙集的概念格约减算法;然后计算语义概念相似度,并以联合国标准产品与服务分类代码的本体元模型为核心本体,结合领域专家知识,建立电子商务领域本体模型。实验表明了粗概念格构建本体的高效性。

本体;变精度粗糙集;概念格;属性约简

1 引言

随着互联网的普及和电子商务的发展,电子商务系统在为用户提供越来越多选择的同时,其结构也变得更加复杂,如何及时在网络上的海量信息中发现所需要的信息变得越来越困难。

目前的电子商务系统都是基于单个电子商务网站的应用,客户群体也是特定的,存在实时性差、推荐质量不高的问题,因此不能满足基于网络条件下大规模电子商务推荐应用的要求。基于知识的推荐技术是解决这一问题的关键,但基于知识的推荐技术最大的难点是知识的获取[1],而本体技术可以有效解决知识的获取、聚合和智能推荐等问题。本体作为解决知识工程、语义Web、人工智能等领域瓶颈问题的万灵丹(Silver Bullet)受到研究者广泛关注,越来越多地被用于推荐系统,主要用来描述用户需求和产品,以及通过本体匹配向用户推荐产品。

那么,构建本体成为本体应用的关键问题,但目前该领域研究还处于探索阶段,没有形成成熟、统一的方法作为指导。由于手工构建并开发本体的方法费时、费力、成本很高,导致本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的成本是一个很有建设性的研究课题。国外在该方向的研究很活跃,把相关的技术称为本体学习技术(Ontology Learning),其目标是利用机器学习和统计等技术自动或半自动地从已有的数据资源中获取渴望的本体。而采用本体学习技术,虽然可以简化手工构建本体的工作量,但这些技术不能寻找到领域内所有隐含的概念和概念间关系,而且不能明确地以形式化方式表达所形成的概念及概念模型。

形式概念分析作为应用数学的一个分支,来源于哲学领域对概念的理解[2,3],从外延和内涵两方面对概念进行符号形式化描述,实现计算机可以理解的语义信息。根据用二元关系来表达领域中的形式背景,从中提取所有隐含的概念和概念之间的相互关系,形成概念层次结构,即概念格,从数据集中生成概念格的过程实际上是一种概念聚类的过程。利用形式概念分析技术在不受开发者的主观影响下,帮助从给定的数据里自动获取所有隐含的概念以及概念之间的层次关系,并且用符号表示所有概念,达到了形式化概念模型的效果,为构建本体提供一种方法指导。概念格和粗糙集是数据挖掘中对数据进行分析与处理的两个有力工具,本文将可变精度粗糙集的β-上、下分布的约简思想应用于形式背景的约简,提出基于变精度粗糙集的概念格约减算法。针对约简后的概念从中提取形式概念,用决策表中的对象集和相应的属性集来表达所形成的概念,形成概念间的层次关系。这里提出基于变精度粗糙集的概念格模型来构建本体,该方法在不改变本体结构的前提下,尽量减少对象和属性的数量,降低构造本体的时间复杂度,增加其覆盖能力和泛化能力。

最后以联合国标准产品与服务分类代码(UNSPSC)为核心本体,结合商品表格、日志、现有电子商务领域专家知识库,通过核心本体半自动扩展的方法提取和生成电子商务领域本体。本文第1节作为全文的概述;第2节主要介绍目前本体构建技术的情况,分析存在的问题;第3节介绍粗概念格模型的构建方法;第4节讨论基于粗概念格来构建电子商务领域本体的方法。

2 本体构建技术分析

本体作为解决知识工程、语义Web、人工智能等领域瓶颈问题的万灵丹受到研究者的广泛关注,越来越多地被用于推荐系统,主要用来描述用户需求和产品,以及通过本体匹配向用户推荐产品。因此,关于本体构建方法的研究对于本体的应用具有至关重要的作用。但是,目前该领域研究还处于探索阶段,没有形成成熟、统一的方法作为指导。

早期的本体构建方法主要诞生在具体的开发项目,为具体的项目实践服务。国外的研究有:骨架法、企业建模法、 METHONTOLOGY、KACTUS、循环获取法、IDEF-5方法、七步法。这七种方法体系的成熟度依次为:七步法、METHONTOLOGY法> IDEF-5方法>企业建模法>骨架法>循环获取法、 KACTUS法。国内的有:(1)王洪伟、吴家春、蒋馥提出了基于描述逻辑的本体模型;(2)刘凤华、朱欣娟等人提出了基于需求分析的本体模型构建方法;(3)李景、苏晓鹭等人[4]提出了构建领域本体的知识工程方法。

经分析,上述构建方法的缺点是:(1)采用手工方式,一旦遇到复杂的领域就费时费力;(2)在建立各自的本体时均采用不同的标准、建模方法,所以构建的本体不通用;(3)具有很大的主观性,针对某个领域,不同的领域专家会采用不同的观点以至构建的本体不统一。最重要的是在寻找领域概念和概念之间的关系时,所采取的方法和手段有较大差异,而且也只能找到一些已知的概念(从辞海或叙词表中)。

由于手工构建并开发本体的方法费时、费力、成本很高,导致本体的构建成为一项艰巨的任务。因此,如何利用知识获取技术来降低本体构建的成本是一个很有建设性的研究课题。

目前,国外在该领域的研究很活跃,并把该研究领域称为本体学习(Ontology Learning)。其目标是利用机器学习和统计等技术,以自动或半自动的方法,从己有的数据资源中获取期望的本体。到目前为止,国外己开发了一些本体学习工具,具有代表性的工具包括Hasti[5]、OntoLearn[6]、Text-To-Onto[7]和OntoLIFT[8]。

在国内,中国科技信息研究所的梁健和王惠临的《基于文本的本体学习法研究》[9];中国人民大学杜小勇、李曼等将本体学习分为基于非结构化数据、半结构化数据和结构化数据的本体学习三种类型[10]。总之,采用本体学习技术,虽然可以简化手工构建本体的工作量,但在实际的知识获取过程中,有些知识虽然人能理解,但很难确切地表达出来,比如很多隐含的概念和概念间的关系,这些关系都是隐含在人的头脑中,或者是文档中的。另外,这些隐含的概念及概念间的关系要用形式化的方式确切地表示出来更加困难。

而形式概念分析就是从给定数据中自动提取出所有的隐含概念以及概念之间的分类关系,形成概念模型(概念格)。概念格作为形式概念分析的核心数据结构,从外延和内涵两方面对概念进行符号形式化描述,具有明确的层次关系,含有丰富的语义信息,实现了计算机可以理解的语义信息[11]。本体和形式概念分析都来源于哲学领域,概念格由概念的层次关系组成,内涵、外延构成了概念,而本体也是用来体现概念与概念间关系的。因此,采用形式概念分析的方法可以帮助构建本体,并为本体的构建提供了一种统一、成熟的方法指导。

3 粗概念格模型的构建

概念格和粗糙集是数据挖掘中对数据进行分析与处理的两个有力工具。近年来将粗糙集理论与概念格相结合已有许多成果[12]。本文将可变精度粗糙集的β-上、下分布的约简思想应用于形式背景的约简,提出基于变精度粗糙集的概念格构造模型。其核心思想是首先针对领域的形式背景进行预处理,然后把变精度粗糙集在属性约简方面的较强能力用于概念格的约简,使生成的概念格的节点数目大大减少,系统的鲁棒性和抗噪能力增强。

这里采用改进的基于变精度粗糙集的β-上、下分布属性约简算法对形式背景约简。在不改变格结构的基础上,减少对象和属性的数量,降低构造概念格的时间复杂度,增加其覆盖能力和泛化能力。

通过改进计算可辨识矩阵的方法,使得算法既适用于相容决策表,也适用于不相容决策表,首先根据β值的估算方法求出β,计算属性重要度;然后改进Skowron提出的可辨识矩阵计算方法,以改进的可辨识矩阵计算方法为基础,提出基于变精度粗糙集的β-上、下分布属性约简算法。

分类质量是决策属性D对条件属性C的依赖度,表示条件类U/C能够确切划入决策类U/D的对象数占论域中总对象数的比率,体现了决策信息系统的不确定程度。分类质量越小,不确定性就越大。在现实生活中 ,决策分析者往往并不知道β的取值,但有可能知道用户所要求的分类质量不得低于某一阈值γ,如何根据γ来确定β的取值范围是本文研究的一个重点。

定义1 给定决策表S=(U,C∪D,V,f),其中V是属性值的集合,f是信息函数。给定β∈(0.5,1],U/C={X1,X2,…,X|U/C|},U/D={Y1,Y2,…,Y|U/D|},近似分类质量(称“决策属性D对条件属性C的近似依赖度”)定义公式为γ(C,D,β)=POS(C,D,β)/U。

定理1[13](1) 设0.5<β1≤β≤1,若x∈POS(C,D,β),则x∈POS(C,D,β1)。

(2) 设0.5<β≤β1≤1,若x∉POS(C,D,β),则x∉POS(C,D,β1)。

定理2 对于定义1中的决策表,

β={β(Xi,Yj)|00.5},若β中重复的元素只保留一个并按从小到大顺序排列为β={β1,β2,…,βk}, 1≤k≤|U/C|*|U/D|,则有γ(C,D,β1)>γ(C,D,β2)>…>γ(C,D,βk)。

定理3 对于定义1中的决策表,

β={β(Xi,Yj)|00.5},对∀β∈(βi,βi+1],有γ(C,D,β)=γ(C,D,βi+1)。

定理4 设给定的近似分类质量阈值r,满足r要求的最大β值为βr,则对任意的β∈(0.5,βr],γ(C,D,β)≥γ。

可辨识矩阵是Skowron于1991年提出来的[13]。可辨识矩阵的精妙之处就是在于它把粗糙集对于信息表所要求的所有信息都浓缩到一个可辨识矩阵中,因此矩阵中所有条件属性组合数为1的属性均为核属性。这里改进可辨识矩阵的概念属性约简算法(VMAR算法),首先对属性集之间的正域和负域定义进行改进,根据最大交集的思想来拓展变精度粗糙集模型,并结合β值选取方法来改进基于变精度粗糙集理论的近似知识约简算法,通过分析概念构造算法,最终将变精度粗糙集的Inspired规则获取算法与改进的概念格构造算法进行有机结合,形成基于VPRS的概念格的约简构造算法如下。

对于决策表,从{β1,β2,…,βk}序列中通过逐个比较找出使得近似分类质量γ最接近r值的βr。

输入:背景(X,D,R)所对应的原始概念格L信息,{β1,β2,…,βk}序列值,阈值r;

输出:背景(X∪{x*},D,R)所对应的概念格L*信息。

算法描述:

步骤1 输入决策表。

步骤2 令x=l,计算γ(C,D,β1);

if(γ(C,D,β1)≥r) 转步骤2;

else 要求决策者降低对决策表的分类能力,并重新提供r值。

步骤3R=null;∥初始化约简集R为空

for (i=0;i<|M|;i++)

{for (j=i;j<|M|;j++)

{if(mij只有一个条件属性元素)

CORE(C)<==={a}; /*CORE(C)为属性的核约简}*/

}R<===CORE(C);/*将核加到约简集R中*/

步骤4 计算γ(C,D,βx);

if(γ(C,D,βx)≥r) 转步骤2;

else 转步骤4。

步骤5 [Increasei] Seti+1→i,

ifi=n+1 算法结束;

elsel←j, 转步骤2。

步骤6 取出所有的更新格节点,并按内涵元素个数从小到大排序,返回集合COLL3;

for (每个Ck∈COLL3) { 找出Ck的子节点集合CHD(Ck),按内涵元素个数从小到大排序}。

步骤7 得到一个β-变精度属性约简,从而得到简化的决策表L*。

步骤8 添加新生成的格节点Cnew=(Extent(Ci)∪ {x*},Intersection);

添加边Cnew→C1。

步骤9 输出最终粗概念格L。

4 基于粗概念格的电子商务本体构建

目前,电子商务系统中存在大量非结构化数据(文本、表格、日志等)以及结构化数据(关系数据库),非结构化数据依据一定的造句法表达语义信息,只能通过一些背景知识来理解其中的含义。这里结合产品本体介绍本体构建的过程,其技术路线如图1所示。

Figure 1 Technology roadmap of ontology building图1 本体构建的技术路线图

(1)抽取形式背景。

由于缺乏一定的结构,要使机器能够自动地理解非结构化数据并从中抽取出需要的知识,必须利用自然语言处理(NLP)技术对其预处理。首先利用自然语言理解技术(NLP)对收集来的纯文本进行预处理,取得文本中的字词集合;利用概率统计的方法获得能代表文本的关键概念词汇。具体的方法可以是计算概念词汇在文本集中出现的频率,如果该频率大于指定的阈值,则将其作为领域本体中的概念,利用WordNet判断概念间的同义关系。然后针对所找出的概念词汇,结合相应的文本集合形成词汇、文件的二元关系表,该二元关系表就是形式背景。

(2)采用粗概念格模型来生成单元本体。

通过选择合适的β值,利用变精度粗糙集对形式背景进行约简,以减少冗余对象、降低噪声。针对约减后的形式背景,采用粗概念格技术构造单元本体。用RFCA来构建本体的具体方法如下:

①从空的对象和属性集合开始。

②由使用者根据需要把对象和属性添加到形式背景中。

③构建形式背景对应的粗概念格。

④用户可以在显式化的粗概念格的基础上做如下操作:

a 根据本体使用的需要直接编辑:

i 添加或移除对象;

ii 添加或移除属性;

iii 给对象添加属性或从对象移走某一属性。

b 由程序提示编辑本体:

i 当两个对象有相同的属性时,要么合并成一个对象,要么给对象添加属性,以区别对象;

ii RFCA能产生新的对象,这些对象直接由属性构成。

⑤整个过程可以不断地循环重复,直到设计者满意为止。

最后,还要探讨如何从粗概念格转换成相应的本体。这里所用的方法是:采用简化的方法用属性来代表所形成的粗概念,并且在标注时只让属性在粗概念格中出现一次,由于这里的属性都是词汇,而本体所描述的重点元素也都是词汇概念,因此可以用粗概念格中的属性来表示本体概念[11]。

(3)构建本体元模型。

构建本体模型,首先需要计算语义概念相似度,借助WordNet,采用下面提出的概念相似度计算方法,计算本体间属性概念的相似度,得到单元本体的属性映射集合。

由于电子商务领域要分析顾客的评分,需要对以往研究成果进行改进,加入了权重值,它主要来源于用户对商品的评分值。文献[14]中提出了基于RFCA的相似度测量方法。依据概念E1与E2的所有属性(I1,I2)作笛卡尔积,即p(I1,I2)={〈a1,b2〉,…,〈an,bn〉},再两两一组进行相似度计算,并各自将对象与属性的相似比乘上权重(w),求出概念相似度,如下所示:

p(I1,I2)={{〈a1,b1〉,…,〈an,bn〉}|ah∈I1,bh∈I2,∀h=1,…,n, 且ah≠ak,bh≠bk,∀k,l≠h}

其中,p(I1,I2)为I1、I2集合内所有元素的笛卡尔乘积;as(a,b)为属性集合中两两一对的元素相似度;|E1∩E2|为两对象集合的交集个数;r为两个对象集合中的最大元素值;w为权重值;n为I1集合个数,m为I2集合个数,且令n≤m。

然后针对领域中具有相似关系的单元本体,运用基于概念格同构生成的本体合并方法,将这些单元本体合并,最后以UNSPSC产品本体元模型为核心本体,结合电子商务领域专家知识,通过核心本体半自动化地提取和生成全局领域电子商务。

下面结合某电子商务交易平台的实际交易商品的数据,分析比较采用概念格与采用粗概念格来构建本体的性能,主要依据生成本体的时间与本体概念的冗余度来作对比。如图2所示,本例中的本体概念构建数量是20倍数递增的,当本体概念的数量增加时,尤其超过3*20的时候,基于概念格来构建本体的耗时就明显增加。总之,实验表明,在时间上基于粗概念格构建本体要优于基于概念格构建本体。

Figure 2 Comparison of ontology construction图2 本体构建比较图

5 结束语

目前对于电子商务领域本体的研究偏向相似度计算、基于算法的推理、匹配等的研究,缺乏具有针对性的研究背景,缺乏大规模知识库的支持。国内外已经进行了许多关于自动(或半自动)本体映射、合并的研究,并且取得了很大的突破和进展,但在时间复杂度、准确率和效率等许多方面与实际需求还有很大差距。最重要的是这些本体构建技术无法找到领域内所有隐含的概念及概念间的关系。

针对这些不足,本文以构建电子商务系统中的本体模型为目标,综合考虑变精度粗糙集模型和形式概念分析理论,将其优势互补,提出了粗概念格模型, 利用粗概念格模型对形式背景抽取和约简;然后计算语义概念相似度,并以联合国标准产品与服务分类代码(UNSPSC)为核心本体,结合商品表格、日志、现有电子商务领域专家知识库,通过核心本体半自动扩展的方法提取和建立了电子商务领域本体,以增强电子商务系统的鲁棒性和抗噪能力。今后的工作是在粗概念格的基础上,结合模糊集理论,探索电子商务本体的映射与合并。

[1] Dei W, Yi M. An approach of personalization for electronic commerce websites based on ontology[C]∥Proc of the 7th IFIP International Conference on e-Business, e-Services and e-Society, 2007:491-498.

[2] Richards D. Using concept lattices for requirements reconciliation[C]∥Proc of the 2nd International Conference on Formal Concept Analysis, 2004:402-409.

[3] Ganter B, Wille R. Formal concept analysis:Mathematical foundations[M]. Berlin:Springer Verlag, 1999.

[4] Li Jing. The research application of ontology in literature retrieval system [M]. Beijing:Publishing House of Beijing Library, 2005. (in Chinese)

[5] Shamsfard M, Barforoush A A. Learning ontologies from natural language texts [J]. International Journal of Human-Computer Studies,2004,60(1):17-63.

[6] Navigli R, Velardi P, Gangemi A. Ontology learning and its application to automated terminology translation[J].IEEE Intelligent Systems,2003,18(1):22-31.

[7] Maedch A.Ontology learning for the semantic web[M]. Boston:Kluwer Academic Publishers,2002.

[8] Volz R,Oberle D,Staab S,et al. OntoLIFT prototype[C]∥Proc of IST Project 2001-33052 WonderWeb Deliverable 11.2003:1.

[9] Liang Jian,Wang Hui-lin.Research on ontology learning from text [J]. Journal of Intelligence Theory and Practice, 2007,30(1):112-115. (in Chinese)

[10] Du Xiao-yong, Li Man,Wang Shan. Research on ontology learning [J]. Journal of Software, 2006 ,17(9):1837-1847. (in Chinese)

[11] Xu Hong-sheng, Shen Xia-jiong, Liu Zong-tian. Construction and presentation of ontology on semantic web based on formal concept[J]. Journal of Computer Science, 2007,34(2):171-174. (in Chinese)

[12] Yao Y Y.A comparative study of formal concept analysis and rough set theory in data analysis:Rough sets and current trends in computing[C]∥Proc of the 3rd International Conference,2004:59-68.

[13] Beynon M. Reducts within the variable precision rough sets model:A further investigation[J]. European Journal of Operational Research, 2001,134(3):592-605.

[14] Xu Hong-sheng, Zhang Rui-ling. Application of ART and concept similarity in e-commerce recommendation systems [J]. Journal of Computer Engineering and Applications, 2010,46(7):213-217.(in Chinese)

附中文参考文献:

[4] 李景.本体理论在文献检索系统中的应用研究[M].北京:北京图书馆出版社,2005.

[9] 梁健,王惠临.基于文本的本体学习方法研究[J].情报理论与实践,2007,30(1):112-115.

[10] 杜小勇,李曼,王珊.本体学习研究综述[J].软件学报, 2006,17(9):1837-1847.

[11] 徐红升,沈夏炯,刘宗田. 基于形式概念的语义网本体的构建与展现[J].计算机科学, 2007,34(2):171-174.

[14] 徐红升,张瑞玲. ART与概念相似在电子商务推荐系统中的应用[J]. 计算机工程与应用,2010,46(7):213-217.

XU Hong-sheng,born in 1979,MS,lecturer,his research interests include data mining, and knowledge acquire.

张瑞玲(1964-),女,河南洛阳人,硕士,教授,研究方向为数据挖掘和知识获取。E-mail:ruilingzhang@163.com

ZHANG Rui-ling,born in 1964,MS,professor,her research interests include data mining, and knowledge acquire.

Research of domain ontology construction in e-business based on rough concept lattice model

XU Hong-sheng,ZHANG Rui-ling
(College of Information Technology,Luoyang Normal University,Luoyang 471022,China)

The defects of existing ontology construction technology are analyzed in order to construct the ontology model of the e-commerce system. The model of ontology construction based on rough concept lattice is proposed for the sake of making up these defects by integrating the theory of variable precision rough set (VPRS) model and formal concept analysis. The method of β-upper and lower distribution reduction is used to reduce formal context by improving the two algorithms of β-values select and attribute reduction based on discernibility matrix in VPRS. Therefore, the paper proposes the reduction algorithm of concept lattices based on VPRS. After calculating the semantic similarity of concepts, the domain ontology model of e-business is built combined with knowledge of domain expert and original ontology model of the United Nations Standard Products and Services Classification Code by way of core ontology. Experiments show that the efficiency of building ontology based on rough concept lattice is higher than FCA.

ontology;variable precision rough set;concept lattice;attribute reduction

2012-08-29;

2012-12-26

国家自然科学基金资助项目(61050004,61272015);河南省教育厅科学技术研究重点项目(13B520155)

张瑞玲(ruilingzhang@163.com)

1007-130X(2014)03-0530-06

TP274

A

10.3969/j.issn.1007-130X.2014.03.027

徐红升(1979-),男,河南洛阳人,硕士,讲师,研究方向为数据挖掘和知识获取。E-mail:xhs_ls@sina.com

通信地址:471022 河南省洛阳市洛阳师范学院信息技术学院

Address:College of Information Technology,Luoyang Normal University,Luoyang 471022,Henan,P.R.China

猜你喜欢

约简粗糙集本体
基于Pawlak粗糙集模型的集合运算关系
基于二进制链表的粗糙集属性约简
实值多变量维数约简:综述
基于模糊贴近度的属性约简
基于本体的机械产品工艺知识表示
多粒化粗糙集性质的几个充分条件
双论域粗糙集在故障诊断中的应用
《我应该感到自豪才对》的本体性教学内容及启示
两个域上的覆盖变精度粗糙集模型
一种改进的分布约简与最大分布约简求法