APP下载

海工装备案例库知识推荐方法研究

2020-05-25杨晨刘亮亮张再跃

软件导刊 2020年2期

杨晨 刘亮亮 张再跃

摘 要:针对传统推荐方法无法获取有效语义信息的问题,提出了一种基于本体的案例推荐计算方法,通过该方法让本体参与案例推荐计算。构建了海工装备案例本体,进一步提高了海工装备案例的信息利用率。实验证明,该方法较传统基于内容的推荐方法在准确率和召回率上分别提高了1%和5%。同时,构建的海工装备案例本体也为海工装备案例知识管理研究提供了语义基础。

关键词:本体构建;案例表示;案例推荐

DOI:10. 11907/rjdk. 191489 开放科学(资源服务)标识码(OSID):

中图分类号:TP301文献标识码:A 文章编号:1672-7800(2020)002-0018-05

英标:Research on Recommended Method of Knowledge of Offshore Equipment Case Library

英作:YANG Chen1, LIU Liang-liang2, ZHANG Zai-yue1

英单:(1. School of Computer Science, Jiangsu University of Science and Technology, Zhenjiang 212003,China;2. School of Statistics and Information, Shanghai University of International Business and Economics, Shanghai 201620,China)

Abstract: Aiming at the problem that the traditional recommendation method can not obtain the effective extraction of semantic information, this paper proposes an ontology-based case recommendation calculation method, which allows the ontology to participate in the case recommendation calculation. The body of the offshore equipment case was constructed, which further improved the information utilization rate of the offshore equipment case. Experiments show that the proposed method improves the accuracy and recall rate by 1% and 5%, respectively, compared with the traditional content-based recommendation method. At the same time, the civil engineering equipment case ontology constructed by this paper also provides a semantic basis for the research of marine equipment case knowledge management.

Key Words: ontology construction; case representation; case recommendation

0 引言

隨着海洋工程装备企业(以下简称海工装备企业)规模的扩大,企业内海工装备案例也相应增加,导致企业员工无法快速找到自己感兴趣的案例。因此,针对海工装备案例的推荐成为一项重要研究内容。

推荐系统可以在不同的场景下对用户进行推荐[1],从而很好地帮助用户找到自己感兴趣的事物,减少寻找这些事物所需要的时间和精力。商品推荐是推荐系统最早的应用场景,亚马逊商城在1998年上线了基于协同过滤算法的推荐系统[2],并取得了巨大的商业成功。推荐算法是推荐系统运作的核心,主流的推荐算法有基于内容的推荐[3-5]、基于协同过滤的推荐[6-8]以及基于关联规则的推荐[9-10],这些推荐算法为电影、图书、金融信息等领域提供了推荐系统构建的解决方案,但是同时这些推荐算法也存在一些缺陷[11]:①不能描述项目(即被推荐内容)的语义信息,导致推荐效果差;②在项目共享和重用方面存在不足。

作为知识工程的一个重要工具,本体在提高领域知识信息化、改善知识表示与分析等方面具有巨大优势,能很好地解决传统推荐方法存在的缺陷[12]。近年来,将本体技术应用于推荐系统的研究越来越多。通过分析旅游信息等手段,Choi C [13]等构建了旅游本体,并提出了基于本体的语义Web旅行推荐系统构建方案,解决了传统旅游信息平台在推荐功能上的不足;吴永亮[14]等通过对地质数据的关系、概念、属性、规则及对应实例的详细分析,构建了地质数据本体(矿产资源预测部分),并开展了基于此本体的检索应用实践。针对当前E-learning(计算机及网络信息学习活动)应用个性化资源推荐能力差、信息无法自动提取以及语义分析不成熟等问题,黄海江[15]等提出了一种基于文本信息的本体构建方法,通过收集文本、抽取领域词汇以及概念聚类等步骤构建E-learning领域本体,并将该本体引入到个性化学习服务推荐系统中,能很好地满足用户对相关学习信息的需求。

本文将本体技术引入海工装备企业,作为反映信息资源属性关系的模型,进行海洋工程装备案例本体构建,最终实现以海工装备案例本体为基础的知识推荐方法,以解决传统推荐方法中语义缺乏导致的推荐结果差、结构化程度低等问题。

1 海工装备案例本体构建

1.1 海工装备案例表示

构建海工装备案例本体的目标是获取、描述海工装备案例领域知识,对领域内的概念进行总结。从不同层次以形式化的方式给出概念之间相互关系的明确定义[16],建立海工装备案例领域知识体系。根据海工装备案例的作用和内容特点,将海工装备案例本体分成3个不同的类,包括设计优化类案例、经验类案例和设计检查表类案例。部分海工装备案例本体层次结构如图1所示。

通过分析已有案例文档,可将海工装备案例描述如式(1)所示。

其中,[Ooec](Offshore Equipment Case Ontology)表示海工装备案例本体;[Coec](Offshore Equipment Case Concepts)表示海工装备案例概念的集合;[Aoec](Offshore Equipment Case Attributes)表示属性的集合,代表海工装备案例本身的属性,这些属性可以全面地描述海工装备案例的概念;[Ioec](Offshore Equipment Case Instance)表示实例的集合,是海工装备案例概念的实例化。

(1)概念([Coec])。根据图1展示的海工装备案例本体层次,可以将海工装备案例本体分为三大类,根据使用场景和针对目标的不同可以细分为更多子类,这些子类包括很多概念,例如技术管理经验类案例包括技术中心内部经验案例、生产管理经验案例和维修管理经验案例等。技术中心内部经验案例包括技术中心内部沟通经验案例、技术文档规范经验案例和内部培训经验案例等。这些概念构成了海工装备案例本体的概念集合。

(2)属性([Aoec])。对于一个海工装备案例,通常会包含3类信息:案例描述、案例内容及案例总结。在设计优化类案例中,案例描述信息包含案例名称、综合等级、案例类别、主要贡献人、创建日期以及来源等属性,原设计方案、优化设计方案、优化项目名称等属性属于案例内容信息,优化设计成果属于案例总结信息;在经验类案例中,案例描述信息包括创建人、创建时间、修改时间、来源类型以及来源名称等属性,问题描述及举例、解决方法等属性属于案例内容信息,建议等属性属于案例总结信息。

(3)实例([Ioec])。在海工装备案例本体中,实例是不可或缺的。将本体中的概念进行实例化,是进行海工装备案例本体应用的重要步骤。以海工装备案例本体中的设计优化类案例子类为例,该子类的实例包括照明系统设计优化、消防系统设计优化、栏杆设计优化、斜体扶手设计优化等。不同概念都有各自的实例,这些实例的集合构成了海工装备案例本体的实例集。

1.2 海工装备案例本体构建

本文根据海工装备案例系统内知识推荐需求,确定海工装备案例所涉及的概念、属性和实例后,利用本体建模实现软件Protégé构建海工装备案例本体。

(1)类的构建和定义。海工装备案例本体中的概念对应Protégé中的类,可以在Protégé的Classes标签内定义海工装备案例本体中的类。Class面板左侧为类结构层次图,以结构树形式展现,右侧为类注释及类描述。海工装备案例本体类树形结构如图2所示。

Protégé内默认最高父类为Thing,其它所有类均为其子类。本文在最高父类Thing下建立了父类Offshore Equipement_Case以及子类Experience_Case和Design Optimization_Case。类和类之间的父子关系通过OWL中的subclass实现,比如:

(2)属性定义和构建。在完成(1)中相应类的构建后,需要对这些类的属性进行构建和定义。在Protégé里有两张属性标签,分别为Object Properties(对象属性)和Data Properties(数据属性)。

对象属性一般用于描述對象(类)之间的属性关系,可以用该属性标签构建和定义类之间的关系。部分对象属性如图3所示。

其中,HasPart和IsPartOf描述的是类之间包含与被包含的关系,比如海工装备案例包含经验案例和设计优化案例两个子类;HasAttribute和IsAttributeOf描述的是类之间的属性从属关系,比如C IsAttributeOf D,表明C是D的一个属性。HasInstance和IsInstanceOf描述的是抽象与具体的关系,比如I型钻井平台是设计优化案例中优化装备的实例化。

数据属性是本体类中概念自身的所有属性,描述的是概念与数据类型值之间的关系。例如设计优化案例的数据属性包括案例名称、综合等级、案例类别、主要贡献人、创建日期、优化项目名称等。部分数据属性如图4所示。

(3)实例构建。通过构建实例,能够增加海工装备案例本体的描述粒度,提高本体的应用程度。以海工装备案例本体中的设计优化类案例子类为例,通过Individuals标签添加“Fire System Design Optimization”“Lighting System Design Optimization”和“Railing Design Optimization”3个实例(即消防系统设计优化、照明系统设计优化、栏杆设计优化),在实例描述中添加类型“Type”为“Design_Optimization_Case”(即设计优化类案例),最终完成设计优化类案例实例化,部分实例如图5所示。

2 基于本体的案例推荐

2.1 案例概念相似度计算

案例概念是案例本体的主要组成部分,通过计算案例概念之间的相似度,可以很好地了解案例概念之间的相关程度,为基于本体的案例推荐打下基础。本文以本体的形式对海工装备案例进行表达,具有概念层次性,因此可以将每个案例概念看成是一个节点,通过计算节点间的距离获取节点间相似度,即案例概念间相似度。根据Wu and Palmer法[17],在海工装备本体知识树中,两个概念之间必定存在公共祖先节点(如根节点),且路径可能不止一条。计算如式(2)。

其中,[D1]和[D2]为从概念[c1]和概念[c2]到它们最近公共祖先节点[c3]的路径长度,[D3]为该祖先节点[c3]到根节点的最短路径,且[(c1,c2,c3)∈Coec]。为了计算方便,默认边距距离统一。通过计算公式可以看出,案例概念间距离(路径)越近,它们之间的相似度就越高。

2.2 案例属性相似度计算

在通过案例概念相似度计算后,可以得到一组初选案例集并进入属性匹配阶段。海工装备案例本体包含多种属性,这些属性的内容反映了海工案例中最本质的信息,通过案例间属性相似度计算,可以获得与源案例(原始案例)相似程度更高的案例集。

设案例集为[S={S1,S2,?,Sn}](其中[n]为案例个数)。假设案例[Si]有[m]个属性(其中[i=1,2,3,?,n]),则案例[Si]的案例属性集可以表示为[SiX={X1,X2,?,Xm}]。通过分词器对案例属性进行分词处理,然后除去停用词,得到处理后的案例[Si′={X'1,X'2,?,X'm}]。

使用Word2vec[18]将案例[Si'(i=1,2,?,n)]映射到一个低维实值的向量空间中去,得到案例[Si']的属性向量[Xi''=][{φ1,φ2,?,φn}(i=1,2,?,m)]。

假设案例[S1]和案例[S2]的属性向量分别为[Xk''={ω1,][ω2,?,ωn}]和[Xj''={φ1,φ2,?,φn}],其中[ωi]和[φi]分别表示属性[Xk']和[Xj']在第i维的向量值,[Xk'']和[Xj'']分别表示属性[Xk']和[Xj']由Word2vec处理成的词向量,则案例[S1]和[S2]的案例属性相似度可表达为式(3)。

2.3 案例相似度融合

在得到案例概念相似度和案例属性相似度后,再通过权值加权的方法得到这两个案例之间的综合相似度。假设案例概念相似度的权值为[α],案例属性相似度的权值为[β(0β1)],[α+β=1]。则本体中任意两个案例实例的相似度为:

其中,[Sim1(c1,c2)]为案例概念相似度,[Sim2(S1,S2)]为案例属性相似度,[Sim(S1,S2)]为案例综合相似度。

3 实验及结果分析

3.1 实验数据

本文实验测试数据为某大型海工装备企业提供的海工装备案例文档合集,该文档合集包括了多种类型的海工装备案例文档。这些文档按作用不同可分为两大类:设计优化类和经验类,设计优化类可以细分为优化布置类、系统功能优化类和细节优化类;经验类也可以细分为技术管理经验类和项目准备前经验类,每个类别中包含400个文档。由于海工装备案例文档中含有一些停用词和无关内容,因此实验前要对这些文档进行预处理,并用这些预处理后的文档构建成一个系统的案例库,然后进行实验。

3.2 实验过程

实验开始前对案例库中的案例进行人工筛选,找出每个案例对应的5个推荐案例(内容和概念上最相近的5个案例),并将每个案例的筛选结果存入数据库。本实验以案例库中的案例为数据来源,从案例库中抽出若干案例,然后将这些案例作为测试样本投入到系统中进行推荐。最后将输入案例与案例库中其它案例的案例概念相似度和案例属性相似度进行融合计算,为简化计算,设式(4)中的权值[α]和[β]均为0.5。将计算得到的相似度按大小排序,选取与输入案例相似度最高的5个案例作为推荐结果。

3.3 评价指标

本文实验采用准确率(Precision),召回率(Recall)和F1值(F1-measure)作为性能评价指标。相关计算如下:

其中,[True_recommend]表示输出的推荐结果与人工筛选结果相同的个数,[T_result]表示输出的所有推荐结果,[T_all]表示系统中所有案例的个数。

3.4 实验方法

本文将本体技术引入推荐系统构建中,可以很好地描述海工装备领域相关知识,捕捉案例内重要语义信息,而传统基于内容的推荐方法[19]则缺乏对案例中语义信息的考虑。因此,本文采用基于内容的推荐方法作为对比实验,实验过程如下:首先采用TF-IDF算法[20]计算出每个案例中每个词的TF-IDF值,然后用这些TF-IDF值作为元素形成案例的特征向量。

其中,[TFij]表示第[j]个案例中第[i]个词出现的频率,[N]表示案例集合的案例数,[nj]表示含词条[j]的案例个数。

最后用余弦相似性计算案例相似度,选择相似度最高的5个案例作为推荐案例。余弦相似性计算如下:

其中,[s1、s2]分别表示案例,[v1、v2]分别表示案例[s1、s2]的特征向量。

3.5 實验结果

抽取系统内的案例作为实验数据进行实验,以验证本文方法的有效性。分别进行10、20、30个案例的推荐实验,获取不同方法下的准确率、召回率和F1值,实验结果如表2所示。

由实验对比结果可以看出,本文推荐方法与传统基于内容的推荐方法相比,在准确率、召回率等方面均较高,能够更好地为使用者提供推荐服务,这也说明本文构建的本体能更好地描述海工装备案例中的潜在知识,捕捉案例内重要语义信息,为推荐效果提升提供重要支撑。同时,实验对比结果也说明将本体引入案例推荐计算方法中具有一定优势。

4 结语

案例推荐是传统案例信息运用的新形式,是解决企业信息资源获取问题的一种方案。针对案例推荐在语义信息利用方面的不足,本文引入了本体技术,构建了海工装备案例本体,让海工装备案例中的隐性知识在推荐过程中发挥作用,有效地改善了案例推荐效果。实验表明,基于本体的海工装备案例推荐方法优于传统基于内容的推荐方法,能有效提高案例推荐的准确率和召回率,为传统工业领域的知识信息利用提供了一种新思路。

参考文献:

[1] 常亮,曹玉婷,孙文平,等. 旅游推荐系统研究综述[J]. 计算机科学,2017(10):1-6.

[2] LINDEN G,SMITH B,YORK J. Amazon.com recommendations: Item-to-Item collaborative filtering[J]. IEEE Internet Computing, 2003, 7(1):76-80.

[3] GHAUTH K I,ABDULLAH N A. Learning materials recommendation using good learners' ratings and content-based filtering[J]. Educational Technology Research & Development, 2010, 58(6):711-727.

[4] 商雪晶,孙承杰,林磊,等. 基于内容相似度的书籍推荐技术研究[C]. 数字图书馆高层论坛2010年年会, 2010.

[5] TANISKIDOU E K, PAPADAKIS G, GIANNAKOPOULOS G, et al. Comparative analysis of content-based personalized microblog recommendations(Experiments and Analysis) [EB/OL].  https://arxiv.org/abs/1901.05497v1,2019.

[6] 周丽娟,徐明升,张研研,等. 基于协同过滤的课程推荐模型[J]. 计算机应用研究,2010,27(4):1315-1318.

[7] 苏杨茜. 协同过滤算法改进及研究[J]. 软件导刊,2015(2):74-77.

[8] TEWARI A S,PRIYANKA K. Book recommendation system based on collaborative filtering and association rule mining for college students[C]. International Conference on Contemporary Computing & Informatics,2015:135-138.

[9] 陳祖琴,张惠玲,葛继科,等. 基于加权关联规则挖掘的相关文献推荐[J].  数据分析与知识发现,2007, 2(10):57-61.

[10] BHOSALE M,GHORPADE T, SHEDGE R. On demand recommendation using association rule mining approach[C]. International Conference on Signal Processing,2017:1302-1306.

[11] 唐晓波,魏巍. 基于本体的推荐系统研究综述[J]. 图书馆学研究,2016(18):7-12.

[12] 罗俊丽. 基于本体的制造资源建模方法研究[J]. 软件导刊, 2016,15(8):4-6.

[13] CHOI C,CHO M,KANG E Y, et al. Travel ontology for recommendation system based on semantic Web[C]. the International Conference of Advanced Communication Technology,2006:624-627.

[14] 吴永亮,陈建平,贾志杰,等. 地质数据本体构建及其在数据检索中的应用[J]. 地质通报,2018,37(5):945-953.

[15] 基于本体的学习内容个性化推荐[D]. 长沙:湖南大学,2007.

[16] 黄美丽,刘宗田. 基于形式概念分析的领域本体构建方法研究[J]. 计算机科学,2006, 33(1):210-212.

[17] WU Z,PALMER M. Verb semantics and lexical selection[J]. Acl Proceedings of Annual Meeting on Association for Computational Linguistics,1994:133-138.

[18] 唐明,朱磊,邹显春. 基于Word2Vec的一种文档向量表示[J].  计算机科学,2016, 43(6):214-217.

[19] KOMPAN M,BIELIKOVá M. Content-based news recommendation[C]. Bilbao:E-commerce & Web Technologies, International Conference,2010.

[20] 施聪莺,徐朝军,杨晓江.  TFIDF算法研究综述[J].  计算机应用,2009,29(b06):167-170.

(责任编辑:孙 娟)