APP下载

基于民航附加服务本体的个性化协同过滤算法

2016-10-22刘浩翰马腾飞贺怀清

中国民航大学学报 2016年3期
关键词:本体旅客语义

刘浩翰,马腾飞,贺怀清

(中国民航大学计算机科学与技术学院,天津 300300)

基于民航附加服务本体的个性化协同过滤算法

刘浩翰,马腾飞,贺怀清

(中国民航大学计算机科学与技术学院,天津300300)

在构建完成的民航附加服务本体的基础上,针对传统协同过滤算法存在数据稀疏性和无法考虑项目自身语义关系等缺点,提出了基于本体的个性化协同过滤算法。该方法采用基于规则的推荐方法在Jena的基础上进行推理,然后利用推理结果更新本体,完善了本体中旅客的兴趣评分信息,降低了旅客兴趣评分稀疏性。接着引入本体语义相似度计算,将语义相似度与协同过滤算法相似度结合,加入了项目之间语义相似度的计算,提高了相似度计算的准确度。通过实验证明,改进的推荐技术很好地提高了推荐的准确性。

民航附加服务;推理机;语义相似度;协同过滤

随着民航业的快速发展以及运输行业不断变化,民航附加服务[1]应运而生,但是面对数以千万的旅客和产品,怎样能从海量的数据中找到旅客的兴趣,给旅客推荐更贴心的服务已成为当下之急。

推荐系统到现在所用到的思想和基础技术已发展10多年了,虽然目前传统的推荐技术已在很多领域得到广泛的应用,并且取得了很不错的效果,其中协同过滤算法可以通过分析用户的行为记录来预测其可能喜欢的事物,是现今应用最为成功和最广泛的推荐技术,但是面对目前快速发展的互联网的需求,传统的协同过滤推荐算法存在着种种问题和不足。随着互联网时代对推荐系统要求的不断增高,基于本体的推荐技术已成为个性化推荐技术研究的一个必然发展方向。因此本文在民航附加服务本体的基础上,针对传统协同过滤算法的缺点在基于本体推荐技术的基础上,提出了基于本体的个性化协同过滤算法。

1 民航附加服务领域本体

民航附加服务领域本体是针对民航附加服务领域概念众多、关系复杂的特点,提出的基于本体的民航附加服务领域知识规范化的方法,利用protégé构建了民航附加服务领域本体,通过构建该领域本体知识逻辑体系,得以实现领域知识的共享和重用,图1为构建完成的民航附加服务领域本体部分可视关联图,主要包括产品、品牌、旅客、兴趣、情景、共享6个部分。

1)产品是指民航附加服务领域的各种产品服务。其中包括机上服务、机场服务、商品服务、航空运输服务、地面运输非航空服务、行李服务、财务相关服务和航空公司自定义服务8个子概念,具体如图2所示。

图1 民航附加服务领域本体部分可视关联图Fig.1 Partial visual association graph of civil aviation auxiliary service domain ontology

图2 产品层次图Fig.2 Product hierarchical graph

2)品牌是由1到N个产品所组成的。

3)旅客分为旅客个体和旅客聚类2个子概念。旅客个体又分为常旅客和普通旅客,常旅客中还包含X航常旅客。

4)兴趣指的是旅客对产品和品牌产生的兴趣,分为长期兴趣和短期兴趣两个子概念。

5)情景指旅客购买产品时的情景,分为活动和天气2个子概念。

6)共享是指民航内部,民航与铁路、公路、水路以及民航与国际市场相互共享的信息,分为共享概念集、旅客共享属性结构体、附加服务共享属性结构体3个子概念。

2 协同过滤算法及其存在的问题

在传统的协同过滤推荐中,最主要的事情是通过相似度计算获取近邻集合。目前主要的相似度计算方法就是Pearson相关系数法[2]、余弦相似度和改进的余弦相似度方法[3]。其中基于用户的相似度计算主要运用Pearson相关系数法如式(1)所示[4],基于项目的相似度计算运用改进的余弦相似度算法如式(2)所示[5]。

其中:pred(a,j)为用户a对未评分产品j的预测评分;为用户a的平均评分;neighbor(a)为用户a的最近邻居;sim(a,u)为用户a和用户u的相似度;Puj为是用户u对产品j的评分为用户u的平均评分。

其中:pred(u,j)为用户u对未评分产品j的预测评分;ratedItems(j)为产品j的最近邻居;sim(i,j)为产品i和产品j的相似度;Ru,i为用户u对产品j的评分。

传统的协同过滤推荐系统,在一定程度上很好地实现了推荐,但是其自身还存在很多的不足:

1)稀疏性问题

在现实中面对各式各样的产品,用户对很多产品是未进行过评分的,而协同过滤算法所依赖的正是这些用户过去的行为,如果评分过于稀疏,在计算旅客相似度时就会因为数据稀疏导致计算的相似度不准确,很难计算出用户的最近邻居,结果导致推荐精度大大降低。

2)缺乏项目之间语义关系的考虑

通常协同过滤算法只是面对基于用户与项目的矩阵进行相似度计算,项目之间没有语义关系,因此可忽略项目与项目之间的关联性问题,但在实际中某些事物之间存在着必然的联系,如果能将项目之间的关联性考虑进去,势必将使推荐精度得到提升。

3 改进协同过滤算法的思路

针对传统的协同过滤算法面临的稀疏性问题和缺乏对不同项目之间语义相似度考虑的缺点,提出基于本体的个性化协同过滤算法。其主要思想内容如下。

3.1基于规则推荐降低数据稀疏性

通过上文介绍可知数据的稀疏性在很大程度上决定着推荐系统的好坏,因此首要目的是增加数据信息量,从而解决数据的稀疏性。基于本体的规则推荐技术,可通过定义规则,挖掘用户潜在的兴趣,通过关联规则进行推荐,利用推荐的结果对本体进行更新,从而降低数据稀疏性。图3为基于本体的规则推荐框架图。

图3 基于本体规则推荐框架图Fig.3 Recommendation framework based on ontology rules

在推理过程中,选择Jena推理机来实现基于本体的规则推荐。它提供了一个处理RDF、RDFS、OWL的API接口,通过Java编程可实现对本体进行操作,还可实现基于本体的规则推荐[6]。Jena推理机自身就具有一些基础的推理规则[7]。但是仅仅这些规则远远满足不了在现实推荐过程中的应用。为了更好的进行推理可依据自身需求定制自己的规则,建立特定的推理规则,用于满足特定领域的个性化需求。

3.2项目之间语义相似度

通过基于本体规则推荐解决了数据的稀疏性,但是由于还存在缺乏对不同项目之间语义相似度的考虑的缺点,因此引入了本体语义相似度计算思想,将项目之间语义相似度与协同过滤算法相结合来提高相似度的精确度。

基于距离的语义相似度算法[8]是通过计算2个词语在本体中的路径长度来表示其之间的语义距离,代表算法有:Shortest Path法、Weighted Links法、Lietal法、LeacockandChodorow法等[9]。其中LeacockandChodorow法,不仅考虑到了本体概念之间的距离,还考虑了本体分类体系树自身的深度对被比较概念词相似度的影响,因此本文选择了Leacock and Chodorow法作为本体语义相似度计算的算法。详细定义为

其中:Anc(w1,w2)表示节点w1和节点w2在层次网络中的最近共同祖先节点;Nlinks[w1,w2]表示节点w1和节点w2在层次网络中的最短距离;dmax为网络的最大深度。

3.3基于本体的个性化协同过滤算法

通过上文对传统协同过滤系统的介绍和缺点分析,针对这些缺点本文提出了新的方法思路,通过分析现有的技术、方法,最终本文确定了基于本体的个性化协同过滤算法思想,即通过基于本体规则推荐来降低数据的稀疏性,然后通过语义相似度和协同过滤相似度的结合来提高相似度的计算。如图4所示。

图4 基于本体的个性化协同过滤算法流程图Fig.4 Personalized collaborative filtering algorithm flowchart based on ontology

基于本体的个性化协同过滤算法推荐步骤如下:①整理数据构建本体;②根据Jena规则构建标准和推理需求构建规则;③利用Jena推理引擎实现基于本体的规则推荐,获取推荐结果利用Jena提供的Api接口在Netbeans上编写程序对本体进行更新;④分别计算未知产品与其他已知产品的修正余弦相似度和语义相似度;⑤通过计算2个产品的修正余弦相似度和语义相似度的加权值,来获取2个产品最终的相似度sim如式(4)所示;⑥最后计算产品的加权方法如式(2),来计算旅客对未知产品的评分;⑦求得的评分按照从高到低排列,取前K个进行推荐。其中:sim(a,b)表示产品a和产品b的相似度;U表示旅客的集合;ru,a表示旅客u对产品a的打分;ru表示旅客u的平均打分;Anc(w1,w2)表示节点w1和节点w2在层次网络中的最近共同祖先节点;Nlinks[w1,w2]表示节点w1和节点w2在层次网络中的最短距离;dmax表示网络的最大深度;α取值为0~1。

4 实验分析

4.1数据集以及度量标准

本文采用前文构建的民航附加服务领域本体作为数据基础,其中数据中包含了旅客的购买记录,通过数据分析整理将旅客对每个产品进行评分,评分等级为1~5。其中数据中包含2 000个旅客和180个服务项目的评分,并将数据按照4:1的比例来进行训练集和测试集的划分。

在对推荐的准确度进行评估时,主要有2种方法:平均绝对误差MAE[10]和平方根误差RMSE。本文采用MAE作为评价标准。假设预测的用户评分值为{m1,m2,…,mi},实际评分值为{n1,n2,..,nj},定义如下

4.2实验步骤

1)本体构建

将构建完成的民航附加服务领域本体作为推荐系统数据基础。

2)关联规则制定

依据Jena关联规则构建标准和民航附加服务领域个性化需求,以满足旅客实际需求出发,通过分析旅客购买心理和与领域专家商讨,自定义规则分为3类:旅客相关规则类、产品相关规则类、旅客与产品相关规则类。其中部分旅客与产品规则类如下所示。

Rule1:(?a有兴趣?b),(?b类似的?c)→(?a有兴趣?c)

说明:假如旅客a对产品b有兴趣,产品b与产品c是类似的,表明旅客a对产品c有兴趣。

Rule2:(?a有兴趣 ?b),(?b属于 ?c)→(?a有兴趣?c)

说明:假如旅客a对产品b有兴趣,产品b属于品牌c,那么认为旅客a对品牌c有兴趣。

Rule3:(?a年龄?b),(?b morethan 60)→(?a旅客聚类类型老人旅客)

说明:假如旅客a的年龄大于60岁,那么这位旅客就是老人旅客。

Rule4:(?a旅客聚类类型 老人旅客)→(?a有兴趣无人陪伴服务)

说明:假如旅客a是老人旅客,那么认为旅客a对无人陪伴服务有兴趣。

3)利用Jena推理机推理并更新本体

推理机在基于民航附加服务本体的推理中的工作过程为:①读入创建的民航附加服务领域本体OWL文件;②通过推理机利用上述描述的民航附加服务规则来注册创建推理机;③将民航附加服务本体和推理机绑定到一起,进而得到进行检索的模型对象(InfModel);④通过运用已建立的模型对象并且借助Ontology API和Model API来进行操作和处理,最后完成推理过程;⑤获取推理结果利用Jena提供的API将推理结果更新本体。

4)相似度计算获取最近邻居集合

利用式(4)计算出未知产品与已知产品的相似度,然后通过将相似度排序,取前K个作为未知产品的最近邻居。

5)计算用户对未评分产品的评分

对求得的未知产品的最近邻居的相似度进行加权计算,如式(2),计算出旅客对未知产品的最终评分。

6)实现推荐

将旅客所对应产品的相似度进行从大到小排序,将前K个推荐给用户,这就是本文最终推荐结果。本文将Jena提供的API和NetBeans与所构建的民航附加服务推荐系统平台相结合,推荐结果如图5所示。

4.3实验数据分析

实验1由于在平均相似度式(4)~式(6)的计算中α的变化会改变协同过滤算法和语义相似度算法在相似度计算中所占比重,因此α取值可能会影响推荐的准确度。在本实验中本文选择产品近邻个数K取整数1~40之间进行试验,其中间隔为5,并且通过调节α的变化来观察MAE的变化,其中α变化范围为0~1,变化间隔为0.1,其中当K=30时效果最好,结果如图6所示。

图5 基于本体的民航附加服务混合推荐系统推荐结果Fig.5 Recommended results of additional service of civil aviation hybrid recommendation system based on ontology

图6 调节因子α对平均绝对误差的影响Fig.6 Effect of regulatory weighting factor α on mean absolute error

根据图6本文可以得出结果:当近邻个数K=30时,并且α取值为0.6时,MAE取值最小,即推荐效果最好。

实验2在α=0.6的条件下,将基于民航附加服务本体的个性化协同过滤系统与传统协同过滤算法和基于语义的协同过滤算法作对比,分别计算这3种推荐算法在最近邻K等于5~30之间的平均绝对误差,间隔为5,结果如图7所示。

图7 最近邻数目对MAE的影响Fig.7 Effect of nearest passenger number on MAE

由图7的实验结果可知:本文所采用改进算法计算得到的MAE值最小。这说明本实验所设计的算法的推荐效果最好。

5 结语

在构建完成的民航附加服务本体的基础上,通过分析和总结传统协同过滤算法的不足,并针对其不足提出了基于本体的个性化协同过滤算法,通过专家决策制定了关联规则,通过基于规则推荐,填充了旅客兴趣的空白信息,降低了旅客兴趣数据的稀疏性。然后引进了本体的语义相似度计算,将两种相似度计算方法相结合,提高了推荐的准确度。将推荐算法运用于民航附加服务领域本体。实验结果证明,基于本体的个性化协同过滤算法有效地解决了传统协同过滤系统存在的问题,并且明显地提高了推荐的精度。

虽然本文通过构建关联规则降低了数据的稀疏度,但是规则的制定与构建的好坏在很大程度上决定了推荐的准确性,因此在未来需随着民航附加服务发展,对关联规则进行不断完善和改进,使推荐更加准确、快捷。

[1]马铁勇.中国航空公司开展附加服务业务的政策研讨[J].空运商务,2014(10):17-19.

[2]CHEN D.The CollaborativeFiltering Recommendation Algorithm Based on BPNeuralNetworks[C]//2009InternationalSymposium on Intelligent Ubiquitous Computing and Education,2009:234-236.

[3]TAO Y F,YI K,SHENG C,et al.Quality and Efficiency in High Dimens Ional Nearest Neighbor Search[C]//Proceedings of the 35th SIGMOD International Conference on Management of Data.Rhode Island,USA,2009:563-576.

[4]ADIBI P,LADANI B T.A Collaborative Filtering Recommender System Based on User’s Time Pattern Activity[C]//2013 5th Conference on Information and Knowledge Technology(IKT),2013:252-257.

[5]MITTAL N,NAYAK R,GOVILM C,et al.Recommender System Framework using ClusteringandCollaborative Filtering[C]//ThirdInternational Conference on Emerging Trends in Engineering and Technology,2010:555-558

[6]KIM J Y,JEONG D W,BAIK D-K.Ontology-based semantic recommendation system in home network environment[J].IEEE Transactions on Consumer Electronics,2009,55(3):1178-1184.

[7]HOSER B,HOTHO A,JASCHKE R,et al.Semantic Network Analysis of Ontologies[C]//Proceedings of ESWC 2006,LNCS 4011,Berlin:Spr-inger,2006:514-529.

[8]LEACOCK C,CHODOROW M.Word Net:An Electronic Lexical Database[M].MIT Press,1998:265-283.

[9]刘宏哲.文本语义相似度计算方法研究[D].北京:北京交通大学,2012.

[10]MASEH,OHWADAH.ACollaborativeFiltering Incorporating Hybrid-Clustering Technology[C]//International Conference on Systems and Informatics(ICSAI 2012),2012:2342-2346.

(责任编辑:黄月)

Personalized collaborative filtering algorithm based on auxiliary service ontology of civil aviation

LIU Haohan,MA Tengfei,HE Huaiqing
(College of Computer Science and Technology,CAUC,Tianjin 300300,China)

Personalized ontology-based collaborative filtering algorithm is proposed,aiming at the short-comings of traditional collaborative filtering algorithm such as data-sparsity and lack of reflection to the semantic relationship of item itself.The method adopts Jena inference engine and constructs association rules based on ontology inference rules,and inference results are used to update ontology and complete the interest rating information of tourist to reduce the sparsity of tourist interest rating.Then the ontology semantic similarity is introduced to compute and combine the similarity of semantics and the similarity of collaborative filtering algorithm,improving the accuracy of similarity calculation after adding semantic similarity computation between items.Experiments prove that the hybrid recommendation technology effectively improves its accuracy.

auxiliary service of civil aviation;Jena;semantic similarity;collaborative filtering

TP3911

A

1674-5590(2016)03-0042-05

2015-04-01;

2015-04-23基金项目:天津市应用基础与前沿技术研究计划重点项目(14JCZDJC32500);中国民航大学预研重大项目(3122013P003);中国民用航空局科技基金项目(MHRDZ201207)

刘浩翰(1966—),男,黑龙江富锦人,副教授,硕士,研究方向为民航信息智能处理.

猜你喜欢

本体旅客语义
Abstracts and Key Words
非常旅客意见簿
对姜夔自度曲音乐本体的现代解读
语言与语义
我是人
“上”与“下”语义的不对称性及其认知阐释
给小旅客的礼物
《我应该感到自豪才对》的本体性教学内容及启示
认知范畴模糊与语义模糊
Care about the virtue moral education