APP下载

基于作者共引分析的推荐系统研究知识图谱构建

2015-07-12黄文彬张惟恺

现代情报 2015年11期
关键词:时段学者图谱

黄文彬 张惟恺 徐 扬

随着互联网的普及和发展,网络上的信息呈现爆炸式的增长,用户在利用互联网搜索时,往往会检索出过度冗杂的信息,而推荐系统的目的则是根据用户需求和个性偏好等特征,利用相关算法为用户推荐最有可能需要的信息[1-2]。自90年代中期关于协同过滤的研究成果出现以来,推荐系统已成为一个重要的研究领域[3]。目前,推荐系统广泛应用于诸多领域,例如音乐、电视、书籍、文档、电子学习、电子商务、移动应用和网络搜索等[4]。无论是应用层面还是理论层面,关于推荐系统的研究都在不断深入。本文利用作者共引分析 (Author Co-citation Analysis,下文简称ACA) 的方法,构建国际期刊上推荐系统研究的知识图谱。

White和Griffith于1981年正式提出作者共引分析(ACA)[5],该方法假定两个作者的文章同时被后继的研究引用则表明这两个作者之间具有联系性,且共同被引用的次数越多,他们之间的关系就越紧密。一组相关作者的共引频次模式分析能揭示出作者间突出的链接,并能解释他们各自或共同代表的主题领域[6-7]。ACA分析方法通过映射图揭示研究领域内部专业人员之间的联系与结构特点,进而反映他们从事的专业间的联系与发展。此外,著作相关的作者在之后的文献中被重复引用的,将倾向于聚集在映射图中,而很少或从未被共同引用的作者会偏离且分散[8-9]。科学知识图谱 (简称知识图谱) 是显示科学知识的发展进程与结构关系的一种图形,利用可视化技术描述人类随时间积累的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系[10-11]。知识图谱是对科学知识及其之间的关系可视化所得出的结果,具有直观、定量、简单与客观等诸多优点[12-13]。知识图谱是一种综合性的、有效的知识可视化分析方法和工具,被广泛应用,并取得了可靠结论[14]。在情报分析领域中,有许多基于ACA与知识图谱的研究[15-19],但针对推荐系统的分析研究较少,主要原因在于推荐系统的发展在近年来才成为亮点议题。

本文主要提取Web of Science数据库中1997-2014年的推荐系统相关论文,利用作者共引分析构建推荐系统研究领域的知识图谱,使用SPSS软件从因子分析、聚类分析与多维尺度分析3个角度分别进行分析探讨[20]。本文的因子分析采用主成分方法和方差极大正交旋转,聚类分析采用层次聚类,选择离差平方和法与欧氏距离平方法,二维图由多维尺度分析生成。最后,利用相关知识结合上述方法对结果进行分析解释。通过将数据源切分为1997-2002年、2003-2008年、2009-2014年3个时段分别进行上述方法的知识图谱构建与分析,发现该领域研究热点的发展趋势。

1 数据来源与数据处理

1.1 数据来源

本文的数据来自 ISIWeb of Science的数据库,以“Recommender Systems”为关键词在数据库中进行检索,共获得3 218篇文献 (检索期限至2014年4月) ,进而获得这些文献共79 734篇的参考文献记录和21 349位参考文献的第一作者。本文将这些作者之间的共引关系作为重点分析对象,统计了这些文献的年度分布情况,如图1所示。推荐系统领域的论文大约从1997年开始出现,到2008年一直呈逐年递增的趋势,2008年之后发文量较为稳定 (注:2014年的文献只统计到2014年4月) 。

图1 W eb of Science数据库推荐系统领域年度文献篇数统计

1.2 数据处理

从ISIWeb of Science数据库中检索出推荐系统领域相关文献后,提取该文献以及其参考文献的作者,选取被引频次大于等于100的71位作者作为ACA分析对象,如表1所示。通过统计这些作者之间的共引频次生成71×71共引矩阵,如表2所示,将其转换成Pearson相关系数矩阵,作为因子分析、聚类分析和多维尺度分析的基础,并综合这些分析方法得到推荐系统领域的知识图谱。

表1 作者被引频次大于等于100的71位作者及其被引频次

表1 (续)

表2 部分作者共引矩阵示例表

2 作者共引矩阵的数据分析

2.1 因子分析

因子分析是利用少数因子去描述多个指标或因素之间的联系,从多个变量指标中选取少数综合变量指标降维的多元统计方法。该方法将密切相关的变量归为同一类,每一类变量成为一个因子,以较少的因子反映原始资料的大部分信息[8]。通过因子分析,作者共引矩阵的因子数为8个,累计贡献率为77.171%,其中前4个因子累计贡献率达到65.958%,说明其所代表的学术团体是推荐系统领域的主要研究力量,如表3所示。

表3 全时段因子分析结果 (著者因子负载值>0.3)

表3 (续)

表3 (续)

根据以上的因子分析结果以及该因子所属学者的研究方向,可将这8个因子解释为:基于协同过滤的推荐算法(因子1) 、基于内容的推荐算法 (因子2、7) 、基于数据挖掘的推荐算法 (因子3、8) 、基于信任的推荐系统 (因子4) 、个性化推荐 (因子5) 、基于模糊语言处理的推荐算法 (因子6) 。其中,多位学者在多个因子中都有较高的负载值。例如HERLOCKER JL与BREESE JS在因子1和2中的负载值均大于0.4,说明这两位学者在这两个分支领域中均有一定的学术影响。

2.2 聚类分析

聚类分析是把分析对象分类,根据彼此之间的相关程度形成群,群间的关系具有一定的相异程度。共引聚类分析可以反映某学科或专题的研究情况[8]。本文通过聚类分析方法得出推荐系统研究专题相关的结果,如图2所示,纵轴为文献作者名字,具有关联性的作者相互连接。结果显示,该研究群聚出6类,通过检索相关学者的研究方向发现,这6类有许多交叉,第1类与第3类为基于协同过滤的推荐算法;第2类中包含了基于数据挖掘的推荐算法和基于模糊语言处理的推荐算法,同时第5类也是基于数据挖掘的推荐算法;第4类为基于内容的推荐算法,而第6类中包含了基于信任的推荐系统、个性化推荐和基于内容的推荐算法。由此可见,推荐系统领域的研究热点之间有许多关联,每一个研究热点本身也有许多单独的分支方向。这也反映出该领域仍然是目前新兴的研究领域。

2.3 多维尺度分析

虽然因子分析可以把原本数量众多的变量用少数几个因子表示出来,并通过这些因子来分析作者之间的关系,但由于前2个主因子只能反映较少的全部变量的信息,很难直观地表示变量间的内在联系,不便于分析解释,因此必须取2个以上的因子进行分析。此外,利用聚类分析的树状图虽然能够反映分类过程的细节信息,但无法反映最终类群之间的相异程度。多维尺度分析可以解决上述问题,其产生的散点图可以反映一定的类群关系。结合聚类分析和因子分析结果,把分析对象的点用线圈成点群,最后根据点、群之间的相关位置进行分析研究。本文通过多维尺度分析结果得到了推荐系统研究的知识图谱,如图3所示。其中Stress值为0.09721,RSQ值为0.96607,说明模型的拟合效果较好。根据因子分析和聚类分析的结果,并结合在

Web of Science中检索出的相关作者的研究方向与著作,可将多维尺度分析结果划分为6片区域。由于每个区域的作者数量甚多,以下只列代表作者与至多5位相关作者。这6片区域分别为:

图2 聚类分析树状图结果

区域1:基于协同过滤的推荐算法:以HERLOCKER JL、BALABANOVIC M 为代表,包括 MIDDLETON SE、ADOMAVICIUS G、 RESNICK P、 GOLDBERG D、SHARDANBAND U等学者。

区域2:个性化推荐:以BREESE JS、JOACHIMS T为代 表,包 括 MOBASHER B、JAMESON A、RICCI F、SMYTH B等学者。

区域3:基于数据挖掘的推荐算法:以BAEZAYATES RA、PU P为代表,包括 MCGINTY L、MCSHERRY D、BURKE RD、MCCARTHY KK、HAN JW等学者。

区域4:基于内容的推荐算法:以SARWAR BM、FELFERNIG A为代表,包括BRUSILOVSKY P、NEWMAN MEJ、LIU JG、ZHOU T等学者。

区域5:基于模糊语言处理的推荐算法:以ZADEH LA、HERRERA F、HERRERA -VIEDMA E、YAGER RR、BRIDGE DG为代表。

区域 6:基于信任的推荐系统:以 GOLBECK J、O'DONOVAN J、JOSANG A为代表。

图3 全时段多维尺度分析结果

由此可见,基于内容的推荐算法、基于模糊语言处理的推荐算法和基于信任的推荐系统这3个方向的研究相对独立,研究人数也较少。基于协同过滤的推荐算法研究人数众多,是推荐系统领域最为核心的研究方向,其次是个性化推荐研究。另外,部分作者之间的距离非常接近,例如基于数据挖掘的推荐算法研究的TERVEEN LG、BAEZAYATESRA与基于模糊语言处理的推荐算法研究的HERRERA F、HERRERA-VIEDMA E、BRIDGE DG,表明这两个方向的研究关系密切,这些作者也开展了一定的交叉研究。不过,从这个图上无法了解推荐系统领域研究热点的发展变化情况,因此本文又分别绘制了3个时间段的知识图谱(如图4、图5、图6所示) ,从中可以发现一些趋势及变化。

2.4 分时段知识图谱

为了分析推荐系统领域研究热点的发展变化,本文采用相同的图谱构建方式与分析方法,分别生成3个分时段内的知识图谱来进行领域分析,分别为1997-2002年、2003-2008年、2009-2014年。由于各时间段内的文献篇数相较于总篇数会减少很多,所以在观察各时间段的作者被引频次后,分别选择被引频次大于10、50、80的作者作为主要分析对象。

图4 1997-2002年时段多维尺度分析结果

图5 2003-2008年时段多维尺度分析结果

1997-2002年时段的多维尺度分析结果如图4显示。其中Stress值为0.10804,RSQ值为0.95755。根据因子和聚类分析的结果,结合相关作者的研究方向,将结果划分为4片区域,分别为:

区域1:基于协同过滤的推荐算法。以RESNICK P、SHARDANAND U为代表,包括 BILLSUS D、SHARDANBAND U、GOLDBERG D、BASU C、HILL W、BALABANOVICM、KONSTAN JA、HERLOCKER JL、SALTON G、JOACHIMST、DELGADO J等学者。

区域2:基于数据挖掘的推荐算法。以BREESE JS、AGRAWAL R为代表,包括 SARWAR BM、MOBASHER B、PAZZANIMJ、MCSHERRY D、QUINLAN JR、COOLEY R等学者。

区域3:多准则推荐。以BURKERD、SMYTH B为代表。

图6 2009-2014年时段多维尺度分析结果

区域4:基于知识的推荐系统。以RAMAKRISHNAN N、HOUSTISEN为代表。

综合以上结果,1997-2002年时段作为推荐系统领域研究的初始阶段,学者们的研究方向相对集中,大多数学者围绕基于协同过滤的推荐算法这一核心方向,也有部分学者研究基于数据挖掘的推荐算法,还有一小部分学者研究多准则推荐与基于知识的推荐算法,但是人数较少。

2003-2008年时段多维尺度分析的结果如图5所示。其中Stress值为0.05791,RSQ值为0.99013。根据分析结果与作者的研究方向,将多维尺度分析结果划分为5片区域,分别为:

区域1:基于协同过滤的推荐算法。以LIEBERMAN H、RESNICK P为代表,包括 ADOMAVICIUS G、BALABANOVIC M、GOLDBERG D、BILLSUS D、SHARDANBAND U等学者。

区域2:个性化推荐。以MCSHERRY D、SMYTH B为代表,包括 AGRAWAL R、MCGINTY L、PU P、RICCI F、ARDISSONO L、REILLY J等学者。

区域3:基于内容的推荐算法。以SARWAR BM、BREESE JS、TERVEEN LG、BRIDGEDG、YAGERRR为代表。

区域4:基于知识的推荐系统。以 BURKE RD、FELFERNIG A、MCCARTHY KK为代表。

区域5:基于信任的推荐系统。以 ZIEGLER CN、MASSA P为代表。

综合上述分析,此时段研究学者人数有所增加,并且出现新的研究热点。虽然大部分学者仍在进行基于协同过滤的推荐算法的研究,但也有相当数量的学者开始研究个性化推荐。此外,基于内容的推荐算法和基于信任的推荐系统开始成为新兴热点,引起了一部分学者的注意。

2009-2014年时段多维尺度分析的结果如图6所示。其中Stress值为0.12304,RSQ值为0.95122。将分析结果划分为6片区域,分别为:

区域1:基于协同过滤的推荐算法。以ADOMAVICIUS G、HERLOCKER JL为代表,包括RESNICK P、KOREN Y、SCHAFER JB、LINDEN G、HOFMANN T等学者。

区域2:个性化推荐。以BREESE JS、MOBASHER B为代表,包括 FELFERNIG A、RICCI F、BOBADILLA J、SALTON G、AGRAWAL R等学者。

区域3:基于内容的推荐算法。以 SARWAR BM、BURKE RD为代表,包括 ZHOU T、LIU JG、O'DONOVAN J、SALAKHUTDINOV R、BRUSILOVSKY P等学者。

区域4:基于模糊语言处理的推荐算法。以HERRERA F、HERRERA-VIEDMA E、PORCEL C、YAGER RR、ZADEH LA为代表。

区域5:基于信任的推荐系统。以MASSA P、GOLBECK J、NEWMAN MEJ、JOSANG A为代表。

区域6:基于数据挖掘的推荐算法。以PAZZANIMJ、SCHEIN AI为代表。

分析结果表明,该时段研究学者人数明显增加,而相较于2003-2008年时段,研究热点也有一定变化,基于模糊语言处理的推荐算法和基于数据挖掘的推荐算法的热点程度已经超过基于知识的推荐系统。这说明目前推荐系统领域中各热点的研究学者人数逐步增加,新兴领域也在不断出现。最为核心的研究热点依旧是基于协同过滤的推荐算法。此外,个性化推荐、基于内容的推荐算法与基于信任这3个方向也正在稳步发展。

3 分析与结语

3.1 分析

全时段与各分时段的分析结果汇总如表4所示。在推荐系统领域的发展过程中不断涌现出新的核心学者,说明该领域知识创新和积累非常迅速,研究十分活跃。在全时段和各分时段中,基于协同过滤的推荐算法与个性化推荐基本保持在前两名,说明它们是推荐系统领域的核心热点,特别是基于协同过滤的推荐算法。从1997-2002年时段到2003-2008年时段,基于知识的推荐系统一直是研究热点,而多准则推荐与基于数据挖掘的推荐算法则被个性化推荐、基于内容的推荐算法和基于信任的推荐系统所超越。这说明随着时代需求的变化,学者们逐渐倾向于某些具体类型的推荐系统的研究,更加注重实际应用。从2003-2008年时段到2009-2014年时段,个性化推荐、基于内容的推荐算法和基于信任的推荐系统等3个研究持续保持热度,而基于知识的推荐系统被基于模糊语言处理的推荐算法超越,基于数据挖掘的推荐算法也重新出现。这说明随着用户对信息系统的需求提高和网络上信息量的爆炸式增长,如何更好地理解用户需求和在大量数据中挖掘出最有用的信息是学者们更加关注的。

表4 各时段推荐系统领域核心方向与学者人数

数据显示,一些学者随着研究热点的变化也在不断地改变自己的研究方向。例如,SMYTH B在1997-2002年时段属于多准则推荐方向,到了2003-2008年时段及2009-2014年时段则属于个性化推荐方向,在全时段中该作者也属于个性化推荐方向。这说明该作者在自己最初所处的方向逐渐弱化后能够迅速调整研究方向,并且在个性化推荐方向取得了长足进展。而另一些学者的研究领域则较为稳定,例如很多学者长期处于基于协同过滤推荐算法的研究方向。这说明该方向具有很高的研究价值,能够吸引很多学者参与其中。而许多后进研究人员也不断参与到基于协同过滤的推荐算法方向的研究中,使得该方向的研究人数显著提高,研究不断深入。

3.2 结语

本文针对推荐系统进行了基于ACA分析方法的知识图谱构建。分析表明,推荐系统研究近年来处于快速发展时期,相关学者人数与研究范围不断扩大。其中基于协同过滤的推荐算法是最为核心的研究方向,目前已经发展出多个具体分支;个性化推荐、基于内容的推荐算法、基于数据挖掘的推荐算法等方向也是该领域的研究热点。一些曾经的研究热点由于时代需求的变化被其他新兴方向所超越。综合上述研究,在今后推荐系统领域的发展中,基于协同过滤的推荐算法方向在较长时期内仍将是该领域的核心研究方向,并且会进一步细分为更多分支。而个性化推荐、基于内容的推荐算法、基于数据挖掘的推荐算法和基于模糊语言处理的推荐算法方向将较为稳定地发展。基于信任的推荐系统有可能被逐渐弱化。基于其他方式的推荐系统研究以及应用将会出现。

[1]孙彦超,韩凤霞.基于协同过滤算法的个性化图书推荐系统的研究[J].图书馆理论与实践,2015,(4) :99-102.

[2]杨博,赵鹏飞.推荐算法综述[J].山西大学学报:自然科学版,2011,(3) :337-350.

[3]G.Adomavicius,A.Tuzhilin.Towards the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(6) :734 -749.

[4]J.Bobadilla,F.Ortega,A.Hernando,A.Gutierrez.Recommender systems survey[J].Knowledge - Based Systems,2013,(46) :109-132.

[5]H.D.White,K.W.McCain.Visualizing a Discipline:An Author Co-Citation Analysis of Information Science,1972-1995[J].Journal of the American Society for Information Science,1998,49(4) :327-355.

[6]耿海英.共引分析方法及其应用研究[D].北京:中国科学院研究生院,2007.

[7]孟祥保,钱鹏.国际图书情报学研究群体结构——以核心作者互引分析为视角[J].情报科学,2015,(5) :124-128.

[8]H.D.White, B.C.Griffith. Author Cocitation:A Literature Measure of Intellectual Structure[J].Journal of the American Society for Information Science,1981,32(3) :163-171.

[9]苑彬成,方曙,刘合艳.作者共被引分析方法进展研究[J].图书情报工作,2009,(22) :80-84.

[10]侯海燕.基于知识图谱的科学计量学进展研究[D].大连:大连理工大学,2006.

[11]秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,(1) :30-37.

[12]邱均平,吕红.近五年国际图书情报学研究热点、前沿及其知识基础——基于17种外文期刊知识图谱的可视化分析[J].图书情报知识,2013,(3) :4-15.

[13]高鹏斌,于渤,吴伟伟,等.基于知识图谱的即兴领域知识结构及其演化分析[J].科技管理研究,2015,(6) :112-117.

[14]杨思洛,韩瑞珍.国外知识图谱绘制的方法与工具分析[J].图书情报知识,2012,(6) :101-109.

[15]向剑勤,赵蓉英.国内外图书情报学研究主题的知识图谱比较研究[J].情报杂志,2014,33(2) :86-94.

[16]赵勇,沙勇忠.当代情报学研究的知识图谱:基于ACA的分析[J].图书馆论坛,2008,(6) :63-69.

[17]奉国和,梁晓婷.国内推荐引擎学术研究知识图谱分析[J].情报科学,2012,30(1) :144-148,160.

[18]孙海生.图书馆学高频被引论文共被引分析[J].现代情报,2012,(1) :107-112.

[19]詹川.大数据研究的知识图谱分析[J].图书馆论坛,2015,(4) :84-91.

[20]吴占福,马旭平,李亚奎.统计分析软件SPSS介绍[J].河北北方学院学报:自然科学版,2006,(6) :67-69.

猜你喜欢

时段学者图谱
学者介绍
学者简介
学者介绍
绘一张成长图谱
四个养生黄金时段,你抓住了吗
补肾强身片UPLC指纹图谱
学者介绍
傍晚是交通事故高发时段
分时段预约在PICC门诊维护中的应用与探讨
分时段预约挂号的实现与应用