基于学术社交网络用户关系的文献搜索推荐研究
2021-09-07范圆圆王日芬
范圆圆 王日芬
DOI:10.3969/j.issn.1008-0821.2021.09.004
[中图分类号]TP391.1;G252.7 [文献标识码]A [文章编号]1008-0821(2021)09-0032-08
在大数据时代,信息过载与不对称的问题逐渐在不同的领域突显。随着第四次科技革命的发展演进,人类面临的科学难题愈加复杂且涉及面广,单一学科视角的局限性逐渐显露,跨学科研究已经成为当前重要的研究范式。科研人员面对海量文献、陌生的交叉领域时,及时有效地获取多样化的学术信息并了解研究进展与前沿显得迫切,因此,专注于学术领域的垂直搜索引擎扮演的角色越来越重要。但目前该类平台都是面向大众的,对于每个用户所具有的不同特征尚缺考虑。这意味着不同的学者输入相同的搜索内容获得的文献资源是相同的,即简短的查询式并不足以充分表达其搜索意图且关键词不够精准,这导致用户搜索到所需的文献变得困难。而本文解决这一难题的思路便是引进个性化推荐策略,通过分析不同学者产生的行为数据来构建学术行为及兴趣特征模型,从而更快速精确地提供其所需的文献。但是,随之而来的问题则是学者学术行为数据从何而来以及如何加以利用。
学术社交网络是学术科研领域的一种专业社交网络平台,如ResearchGate等,科研人员可以在此发布近期研究成果、关注其他学者、参与学术问答等,使得科研交流与合作模式更加开放与便捷。学术社交网络蕴含了大量的学术行为信息,其中影响力大的学者对学术社区的形成具有一定的促进作用,并且对影响力低的学者的科学研究具有一定的导向作用。充分地对学术社交网络中用户社交行为产生的复杂网络拓扑关系以及用户生成的内容加以利用和分析,能够发现具有相似研究兴趣的群体,从而用于文献搜索的个性化推荐当中。
同时,众多学者在积极构建新的、以“人工智能+图书馆”为大方向的知识服务路径,并且认为以馆员为中心到以用户为中心、从被动等待服务到主动寻求服务、从馆内阵地服务到馆外延伸服务的“后知识服务时代”已经来临。而未来的知识服务平台将融合一站式文献搜索引擎、科技情报服务、智慧学术社区等功能,开创智慧服务模式,其中产生的用户数据可用于功能交互与优化。因此,本文以ResearchGate为例,将学术社交网络、文献搜索引擎服务和用户生成数据结合起来,构建学者关注关系网络,通过发现不同学者的相似兴趣点,对特定用户搜索内容进行扩展,实现文献搜索个性化推荐,从而提升用户文献搜索结果满意度,进而为增强与优化知识服务平台功能提供新的思路。
1相关工作
个性化推荐最早起源于计算机和信息科学领域,是通过分析用户历史行为数据为其生成和展示可能感兴趣的信息的过程。相关学者主要致力于基于关联规则的推荐算法、基于内容的推荐算法、基于协同过滤的推荐算法以及混合推荐算法的优化与设计。
推荐算法常被应用于信息搜索引擎的功能优化中。信息搜索一般是指根据用户需求,从大规模相对静止的数据库中搜索用户需要的信息。目前主流的学术搜索引擎有中国知网、万方、Web of Science、Science Direct、Google Scholar等,其中文献搜索行为本质上属于信息搜索的一种,按照是否考虑用户的偏好数据可分为通用的和个性化的信息搜索过程。
通用学术搜索引擎主要根据搜索内容与文献内容的文本相似度构建索引,考虑到与搜索内容不直接具有较高文本相似度但实际紧密相关的文献难以被发现,有学者尝试通过利用合著网络和引文网络引入社群发现来优化学术搜索引擎算法;或提出基于朴素贝叶斯概率模型,对标题、引文等属性进行条件概率运算来标记文献。尽管已有研究使得搜索字段与搜索内容得到进一步扩展,然而在此过程中,学术搜索引擎的角色是静止且被动的,无法主动了解和掌握用户的学术兴趣及其动态变化过程,同时也需要用户足够了解相关学术领域或花费大量的时间精力做额外的准备工作。
当学术行为数据与学术兴趣信息被纳入计算范畴并允许学术搜索引擎主动地向学者用户推荐文献,这就使得文献搜索迈向个性化、动态化,而个性化文献搜索过程就相当于个性化文献推荐。意味着文献搜索与文献推荐的界限变得模糊,两者涉及的关键技术可以通过结合使用来提高学术搜索引擎服务质量与效率。近年来利用社交软件或服务场景中的用户数据来发现用户行为规律、理解用户需求,从而实现信息资源个性化推荐的相关研究也较为主流,例如全方位地利用智慧图书馆生态链中各环节的数据,将用户、资源及其关联关系进行重构从而实现多种资源的个性化推荐;或利用Twit-ter等社交网络平台中的用户关系及博文标签数据来计算隱式相似用户从而进行个性化推荐等。
学术社交网络的兴起使得开展文献搜索推荐研究所需数据的门槛逐步降低,尤其是面对科研新手类型的用户,其发表的论文数量可能较少甚至没有,但可以通过学术社区随时参与对某一学术话题的讨论来生成大量的用户行为数据。因此,将用户学术交互行为数据纳入文献搜索推荐研究中,是个性化学术信息搜索面临的新课题。从已有的研究看,基于学术社交网络的相关研究主要集中在学者推荐与内容推荐两方面,其中,学者推荐往往针对可合作学者、权威学者等进行推荐,涉及基于学术影响力感知及合作关系网络的研究、基于链路预测发现潜在合作关系的研究等;而内容推荐涉及融合文献、作者等不同实体影响力的学术论文推荐、基于用户差异化与协同过滤算法的跨学科情报推荐等。
综上,个性化推荐技术广泛地被运用在信息搜索领域中,尤其是电子商务平台的商品推荐和社交媒体的短视频传播,相关的研究都较为成熟且具有成功的商业化案例。而在知识服务领域,个性化推荐技术的研究与运用大都集中在文献“获取后”的相关推荐中或信息咨询的获取途径中,面向用户学术文献搜索推荐的研究有待进一步开展。因此,本文试图通过将学术社交网络的用户关系数据与蕴含大量用户学术兴趣点的生成内容用于文献搜索推荐中,从而更主动、更动态地捕获用户搜索意图,以解决文献有效“获取到”的难题,实现个性化学术信息搜索,增强学术搜索引擎的功能。
2理论基础及研究设计
为了对用户进行个性化的文献搜索推荐,并提高推荐满意度,本文基于学术社交网络中的用户关系数据,构建学者关注关系网络.并基于网络拓扑结构发现与具体用户相连节点中具有影响力的学者,从而利用用户生成内容对搜索内容进行扩展。接下来,本节将分别从学者关注关系网络构建、学者推荐计算、搜索内容二次扩展与文献推荐这3个方面对所提方法及相关理论进行详细的介绍,整体框架如图1所示。
2.1学者关注关系网络构建
如果联系从一个行动者指向另一个行动者.则关系是有向的,在社交网络结构中,节点和边分别对应了用户和用户间的关注关系,因此,学者关注关系可模型化为有向图。由于原始数据以邻接表的形式进行存儲,为便于计算可达矩阵,需要将其转化为邻接矩阵。邻接矩阵(Adiacency Matrix)是表示节点之间相邻关系的矩阵。设G=是一个简单图,它有n个节点V={v1,v2,…,vn},则n阶方阵A(G)=(αij)称为G的邻接矩阵。
对于已构建的网络而言,假设用户A关注了用户B,而用户B关注了用户C,那么节点A是可以到达节点C的。对于用户A而言,不仅需要分析其直接关注的用户B的学术兴趣及关注点,也应分析由间接关注关系带来的丰富信息内涵。
其中,该值越大,代表节点具有更高的声望。在学术界,权威性往往是科研人员文献搜索时关注的一大要素,所以,将学术社交网络中学者的权威性作为推荐指标之一。
Friedkin N E在1984年提出,当两个人之间存在正向互动关系时会存在趋向一致的压力,即使两个人不是直接接触,这种压力也可能通过中介人的转移而产生,并且与传输途径的数量相关,即接触紧密的人与人之间具有更多的同质性,而强度会随亲密度的降低而降低。这也意味着应将用户与具有直接关注和间接关注关系的用户之间的距离作为推荐计算中的影响因素。Diikstra算法是图论学中求解最短路问题的经典算法,基本思路是从起始点开始,采用贪心算法的策略,每次遍历到始点距离最近且未访问过的节点的邻接节点,直至扩展到终点为止。
在已获取具体用户与可达节点的最短距离D的基础上,根据距离越短节点越重要的原则,对距离取倒数得到D′,并作为第二个推荐指标。为综合考量学者的权威性和关系紧密程度对具体某个用户的影响,则对两个指标进行加权计算并合并,且定义为:
通过对指标U进行降序排序可得学者推荐列表。此外,如果出现冷启动问题时,则仅对用户搜索内容相关主题域的学者进行网络构建与声望计算,为其推荐相关主题下被较多人关注认可的学者,后续步骤中则仅完成搜索内容的一次扩展。
2.3搜索内容扩展与文献推荐
搜索内容扩展是基于特定用户视角展开的,包括一次扩展和二次扩展。其中,第一次扩展关注的是用户自身表达出的潜在研究兴趣,主要通过将搜索内容与该用户在学术社交网络中发布的内容、参与的问答讨论等文本数据进行相似度计算而得到。在这个过程中,由于原始的用户生成内容可能涵盖不同的研究领域,即使是同一个用户发布的内容,也可能包含多样的研究兴趣与意图。所以,需要先探究搜索内容与用户自身生成内容的相关主题,在获得与搜索内容主题相关的语料后,对其进行关键词抽取并用于搜索内容扩展中。第二次扩展则在第一次基础上,主要基于学者推荐列表中涉及的学者用户生成的文本数据与第一次扩展后的搜索内容进行相似度计算而获得。
在搜索内容扩展中,涉及在完成文本预处理后的向量空间映射、文本特征提取、相似度计算。本文分别选取向量空间模型、词频一逆文档频次算法和余弦相似度算法进行相关研究。
向量空间模型(Vector Space Model,VSM)是文本挖掘中的一种文本表示模型,构建向量空间模型的过程通常分为特征项构造与特征项权重计算。由于VSM需要特征项集合,对于文本而言,往往使用词作为特征项,可用词袋(Bag-of-Words,BOW)模型加以表示。
词频一逆文档频次(Term Frequency-Inverse Document Frequency,TF-IDF)算法实现过程简单,且使结果具有较高的准确率和召回率,既可以用于特征提取与权重计算,也可以用于对文本关键词进行抽取。
余弦相似度(Cosine Similarity)通过测量两个向量之间夹角的余弦值以度量它们之间的相似性,余弦值越接近1,说明两个向量越相似。
将文本特征提取出来后,映射至向量空间即可进行余弦相似度计算,进而获取可用于推荐的语料,再对其进行关键词抽取后与搜索内容合并,形成新的搜索语句。同样,上述步骤可处理已有的论文集,在获取每篇论文的主题后与搜索内容进行相似度计算,从而得到具有个性化的文献搜索推荐结果。
3实证分析
创建于2008年的在线学术社交平台Research-Gate,具有用户可以发布研究项目、分享研究成果、关注科研人员、回答学者提问等功能。截至2021年4月,该平台注册研究人员达2000万,拥有超过1.35亿的研究成果,用户活跃度相对较高,是全球最成功的在线社交平台之一。因此,本文选择ResearchGate作为学术社交平台案例,使用八爪鱼采集器从中爬取“Artificial Intelligence”主题下的学术用户及其关注关系数据,并构建关注关系网络,其中包含学者用户节点14366个,边17381条,如图2所示,实现过程基于Python语言。
考虑到不同的用户特征,有的用户更乐于积极参与问答讨论,有的用户倾向于发表学术文章,为保证用户生成内容数据尽可能完整,同时抽取了每个用户发布的学术成果及其问答文本数据。此外,学者从事的研究主题可能会随其学术生涯的发展而演变,不同时间节点的学术兴趣存在时效性,所以仅爬取2019—2021年的用户生成内容。待推荐论文集源于Web of Science,时间跨度为2017—2021年,尽可能获取“Artificial Intelligence”相关论文,共9948篇。
由于用户关注关系数据以邻接表的形式进行存储,不便于可达矩阵的计算,首先需要将学者关注关系网络模型化为邻接矩阵,如图3所示,其中每个用户都具有唯一编码,避免重名引起的歧义问题。本文随机选取了编码为“ND00051”的用户作为实验对象,其关注了49个学者用户,并在后续的实验中假设该用户的搜索内容为“Artificial In-telligence”。
通过可达矩阵计算,ND00051用户直接关注与间接关注的学者共有13083个,综合度数声望与最短距离可得学者推荐列表,本文选取了其中的前10位作为后续实验对象,如表1所示。其中前两位的学者不是ND00051用户直接关注的,但是由于其声望较高,有更多的学者认可并关注而被推荐。
在对学者用户已发布学术成果与参与问答的文本数据进行分析前,需要对其进行预处理,由于是英文文本,主要步骤有大写转小写字母、去除文本中的网址、去除标点符号与数字、去除停用词等过程,具体实现使用了自然语言处理工具NLTK。
得到学者推荐列表后,将对用户搜索内容进行二次扩展,主要基于Gensim包加以实现文本相似度计算,流程如图4所示。
首先,通过TF-IDF算法对ND00051用户发布的学术成果以及参与的问答文本进行特征项提取,将文本特征项进行向量化处理,得到文本表示。其次,将其与搜索内容进行相似度计算后可得到该用户生成内容中与搜索内容相关的文本集合。基于相似文本可得到一组关键词,其能够表示该学者其他与搜索内容相关的研究兴趣点,就此实现了对搜索内容的第一次扩展。而根据推荐学者列表中学者生成内容的进一步挖掘结果表示了更广泛的,该用户潜在的研究兴趣,即完成对搜索内容的第二次扩展。
根据ND00051用户自身生成内容进行的第一次搜索内容扩展结果如图5所示,取排名前十的关键词作为扩展内容。由此可知,该用户更关注人工智能的下一代技术革命以及人工智能理论与技术在全球变暖等领域的应用。
第二次扩展结果如图6所示。根据扩展结果可知,为ND00051用户推荐的学者也比较关注全球变暖的课题,以及相关问题产生的经济变化趋势,并且倾向于数据驱动型研究范式。
综上可得,最终的搜索内容为“[global climatewarming state differences financial change local data community intelligence artificial next revolution ai glob-al warming scientific causes consequences]”,将该搜索内容与数据库中的论文集进行相似度计算,部分结果如图7所示。
排名前10的论文搜索推荐结果如表2所示。根据论文标题不难看出其所涉及的研究领域与研究主题基本符合扩展后的搜索内容所表达的倾向。其中排名第一的论文标题为“大数据时代中国气候变化科学数据共享服务的发展现状与趋势分析”,该论文发表在《地理研究》上,文中针对气候变化驱动因素科学数据、气候变化事实科学数据等五类数据及其共享服务进行了系统分析,并对大数据背景下气候变化科学数据共享服务未来的发展趋势如人工智能、数据挖掘、机器学习、基于模型计算的动态数据共享等进行了展望_3引。
对学者用户ND00051的主页进行分析,其在自我简介栏中写道:“Currently Interested in De-marcation and Testability Aspects of Global Warming Theory”,可知该用户当前的研究兴趣主要集中在对全球变暖理论的划分和可测性方面。该用户自我标注的主攻研究领域为“Philosophv of Science”“En-gineering Physics”“Electrical Engineering”,擅于研究“Climate Modeling”“Reliability Analysis”“Prob-abilistic Risk Analysis”“Scientific Method”等,可见该用户正在从事气候变暖理论模型的研究某,其中不乏关注人工智能与该领域的交叉融合与应用前景,并且与实验中针对该用户搜索内容扩展得到的研究主题有较高的重合度。因此,认为本文提出的方法能够较好地满足个性化文献搜索推荐的需求。
4总结与展望
本文针对当前学术搜索引擎难以满足用户个性化需求的问题,提出基于学术社交网络用户关系的文献搜索推荐方法,构建学者关注关系网络,通过发现特定用户可达网络中的学者权威性及其紧密程度作为基本推荐指标,并对相应的用户生成内容与搜索内容进行相似度计算,从而实现两次对搜索内容的扩展,最后实现个性化的学术文献搜索。
随着本文研究问题的解决,一些引发后续研究关注的新问题也在不断出现。首先,在获取学者推荐列表时,度数声望与最短距离指标加权需要进一步调整和检验;并且在获取推荐列表后,本文虽然将相似的文本进行了整体关键词抽取,但是不同学者本身具有不同的推荐评分,如果对文本分别进行关键词抽取并进行加权计算,可能搜索内容扩展结果会更精准。其次,在对文本内容进行分析时,本文采用的特征提取模型和向量化模型都较为基础,由于扩展结果也会受到模型影响,后续可以考虑使用更復杂的、涉及更多语义信息的模型进行计算。最后,在文献搜索推荐结果的验证上,可以考虑招募志愿者参与实验,通过访谈的方式更科学地评估实验结果。
(责任编辑:郭沫含)