APP下载

基于标签计算的高校图书馆学者画像及知识推荐研究*

2022-09-01熊太纯吴智勤

图书馆研究 2022年4期
关键词:画像异构学者

何 胜,熊太纯,吴智勤

(1.江苏理工学院计算机工程学院,江苏 常州 213001;2.江苏理工学院图书馆,江苏 常州 213001)

1 引言

基于高校图书馆(以下简称高校馆)用户行为数据,开展学者画像和知识推荐研究,以助力知识创新,全面促进人工智能技术在高校馆应用的落地,对于高校馆提升知识服务能力、践行新时代图书馆人的知识服务使命具有重要意义[1]7。

作为用户画像领域的分支,高校馆学者画像研究主要面向高校学者群体,依托高校馆基础数据库,应用语义计算等信息技术抽取学者人口和行为等特征标签,构建学者画像标签模型,在此基础上开展个性化知识推荐、群体行为分析和科研趋势预测等服务[2]2。

大数据背景下,有关学者特征建模、学者兴趣标签库合理构建以及知识推荐过程中异构模型有效融合成为学者画像研究的热点和难点[3]1903。学者画像的主要任务是画像标签体系构建,即应用语义计算技术开展标签提取、分类和对齐,构建规范、统一的标签库;知识推荐面临的挑战是异构模型融合,即需要将学者画像模型的兴趣特征与知识画像模型中的关键词进行准确匹配,从而在学者兴趣与知识关键词两种异构标签之间搭建起有效的沟通桥梁,为精准知识推荐提供坚实的支撑。

针对上述问题,本文提出贯穿画像建模、标签库构建、异构模型融合和画像应用等过程的高校馆学者画像构建及知识推荐模式,在此基础上依托高校馆学者借阅数据和互联网著名平台“知乎”知识库(https://www.zhihu.com/)进行案例分析,着力解决标签库构建和异构模型融合难点,探索构建高校馆学者画像的有效途径。

2 研究回顾

现阶段学界用户画像研究聚焦于画像模型构建和标签技术应用两个方面,以下密切结合图情领域分析这两部分研究现状,总结近年来高校馆学者画像研究所取得的成果。

2.1 用户画像模型构建

国内外学界在不同领域的用户画像建模和应用方面的研究非常踊跃,相关文献及综述较为丰富[1]13,[4]95。例如Son等[5]采用启发式的分类模型构建Twitter 用户画像,并分析用户转发决策机制;Sun 等[6]对网络学习平台中用户的学习数据进行统计分析后,构建学习者画像模型,为在线学习平台内容开发提供指导;在高校馆用户画像建模方面也取得进展,如Andres 等[7]将用户画像特征库和专家知识相融合,开发学习管理系统OntoSakai;于兴尚等[8]面向用户认知需求构建图书馆用户画像模型,开展需求预测、个性化推荐分析应用;冯龄萱等[9]应用扎根理论构建高校馆流失用户画像模型,并分析高校馆用户流失形成机制,提出相关对策;彭程程等[2]4介绍了一种“智慧校园”学者画像系统,其数据源为某高校的硕博论文数据集,致力于分析学者的学术谱系和研究脉络。

2.2 用户画像标签技术应用

用户画像核心任务是用户标签体系构建,即应用标签计算等语义分析技术开展标签提取、标签库构建和异构模型融合等研究,其中标签库的规范性有益于提升画像的精准度,异构模型融合是沟通学者画像建模和资源画像的桥梁,能助力领域应用落地。Middleton等[10]在研究学术论文推荐时,采用将论文内容转化为对应的词向量标签的语义计算方法,以准确匹配用户画像和推荐内容;Calegari 等[11]融合YAGO 本体库提取标签,标记用户特征,以提高用户个性化检索的精准度;唐杰等[12]应用分类方法从搜索引擎中检索学者主页,抽取文本信息开展用户特征标注;宋雪雁等[13]以在线网站用户消费行为为基础,构建用户画像标签体系,提出一种在线网站用户画像模型;唐晓波等[14]将主题模型与用户兴趣相融合,构建用户画像,实现社区主题画像的动态更新;王仁武等[15]在学术社区中抽取用户的行为特征与兴趣关联关系,提出一种融合用户行为与兴趣倾向的标签构建方法。

国内外学界在研究用户画像的过程中,以用户个体或群体特征分析、个性化推荐为目标,采用语义计算方法构建用户画像并开展应用研究,取得很大的进展,但也存在如下问题:(1)用户画像建模角度,主要集中在理论层面,有关高校馆用户画像技术及系统实践方面研究较少[4]99,尤其缺乏针对学者画像的案例研究;(2)用户画像标签技术方面,学界注重研究标签抽取技术,并提出各具特点的标签构建方案,但是在如何构建规范统一的标签库,以及如何有效融合画像异构模型方面鲜有案例[3]1916。

作为著名UGC 平台(User Generated Content,即用户生成内容),“知乎”社区由于知识质量高、互动性强,对专家学者产生越来越强的黏附力,该平台开发了规范统一的标签库,方便异构画像模型的融合。

综上所述,本文提出了一种新的学者画像及知识推荐模式,并以高校馆学者行为数据和互联网“知乎”平台的知识资源为例,充分利用“知乎”平台的规范统一的标签库,融合学者兴趣特征和知识特征,开发了基于标签计算的高校馆学者画像及知识推荐系统。

3 高校馆学者画像及知识推荐模式

高校馆学者画像及知识推荐模式包括“画像建模”“标签库构建”“异构模型融合”和“画像应用”四个部分,如图1所示。

图1 基于标签计算的高校馆学者画像及知识推荐模式

3.1 画像建模

在描述学者和知识资源一般性特征的基础上,以知识推荐为目标,画像建模须突出展现“学者兴趣”特征和“知识关键词”特征,本文分别以“学者兴趣”标签和“关键词”标签作为两类模型关联的桥梁。

3.1.1 “学者画像”建模

“学者画像”是指对学者个性特征建模。以高校馆学者行为数据库为基础库,抽取学者个性特征,元数据包括“学者ID”“所属单位”“学者专业”和“学者兴趣”四个部分,其中“学者ID”“所属单位”和“学者专业”从高校馆学者行为数据库直接抽取,而“学者兴趣”则从学者所借阅或浏览的书籍(或资料)的题名或分类号中应用语义计算方法抽取。高校馆借阅系统存储了学者的个性化数据以及借阅行为数据,包括“读者证件号”“书名”“索书号”等,从中能够方便地提取和解析学者的人口信息和兴趣特征。

3.1.2 “知识画像”建模

“知识画像”是指对知识内容建模。以互联网知识资源为基础库,抽取知识特征,元数据包括“知识ID”“关键词”“知识主题”和“知识创建者”4个部分,需要结合互联网资源数据库应用语义计算的方法抽取。作为知识的不竭源泉,来自互联网的大量资源为学者提供了海量的数据:专业科研文献数据库如万方、知网、国际ScienceDirect 等平台上的结构化数据;搜索引擎如百度、谷歌,以及学者们常用的微博、微信朋友圈、知乎、科学网等社交平台产生的半结构化数据等,这些数据能够直接购买或利用开发爬虫软件获取。

3.2 标签库构建

标签库构建是用户画像的主要内容。标签库是指用层次化且精炼的词汇描述客体,对学科知识这一客体而言,标签库须完整准确地体现该学科的知识组织架构。由于标签的专业性强,一般可以利用规范成熟的标签库(如权威机构开发或经领域专家审核的标签体系),或者基于海量的互联网语料应用语义计算方法(如实体抽取、分类和对齐等)构建新标签库,后者的灵活性好,但也存在技术难度高、工作量大的问题。

3.3 异构模型融合

异构模型融合是沟通学者画像和知识资源画像的关键环节。以底层的同一“画像标签库”为基础,对“学者画像”与“知识画像”异构模型进行标注,实现异构标签融合。

一是结合学者画像模型,对“学者兴趣”元数据进行标注,将每个学者的兴趣用“画像标签库”的术语进行标记,构建“学者兴趣标签库”。二是结合知识画像模型,对“知识关键词”进行标注,将每一条知识的内容用“画像标签库”的术语进行标记,构建“知识关键词标签库”。由于“学者兴趣标签库”和“知识关键词标签库”拥有共同的“画像标签库”,二者的深度融合使得后续“知识推荐”应用中的“相似度计算”具备技术可行性。

3.4 画像应用

利用标签相似度计算方法,对上述构建的“学者兴趣标签库”和“知识关键词标签库”,计算“学者兴趣标签”和“知识关键词标签”的两两相似度,并依据相似度从高到低排序,开发知识推荐系统以展示推荐结果。

知识推荐系统包括以下4 个模块:(1)画像标签管理,根据知识资源语义计算和分析结果存储和更新画像标签库;(2)学者画像管理,结合画像标签库,依托高校馆系统数据库的抽取结果和学者兴趣的分类结果,自动标注并更新学者画像标签;(3)知识画像管理,结合画像标签库,依托知识资源库自动标注并更新知识画像标签;(4)知识推荐模块,计算“学者兴趣”和“知识关键词”的两两相似度,对其排序并存储,以便将与学者兴趣高相似度的知识展现给学者用户。

4 案例研究

密切结合所提出的高校馆学者画像和知识推荐模式,应用标签计算技术开展案例研究。

4.1 画像建模及标签库构建

4.1.1 高校馆学者数据收集

利用某高校馆2019年1月1日—2021年12月31 日共114 597 条借阅数据,去除学生借阅数据,得23 092 条借阅记录,涉及1 017 位教师,作为学者画像建模原始数据。

4.1.2 互联网知识资源收集

通过自行开发的爬虫软件,选取“知乎”平台一级话题“社会科学”中的所有子话题,爬取精华问答。“社会科学”的话题包含情报学、历史学、哲学、法律、金融学、心理学、政治学等32个二级子话题。对获取的精华问答清洗并去重后得到522 943 条记录,保存于Execl 表格,相关字段有“作者昵称”“作者ID”“问题主题”“问题ID”“问题描述”“问题标签”“具体内容”“回答数”“发表时间”“点赞数”“评论人数”“回答链接”等,作为知识画像模型的原始数据。

4.1.3 画像标签库构建

通过Python函数对“知乎”平台上获取的原始数据中的“知识关键词”分类整理,形成本研究的画像标签库。“知乎”平台及其标签库具有以下特点:(1)拥有海量且专业的知识内容。“知乎”平台以问题提出和互动问答为主要方式,积聚了海量知识。由于其产生的知识质量高、更新快、专业性强,受到国内学者的青睐。(2)开发了成熟且规范的话题主题词库,即本研究中“画像标签库”。经过“知乎”平台专家整体规划、合理分类并严格遴选,主题词库能够完整地呈现各领域知识的层次结构和专业术语分类,经过10多年的发展,“知乎”平台已经形成了较完备的“画像标签库”,每一标签都分配唯一的ID,如图2所示。

图2中以“竞争情报”“信息资源”和“数据科学”话题为例,列举了部分画像关键词标签。如对于“竞争情报”话题,对应关键词有“竞争情报(20052199)”“情报机构(19643868)”“情报学(19626490)”等,括号中的数字为该标签的ID。

图2 画像标签库构建

4.2 异构模型融合

由于学者画像模型与知识画像模型异构性,基于同一画像标签库分别对“学者兴趣”和“知识关键词”进行标注,完成异构模型融合。

4.2.1 学者兴趣标注

如图3所示,从高校馆借阅数据库中抽取相关数据,包括“证件号”“专业”“借阅书籍题名”等字段数据(见“学者原始数据”部分),对学者画像模型的四个标签字段进行标注。其中:“学者ID”直接来源于“证件号”元数据;“学者单位”是依据“证件号”的命名规则(第5~8位为学者单位编码),抽取其中的第5~8 位匹配单位名称;“学者专业”直接来源“专业”元数据。这三部分由Python函数自动完成;“学者兴趣”根据“借阅书籍题名”的书籍所在的类别,自动匹配画像标签库的话题标签的类别。如学者ID 为“1998xxxx32”的用户,其借阅的“竞争情报与企业竞争力”书籍,系统自动分类为“竞争情报”话题,因而将“画像标签库”中的“竞争情报”“市场情报收集与分析”和“情报学”等标签标注为该学者的“学者兴趣”特征。

图3 学者兴趣标注

4.2.2 知识关键词抽取

如图4 所示,从“知乎”爬取的原始数据中,对知识画像模型的4 个标签字段进行标注。其中:“知识ID”和“知识主题”分别直接来源于“问题ID”和“问题主题”元数据;将“知识创建者”元数据标注为“作者昵称(作者ID)”的值;“知识关键词”直接来源于“问题标签”元数据的值。因为相关标签已经严格遴选,可以直接用于标注,这也体现了“知乎”平台标签库所特有的应用价值。一般而言,对某个知识体系进行全面概括地描述(如构建本体)非常费时费力,而利用“知乎”平台标签库的关键词体系,既节省人力成本,又兼备较高的可靠性和规范性。

图4 知识关键词标注

4.3 标签相似度计算

采用简明的余弦相似度方法计算“学者兴趣标签库”和“知识关键词标签库”的两两相似度,标签相似度计算方法见公式(1)。设有标签集合A1、A2,式中l 为标签集合中对应的标签列表长度,ti1、ti2分别为集合A1、A2中相关标签的权重,计算结果S(A1,A2)即为A1、A2相似度。

计算流程如图5 所示。 以学者ID 为1998xxxx32 的“学者兴趣”标签和知识ID 为359261682的“知识关键词”标签为例,计算二者相似度。首先,将二者标签集合元素唯一化,得到5个标签列表。其次,统计每类标签在原来集合中出现的次数(即词频)并写出标签向量。最后,根据余弦相似度公式计算,结果显示二者的相似度为0.577。系统对余弦相似度的值从大到小排序以后,存入数据库。

图5 计算标签相似度

4.4 知识推荐系统

知识推荐系统如图6所示。当用户登录后,系统将与该用户兴趣具有高相似度的知识(问题)推荐给用户,如ID 为“1998500032”的用户登录后将与其情报学领域感兴趣的4个“知乎”问题的链接进行推荐。由于该用户标签涉及“竞争情报”“情报学”等,知识推荐系统将“知乎”平台上与情报学密切相关且标签相似度高的知识推荐给该用户。

图6 知识推荐系统

5 结束语

在图情领域的学者画像和知识推荐研究中,画像标签库的规范性及学者画像和知识资源画像的异构模型融合一直困扰着学界。本文抽取互联网“知乎”平台自行开发的标签库,对学者兴趣进行标注,从而搭建起高校馆学者画像和互联网资源画像模型融合的桥梁,借助“知乎”平台标签规范性的优势,以及利用标签相似度计算等技术实现知识推荐,为高校馆大数据与互联网大数据的交叉融合及实施提供应用案例。

本文的不足之处及未来工作:(1)在实践过程中,学者画像的“学者兴趣”存在多个主题现象。一种可行的解决方案是扩充“学者兴趣”标签,并对标签设置动态权重,扩充时考虑学者兴趣多样、兴趣迁移、专业变化等因素。另外,通过动态统计分析学者所借阅的书籍题名和借阅时间等数据确定标签权重,借此影响相似度计算结果,使得其他兴趣主题进入Top排序,从而在知识推荐中体现关联多个兴趣主题的推荐结果。(2)用户数据的实时更新对知识推荐也将产生影响。这需要及时更新学者借阅和知识资源数据,并对增量数据开展实时相似度计算,以实现知识资源的动态精准推荐,这些是本文下一步研究的方向。

猜你喜欢

画像异构学者
威猛的画像
学者介绍
学者简介
试论同课异构之“同”与“异”
学者介绍
“00后”画像
画像
学者介绍
overlay SDN实现异构兼容的关键技术
LTE异构网技术与组网研究