基于团队科研—知识应用情境匹配的数字图书馆知识推荐方法研究*
2021-03-09任亚茹李梦茹
张 亮 任亚茹 李梦茹 张 磊
(青岛大学商学院 青岛 266100)
0 引 言
大数据时代的到来使数字图书馆知识快速增长,知识过载现象愈发严峻。单纯依据用户检索词与资源关键词匹配的搜索方式难以实现理想的知识服务效果[1]。数字图书馆的知识推荐系统能够分析和预测用户的需求并向其推荐相应的知识,成为科研工作者开展学术研究的有效工具[2]。
本文关注的重要问题是:当科研工作以团队合作方式开展时,科研团队和个人的哪些情境信息会对其知识需求产生影响?如何将这些知识需求与数字图书馆的知识应用情境相匹配,从而实现知识推荐?对此,综合考虑团队科研情境与数字图书馆的知识应用情境,提出一种基于团队科研—知识应用情境匹配的数字图书馆知识推荐算法TKCM(Team-Knowledge Context Matching)。
1 相关研究
1.1情境与情境感知在以团队攻关和团队协作为特征的“大科学”时代,科研人员的知识需求是高度个性化、专业化、复杂和易变的,具有极强的情境敏感性。情境 (Context) 是指任何可以用来描述实体情形特征的信息,实体可以是人、位置或与用户和应用交互相关的物理的或虚拟的对象[5]。情境可以分为用户、用户社会环境、任务、位置、基础设施、物理条件和时间七个类别[6]。Chen等将情境定义为计算情境、用户情境、物理情境和时间[7]。数字图书馆服务于科研情境,具体的情境信息一般包括学科领域、科研背景、科研环境、人员等要素[8]。本文关注团队合作下的科研情境,同时考虑科研团队组织层面和科研人员个体层面的情境信息。情境信息可以通过传感器、互联网和射频识别等智能终端设备获取、处理和分析,这一过程被称为情境感知[9]。通过情境感知实时获取情境信息,能够快速跟踪用户需求和偏好的变化[4];不但可以有效地提高信息系统整体性能,还能实现用户个性化需求的精准挖掘,提升系统服务的用户体验[10]。对知识服务系统而言,情境感知技术能够感知用户及其群体的多种情境,将“被动满足”转换为“主动服务”,满足用户全过程的实时知识需求[11]。在数字图书馆领域,情境感知技术开始被用于获取用户的情境信息,包括位置情境、基本信息情境、社会网络情境等,极大地提高了用户信息需求模型的即时性和实用性[12]。
1.2考虑科研情境的数字图书馆知识推荐一些研究者将科研情境引入数字图书馆知识推荐系统,开展了科研情境识别和情境模型构建的研究。数字图书馆知识服务的情境要素一般包括资源情境、用户情境和知识情境等维度[13]。面向数字图书馆的个性化服务情境感知体系,可分为传感器接入层、数据处理层、个性化推荐层和应用层等若干层次[14];相应的服务流程则包括情境信息获取、情境信息整合、个性化语义匹配等具体步骤[15]。
研究者提出了多种面向科研情境的数字图书馆知识推荐算法。这些算法可根据情境信息的应用方式分为三类:第一类是利用情境信息对推荐系统结果列表做二次筛选。在协同过滤算法预测的项目评分基础上,曾子明和陈贝贝利用情境条件熵计算各情境属性的权重,以及用户在不同情境下对项目的加权评分,产生推荐列表[16];程秀峰等将朴素贝叶斯与情境感知相结合,首先进行基于属性加权贝叶斯的协同推荐,然后计算情境属性对推荐资源的影响,调整协同推荐的评分列表[17]。第二类是将情境信息作为系统推荐的项目,实现情境推荐。对数字图书馆知识推荐问题,刘海鸥等利用情境相似度计算,获取与用户当前情境近似的情境集合的“用户-资源”二维评分模型,基于用户的协同过滤产生推荐列表[18];田雪筠将情境信息融入内容推荐中,计算用户当前情境与历史情境相似度,得到相似情境下用户对资源的兴趣度排名[19]。第三类是将情境信息融入推荐模型产生新的推荐算法。李浩君等通过自定义规则与情境的语义信息匹配,实现信息推荐[20];洪亮等利用情境信息挖掘用户群体间的共同兴趣,通过共同兴趣的关联和协同构建信息推荐模型[21]。
2 情境模型构建
情境建模是对情境具体、详细的描述。本文提出的情境模型由两部分组成,分别是作为知识服务提供者的数字图书馆的知识应用情境和作为知识服务使用者的团队科研情境。
2.1数字图书馆知识应用情境模型在数字图书馆中,知识通常是应用于教育、科普、科研等特定情境中的,用户获取、学习和使用知识的具体背景和环境称为知识应用情境。数字图书馆的知识应用情境既表征了知识本身同外界对象、环境、事件之间的关联关系[13],又体现了数字图书馆面向用户组织和管理知识的模式[22]。建立数字图书馆知识应用情境模型,是数字图书馆面向用户提供个性化知识服务的基础。
在作为知识服务提供者的数字图书馆视角下,本文将知识应用情境模型定义为三部分:知识服务对象、知识服务过程及知识服务任务。其中,知识服务对象即知识的使用者,包括个人或团队的教育背景、科研经验、知识结构等基本信息。知识服务过程是知识应用生命周期中的一系列环节,包括知识需求识别,馆藏资源分析,知识组织和推荐、再生知识产生和存储等。知识服务任务是根据用户知识需求完成的具体工作,包括文献查新、知识查询、引文检索、大数据分析、科研和出版服务等。
除知识应用情境外,知识载体情境和知识内容情境也是数字图书馆知识情境的组成部分。知识的载体是其依附的媒介,包括载体类别、位置信息、访问和存取方式等。知识的内容是指能够概括和表达知识本身的情境信息,包括摘要、关键字和概括性描述等。
创新型人才要具备合理的创新知识结构。合理的知识结构是提升创新思维能力的基础,没有扎实合理的基础知识、专业知识和创新知识的储备,创新就成了无源之水、无本之木,积累的知识越丰富,思维就越开阔,越易激发创新潜能;创新型人才要具备熟练的创新操作技能,缺少熟练的创新技能,即使产生了灵感,由于缺少横向纵向联系,最终仍是昙花一现。知识经济时代,信息科学技术的迅猛发展,要求创新型人才要具备获取并筛选信息,发现并创造性地解决问题,敢于质疑并求新求变,独立思考和自主判断的自主创新思维和学习能力,强烈的创新欲望,高度的责任感,坚韧不拔、敢“闯”敢“试”的进取精神。
2.2团队科研情境模型科研情境用来描述科研人员在从事科研活动过程中所处状态的特征信息,一般包括科研人员的基本信息、科研经验、教育背景及与应用之间的交互等[7]。当科研工作者以团队协作的方式科研攻关时,影响其知识需求的情境因素既包括科研人员本身的情境,还包括其所属科研团队的情境。为了实现用户知识需求的精准挖掘,团队科研情境本体模型的构建必须同时考虑科研团队和科研人员所处状态的各种情境要素。在团队层面,科研过程一般可包括知识积累、形成课题、进行实验、数据分析、成果形成发布、成果保存6个阶段[23]。在以上不同的科研阶段中,科研团队完成科研任务时,不同科研团队对知识的需求存在差异,同一科研团队在不同的科研阶段和科研任务下对知识的需求也不同。故可通过确定科研团队、科研过程和科研任务三个方面的情境信息来确定一个科研团队当前状态下的知识需求,由此将科研团队情境分为团队信息情境、科研过程情境和科研任务情境三类。在科研团队中,每个科研人员承担着不同的子科研任务。在个体层面上,科研人员情境可分为个人信息情境和子科研任务情境。科研团队的整体情境如图1所示,各科研要素分属不同科研情境类别并共同描述团队中一个科研人员的所处状态。
图1 团队科研情境模型
3 团队科研—知识应用情境匹配推荐方法
在情境模型构建的基础上,将团队科研情境与数字图书馆知识应用情境加以匹配,设计提出了数字图书馆知识推荐方法TKCM,使推荐的知识能够契合科研团队的实际情境。
TKCM方法包括获取情境信息、获取知识备选集、获取邻居用户集和生成推荐列表四个步骤。第一步,利用情境感知技术获取数字图书馆知识应用情境和团队科研情境。第二步,基于余弦相似度,将数字图书馆知识应用情境与科研人员的当前情境加以匹配,筛选出情境相似度较高的知识作为备选集。第三步,将其他科研人员的团队科研情境与当前科研人员的情境加以匹配,筛选出情境相似度较高的科研人员作为邻居用户集。邻居用户与当前科研人员的情境相似度越高,其偏好的影响力越大。第四步,根据邻居用户集中科研人员的偏好,计算备选集中每条知识的综合偏好评分,生成推荐列表。TKCM推荐方法的流程如图2所示。
图2 TKCM推荐方法流程图
3.1获取情境信息通过情境感知技术获取数字图书馆知识应用情境和团队科研情境,包括情境信息采集和情境信息处理两个步骤。情境信息采集[24]可主要通过两种方式:(1)数字图书馆服务记录:通过科研人员在数字图书馆的注册信息,以及搜索引擎使用记录等,获取个人信息和知识请求信息等。(2)科研人员情境监测:通过传感器,射频识别,全球定位系统,语音识别等技术,准确获取科研人员日常生活中的位置信息,工作环境,语音信息等,并将这些信息传递到数字图书馆数据库中。然后,剔除情境中的冗余信息,将剩余情境信息分别集成到数字图书馆知识应用情境模型和团队科研情境模型中。
3.2获取知识备选集定义五元组C=(T,P,A,R,S)表示情境模型的数据结构,其中T(team)表示团队科研信息,P(process)表示科研过程,A(alltask) 表示科研任务R(researcher)表示科研人员信息,S(subtask)表示子科研任务。则数字图书馆知识应用情境模型的数据结构为CL=(TL,PL,AL,RL,SL),团队科研情境模型的数据结构为CM=(TM,PM,AM,RM,SM)。将数字图书馆知识应用和团队科研的五类情境分别归一化为多维空间上的情境向量,进一步比较它们的相似度。
首先,通过BP神经网络获得数字图书馆知识应用情境和团队科研情境向量。该过程分为两步,第一步,根据通过情境感知技术获取到的情境信息,构建科研情境库,通过输入科研情境库中的原始数据,经过多次迭代,进行BP神经网络训练。第二步,训练完成后,给定数字图书馆知识i的历史应用情境要素和科研人员j的情境要素,即可获取两者的情境类别k与库中各情境类别的接近程度最大值,即lik,mjk,则i的历史应用情境向量li和j的团队科研情境向量mj分别表示为:
n个科研人员的团队科研情境和数字图书馆知识应用情境可分别表示为矩阵L和矩阵M:
(1)
(2)
其次,计算当前科研人员a的团队科研情境ma与数字图书馆知识i的应用情境li的相似度,相似度可表示为其向量夹角的余弦:
(3)
定义Ma={j|Sim(ma,li)>α}为科研人员a的知识备选集,其中α表示li与ma的相似度阈值,0<α<1,当Sim(ma,li)大于α时,将数字图书馆知识i放入知识备选集,设知识备选集中知识个数为t。
3.3获取邻居用户集推荐系统的基本思想是向活跃用户推荐与其相似的用户偏好的项目。本文假设在所属团队、研究方向、科研任务等团队科研情境方面相似的科研人员具有相似的知识需求[25-26]。可以通过科研人员间的情境相似度来判断他们知识需求的相似度,即科研人员之间的情境相似度越高,其知识需求的相似度越高。
科研人员j的团队科研情境mj与当前科研人员a的团队科研情境ma的情境相似度可表示为各自情境信息向量的余弦:
(4)
定义Na={j|Sim(ma,mj)>β}(0<β<1)为科研人员a的邻居用户集,其中β表示mj与ma的相似度阈值,当Sim(ma,mj)大于β时,将科研人员j放入邻居用户集,设邻居用户集中科研人员个数为n。
3.4生成推荐列表通过情境感知技术可获取科研人员对知识的偏好,包括访问、引用、收藏等行为数据。设Pij表示邻居用户集中科研人员j对备选集中知识i的偏好程度。通过加权平均可获得知识i的推荐评分,计算公式为:
(5)
然后,将每条知识的推荐评分按从高到低的顺序排序,得到推荐列表。
4 应用案例
为验证TCKM推荐算法的知识推荐的效果,从国内10所高校数字图书馆官方网站上采集了知识应用信息和用户信息,在用户信息中随机选择100个科研团队,及这些团队中的620名科研人员,作为分析TCKM推荐算法应用案例的样本,随机选取某科研团队中的一名科研人员进行推荐算法研究,如针对科研团队T01中的科研人员 R01进行知识推送。
4.1获取情境信息通过情境感知技术获取数字图书馆知识应用情境以及科研人员R01当前的团队科研情境,如表1所示。
表1 科研人员 R01 当前的情境信息
4.2生成知识备选集根据公式(1)~公式(3)计算知识应用情境与科研人员a的团队科研情境的相似度,将相似度较高的知识作为备选集,部分如表2所示。
表2 科研人员R01的知识备选集
4.3生成邻居用户集根据公式(1)、(2)、(4),通过计算科研人员R01的科研情境与其他科研人员的科研情境的相似度,筛选出相似度高的科研人员列表,部分结果如表3所示。
4.4生成推荐列表运用情境感知技术获取表3中各邻居用户对表2中各知识的感兴趣程度,根据公式(5)计算得到以上六条知识的最终得分,最终结果如表4 所示。
表3 科研人员R01的邻居用户集
表4 知识推荐列表
由表4可见,为科研人员R01知识推荐排序为K92,K46,K58,K67,K19。推荐的知识兼顾了T01在数字图书馆知识推荐领域的团队科研情境,以及R01在数字图书馆知识推荐算法研究方向上的个体科研情境。可以看出,TKCM推荐算法能够精准挖掘出团队科研情境下科研人员的知识需求。
5 结 语
本文运用情境感知技术构建了数字图书馆知识应用情境与团队科研情境模型,提出了基于团队科研—知识应用情境的数字图书馆知识推荐方法TKCM,为面向科研情境的数字图书馆知识服务相关研究提供了新思路。本文的主要贡献包括:根据数字图书馆知识应用情境实现知识的主动推荐,提升了数字图书馆的知识服务质量;强调数字图书馆知识服务应面向团队科研情境,融合团队情境与科研人员个体情境,能够满足团队科研与个人的知识需求。本文的不足之处是主要对数字图书馆知识的应用情境展开研究,而对知识的内容本身,以及承载知识的载体等的情境信息研究缺乏深入,如何综合利用数字图书馆知识的全部情境信息,以完成更加精准的推荐,将是下一步研究的重点。