知识图谱赋能的图书馆资源智慧发现和服务研究
2023-08-03钱海钢
钱海钢
[广东省立中山图书馆(广东省古籍保护中心),广东 广州 510110]
《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》第十六章“加快数字社会建设步伐”第一节明确指出“要推进智慧图书馆建设,提供智慧便捷的公共服务”[1]。文化和旅游部、国家图书馆也提出“全国智慧图书馆体系”建设项目,建设的总体架构可以归纳为“1+3+N”,其中“1”是指1个“云上智慧图书馆”,“3”是指搭载其上的全网知识内容集成仓储、全国智慧图书馆管理系统和全域智慧化知识服务运营环境,“N”是指在全国各级图书馆及其基层服务点普遍建立线下智慧服务空间。“1+3+N”为未来智慧图书馆体系建设做了初步顶层设计和规划,设立了总体思路和建设目标[2]。
1 图书馆资源发现和服务的研究现状
图书馆资源有广义和狭义之分。广义的图书馆资源是指“图书馆为将资源利用而组织起来的相互联系的多种资源的动态有机整体”,包括信息资源、人力资源、馆舍、设备、技术、资金等。狭义的图书馆资源是指界定为馆藏的信息资源,主要类型有纸质书刊资料、纸质特种文献等正式文献,书信书稿等非正式出版物,磁盘光盘出版物,自有数字化文献数据库、馆藏书目数据、可授权访问的数字资源(主要是图书馆购买的可远程访问或通过镜像访问的各类数据库产品)。另外,图书馆的服务数据也被认为是图书馆资源,如读者的借阅记录等。这些信息资源一般不直接用于读者服务,但它们能够帮助图书馆了解读者,了解图书馆服务状况,从而达到优化读者服务的目的。笔者所述的图书馆资源限于狭义图书馆资源。
1.1 图书馆资源发现系统相关研究现状
1.1.1 国内资源发现系统发展演进较晚
2005年,Google Scholar发布后,M.Breeding意识到Google Scholar的搜索模式是当时的联邦检索系统所不能比拟的,于是他提出了“集中搜索”模型用以应对。该模型是资源发现系统的原型,国内外学者们对资源发现系统作出了定义[3]。国外学者以原型为基础,在资源发现系统的应用、成效和影响等方面进行了探讨。国内实践相对较晚,多集中于具体个案的实施。经过多年的发展,资源发现系统的首页极似谷歌或百度搜索引擎,提供了单一检索框、按相关性排序、集中索引等功能[4-6]。
1.1.2 研究内容以实践工作为主,理论研究不足
无论是国内还是国外,对图书馆资源发现系统的研究主要集中在用户需求、系统对比、部署经验、效能评价等与实践紧密联系的方面,在理论研究方面较为欠缺[7-10]。
1.1.3 检索结果庞大,用户需具备更强的信息素养
资源发现系统能够根据用户的检索词最大化发现挖掘资源,为用户提供更多的相关检索结果以及更多可能的答案和选择[11]。同时,面对众多检索结果集,如何从中准确地选择一个自己想要的结果是考验用户的一个难题,需要用户拥有更强的信息素养能力[12]。
1.2 知识图谱在图书馆应用的相关研究现状
1.2.1 知识图谱被用于图书馆员、图书馆资源可视化管理
利用知识图谱重塑图书馆员目录,以动态的方式揭示他们之间的关系,提高馆员管理的可视性,从而带来更全面的了解和更高水平的协作潜力[13]。如,哈佛大学的中国历代人物传记资料库(CBDB),将其收录的41万人的传记和著作资料用图谱的方式可视化,清晰地揭示了人物关系和著作关系[14]。
1.2.2 利用知识图谱分析文献情况
使用CiteSpace工具构建知识图谱并进行深入解析,从图书馆资源建设、服务创新、技术实现3个角度探讨图书馆个性化推荐研究的发展趋势,并提出相应建议[15-17]。
1.2.3 利用知识图谱实现某种图书馆知识可视化服务的探讨
一是利用语义网对学术领域实体和实体间的关联关系构建知识图谱,实现图书馆参考咨询智能问答系统的知识库构建[18]。二是提出以跨媒体知识图谱构建和管理为核心、跨媒体知识发现和创新为关键的跨媒体知识服务实现路径,以期为其深入研究提供参考[19]。三是利用知识图谱技术对数字图书馆资源进行知识聚合的可视化模型构建,以期为数字图书馆资源的细粒度聚合对象挖掘、多维度知识结构揭示、静动态交互知识可视化展示及精准化知识分析应用提供参考借鉴,推进数字图书馆知识资源在纵深层面的再组织与再利用[20]。另外,上海图书馆基于家谱文献,通过关联数据技术,发布了家谱知识服务平台,直接让读者接触到数据、事实和知识[21]。
综上所述,资源发现系统尚无一种能够帮助用户快速、准确、智能地选择资源的解决办法,而知识图谱技术是一种智慧数据,是有语义、自解释、可计算、能行动的信息单元,能够将各类数据(用户和资源)关联并直观地展示给用户,助力图书馆资源发现服务智慧化,以克服现阶段资源发现系统的缺点。虽然知识图谱在图书馆领域的应用已有少量成果,如在数字图书馆方面的应用,但鲜有图书馆资源智慧服务的研究。笔者尝试对知识图谱技术在图书馆资源智慧发现和服务过程中的应用进行研究,借助知识图谱的智慧数据特性挖掘图书馆资源,用全新的角度去发现、构建智慧服务体系,以期为智慧图书馆建设提供一种思路和借鉴。
2 知识图谱赋能图书馆资源发现和服务中的应用
商业营销的核心主体是“人、货、场”,分别指消费者、商品、场景[22]。商业活动中用好“人、货、场”模型即可获得营收的增长。同样,把该模型运用到图书馆,“人”即是读者,“货”即是文献资源,“场”即是服务场景。要明确目标读者,文献资源是读者想要的,服务场景要有舒适的体验。图书馆要研究目标读者的阅读喜好、阅读习惯,才能有针对性地推出满足需求的文献;文献资源只有适合目标读者才能吸引更多人前来阅读;人性化的服务场景能给读者以良好的场景体验。图书馆要运用好“人、货、场”模型,把“货”盘好,提高图书馆资源的管理和服务效能,以及提供智慧型资源服务,为此,笔者从基于知识图谱技术的图书馆资源组织、揭示、发现和服务方面予以讨论。
2.1 资源的组织
现阶段,国内外的资源数据库主要分为导航型数据库与全文数据库,其中导航型数据库包括书目数据库、题录数据库,文摘数据库等;全文数据库包括图片数据库、多媒体数据库等。全文数据库比导航数据库的资源检索效率与利用效率高,但数据之间的关联性差,资源揭示不够直观,使用体验较差。
利用语义网、知识图谱技术对图书馆资源的组织形式进行重构。将书目数据、用户基本信息、检索记录、借阅记录、活动参与记录等本地数据,以及相关的外围数据等图书馆资源进行主题和内容的细颗粒度标引。如,文本类型的资源可做到最小对段落进行主题词、关键词的标引;音视频类资源可按时间区段或内容系列做到对最小以秒或篇章为单位的主题词、关键词的标引。通过已经重做的标引,对图书馆资源重新聚类,形成主题化、专题化的分类揭示。如,前一段时间很多人去借《流浪地球》这本书,但是图书馆所有的复本都是借出状态,此时,通过标引聚类服务系统发现《流浪地球》是科幻小说、作者是刘慈欣,那么可以为读者推荐相关书籍,如《三体》《变型战争》《星际穿越》等。
综上,通过组织形式的重构,实现图书馆资源实体间的数据关联,形成“一张网”,通过其中一个节点便可以发现其他关联的节点,进而使得节点数据不再是独立存在或不被发现的。
2.2 资源的揭示
在资源数据重构的基础上,利用知识图谱的可视化实现资源的聚类和揭示。根据著者、文献、出版社等实体的语义关联,建立图形可视化、可交互的图书馆资源图谱系统,用户通过可视化界面操作来获得关联图谱上的节点信息。
图书馆资源图谱系统接受来自读者的请求,根据资源(知识)关联做出回应,不仅让读者直观地进行判断选择,还能够以一种“引导”的方式启发读者新的阅读路径。此外,利用另外一种图书馆资源,如读者行为特征、基本属性、借阅属性、兴趣偏好、潜力特征和预测需求等服务数据,建立读者的用户画像,为其提供精准推荐服务。
(1)行为特征:主要用来记录读者的行为操作信息和借还行为。如,网页端(App)的日启动次数、周启动次数、月启动次数、使用活跃度、最近浏览页面及浏览时间等。可用RMF①模型记录读者借还行为中的最近借还时间、借阅数量、借还频率等。(2)基本属性:描述读者的一些基本特征,用来反映读者的通用信息。如用户ID、昵称、性别、年龄、城市、注册时间、活跃度、流失倾向等。(3)借阅属性:主要用来记录读者的借阅偏好,如借阅次数、借阅数量、借阅时间间隔等。(4)兴趣偏好:主要是有针对性地寻找读者的兴趣点,用来区分用户。兴趣偏好往往结合日常阅读推广活动设置,如主题偏好、著者偏好、新书偏好等。(5)潜力特征和预测需求:主要用来分析读者的阅读偏好和目标阅读量等。
总的来说,通过图书馆资源图谱系统的揭示,读者能够非常直观地看到数据以及数据背后的关联,真正做到“所见即所得”,将更多隐藏或未知的资源和关系展现给更多的读者;通过用户画像,馆员或系统可以了解读者的需求,为读者匹配资源,为图书馆的“人、货、场”模型提供实现基础。
2.3 资源的发现和服务
资源发现和服务是建立在资源的组织和揭示基础上的,具有直观、高效的可视化效果,它着力解决以下3个方面的问题。
第一,阅读推广决策。一般地,消费者只要在淘宝搜索过图书,淘宝系统就会在后续打开的页面推送相关书籍,甚至会推送到支付宝,其他相关软件也是如此。软件会根据用户的浏览和搜索喜好进行推荐。淘宝和抖音推送即是系统根据用户画像对用户所做的精准投放,以有效地提高转化率。同样地,用户画像也适用于阅读推广。“我们的用户是谁”和“我们有什么资源”在阅读推广过程中至关重要。根据读者用户画像,可利用知识图谱的语义关联,深挖资源与读者之间的关系,组织和开展知识服务,实现资源的精准化、智慧化推荐服务。
第二,馆藏建设决策。信息是数据的内容,数据是信息的载体。数据代表着事实、逻辑和智慧,是对现实世界及业务活动的事实性记录,是信息有序化、集合化、结构化的结果。信息经过加工处理之后便成了数据。信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”。利用传统的统计方法,馆员可以知道所采图书的数量、借阅率等,而通过知识图谱技术的整合,馆员可以清晰地获得所采图书的主题、著者、出版社、出版年等横向、纵向的关联数据。因为知识图谱里元素之间的关系不是简单的“属性-值”关系,而是三元组关系,一条三元组代表了对图书某个属性的陈述,这些三元组头尾相互连接就形成了一张描述万物关系的图谱(见图1)。由“上海世界书局,出版,西游记”“西游记,是,四大名著”“三国演义,是,四大名著”这3条三元组可知上海世界书局出版了四大名著之一的《西游记》,而《三国演义》也属四大名著,这时采购员可确认上海世界书局是否出版《三国演义》,若是,便可一并采购以丰富馆藏品种。
图1 三元组关系
通过知识图谱,图书馆能够更加了解本馆资源的组成情况,利用资源与资源之间的关联,及时根据数据方向标优化文献资源建设结构,推动馆藏建设高质量发展。
第三,馆藏利用决策。在图书馆数以万计的海量图书中,仅靠22个大类的分类法作为读者检索图书的方法已显得“力不从心”,无法满足读者获取知识的数量、时效和准确性需求。基于知识图谱的馆藏利用决策模块可分为有限推荐和无限揭示两个模式,帮助读者对馆藏资源进行选择决策。
有限推荐如图2所示,假设读者2检索了梁羽生的《白发魔女传》,此时系统不但自动推荐梁羽生的其他作品,且还会推荐金庸的作品,因为读者1同时借过梁羽生和金庸的作品。此为基于“他也读过”,在一定范围内的“猜你喜欢”。
图2 著者社会关系及作品图谱(节选)
无限揭示有效利用知识图谱的关联图谱,读者要检索资源时,可直观地通过一个节点不断打开关联节点,从而获得潜在的资源内容。图2展示了著者与著者之间的社会关系图谱,以社会关系为线索可以检索到关联著者在库中的所有作品,无论是热门还是冷门。无论读者在哪个节点进入,都可以得到类似图2的关联图谱。
资源的关联图谱除了可帮助读者检索资源时获知相关资源,这种“无差别”的链式发现还有助于图书馆发现未被利用或利用率较低的图书,如无关联读者节点的图书节点(如果该书被借过,则有关联节点),这类图书即是所谓的“零数据”资源[23-24],利用知识图谱的“无差别”发现能力,馆员可适当调整“零数据”资源的“曝光”机会,让资源处于“在线”状态,使每种资源都实现其价值,提高馆藏利用率。
3 知识图谱赋能图书馆资源智慧发现和服务系统的构建
3.1 基本思路
以“问题导向”为思路,笔者按照“四大问题”开展相关研究,知识图谱赋能图书馆资源发现和服务系统的构建基本思路如图3所示。
图3 知识图谱赋能的资源发现和服务系统构建思路
第一,不足之处。现阶段图书馆资源数据来源复杂、资源数据分布广、来源多、类型杂、组织程度低;数据无关联,主要依据主题、地域与级别等进行分类归档,组织单元的颗粒度较粗,组织模式是线性的、一维的;数据与应用联系弱,资源数据与其相关的多媒体资源、展览策划、研究文献等长期处于分离状态,没有实现有序的结构化管理。因此,找准、明确现阶段资源发现系统的不足之处是笔者研究的出发点和解决问题的着力点。
第二,方法工具。笔者利用知识图谱有语义、自解释、可计算、能行动的智慧数据特性来组织信息资源。
第三,具体做法。(1)梳理现有图书馆资源数据。如书目数据、用户基本信息、检索记录、借阅记录、活动参与记录等本地数据以及相关的外围数据。(2)确定资源内容具体的“细颗粒度”程度并进行标引。对文本类资源实现篇章级、段落级的标引,实现主题词、关键词的标引建设;对音视频类资源做关键词、主题词控制的内容标引等。(3)搭建知识图谱系统平台。对结构化、半结构化和非结构化的图书馆资源数据进行知识抽取(实体抽取、关系抽取和属性抽取)、知识融合(数据整合、实体对齐、实体消歧)。(4)进行本体构建和质量评估。利用知识推理技术进一步完成资源的发现。(5)资源利用研究。利用可视化技术,构建资源发现和服务系统,实现可视化决策,完成对研究的实践应用,实施系统测试、上线和迭代更新。
第四,预期效果。实现资源的重新组织和发现,实现图书馆资源的搜索引擎可见度以及决策应用。以W3C标准全网呈现图书馆资源,让搜索引擎可搜索到图书馆资源,满足用户对图书馆信息完整发现和即时获取的期望。
3.2 构建原则
构建基于知识图谱的图书馆资源发现和服务系统时应该遵循如下原则:(1)赋予万物以URI(名称),使用URI来识别资源,也就是网络中任何东西或者资源的标识名称,如HTML文档、读者、文献、著者、发行者等,均使用URI来标识和定位,用以帮助用户更加直接地访问资源。(2)利用HTTP URIs,以便用户对这些资源进行访问,并利用HTTPURI对资源进行标识,数据资源可以通过HTTP协议进行访问得到,实现真正意义上Web的访问和互联。(3)检索HTTPURIs时,利用标准的RDF来给出有用的信息数据,而当检索一个URI时,则利用RDF给出和当前资源相关的其他有用信息数据,从而给用户带来更加宝贵的关联资源。(4)数据发布时包含引用内容的其他链接,将更多相关资源的HTTPURI建立语义链接,提高用户对于网络中可能出现的相关信息资源的挖掘、获取和使用能力。
3.3 创新性
利用知识图谱技术实现资源的发现和利用,达到图书馆智慧化管理和服务,是对智慧图书馆服务建设的创新。(1)一种资源组织的创新。利用更加高效的知识图谱技术将图书馆资源相互关联,实现图书馆资源的深度发现和利用,更加直观地展示了资源的脉络。知识图谱将读者、文献、著者等资源相互关联,向读者呈现更全面、更直观的知识脉络。通过知识图谱可以发现这些资源本身并非孤立而是相互关联的。根据关联关系,向读者精准化推送相关信息,读者更容易发现或找到喜欢的文献。(2)一种交互平台的创新。提供了一个能够与读者智能交互的平台,让图书馆更了解读者的情况,同时也让读者了解图书馆。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心——分析用户和理解用户。对于图书馆的读者,系统向读者展示并推荐读者可能未知的资源,引导读者阅读,增强阅读广度和深度,提升读者阅读体验,帮助读者有效发现目标。(3)一种发现方法的创新。有助于消除和发掘“零数据”资源和“零数据”读者,从而提升阅读推广效果。事实上,图书馆存在着大量不活跃资源,它们可能被遗忘,或者显露不了头角,同时也存在着大量的不活跃读者,他们不经常来图书馆。根据知识图谱找到这些“零数据”的关联,从而消除“零数据”。如通过寻找“睡美人”资源、网借服务等手段把图书馆资源“曝光”,吸引读者重新利用图书馆资源。
3.4 关键路径
《关于促进文化和科技深度融合的指导意见》中提出要“利用物联网、云计算、大数据、人工智能等新技术对公共文化服务和文化产业进行全方位、全链条的改造”[25]。建设文化知识图谱,是文化资源数据库建设到一定阶段后的必然选择,是应对数字化、智能化的时代要求,贴合国家新基建的规划思路。借鉴“人、货、场”概念,利用知识图谱相关技术构建的图书馆资源发现和服务系统,通过对图书馆资源的重新组织,从纵向和横向提供更优质的资源服务。
3.4.1 找对“人”:建立读者与资源的关联
建立读者的用户画像,为其提供精准化阅读推广服务。利用知识图谱技术如标签传播、社群发现、复杂网络等,或引入外部知识库扩充、泛化传统用户画像标签,以此来丰富用户画像,弥补其不完整性和不正确性。依托清晰的用户画像,图书馆的阅读推广工作可以更加精准有效。
3.4.2 盘好“货”:深入挖掘基于知识图谱的资源关联
通常,对于某个事件或物品只有一段简单介绍,解释了“是什么”,而关于其“怎么来的”“与谁有关”等相关背景却无从知晓,造成“知其然不知其所以然”的现象。知识图谱能够非常直观地揭示数据以及数据背后的关联,形成“一张网”,真正做到“所见即所得”,使更多隐藏或未知的资源和关系得到揭示。读者通过这张“网”可以直观地看到图书馆更多关联的资源,进而更快地获取有价值、个性化的信息,得到更加精准的服务。图书馆可以更加熟悉自身资源的组成情况,了解资源与资源之间、资源与读者之间的关联,进而帮助图书馆优化资源配置,指导馆藏资源建设,组织和开展知识服务,针对“藏”得太深的“睡美人”资源进行调整,增加“曝光”机会,让资源处于“在线”状态,建立个性化的图书馆资源,提高资源利用率。
3.4.3 建好“场”:去图书馆专业门槛,提升服务体验
图书馆资源的管理和使用等相对专业化,如馆藏查询有专业的检索术语,不如百度、必应等大众搜索引擎简单明了,读者可能需要花费一定的学习成本,检索效率低。利用知识图谱技术将资源关联起来,消除资源孤岛效应,给读者提供直观明了的服务体验——不需要专业知识,只需要“拎”起其中一个节点便能知晓所有相关资源。
3.5 知识图谱赋能图书馆的意义
3.5.1 提供了新时期公共文化事业建设的新思路
智慧图书馆建设是“十四五”时期图书馆转型和高质量发展的重点。知识图谱赋能的图书馆资源发现和服务系统可以在图书馆资源发现和服务过程中发挥作用,提升图书馆智慧化服务水平,为“十四五”时期公共图书馆贯彻高质量发展理念、建设“智慧图书馆”提供新思路。
3.5.2 提高图书馆资源的合理配置和利用率
在馆藏建设方面,能使图书馆更加熟悉资源的组成情况,了解资源与资源之间、资源与读者之间的关联,及时根据数据风向标优化文献资源建设结构,推动馆藏建设高质量发展;在馆藏利用率方面,使图书馆可对“零数据”资源进行适当调整增加“曝光”机会,使每个资源都能实现其价值,提高馆藏利用率。
3.5.3 探索智慧图书馆建设,提供实践经验
知识图谱赋能的图书馆资源发现和服务系统可以提供资源发现、推荐等智慧服务,有助于读者发现图书馆资源,使资源物尽其用,避免资源浪费。打造“润物细无声”的智慧服务效果,为“十四五”时期图书馆转型和高质量发展、智慧图书馆建设提供经验借鉴。
4 结语
社会的不断发展推动图书馆信息服务的巨大变革,图书馆界吸纳了越来越多的海量信息,而海量信息的多样性和多元化给图书馆服务带来更大的挑战。图书馆亟需寻求一种资源管理方式,帮助用户快速、准确地选择资源。知识图谱是一种智慧数据,能够将各类复杂的数据(用户和资源)关联并直观地展示给用户,使读者对隐藏信息的来龙去脉一目了然,体验到智慧化服务,在更短的时间内获取到所需的知识,为智慧图书馆建设提供新思路。
注释:
① RFM模型是衡量客户价值和客户创利能力的重要工具和手段。该机械模型通过一个客户的最近一次消费(Recency)、消费频率(Frequency)以及消费金额(Monetary)3项指标来描述该客户的价值状况。