APP下载

基于知识图谱的图书馆智能化资源推荐系统架构与优化策略

2023-06-17陈安琪陶兴华

图书馆界 2023年2期
关键词:画像图谱个性化

陈安琪,金 昆,陶兴华,徐 锋

(南京图书馆,江苏 南京 210000)

随着互联网和信息技术的发展,人们获取信息的方式不断变化,接受信息的途径越来越多,随之而来的信息过载导致人们接收有效信息的效率下降。用户对信息的需求愈发精准化和个性化,图书馆传统的文献资源和服务方式已经无法满足读者当下对于信息的需求。在此背景下,图书馆的文献资源不再局限于传统的纸质文献,而是包含电子资源和数字资源,图书馆的信息服务也在向人工智能时代迈进,即从过去的以人的服务为中心,发展为以智能机器的服务为中心。其中,基于知识图谱技术的个性化和智能化资源推荐系统,是图书馆向用户提供高效便捷的智能化信息服务的重要环节。

1 知识图谱及其在图书馆资源推荐中的应用概述

1.1 知识图谱的概念

知识图谱最早是谷歌公司在互联网背景下提出的语义网络知识库,其核心在于从互联网的海量信息中抽取实体、属性及关系,解决个性化推荐、智能问答等方面的问题,并有效提高谷歌搜索引擎的效率。知识图谱使用“实体—关系—实体”模型描述数据,不仅能够表现各种客观存在的实体和知识,还能体现个体间的关联,从而形成语义网络,网络中的节点代表客观存在的概念或实体,节点之间的连线代表它们之间的关系。通过引入知识图谱,图书馆可以赋予知识库逻辑推理的能力,从而挖掘信息之间的关联,将其组织成有一定内在逻辑、能够满足用户需求的知识体系。同时,知识图谱还能够挖掘用户与信息之间,以及用户与用户之间的关系,通过推理和计算,进一步提升资源推荐的精准性。

1.2 图书馆个性化资源推荐研究进展

个性化推荐是基于数据挖掘、融合人工智能技术的智能化推荐,已广泛应用于电子商务等领域,获得了良好的经济效益。图情界的专家学者也就馆藏资源的个性化推荐开展研究,获得一定的理论成果和实践经验。笔者以“图书馆”和“个性化推荐”为关键词,精确搜索2010年以后中国知网数据库中的相关文献,发现2010—2015年之间,我国对于图书馆个性化资源推荐的相关研究开始涌现。例如,朱世清[1]研究个性化推荐在高校图书馆学科服务中的应用;王连喜[2]从数据资源、技术方法和评价标准三个方面对个性化资源推荐进行论述。此外,也有学者对个性化资源推荐的相关技术进行研究,如孔功胜[3]对协同过滤、数据挖掘与发现、信息检索与抽取技术在图书馆个性化推荐系统中的应用进行探讨;陈雅等[4]研究基于自适应网络的高校图书馆用户模型构建和个性化知识推荐服务。2015年以后,随着大数据技术和人工智能的发展,图情领域对个性化推荐的研究开始融入知识图谱、情境感知等人工智能技术,如刘海鸥等[5]通过融合情境感知的用户信息分析,结合协同过滤算法,构建情境化的图书馆资源推荐系统;邵必林等[6]在知识图谱的视域下研究图书馆个性化资源推荐的发展。可见,我国关于图书馆资源推荐的研究与智慧图书馆、人工智能等新技术的发展,以及个性化服务理念的深化密不可分。

1.3 知识图谱应用于图书馆资源推荐服务的优势

首先,应用知识图谱能够有效整合海量信息资源,为资源推荐服务提供基础。图书馆拥有包括传统纸质文献和数字资源、网络资源在内的大量文献信息资源,涵盖丰富多样的内容。应用知识图谱可以对各类信息资源进行深度挖掘和有机融合,形成具有逻辑关联的知识网络,从而提供更精准的信息服务,减少信息过载的问题。其次,应用知识图谱能够进一步优化用户数据的分析和用户画像的构建,从而真正理解用户的需求。人工智能技术的发展让图书馆能够实时拥有海量的多元异构用户数据,包括用户的基本信息、在图书馆的行动路线、信息搜索和浏览记录、对信息和服务的反馈评价等。构建用户信息知识图谱能够全方位地对用户的特征和需求进行画像,并分析用户之间的动态联系,从而实时掌握用户的需求。再次,构建场景知识图谱可以为场景服务提供助力。可穿戴设备、定位技术、社交网络的发展,让图书馆能够实现对用户所处场景的动态捕捉。构建场景知识图谱能够建立用户和场景之间的联系,推理各个场景要素之间的关联,并根据用户在不同场景中的需求进行资源推荐[7]。

2 知识图谱的构建

知识图谱的构建主要有自下而上和自上而下两种方式。自下而上是在实体数据的基础上构建本体;自上而下是指先定义本体,再引入实体数据。目前主流的知识图谱大多采用自下而上的构建方式,包括知识抽取、知识融合、知识推理和更新、知识存储等流程,是一个不断反复循环的过程[8]。

2.1 知识抽取

知识抽取即对采集的数据进行解析,对其中的信息进行识别、筛选和总结归纳,从中抽取包含关系、实体和属性三大要素的知识单元。知识抽取的对象包括结构化、半结构化和非结构化的数据。结构化数据是指能够直接转化为Rdf格式的数据,可以基于规则直接抽取;半结构化数据可以通过包装器进行处理;文本数据等非结构化数据,可以将其转化为结构化数据,或是基于学习进行抽取。

2.2 知识融合

知识融合指的是将多个不同知识库中的数据进行清理、合并,消除歧义,整合为一个知识库,其关键在于通过聚类分析、相似度分析等技术,实现实体对齐。知识库对知识的搜集和描述各有侧重,同一个知识实体在不同的知识库中可能存在不同的描述,有的侧重于对实体本身的描述,有的则侧重于对关系和属性的描述。知识融合可以有机整合实体在不同知识库中的描述,从而使该实体在融合后的知识库中的描述更加全面。

2.3 知识推理和更新

知识图谱能够通过推理和更新不断扩充。知识图谱中的知识以三元组的形式存在,知识推理可以使用神经网络、矩阵分解等方法,基于现有的知识库中已有的关系推理和挖掘隐含的信息与知识,从而推导出新的关系,形成新的三元组[9]。知识更新是指对新的实体数据进行处理,将其添加进已有的知识图谱,实现对知识图谱的深化和拓展。

2.4 知识存储

目前,知识图谱的存储主要有Rdf和图数据库两种方式。Rdf即资源描述框架(Resource Description Framework),使用Rdfs语法的Rdf/xml是最常用的知识存储形式,它是一种在xml的基础上构建的Rdf存储形式,能够方便地发布和共享知识数据,在使用过程中可以通过sparql访问和操作。知识图谱是一种基于图形的直观数据结构,因此图数据库(Graph Database)也是一种常用的存储方式,能够高效进行数据插入和查询,并提供针对图形的算法工具和查询语言。例如,目前广泛使用的neo4j系统,其优势在于具有较强的可扩展性,安全性能高,操作友好,能够通过可视化操作进行图形的检索和访问,具有较高的搜索效率。

3 知识图谱在图书馆智能化资源推荐系统中的应用框架

智能化资源推荐是知识图谱在图书馆信息服务中的典型应用场景,其业务逻辑就是智能化地筛选、过滤海量信息资源,向用户推荐他们最需要、最感兴趣的资源,提升信息利用效率和用户满意度。智能化资源推荐系统不需要用户主动提出明确的需求,可以自动根据用户画像和信息检索行为实时分析用户的信息需求,计算出最符合用户需求的内容。引入知识图谱的智能化资源推荐系统通过抽取资源信息和用户信息,构建信息资源和用户画像知识图谱,通过智能化的算法实现信息资源的智能推荐,整个系统分为数据采集及处理、知识图谱构建、智能化推荐三大模块(见图1)。

图1 基于知识图谱的图书馆智能化资源推荐系统应用框架

3.1 数据采集及处理

采集和处理图书馆大数据为知识图谱的构建提供依据,是整个资源推荐系统的基础。这些数据包括宏观的馆藏建设数据、门禁数据、读者群体特征数据,也包括微观的书目数据、读者个体的特征和行为数据。这些数据来源多样、形式丰富,是典型的多元异构大数据,有静态数据,也有动态数据;有结构化数据,也有半结构化和非结构化的数据,需要对其进行清洗和处理,形成格式统一、结构完整的数据集。

3.2 知识图谱构建

3.2.1 信息资源知识图谱的构建。图书馆智能化资源推荐系统需要构建的知识图谱包括信息资源知识图谱和用户画像知识图谱。图书馆的馆藏信息资源来源和形式各异、内容丰富,深入挖掘和有效整合其中蕴含的知识和信息形成知识图谱,使原本碎片化的信息资源形成有机联系的整体,是图书馆提供资源推荐服务的基础。构建信息资源知识图谱需要从图书馆采编系统中抽取馆藏书目和预购书目信息,包括书名、出版单位、著者、版本信息、分类号等,一般为MARC格式的数据。对于数字资源和网络资源,图书馆可以通过构建数字资源库的方式整合相关资源。此外,还需要抽取反映资源的利用率和半衰期的流通数据,如借阅率、下载率等。在数据抽取完成后,需要进行融合和推理,之后存储为信息资源知识图谱,并且在图书馆的信息资源发生更新时同步更新。信息资源知识图谱能够可视化地展现内容和主题相关的资源、同一著者或出版来源的资源,以及哪些资源被同一读者或同一类型的读者使用过,从而反映资源之间的关系,将碎片化的信息资源联结成结构化的信息资源体系。

3.2.2 用户画像知识图谱的构建。用户画像知识图谱的构建需要对用户的基础信息与行为信息进行抽取和融合,形成能够从多个维度描述用户特征和用户之间关系的画像。基础信息主要是用户注册和登录图书馆时所提交的信息,包括个人的年龄、性别、学历、职业等。行为信息主要采集的是用户在使用图书馆信息资源的过程中所产生的行为数据,包括对信息的浏览、下载、收藏、点赞、评论等。图书馆根据这些信息生成用户标签体系并给每一个标签赋予权重,各个标签之间相互关联,形成用户的整体画像。根据图书馆的实际情况以及用户的信息需求差异,图书馆用户标签体系通常包括基本信息标签(性别、年龄、专业、学校等)、用户行为标签(访问、下载、搜索、浏览等)、社交属性标签(交互信息、意见反馈等)和情境标签(访问时间、位置信息等),不同的标签体系从不同的角度对用户进行描述。利用知识图谱技术可以对标签进行扩展和推理,将用户之间的关系通过可视化的方式呈现出来,从而形成用户画像知识图谱,用以揭示哪些读者具有相似的个人特征和兴趣偏好。

3.3 智能化推荐

3.3.1 基于信息资源知识图谱的资源推荐模式和协同过滤算法。信息资源知识图谱能够体现资源的内容和资源之间的关系,基于信息资源知识图谱的资源推荐模式可以基于资源的相似度和用户对信息资源的历史偏好,为用户推荐类似的资源。这种推荐模式主要基于资源本身的关联度和用户的兴趣画像,因此对缺少用户交互数据的新资源,也能迅速推荐给可能感兴趣的用户,有效提升资源的利用率。此外,该模式具有可解释性,可以通过可视化地呈现信息资源的知识图谱展现资源推荐的逻辑,增加用户对所推荐资源的信任和兴趣[10]。

基于信息资源知识图谱的协同过滤推荐算法的逻辑是建立资源本身,而不是用户的相似度矩阵,即基于用户的偏好发现相似的资源,然后结合用户的交互行为数据生成相似资源列表,推荐给用户。例如,对于资源A而言,如果喜欢资源A的用户中,同时喜欢资源B的比例较高,则资源B与A相似度较高,系统将向喜欢资源A的用户推荐资源B。该算法结合了用户的行为数据,能够根据用户对资源的浏览时间、下载和点赞等行为,以及评价内容等反馈,剔除一些内容相似度较高但是用户并不感兴趣的资源,提升用户满意度。

3.3.2 基于用户画像知识图谱的资源推荐模式和协同过滤算法。用户画像知识图谱以标签化的方式构建用户画像,同时体现用户之间的关联性,通过知识图谱能够发现与当前用户相似度较高的其他用户,并将这些用户感兴趣的资源推荐给当前用户。这种推荐模式主要基于用户本身的信息和属性发现用户之间的关联度,对信息资源知识图谱的依赖性不高。

基于用户画像的协同过滤算法的逻辑是基于用户的偏好,找出与目标用户相似度最高的用户集合,然后将这些用户感兴趣的资源集合推荐给目标用户。例如,对于用户a而言,可以将其对所有资源的偏好程度作为一个向量,通过余弦公式计算出与其相似度较高的n个用户,然后将他们所感兴趣的N个资源进行加权计算,最后将用户a可能感兴趣的Top-N个资源按照降序进行推荐[11]。

3.3.3 基于关联规则的资源推荐模式和算法。基于关联规则的资源推荐算法最早应用于电子商务领域,是一种基于数据间关系的推荐算法。在图书馆资源推荐系统中,图书馆可以通过构建资源与用户之间的关联进行资源推荐,即分析对A资源感兴趣的用户中,同时对B资源感兴趣的用户所占的比例,从而推算出对A资源的感兴趣的用户对B资源感兴趣的程度,并据此作出是否向该用户推荐B资源的决策[12]。

4 基于知识图谱的图书馆智能化资源推荐系统优化策略

基于知识图谱的图书馆资源推荐系统具有智能化、个性化优势,在阅读推广、公共数字文化服务等方面应用广泛,能够有效提升服务水平,但还存在一些不足。首先,资源建设的标准化程度较低,各个图书馆之间缺乏统一的资源建设标准,导致资源整合难度较大,缺乏共建共享的机制,且各馆自建的资源存在滞后和重复建设的问题,质量参差不齐。其次,精品资源的建设相对缺乏,大部分资源以迎合大众口味为主,没有进行深度挖掘。再次,资源推荐应基于用户需求展开,但目前的推荐系统对用户的需求缺乏有效的采集和分析机制,不能做到及时更新,尤其是大部分基层公共图书馆的资源推荐系统功能简单,缺乏用户信息反馈和采集的渠道,难以作出精准的需求预测。最后,用户对资源推荐服务的认识不足,导致服务的覆盖面有限。因此,本研究提出以下优化策略,以期进一步完善基于知识图谱的图书馆智能化资源推荐系统服务。

4.1 基于知识图谱完善资源的整合与挖掘

信息资源是资源推荐的基础,图书馆作为信息资源的提供者和管理者,必须做好信息资源的整合和挖掘工作,对各个平台上分散的信息进行有序化的集中处理,以实现资源利用效率的最大化。在资源整合与挖掘的过程中引入知识图谱技术,能够使图书馆的信息整合工作更系统化,形成结构化的信息资源体系。此外,还可以根据用户画像知识图谱,分析用户可能需要和感兴趣的资源,对其进行深度加工和挖掘,打造优质的数据库。同时,图书馆应基于用户画像知识图谱对用户进行分类,针对不同的用户群体进行个性化资源推荐,引导用户更好地利用资源。此外,图书馆还应积极引导各类用户发挥自己的优势,互相交流和共享信息,并将其中有价值的信息进行整合,避免资源的浪费和信息的分散。

4.2 基于知识图谱的更新提供动态资源推荐

知识图谱能够通过推理和更新不断深化与拓展,馆藏信息资源的剔旧和更新、流通数据的变化,都会导致信息资源知识图谱的更新。此外,随着用户的年龄、工作单位、研究专业和方向等基本信息的变化,以及用户在使用图书馆服务的过程中产生的一系列动态行为数据,用户画像知识图谱也会随之变化。为进一步优化图书馆智能化资源推荐系统服务的用户体验,图书馆应站在用户的角度,以用户为中心,基于动态更新的知识图谱实时更新服务内容和策略,结合智能技术和移动终端,实时提供动态的资源推荐服务。

4.3 发展可视化资源推荐

应用知识图谱能够实现资源推荐的可视化,增强其可解释性。相较于传统的知识库,知识图谱能够对信息进行推理,发现知识之间的深层关联。图书馆在推送资源的同时通过可视化的图形或是词云的形式向用户展示知识图谱,能够让用户直观地了解资源推荐的理由,明确资源的特征和属性,帮助用户判断资源与自身需求的适配度,从而提高信息搜索的效率。此外,可视化的知识图谱还能够帮助用户了解所推荐的资源与知识之间的关系及其在知识链中的位置,并通过知识图谱挖掘其他相关的资源,实现知识的迁移和创新。

4.4 树立品牌意识,加强宣传培训

为进一步扩大服务的覆盖面,增强服务效能,图书馆应有意识地加强服务的资源推荐宣传和对用户的培训。相较于传统的书刊借阅服务,很多公共图书馆的用户对资源推荐服务并不了解。图书馆应树立品牌意识,打造资源推荐服务平台和品牌,同时灵活运用新媒体、社交平台等,进行系统化、品牌化的宣传推广。

为帮助用户更好地利用资源推荐服务,应通过教育、培训等方式提高用户的信息素养,使用户能够更有效地利用信息资源。在“互联网+”时代,可以引入Web2.0技术,搭建线上信息素养教育平台,如美国肯特州立大学图书馆建立TRAILS平台,对用户的信息素养进行实时测评,并为用户提供有针对性的帮助[13]。国内图书馆可以在资源推荐服务的框架内搭建类似的信息素养教育平台,帮助用户进一步提升信息素养,更好地使用图书馆资源推荐服务。

5 结 语

基于知识图谱的资源推荐服务通过智能化筛选、过滤海量信息资源,并根据用户画像和信息检索行为实时分析用户信息需求,提升信息利用率和用户满意度。在我国数字文化建设迅速发展的今天,基于知识图谱的资源推荐系统将碎片化的数字资源进行有序整合并推送给目标用户,其在一定程度上打破了时空的限制,为用户提供了一站式的综合信息服务,进而提高了图书馆的服务效能,实现了图书馆知识服务的数字化转型。相较于传统的图书馆服务,基于知识图谱的资源推荐服务注重资源的深度挖掘和不同用户的实际需求,能够使图书馆为用户实现更精准的信息服务,从而推动图书馆服务的供给侧结构性改革,这也是图书馆提高服务效能、满足用户个性化和精准化需求的有效途径。在信息服务与技术不断融合的时代背景下,图书馆界应从宏观视角出发,针对信息服务存在的问题,将图书馆信息服务的创新与知识图谱技术相结合,利用知识图谱服务的精准化供给更好地为公共文化服务赋能。

猜你喜欢

画像图谱个性化
威猛的画像
绘一张成长图谱
“00后”画像
画像
坚持个性化的写作
新闻的个性化写作
补肾强身片UPLC指纹图谱
上汽大通:C2B个性化定制未来
主动对接你思维的知识图谱
满足群众的个性化需求