APP下载

大数据环境下高校图书馆建立科研数据知识库智能推荐系统的思考

2019-06-05李梅珍

图书馆学刊 2019年3期
关键词:知识库图书馆智能

李梅珍

(广东工商职业学院,广东 茂名 526040)

大数据技术和互联网技术的进步,为人们获取信息提供了便利,营造了便捷畅通的学术交流环境。尤其是开放获取运动的推进,催生了传统的学术交流体系变革。为了更好地满足科研用户的需求,很多高校图书馆与科研机构通力合作,在采集整理数字化科研成果基础上,建立了科研数据知识库,以实现学术资源的长期保存和集中式知识管理。然而随着图书馆数字化进程的加快,科研数据知识库的资源日益增多,数据来源复杂,形式多样,极大地增加了用户手工检索的难度。面对大数据环境下异构分布的海量信息,若高校图书馆依然提供人工检索方式,则不仅延长了用户获取信息的时间,也容易让他们产生“信息迷失”。为解决这一问题,高校图书馆可以构建智能推荐系统,从科研数据知识库中深入挖掘有价值的信息,在集成大规模数据的基础上,分析与揭示具有关联的统计数据,发现其中隐含的规律,并通过分析预测用户需求,达到满足智能化推送服务的目的。高校图书馆本身拥有大量用户访问数据,其中隐藏着很多有用的信息,有助于图书馆全面分析用户需求,也为智能推荐系统的构建提供了支持。笔者在研究国内科研数据知识库建设现状的基础上,提出了智能推荐系统的建设策略。

1 大数据时代高校图书馆科研数据知识库建设现状

1.1 科研数据知识库的由来

科研数据知识库是由科研机构、图书馆等联合建立,专门用于存储、组织、管理与共享科研数据的知识仓储。它起源于美国,是在开放获取运动背景下产生的。互联网时代便捷的信息传播方式,为学术资源开放存取提供了便利,促进了数据密集型科研活动的开展,也推动了科研数据知识库的建设与发展。尤其是近年来大数据、物联网等技术的进步,打破了信息交互的时空障碍,跨学科、跨机构的合作成为现实,营造了协同式科研交流平台。我国学者于2004年引入国外科研数据知识库的案例,并在各级图书情报部门推广。2005年北京大学图书馆联合多所高校发表宣言,指出高校图书馆应该“建立一批特色学术机构库”。2016年9月召开的第四届中国机构知识库学术研讨会上,高校机构知识库联盟(CALIS)正式成立,对建立图书馆科学数据知识库联盟具有指导意义。

1.2 科研数据知识库的特点

高校图书馆建设科研数据知识库的目的,在于帮助科研用户获取所需数据,提高科研数据利用率,促进高校学术水平的提升[1]。高校和科研机构是知识库的建设主体,由科研机构提供数据和技术支持,由高校图书馆负责数据采集、整理与传播工作。这些知识库依托先进的信息技术,实现了大规模数据的存储、传输、管理与共享,主要存缴内容为学术论文、专利文献等,为用户提供了开放的学术资源服务平台,具有开放获取、免费服务的特征,制定了明确的存储与传播政策,有常规数据库无法比拟的优势。近年来,我国教育部推出高等教育文献保障项目,要求整合高校图书馆以及各级文献机构的服务,全面挖掘科研数据资源,进一步推动科研数据开放共享[2]。

1.3 科研数据库的服务功能

高校图书馆科研数据知识库的建立,是教育科研知识基础设施的组成部分,具有高级检索、信息链接等服务功能,能够满足数字化科研服务需求,实现科研成果开放存取,提升科研数据世界范围内的能见度。尤其是大数据时代数据类型日益增多,数据传播途径更加多样化,要求科研数据知识库能够支持多种数据格式,实现大规模数据的批量导入与导出,在满足传统类型数据管理需求的基础上,及时识别、存储、整合新的数据种类,促进不同格式数据的转换,保障数据存储的系统性和完整性。然而与发达国家相比,国内科研数据知识库还存在差距,表现在系统功能单一、个性化服务不足等方面,亟待引入先进技术大力赶超。

2 高校图书馆建立科研数据知识库智能推荐系统的必要性

目前智能推荐系统在电子商务领域得到广泛应用,成为掌握用户偏好并提供个性化服务的工具。将智能推荐系统引入高校图书馆,可以提高科研数据的检索准确率,帮助用户便捷地获取信息,进而提升图书馆知识库的利用率。

2.1 图书馆自身发展的需要

大数据时代数字化资源成倍增长,人们对数据资源的需求量也在逐渐变大,对数字化服务的需求程度更深[3]。面对复杂异构的海量科研数据,高校图书馆不仅要做好数据采集、整合与管理工作,要将繁杂的数据转换为可以统一存储的资源,也有必要借鉴电子商务领域的成功经验,将智能推荐系统作为信息过滤器,以适宜的推荐算法实现用户建模,获得用户的喜好,预测他们的行为动向,最大限度满足他们的深层次需求。加之近年来高校图书馆知识库发展迅猛,运营环境趋向可兼容、可拓展,服务系统的数据分析能力不断增强,信息服务也更加追求开放性,这都为引入智能推荐系统提供了良好的条件。

2.2 满足用户的个性化需求

高校图书馆是为教学科研提供服务的场所,科研数据知识库的建立,目的在于采集、存储与管理数字化学术资源,减少科研用户搜集信息的时间,辅助他们更好地开展科研活动。高校图书馆在科研数据管理方面积累了丰富的经验,拥有稳定的用户群,其服务系统中也保存着大量用户访问数据,若能够借助智能推荐系统集成这些用户数据,并深入挖掘分析,发现隐藏在其中的知识,再依据挖掘结果以智能推荐的方式提供服务,将极大满足用户的个性化需求,进而吸引更多用户参与到图书馆建设中来。加之大数据时代用户的需求日益多样化,高校图书馆利用智能推荐系统,将提高科研数据整合水平,提高获取科研数据的速度,强化服务系统的响应能力[4]。

2.3 实现科研数据的专业管理

科研数据是科研人员在工作中产生的,包括学术报告、期刊文献、手稿等。这些资源类型与存储方式各异,要求高校图书馆提供稳定、安全、长期的存储环境,实现数字化科研资料的专业化管理。然而目前国内科研数据知识库不仅数量少,在科研数据管理方面,也存在资源获取渠道少、用户不认可、版权纠纷等问题[5]。为了更好地适应大数据环境,高校图书馆引入智能推荐系统,依托适宜的推荐算法与数据挖掘技术,实现对知识库资源与用户数据的统一处理,不仅能够发现当前工作中存在的不足,促进管理程序的改进和完善,也可以全面掌握用户需求,根据智能推荐情况动态调整系统服务模式,进一步解决数据标准化建设和资源共享问题。

3 高校图书馆科研数据知识库智能推荐系统的框架设计

科研数据知识库主要为科研用户服务,其中收藏的资源具有很强的专业性。针对不同学科用户的需求,高校图书馆需要主动掌握用户偏好,并在此基础上智能推荐个性化信息。笔者将数据挖掘作为智能推荐系统的核心技术,根据功能差异将推荐系统框架设计为基础数据层、数据分析层、智能服务层3部分,具体如图1所示。

图1 高校图书馆科研数据知识库智能推荐系统框架

3.1 智能服务层

从既有数据库中挖掘有价值的信息,满足用户的智能化服务需求,这是高校图书馆引入智能推荐系统的目标。智能推荐系统在对用户数据进行深入挖掘,获得精准推荐结果后,可以推送至结果展示页面,方便用户在线浏览、评论与交流[6]。智能服务层是图书馆对外服务的窗口和平台,是智能推荐系统的输出端,信息管理人员可以借助该层推送科研数据,用户可以通过该层获得所需的结果。该层设置多个对外接口以方便用户与智能推荐系统的人机交互,凡是注册用户均可以登录服务系统,在线发送知识库访问请求。系统会根据用户聚类分析结果,及时从科研数据知识库中调取数据,然后以直观的形式向用户展示推送内容。

3.2 数据处理层

数据处理层是对各类数据进行集成处理,通过数据挖掘和语义关联,得到用户最感兴趣的资源并推送出去的系统。该层是智能推荐系统的核心部分,涉及到多种数据处理技术,也需要利用适宜的推荐算法,如基于效用的推荐、协同过滤等。通常情况下需要多种推荐算法组合使用,达到扬长避短的目的,保障获得最为精准的推送资源[7]。服务系统需要采集大量用户数据,包括读者注册信息、访问记录、阅读偏好等,并将这些信息导入数据处理层,作为智能推荐的依据。同时要做好用户聚类工作,根据历史数据分析不同类型用户的特点,归纳不同用户群体之间的关联,设置对应的用户标签,以便迅速从知识库中调取相匹配的数据。

3.3 基础数据层

基础数据层是长期存储各类数据的场所,涵盖所有馆藏资源和用户信息,为数据挖掘和智能推荐提供了条件。根据智能推荐系统数据处理的实时性,这些数据分为原始数据、线下处理数据、缓存数据等类型。其中原始数据包括用户信息、文本档案等,线下处理数据包括相似度计算数据、索引文件等,缓存数据包括用户历史访问数据、系统运行数据等。当用户登录图书馆服务界面,在线检索知识库中的资源时,其各项操作均会留下数据记录[8]。智能推荐系统会根据用户数据,判断用户角色与特点,查询对应的历史推荐数据。随着用户行为的不断变化,该层的数据资源也在动态更新,以更好地适应智能化服务需求。

4 高校图书馆科研数据知识库智能推荐系统的技术实现

高校图书馆构建智能推荐系统,能够让用户随时随地获得精准动态的服务,为科研活动的顺利开展提供数据支持。智能推荐系统依赖于大规模数据的高效处理,技术方法对推荐结果的准确度存在较大影响,需要高校图书馆合理选择与正确应用。

4.1 用户兴趣建模

高校图书馆要想根据科研用户的需求,为他们提供个性化的科研数据,就需要掌握用户的兴趣爱好,分析不同用户群体间的异同,确保系统服务的准确度。首先智能推荐系统会调取历史数据,分析服务系统中的用户日志文件,通过数据清洗去除冗余部分,然后将这些数据映射至每个项目对应的属性值上,生成用户偏好矩阵,然后根据属性值计算不同矩阵的相似度,通过相似度对比找到最符合用户需求的资源,将其作为推送结果。在构建用户兴趣模型时,需要借助计时器实现实时更新。若特定时间内的用户日志记录超过阈值,则需要重新生成用户偏好矩阵,并更改既有的数据处理状态,若未超过阈值则不需要更新。

4.2 混合推荐算法

智能推荐模块是高校图书馆服务系统的核心部分,该模块需要处理大规模数据,并选择适宜的算法得到符合用户需求的推送信息。智能推荐模块在工作过程中,对于稳定的用户群体,由于系统中存储有大量用户信息,可以选择协同过滤算法进行数据处理,根据当前用户对既有项目的偏好数据,对其他用户对当前服务项目的偏好进行预测(如下图2)。而对于新用户或信息不完整的用户,就需根据这些用户的基础信息,查询该用户所属机构的借阅记录,掌握他们浏览较多的数据资源,以预测他们的兴趣所在。同时系统可以利用基于内容的推荐算法,详细分析科研数据知识库中的信息类别,建立所有资源的属性数据库,对这些数据进行关键词标注,计算不同科研数据之间的相似度。然后依托用户数据分析,掌握不同用户的借阅习惯,将相似度较高的数据推送给相匹配的用户。

4.3 数据关联推荐

高校图书馆可以利用关联规则,对科研数据知识库中的信息进行关联挖掘,发现不同数据项之间的联系,发现知识库中蕴含的有价值的规则,为个性化资源推荐提供依据。首先智能推荐系统需要根据既有关联规则,计算知识库中各项集的最小支持度,找到所有频繁项集。然后通过置信度计算过滤不相关集合,寻找其中的强关联规则,在度量各类规则重要性基础上,选择最优规则。关联规则挖掘的应用,不需要建立复杂的模型,推荐准确度较高,可以实现离线操作,避免了在线操作过程中系统数据过载的问题。在离线挖掘过程中,系统可以根据既有规则发现用户的浏览模式,并对其进行深入分析,然后将分析结果转化为知识,以此指导智能推荐服务行为。

5 结语

科研数据是大数据时代的新型战略资源,在驱动科技创新方面发挥着重要作用。信息技术的日新月异,改变了传统的学术科研交流模式,数字密集型科研得到蓬勃发展,建立科研数据知识库成为顺应开放获取运动的必然趋势。现阶段国内科研数据知识库的数量虽然不断增加,但依然存在科研数据管理不当、服务模式单一等问题。为此,高校图书馆需要引入智能推荐系统,依托数据挖掘等先进技术,在掌握用户兴趣基础上实现个性化推送,在更高层次上为用户提供智能化服务环境,实现科研数据利用价值的最大化。

猜你喜欢

知识库图书馆智能
汉语近义词辨析知识库构建研究
智能前沿
智能前沿
智能前沿
智能前沿
图书馆
卫星状态智能诊断知识库设计方法
机构知识库建设的动力研究
去图书馆
位置与方向测试题