APP下载

构建图书馆个性化智能信息服务系统的基本路径

2021-03-25浙江中医药大学图书馆

图书馆理论与实践 2021年2期
关键词:个性化人工智能图书馆

沈 杰(浙江中医药大学图书馆)

1 前言

当前,伴随着智能系统深度学习的兴起、大数据的发展、云系统的建设、物联网的流行以及各种自动化系统的涌现,“人工智能”迅速成为流行热词。人工智能(Artificial Intelligence, AI)也被称作机器智能,是通过模拟人的行为方法来让机器也拥有和人相似的能力。目前,人工智能已经渗透到社会的各个领域。将人工智能与图书馆信息服务相结合是促进图书馆转型升级的重要途径,也是由传统的“信息化图书馆”升级为“智能型图书馆”的必由之路。2017 年9 月,武汉大学图书馆与百度公司率先联合举行了AI 图书馆建设合作研讨会,会后双方签订了《百度武大AI 图书馆合作框架协议》[1]。该协议的签订意味着智能型图书馆建设向前迈出了一大步,而如何利用快速发展的人工智能技术构建智能型图书馆信息服务系统则成为图书馆转型升级的关键。

2 智能型数字信息资源的采集与整合

传统图书馆资源是以纸质的形式进行储存,通过图书馆自动化管理系统进行借还操作。随着信息技术的广泛应用和数字时代的到来,数字资源成为高校图书馆信息资源的重要组成部分。相较于书刊、报纸等资源,数字资源具有占地小、内存大、不易损坏、交互性强、囊括范围广等优点。图书馆资源的数字化不但能够扩大用户规模,满足用户需求,还能极大地促进信息资源的交流与共享。对传统信息资源进行数字化后,还要进一步让这些数字化信息资源“活”起来,对数字资源进行知识化的划分和统一标注,使数字资源之间能够进行语义关联和知识化指向,为用户提供直观的信息资源,实现知识导航。

2.1 数字资源采集

为用户提供信息服务是图书馆的重要职能。互联网的迅速崛起使得图书、报刊等文献被逐步取代,取而代之的是各种方便、快捷的数字化资源。但图书馆提供的数字化资源基本上都停留在静态、被动的层面,与读者的实际需求还存在一定差距。如信息引导能力差、检索精度低、个性化检索能力差和缺乏自适应等问题。基于人工智能的图书馆个性化服务系统能够在大数据环境下将海量的信息进行减噪、特征提取、相似度匹配和知识融合等处理,对信息进行有机整合,并根据信息智能推荐引擎实现用户与信息、知识的个性化匹配,最终实现高效、精准、智能的信息反馈。为提高图书馆的信息服务能力,解决图书馆信息服务中现实与用户日益增长的对高效、便捷信息的需求之间的矛盾,帮助用户更准确、快捷地从图书馆中查询到所需信息,建立能够提供个性化主动服务的智能型图书馆是满足新形势下用户对知识信息交互、感知与体验需求的重要途径。

数字资源是海量的,由于资金和技术力量,单独某一个图书馆无法将所有信息资源都收集齐全。因此,图书馆之间应形成资源共享的互利机制,即每个图书馆根据自己承担的任务以及服务的对象,有针对性地制定符合自身的数字资源采集制度。采集的原则可遵循全面性、针对性、时效性、选择性、协调性、需求性、互补性和有效性等原则[2]。采集方式可以遵循:① 通过扫描、文字识别等硬件设施和软件程序将经典纸本馆藏资源进行数字化,同时进行分类整理;② 通过网络爬虫程序自动抓取网上具有价值的信息资源,并根据所抓取的信息类型进行分类存储;③ 不能通过爬虫抓取的具有极大价值的深层次开放存储信息,可以通过手工采集的方式进行补充。

2.2 数字资源整合

图书馆直接采集的数字资源存在许多问题,如信息之间的交叉重复率高、低价值信息过多、冗余信息繁杂、信息关联程度低等。图书馆如何将采集到的数字资源进行优化重组对智能型图书馆建设至关重要,资源的整合可尝试以下方式:① 引入先进的数字资源加工系统实现数据库间无缝检索以及多库数据偶联;② 建立统一联合检索系统,合并不同平台、不同类型数据库的检索功能,实现跨平台信息检索;③ 采用计算机编程中面向对象的方式,以对象的方式存储数字资源元数据,以类指针的方式检索不同类型的资源(文字、图像、音频、视频等),把相同的资源整合、过滤,降低冗余度,实现资源的快速匹配;④ 提取不同类型资源的关键词或特征码,建立以关键词或特征码为基础的资源相似性偶联系统,使检索结果更加全面[3]。

数字资源的采集和整合是建设智能型图书馆信息服务系统的基石,而建立标准的采集方式和整合模式又是当中急需解决的关键问题。图书馆管理人员和技术人员应联合起来共同制定智能图书馆信息服务系统的各项标准,以加快推进智能图书馆的建设。

3 基于人工智能技术的图书馆个性化信息服务系统的建设路径

所谓个性化信息服务就是根据读者的知识结构、信息需求、行为方式和心理倾向等大数据,有的放矢地为读者创造符合其个性需求的信息服务形式与环境,并帮助其建立个人信息系统。虽然目前大多数图书馆都配备有个性化信息服务系统,读者可以根据自身需求检索特定的数字资源。但是,在信息全球化时代,用户面对的是海量的数字信息资源,如果每一次查询都需要用户自己层层筛选,将耗费用户大量的时间成本,严重降低用户体验,而以人工智能技术中神经网络算法为基础的机器学习技术可以很好的解决这一问题。根据用户注册时所填写的基本资料和追踪实时查询时的操作浏览过程,它可以对用户真实目的进行预测并对查询结果进行智能筛选,将大大提高信息服务系统的效率,同时也能满足用户多样化需求。

3.1 个性化智能信息服务系统基本框架

数字化图书馆具有三层结构:用户界面、网络服务器、资源数据库。这三层结构在逻辑上既相互独立,又密切联系,任何一层结构的内涵对于另外两层的功能实现都起着决定性作用。

(1)用户界面可以与用户直接进行信息交互,包括信息的输入、结果的呈现,一般采用浏览器/服务器(B/S)模式。B/S 模式的优点在于无需安装特殊客户端,用户在任何带有浏览器的计算机上即能够进行信息检索。用户界面这一层,主要对用户的行为信息进行采集,包括显式信息和隐式信息。显式信息包括用户输入的搜索文本、用户评价、用户点击的某些单选或复选框等;隐式信息主要包括用户在某个页面的停留时间、用户对某些已经做出的选择进行撤销的行为等[4]。用户信息的获取是对用户进行个性化服务的基石。

(2)信息收集完成之后,便打包传输到下一层——网络服务器层。网络服务器是整个框架的核心,一般用Windows Server 或者Linux 服务器进行搭建。网络服务器的主要功能包括:① 整合分析从用户浏览器上传的信息,实时跟踪用户动态;② 用户行为与需求预测;③ 检索结果智能筛选,按照对用户需求预测结果的相关性由高到低进行排序;④ 针对不同用户建立其特征档案,整合用户的所有信息,构建并实时升级用户个性化模型。服务器基本上承载了整个服务系统的运算需求。由于人工智能算法的加入,势必导致对大数据需求的陡增,同时各种用户行为分析和用户需求预测等提高图书馆智能化的数学模型的应用将进一步增加服务器的载荷。因此笔者认为采用云服务器来搭建网络服务器层将能够有效的解决这一问题。云服务器为智能图书馆所需的大数据分析能力提供基础设施保障。

(3)资源数据库的主要功能包括存储信息数据和管理数据。基本框架中的每一层的部署与完善对于图书馆员都是巨大的工作挑战,仅靠人工或者传统的计算机技术来完成这些工作是不现实的。笔者认为人工智能的引入能很好地帮助解决这些问题,可以采用机器学习的方法来构建一个自动学习、自动升级的个性化信息服务系统。

3.2 个性化智能信息服务系统的模块构建

智能化图书馆的核心任务是快速、准确的为用户查询到其所需的信息资源,建立用户特征模型,推送用户关注内容的实时进展,为用户提供知识导向,实现个性化服务。其中个性化智能信息服务的主要关键在于为用户“量体裁衣”。准确、实时、全面掌握和表示用户的兴趣是一个重要的前提和基础,建立合理的个性化用户模型,使系统能够跟踪用户行为,学习、记忆用户兴趣,描述用户的兴趣特征,据此向用户提供有针对性的信息服务[5]。在建立信息服务系统各个模块时引入人工智能技术,将能够最大程度上满足用户的个性化需求。基于人工智能技术的个性化信息服务系统模块总体上可分为主动信息获取与被动信息推送服务两大类。人工智能的本质是对不同智能算法的应用,笔者将重点介绍现阶段较为热门的人工智能算法、模型在信息服务系统中的应用。

3.2.1 主动信息获取模块

主动信息获取模块负责用户主动搜索行为,包括信息流输入、数据分析、结果匹配、结果输出。其中初始信息流输入,即用户输入决定了后续采用的数据分析方法。信息流的输入方式现阶段以文本、图片、语音三类为主,针对不同的类型需要采用不同的算法进行分析。

(1)文本信息处理技术。文本分析是一个多学科混杂的领域,涵盖了信息抽取、信息检索、机器学习、自然语言处理、统计数据分析等技术。其中最关键的部分是自然语言处理技术,也是文本分析中最难的部分。针对自然语言的特性,在形式语言理论框架下已经建立了不同的模型,形成了自然语言处理的诸多形式化机制。随着深度学习技术的发展,其中基于联结的深层神经网络(DNN)包括卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆模型(LSTM)已经成为处理自然语言的常用模型[6]。深度学习(Deep Learning, DL)是机器学习中一种基于对数据进行表征学习的方法,是一种能够模拟出人脑神经结构的机器学习方法,深度学习的概念源于人工神经网络的研究。而人工神经网络(Artificial Neural Network,ANN) 是从信息处理角度对人脑神经元网络进行抽象,从而建立某种简单模型,并按不同的连接方式组成不同的网络,简称为神经网络或类神经网络。深度学习提出了一种让计算机自动学习模式特征的方法,并将特征学习融入到建立模型的过程中,从而减少了人为设计特征造成的不完备性。在大样本量的训练下,深度神经模型通过自我学习及自动优化升级将能够有效的对输入信息流进行智能化分析,进而获得最佳的输出结果。

(2)图片信息处理技术。人工智能在图片处理上主要有以下四种算法。① 遗传算法(Genetic Algorithm,GA) 模拟了达尔文进化论的自然选择,体现了适者生存、优胜劣汰的进化原则,进化出问题的最优解。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定,具有较强的全局寻优能力[7]。② 蚁群算法(Ant colony Optimization,ACO)来源于蚂蚁觅食。蚂蚁在前行的路上会根据前面走过的蚂蚁留下的分泌物来选择路径,分泌物越多,就会吸引更多的蚂蚁,蚂蚁个体间通过这种信息的交流寻求食物的最短距离。蚁群算法模拟蚂蚁觅食时候的信息素原理,经过多次迭代,找到最佳路线[8]。该算法能用于解决大多数优化问题,在图像分割等领域有重要应用。③ 模拟退火算法(Simulated Annealing,SA)来源于物理中固体退火原理。退火是将固体加热到足够高的温度,使分子呈随机排列状态,然后逐步降温使之冷却,最终分子以低能状态排列,固体达到某种温度状态。该算法具有全局优化性能,在工程中得到广泛应用[9]。④ 粒子群算法(Particle Swarm Optimization,PSO)源于对鸟群捕食的行为研究。鸟群通过自身经验和种群之间的交流调整自己的搜寻路径,从而找到食物最多的地点。其中每只鸟的位置/路径则为自变量组合,每次到达地点的食物密度即函数值。同遗传算法类似,都是基于群体迭代的,但没有交叉及变异,而是粒子在空间搜索并追随最优的粒子。优点是速度快,全局搜索能力强,适用于连续函数极值问题[10]。

(3)语音信息处理技术。对语音信息进行处理,首先需要对语音进行识别。语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类语音中的词汇内容转换为计算机可读的输入,如按键、二进制编码或者字符序列。语音识别技术最初采用的是混合高斯模型(GaussianMixedModel,GMM),随着2009 年Hinton 把人工智能深度学习解决方案引入语音识别,GMM 被DNN 取代。在深度学习框架下,还可以利用更好的模型,如RNN 和LSTM 以及更多的训练数据进一步改进结果,深度学习使得语音识别的准确率能达到99%[11],语音信息最终转变成文本信息进行进一步处理。

3.2.2 被动信息推送服务模块

被动信息推送服务模块负责向用户推送个性化信息,当内容有更新或者更改时通知用户,使用户实时掌握其感兴趣领域的最新进展。信息推送服务的重点在于了解每一个用户的个体特征,适时地推送其乐于接受或者急需学习的信息。与之相反,过多的地毯式推送只会降低用户的体验感,被用户选择自动忽略掉这些信息。因此,图书馆需要针对每个用户建立存储并实时更新用户个性化特征档案。如,高校图书馆可以按照用户所在专业、年级进行初步划分,设置本科、硕士、博士等类别,针对不同类型的用户推荐与之相应的信息。面向本科生,可以推荐其学年的专业课程、专业竞赛和与其专业紧密相关的其他专业的信息等;而针对博士等可以从事科研的用户,根据其专业领域、所关注的科研问题,着重推荐科学前沿的研究论文。除此之外,图书馆还可以建立个人书架,用户可以采用在线文献阅读器,直接进行标注,服务器将所有信息存储到用户个人信息中,方便以后阅读时直接调出。同时服务器还可以收集用户阅读时的重点标记,为用户推荐相关的信息资源。

目前,推荐引擎可以分为传统的基于人口统计学的、基于标签内容的、基于协同过滤的以及基于模型的推荐等类型[12]。① 人口统计学方法通过用户的个人特征如年龄、性别、专业、兴趣等与其他用户进行匹配,然后将匹配上的用户所关注的信息进行推荐,但推荐内容较为片面。② 内容搜索法将推荐问题视作一个寻找相关信息的问题,根据用户搜索历史,利用其某个属性构造一个查询条件,再用该查询条件来搜索匹配的信息并作为推荐结果。这种推荐算法其实就是一个搜索算法,其缺点是在用户查询历史很少时能产生较好的结果,但是在用户的历史记录逐渐增多时,将无法构造一个有效的查询条件。③ 协同过滤算法(Collaborative Filtering,CF)是很常用的一种算法,在很多电商网站上都有用到,在传统算法上具有一定的代表性。协同过滤算法相对简单,而且很多时候推荐也十分准确,但是向量维度越大其计算量越大,不常用于大型数据集。④ 基于模型的方法是使用一些机器学习算法(DNN 等)对信息的向量进行(针对一个特定的用户)训练,然后建立模型来预测用户对于新的信息的得分。流行的基于模型的技术是贝叶斯网络、奇异值分解和隐含概率语义分析。经过大数据的训练,基于模型的推荐系统能较为精确地预测用户的信息偏好。笔者认为在如今复杂的信息环境下,为了向用户提供最佳的信息服务,图书馆个性化智能信息服务系统中信息推荐系统的构建可以采用基于模型的算法。

图1 图书馆个性化智能信息服务系统模型

综上,人工智能技术的发展为图书馆向智能图书馆转变带来了机遇,随着人工智能技术的不断发展与完善,基于人工智能技术的图书馆信息服务系统也将愈加成熟。图书馆要发挥对社会公众信息获取的推动及引领作用,就应走在时代前列,顺应读者需求,努力推进图书馆的智能化发展。

猜你喜欢

个性化人工智能图书馆
坚持个性化的写作
2019:人工智能
人工智能与就业
新闻的个性化写作
图书馆
数读人工智能
上汽大通:C2B个性化定制未来
飞跃图书馆
下一幕,人工智能!
满足群众的个性化需求