大数据环境下图书馆学术资源个性化推荐服务研究
2016-08-26黄义文
黄义文
(贵州工程应用技术学院,贵州 毕节 551700)
大数据环境下图书馆学术资源个性化推荐服务研究
黄义文
(贵州工程应用技术学院,贵州 毕节 551700)
[摘要]介绍了大数据环境下图书馆学术资源个性化推荐服务内容;构建了大数据环境下图书馆学术资源个性化推荐服务系统,主要包括:服务系统模型建立、学术资源描述和推荐策略;指出了大数据环境下图书馆学术资源个性化推荐服务的实施途径。
[关键词]大数据环境图书馆学术资源个性化推荐服务
随着现代信息技术的不断发展,出现了大量数据,2012年联合国组织发布了大数据白皮书“Big Data Development Challenges&Opportunities”[1]。大数据时代图书馆学术资源推荐服务最明显的特征是数据量规模巨大以至于仅凭借人工技术很难在计划的正常合理时间内完成对信息的收集、整理、分类、转化,并处理成用户能接受的信息资源。大数据最显著的“4V”特性是信息资源多样性(Variety)、海量性(Volume)、快变性(Velocity)、价值性(Value),主要体现在信息资源的开放和分散、重全体、重关系、重预测等方面,因此面对巨大规模的数据,使用者如何处理和利用这些信息显得特别重要和紧迫[2]。面对这些新形势,图书馆学术资源推荐服务必须改变思维和工作方法,才能解决数据的挖掘、处理和管理,最终实现大数据环境下图书馆学术资源推荐服务的个性化,为学术资源推荐服务的创新发展提供有力支撑。
1 大数据环境下图书馆学术资源个性化推荐服务的特点
1.1学术资源推荐面临海量结构化与非结构化数据的处理
当前的数据种类多种多样而且会来自不同的行业领域,所以它的结构复杂并且会随着种类的不同而变化。大数据的数据结构多样及数据种类巨大等基本特征使大数据的数据价值变得比较稀疏即数据价值密度较低。而且在处理大数据时,一般没有采用处理数据常用的抽样方法,这是因为抽样法只对事物的一些特征进行抽样、挖掘、加工等,而大数据需要对事物的所有数据特点都进行挖掘、处理进而进行存储。随着网络和计算机运用的推广,像QQ、微信、新浪、BBS、博客等这些社交网络的流行,让用户能够主动的发出信息,而不再像以前那样只能够接收到信息,比如用户的一些心得、状态以及图片信息等都能够有效地分享给大家[3]。这就使数据表现出不单只是那种简单的结构化模式,呈现最多的是非结构化以及半结构化的状态。现今用户对信息的需求已经不仅仅只是文字信息,更多的还要通过图片、语音、视频等来传递信息,这就会导致更多非结构化的数据生成。图书馆要想更好地为用户提供个性化服务,只处理那些结构化的数据已经远远不够了,必须把那些结构化、半结构化以及非结构化的数据全部收集起来进行处理,才能满足用户对信息的需求。图1介绍了图书馆对大数据的处理流程。
图1 图书馆大数据处理流程
1.2个性化推荐服务是学术资源深层次服务的新动向
个性化推荐服务是大数据环境发展的必然产物,它不但能够通过需求信息给用户提供有用的学术资源,而且还能够通过对读者的专业进行归纳、对读者的兴趣爱好进行分析,向用户推荐他们可能会感兴趣的信息。有了个性化推荐服务这种新方式,用户不用再亲临图书馆就能够感受所有在图书馆里可以感受到的信息并且如身临其境。个性化推荐是大数据发展的产物,是在大数据库里挖掘某类知识的一种应用技术。由于系统结构并不一样,分为内容推荐系统和协同推荐系统两种类型:内容推荐系统是通过用户的兴趣来推荐他们可能会感兴趣的信息;协同推荐指的是通过用户对某种信息需求的相似性来为用户推荐的。个性化推荐系统把这两种推荐方式的优点集于一身,把为用户推荐信息的程度达到了又好又精准。因此个性化推荐服务在一定程度上加大了信息资源服务力度,是一种最大限度满足用户个性化信息需求的服务。
1.3数据整合为学术资源个性化推荐服务提供保障
大数据时代,其标志是大量密集型的数据,科学研究在分级、备份以及保护数据方面提出了更高层次的数据共享需求。伴随不断增长的学术资源,图书馆面临新的问题,即如何对这些海量的资源数据进行保存。从图书馆的角度来看,大数据时代的到来改变了数据利用、管理的方式。尽管新出现的云存储、Web挖掘等技术可以对这一格局从局部进行改善,但是对数据存储格式统一等[4]问题尚无很好的解决方法。大数据涵盖了所有学科、各类来源、各类层次研究人员以及研究各个阶段的数据,这些数据具有多样性、共享性以及复杂性的特点,这些数据的整合为图书馆学术资源的个性化推荐服务提供了可能。
2 大数据环境下图书馆学术资源个性化推荐服务内容
2.1基于模型的协同过滤学术资源推荐服务
常见的通过项目来推荐服务的主要缺点是数据量太少,不能对那些大数据进行很好的挖掘及处理,从而给用户资源推荐带来不利的影响,故发展了通过模型来进行推荐的协同推荐服务。协同过滤推荐是先通过了解读者访问的历史记录,以此建立模型,推测读者的兴趣爱好,并通过这个模型来分析读者急需的信息资源,进而通过信息内容及读者兴趣推荐资源。这种推荐方法,主要是通过找到读者的需求并以此为模型,使用最多的方法有机器学习统计模型、贝叶斯模型、概率相关模型以及线性回归模型等[5]。
2.2基于关联规则的学术资源推荐服务
在庆祝海南建省办经济特区三十周年大会上的讲话中,习近平总书记指出,坚持党的领导,全面从严治党,是改革开放取得成功的关键和根本。当前,中国特色社会主义进入新时代。这个新时代是中国特色社会主义新时代,而不是别的什么新时代。推进新时代改革开放,党的领导起决定性作用,必须始终不渝、与时俱进坚持党的领导。
数据挖掘指的是通过某种方法对数据进行分析,进而找到一些比较有用的信息资源,其中关联规则挖掘是数据挖掘技术中一项必不可少的挖掘方法,通过在很多数据库中发现某种事物之间的关系,从而能更好地为服务提供必要支持。文献资源的关联挖掘指的是利用用户的历史访问记录来发现信息资源之间的关系,从而完成信息的推荐服务。由于规则中有很多可变因素,因此分为布尔型关联规则和数值型关联规则两种类型,又由于规则中数据的抽象层次能够分为单层关联规则以及多层关联规则,并且规则中的一些数据的维数又能分成单维和多维两种类型。基于关联规则的信息资源的推荐,一般情况下转化率是非常高的,这是由于用户在图书馆获取学术资源时主要是访问那些常见的、专业的、价值高的资源。
2.3基于资源内容的推荐服务
图书馆个性化推荐服务系统根据用户对信息资源的需求提取信息,再匹配用户的兴趣爱好模型,这样就能够向用户推荐吻合率较高的信息资源了。举例来说,当向用户推荐信息资源的时候,系统就会通过模型来分析用户可能会对哪种类型的信息资源感兴趣,再从图书馆里筛选出和读者兴趣爱好最相近的资源来推荐给他们。这种推荐方法更适合那种对自己的兴趣爱好特别明确的用户。当用户在对信息资源进行检索时,输入某个检索词,就会有一系列的结果显示出来,然后再通过查看某个文献的标题,这个文献资源的详细信息就会显示出来。在一系列的检索结果里,只要把和检索词最相关的结果排在最前面就能很好地展示给用户了。
3 大数据环境下图书馆学术资源个性化推荐服务系统构建
3.1服务系统模型
大数据环境下的图书馆个性化推荐服务是通过对用户的特征、兴趣类型还有对信息资源的访问历史来进行挖掘,通过读者的兴趣爱好来推荐资源,也能把和这位读者具有相似兴趣爱好的人集合起来从而对他们进行推荐,还能过滤掉那些用户不需要或者不感兴趣的信息资源。数字图书馆个性化资源推荐服务系统由3个非常重要的模块组成:读者兴趣模块、推荐资源对象模块以及推荐算法模块,如图2所示。
图2 个性化资源推荐服务系统模型
3.2学术资源描述
3.3推荐策略
推荐策略是整个学术资源个性化推荐系统必不可少的组成部分,它对推荐系统的性能好坏都起着至关重要的作用。因为学术资源丰富多样,选择什么样的个性化推荐服务以及该如何选择是当前需要面对的一项重大问题,因为这会直接导致目前图书馆个性化推荐服务能否成功。另外,学术资源个性化推荐系统主要是由推荐策略和架构模型组成,其中架构模型是连接推荐系统功能和资源描述的纽带,还是整个推荐系统的核心组成部分。
内容推荐策略是资源信息过滤技术不断发展和完善的重要组成部分,通过学术资源的内容信息向用户推荐学术资源,而且不需要用户的直接评论;内容推荐策略最大的优势是解决了数据稀少的问题,但是它也要求信息资源的内容能够容易描述出来从而进行抽取,像一些论文、课件等就适合利用这种方法。还有一种协同过滤推荐方法,它是通过利用最相近的计算方法,通过用户的历史访问记录以及兴趣爱好来产生用户最近的信息需求,从而能够判断出用户对这种信息资源的需求程度,这样就产生一系列能够推荐的列表;协同过滤推荐策略可以把非结构化的数据进行综合处理,而且还能够找到读者的某些兴趣爱好,当然还是避免不了现在数据稀少、数据扩展的问题,当然它对教学视频等一些非结构化信息资源等都能进行比较有效的推荐。现在为了避免以上两种方法的缺点,结合其长处,笔者所研究的推荐系统利用内容推荐和协同过滤推荐相辅相成的方法,主要有变换、混合、层叠等。
4 大数据环境下图书馆学术资源个性化推荐服务的实施策略
4.1转变推荐服务的方式与理念
在信息爆炸的时代,对于图书馆来说,急需发生转变的就是学术资源服务方式,但是转变服务方式需要图书馆对传统的服务理念从根本上进行改变。从这个意义上来说,图书馆也要着重对创新人才的培养,在大数据背景下,挑选学科知识基础扎实、具备较强技术能力的人才,通过培养,充分发挥这些人才的能力,完成图书馆的个性化服务。在大数据环境下,图书馆的学术资源推荐服务在运行学术服务项目时要用科学的发展观看问题,在“降本增效”的指导下,对服务创新效益做以全面的评估;跨领域实现战略的设计和合作;在信息安全方面,开发数据密集型方法,提升安全级别;在图书馆构建多维学科服务等,提升大数据环境下其对学科服务创新的效果。
4.2确认并统一用户的身份认证
图书馆学术资源个性化推荐服务主要是针对用户的,因此在图书馆学术资源推荐服务的过程中,用户需要有一个统一的身份才能方便图书馆对读者进行跟踪并获取其兴趣爱好。目前,图书馆都有自己的服务系统,像OPAC系统、校外访问系统、咨询服务系统、资源检索系统等[7],并且这些机制的身份认证都不统一,这样用户在使用系统时就需要输入不同的信息,导致了系统不好对读者进行认证。完成对读者身份的统一认证,可以与用户在学校的身份信息相对应,这样让用户能够更方便地使用图书馆系统,从而能够为图书馆个性化推荐服务系统提供比较一致的身份认证信息。
4.3引入数字化技术提升服务能力
在大数据背景下,传统单一的图书馆学术资源已经满足不了高校的科研需求。同时社会资源服务机构也对图书馆产生了冲击,所以图书馆要加强数字化进程,开拓个性化推荐服务才能更好地为用户提供服务,其关键就是把数字化应用技术引进来,该技术是图书馆和现代技术的完美融合。图书馆应该基于现有的学术资源服务模式,充分利用各种现代化数字手段,搜索和整理互联网上的有用资源,提供给用户参考。在传统意义上,图书馆探索的学术资源服务模式主要以纸质资源为主,大数据环境下已经发展为以数字化资源服务模式为主,这种数字化的服务模式能有效化解图书馆服务与用户信息需求之间的矛盾,促进图书馆文献资源建设的多元化和融合、信息资源数字化管理与服务的水平,从而提升个性化服务能力。
5 结语
大数据环境下图书馆学术资源越来越多,科研人员必须花费大量的人力、物力、财力才能得到所需的信息资源,个性化推荐技术能向用户推荐最急需的学术资源信息,从而很好地解决用户科研需求,同时也大大提高了学术资源的利用率。
参考文献:
[1]樊伟红,等.图书馆需要怎样的“大数据”[J].图书馆杂志,2012(11):63-68.
[2]董秀娟.网络环境下图书馆个性化信息服务研究[D].曲阜:曲阜师范大学,2010.
[3]黄永勤.国外大数据研究热点及发展趋势探析[J].情报杂志,2014(6):99-104,78.
[4]容春琳.公共图书馆应用大数据的策略研究[J].图书馆建设,2013(7):91-95.
[5]杨海燕.大数据时代的图书馆服务浅析[J].图书与情报,2012(4):120-122.
[6]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[7]张文彦,武瑞原,于洁.大数据时代的图书馆初探[J].图书与情报,2013(6):15-21.
黄义文男,1977年生。本科学历,馆员。研究方向:读者服务。
[分类号]G252.7
收稿日期:(2016-03-30;责编:徐向东。)