基于大数据的高校图书馆个性化信息服务系统模型构建研究
2016-12-20胡伶霞
胡伶霞
(湖北工业大学工程技术学院图书馆)
基于大数据的高校图书馆个性化信息服务系统模型构建研究
胡伶霞
(湖北工业大学工程技术学院图书馆)
首先分析高校图书馆个性化信息服务系统的可行性,再与大数据技术处理流程特点相结合,重点分析我国高校图书馆个性化服务系统模型构成,并对系统各大功能与使用时存在的最大难题进行详细分析。
大数据;高校图书馆;个性化服务
1 高校图书馆推行个性化信息服务系统的可能性
1.1 海量数据来源
先进的大数据挖掘分析技术的基础是丰富的数据资源。随着互联网与社交网络的普及,以及互联网技术的发展,用户与图书馆之间的信息交流愈加紧密和频繁,产生了大量数据资源,如用户对图书馆论坛、网页的浏览,借阅、检索图书馆资源等环节中产生的数据都被记录下来。[1]海量的数据资源是高校图书馆能够引进大数据技术的基石,大数据技术只有在丰富的数据资源的基础上才能发挥它的应用功能。
1.2 对用户信息需求的实时了解
对用户信息需求的实时了解是为用户提供个性化信息服务的前提。高校图书馆的用户以本校师生为主,个性化信息需求围绕科研与教学的要求,会不定时发生变化,那么如何准确掌握师生变化着的信息需求成为高校图书馆个性化信息服务最大的难题。图书馆可依据用户上网行为信息,如浏览记录、搜索的关键词等,跟踪分析其实时的信息行为,再利用大数据技术,挖掘到有价值的信息,达到为用户提供有质量的个性化服务的目的。
1.3 对用户真实身份的明确认知
高校图书馆信息资源由于受到版权与经费等因素的影响,在用户登录使用系统之前,第一步就是进行实名注册,为了避免重复,通常使用唯一的工号或学号作为用户名。如此一来,每位用户的身份就可以通过账号来进行识别,大数据技术也通常以账号作为关键字进行挖掘。通过这种挖掘技术分析形成的用户需求信息模型,能对用户的身份做正确的判断,从而为用户提供更有针对性的个性化服务。
2 高校图书馆个性化信息服务系统模型
2.1 目标
为师生提供个性化信息服务主要包含两方面意思:一方面是帮助师生从图书馆所有储藏的信息资源中搜寻到他们所需要的信息资源;另一方面是结合师生实时信息需求,主动推送他们所需的信息资源。[2]
通过大数据挖掘技术不但可以知道用户当前信息情境,还能掌握他们多变的信息需求,最终目的是为用户提供最好的个性化信息服务。
通过图1看出,图书馆服务平台、服务模式与数据仓库收集的数据源是大数据高校图书馆个性化信息服务系统的基石;经过数据挖掘技术,获得实时用户信息需求,再搜索出符合用户所需要的信息;最后经过智能技术把信息输送给用户。这就是大数据高校图书馆个性化信息系统向用户提供个性化服务全部过程。[3]
图1 高校图书馆个性化信息服务系统构建示意图
2.2 模型构建
大数据高校图书馆个性化信息系统有如下几个模块组成(见图2)。
图2 高校图书馆个性化信息服务系统模型图
(1)用户接口模块。用户登陆个性化信息服务系统,需要在接口模块输入账号、密码进行身份认证,登陆后系统会自动把用户基本资料添加到用户信息库,从而形成用户专用信息数据库。同时,用户通过该模块检索数据资源,输入检索要求,系统会自动依据要求进行检索,最后把获得到的资源经过该模块传递给用户。用户还可以对服务的质量进行反馈。
(2)用户信息库模块。用户通过用户接口模块进行登记注册,输入工号、性别、年级、专业等基本信息,系统会把这些格式规整的结构化数据自动存储到用户信息库中,用户反馈的评价信息也作为备注储存于用户信息库。如此一来,图书馆为用户提供信息服务时,可以结合信息库中每位用户的反馈内容主动推送该用户有可能需要的其他服务。
(3)信息过滤模块。信息过滤模块将信息检索模块检索到的用户所需信息进行筛选,依据相关度排序,抓取到相关度高的信息,并结合由用户长期的信息检索行为计算得到的用户模型,筛选、检索信息,该模块会对信息特点进行抽取,得到信息向量模型;然后与用户信息需求模型进行匹配,再清除相关度低的资源。这样所获得的信息资源更能够满足用户需求,提高高校图书馆个性化信息服务质量。
(4)信息检索模块。用户通过用户接口模块输入检索关键词,系统就会自动把用户需要检索的信息通过智能检索代理技术,在图书馆资源中进行搜索,搜索到与用户需求相关的信息并反馈至此模块。倘若在馆内资源中没找到,就会从互联网资源中搜索,把搜索到的相配套的资源信息再存入本地信息库中,补充馆内资源。
(5)数据集成模块。用户信息行为数据存储于图书馆不同系统中,其中一些系统中的数据源会被链接,使用户得到更全面的信息资源,也为下一步数据规范处理做好准备。
(6)数据规范化模块。通过大数据技术对用户信息行为等数据进行挖掘分析,要保证数据的一致性。不同的系统对数据属性的描述存在差异,所以要对数据进行规范化处理,使数据与挖据算法要求标准相符(见图3)。
图3 大数据对数据规范化流程
①数据合成。进行数据合成,需要找到各系统数据库中有关字段之间的联系,建立识别关键字段,通过关键字段把各系统的数据联系起来。
②数据规约。高校图书馆中各自动化系统的标准千差万别,不同系统数据库中对字段的标识也不同,即使是相同的信息被储存于不同数据库,其形式也可能是大相径庭。如在用户信息库性别是“男”,储存于借书记录数据库,其性别可能成为“male”。为了提高数据分辨率,需要对数据进行规约。[4]
③数据优化处理。数据优化处理是指对数据合成与规约后的数据进行处理。尽管利用唯一识别字段使不同系统之间的用户记录信息发生联系,但也有很多问题。比如各系统数据库连接之后,要清除重复字段;又比如有些字段的属性只有一部分数据能够使用,连接之后,其他数据库无法使用,需要补充。
④数据转换。就是指把经过优化处理之后的数据进行变换,使其与大数据挖掘算法要求相符。
(7)数据分析模块。此模块的作用是对规范化后的数据进行处理。由于图书馆自动系统存有大量用户行为信息数据,其中,包括结构化数据、非结构化数据与半结构化数据,一起存入系统日志中。[5]再依据用户获取信息的方式把数据分析模块分成三类:①利用本馆资源获取的结构化数据,使用结构化数据分析模块;②通过网络获取的数据,使用系统日志分析模块;③利用移动社交网络等方式获取的资源,使用特殊信息分析模块。
(8)信息匹套模块。此模块最重要的职能是使用户需求模型与整理得到的数据信息进行匹配,二次挑选出相关度高的信息传送给推送模块,再由馆员选出符合用户实际需求的模型信息。图书馆工作人员可以依据用户需求模型,与互联网资源和本地资源进行比对,及时推送符合用户要求的信息。
(9)信息推送模块。信息推送模块主要采用智能代理技术,依据用户需求,把符合要求的信息通过用户接口模块推送给用户。比如依据图书馆自动化系统对用户进行跟踪挖掘,当用户下次进行搜寻时,系统会主动为用户推荐与搜索相关的内容或者其没有意识到的信息需求;对用户社交网络跟踪分析,挖掘用户实时信息需求,主动向用户推荐提示。
(10)用户评价模块。用户体验收到的推送信息,通过使用评价模块对信息服务做出满意度评价。系统把用户评价信息存储于用户信息库。经过大数据分析,为改善数据挖掘算法创造了条件。
3 存在的问题
3.1 软硬件条件差
由于大数据处理技术需要大量使用数据分析与储存功能,这就需要容量大、速度快的软硬件设备做载体。当前我国有相当部分高校图书馆由于受到经济条件与国家政策等方面的影响,无法满足大数据处理技术的要求,需要先投入一定的资金才能引进大数据技术。
3.2 数据来源的局限性
采用大数据技术对用户信息行为数据进行发掘,生成用户信息需求模型。为了使挖掘结果更可靠,首先要有大量的数据资源,其次是数据之间要有耦合度,这样的挖掘结果才是最真实的信息需求模型。当前,我国高校图书馆通常只是获得校内用户的信息行为记录数据,校外数据要与中国移动或电信等运营商等进行协调才能获得,使数据出现不全面的现象,降低用户信息需求模型的准确性。
3.3 用户隐私的安全性得不到保障
个性化信息服务要对用户的信息行为进行记录,在这个信息获取过程中,难免会对用户隐私安全造成影响。所以,为了保护用户隐私安全,图书馆需要与用户签订保护协议,取得用户同意才能对系统进行监控,倘若有涉及到用户隐私方面的信息要提前删除,还要加强系统安全性,最大程度做到对用户隐私的保护,建立用户与图书馆的信用机制。
[1]贾淑敏.数字图书馆个性化信息服务的实现[J].河南图书馆学刊,2010,30(5):54-56.
[2]S E Middleton,et al.Ontological user profiling in recommender systems[J].ACM Transactions on Information Systems,2004,22(1):54-88.
[3]樊伟红,等.图书馆需要怎样的"大数据"[J].图书馆杂志,2012(11):63-68.
[4]张文彦,等.大数据时代的图书馆初探[J].图书与情报,2013(6):15-21.
[5]苏蓉.基于大数据的数字图书馆信息服务研究[D].武汉:华中师范大学,2014.
[作者信息]胡伶霞(1979-),女,武汉大学图书馆学硕士,馆员,研究方向:图书馆管理,文献信息资源建设。
Construction of University Library Personalized Information Service System Based on Big Data
Hu Ling-xia
Thisarticle firstlyanalyzesthe feasibilityofuniversity library personalized information servicesystem,and analyzes the construction of the system based on Big Data.Meanwhile,itmakesa detailed analysisof thebiggestchallengesexisting in the system and theapplication ofit.
BigData;University Library;Personalized Service
G258.6;G250.76
A
1005-8214(2016)11-0080-03
2016-04-11[责任编辑]刘丹