APP下载

基于多源数据融合的数字图书馆情景化推荐模型

2019-06-05

图书馆学刊 2019年3期
关键词:情景个性化图书馆

黎 伟

(西南政法大学图书馆,重庆 401120)

随着大数据技术快速发展,全球进入大数据时代。微软亚洲研究中心和微软信息技术商业服务公司数据研究报告指出,当今全球数据以指数级增长,数据总量快速扩大,对数据融合模式及数据分析技术的研究将引领新一轮的社会创新热潮,进一步推动知识数据服务创新。多源数据融合成为图书馆预测读者知识需求、阅读习惯、行为习惯、引导数据服务方式变革、评估用户满意度及提高知识服务能力的支持技术。伴随着多源数据融合技术在图书馆领域的广泛应用,数字图书馆知识环境呈现“4V+1C”特征:数据量巨大(Volume)、数据种类多样(Variety)、价值密度低(Value)、运算速度快(Velocity)和数据结构复杂(Complexity)。该特征导致图书馆难以在结构复杂、种类多样的数据环境中有效聚集高价值的信息数据,提高了数据融合的难度,影响了图书馆数据资源的利用效率。由此,如何针对不同来源数据实现有效融合,从不同种类、不同结构、复杂多样的数据中提取出有价值的信息成为衡量数字图书馆提高自身知识服务能力的重要标准[1]。我国学者从上世纪80年代开始关注多源数据融合技术的发展,并在政府、高校、科研机构的支持下将多源数据融合技术纳入为计算机科学领域的重点建设项目,众多图书馆学、信息学、情报学、数学领域的学者开始了多源数据融合技术的研究与实践。

1 多源数据融合的理论基础

1.1 多源数据融合的内涵

多源数据融合(Multisource data fusion)是指利用不同的算法工具及数据技术在有效搜集、整理、调查、分析相关数据类型、结构、价值的基础上,使多种来源的数据融合在一起,对多种类型数据进行科学客观的评价与分析,最终获取高价值的信息资源的过程。多源数据融合的目的是将不同种类、不同结构、不同内容的数据进行综合优化处理,发挥不同来源数据的优势,从海量数据中提取出具有统一结构特征,比单一数据更可靠、更有价值、更科学的数据,满足决策管理需要,使服务用户的数据更具科学性[2]。

1.2 多源数据融合技术与多源数据融合系统

结合目前研究来看,多源数据融合技术是一种针对多种来源数据进行综合分析、计算、挖掘及管理的数据处理技术,通过对数据资源的全面挖掘、分析、整合使数据成为互相联系的有机整体,便于信息分析人员对数据全面掌握。基于多源数据融合技术产生的多源数据融合系统在信息情报机构得到了广泛应用。该系统由两部分组成,分别为数据分布式处理模块和数据识别模块。数据分布式处理模块的功能是针对多种结构及类型数据进行分布式处理及融合重构,使用算法工具对多元数据进行深入挖掘,生产出客观准确、科学有效,满足决策服务需求的高价值的信息数据[3]。数据识别模块是多源数据融合系统的核心模块,主要功能是对数据全面感知,分析数据结构,确定数据类型。数据识别系统能对传感器传递的用户行为数据感知,记录读者的行为数据,分析用户使用系统的日志信息,确定用户的服务需求。需要注意的是,数据识别系统数据感知的精准度、知识获取的科学性及数据搜集范围,会影响系统运行效率。

1.3 多源数据融合的实践意义

多源数据融合技术满足了人们多渠道获取数据、多元化使用数据的需求,是信息技术发展的实践成果。图书情报部门经过不断探索与有益尝试,证明了多源数据融合技术的可靠性及其优势,也彰显出多源数据融合作为新技术的应用价值。这种数据融合技术与传统的数据使用方式有着本质的不同,借助数据分布式处理系统、数据识别系统能精准识别多种数据源,并针对不同数据源数据的结构、类型分析、评价进行数据融合[4]。在社会实践中,多源数据融合技术能帮助人们挖掘数据价值,发现数据的变化规律,掌握数据的内部关联[4]。

2 数字图书馆多源数据分析与情景化推荐

目前,很多数字图书馆就多源数据融合技术进行了研究,并将其应用到情景化推荐中,力求对多源数据有效搜集、分析、统计,提高知识服务的有效性,更好地满足用户的个性化需求。

2.1 数字图书馆中的多源数据

数字图书馆作为基于互联网、计算机系统建立的数字化知识服务系统,数据来源更为多样,包括外部数据源和内部数据源两部分。外部数据源包括外部传感器数据、环境信息采集数据、社会环境数据、用户信息数据等,内部数据源包括互联网数据、内部传感器数据、用户行为数据、用户反馈数据、数据库文献、互联网日志记录及采购的电子文献数据等。数字图书馆针对不同来源数据聚合、分解、挖掘、分析,获得比单一数据源更可靠的数据。

2.2 数字图书馆多源数据分析

多源数据的典型特征是种类、结构多样化,在数字环境中由于异构化数据的碎片性和非结构性,数字图书馆需要对多源数据进行实时分析。可挖掘分析的数据的共同特征是用户的行为数据或用户访问的日志记录,也有可能是某一学科同一主题的数据。数据具有互补性,不同来源数据在日志记录及字段上具有互补性,以保障数据结构的完整。数据分析分为3 个环节:数据拆分、数据记录、数据统计,每个步骤涉及不同的处理技术和具体的处理标准。在数据分析中,一段数据可能包括多个主题,这时要对数据进行拆分,对数据主题归类。数据记录是指数据分析过程中很多字段表达相同含义,但说法不同,要选择同一字段代替。如“多源数据信息环境”与“多源数据融合环境”,虽然这两个字段的表达方式不同,但都可以将主题确定为“多源数据环境”,也可以归类为“多源数据”。可以使用Excel 表格工具对多源数据进行记录,并对主题数据进行统计,从统计数据中分析某一时间段用户行为变化趋势及主要需求,调整服务方式。

2.3 数字图书馆多源数据分析与情景化推荐的关联

目前,数字图书馆在多源数据的情景化推荐方面取得了初步成效,如面向用户提供数字阅读服务的数字阅览室都根据用户知识获取情景安装了识别软件,移动阅读器,用户数字服务系统也安装了多种情景推荐工具,初步实现了数字化情景推荐服务。在读者情景管理方面普遍实现了读者借阅情景分析、情景需求分析,根据读者需求为读者提供满足其个性化需求的阅读材料。借助多源数据技术在数字服务中达到科学化、流程化、数字化分析用户情景,并根据用户情景推荐知识的目的。多源数据融合技术应用于数字图书馆用户服务、科研、管理及图书管理员工作生活各个领域,使数字图书馆更能精准地感知用户需求,使图书馆工作人员及时掌握阅读文献动态。同时,数字图书馆“数字服务体系”建设使数字网络规模快速扩大,传统的数据架构已经无法满足数字图书馆多源数据处理需求,多源数据融合技术更容易使传感器针对用户情景抓取各类型、各结构数据形成实时、科学有效的融合分析机制,对用户需求精准定位。多源数据融合技术使数字图书馆用户服务情景中各类数据关联性越来越强,借助元数据解析数据主题、含义,并开展自动的挖掘分析和深度融合,对数字图书馆过去、现在、未来读者服务提供有价值的数据支持,更有效地满足读者的个性化需求[5]。

3 基于多源数据融合的数字图书馆情景与用户的个性化情景分析

3.1 情景的含义及分类

3.1.1 情景的含义

根据多源数据融合技术、数字图书馆的特点及用户的知识需求,笔者将数字图书馆的情景定义为多源数据推荐的用户即时数据需求的时间、地点、环境,如用户使用数字图书馆的环境、知识偏好、阅读习惯、使用数字图书馆的地点、时间等。

3.1.2 情景的分类

根据情景的基本定义和用户使用数字图书馆的基本情况,数字图书馆的情景可以分为用户情景、位置情景、时间情景、环境情景和设备情景,在用户使用数字图书馆的不同环节呈现出来。

(1)用户情景

用户情景指用户使用数字图书馆产生的情景信息及使用数字系统获取知识时的行为状态及阅读偏好。如用户使用数字图书馆是学习还是工作,用户休息时喜欢运动还是游戏,在运动或游戏时会怎么做出选择等。这些情景要素都会影响用户的注意力、时间分配、行为选择,是影响数字图书馆情景化推荐的重要变量因素。

(2)位置情景

位置情景是指用户使用数字图书馆时所处的位置,对用户所处的位置进行情景描述,所产生的情景信息与用户的位置有关。如用户使用数字图书馆时是在学校、还是家里及与所处位置相关的信息等,包括用户所在的城市、所处的位置类型(家里、学校、社交场所等),用户所处周围人员情况等。

(3)时间情景

时间主要描述用户使用图书馆时间段及使用数字图书馆所消耗的时间,用时间情景描述用户的习惯及行为偏好,如用户使用平板电脑浏览数字网站的时间(早、中、晚不同的时间段),用户在不同的时间段对数字信息有着不同的需求,在休息日关注休闲娱乐,在工作时间更加关注与专业相关的书籍。

(4)环境情景

环境情景是指用户在使用数字图书馆情景推荐系统时所处的环境,描述用户的环境信息,包括温度、自然景物、天气、湿度等要素。数字图书馆用户经常处于不同的环境中,情景化推荐系统的设计时要多角度考虑环境要素,了解用户使用数字推荐系统的真实状况、阅读需求及其变化情况。

(5)设备情景

设备情景是指数字图书馆用户获取知识资源的数字移动设备,如智能手机、智能平板电脑、移动阅读终端。设备情景主要描述两个方面:一是硬件设备信息,如数字设备的信息显示方式、设备形态;二是设备的网络信息,包括硬件设备的联网方式、网络显卡、网络传输效率大小、网络型号等,精准定位用户需求,以数字信息的方式将设备情景信息共享给用户。

3.2 用户个性化情景的确定

目前,对用户个性化情景研究以用户使用图书馆的整体情景作为研究对象,对用户个性化情境研究的不足,造成了情景推荐结果与用户的个性化需求存在一定偏差。在数字信息推荐过程中,情景信息推荐需要根据用户所处时间、环境、地点确定。有些学者认为上述这些要素都重要,有些用户却认为不重要,还有的用户只认为时间、地点等要素重要。在笔者看来,能从用户的全部情景要素中帮助每位用户做出选择,可以减轻情景推荐系统运行负荷,精准确定用户的个性化情景,使情景化推荐效果更加显著[6]。

4 基于多源数据融合的数字图书馆情景化推荐模型构建

目前,数字图书馆情景化推荐系统大多是基于用户整体情景感知开展的信息推荐活动,忽视了对用户个性化情景的分析。由此,数字图书馆情景化推荐应在深入分析用户个性化情景的基础上构建情景推荐模型(如图1所示),精准定位用户的情景需求,为用户提供适合的情景信息。

图1 基于多源数据融合的数字图书馆情景化推荐模型

4.1 个性化情景分析模块

该模块主要功能是从用户全部情景信息中,找到对用户数字阅读影响最大的情景要素,即对用户的个性化情景进行针对性分析,找到用户当前情景的需求点,并对用户的个性化情景信息进行总结,精准判定用户的兴趣偏好。对用户当前情景的感知可依靠数字图书馆系统内部的传感器、RFID技术实现。多源数据融合系统对获取的用户信息多角度进行融合,并使用数据库对用户使用系统的日志记录存储,对用户行为数据及情景信息做出评价,数据评价标准首先从用户、数字信息、情景信息各个角度找到信息共性,再结合存储的用户情景数据组成多维情景历史评价数据链实现对用户需求的精准感知与分析,多个角度判定用户行为偏好和阅读习惯。该模块是数字图书馆情景化推荐模型用户情景感知与需求分析的基础,也是多源数据融合的重要数据来源,是数字图书馆情景化推荐模型建立的依据。

4.2 多源数据融合推荐模块

多源数据推荐模块是数字图书馆情景化推荐模型最重要的组成部分。该模块首先针对用户使用数字图书馆的情景精准感知,从多种情景信息中分析出用户的个性化情景,得到基于用户个性化情景的多源数据,然后使用算法工具对用户的个性化需求精准分析,围绕用户的情景需求进行多源数据推送,这些多源数据有基于用户个性化情景的时间信息、位置信息、环境信息,也有根据用户情景为用户推荐的信息,包括数字图书馆的日志记录、高频词汇信息,也有最新的数据资源信息等,最大程度上满足用户的个性化需求,实现多源数据融合推荐。

4.3 用户与多源数据推荐系统交互模块

用户与多源数据推荐系统交互模块是数字图书馆情景化推荐模型不可缺少的一部分。数字图书馆用户是多元数据推荐系统的服务对象,用户在使用数字图书馆过程中向多元数据推荐系统发出指令,系统根据用户的情景信息向用户精准推送多源数据,用户当前接受服务情节与用户对系统推荐结果的评分及时上传到多源数据仓储中,实现数字图书馆用户服务情景与评分的动态更新。用户与多源数据推荐系统交互模块的功能设置,助力数字图书馆实时把握用户动态,精准分析用户需求,时刻检验系统服务评价结果。

5 结语

基于多源数据融合对数字图书馆情景化推荐模型展开研究,有助于弥补当前数字图书馆针对用户整体情景分析的不足,从多元情景中确定用户的个性化情景,基于多源数据融合技术对用户情景信息进行分析,精准定位用户需求,基于用户情景使用算法工具为用户推荐多源融合数据,促进用户对情景化推荐模型的实时评价,注重动态反馈,实时把握用户动态及情景变化。

猜你喜欢

情景个性化图书馆
情景交际
一种融合PageRank和PersonalRank的多层个性化推荐算法
坚持个性化的写作
石化企业情景构建的应用
图书馆
楼梯间 要小心
上汽大通:C2B个性化定制未来
同桌宝贝
把美留在心里
去图书馆