基于情景大数据的图书馆个性化服务推荐系统研究
2016-11-19马晓亭
马晓亭
〔摘 要〕大数据时代,图书馆个性化服务面临着诸如数据海量、种类繁多、快速增长、价值巨大的严峻的挑战。本文在描述大数据背景及其特点的基础上,研究了基于情景大数据的图书馆个性化服务推荐系统。该系统将读者的情景大数据引入个性化服务推荐过程,可以全面、及时、准确地评估读者需求,并根据读者的爱好实时、主动地推荐服务。
〔关键词〕情景大数据;图书馆;个性化;服务推荐系统
DOI:10.3969/j.issn.1008-0821.2016.04.016
〔中图分类号〕G250.76 〔文献标识码〕A 〔文章编号〕1008-0821(2016)04-0090-05
〔Abstract〕In the era of big data,personalized service of library face with many challenges owing to the specific characteristics of big data such as high volume,variety,velocity,value.In this paper,on the basis of description of the background and characteristics of big data,explored the personalized service recommendation system for library based on contextual big data.The system input the contextual big date of the readers into the personalized service recommendation process,realized the comprehensive,in time,and accurate evaluation for readers requires,and could recommend services to readers according to their preference actively and in real time.
〔Key words〕contextual big data;library;personalization;service recommendation system
当前,大数据已渗透到所有的行业,可为各行业优化企业生产资源配置、提升服务竞争力、快速发现顾客需求和准确评估服务质量,提供科学的大数据决策支持和反馈优化控制。IBM与牛津大学在2013年3月12日共同发布的《分析:大数据在现实世界中的应用》白皮书中,提出了大数据应用的五大关键性建议,主要包括“以客户为中心”,制订前期“大数据战略规划”;制定全面完整的企业“大数据蓝图”;从现有数据入手,设定并完成短期和阶段性的“大数据战略目标”;根据业务优先级,逐步建立分析体系,循序渐进提升“大数据分析能力”;定制可衡量的指标分析“大数据ROI(投资回报率)”[1]。因此,大数据已成为企业新的生产要素,既是企业基础性资源和战略性资源,也是企业生产力的重要组成。
大数据时代的来临,给图书馆界即带来了机遇也带来了挑战。图书馆通过对大数据的采集、挖掘、分析和决策支持,完成了服务资源的科学配置和服务模式转型,实现了以读者为中心的个性化服务,有效提高了读者的阅读满意度和图书馆服务收益率。但是,大数据具有的数据体量大(Volume)、速度快(Velocity)、模式多(Variety)、难辨别(Veracity)和价值大密度低(Value) 的“5V”特性,也大幅增加了图书馆的大数据采集、噪音过滤、价值密度提升和决策可用性保证难度。因此,图书馆员如何在复杂、多变的大数据环境中挖掘大数据价值,并将大数据科学决策运用到读者需求发现、智慧服务模式提供、个性化服务保障和QOS(服务质量)保证中去,是图书馆增强读者个性化服务的安全性、智能化、经济性和可控性应重点关注的问题[2]。
1 大数据时代图书馆个性化服务的需求与挑战
1.1 大数据时代图书馆个性化服务的内涵变化
传统IT环境下,由于图书馆IT基础设施资源的信息处理、组织和传输能力有限,不能依据读者阅读需求的个体差异化,有效区分时间、地点、个体化阅读需求和阅读模式,为读者提供具有个体差异性的个性化阅读服务。仅仅将阅读服务的重心放在服务推送的总量、稳定性和服务范围保证上,而忽视了个性化服务的精准性和个性化水平。随着科学技术的发展,以及读者的自我认知度、个体阅读需求差异和图书馆服务保障能力的提升,图书馆的个性化服务内涵发生了巨大的变化,要求图书馆服务必须以读者需求为中心,为读者提供符合读者阅读情景感知判断和可满足复杂阅读需求的个性化服务。
据市场研究公司IDC的一项调查显示,全球数字数据总量每两年便翻一番。图书馆界在用户服务过程中,也利用视频监控设备、服务器监控器、阅读终端监控器、传感器网络和用户管理信息系统,不间断地采集读者的海量个体数据,为读者描述一幅精准的阅读自画像。图书馆应通过读者自画像来充分了解用户的个性,并基于大数据决策科学地管理和设计阅读服务的个性化模式[3]。此外,图书馆在个性化服务的提供中,还应针对有相同个性化服务需求的读者群和需求差异性较大的个体读者,控制好个性化服务内容的颗粒度大小,不能因过度强调服务的个性化水平,而大幅度增加服务成本、管理复杂度和降低服务收益。
1.2 图书馆难以在复杂的数据环境中差异化定位读者 (1)图书馆大数据的采集具有数据海量、来源广泛的特点,半结构化与非结构化数据占据大数据总量的85%以上,大幅度增加了图书馆对大数据存储、查找、定位、修改、分析和挖掘的难度,难以满足图书馆大数据即时处理、实时挖掘和动态决策的需求。
(2)图书馆与移动运营商等相关第三方读者服务商,以及图书馆内部不同部门的业务单元之间还没有建立起全局性大数据共享,这些“数据孤岛”的存在严重影响了大数据的价值发现和二次挖掘,导致图书馆不能实现“以读者为中心”的客户需求差异化定位和精准服务。
(3)随着图书馆IT基础设施结构复杂度的增长和服务模式的变革,图书馆大数据产生的速度以几何级数快速增长,多源数据不同的组织结构和采集方式可能产生更高的数据噪声和冗余,导致大数据的价值密度和相关性大幅下降,对读者个性化服务推荐系统的算法科学性和效率提出了更高要求[4]。
(4)图书馆大数据具有多数据来源、非结构化、动态产生和实名(所采集的读者特征信息、行为信息、位置信息、行为过程数据和阅读终端参数等,都对应惟一的用户ID。)的特点,对这些数据的过度挖掘、分析可能会导致读者隐私泄露,而最终影响读者个性化阅读的愉悦感。
1.3 图书馆大数据获取与分析难度快速增长
随着图书馆大数据总量、数据来源、冗余性和噪声的增长,图书馆对数据中心IT基础设施的性能,以及大数据处理的能力、效率、准确度提出了更高的要求,要求图书馆能够对读者服务大数据进行实时采集、快速处理、即时分析和动态决策,有效解决服务大数据因信息过载,而影响读者个性化服务实时性和大数据决策时效性的问题。
在保证读者隐私安全的前提下,如何与百度、facebook、移动运营商等第三方服务商实现用户数据的共享,是提升图书馆大数据价值总量和可用性的重要环节。图书馆的大数据资源通过视频监控设备、服务器监控器、阅读终端监控器、传感器网络、用户管理信息系统、微信和微博等平台采集,这些海量、复杂、快速增长和多结构模式的用户大数据,远远超越了图书馆的数据存储、管理、处理与分析能力[5]。因此,图书馆必须与IBM、亚马逊和百度等世界一流的大数据分析和挖掘公司合作,才能有效应对未来大数据分析与决策的挑战。此外,还应针对大数据时代读者个性化服务需求和部门大数据应用实际,通过图书馆组织结构设计、大数据流程优化、部门间数据的横向整合、统一的大数据管理与应用系统等,提升大数据的价值总量、可用性、经济性和可控性。
1.4 读者忠诚度是图书馆个性化服务应重点关注的问题 大数据时代,读者要求图书馆个性化服务具有服务针对性强、内容多样、智能自动化水平高的特点,同时也要求服务的自动化推送具有较强的主动性和时效性。此外,图书馆个性化服务还面临着两个关键问题:一是海量高速增长的大数据与图书馆数据中心有限数据处理能力之间的矛盾;二是读者多样化的个性化服务需求与图书馆大数据决策有效性之间的矛盾。这两个矛盾能否有效解决,是关系读者个性化阅读服务满意度和忠诚度,以及图书馆服务收益率的关键。
因此,图书馆个性化服务必须以读者需求为中心,以个性化主动服务为目标开展服务活动,通过提升读者的阅读忠诚度来提高图书馆的服务收益。据统计,(1)发展一位新客户的成本是挽留一个老客户的3~10倍;(2)客户忠诚度下降5%,企业的利润下降25%;(3)向新客户推销产品的成功率是15%,向现有客户推销产品的成功率是50%;(4)如果将每年的客户关系保持率增加5%,则利润将达25%~85%;(5)60%的新客户来自现有客户的推荐;20%的客户带来80%的利润[6]。因此,图书馆只有通过科学的个性化服务推送来增强关键读者的忠诚度,不断提升黄金读者所占读者群总数的比例,才能最终增强图书馆的服务总收益率和降低服务成本。
1.5 多维交互数据感知和移动推荐是关系个性化服务有效性的两个关键因素 随着无线传感技术的发展和图书馆服务模式的变革,移动阅读模式有效帮助读者摆脱了时间、地域、阅读方式对阅读活动的束缚,已成为当前读者最主要的阅读模式。据EnfoDesk易观智库发布的《中国移动阅读市场趋势预测2014-2017》数据显示,到2014年,中国移动阅读市场收入规模达到88.4亿元,增幅达41.4%。预计2017年市场整体收入规模将突破150亿元。截止到2014年底,中国移动阅读活跃用户数比2013年环比增长20.9%,达5.9亿。预计到2016年活跃用户规模将接近6.9亿[7]。因此,如何通过多维交互数据感知读者需求和阅读情景,增强移动阅读活动中移动推荐的精准性和时效性,是图书馆提升移动阅读个性化服务保障力应关注的重要问题。
图书馆在读者多维大数据采集中,为了保证读者的隐私数据安全,通常采取ID号标示读者身份或者隐匿重要参数的方式,这可能会导致读者的阅读语境、位置信息、移动路径、身份和阅读社会关系等数据与读者个体脱离,不利于相关大数据的融合、相关性发现和价值二次挖掘。其次,阅读活动是读者众多社会活动的重要组成,图书馆应通过与第三方服务商进行数据共享与交换,将读者的阅读数据放在社交大数据集中进行数据的多维交互感知,才能准确发现大数据之间的关系和隐藏的数据价值。第三,基于多维交互大数据感知的图书馆移动推荐服务,应具有大数据准确、移动感知、强时空性和数据紧密关联的特性,能够对读者的原始活动、半活动及非活动数据进行深度挖掘、分析,才能有效发现大数据间的关系和价值,才能为读者个性化服务的移动推荐提供可靠的大数据决策支持[8]。
2 基于情景大数据决策支持的读者个性化服务模式构建2.1 基于情景大数据决策支持的图书馆个性化服务推荐流程 在图书馆的个性化服务推荐流程设计中,大数据的价值总量、数据可用性、个性化服务推荐步骤的科学性、推荐流程的自主学习与智能优化能力,是关系图书馆个性化服务效率、实时性、经济性和可靠性的4个重要问题。因此,图书馆个性化服务推荐流程的设计,应紧密围绕这4个中心点展开。本文设计的基于情景大数据决策支持的图书馆个性化服务推荐流程,如图1所示:
图1 基于大数据决策支持的图书馆个性化服务推荐流程
底层大数据资源库是图书馆个性化推荐服务决策的基础数据。图书馆在服务大数据的采集中,应保证所采集的服务大数据海量、涉及对象广泛和有深度,所采集的大数据价值能够有效支持图书馆的个性化阅读服务。同时,还应通过大数据的噪音过滤、价值挖掘、数据整合和标准化处理等步骤,努力提升大数据的价值密度、可控性和可操作性,以此降低个性化服务决策对图书馆数据中心IT设施系统的资源需求,最终实现大数据决策效率、实时性和经济性的提升。
基于高价值总量大数据的分析支持,图书馆可准确预测和发现读者的阅读差异化需求,可通过对读者需求大数据模式的分析与判断,为读者千人千面地定制个性化服务内容。在读者的个性化服务推送过程中,图书馆应坚持读者需求、阅读模式、服务推送方式和推送精确度相统一的原则,确保个性化服务推送过程安全、实时、经济和可控。个性化阅读服务质量的评估与反馈控制过程,是图书馆评估个性化服务有效性和个性化服务自我优化的重要步骤。图书馆通过对QOS(服务质量)、读者满意度、服务总收益率的评估,可准确发现个性化阅读服务推荐流程中存在的问题与不足,并依据评估结果对读者需求发现过程实施反馈控制,实现个性化服务推荐流程的自动机器学习与智能优化[9]。
2.2 实现个性化服务的精确推送
基于情景大数据决策支持的图书馆个性化服务精确推送,其本质就是“依据读者阅读需求,在恰当的时间、恰当的地点,把精准的服务推送给正确的人”。图书馆个性化服务的精确推送决策依据是读者的3个重要个体指标,分别为读者个体特征、读者地理位置与移动路径数据、读者的阅读内容历史记录和阅读方式数据。图书馆通过对读者3个重要个体指标数据的采集、分析和判断,能够准确获得读者的性别、年龄、知识层次、阅读兴趣、阅读需求和个体地理位置,并为读者描绘一幅精准的阅读活动画像。图书馆可依据读者的个体特征、阅读需求、阅读模式、阅读社会关系等数据,将读者划分为不同的用户群进行个性化服务定向推送。此外,还可依据个体读者的特殊阅读需求,实现个体读者的个性化阅读需求精准推送,在不大幅增加个性化服务总成本的前提下,提升读者的个性化服务满意度[10]。
为了突出服务推送的个性化水平与精准性,图书馆应加强大数据可用性的优化、大数据个性化价值的发现、线上与线下数据的整合,确保大数据在个性化服务决策中,具有较强的读者个体针对性和数据价值可用性。
个性化移动阅读服务是读者阅读模式的重要组成部分。图书馆在个性化移动阅读服务的推送中,还应考虑在对读者个体特征信息、移动路径、阅读内容与模式等大数据资源的采集中,数据采集的方法、时间、频率和数据量等,对读者移动阅读终端设备电量和数据流量的消耗,不能过分强调个性化移动阅读服务的精准性和实时性,而降低读者阅读终端的运行续航时间和浪费无线数据流量。
2.3 大数据决策应实现程序化管理
图书馆个性化服务中的大数据决策过程,可划分为海量大数据的采集与噪声过滤、相关决策大数据的标准化处理与匹配、大数据的分析与决策、个性化服务质量保证等4个步骤。情景大数据决策的内容主要有读者个性化服务内容的推送、个性化服务需求的发现、增强服务产品功能、个性化服务风险的发现、个性化服务对象与内容的智能匹配、服务广告的精确制定与发送等,这些服务对情景大数据决策的科学性、实时性、精准性和可控性有较强的要求[11]。因此,图书馆在个性化服务中,必须实现大数据决策的程序化管理,才能满足读者个性化服务的需求。
个性化服务决策的程序化,就是图书馆通过计算编程或者数学建模方式,科学、高效地实现对所采集大数据的实时、自动优化与分析,并将分析结果动态运用于读者个性化需求的发现、组织、推送和QOS保证的各个环节中。同时,还应对个性化服务的有效性、精准性、可用性和可控性等,实行全体服务部门、对象、内容和流程的监管,保证图书馆个性化服务的内容、方式、读者需求和服务成本,实现最佳优化与统一,确保图书馆具有最高的个性化服务投资收益率。
2.4 情景大数据决策的个性化服务应以读者为中心
通过情景大数据分析全面了解读者的阅读个性,并在图书馆读者服务的设计和管理中,突出服务的读者个性化特征,是确保图书馆个性化服务供给安全、高效、经济和可控应重点关注的两个问题。
图书馆在情景大数据的采集、存储、处理、分析和决策中,应重点关注能完全反映读者阅读需求、阅读模式、阅读社会关系、阅读情绪和阅读场景的个性化数据。图书馆可通过视频监控设备、服务器监控器、阅读传感器等设备,全面、精确地获取读者的阅读活动日期、内容、时间、爱好、心情、场景、社交关系和个体移动路径等数据,并为读者构建专属的个性化情景数据库。基于读者个性化阅读大数据的支持,图书馆可精确预测读者的阅读需求和阅读习惯变化,能够为个性化服务产品的设计、精确推送和精准营销提供大数据决策支持[12]。
此外,图书馆在读者个性化服务的设计和管理中,能否精确地将有相似特征和阅读需求的读者划分在同一个读者群,以及在为相同读者群开展无差异个性化服务的同时,依据个体读者的个性化服务意愿预测、判定结果,完成单一个体服务的个体化自动推送,是图书馆保证读者个性化服务满意度与有效控制服务成本应关注的问题。图书馆可通过读者个性化服务关注度的动态排名,以及涉及读者满意度与图书馆服务收益的最相关内容,科学评估个性化服务的重要性、用户相关性、推送成本和服务收益贡献,并以评估结果来决定个性化服务推送的内容、方式、时间和对象,可在有效降低服务复杂度和成本同时,大幅增强服务的个性化水平和改善用户阅读体验。
2.5 完成对读者移动阅读情境的精确感知
随着智能阅读终端、智能手机、移动PDA、平板电脑等设备性能的提升和制造成本的下降,移动阅读已成为读者阅读模式的主要组成部分,是关系图书馆读者个性化服务收益的重要内容。图书馆在读者阅读服务中,如何通过移动阅读设备全面采集读者的移动路径、地理位置、阅读内容与模式、阅读终端设备参数等信息,是图书馆有效感知读者移动阅读实时情境、特征及模式,以及准确预测读者的移动阅读服务需求,全面、安全地开展个性化移动阅读服务的前提。
图书馆采集的移动阅读情境大数据主要包括读者移动阅读行为历史数据、阅读内容与模式、移动路径、实时地理位置、阅读心理与情绪、阅读社交数据等。通过对这些情景数据的标准化处理、相关度计算、智能化挖掘、分析与匹配、时空交互语义获取等操作,可准确预测读者移动阅读需求和方式的变化趋势,并在准确的时间、地点将个性化服务以最恰当的方式推送给读者[13]。此外,图书馆还可根据移动大数据的分析结果,准确判断读者的价值级别、阅读活跃程度、阅读忠诚度变化、服务收益贡献和可能流失性,通过个性化服务的提前干预来增强读者的阅读忠诚度和价值等级。
移动阅读服务具有服务场景不确定和突发的特点。图书馆如何依据读者地理位置、阅读实时性需求和移动阅读终端类型等大数据决策结果,在对读者进行阅读内容微推送的同时,避免因服务推送的时间、方式、内容和地点不精确而对读者造成干扰,影响读者的阅读情绪和满意度,是图书馆个性化移动阅读服务应关注的问题。图书馆应通过对读者移动阅读数据的实时追踪和描绘,构建基于读者移动阅读时间、方式、位置和习惯的四维度大数据分析体系,实现基于移动大数据驱动的读者阅读意愿与方式精确预测。并通过对移动推荐服务与阅读场景相关性和读者满意度的评估,反馈控制、优化移动服务推荐系统的建模方式与算法,以此提升图书馆移动阅读服务个性化推送的精确性。
3 结束语
当前,图书馆已进入大数据时代。图书馆通过对服务大数据的采集、处理、存储、分析和决策,高效、实时、经济和动态地发现读者的阅读需求与阅读模式变化趋势,可为个性化阅读服务提供可靠的大数据决策支持。
但是,随着读者阅读需求与图书馆服务模式的快速变革,图书馆的大数据环境呈现数据海量、总量级数递增、价值密度降低、可用可控性差的特点。如何在复杂、多变的大数据环境中,有效提升图书馆大数据的价值密度、可用性和可靠性,并在保证读者个性化服务QOS的前提下,实现对个性化服务成本的有效控制,已成为关系读者个性化阅读活动可持续发展和图书馆服务收益的重要问题。因此,图书馆必须以读者需求为中心,以大数据信息流程和数据生命周期规律为指导,努力优化图书馆内部系统的组织结构,提升图书馆员和数据分析师的大数据素养,不断增强图书馆依靠业务统驭大数据的能力,才能有效地发现和挖掘大数据价值,才能为图书馆个性化服务提供科学的大数据决策支持,才能为读者提供安全、高效、经济和智慧的个性化阅读服务。
参考文献
[1]维克托·迈尔-舍恩伯格,等.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.1.
[2]秦晓珠,李晨晖,麦范金.大数据知识服务的内涵、典型特征及概念模型[J].情报资料工作,2013,(2):18-22.
[3]朱静薇,李红艳.大数据时代下图书馆的挑战及其应对策略[J].现代情报,2013,(5):9-13.
[4]尤海浪,钱锋,黄祥为,等.基于大数据挖掘构建游戏平台个性化推荐系统的研究与实践[J].电信科学,2014,(10):27-32.
[5]谭磊.大数据挖掘[M].北京:电子工业出版社,2014.
[6]张兴旺,李晨晖,麦范金.变革中的大数据知识服务:面向大数据的信息移动推荐服务新模式[J].图书与情报,2013,(4):74-79.
[7]陈臣,尚庆生.基于大数据的图书馆个性化推送服务质量保障研究[J].现代情报,2014,34(11):92-95.
[8]李可风,沈扬.大数据环境下移动数字图书馆信息推送策略研究[J].图书馆学研究,2015,(21):66-70.
[9]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.
[10]孟祥武,纪威宇,张玉洁.大数据环境下的推荐系统[J].北京邮电大学学报,2015,38(2):1-15.
[11]唐杰,杨洋.移动社交网络中的用户行为预测模型[J].中国计算机学会通讯,2012,8(5):21-25.
[12]刘海鸥.面向云计算的大数据知识服务情景化推荐[J].图书馆建设,2014,(7):31-35.
[13]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2012:34.
(本文责任编辑:郭沫含)