APP下载

基于大数据背景下的公共图书馆用户行为分析与应用

2016-12-08史叶明

新世纪图书馆 2016年10期
关键词:南京图书馆数据挖掘国学

史叶明

基于大数据背景下的公共图书馆用户行为分析与应用

史叶明

信息技术发展的背景下,公共图书馆面对日益增长的读者需求,需要能够及时了解并掌握读者的兴趣爱好及阅读特征情况。本文通过分析各类用户行为数据来源及特征,从图书馆服务效能、个性化服务及创新管理模式等方面阐述了读者行为分析的目的和意义。

图书馆读者访问数据挖掘行为分析

DOI10.16810/j.cnki.1672-514X.2016.10.017

信息技术发展的背景下,公共图书馆面对日益增长的读者需求,需要能够及时了解并掌握读者的兴趣爱好及阅读特征情况,在为读者提供服务的过程中能够精准的、能够主动的引导读者需求。如果将每位读者的个体行为通过数据挖掘技术进行分析,可以为服务质量的改进提供第一手的参考资料。目前,基于数据挖掘技术的行为分析在图书馆行业的关注度最近几年呈上升趋势,本文拟就图书馆的读者行为进行相关数据的归类分析,并在行为分析的基础上探讨其数据分析应用的目的和意义。

1 基于数据挖掘技术的图书馆用户行为分析

图书馆用户行为分析,是指在获得图书馆用户新型多结构数据的情况下,对相关数据进行交叉融合分析,建立关联数据模型,预测用户行为,从中发现用户访问图书馆资源的规律,并将这些规律与服务策略等相结合,以发现服务过程中存在的问题,并为进一步优化服务提供数据和建议,从而改进服务方式。

1.1 数据分析方法

基于数据挖掘(Data Mining)的读者行为分析,在处理过程中会应用到语义分析技术、图文转换技术、信息感知技术、GIS技术等手段,并依次按数据采集、规律探索、规律形成三个阶段进行处理,最终将某些规律尽可能以可理解的方式表现出来。在处理数据过程中,并非所有的信息发现过程都被视为数据挖掘,例如利用搜索引擎进行信息检索时,虽然这些检索任务会包含内在的复杂算法,但是它们还是基于传统的计算机技术实现信息的检索与关联,与数据挖掘的真正含义还是有所差别[1]。

1.2 数据的来源

读者行为分析就是指对读者访问数据的行为分析。读者访问的数据产生于图书馆服务系统中,包括机构信息化系统与数字服务平台。从数据的属性来看,产生的数据存在于基础性数据和运行数据两大部分。图书馆基础性数据是指图书馆的设施设备、服务资源、人员、用户基本情况等数据。图书馆运行数据是是指基础性数据中的某些要素发生服务或使用关系时产生的服务数据与行为数据,包括图书馆传统业务与管理数据,图书馆数字与信息服务数据,图书馆各类传感器和监控设备数据。

1.3 数据处理方法与步骤

数据收集常常通过Chukwa、Flume、Scibe等工具,而在数据挖掘过程中可能会用到Pagerank、CART、K-means等很多算法,并借助于SPSS、SQL、EXCEL、互联网统计等多种工具进行数据处理。数据处理过程有数据预处理、数据降噪、数据筛选、数据转换、数据合成。数据预处理和降噪是将大量的原始数据中没有利用价值数据去除,并对部分数据进行“修补”,在数据的筛选和转换中,需要建立关联规则,用来揭示数据间联系,并提炼出有内在关系的数据组,从中找出有价值的信息[2]。

2 基于数据挖掘技术的读者行为特征

在处理大量的读者访问数据信息过程中,主要通过下列一些常见指标来分析访问图书馆的读者行为特征[3]。

2.1 读者访问时段分析

读者访问图书馆可以访问实体馆和网络图书馆。对于读者访问实体馆数据,通过视频捕捉来统计实时到馆人数,网络访问量则通过计算机系统实现。网络访问量指标有单位时间内的浏览量(PV)、访客数(UV)、IP数、跳出率、平均访问时长。这些指标可以进行排列组合,统计时间可以定制为每日、每时,统计分析粒度按处理需求可设置为一日、一周、一月。如此我们便可以取得读者不同时段对于图书馆实体和网络访问情况,不仅仅局限于原先的特定对象在单位时间内的访问结果。这对于图书馆管理者来说,不再是了解大概的访问情况,完全可以了解到一天中每个小时内的访问情况,合理安排图书馆开放时间,并在不同时段进行精细化管理。

2.2 互联网访问特征分析

对于网络访问图书馆,我们可以通过数据分析来查看网络访问来源的具体细节。在数据分析中选择“转化目标”后,按来源可划分为直接域名访问、搜索引擎、外部链接等类型。读者通过搜索引擎访问主要有baidu、360搜索、Google、Bing、搜搜等,目前从统计结果看通过baidu搜索图书馆网站后点击访问比例最大,占比达80%,这与网民的使用中文搜索引擎情况相一致。读者在访问网络时所运用到的浏览器大致依次为IE、Google chrome、Firefox等类型。从目前的统计结果来看,访问图书馆网站的使用PC的读者占多数,而使用手机、平板等移动浏览终端的只占极少数。如将来图书馆不断扩大受众面,并迎合读者的移动阅读趋势,可以大力发展手机图书馆、移动版图书馆网站来满足读者这一方面的需求。

2.3 访客地域分析

从访客的来源分析可以得到主要用户群的地域分布,一般从网络和实体两个途径进行统计。统计网络访问数据,设置的最小区域单位为省份,并以表单形式呈现读者所在的省份,如对南京图书馆网站访问数据分析,得知2016年上半年,来自江苏本省内的读者访问量最多,占89.36%,其次是北京,占1.79%。这样从统计结果表明,南京图书馆的网络用户主要分布于省内各地,对全国的辐射能力还是有限的。实体数据统计是根据读者办理借阅证的注册信息获取,如统计数据后发现在到馆读者中,南京图书馆所在地的附近居民和南京所在的各大学的学生居多,因此随着暑期的到来,南京图书馆就要意识到学生族会剧增的到馆量,要在这一时段做好应对措施。

2.4 访客特征构成分析

每一位访问读者都有其性别、年龄、职业、学历等常规属性,除此以外,读者的兴趣、爱好、专业、从事课题,以及借阅图书情况等属性也是读者特征构成的不可或缺的部分,图书馆应根据读者的不同构成属性提供相关服务。如对南京图书馆访问读者进行统计,其结果是以男性居多,年龄分布以20-39为主,学历水平多在本科以上,职业分布以教育/学生、IT从业人员较多,这说明南京图书馆的读者知识构成相对较高,那么在提供服务中应侧重于满足文化层次相对较高的年轻人的知识信息服务,不只是满足简单的借阅需求服务。

2.5 忠诚度、新老读者比例分析

读者到馆访问量大、浏览网站次数多、频率高等可以反映一个图书馆资源情况,也可以反映出一个图书馆的服务水平。图书馆网站的可读性、易用性、稳定性、互动性等方面若具有较高的水平,可以提升读者的“忠诚度”,访问时就会浏览多个页面。在对某些图书馆网站进行数据统计时,浏览一、二页的读者占绝大多数,说明忠诚度不高,也就表明图书馆网站存在着这样或那样的不足,或者是网页设计上存在易用性差现象,或者是网站资源内容不够丰富。图书馆应及时对网站进行改版,让读者在访问时更容易获取到想要的资源。如南京图书馆网站目前只有一个入口,一方面在网站首页提供了很多馆内信息,同时也链接了很多馆外信息资源,这样由于链接层次较深,就会导致读者没有足够的耐心寻找下去。作为公共图书馆,既要留住老读者,又能吸引新读者,就要能够产生粘滞性。如果读者粘滞性较高,说明图书馆服务质量较高;如果新访客占比较多,则说明需要进一步提高和改善服务质量和水平。

2.6 电子资源监控统计分析

目前,电子资源在图书馆馆藏资源中增速极为迅猛,访问量也在迅速攀升。如何科学、全面、精细地满足读者对各类电子资源的需求?图书馆需要不断地对馆藏电子资源的访问状况和使用价值进行相关的会话分析和模型分析,乃至进行正确合理地科学评价,这样才能为图书馆优化、购买馆藏电子资源提供科学决策支撑。对于访问量大的数据库,要积极地联系数据库厂家及时更新资源内容,并扩大访问席位。另一方面对于访问量少,但具有使用价值的数据库要扩大宣传,或延伸其访问IP地址,尽可能地让用户知晓并加以利用。确实因质量或内容不符的数据库要立即停止购买,以节省图书馆的资金。

3 读者行为分析的目的与意义

在互联网浪潮发展趋势下,现在整个社会都在讲创新与转型,谈“互联网+”的概念,同样图书馆也不能置身事外,要积极的融入社会变革的大潮。用创新的思维和独特的理念,塑造新时期下图书馆发展的新业态[4]。就此,基于大数据背景下的图书馆通过数据挖掘对读者行为分析的目的与意义,笔者认为是要达到以下几个方面。

3.1 利于智慧图书馆的建设,以提升服务质量和工作效能

大数据分析可以将数据库中类似属性的数据进行关联分析,找出共同特性,从而为群体提供分类信息,为个体提供个性化、智能化信息。这样就有针对性的满足了个体和群体的需求,较以往的方式有了质的飞越。技术的进步正在让人类的行为变得可量度、可预测,同时行业的发展也在呼唤这样的技术,区分读者需求差异,识别场景,提炼出个体需求,行为分析技术正是拨云见日的利器。借助于行为分析系统可以帮助图书馆掌握馆藏资源的使用状况和质量,实现资源发展与遴选的科学决策,了解哪些馆藏资源最受读者欢迎,监管用户对资源的规范使用[5]。

3.2 利于个性化定制服务,提升文化品牌知名度

基于用户体验的信息构建从空间上构建了面向用户开展个性化服务的支撑环境、流程和服务框架,这一框架为图书馆定制个性化服务的开展奠定了基础,如根据读者现有的喜好和浏览行为,通过建立模型来匹配与读者的相关信息,推送其感兴趣的知识信息,制定有针对性的服务内容。对信息构建而言,读者的属性信息如性别、年龄、文化程度等特征已经不能体现最大价值,还要进一步分析其他异构的个体信息。构建信息空间时,信息构建应体现个性化特征,形成有针对性的信息集合,并以用户体验为中心,从服务内容到服务风格上以非固态的组织架构来匹配用户的需求[3]。只有这样,图书馆才能从读者的角度出发,更好的提升服务质量,富有效率地满足读者的内在需求。也只有这样,图书馆才能真正地根据实际需求,合理调整资源布置,建设好馆藏资源,提升文化品牌知名度。有社会影响力的文化也是一种软实力,文化品牌也是一种无形的价值。

3.3 利于社会化诚信数据库建立,创新服务管理模式

个人征信信息不仅存在于金融行业,对于交通、安全、文化等领域,都会有个人征信的数据体现。图书馆通过对读者的访问原始数据进行挖掘分析,可以详细、清楚地了解读者的行为习惯,同样可建立个人诚信指数,指数较高的个体或年度优秀读者,可以优化其借阅权限和额度。社会化信息资源统一是社会发展的趋势,在将来,个体原始数据必将引入社会化管理范畴中,读者在图书馆获取的征信也可以成为社会征信系统数据的来源。另外,从读者现实需求出发,图书馆可以根据读者的个人阅读倾向、习惯等特征找出服务方式中存在的不足,更好地优化服务措施,提升服务水平和效能,更加精准、有效地满足读者需求,收获更多的社会收益。

3.4 利于图书馆对读者类型的细分、吸纳与维护

图书馆根据读者个体行为进行类型细分,可以使图书馆对不同的个体采取更有效的知识服务策略,提供个性化服务,使双方都受益。

随时间推移,部分读者或因丧失阅读兴趣、或有更好的阅读场所、或无暇阅读等等原因流失,但同时新读者也在源源不断地加入图书馆的阅读体验中。图书馆怎样来继续吸引已有的读者,可采用数据挖掘技术对已流失读者的数据进行分析,如进行一些关联分析找出流失相关的规则,对流失读者群建立决策树模型,然后对活跃的读者进行预测,对可能流失的读者群采取预防措施。具体可在读者类型细分的基础上,进行“一对一”的个性化服务来提高读者的满意度,通过满意的服务来维持住一个相对稳定的读者群[6]。我们通过个性化服务推荐准确度的两个测试可进行验证,在测试1中采用基于用户模式聚类与Mapreduce结合的个性化推荐方法,在测试2中采用基于关联规则挖掘与Mapreduce结合的个性化推荐方法。结果表明,测试1中为图书馆新用户的推荐平均准确度为81%,普通用户的推荐平均准确度为73%;测试2中为图书馆新用户的推荐平均准确度为71%,普通用户的推荐平均准确度为93%。通过数据对比,测试1的图书馆个性化推荐方法适用于新用户,测试2的图书馆个性化推荐方法适合普通用户。因此,图书馆对于新老读者可选择不同的应用方式来满足不同类型读者的需求,提高图书馆的满意度,将吸引并留住更多的读者[7]。

4 结语

通过大数据为核心的行为分析来提供个性化服务是图书馆在互联网变革的大潮中服务创新的利剑。传统的图书馆读者服务模式在信息化时代只有通过创新理念、深化服务手段,在业务创新领域深耕细作,才能在保持传统优质服务的前提下,构建新型图书馆发展生态圈,让图书馆成为区域内的人文中心、宣教中心、创新发源地。

[1]李德新.基于数据挖掘的网络日志分析[J].电脑知识与技术,2011(11):6074-6075.

[2]王菲.数据挖掘在图书馆用户行为分析上的应用研究[D].上海:上海交通大学,2013.

[3]江长斌,陈莉.基于读者行为分析的高校图书馆主动服务研究[J].武汉理工大学学报,2009(3):133-135.

[4]谭丹丹.基于读者到馆行为分析的图书馆服务优化策略[J].图书馆工作与研究,2011(1):111-112.

[5]刘英梅.大数据时代的信息用户行为分析[J].科技情报开发与经济,2014(5):61-62.

[6]陈臣.基于大数据的图书馆个性化服务用户行为分析研究[J].图书馆工作与研究,2015(2):28-29.

[7]李仁玲,王建岭.数据挖掘技术在中医院校图书馆读者的行为及研究[J].当代教育实践与教学研究,2016(7):41-42.

史叶明南京图书馆信息技术应用部馆员。江苏南京,210018。

南京图书馆“国学馆”正式开放——图书馆界独树一帜的古籍阅读区

10月12日,南京图书馆“国学馆”正式对外免费开放。国学馆总面积约4000平方米,资源丰富,开放性强,可为读者提供全方位、多层次的服务。

国学馆的造型是一种灰瓦白墙的院落,正堂设“爱莲说”主题展台,展台后方为“玄览堂”,白墙外挂“礼”“义”“廉”“耻”四字,该区域以展现南京图书馆珍贵古籍为主。展台右侧为“惜阴堂”,该室为特色珍贵历史文献专藏区和原本阅览区、电子阅览区,室内藏有原本影印全套《四库全书》和“中华再造善本工程”的成品书,此外,该区域还配备了稀见方志系列资料,《大藏经》《道藏》等宗教典籍及相关工具书,以及《四库续修》《四库存目》系列丛书。展台左侧为南京图书馆古籍新印文献、民国新印文献和新国学资源陈列区。

国学馆提供5万册古籍新印本、3万册新印民国文献、1万余种“新国学”类书籍。古籍新印本内含历代文集著作、史料汇编、家谱及各类大型古籍丛刊。民国文献除各类大型专题性影印丛书外,还包括申报、大公报、中央日报、民国日报等民国时期“四大报”影印本,并增添了《红藏》丛书、哈佛大学图书馆藏中国海关史料、近现代女性学术丛刊等最新史料及研究成果。新国学区书籍精选历代经典著作,以古籍点校本、国学研究书籍为重点,力争全景展现中华文化的博大精深,推动国学的普及与共享。除上述四大藏书专区外,《中国基本古籍库》《翰堂典藏》《中国谱牒库》《明清实录》《中国近代报刊库》等多个古籍与民国时期文献的专题数据库与南京图书馆的6000余种珍贵历史文献原本数字扫描资源、1万余种胶片一起,组成“国学馆”不可或缺的重要组成部分。

习近平总书记指出,“中华文化积淀着中华民族最深沉的精神追求,是中华民族生生不息、发展壮大的丰厚滋养。”他多次强调,要“传承和弘扬传统文化的思想精华。系统梳理传统文化资源,让收藏在禁宫里的文物、陈列在广阔大地上的遗产、书写在古籍里的文字都活动起来。”这是对公共图书馆、公共博物馆等古籍文物收藏单位如何服务民众提出的切实要求。南京图书馆作为全国古籍收藏大馆,设立国学馆,正是集中梳理中华优秀传统文化,为让古籍里的文字生动呈现而作出的努力,国学馆不仅承担着南京图书馆国学历史的传承,也将成为江苏全省弘扬传统文化的重要基地。

(摘自http://www.jslib.org.cn/njlib_gqsb/201610/t20 161012_149096.htm)

Analysis and Application of Public Library User's Behavior Based on Big Data

Shi Yeming

Under the development of information technology,the public libraries face the increasing needs of readers.They need to be able to understand and master the readers'interests and reading characteristics in time.In this paper,through analyzing the source and characteristics of various types of user behavior data,it expounds the purpose and significance of the reader's behavior analysis from the aspects of library service efficiency,personalized service and the innovation of management mode.

Library.Reader access.Data mining.Behavior analysis.

G252

2015-11-20编校:刘明)

猜你喜欢

南京图书馆数据挖掘国学
改进支持向量机在特征数据挖掘中的智能应用
“垂”改成“掉”,好不好?
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
软件工程领域中的异常数据挖掘算法
南京图书馆藏珍贵宝卷掠影
书写南京图书馆事业发展的新篇章
奋斗鸡—我的国学日常
走过南京图书馆的名人们