大数据情报分析平台在图书馆管理与服务中的应用体会
2020-09-12朱竹
朱竹
摘 要:随着互联网信息技术的发展,大数据的作用日益突出,图书馆馆藏数据具有数量庞大和结构多样的特点。但是当前图书馆管理和服务工作效率仍然比较低下,数据管理漏洞频出,耗费了大量的人力物力。基于此,本文依次从情报获取、情报数据的处理、存储及分析展开研究,搭建了大数据情报分析平台,以大数据情报分析平台业务流程图为切入点详细阐述了平台在图书馆管理和服务中的应用,希望能够有效提高图书馆管理效率,使信息检索更高效。
关键词:大数据情报分析平台;图书馆管理;服务;应用
当前,大数据及其他智能技术已经在各行各业中取得了广泛应用,传统的图书馆管理与服务模式改革进程不断加快。前几年,国内从国外引入了基于众包的图书馆管理新模式,试图将以往由图书馆职工执行的工作任务外包给一些大型的、非特定的大众网络。针对图书馆数据类型架构不统一、信息隔阂难以消除等问题,有学者提出综合使用关系型和非关系型数据库,通过使用内存数据库等先进技术高效管理不同结构的数据资源。为加快信息检索效率,提出建立面向图书馆半结构化馆藏数据的智能检索系统,提取数据特征。但是,国内目前并未建成一个完整的大数据情报分析平台,平台并未深入应用在图书馆管理和服务中。
一、大数据环境下图书馆的管理和服务新模式
情报分析以廣大用户的需求为工作切入点,借助现代信息技术和软科学研究方法,有序采集、选择、评价和分析社会信息,从而实现情报产品的增值,为不同层次科学决策提供服务。开展情报分析服务一方面能够提高图书馆学科服务水平,满足高校学生使用网络资源查阅文献资料的需求,注重图书馆服务的专业性。另一方面,组织和分析信息是图书馆的重要职责,过去图书馆学的课程设置过于理论化,没有实现图书馆理论和情报学的交叉融合,不注重情报分析方法的知识传授,建立大数据情报分析平台有利于图书馆学专业的发展,满足大数据时代对情报分析的需求。
大数据分析是指利用大数据理念高效分析海量、增长快速且内容复杂的数据,提炼出隐藏模式或者未知的数据关系,从而确保用户做出正确的决策。仔细比较情报分析和大数据分析的概念可以发现,除数据外,情报分析依靠的还有通过定量分析和定性分析采集的信息。
电子文献已经成为了现代图书馆馆藏资料的主要载体,文献总量非常大,质量层次不齐,由于缺乏科学合理的文献管理方法,用户寻找某项指定范围的文献资料时需要花费大量时间和精力。对此,现代图书馆应该努力实现管理模式智能化,控制文献管理成本和人力维护成本,要实现快捷智能化以帮助用户快速找到符合需求的优质文献,甚至可以在平台后端自动分析用户的文献浏览偏好,向用户推荐个性化文献。
二、搭建大数据情报分析平台
1.获取情报
网络爬虫技术是一种应用广泛的程序,可以按照特定规则实现万维网的自动抓取。针对图书馆馆藏资料和借阅量等情报信息抓取不及时的问题,可以聚焦网络爬虫技术。具体工作流程如下:首先给一初始URL,结合用户需求从网页全文中提出有效数据。然后提取出新URL链接,在URL列表中加入进一步筛选的URL链接,不断循环网页内容抓取工作,当所有信息提取完毕后自动停止工作。该模块的工作核心包括两部分,一是从网页中提取出子链接,二是高效解析繁杂的网页内容。目前一般使用HTMLParser技术克服这两个工作难题,HTMLParser能够实时分析处理HTML,及时提取并清洗网页信息,将与网页主题相关的有效网页数据转化为XML格式数据,自动过滤网站导航、版权信息等与用户需求无关的信息。
2.处理情报数据
获取的情报数据大多是中文或者英文,分析难度非常大,需要另外进行分词处理。其中,英文文献可以直接使用英文空格为分隔符,处理工作简单,而中文文献则没有可以直接使用的分隔符,分词处理难度大。目前一般使用基于字符串匹配或者统计与机器相结合的算法,可以在基于字符串匹配的算法中加入正向、反向等启发式算法,提高算法速度和分类效果,降低实现难度,但是这类算法仍然无法高效处理歧义和未登录词语。基于统计与机器相结合的分词系统则可以克服这一难题,但是需要耗费大量的人力资源,人工标注好数据后不断调整分词系统模型的参数,计算各种分词出现的概率。综合考虑这两种分词系统优缺点后,有学者提出建立基于双向最大匹配和隐马尔可夫模型的分词消歧模型,在控制人力资本的前提下进一步提高分词效果。中国科学院技术研究所开发了汉语词法分析系统ICTCLAS,该系统能够把人类的自然语言转化为形式化的计算机语言,具有分词精度高、支持用户词典、查询速度快等特点。美国State Street金融服务公司在数据库整合中首次使用了语义技术,增加了大数据的数据价值。
3.存储情报数据
目前一般使用Hadoop大数据分布式存储平台存储处理过的图书馆情报信息,Hadoop实现了一个高容错性的分布式文件系统,在拥有超大数据集的应用程序上取得了广泛应用。针对图书馆多结构化数据海量的特点,可以在廉价硬件上搭建大规模存储群,在HBase数据库存储多结构化数据。基于Hadoop构建的大数据存储交换平台能够实现多类业务数据交互,完成业务数据的数据共享池的Hadoop存储,为情报数据的分析提供基础保障。
4.分析情报数据
一般使用互信息、文档频率、CHI统计等方法提取文本特征,综合考虑图书馆各类文献的借阅情况、引用量等情报数据特性,本文采用文档频率提取文本特征。常见的文档频率算法首先确定两个阈值,将阈值和特征项的文档频率进行比较,删除文档频率超出阈值区间的文档频率,保留文档频率在阈值区间内的文档频率。过去使用的文档频率算法忽略了特征词在每篇文档中出现的词频率,对此,可以使用支持向量机方法训练分类器。为了提高文献检索效率,可以给整理后的图书馆情报数据建立特征项索引,以图书馆排名作为特征项的权值,用加权平均存储特征项。首先用模糊算法查找符合用户需求的特征项,然后借助Hadoop中的MapRduce高效并行计算模型分析最符合用户需求的文献资料。实际使用时,用户可以自行选择实现Map和Reduce函数的语言。
三、大数据情报分析平台在图书馆管理和服务中的应用
1. 搭建平台
所谓网络爬虫技术,指的是根据有关规则,对万维网相应程序自动获取,可将其划分成通用网络、增量网络、深层网络及聚焦网络。文章主要以图书馆馆藏资料及借阅数据为研究核心,因此,实际操作中可采用聚焦网络的形式完成图书馆的管理和服务。实际的操作流程是:首先,提供初始URL,并對网页全文进行获取,然后按照相应需求对此后所获数据进行描述,再在网页中提取出最新URL链接,经筛选后将其加入到新的列表当中,此后,以循环的方式来获取最新内容,抑制持续,达到相应条件后方可停止。运行期间,主要环节就是网页模块的解析,其存在两方面问题:其一,将网页中自连接的提取问题进一步解决,让其顺利归入URL列表中;其二,将网页中相关内容进一步解析出来,目前,比较常用的技术便是HTMLParser。此技术是基于HTML之上的数据解析处理器,其能够直接将网页中的URL进行提取,并对其中的网页信息或数据分解、处理,然后以XML的形式将其输出。HTMLParser对文献进行获取过程中,同时处理文本内容,处理时所借助的网络便是聚焦网,以图书馆为主题,完成数据的爬取,这样就能得到关于图书馆的数据资料,再用万维网相关网页进行展示。万维网中的网页可分为两种,其一与网页主题有关,其二是部分与主体信息,其中的典型内容是导航、版权等信息,那些关联性不强的信息会被及时过滤掉。进行数据处理时,并不能及时分析相关的情报信息,要用分词的形式实现处理,在处理的过程中,会涉及中英文或者其它文字,英文文献的处理可采用分子形式,此方法相对简单,可直接采用空格进行分隔,无需多余处理。目前,成熟分词系统分成两种,其一,根据字符串匹配实现计算,其二,根据统计及机器相结合的方式来实现计算。字符串的算法就是通过扫描字符串,找出和词料库内相符合的字符串,并将其记录下来。比如,正反向或者双向的匹配算法,此类算法有极高的速度,且时间相对简单,操作极易完成,同时有非常明显的分类效果。其也存在一定的缺陷,就是在处理歧义或者未进行登录时,所呈现出来的处理效果较差。另一种是根据计算机和统计学所结合得出的形式,其有极强的分类效果,能够将有歧义的词汇进行处理,但是,需要人工来对相关词汇进行标注,实现分词系统的模型创建。在进行模型训练的过程中,可以使用经过标注的数据,也是对模型相关参数的一种调整。分词环节中,需以完成训练的模型来实现分词概率的计算,最后所输出的是最大概率分词。由于两类分词系统均有各自优越之处,因此,在实际应用中可与相关原则相结合,比如,双向匹配和HMM分词的形式来进行歧义消除,此模型便可采用正向的最大值和逆向两种相匹配,完成文本信息的处理和分析,然后经HMM模型来分析对比两次匹配的结果,以达到最终的分词目的。
2.具体实践
目前而言,大数据环境中的情报分析平台相关流程已经非常明确,面对大量的数据存储,情报分析平台已经能够把所拥有的数据进行分析处理,并能够选择和转化。情报分析平台的基本工作是准备相应的数据,基础工作也是后续工作质量保障的前提,同时还决定了平台处理数据的效率。就目前而言,在图书馆的管理以及服务工作中,对情报平台的利用已经有很多有价值的实践经验。就图书馆的发展来说,能够借助该平台来明确市场的发展目标,并加以实现。和市场营销有类似之处,图书馆也是较早采用情报分析平台之一,整个过程最终的目的都是根据用户的具体需求,平台通过分析整理用户在图书馆内的阅读、消费、借阅等行为习惯,然后对所得数据进行分类,统一进行管理。这样可有效保证图书馆的馆藏资源能够满足用户需求,将图书馆的馆藏价值进一步提高,让图书馆的服务从广泛性转变为针对性,甚至是个性化。
3.相关分析
有研究报告调查显示:在未来社会,价值质疑、技术障碍、人员队伍无法适应挑战等重大问题将严重困扰着图书馆,高校教职工已经逐步弱化了图书馆存在价值,图书馆用户流失异常严重,我们通过大数据技术的预测性分析能力不仅可以通过数据了解用户、行为、意愿、业务需求、知识应用能力及知识服务需求等内容,更可以利用数据对用户的科研创新合作过程及合作交互型知识服务过程将要发生什么进行分析和预测,从而应对图书馆未来所面对的各种生存危机。
从宏观层面来看,传统情报分析方法可以分为定性分析方法、半定量分析方法和定量分析方法。从微观层面来看,以对象类型为分类依据,传统情报分析方法可能基于知识、文献、组织、专家、专利、认知心理学、军事情报或者犯罪情报。传统情报分析方法大多使用结构化、标准化的数据,数据来源十分单一,数据数量和类型根本无法达到用户使用需求。除此之外,传统情报分析方法只注重分析信息不完全、缺乏代表性、形式单一的文献数据,分析结果的科学性有待商榷,无法满足可视化分析和空间信息分析等需求。大数据分析方法能够深度分析数据,融合多源数据,提高数据处理效率。建立大数据情报分析平台后,研究结果的科学性和准确性均得到质的提升,有效应对了海量异源异构数据对情报分析工作带来的冲击。图书馆属于中小型机构,因此Hadoop平台下的各个应用框架可以满足其数据管理需求。在Hadoop系统中,HBase是数据存储层,Pig和Hive降低了用户在数据存储层上处理数据的难度。大数据情报分析平台业务流程图如图1所示:
Hadoop平台具有强大的情报分析功能,文献检索速度非常快,平台中的HTMLParser解析器能够高效过滤和抽取数据,借助分词系统提取过滤后的情报数据特征,MapRduce模型进行高效并行计算后,按照事先设定的权值比重排序,优先展示高质量、高度符合文献检索需求的文献。除了提供基础信息服务、虚拟信息服务等传统服务,平台还为用户提供了个性化的功能配置和展示模块,用户能够快速找到符合自己需求的优质文献资料,即便没有特定的文献检索目标,平台也可以根据用户专业、年级、以往的文献浏览记录以及检索率高的语义关键词等智能推荐优质文献、微课资源。用户能够根据自己的时间安排灵活回顾和评价课程学习资源。
四、结束语
综上所述,当今社会对数据分析的要求越来越高,而大数据理念和技术给情报分析研究工作的发展创造了不可多得的机遇,建立大数据情报分析平台势在必行。图书馆如何在大数据时代最大限度地发挥自己的专业优势呢?本文结合以往图书馆情报分析和研究工作遇到的瓶颈,按照获取情报、处理情报数据、存储情报数据和分析情报数据的步骤搭建大数据情报分析平台,同时深入探讨了大数据情报分析平台在图书馆管理与服务中的应用,希望能够健全图书馆知识服务体系。
参考文献:
[1]高 琰,余 游,冯 林.大数据情报分析平台在图书馆管理与服务中的应用[J]. 四川图书馆学报,2018
[2]李 艳,余 鹏,李 珑.“大数据+微服务”模式下的高校图书馆知识服务体系研究[J]. 图书馆理论与实践,2017
[3]张爱优.论大数据时代高校图书馆情报分析服务的实施[J]. 图书情报导刊,2016
[4]邓胜利,凌 菲.大数据时代基于情报分析的图书情报学教育变革[J].信息资源管理学报,2015
[5]李 超,周 瑛,周 焕,潘 玮.大数据环境下情报分析方法与情报分析软件探讨[J].现代情报,2017
(作者单位:金陵科技学院图书馆)