基于数据挖掘技术的图书信息化管理研究
2019-05-16阚秀红
阚秀红
摘 要:庞杂性、关联性和隐晦性是图书信息化管理数据的三大特点,传统的图书管理系统难以从数据中有效信息实现优化图书配置。近年来,高速发展的信息产业带来了新的图书信息化管理系统,图书的借阅与查询产生大量的图书访问数据,基于数据挖掘技术的图书信息化管理,目前是研究的一大热点。
关键词:数据挖掘技术 图书信息化管理
中图分类号:G25文献标识码:A文章编号:1003-9082(2019)04-000-01
图书检索等信息随着信息技术的迅速发展变得急速膨胀,传统的图书管理系统对于图书馆访客的需求不能做到深度挖掘,造成图书资源管理和相关决策的不便,同时会影响图书馆的发展[1]。近年来,国内外众多学者从各个方面研究了数据挖掘技术下的图书信息化管理系统的实现方案,探讨了基于数据挖掘技术的图书推荐、个性化服务等研究。数据挖掘技术在国外应用的状况较为广泛,其研究热度和创新程度持续升高,但是真正应用在图书管理系统中还没有十分成熟。在国内,图书馆管理相继引入数据挖掘技术,利用这一新型的高新技术分析和处理借阅信息产生的大量数据,旨在寻找数据之间的相互联系,为图书信息化进一步管理提供技术支持。
本文将介绍数据挖掘技术以及在图书管理系统中应用特点等方面,概述图书管理中数据挖掘的层次结构和数据挖掘的需求。
一、数据挖掘技术的概述
随着物联网和计算机技术的迅速发展,绝大多数的企业已经应用了大数据,既颠覆了传统意义上的数据认知,也引发了数据获取、存储、分析、挖掘以及可视化等的革新[2]。人类生产生活方式随着大数据及其相关技术的发展发生巨大变化。大数据的表面特征就是“巨大数据量”,这一特征使得新型数据处理模式在短时间内具备传统工具无法实现的决策力、洞察力,这是大数据更核心的意义。但是,原始数据仍然会受到杂质和干扰信息的影响,这些大数据通常是模糊且没有明显规律的。用一定技术手段过滤其中的杂质和干扰信息,以便获取有价值的数据,因此,基于大数据技术得到的科学决策,数据挖掘就是这种手段,通常通过五个步骤来实现:理解数据、准备数据、理解业务、建立模型、评估模型和模型部署。而数据挖掘技术的手段主要包括关联规则分析、聚类分析、分类分析、预测、时序模式和偏差分析等。
从聚类分析的角度来看,将相似的事务以同一类个体的相似度归类,不同类别的个体差异性较大。这种分组结果是一种多元化统计方法,在原有数据集合缺乏知识领域或者是领域知识完整,通过聚类分析技术,自动把无标识数据对象划分成不同类别,因此获得数据集合真实的原本的消息。合并法、分解法、树状图、划分聚类、谱聚类等都是常用的聚类分析方法。
早在1989年第11届国际联合人工智能学术会议上,挖掘数据资源的思想就被发掘,数据挖掘技术的重点也随着社会的进步由发现方法转移到了系统应用方面,并注重学科之间的相互渗透和技术改革的多种策略的并行使用。现阶段,图书馆的主要作用是给1读者提供学习资源,但由于多种因素的制约,有些图书馆的管理模式过时,服务流程出错,导致图书管理出现一定的困难。
二、图书信息化管理的数据特征
图书管理员和读者是图书管理的两答使用者,管理员为了更好的获知读者对图书的需求,必须与读者建立足够的联系和互动,只有明确了读者的需求,才能進一步实现图书管理内书籍的种类和数量的优化,避免资源浪费,提升图书管理的服务功能。图书馆的建立会使馆藏不断增加,随后图书管理规模也会不断的扩大,图书管理数据增大的同时会带来以下几种特征:
1.庞杂的数据信息
图书管理过程中,读者检索、阅读和管理员的借阅和检查都会生成大量的数据信息,读者的范围是不确定的因素,每年都会出现新用户加入和旧用户退出的情况,就会导致管理数据变不断增加。
2.隐晦的信息关系
数据背后真正的规律性会因大量数据的堆积而遮盖,采用有效的算法对数据信息进行合理分析和处理,其内部隐藏的更加有价值的信息才能够被挖掘。
3.相互关联的信息
关联性是指用户本身的信息和图书检索信息之间的关联,这种关联性较为浅显,大量数据潜在性的背后隐藏着更有价值的信息,挖掘这一信息才能发现数据之间的关联性,足够充分的关联性让图书信息化管理工作更好的完成。
图书管理数据信息的这几大特征对管理员和读者都提出了不同的要求,这种要求是传统图书管理系统无法实现的,基于数据挖掘技术在图书管理系统的应用可以建立更加强烈、高效、精确你的联系,为图书管理提供了更大的舞台。
三、数据挖掘技术在图书管理中的需求
数据预处理、关联数据挖掘和模型可视化分析是基于数据挖掘技术在图书信息化管理中的三个层次,在这一过程中,读者借阅行为模式分析、管理员个性化服务工作和文献牌价管理工作的主要关注的三个方面。
1.数据挖掘技术的三个层次结构
数据预处理阶段是从图书管理系统的数据库中转换和集成生成的数据,然后把集成数据导为数据挖掘技术系统可以应用的格式,最后把转换过格式的数据保存到图书馆数据库中,这种阶段也被称作数据收集阶段。基于关联规则和合适的算法挖掘上一阶段已经备好的管理数据则为关联规则挖掘阶段。在模式可视化分析阶段,逐一确定数据挖掘目标作为图书借阅行为、个性化服务和文献排架选择挖掘任务的参数,进一步对数据进行挖掘,最终导出可视化模式规则。
2.数据挖掘的准备和过程
目前研究表明,数据挖掘技术和数据库中的知识发现属于同一个领域,二者等价,重合度相当大。在数据分析和数据库以及统计学领域中,数据挖掘技术的应用最为广泛,相比较来说,知识发现则是强调机器学习和人工智能。数据挖掘技术要从数据中枚举模式或者模型结构,是知识发现中的关键一步,与算法保持密切相关,二者各过程也要记住算法在可接受的计算范围内进行[3]。
通过读者的检索记录、借阅习惯和要求等,分析读者群,了解书籍对于读者的欢迎度,并结合读者群的身份信息以及上述信息,对读者的特征进行分析,利用聚类数据获知读者的检索和借阅行为规则,这就是所谓的借阅行为模式。个性化服务工作需要我们分析读者身份信息和检索、借阅记录间的关联性,通过不同读者的需要,创建个性化服务的数据支持,不同读者对于不同类型书籍的借阅时间和顺序是大不相同的,把读者的阅读习惯分析透彻,合理安排图书的布局,这样一来就为不同时间段内给读者带来适当的图书提供了合理的数据支持。在分析借阅行为模式和个性化服务工作之后,继续深入的对不同图书的受欢迎度和借阅记录进行分析,通过数据挖掘技术提供图书馆文献排架的合理布局的技术支持,并提高图书利用率,这一行为被称为图书馆文献排架分析。
四、数据挖掘技术在图书信息化管理的应用
数据挖掘技术在数字图书馆中的应用多数是Web信息提取、图书馆Web挖掘、多媒体数据挖掘、提供智能搜索引擎服务等。很多学者已经在这一方面进行了广泛而深入的研究探讨。图书管理员可以利用挖掘的信息的背后,为读者提供合理且适当的建议和意见,为借阅者解答疑惑。
经过大量的研究调查表明,在图书借阅过程中,不同的书籍之间也会有强大的关联性,而读者对于书籍的需求也不相同,不同的读者之间也会有较大的变化,图书馆中的书籍的数量都是有一定的限度,因此,优化借阅频繁书籍的挖掘对书籍馆藏适量的需求是十分重要的。大量研究數据显示,不同书籍的信任度一般会高于75%,读者通过借阅某类型的书籍来完善自身的知识体系,充分挖掘与这些知识体系相关的试剂的借阅数据对于图书馆馆藏书籍的种类和数目的完善是非常有帮助的。书籍间支持度较低的现象通常会由图书馆限制书籍的免费借阅时间所影响,因此,密切关注信任度这一指标在数据挖掘技术在图书信息化管理中的应用也十分必要[4]。可视化在数据挖掘过程中也是不可或缺的步骤,连接整个数据挖掘的阶段,从开始对分析和处理数据的初步认识和了解,通过可视化来显示数据结果,这样一来便于为后续工作奠定基础。
目前我们的图情界数据挖掘技术相对较多,但通常达到如何利用问题的水平,对实际业务有指导价值的、具有可操作性的产品较少,并且图书馆的管理系统使用自行研发的个性化等服务系统的能力有限,开发数据挖掘技术的难度较大,因此,专业化研究数据挖掘技术的企业和研发机构会大大推动基于数据挖掘技术的图书信息化管理的使用和普及。
总结
笔者通过分析数据挖掘技术以及图书信息化管理中的应用方面并总结图书管理系统中数据的特征,分别阐述了数据挖掘的层次结构和数据挖掘的需要和准备两大内容,通过研究数据展开数据挖掘技术在图书管理应用的验证,表明了数据挖掘的结果和实际生活中读者的借阅书籍结果是一致的,进一步说明了目前的图书信息化管理中数据挖掘技术的应用,能够更准确、更高效的提供数据支持,实现对图书馆书籍的种类和数目的优化,将其服务质量进一步提升,达到读者满意的程度。科技的不断发展会带来读者需求的进一步增多,更高效的算法计日可待,在分析和处理图书馆中读者的借阅、归还产生的大量信息中,新型算法可以为不同类型的读者提供更加个性的服务,加快图书馆事业的发展。
参考文献
[1]吴菁.数据挖掘在图书管理中的应用研究[J].农业图书情报学刊,2015.
[2]李会艳.数据挖掘技术在高职院校图书管理中的应用[J].农业图书情报学刊,2015.
[3]张晴,李琦.大数据时代的移动图书管理系统的研究与实现[J].价值工程,2018.
[4]郭家义.个性化检索系统中的数据挖掘技术分析.现代图书情报技术,2003.