基于数据挖掘的填补技术在高校图书馆服务中的应用研究
2021-06-30肖柳珠
肖柳珠
(北海艺术设计学院,广西北海,536000)
1 数据挖掘概述
数据挖掘最初的概念始于20世纪末期,当时学者们指出在海量的信息数据中隐藏着大量的有用信息需要挖掘与提取。信息数据挖掘技术就是通过利用统计技术与人工技术将海量的信息数据进行整合分析,并从这些海量的信息数据中提取出对人们有用的信息数据,实现人们高效率获取信息数据的目的。资料显示,数据挖掘分析方法主要有描述与可视化,基于可视化工具将人们所需要的目标信息进行分析,钻取有用信息,使得信息数据挖掘的结果更加的生动形象。其中,分类是指通过系统预设的信息数据分类模型,对海量的信息数据进行筛选分类;估计是指将筛选得出的信息数据基于估值计算得到连续变量值,并由系统预设的阀值(常用的阀值为0-9级)进行合理的分级管理;预测是指通过前述的分类与估值,并基于所获取的信息数据进行分类分析,得出计算模型,满足对信息变量的预估;聚类是指对所挖掘的信息数据进行记录,并将具有相似性特点的信息数据整合在一个序列内,从而确保每一个分组的信息数据均形成具有预测性或暗示性的特征。相关性分组是指,基于模型中既定的信息数据特征量关联度的分析,进行预测。数据挖掘技术的实现需要借助强大的数据库系统来实现,为数据挖掘提供存储、索引与查询支持,并能够满足运用高性能计算手段达到对海量信息数据的集成化处理,例如常使用的分布式技术。20世纪中后期,学者们开始尝试将数据挖掘技术应用到图书馆中。近些年来,各高校为满足用户对信息数据服务质量的要求,逐渐开始在高效图书馆内推广使用数字信息技术,海量的信息数据充斥在图书馆内,数据挖掘技术在高效图书馆内的应用逐渐变宽,并渗入高效图书信息服务、图书管理各个领域。
2 基于数据挖掘的填补技术
完备的数据是进行大数据分析的基础,对大数据的利用与分析有着重要意义。但在现实生活中,在各种因素的影响下,信息数据出现缺失、残缺的现象层出不穷,可以说信息数据不完备问题严重制约了信息的高质量利用。因此,通过填补技术对海量的信息数据进行填补成为解决信息数据不完备的主要途径。目前,最常使用的填补技术是动态概率数据填补法,首先根据已经被挖掘出来的信息进行逻辑顺序的确定,并基于挖掘出的信息数据预测后期事件发生情况以及填补,该填补技术具有操作简单、功能性强等优点,且在使用的过程中其填补的准确性有待提高。我国学者郑启瑞提出了一种基于局部敏感哈希数据填补算法,通过哈希数值的计算找寻出各信息数据间的相似程度,最终达到相似度更高的若干数据,之后使用KNN算法对那些不完整的数据进行填补。经研究发现,该填补技术具有较高的填补准确性,但由于在填补过程中没有对信息数据进行统一归类处理,影响了填补的效率。
3 填补技术在高校图书馆服务中的应用
3.1 基础架构
大数据的挖掘与填补必然需要借助强大的数据中心服务平台完成,尤其是随着高校图书馆信息数量的剧增,对信息管理系统质量要求越来越高。
3.2 填补原理
基于logistic不完备信息数据的填补技术,首先需要将信息数据的作归一化处理,基于预估规则把采集到的信息数据做协方差函数,做模拟填补,之后通过使用回归模型分析信息数据中缺失的数据,按照数据分布的特征完成缺失变量的填补,进而获取到完备的信息数据。然后对信息数据平均向量和协方差函数进行再次估计,通过不断的迭代完成不完备数据的填补输出。具体过程如下:首先通过估计计算获取出信息数据的平均向量和协方差函数,并通过对待填补信息数据的观察,对缺失值进行模拟填补。假定Q为其中的一个待估计参数,可以通过点估值Q1进行保证,此时由于具有M个完备的信息数据集合,那么就存在着M个Q1标准误,由此可以得出:
由公式(1)可以计算得出协方函数:
利用公式(1)、公式(2)即可满足对待填补对象缺失值独立模型的填补,通过回归模型制定不存在缺失值变量的后概率分布结果,选择相应的填补值,计算出需要填补信息数据的全部部分。反复进行迭代,直至迭代结果满足要求。
3.3 基于填补技术的高校图书馆信息服务
(1)高效处理图书馆信息数据管理系统中的海量数据。如图1所示为海量数据处理流程。
图1 海量数据处理流程
首先对信息管理系统中的海量数据做离散化处理,将各种形式的繁杂信息数据按照统一归类原则划分成子集合,之后以子集合中的某一项特征属性对各个子集合完成区分,各子集合间可能存在这相类似的特征量,此时利用决策树剪枝功能对各子集合中的信息数据进行剪枝,把子集中的无效信息数据做集合处理,以此达到降低信息数据挖掘难度。之后再利用决策树算法对信息数据处理,降低信息数据的纬度。
(2)满足用户个性化图书服务。每一位用户对信息数据的需求是存在较大差异性的,为提升图书馆信息服务质量,就需要做到专职服务。而填补技术的应用就可以满足个性化需求,通过对用户所具备的共同特点的挖掘,总结归纳出用户对信息需求相似之处,进而为每一位用户提供具体的图书信息需求。通过不断的聚类、计算均值,确保目标测度逐渐区域收敛,进而得到具体的信息集合,满足用户个性化需求。如图2所示为系统挖掘用户个性化需求过程。
图2 挖掘用户个性化需求流程图
(3)预测读者需求,指导图书决策的制定。科学合理长效机制的建立能够帮助图书馆精准地预测客户对图书信息的需求,并根据采集到的信息数据进行图书信息服务的调整与优化,进而满足用户的个性化需求。其中,支持向量机本质上可以说是一种监督学习模型,通过把那些满足整体特征的信息数据进行整合,并做归一分析,进而构建能够对用户未来阅读信息的预测,帮助图书馆完成信息服务管理系统的优化升级。向量机在对用户阅读信息进行预测时,首先会把两种信息数据隔离开,通过对比分析选择使用适宜的支持向量,并按照各信息数据点的就近原则完成相应信息数据的处理,并计算得出最优逻辑。比如,在分析哪一类人员对某种书籍需求度较高进行分析时,可以利用系统把原始信息数据投射至高纬度特征空间,实现对各专业使用该本数据的占比,并基于分析将给本书籍推广到定位人群。
4 结论与展望
在信息时代背景下,大数据驱动决策成为必然。我国高校逐渐开始应用大数据技术,高校图书馆作为一个大数据信息的生产者,要想发挥信息数据的活力,就需要基于图书馆特点,构建相应的系统,对其中各种形式的信息数据进行采集、整理、分析,发掘信息数据价值,为用户提供高质量的信息服务质量。