基于移动图书馆平台的访问数据分析

2018-06-08孔庆祝

泰州职业技术学院学报 2018年2期

关键词：数据挖掘图书馆用户

孔庆祝

（泰州职业技术学院，江苏泰州 225300）

移动图书馆平台给图书馆数据分析和知识挖掘带来了便利，馆员可以很方便地利用平台进行访问数据收集和知识挖掘，充分掌握整个图书馆工作现状，形成相应用户访问报告，供领导开展图书馆工作决策时做参考。

1 移动图书馆面临的大数据环境

现代大数据环境中，信息数据挖掘环境条件都有了很多变化，这就使得数据挖掘解决具体问题时总会碰到这样那样的难点和挑战。

1.1 数据量激增

大数据时代的信息量的基本处理单位是GB、TB、PB等，这是以前的数据量远远不能比的，并且整个数据量仍然不断地爆发式增长。根据Win⁃terCorp的统计数据，目前全球最大的数据仓库其数据量正以两年三倍的速度增加[1]，这样的速度已经超出以前小数据时代人们的想象，在小数据时代人们为了达到最少的数据获得最多的信息，往往通过随机采样来处理大规模数据，其弊端是显而易见的。在不可收集和挖掘全部数据的情况下，这种数据挖掘的准确性是随着随机性增加而增加的，与样本数量并没有多大关系。为了获得准确的结果，就必须尽可能地增加数据采样的随机性，但事实上仅凭随机性数据采样并不能捕捉到隐性藏匿海量数据之中数据价值，这也导致数据挖掘最终结果不够完整准确。大数据挖掘与随机挖掘有所不同，它不采用随机挖掘处理所有数据，当然“大”也只是相对而言的；同时，数据量大数据价值却未必大，在大量数据下面包涵着很多数据噪音，这就要求在数据挖掘之前首先去除掉存留数据中的杂质，但是巨量筛选清洗等去噪工作给机器硬件以及算法增加了很大的负担。目前采用解决方法是在数据挖掘建模的基础上对特征空间矩阵进行分割，依据一定规程将其切分形成大量的子矩阵，然后对子矩阵文件重整将他们划分到数个服务器节点上，同时进行并行分布式改造数据挖掘算法与之配套。这就导致每次迭代运算都分为两个步骤，首先为取得子矩阵的局部结果必须在每个计算节点上对子矩阵进行运算；其次在得出子矩阵的运算结果的基础上，汇总各子矩阵的运算结果从而得出整个对象—属性矩阵的全局结果，然后不断迭代直到得出最终有效的应用模型。Google的MapReduce模型就是通过以上方法来实现分布式算法的典型代表。

1.2 特征维度多元

知识挖掘中通过不同的特征属性来定义不同的样本，大数据环境的多样性使得描述数据特征维度大大增加了，这就使得日常表达对象的所含信息内容大为增加。为了适应这种情况，多维数据模型与计算方法也变得愈加复杂。不过由于大数据特征空间中，对象—属性矩阵的属性数量和对象数量都很巨大，超出目前常用算法特征维度级别，在成千上万的属性特征的对象面前，多维数据模型与计算方法很容易遭遇“溢出”灾难。Web网页中的微博数据，就属于属性特征维度极多的大数据，这种数据往往有高达数万内容的关键词属性，而大数据中微博的数量也是百万或千万级，甚至上亿，如此巨量的高维数据处理难度可想而知。一般而言，这些超高维数据稀疏性很强，其部分属性子集中往往能够体现象簇和类别的表达，用传统的特征空间方法建模挖掘并不能得到理想结果。

1.3 数据关系复杂

数据挖掘方法一般都是平面的，整个数据挖掘过程中数据关系简单，数据之间关联也少。社区数据挖掘就是这种简单数据关系的处理，首先数据挖掘环境固化为单一网络关系环境，在这种环境下得出的挖掘结果肯定与用户信息需求大相径庭。而现实世界是由多重多层次的关系构成整个社会网络或异构社会网络的，对象之间关系极其复杂，如用户考评、个人征信检测数据计算都涉及多种数据关系。现实中对象数据关系复杂，大数据的多源性多样性与这种的复杂关系构建相契合，通过对复杂关系分解成一个个简单关系，然后通过多关系的简单链链接起所有关系，这个链接关系的综合体就是体现了复杂关系对象特征属性，但由于这样链接本身过于简单机械，分解和链接过程容易形成“泛关系”（包括所有属性），反而不能体现数据的隐匿价值，最终影响知识挖掘的效果[2]。这就对多关系知识挖掘提出了更高的要求，我们在处理这种多关系知识挖掘时，在构造聚分类模型上，要更重视对关系提取、选择、组合，充分运用关系判断函数，将不同关系中的相互关联模式尽可能提取出来，这样在后期知识挖掘处理时，才能将分散于不同的数据源之中的信息与知识挖掘出来，这是知识迁移过程中的主要工作。

1.4 算法性能高效

在多数人印象中，大数据的数据处理效果显然是优于小数据时代的，但让人意外的是，这种优势并不是算法上更加高级、智能化程度更高带来的，这是基于大数据的基础——海量数据的成果，从某种程度上说数据量比算法系统的智能更重要也不为过。Google翻译就体现了这一点，它在算法上并没有采取复杂的计算机语言规则，最终翻译结果却更准确、精干，这依赖于Google花费巨力建立了数十亿Web训练数据。这种数据量上的优势决定了大数据时代数据处理算法性能。然而，凡事都有利弊，在大数据海量数据、纷繁的种类、庞杂的特征类型影响下，全面掌握整个数据的分布特点几乎是不可能的，最终必然会使得我们对数据挖掘结果和过程考核难以采用明确的指标去衡量。因此，选择大数据挖掘算法时，必须从数据挖掘全局多方面加以考量，尤其应注重以下几点:（1）扩展性。大数据处理很多都是在云计算框架内完成的，现用的很多算法并不能很好地适应云计算的框架，这时就必须对这部分算法进行扩展，最终在云计算框架内进行，这种扩展性其实是对算法的优化和创新，这是与大数据环境融合的必然结果；（2）实时性。大数据对时间和效率的要求比以往任何时代都高，因此很多时候数据挖掘评价最重要的指标不是算法的准确率，而是能够及时处理数据，这时候实时性反而有时会更重要些，实际应用中如智能推荐、审批事务中的在线数据流挖掘就是这样，这时候我们就需要综合考量，在实时性和准确率之间取得一个平衡；（3）伸缩性。海量数据是大数据的基础，只是在数据量不断增长的情况下，在少量数据情况下运行得最好的算法有时就会面对一个极限，它们对数据处理会困难重重，比如统计学中的邦弗朗尼原理。大数据中数据种类繁多、特征类型庞杂，传统的单一知识挖掘模型很难满足应用的精度要求，多模型的集成挖掘的方法应运而生，这些分类组合模型通过复合多个分类器的计算结果，最终整个挖掘结果的准确程度大大提升，装袋和提升都是这样的有效分类组合模型。

1.5 语义理解清楚

常见知识挖掘任务如文本聚类、文本分类、自动摘要、信息检索等等，由于缺乏对同义词、近义词以及词语间的语义关联进行有效识别手段，因而都带有明显语义特征稀疏问题，在处理微博等短文本时尤为严重，往往为了得到较优的结果不得不进行人工干预，这种半自动化的处理方法在大数据的冲击下无疑存在很大的缺憾。这主要是由于目前计算机在人工智能方面还有所不足，不具备人一样的语义知识，对自然语言理解能力往往不是很到位。这也是制约知识挖掘效果的瓶颈，我们应该加大这方面的研发力度，不断利用语义知识提高计算机的自然语言理解能力，只有这样才能提高知识挖掘的性能，适应大数据时代的知识挖掘的需求。

1.6 数据解释明晰

我们花费的大量的人力物力时间挖掘的结果，如果没有采用适当的解释方法或形式，对缺乏专业背景的普通用户是很难理解的，从某种程度上说，用户理解是数据挖掘价值之所在。为了增强用户对挖掘结果数据的理解，某些知识挖掘系统通过提供多种可视化视图来揭示信息，只是可视化视图更多的是一种挖掘结果的呈现，对知识挖掘方法、挖掘结果的局限性或者有效性用户仍然是茫然的，对挖掘结果乃至更多相关信息上的缺失，会让用户对整个知识挖掘产生疑虑，大大影响了知识挖掘的应用效能，有时甚至会造成用户对各种结果的误判。

1.7 数据隐私安全

众所周知，数据分析越频繁、数据分析能力越强，数据隐私安全就会受到越来越多的威胁。为了加强对数据隐私的数据挖掘进行保护，我们一般采用安全多方计算（Secure Multiparty Compu⁃tation）与数据模糊（Data Obscuration）两种方法。安全多方计算可以保证任何一方无法知道另一方的数据真实值，这在数据量有限和小数据时代数据挖掘中是可行的，大数据的海量数据和繁杂关系使得安全多方计算不可能穷尽所有数据关系，也就谈不上数据隐私保密；数据模糊方法则是通过对原始数据增加干扰项，但在进行数值聚集处理或者加入随机噪声失真后恶意攻击的难点也增加了。实际数据挖掘过程中，数据挖掘者对数据的真实值并不了解，而在原始数据值上利用失真数据集重构算法，就能在进行数据挖掘的同时最大限度地保护数据隐私。

2 基于移动图书馆平台的数据分析

2.1 移动图书馆数据选取

我馆的移动图书馆是去年下半年开始启用的，一年来，针对移动图书馆这一新生事物，围绕数据驱动决策这一大前提，我们在多个方面做了探索和尝试。我馆数据分析首先确定分析主题和对象，选定好适合的分析工具，采用科学的分析方法和严密的组织架构来保证执行的效果。在数据分析时主要从以下几点进行考量：一是数据源选择。数据源是数据最初的来源是最能反映数据本身情况的指标，在全面掌握数据来源情况后，便可以深入数据内核进行数据挖掘，它也是判断未定数据趋势的重要参考。二是单一数据特质。单一数据是构成整体数据的基础，单一数据的组合形成整体数据的效果，只有认识单一数据最基本特质后，才能对数据各因素间具体作用过程和结果有所了解。三是数据的环境。指数据存在的时空环境，离开相应的环境数据就可能有所变化。四是数据的前瞻性。数据分析主要是挖掘数据特质，分析未来的走势提供决策支撑，数据必须要有提供预见性分析的可能。

2.2 移动图书馆数据分析指标体系

一般而言，移动图书馆数据分析指标可分为两类，一是移动图书馆本身建设质量评估指标；二是用户访问移动图书馆行为体验指标。我馆根据实际馆情结合可操作性，主要制定了以下指标。第一类指标中有界面友好性、资源涵盖率、易获取率、用户尝试率、下载传递速度、业内知名度等；第二类指标内容较多，涉及用户访问行为的方方面面，主要是移动图书馆访问信息内容指标，包括（1）访问内容、访问者的身份、使用搜索引擎、访问时间等访问信息（2）用户访问计量分析指标，包括独立访问者统计、用户行为分析、页面停留时间、访问时长、访问频率、关键字检索分析等用户访问指标，这些指标能使我们实时了解移动图书馆平台的运营状况，掌握有效覆盖人群的规模、页面和频道的热点。（3）用户对移动图书馆网站资源的使用指标，指的是用户对集成到移动图书馆各种资源使用情况，如考试资源、音乐资源、课件资源等。（4）用户忠诚度指标，指的是长期使用移动图书馆用户数。（5）用户对移动图书馆推介活动的参与度指标[3]，这里参与度是通过移动图书馆宣传推介各种活动参与人数统计。依据以上这些指标，我们充分了解了我馆移动图书馆服务水平和现状，当数据发生变化时，我们会及时调整资源配置、提升服务水平、拓展用户感兴趣的服务内容，为广大用户服务。

2.3 移动图书馆数据分析流程

（1）数据收集。这是移动图书馆数据分析的第一步。目前移动图书馆数据收集一般有三种来源，分别是服务器的日志、Webtrends或类似的第三方共享软件收集信息、自建信息收集插件收集。服务器日志记录除了反映服务器的运行状况，发现和排除错误原因、了解客户访问分布等，还能了解什么搜索引擎、什么时间、抓取了哪些页面,可以知道是主搜索蜘蛛还是从搜索蜘蛛抓取了图书馆的网站等的信息，但日志分析只能提供初浅的数据，并不能收集用户行为数据，在对用户访问兴趣转换和历史跟踪上就无能为力。Webtrends或类似的第三方共享软件是基于网站日志记录进行分析的网站分析工具，可以进行客户端分析、流量分析、可用性分析等，其分析项目多而细，生成的分析报告比较直观，结论清晰，可多角度反映问题，但其统计运算复杂，运算过程中会伴随一些无效的干扰操作，这就造成结论的偏差。自建信息收集插件种类繁多，各具功能，但多数流程都是手续用户注册账号信息，在用户登录帐号时设计一个连接对话框，该对话框与保存着登录的IP、访问的页面相关信息相连，当读者退出网站时把对话框内含信息写入跟踪库；数据挖掘模块通过IP与服务器的日志文件关联，提取出数据进行分析，最终得出结论供决策支持系统使用。以上三种方法都各有利弊，实际操作都是混合使用，对比分析让数据收集更为真实可靠。

（2）数据整理。数据整理首先要明确目标，对数据进行有效性筛选，在此过程中对用户行为加以区分，依据庞大用户群积累的数据使得数据的误差减小到最低，最终对用户进行分门别类后，将各种数据归到相应类目中，这是一个繁琐需要极大耐心的工作。

（3）习惯分析。习惯分析是对用户访问行为信息归类整理的过程，在对用户访问页面内容分析的基础上，根据访问主题对页面进行分类，依据整理出的用户访问页面内容相似度和页面路径，得出用户浏览兴趣的结果，通过综合评估模型得出访问用户的兴趣所在，最终依据兴趣结果调整个性化访问界面进行信息推送。当然用户兴趣存在一定的偶然性，我们根据用户访问重复性、相似性内容来确认用户兴趣，通过其访问行为上表现出的访问时间、点击次数、拉动滚动条次数等数据加以验证，剔除掉偶然性访问数据，保留可供决策的稳定性访问数据。

（4）构建分析报告。在进行以上数据操作后，形成移动图书馆访问数据分析报告，报告由总体分析、重点项目分析、经验总结三部分构成。总体分析即对移动图书馆网站监测数据总量分析，从全局把握移动图书馆平台运行的总体印象；重点项目分析，在总体分析的基础上有重点地对重要指标项目和波动较大的项目通过具体的数据指标,进行趋势预测和对比分析；经验总结，通过移动图书馆平台数据分析指标，对不同的分析事项分门别类建立各自相应的分析模型，从而客观的对已有的经验分析总结并加以验证，吸收其中正确的方面形成规律最终指导实践中的网站数据分析[4]。三个方面相辅相成，前一阶段是后一阶段的基础，环环相扣，只有把握好数据分析各个环节，最终才能得出可靠的结论。

3 移动图书馆数据分析的具体应用

3.1 依据访问数据调整图书馆馆藏资源结构

互动了解用户需求来调整馆藏资源结构是自然而然的事情，只不过移动图书馆的用户更庞大，数据也就更能反映用户真正的需求。目前，我馆访问数据的来源主要有三处：移动图书馆每天的后台访问日志、移动端相连的图书管理系统日常工作记录、在线网购图书的记录。对用户浏览图书、视频资料情况的分析表明用户喜好和当前热点，馆员在分析处理后将最热资源推荐给领导，在资源建设人员新建资源时将这些因素考虑加以考虑重点关注。依据移动平台数据统计，我们发现高校用户在时间节点的独特之处，这一点在用户数据分析中也有明显的反映，每年六月英语等级考试、1月的研究生入学考试、毕业生用户的求职和论文写作时，都会在移动平台的资源访问数据中有所反馈，我们也会适时推出相应的图书推荐和数字资源推广，以便用户能及时找到急需的信息。

3.2 依据访问数据参与学校教学科研

依据移动图书馆平台，我们积极参与学校教学活动，建立与教学、科研及学科团队的数据关联。在教师课程改革和教学改革过程中，我们分专业和年级对学生投放相关教学数字资源，尽量保持课程同步，最终形成个性化教学界面。在这个界面上课程安排、重点剖析、考核等应有尽有，大大减轻了老师的负担。在学校科研活动中，图书馆最受欢迎的是科技查新和论文查重服务，我馆目前开展了知网论文查重和维普论文查重，都可以详细将重复文字标识清楚，这对广大师生的论文写作大有裨益。而科技查新是作为我馆新兴的信息服务项目，对我校科研人员而言也有积极的意义，它是科研工作的第一站，在用户选题前的科技查新报告中，图书馆馆员会清楚说明该研究目前的国内外状况和相关研究热点，并文献综述标明创新点及难点，这也给馆员提出了更高的要求，除了具有一定的专业背景，还需要通过数据分析和挖掘对相关课题提出一些前瞻性的预测。对学校学科水平及团队的统计和数据分析是近年来图书馆开展拓展服务的尝试，通过数据统计出学科水平、教师的论文影响因子及专业在国内外的排名，反映了我校整体科研水平，通过数据分析形成报告交由领导调整科研奖励政策，建立相关激励措施，提高广大教师的科研积极性激发他们的创新动力，最终形成全院良好的科研环境。

3.3 依据访问数据促成图书馆空间再造

依据用户访问数据及手机定位程序，统计用户在校园中的重点区域，分析该区域中用户行为模式和特点，挖掘出用户真正兴趣之所在。依据这些用户行为对图书馆空间加以改造，分区域划分为不同的功能模块，适合不同人群。如学习区，不能讨论保持安静；讨论区，可以有数人小组讨论问题，发表自己意见；休闲区，配置沙发、插座等打造宽松的学习环境，用户可以在这里上网，听音乐等。不同区域通过不同色调加以区分，辅以标识更加清晰明确。功能区改造后，依据移动平台收集用户的反馈信息，然后不断加以改造，真正打造用户心中最美的图书馆形象，配合空间再造时加大软环境建设，加强相关规章制度建设将硬件建设的成果发挥到最大，让读者受益，最终图书馆访问人数将愈来愈多。通过移动图书馆平台，我们做了小小的尝试，对常来图书馆用户进行统计，如图1所示，以2013学年经常学习区自习的学生为对象，关联图很清楚地显示了自习对学业成绩的影响，进而推广到影响四、六级通过率、考研通过率等等，这些数据分析结果最终也会形成报告成为图书馆空间再造升级决策的有力依据。