大数据时代基于个性化服务的数字图书馆数据搜索引擎设计

2016-01-19兰州商学院信息中心兰州730020

图书馆理论与实践 2015年4期

●陈　臣（兰州商学院信息中心，兰州　730020）

●陈臣（兰州商学院信息中心，兰州730020）

［关键词］数据时代；数据搜索引擎;设计；图书馆数据搜索过程缺乏或所设置的不准确时，搜索引擎可通过机器自主学习过程，保证所搜索的数据全面、准确。第三，搜索引擎应具备较强的读者阅读服务保障功能，可为用户提供即搜即得、即搜即用、不搜即得的服务。搜索引擎应具有较强的搜索数据预测和数据关系挖掘功能，可依据数据图谱的关系挖掘出更深层次的知识关联。用户不通过数据搜索就可得到所需要的数据信息，搜索引擎可为用户提供自动推送式服务。［7］

［摘要］大数据时代，数据搜索引擎在用户个性化服务保障过程中的重要性不断增长。本文设计了一种大数据环境下数字图书馆数据搜索引擎，该搜索引擎减少了大量的对历史查询的重复计算，节省了搜索时间，提高了查询效率，并可使查询成本最小，显著提高了系统的整体搜索性能。

大数据时代具有数据规模化、数据类型多样性、高价值、处理速度快和社会化5个特点。随着数字图书馆读者云阅读需求和服务模式的变革，以及云计算技术、无线传输技术、传感器网络和阅读终端技术的发展与普及，目前，基于大数据平台为读者提供安全、高效、经济、便捷、可定制的个性化阅读推送式服务，已成为图书馆用户服务模式发展的一个重要趋势。

大数据时代，图书馆的数据量呈现爆发式的增长，数据集的规模将达到TB或者PB的级别。此外，图片、音频、视频等非结构化数据将占据数据总量的80%以上，大幅度增强了数据存储、管理、搜索和查询的难度。传统以数字文本存储、搜索和分析的数据库关联算法、语义分析方法，已不适合大数据时代用户服务高效、准确、快速和经济的需求。因此，如何依据大数据时代读者阅读内容和服务质量需求，提高图书馆搜索引擎信息发现和知识挖掘的效率、容错性、可控性和可扩展，确保信息搜索过程智能、快速、低成本和负载均衡，是关系读者大数据时代阅读满意度和图书馆市场竞争力的关键。［1］

1　大数据时代图书馆数据环境特点

（1）用户私有化数据快速增长。大数据时代，以读者个性化定制为核心的用户推送式服务，已成为数字图书馆服务模式变革的主要方向。为了满足读者数字化阅读需求和提高用户满意度，图书馆将与云服务商、电子商务运营商、第三方增值服务商、通信服务商等，以大数据平台数据共享的方式进行服务数据和用户数据资源共享。当运营商所采集的用户数据量达到一定规模后，会通过屏蔽搜索引擎和加密等技术手段，对所存储的个人隐私数据进行保密和屏蔽搜索。这大幅度增加了图书馆大数据共享平台数据搜索体验的难度和可靠性，降低了所搜索数据的价值和数据可用性，严重影响了数字读者个性化阅读服务的质量和用户满意度。［2］

（2）海量未WEB化的数据增加了数据搜索难度。大数据时代数据呈现海量级数增长的态势。图书馆所采集和用户服务保障数据，主要包括读者阅读行为数据、用户个人信息数据、读者社会关系数据、论坛与博客等社交流动产生的数据、APP（Accelerated Parallel Processing）应用产生的数据、个人云应用产生的数据、物联网产生的数据等。这些数据海量存储于图书馆与其他共享服务商的数据中心，却并未进行有效的价值提取、类别划分、组织编目、定位存储、检索维护和网页WEB化，大幅度增加了数据搜索的复杂度、成本、时间和准确性。

（3）要求搜索引擎具备较强的大数据价值发现功能。根据摩尔定律可得出，每18个月图书馆数据中心的存储性能可提高一倍，同时存储设备硬件成本降低一半。因此，大数据时代图书馆数据中心的存储能力和成本，将不再是困扰大数据环境读者服务有效性的主要因素，而大数据的价值挖掘和应用有效性，则成为关系图书馆服务能力建设和用户满意度的关键。

大数据环境下，图书馆拥有的标准化、结构化数

据约占数据总量的15%，近85%的数据为半结构化数据和非结构化数据。部分关系用户个性化服务有效性的重要数据，则分别存储于政府、第三方增值服务商和运营商的大数据库中，并随着其所拥有数据的数量、价值的快速增长而具有较强的垄断性。其次，服务数据具有内容庞大和链接复杂的特点，对搜索引擎的运行效率、并发处理能力、智能化和经济性要求较高。［3］

（4）要求搜索引擎具备较强的可用性和可控性。大数据时代，图书馆通常以自建大数据平台和签署合作协议的方式，与相关政府数据库、运营服务商大数据平台、企业大数据平台共享大数据资源。但是，不同的政府机构、运营服务商和企业大数据平台之间，可能存在数据存储与管理标准不统一、不同的大数据平台之间的数据缺乏横向与纵向交流、平台数据管理与搜索存在信息盲点、图书馆缺乏大数据管理与整合工具等问题，会导致搜索引擎在数据搜索过程中降低数据的价值密度和共享性。因此，可能会影响数据采集、处理、分析和挖掘结果的可用性，最终将影响图书馆在制定读者个性化服务策略、优化服务资源、提高服务收益率和降低服务风险活动的有效性。［4］

2　面向读者个性化服务的大数据搜索引擎设计

大数据时代，图书馆数据环境具有规模庞大、平台结构复杂、搜索效率和准确率要求高、搜索时间和成本控制难度大的特点。因此，要求搜索引擎具备快速响应和复杂查询、分析的能力。同时，可支持不同的大数据平台系统结构，具有较高的容错性、可扩展性和较低搜索延迟，数据接口开放并向下兼容性。结合大数据时代数据环境特点和图书馆读者个性化服务要求，本文设计的图书馆大数据搜索引擎如下图所示。

图　图书馆大数据搜索引擎

sss

设计的搜索引擎主要由爬虫与索引器、查询器、HDFS（Hadoop Distributed File System）、Hbase、搜索管理平台五部分组成。爬虫是一种自动获取网页内容的程序，负责在后台从互联网、图书馆与第三方大数据平台、论坛与博客服务器、APP应用服务器之中周期性地爬取数据，并为数据建立索引。查询器主要利用这些索引，通过检索用户的查找关键词来产生查找结果。HDFS自动提供了文件在集群中的存储和冗余备份，是专为大文件的存储而设计的。它将大的文件切分成多个小块，然后将这些小块分散存储在多个数据结点中，具有存储成本低廉、具备较强的容错性和数据快速读取的特点。Hbase是一种分布式、半结构化和基于列的分布式数据库，适合非结构化数据的存储。可对HDFS之中提取出来的文件进行存储、修改与检索。搜索管理平台可根据用户搜索定制需求，从Hbase中全面、准确、经济、快速地提取出所需要的数据和信息。［5］

3　大数据时代图书馆搜索引擎设计应重点关注的问题

（1）应具备较强的数据过滤和去重功能。大数据时代，数字图书馆除自身拥有庞大的大数据用户管理、服务平台外，还可以签署合作协议的方式，与第三方运营服务商、政府机构和企业共享大数据信息平台。图书馆大数据平台内部不同的存储空间之间，以及图书馆大数据平台与其他运营商大数据平台之间，会不可避免地存在着大量重复数据。大量重复数据的存在，不但大幅度降低了图书馆大数据平台的数据价值密度，而且严重影响了图书馆读者大数据阅读服务质量。因此，图书馆必须提高搜索引擎的数据过滤和去重功能，来增强所搜索数据的价值密度和可用性。

首先，搜索引擎应注重提取信息的代表性特征。应从语义、用法、结构和统计上，分析词汇、短语、命名实体或流行用语的知识特征，明确各种类型重复数据的知识结构方式，通过数据清洗、整合过程有效降低数据冗余。其次，搜索引擎应根据用户设定的搜索模式和数据权重，及时发现关系图书馆用户服务和读者阅读体验的特征数据。同时，应具备快速搜索、精确处理、准确排序和开放接口的能力，并支持对博客、短信等非结构化数据的分析。第三，搜索引擎应拥有海量处理规模、多字段过滤、智能筛选、高效过滤的功能，具有较高的数据搜索效率和较低的数据发现成本。［6］

（2）搜索引擎拥有智能、自动化的数据搜索能力。大数据时代，图书馆搜索引擎应具备智能管理、自动处理、自主学习和推荐服务的功能。首先，搜索引擎应具备对已搜索过程记忆、未搜索数据预测、最佳搜索模式判定和自主学习的功能。能够自动发现、识别新的语言知识和适应网络环境变化，按照用户搜索定义分类整理、过滤出所需的数据内容。其次，当

（3）搜索引擎系统应功能强大和可靠。图书馆应根据大数据时代读者阅读需求、用户服务模式和数据环境特点，加强搜索引擎的可用性、可控性和功能性建设，确保搜索引擎可靠、易用、经济和便捷。首先，搜索引擎在设计过程中，应对服务器日志数据、读者访问记录、Office文档、XML格式的电子表格数据、博客与论坛数据、APP应用产生的数据、图片、音频、视频等半结构化和非结构化数据，实现统一搜索界面、统一运营模式和完成数据渠道的整合搜索。其次，通过建立高效的索引来加快数据的读取速度和完整性检查。索引过程应尽量保证语句符合查询优化器的规则，避免进行数据库全表扫描以提高数据查询的效率。同时，搜索算法应允许同步更新索引和搜索，保证优先返回最佳查询结果。第三，图书馆应独立或与第三方开发商合作，利用谷歌、百度、亚马逊、微软等大型信息服务商预留的API（应用程序编程接口），结合图书馆管理和读者服务需求进行二次开发，实现对大型信息服务商大数据库的数据共享和增值服务。图书馆管理员和读者可利用大型信息服务商的大数据处理能力，实现诸如用户所处地理位置查找、在线翻译、数据统计分析、大数据处理和云计算等大数据增值服务。

（4）提高搜索引擎的读者个性化服务水平。大数据时代，图书馆用户具有客户群数量庞大、数据搜索需求个体差异大、单一用户定制需求小和对搜索引擎定制能力要求高的特点。同时，图书馆搜索引擎的系统功能，将由传统IT环境下利用关键字进行网站、网页和匹配数据的查找，转变为面向用户个性化需求的潜在数据挖掘和信息推荐搜索服务。

图书馆搜索引擎设计与实现中，首先，应注重用户个性化搜索服务的时效性要求。搜索引擎在用户服务过程中，应及时感知用户大数据搜索的目的与内容，并在用户下一次搜索前快速做出响应。其次，搜索引擎的设计应基于先进的信息统计、数据挖掘、机器学习和知识管理等技术，确保搜索引擎在运行过程中，不会将用户输入的关键字作为唯一的搜索依据，而应将重点放在发现用户真实信息与数据需求的语义搜索上。第三，搜索引擎在设计过程中，应加强系统个性化搜索推荐算法的科学性与经济性，根据用户特点和需求为用户创建个性化定制推荐模型。并设置大数据搜索信息推荐的位置、大小、内容、目数、URL范围和展现形式等参数，保证所推荐数据具有较高的价值密度、可靠性和可用性。［8］

（5）搜索引擎应保护读者的隐私安全。读者隐私安全保护，不仅关系读者大数据环境阅读活动的安全性、有效性、满意度和可持续性，同时也涉及图书馆服务的可用性、可靠性、市场竞争力和未来发展，是大数据时代搜索引擎设计应重点关注的问题。

首先，图书馆应结合国家的法律、法规和行业安全规定，对图书馆管理数据、读者个人信息、用户行为数据和社会关系数据进行安全级别划分。并与开发者签署搜索引擎开发安全管理协议，通过数据屏蔽、高性能数据过滤接口等技术手段，限制搜索引擎对读者隐私数据的采集。其次，针对搜索引擎读取保密与隐私资料可能带来的安全问题，图书馆管理员应利用robots协议，将放置图书馆系统管理密钥、用户服务系统帐号与密码、读者注册信息数据、网站配置目录、读者社会关系等敏感文件的目录，设置为拒绝搜索引擎读取目录，提高保密数据存储的安全、可靠性。第三，应加强图书馆内部网络与用户访问的安全管理，防止管理员与读者因访问非法网站而导致搜索引擎被病毒、木马劫持，绕过网络安全防御系统从内部向大数据库发起攻击，导致读者隐私数据被泄露、截获、窃取和篡改。

随着大数据时代的来临，大数据将为图书馆运营、管理和读者服务提供有效的数据应用和决策支持，成为关系读者个性化服务质量保障和图书馆可持续发展的重要因素。但是，大数据环境也存在着数据海量、种类繁多、数据价值密度低和数据知识发现难度大的问题。如何结合图书馆大数据环境特点和读者服务需求，通过强化搜索引擎功能确保数据搜索过程可管、可控、经济和可用，已成为提高图书馆大数据时代服务能力和市场竞争力的重要途径。同时，也是关系读者大数据时代阅读体验愉悦感和满意度的关键因素。

因此，只有从图书馆大数据环境特点、读者个性化服务能力建设、用户阅读需求和未来可持续发展出

发，在搜索引擎设计与实现过程中坚持安全、高效、智能和可扩展的理念，才能保证大数据搜索、挖掘和信息发现过程全面、高效、精确和经济，才能为图书馆大数据管理和读者个性化服务提供科学、全面、经济、可靠的数据支持。

［参考文献］

［1］王珊，等.架构大数据：挑战、现状与展望［J］.计算机学报，2011，34（10）：1741－1752.

［2］殷哲，曹炬.带差商信息的云搜索优化算法及其收敛性分析［J］.计算机科学，2012，39（1）: 252－255，267.

［3］陈国华，等.基于学术社区的学术搜索引擎设计［J］.计算机科学，2011，38（8）：171－175.

［4］康波，刘胜强.基于大数据分析的互联网业务用户体验管理［J］.电信科学，2013（3）：32－35.

［5］王大玲，等.基于用户搜索意图的Web网页动态泛化［J］.软件学报，2010，21（5）：1083－1097.

［6］余肖生，司新霞.基于聚类分析的元搜索引擎模型［J］.重庆理工大学学报（自然科学版），2011, 25（6）：69－72.

［7］李伏，朱青.混合MapReduce环境下大数据划分的查询优化［J］.计算机科学与探索，2012，6 （10）：877－887.

［8］尤川川，张桂刚.一种基于大数据的有效搜索方法［J］.计算机科学，2013，40（6）：183－186.

［收稿日期］2013－08－12 ［责任编辑］菊秋芳