基于数据挖掘的图书馆智库情报服务构建研究
2018-08-22秦宗和
秦宗和
(忠县图书馆,重庆 404300)
1 大数据背景下的图书馆智库情报服务
1.1 大数据与智库
信息技术与经济全球化的发展促使信息量爆炸式增长,许多公共事务需要通过跨学科、跨平台以及跨机构的协同发展,许多与国计民生相关的项目都需要基于大数据来进行智慧构建[1]。在此背景下,具有智力资本和信息资源优势的智库情报服务应运而生,智库情报服务可以为图书馆决策者提供优质的情报决策服务。传统的单一智库运营模式欠缺深层的大数据分析和数据挖掘支持,针对高质量的情报分析存在困难,这种模式下,智库学者与情报专家之间存在知识鸿沟,二者无法实现更广泛的交流、合作,导致智库的情报服务研究结果无法适应现代化的信息技术发展和经济全球化的趋势[2]。
近年来,图书馆智库情报服务在大数据建设与发展的背景下,逐渐呈现出知识与情报紧密结合的发展趋势,通过数据挖掘产生的知识不断支撑高质量的决策结果。实际上,图书馆的智库与情报工作之间存在着天然的联系,智库的知识研究过程有较强的情报需求,情报研究能够为智库知识研究提供信息支撑和数据支撑[3]。在图书馆的情报研究中,通过智库提供的大数据分析和数据挖掘工具,针对情报用户需求中的环境分析、信息加工和情报分析等活动,为情报分析用户提供稳定的环境监测、态势跟踪和深度分析,以及有效的风险预警和决策等功能,这些功能都具有巨大的需求和良好的发展前景。
1.2 数据挖掘与智库情报分析
一般来说,数据挖掘与智库情报分析都是以数据为基础,通过挖掘和分析,获得隐含在大数据中的知识或情报,从而完成对目标问题的指导和决策。因此,在数据挖掘与智库情报分析中,应该关注数据之间的多元融合以及多元数据之间的相关性,主要包括以下3个方面[4]:
(1)大数据的基本属性为数据总量较大,数据挖掘需要通过机器学习获得的规则对大量数据进行分类,过滤掉冗余信息,减少数据存储量;现代情报分析更依赖于信息技术,通过人工对大量的信息进行判断和决策,最终形成稳定的情报分析结论。
(2)数据挖掘能够面对大量多元异构数据,从结构化、非结构化数据中挖掘出有效信息;在提倡科学性的前提下,智库情报分析应该从多源异构数据源中获得深度数据信息。
(3)相关性分析是数据挖掘和智库情报分析的基本原理,从提升数据挖掘和智库情报服务之间的协调性和适应性角度来看,通过相关性分析构建多样性数据之间的相关性有较大的意义。因此,在大数据时代下,采用数据挖掘对智库情报分析能够产生更为科学的分析结果。
2 大数据背景下的图书馆智库情报服务构建
2.1 图书馆智库情报服务构建的理论基础
图书馆智库具有收集数据、信息和情报,加工、检索和提炼等功能,而这些服务也正是图书馆情报分析所需要的服务。实际上,由于职能的差异性,智库研究中的情报检索能力较差,远不如情报研究中的情报检索能力,而情报研究中的决策能力远不如智库研究中的决策能力[5]。然而两者在数据挖掘、信息收集和检索上都有较高的相似性。因此,若将情报研究过程加入到智库的运行机制中去,可以为图书馆智库提供有力的信息共享和知识服务体系。图书馆情报研究的自身资源和技术平台能够为图书馆智库提供全面的数据支持和信息保证,其研究的价值能够完美契合图书馆的智库研究;反过来,智库的构建和开发也能够提升和强化情报机构的信息服务技能。
图书馆情报智库构建过程中,智库研究一定要重视对情报运营机制的构建,情报研究的构建需要借鉴智库研究的服务机制。在二者的工作内容上,智库和情报研究为服务对象提供战略决策,二者的服务形式都是知识创新和策略创新。智库研究以问题为中心,针对图书馆公共事务决策提供智慧支持,情报研究则是以用户需求为出发点的智能决策支持服务。因此,情报用户的需求基础为智库的问题导向提供了基本保障,智库的构建则可以将情报研究中的需求导向融入到问题导向中,增加情报研究的多样性。因此,图书馆智库和情报研究之间具有较高的相似性,这将为构建大数据背景下基于数据挖掘的图书馆情报智库构建奠定良好的理论基础。
2.2 图书馆智库情报服务平台构建
图书馆智库情报服务平台是一个集合资源检索、数据处理、情报传输、智能数据挖掘等多个功能的有机整合系统,并构建于物联网、云计算和大数据平台基础上,能够有效地将智库研究和情报研究有机整合并相互渗透、共享资源。图书馆智库情报服务平台能够借助于各种定量分析和定性分析的数据挖掘工具与方法,将大数据信息和资源转化为有效的智能决策和支持[6]。该平台的构建既需要将环境分析、需求分析、任务设计、数据挖掘、知识发现、智能服务和情报服务等基本流程融合,也需要具备较强的认知学习、控制评价的智能反馈能力,最终能够应用于图书馆的各项公共事务的决策和支持。
图1 基于数据挖掘的图书馆情报智库平台组成模块和功能
该平台从图书馆智库研究和情报工作入手,将用户的决策需求作为服务出发点,以为用户提供决策支持作为需求的落脚点,然后再在中间层根据用户决策的需求来对资源和能力进行各项整合,通过中间会话层将信息采集、知识创新、数据挖掘和服务决策能力凸显出来。在整个平台的运作过程中主要包括4个不同的阶段:
(1)第一阶段:完成图书馆智库情报数据的扫描,通过数据挖掘的技术对海量信息、数据和情报进行扫描,在扫描过程中发现数据源中存在的问题,并根据扫描后的实际情况构建理论假设。
(2)第二阶段:完成图书馆智库情报系统的需求判断,基于决策和市场两个层面构建系统的需求分析。针对不同程度的外部环境扫描和对用户需求的确认,不但包括智库的问题导向需求,而且包括情报的用户导向需求。
(3)第三阶段:完成图书馆智库情报系统的数据分析,针对明确的需求分析采用相关的技术和方法对海量数据进行深度挖掘和提炼,形成具有初步价值的信息产出。
(4)第四阶段:完成图书馆智库情报系统的运营和管理,展开对智库资源和情报能力的推进工作,形成高度整合数据的能力。将数据挖掘产生的各项决策成果进行高度提炼,并整合构建出研究成果,以快报或简报的形式推送到不同用户的手中以帮助用户完成决策。
实际上,基于数据挖掘的图书馆智库情报平台是一个复杂的动态系统,能够根据不同用户的各项需求构建解决方案,不但能够将情报研究嵌入到智库研究的运营机制中,又能够很好地在情报研究中采用智库研究的原理与方法,最终实现一体化的管理流和信息流交互优化,提升智库和情报的专业水准。
2.3 图书馆智库情报服务内容构建
在图书馆智库情报服务内容构建中,从数据收集、需求判断、数据挖掘和结果推送4个方面进行详细的内容分析[7]:
(1)数据收集是构建图书馆智库研究的基础,是构建智库情报服务平台的基本任务,是平台研究的关键。一般来说,可以借助于数据挖掘工具,并采用情报分析方法,有针对性的对外部数据和内部数据进行检测,并跟踪追踪数据,构建策略风险预警和制订各项预案。在数据采集过程中需要具有专业知识和技能的智库相关工作人员进行,这样进行的数据采集结果将会更为理想,构建的数据资料具有更好的价值,可以描述出关联事件的本质信息,并将采集好的数据保存为相应的数据形式,为数据挖掘提供必要的数据基础。
(2)需求判断是图书馆智库情报平台的重点内容之一,通过跟踪分析智库的各项信息需求,构建任务和确定智库项目。在信息化、知识化和经济化的现代图书馆,智库研究对于情报的需求不再满足于简单的文献检索和信息支持,而是更多样化、个性化和深层次的信息需求。针对智库情报服务的需求判断是明确的任务过程,包括决策、相关领域动态和行业发展的趋势,旨在通过情报研究帮助智库确定相应的研究领域和目标。因此,情报工作应该先于智库研究启动,有助于提升智库研究的环境感知能力,提升智库研究朝着更为个性化、多样化的方向发展。
(3)数据挖掘是图书馆智库情报服务的关键内容,在完成需求判断以后,需要确定研究课题的学科范围,选择学科范围内的各项关联数据库,选择正确的检索用词和策略。在数据挖掘的任务设计阶段还应该进一步确定研究主题和内容之间的逻辑关系,通过概念表达各项研究主题。一般可以投入专业人员编写检索表达式完成对数据资料的收集和检索。数据挖掘阶段的检索策略将会影响到检索的效果,所以智库情报服务平台应该投入更多的资源构建专家团队,为数据挖掘设计出明确的工作方案,将数据挖掘任务细分到每一步骤,明确工作性质和任务资源与工具。在数据挖掘过程中,情报机构的任务是为智库项目明确检索策略,确定检索数据库和检索关键词,提供合理的排查方案。
(4)推送结果是构建智库情报服务平台的目的,由于智库研究的结果形式为智力成果,不能直接转化生产力,其价值无法用利润衡量,只能通过该智力成果如何影响图书馆公共事务决策来衡量。因此,需要智库情报服务平台利用网络资源,通过多种途径将智库研究结果和情报工作结果推送给各个用户,最终实现智库研究和情报研究的价值。一般来说,在推送结果之前可以组建专家团队对结果进行客观评价。通过用户的反馈意见,有针对性地对情报进行修改,形成高质量的智库情报结果。确认好智库情报结果以后,应该及时通过各项媒介手段推送给用户,协助用户进行决策。
3 基于数据挖掘的图书馆智库情报服务
在物联网和智能技术不断发展的今天,半结构化和非结构化数据增速加快,传统的结构化数据挖掘方法已经不能适应大数据时代的需求[8]。在大数据背景下,对图书馆智库情报数据挖掘方法提出了更高的要求。新时代的数据挖掘方法应该具有采集、处理和分析多源异构数据的能力,具有快速实时全面采集数据的能力,还需要具有处理各项不完备数据源的能力。同时,新时代的数据挖掘还应该综合应用多种数据挖掘工具,为用户提供更便捷、有效的智库及情报服务。
图2 基于数据挖掘的图书馆智库情报服务
3.1 构建全面的智库情报数据
图书馆进入信息、智能时代,音频、视频、图像和文本数据出现了爆炸式的增长,信息的快速更迭导致信息收集速度加快,信息极易出现失效。如果不对爆炸式的信息和数据进行快速预处理,相继产生的后续数据将会成为图书馆智库和情报服务的负担。图书馆智库情报服务平台应该实时获取各项数据源的全部,用于信息资源建设,从新的渠道以及新的载体获得更多的有价值数据,应用有效的数据挖掘工具从经过预处理的数据中挖掘出有意义的知识信息,让数据挖掘的结果能够满足不同用户的不同需求,让用户享受更个性化和多样化的服务。图书馆的智库情报服务在面对海量的增长式数据时需要预处理有效的数据,然后再通过情报分析人员对预处理过的数据进行检验和校正,最后用于各项课题的研究。
另外,除了构建合理的预处理工具来对海量增长的数据完成预处理外,还要构建具有融合多源异构数据的处理工具。这是由于大数据时代下,在图书馆智库情报服务平台中,通过构建多个数据传感器,从网络的多个数据获取节点中实时传递、采集数据,而通过这种方式采集到的数据一般具有多源异构的特点。处理海量的多源异构数据是大数据时代的数据处理重点,针对海量的异构数据处理工具成为了图书馆智库情报构建的关键。一般分为两个部分,一个部分是通过关联规则来消除海量多源异构数据中的冗余数据,另一个部分则是通过十字交叉验证的方式来对多源异构数据进行验证,减少存入数据库中的数据错误。
3.2 组建完备的智库情报人员
信息时代是人才竞争的时代,随着数据挖掘技术、物联网技术和智能技术的普及,各行各业都需要复合型人才。图书馆作为学科交叉行业,一方面需要努力培养传统的图书馆员,来增强图书馆的管理和运维。另一方面,图书馆员不能仅仅只拥有传统的图书馆管理技能,还需要培养更多、更全面的管理知识。针对智库情报服务平台,首先可以通过专家讲座的形式,为各个年龄段的管理员普及数据挖掘、互联网的知识,为图书馆进入智能化做好人力资源储备。其次,针对新加入图书馆的年轻人,着重培养他们在数据挖掘、互联网和智能技术中的实际动手能力,提拔一些有较强动手能力的年轻人组建图书馆的智库情报团队。其成员一方面具有较强的学习新知识能力,另一方面也具有融合智库和情报之间优势的能力。在智库的人员储备中,图书馆可以购买半成品智库以及相应的二次开发方案,并让智库情报人员学习使用半成品智库,在此基础上通过二次开发方案构建与该图书馆的特色相适应的图书馆智库。通过有图书馆管理和运维经验的智库情报人员对智库进行二次开发形成的图书馆特色智库,不但能够满足情报工作的需求,还能够为不同用户提供个性化、多样化服务。在情报服务的构建上,让具有智库服务经验的人员参与到情报的收集和分析中去,这样的情报分析工作能够结合到智库的数据挖掘优势,后续的智库服务又能够吸收情报分析的特点。
3.3 综合应用多种数据挖掘工具
大数据时代数据类型多种多样,通过单一的数据挖掘工具已经无法满足多样化数据的分析过程。信息时代的图书馆用户对信息的需求量和需求效率显著提升,所以需要运用更快捷的数据挖掘工具,来提供稳定的智库情报服务。此外智库情报服务平台在大数据时代背景下获得了全面、稳定的数据源,不同的数据源需要采用不同的数据挖掘工具进行分析和挖掘,从各种类型的数据中挖掘出有意义的决策知识,再综合各个决策知识提供稳定的决策服务。如果仅仅采用单一的数据挖掘工具,多源异构数据和各种不完备的错综复杂的数据类型,将会让图书馆智库情报服务的数据挖掘和分析成为平台的负担。作为智库情报分析人员,首先需要建立好自己的专业知识基础,一般可以通过书本学习和讲座学习等形式。其次,还需要通过动手实践建立好自己的实践基础,可以通过跟踪学习智库技术和情报技术等方式完成。在理论基础和实践基础上,智库情报分析人员还应该充分利用社交网络进行智库情报分析,从海量的社交网络数据中分析用户的行为,为用户提供合理的决策信息。大数据背景下的数据挖掘服务,还应该与传统的情报分析服务相结合,通过情报分析的经验,对数据挖掘的方法和手段进行补充和完善,形成全面、可靠的数据挖掘结果。图书馆应该将财力、人力花费至改进和拓展工具与设备的分析能力上,保证情报分析人员能够处理各种形式的数据规模,在多样化、个性化数据背景下顺利完成复杂、困难的情报分析工作,适应各类用户不同形式的图书馆智库情报服务需求[9]。
3.4 构建可持续发展的智库情报服务
数据挖掘形成智库情报服务,需要图书馆构建并提供可持续发展的服务类型和形式。从近几年的互联网技术和智能技术的发展来看,图书馆由传统的服务形式转化到数字化服务形式,再转化到智能化服务形式的过程非常快,所以要求图书馆能够构建可持续发展的智库情报服务。一方面,智库服务和情报服务随着互联网和智能技术的发展都获得了较大的进步空间和发展效果,需要图书馆投入更多的复合型人才形成可持续发展的智库服务和情报服务,以及结合二者的发展构建更稳定的智库情报服务,提供更优质的用户决策信息。在可持续发展的构建中,针对数据的不完整性和错误数据形式是当前最需要解决的问题之一。目前智库情报服务数据挖掘过程中的有价值数据在数据总量中的比例较小,密度较低,不适合构建可持续发展的智库情报服务。另外,图书馆作为非盈利性质的单位,没有足够的资金构建海量的数据库。为了构建可持续发展的智库情报服务,图书馆应该在数据的实施存储过程中,控制数据库的运营、管理成本,通过构建合理的预处理算法对存入数据库中的数据进行清洗和转化,让有效数据的密度增高,并利用重复检索、聚类等算法对文档、网页或其他类型的信息资源进行过滤、对海量图像进行检索。图书馆还可以采用国际权威智库的大数据算法,充分利用和扩展分布式数据,构建底层基础设施,从而形成对不完备数据处理的快速数据流。为保证图书馆的智库情报服务的可持续发展,还应该不断改进数据处理方法,提升数据准备的效率,保证数据的时效性,控制好数据库的存储门槛,构建高质量的智库、情报分析数据,提高研究结果的科学性和准确性。
4 结语
经济全球化和信息智能化的飞速发展,对图书馆的智库研究和情报分析研究提出了新的信息处理和数据挖掘需求。大数据与智库,数据挖掘与智库情报分析,构成了大数据背景下基于数据挖掘的图书馆智库情报服务体系。在今后的研究中,应进一步构建更合理的数据挖掘体系,充分融合图书馆的智库研究和情报分析研究,让二者形成更为完整的服务体系,为各种用户需求提供理论和实践指导。