大数据时代高校图书馆嵌入式知识发现情报分析服务模式研究
2017-03-15郝建军
郝建军
摘 要:文章介绍了大数据时代高校图书馆开展嵌入式知识服务的内容,分析了大数据与情报的共性,并重点阐述了嵌入式知识发现情报分析服务的重要环节,同时又设计了大数据时代高校图书馆嵌入式知识发现情报分析服务模型,该模型主要包括数据资源层、知识发现处理层和界面展示层。
关键词:大数据时代;高校图书馆;嵌入式服务;知识发现;情报分析
中图分类号:G252文献标识码:A 文章编号:1003-1588(2017)02-0049-03
大数据技术的快速发展促进了科研方式的变革,基于数据紧密型的科研方式已经成为自科研经验方式、理论方式、计算机模拟方式之后的新的发展模式[1]。现阶段,海量的半结构化和非结构化数据给科研带来了巨大挑战,而且数据存储和共享功能缺乏合理性和有效性,这也给高校图书馆的服务模式造成不小的影响。在大数据时代,高校图书馆应该更加重视用户数据安全和服务质量,积极利用先进的数据分析和处理技术来提升高校图书馆服务的智能化和个性化,为高校图书馆的服务创新创造出有利条件[2]。高校图书馆应该借助大数据技术,充分了解用户的服务需求,并以满足用户的服务需求为目的开展相应的服务。
1 大数据时代高校图书馆开展嵌入式知识服务的内容
1.1 用户需求的分析
在大数据环境下,首先,高校图书馆可以收集和存储用户的基本信息,比如:用户的学历、年龄、科研成果、学习经历以及工作单位等信息,并详细记录用户的操作信息及检索、查询、收藏以及标识等操作行为,可以与用户查询资料的内容、学科类别以及相应用户权限进行关联,还可以收集用户具体的信息咨询、科技前沿以及参考导航等服务情境[3]。其次,高校图书馆可以分析海量數据,利用基于语义网的技术来规范用户信息资源,并将其转换为能够被应用程序理解和直接调用的数据,从而可以更好地感知和预测用户行为。最后,高校图书馆利用用户数据作为决策依据,为用户制订当前目标、短期目标以及长期目标,并根据需求环境的变化动态分配硬件和软件资源,从而让高校图书馆的服务融入用户的科研活动中。
1.2 规律趋势的分析预测
针对某些行业或者学科进行全面收集信息资源时,在专业研究成果的基础上进行深入分析,比如对比、推理以及综合利用等科学分析手段,或参照专业学科发展规律,计量学发展规律等[4]。由于学科的知识特点和发展规律各不相同,因此需要运用多种分析和处理手段来构建不同的学科模型,从而能够准确地预测学科发展规律以及发展趋势。常见的预测方法有以下几种:①将大量文献内容进行数据统计,以归纳总结出文献的内在规律,比如齐普夫定律、洛特卡定律以及布拉德福定律等都是常见的基于文献内容的统计方式。②根据文献的发展规律和趋势来构建数学模型,可以达到预测文献发展规律的目的,比如普赖斯就专门构建了基于指数增长规律的数学模型。③将其他领域的数学规律和数学模型移植到文献发展的预测中,比如物理学中的半衰期规律、经济学中的人口增长规律以及生物学中的成长规律等。④依据模糊理论来搜集相似文献内容,存储在计算机中,并利用统计技术进行分析和对比数据,以此帮助科研人员挖掘数据关联性。
2 大数据分析与情报分析的共性
2.1 看重对数据的定量分析
数据作为最直观的资源,已经潜移默化地改变了分析决策的方式,如何有效地收集、筛选以及整理各种数据资源,并利用合理的方法来挖掘数据的潜在价值,已经成为评价一个组织是否具有竞争力的重要衡量方式。情报分析学科同样十分重视数据资源的应用,在情况分析研究的初期阶段,分析人员主要依靠人员的智力来分析少量数据现象,并从中归纳总结出情报分析的规律。随着科学技术的快速发展,学科之间的关联性和交叉性逐渐加强,学科知识的划分越细致,所涉及的内容也就越专业。目前,情报分析更多地依靠先进的信息处理技术,利用“机器学习”方式来挖掘数据、分析和统计相关联系,还可以利用定量化方式来关联基于关键字的词汇共现,其核心思路就是在计算能力的基础上利用人工分析判断数据联系。因此,利用数据来阐述问题已经成为情报分析的主要特点,在情报分析报告中利用数据、公式以及图表来说明理论的方式也充分体现了数据分析技术在情报分析领域的重要地位。
2.2 关注多源数据融合
大数据技术可以通过各种渠道,并利用各种收集手段来获取各种数据信息,在进行集中整理后,形成一种基于不同数据格式的统一处理方式,这种处理过程被称为多源数据处理融合技术[5]。一方面,可以通过不同用户和不同网络途径来获取同一个研究方向的内容;另一方面,根据信息数据的种类和用途的不同,比如:根据视频、音频及文本等方式进行分类,也可以根据结构化和非结构化等方式进行分类,同时也要考虑数据的异构性。需要注意的是,相同类型的数据也有可能分布在不同的站点,并由各自的数据供应商提供,如论文分析研究的数据来源就包括中国知网、维普及万方数据库等[6]。一般情况下,针对前沿领域进行情报分析时,只利用一种类型的数据是不够全面的,应该从其所涉及的期刊论文、图书资源、专利以及项目等收集有效信息,进行整合处理,这样才能够体现出该研究的整体特征。
3 嵌入式知识发现情报分析服务的重要环节
3.1 知识发现系统的利用
将文献分析方式与数据挖掘技术进行有机结合已经成为知识发现方面的热门研究内容,并且取得了可以直接应用的研究成果,这为嵌入式知识发现情报分析服务提供了重要的研究方式。不可否认,选择和使用合理的知识发现系统会提高信息数据的分析效果,其中比较有代表性的就是充分认识到知识发现系统的优势,评估数据分析结果与用户的契合程度,从而让数据分析服务的效果得到用户的认同。比如:一些基于知识发现的软件和系统比较适合大型结构化文献数据分析,可以根据结构化数据的特点分析出信息的特定发展规律[7];还有一些基于主题和科研本身的知识发现模型,其可以利用文献资源之间的相关性挖掘有效信息,并对文献资料进行多角度分析,根据关联原则描述该学科领域的发展趋势图;另外还可以利用关联和非关联的知识发现方法,再结合相关语义分析、词汇频率统计等技术,最后通过关键词聚类方式来寻找潜在的知识发现。
3.2 准确获取数据
知识发现可以分析大量数据和信息资源,并从中挖掘明显关联或者非关联的科学研究的内在规律,情报分析人员可以向科研人员提供相关情报分析,一般采用的是定量和定性相结合的分析方法。在进行定量分析之前,如果要获取较为准确的目标数据,除了要分析数据源以及检索方式之外,还要对数据进行预处理,如消除噪声数据、集成数据等。大部分的数据分析软件都具有数据筛选功能,其中常见的TDA(Threat Discovery Appliance)软件就可以通过列表功能手工筛选原始数据。需要注意的是,当自动筛选数据时,常常由于数据中检测出偶发的错误或者不同的存储格式导致筛选失败,这就无法按照要求构建知识图谱。嵌入式的知识发现服务可以将筛选后的数据与专业数据分析专家共享,由此可以进一步提高数据的准确性,从而得到与研究对象关联紧密的数据。
3.3 应用综合分析方法
科技创新活动不仅包括学科和领域的创新,而且还涉及社会各个方面的创新,所以嵌入式知识发现服务需要为决策人员提供情报分析服务,帮助分析对象的社会行为,并为决策人员指明科研决策的发展方向;此外,还可以根据用户的需求,结合经济学、社会学、管理学以及情报学等学科的分析方法,多方面地展现科技创新在社会环境中的具体状况和发展趋势。如今,国外已经出现了专门提供情报分析服务的公司,比如美国的麦肯锡公司就对医药领域提供多方面的分析和研究服务。而国内关于情报分析的研究还处于起步阶段,高校图书馆可以借鉴国外成熟的研究成果,比如可以利用波士顿矩阵方法来分析文献资源之间的关联性。
4 情报分析服务模型总体设计
情报分析服务的主要功能就是针对数据进行整理和分析,从而挖掘知識的内在关联性。该研究根据内容解析方法来实施情报分析服务,并专门构建一个情报分析的服务模型。该模型采用了分层结构,自上向下共分成三个层次,即界面展示层、知识发现处理层、数据资源层等,具体结构示意图如图1所示。
首先是数据资源层,其确定研究对象包括三个步骤:确定分析目的、确定研究范围、搜集情报等内容。其次是知识发现处理层,它主要包括三个方面的内容:①制定编码标准,并借助计算机辅助工具来构建专属词典,其主要分为专业术语词典、停止词词典、同义词词典等。②编码部分,可以将文本文件转换为计算机可识别的文本向量。③数据分析部分,可以利用相似度算法和聚类算法来处理文本向量,从而实现情报自动聚类和串并功能。最后是界面展示层,主要功能为针对数据进行分析。
4.1 数据资源层设计
数据资源层为情报分析提供海量的数据资源,从各个数据源中收集数据并集成在情报员数据库中。众所周知,数据库的性能会直接影响情报分析服务模式的处理效率。目前,比较成熟的数据库种类主要有两种:关系型数据库和非关系型数据库。经过几十年的发展,关系型数据库技术相对比较成熟,其中的行和列的关系非常明确,主要采用表型结构存储数据,用户比较容易接受。但是,随着数据库技术的不断发展,关系型数据库的弊端也逐渐显现出来:①针对海量数据进行查询和存储操作,海量数据信息时刻充斥在互联网上,如果关系型数据库还是采用表型存储海量数据,这时的存储是以亿为单位。当利用SQL(Structured Query Language)语言查询或者针对多张表进行关联查询时,其查询效率是非常低的。②数据库的扩展性较差。当处理海量数据时,数据的结构非常复杂,修改数据库的表结构是非常耗时的,因此复杂的数据结构的处理效率无法达到用户的要求。③数据库的读写效率。针对动态的信息,每秒的读写次数要达到上万次以上,而关系型数据库的读写速度无法达到这种要求。
4.2 知识发现处理层设计
知识发现处理层的主要功能是针对数据资源层的数据进行深度的分析和挖掘,它可以利用内容分析方法进行数据分析和情报编码,具体的功能模块图如图2所示。知识发现处理层主要包括四个功能模块:情报自动聚类处理模块、情报串并处理模块、文本预处理模块、文本向量表示模块。
4.3 界面展示层设计
界面展示层主要包括两个部分:知识图谱展示功能和人机交互功能。知识图谱展示功能形象展现出情报数据资源的分析结果,是针对情报数据资源分析的拓展,它可以准确表达现象层面的具体信息,并通过更进一步的分析来找出隐藏在情报中的规律,从而协助情报分析人员更好地处理情报。人机交互功能是利用操作界面来实现用户和软件之间的信息交流,更好地帮助用户控制软件。
5 结语
嵌入式知识发现情报分析服务模式是建立在先进的信息处理技术的基础上,为了更好地满足科研人员对于知识服务的需求,同时也是情报服务可持续发展的重要保证。科学技术的快速发展、大数据技术的研究以及数据分析方法的改进,都为嵌入式知识发现情报分析服务的个性化、智能化及多元化发展创造了有利条件,提供了良好的研究前景。
参考文献:
[1]顾涛.基于大数据的竞争情报协作分析研究[J].情报科学,2013(12):114-118,135.
[2]邓仲华,李立睿,陆颖隽.基于科研用户情景感知的嵌入式知识服务研究(上)[J].情报理论与实践,2014(9):16-19.
[3]韩翠峰.大数据时代图书馆的服务创新与发展[J].图书馆,2013(1):121-122.
[4]田瑞强,姚长青,潘云涛.关联文献的知识发现与创新研究进展[J].情报理论与实践,2013(8):117-123.
[5]周晓英.数据密集型科学研究范式的兴起与情报学的应对[J].情报资料工作,2012(2):5-11.
[6]化柏林.多源信息融合方法研究[J].情报理论与实践,2013(11):16-19.
[7]Bormer K.Boyack K Mapping interdisciplinary research(sidebar,systems sciencesection)[M].New York:Oxford University Press,2010:457-460.
(编校:崔 萌)