基于文献信息资源的网络可视化机理分析
2017-05-24宋鸿芳
摘 要:在互联网发达和信息膨胀的时代,文献信息数量激增、多维属性特征和信息之间的隐含关系等问题增加了科研用户文献信息理解的难度,文献信息管理成为学术界关注的问题。本文着眼于文献信息管理的视觉,从文献信息的网络收集和提取入手,利用网络可视化工具,研究文献信息管理的网络可视化作用机理,构建了文献信息传递对网络可视化影响框架,进一步探讨了网络可视化促进文献信息管理的积极作用,从而说明网络可视化在文献信息管理中的重要性。本文的研究结果丰富了现有的文献信息管理体系。
关键词:网络可视化;信息管理;网络信息
0 引言
文献信息管理是图书情报领域研究的重要部分,在信息管理和情报研究等方面发挥了积极作用[1-3]。在互联网环境下,管理者通过系统的信息收集、提取、加工和分析,利用网络资源,整合文献信息资源,形成文献信息管理系统,应用多种方式从多个维度动态的追踪文献信息,发挥文献信息管理作用,从而满足科研用户需求并为科研管理和咨询服务。文献信息管理工作的最终目标是任何人在任何时候、任何地点,均可从任一文献信息源获得任何文献信息资源。经过近一个世纪的发展,文献信息管理被广泛应用于多个研究领域,并形成了特有的研究体系。
文献数据具有多样化特征,主要来源于图书、学术期刊、学位论文、专利等,是文献信息管理研究的基础[4]。随着科学技术和创新知识体系的发展,文献数量呈现几何倍数的增长。由于互联网技术的广泛应用,文献呈多样化形式,越来越多的文献以电子文件、文本文件等形式出现在网络上。面对如此庞大的文献数据,人工收集文献信息已经变得如此繁琐和困难。与此同时,互联网技术为文献信息收集提供了便利。对文献信息归纳、总结、分类等,利用计量方法将其转化为文献数据。但是,由于有效信息提取难度大,人们无法直接获知庞大数据中隐含的信息和未被认知的知识。如何从海量的、复杂的文献数据中提取有效信息成为文献计量学待解决的问题。数据处理技术在不断的发展以适应时代的需求,且在处理海量数据方面获得突破性进展[5]。科研人员通过数据处理技术获取文献数据包含的信息规律和知识结构。
网络可视化技术作为信息可视化的一种,利用人类视觉感知,直观地展示文献信息多元要素的内在联系,从而解释网络结构数据隐含的语义信息,揭示隐藏在数据背后的知识结构[6,7]。随着信息技术在文献信息管理领域的应用,文献互引网络、科研人员合著等数据越来越多,传统的表达方式无法充分展现信息关联的网络结构。网络可视化借助文献计量学方法将庞大的文献信息要素及要素间关系进行图形展示,从而揭示特定主题、研究热点、发展趋势等问题,有助于理清文献信息的知识脉络、分析知识结构的演化过程,辅助科研人员对文献信息进行管理和评估,有助于预测未来发展[8,9]。
本文围绕文献信息管理的網络可视化技术,着重分析网络可视化方法的作用机理。文献信息的网络可视化一直是可视化研究中的热门问题,受到了国内外学者广泛关注。本文以文献信息管理和认知科学为基础,针对科技文献的自有特征和本质属性,利用文献计量学方法,探索网络可视化在文献信息管理领域的系统研究,为网络可视化在文献信息管理领域的科学实践提供理论指导,促进文献信息管理水平的全方位提升。
1 文献信息提取研究
随着互联网的普及,文献信息存储方式由传统的储存转变到网络存储。专业学术网络数据库通过科学数据存储与文献资料库的资源整合实现了电子文献和传统文献的关联[8]。网络数据库为文献信息存储提供了平台。当前,学术机构购买了学术网络数据库,科研用户通过指定查询渠道能够获取文献信息。学术网络数据库中文献信息以不同形式在网页上显示出来。此外,科技文献官方网站、第三方信息检索平台、研究机构的信息管理系统等为文献数据网络化提供了数据来源。但是,不同的文献信息系统没有统一标准,并且不同国家和区域对科技文献出版物管理要求不一致。因此。到目前为止没有统一的文献信息管理系统。科研用户通过网络数据库、网站等收集科学研究所需的文献信息,并分析文献信息获取知识信息、研究科技动态以满足科研需求,为文献信息管理提供决策支持建议。在信息化时代,文献信息是对文献数量、属性、特征和相互关系的概括,作为一种社会资源受到广泛的关注[10]。如何通过网络提取有效的文献信息是科学研究的重要组成部分。
经过半个世纪的发展,文献信息提取技术经历了从自然语言中获取结构化的信息到从互联网的网页中获取结构化或者非结构化信息的过程,由此出现了多种文献提取方法。基于自然语言的信息提取方法[11,12]、基于本体的信息提取方法[13]、基于隐形马尔科夫的信息提取方法[14]和基于DOM树结构的方法[15,16]是常用的网络信息提取方法。虽然这些方法大大提高了文献信息提取效率,并扩大文献信息提取范围,但是这五种方法在提取网络文献信息过程中存在不同方面的缺陷,分别表现在,大量不完整信息被采集、不适用于新生领域的文献信息提取、模型参数设置需要花费较高的人力和无关噪声信息被提取。文献信息提取的基本步骤如下,首先,对学术信息的结果进行收集和归纳;其次,提取符合需求的信息[12,15]。因此,有序的信息提取操作步骤保障了文献数据的精准性。
随着研究的深入,自动化、智能化文献信息提取方式不断出现。计算机技术的发展为从互联网中提取文献信息提供了便利。借助计算机技术,国外研发机构开发了网络信息提取系统,例如,SRI机构开发的FASTUS 系统,BBN公司的SIFT系统和美国纽约大学的Proteus系统被应用于网络信息提取。这些系统在信息提取方面具有通用性,但是这些系统依赖于网页结构化。对于非结构化网页,这些系统提取信息的效率较低。
上述研究是关于网络信息提取方法在文献信息管理领域的应用,文献信息提取为研究网络可视化提供了一个数据集。提取到的文献信息用计量学方法进行处理后得到这个数据集,即文献信息被转换成一个数据集。这个数据集包含了大量信息,覆盖了文献信息的多个方面。网络数据提取文献信息的方法被广泛用于科技评价和科研管理中,实现了文献信息的有效采集,有助于信息共享,为科研数据采集提供了便利条件。
2 网络可视化作用机理分析
网络可视化本质是将抽象的、难以理解的、复杂结构的文献数据以图形或图像展示出来,作为协助科研用户了解知识网络结构并发现隐含文献信息的一种方式。网络可视化利用人类视觉系统对图形或图像识别能力,达到快速理解和认知文献数据的目的。信息可视化理论是网络可视化理论基础[17,18]。在信息技术不断发展的背景下,文献信息管理与文献管理需求之间的矛盾不断升级。网络可视化能够提升信息认知效率,因此,网络可视化为文献信息管理的重要内容和新发展趋势,并且具有综合化、网络化和复杂化趋势[19]。网络可视化以计算机图形学和图像处理技术为基礎,把提取的文献信息转化为数据集通过信息处理和编码技术以多维图形形式展示出来,从而将所需的知识结构从海量的数据里识别出来。这是一个文献信息传递的过程。
如图1所示,从文献信息传递过程来说,可以从网络数据库、互联网媒介、文献信息收集和网络可视化这条路径入手。图1的上半部分是网络可视化的基本步骤,下半部分是文献信息数据挖掘过程,作为文献信息传递的非逆向路径,可以发现文献信息数据处理流程,结合美学布局要求将节点和边放置在合适位置,从而使网络结构以科学的、合理的方式展示出来,进而解读文献信息的知识结构,引导文献信息有效传递。文献信息在正向传递中流动,实现从文献信息到知识结构解读之间的协调运转。
结合图1中信息传递过程,接下来阐述网络可视化影响路径。网络可视化的信息传递过程涉及到文献数据、网络可视化方式、信息接收对象的认知水平和认知能力三方面内容。也就是,研究人员选定具体的研究对象,将研究所需文献信息进行收集,通过网络可视化方式向科研用户展示知识信息和知识结构。该流程是文献信息管理过程中信息流向的步骤。网络可视化方式对文献信息管理的影响作用路径如图2所示。
在文献信息传递过程中,网络可视化方式展示文献知识信息,对信息资源的传递有直接影响。文献信息表达方式发生变化会影响信息质量传递,从而干涉科研人员的判断,直接影响文献信息管理水平。多种可视化表达形式和辅助手段将文献信息生动、形象的展示出来,提高科研用户对文献信息的认知能力,从而促进文献信息管理的进一步提升。文献信息的网络可视化方式有利于海量数据、复杂性研究等问题的转化。因此,网络可视化是提升文献信息管理的一种有效途径。
文献信息管理的网络可视化方式是借助互联网媒介或其他载体,通过科研人员收集-提取-传递-利用的过程,最终实现信息传递与信息管理系统关联。文献信息属性和特征分别体现在文献信息传递对象和传递内容中,文献信息质量保障信息传递的真实性和准确性,因此,科研人员需要对文献信息进行深入分析,使网络可视化方式科学、合理的应用于科研人员分析文献信息,文献信息对网络可视化影响效果如图3所示。
在网络可视化过程中,一方面,由于缺乏统一的文献信息管理管理平台,文献信息数据来源于多个数据库或网页导致大量多源异构文献信息数据的存在,因此文献信息数据多样性和标准不一致的问题暴露出来。另一方面,提取文献信息在空间和时间有一定的局限性,文献信息管理面临着信息资源开发利用的限制,导致了文献信息共享能力差和信息挖掘不足。这些因素都影响了网络可视化的展示(如图3所示)。
3 可视化网络展示和分析
图形是表达信息的一种视觉语言,在多元信息转换中,图形能够凭借直观、清晰、易懂的优势成为网络可视化的表达形式。本文研究了网络可视化在文献信息管理中应用的机理,探索网络可视化展示。科研人员对文献信息进行处理,构建数据集,选取符合需求的数据进行图形化展示,即网络可视化将繁杂信息用图形化语言呈现。网络可视化是在传统信息表达方式上发展起来的,同时保障信息表达的准确,成为信息表达的重要方式[6,17]。
本文借助网络可视化工具,通过网络属性和网络特征,构建可视化网络。从文献信息资源视觉而言,网络可视化是对文献数据可视化处理后,从文献数据中获取文献信息点及其相互间联系的文献信息结构。具体的过程是,首先,以网络数据库和网页为数据源,定义节点属性,确立节点间关系;然后,利用网络表达方式,直观的展示信息网络结构。其中,节点间关系是网络属性的固有特征,因此,网络节点间关系是不随网络可视化技术和网络可视化方式的变化而改变。网络可视化工具是可视化网络展示的载体,常用的网络可视化工具主要有计算机语言(JAVA、Visual Basic、C、Visual C++、VS、FORTRAN等)、编程软件(R语言、MATLAB等)和专业的网络构建工具(iCharts、Fusion Charts Suit XTZ、RAW等)。
可视化网络是将文献信息的关联关系反映在一个相互联系的网络图中,即一个图形中的节点相互联系,构成一个相互作用的网络。网络属性的差异直接影响网络可视化结果和网络拓扑学属性。可视化网络图由节点和节点间连线两大要素构成。从节点类别来说,可视化网络图包括单元素网络图和多元素网络图;从节点间连线指向来说,可视化网络图分为有向网络图和无向网络图(如图4所示)。
可视化网络在图书情报领域的应用推动了文献信息管理的深化。根据可视化网络图形,分析某一类别或某一范围内的文献,研究文献的科学事实、概念、原理、定律、公式等理论和方法有机组合或者主体、客体、媒介等在多维度空间中的趋势或动态、相互关联关系。文献数据的可视化网络为文献信息管理服务。由于文献信息管理是一个复杂系统,有自身特有的属性和过程,受到学科分类、科技水平、社会需求等多种因素的影响[20]。文献数据的网络可视化加深了人们对复杂文献数据的认知和理解。因此,解读文献数据的可视化网络图应结合文献信息的特性,这样才能为文献信息管理提供可靠的理论基础和现实指导。
4 结论
在信息时代,海量文献数据的分析和处理是科研人员面对的重要问题。从这些复杂、不规则的文献文本或者文件中找出有价值的信息和知识,从而为文献信息管理服务,是一个有意义的研究课题。网络可视化为文献数据展示提供了技术支持,被广泛应用于多个研究领域,并在科学研究过程发挥重要作用[6,19]。为了推广网络可视化应用和简化网络可视化过程,网络可视化软件提供了信息交互平台,使科研用户在不同层面和多个维度观察文献信息的知识结构。为了进一步满足科研用户对文献信息追踪的需求,部分网络可视化软件还能提供动态监测功能,使科研用户随时观察到可视化网络图的结构变化,从而进一步提升文献信息网络可视化展示的质量。
本文针对海量文献数据的现状,给出了网络可视化技术在文献信息管理中的机理分析,并阐述了网络可视化展示方式。通过文献信息的可视化网络图,科研人员发现文献信息要素的关联关系和文献信息中包含的知识结构。本文主要着眼于网络可视化技术解决文献信息管理中的信息展示问题,此方法借用计算机科学技术研究数据挖掘的方法,通过文献信息提取,对数据进行加工和处理。本文利用节点和连线构建网络图,遵循视觉感知和网络构建规则优化可视化结果,形象展示了节点间的关联关系,从而为文献信息管理服务,丰富文献信息管理体系。
基金项目:本研究得到2016年度中国博士后科学基金项目的资助(項目编号:2016M591265)。
参考文献
[1] Weingart P. Impact of bibliometrics upon the science system: Inadvertent consequences? [J].Scientometrics, 2005,62(1):117-131.
[2] Adams J. Bibliometrics: The citation game [J]. Nature, 2014,510(7506):470-471.
[3] Xiao Y, Lu L, Liu J, Zhou Z. Knowledge diffusion path analysis of data quality literature: A main path analysis [J]. Journal of Informetrics, 2014,8(3):594-605.
[4] Pooladian A, Borrego ?. A longitudinal study of the bookmarking of library and informationscience literature in mendeley [J]. Journal of Informetrics, 2016,10(4):1135-1142.
[5] Chen H, Chiang RHL, Storey VC. Business intelligence and analytics: From big data to big impact [J].Mis Quarterly, 2012,36(4):1165-1188.
[6] Xia M, Wang J, He Y. Brainnet viewer: A network visualization tool for human brain connectomics[J]. PloS one, 2013,8(7):1932-6203.
[7] 毛进, 李纲. 一种基于OKM的研究领域专家图谱构建方法 [J]. 图书情报工作, 2014,58(14):34-40.
[8] 陈叶叶, 周通. 国内网络舆情治理研究的可视化分析——基于科学知识图谱的方法(CNKI) [J]. 情报科学, 2016,34(11):101-106.
[9] Salavert F, Garcíaalonso L, Sánchez R, et al. Web-based network analysis and visualization usingcellmaps [J]. Bioinformatics, 2016,32(19):3041-3043.
[10] 丁敬达, 朱梦月. 信息管理学科计量学研究的新突破——评邱均平教授等著的《知识计量学》[J]. 图书情报工作, 2014,58(22):146-148.
[11] 卢延鑫. 基于自然语言处理技术的循证医学信息提取研究[D]. 复旦大学, 2011.
[12] Nath C, Albaghdadi MS, Jonnalagadda SR. A natural language processing tool for large-scale dataextraction from echocardiography reports [J]. PloS one, 2016,11(4):1932-6203.
[13] 司成, 张红旗, 汪永伟, 杨英杰. 基于本体的网络安全态势要素知识库模型研究 [J]. 计算机科学,2015,42(5):173-177.
[14] Ghamisi P, Benediktsson JA, Ulfarsson MO. Spectral–spatial classification of hyperspectral imagesbased on hidden markov random fields [J]. IEEE Transactions on Geoscience and Remote Sensing,2014,52(5):2565-2574.
[15] 朱学芳, 冯曦曦. 基于文本内容的农业网页信息抽取和分类研究 [J]. 情报科学, 2012,30(7):1012-1015.
[16] 马金娜. 基于DOM树节点重要度的Web主题信息提取研究[D]. 西南大学, 2016.
[17] 杨良斌, 周新丽, 刘益佳, 胡林莉, 曾锦霖. 近10年来国际网络安全领域研究现状与趋势的可视化分析 [J]. 情报杂志, 2017,36(1):92-100.
[18] 尹丽春, 殷福亮, 姜春林, 王友强. 基于CSCD和SCI的跨省区科学合作网络可视化分析 [J]. 图书情报工作, 2007,51(8):62-64.
[19] 梁艳琪, 彭博, 高劲松. 基于JASIS的科研合著网络可视化研究 [J]. 情报杂志, 2015,34(8):87-91.
[20] Galliers RD, Leidner DE. Strategic information management: Challenges and strategies inmanaging information systems [M]. Routledge, 2014.
作者简介
宋鸿芳,1983年生,女,博士,博士后,研究方向:文献计量,科技评价。