基于学科内容特征的图情档一体化程度测度研究
2020-06-12王光志武华维王超
王光志 武华维 王超
摘 要 随着互联网和信息技术的发展,图书情报与档案的工作环境、内容、方式等发生了变化。本文从学科内容角度出发,利用期刊论文的题录信息,提出一种测度图书情报与档案一体化程度的方法。根据齐普夫定律对主题词赋权,对通过改进Jaccard相似系数计算学科内容特征的相似度,提出一体化指数测度三者一体化程度,最后以《中国图书馆学报》《情报学报》《档案学研究》三种核心期刊为对象进行实证研究。结果发现,三者在某些领域存在逐渐融合的态势,但是这种融合的主题内容范围和融合的程度仍然限制在一定范围,即没有出现较为明显、剧烈变化。
关键词 学科内容 图情档一体化 测度方法
Abstract The development of the Internet and information technology has changed the working environment, content and methods of library, information and archives. To this end, from the perspective of subject content, a method for measuring the degree of integration of library, information and archives is proposed. Firstly, according to Zipfs law, the subject words are empowered. Secondly, the Jaccard similarity coefficient is improved to measure the similarity of the subject content. Thirdly, the integration degree of the integration index is proposed. Finally, Journal of the Library Science in China, Journal of the China Society for Scientific and Technical Information and Archives Science Study are empirically analyzed. The results show that there is a gradual integration of the three in some areas, but the scope of the subject matter of the fusion and the degree of integration are still limited to a certain extent, that is, no obvious and dramatic change.
Keywords Subject content. Integration of library, information and archives. Measurement method.
0 引言
自上世紀六七十年代,“图书、情报、档案一体化”被提出以来[1],国内有相当一部分学者认为图书、情报、档案工作一体化是必然的发展趋势,并以此为中心展开了许多相关研究。随着互联网和信息技术的迅猛发展,图书情报、档案的工作环境、内容、方式等内容也随之发生变化,尤其是人工智能、物联网、云计算等信息技术的出现,使得图情档的学科体系和能力建设无法忽视信息和数据这一核心[2]。在信息化、网络化的今天,图书、情报、档案一体化这一命题是否仍然成立,并且图书、情报、档案的一体化程度如何?现有的研究似乎对这一疑问尚未有充分的认识和研究。鉴于此,本文采用一种定量分析的方式,从学科内容的角度出发,构建一种图书、情报、档案一体化的测度方法,以期为相关研究人员提供一种观测新背景下图书、情报、档案一体化发展程度的新方法或新途径。
1 相关研究综述
1978年,中国科学院最早提出“图书与情报一体化”,以提高工作效率、避免重复浪费,便于统一领导规划[3]。这引起学界广泛关注,随后国内学者展开了一系列图书、情报、档案一体化的相关研究。首先,部分学者对图书、情报、档案一体化的必要性和内在依据展开相关研究,如刘英则和吕福玲[4]认为图书、情报、档案同属于知识载体,都是信息的范畴,这便为三者一体化管理提供了理论依据。李学军[5]认为图书、情报、档案三者都属于信息源的一种,这种共性便为图情档一体化提供了理论基础,同时,这种共性使得三者会拥有相同的服务或工作对象,其工作方式和技术方法手段也会相同。另外,许芳[6]、符少华[7]、李华[8]等学者认为,图书、情报、档案是企业进行科技信息管理的重要手段,在信息技术时代背景下,通过图书、情报、档案三者间的知识共享,可以增强企业知识创新,提供企业竞争力,所以对企业来说,图书、情报、档案一体化是必然趋势;而宋雄伟[9]、余敏[10]、翁雪梅[11]等学者认为,图书、情报、档案一体化,对高校的教育、教学、科研发展起着重要的推动作用,便于图书情报学科相关知识在学校内部的共享与流动,所以实行图情档一体化是改善和发展现代高校信息服务的趋势。
为了进一步论证图情档一体化的可行性,相关学者调研了欧美国家中图情档一体化的理论和实践研究。李群和刘维荣[12]发现,美国、英国和日本在图情档一体化方面主要体现在利用网络和信息技术实现三者数字资源的共享以及一体化管理。李群[13]进一步对美国的教学实践进行研究,发现美国大学的档案学与图书馆学、情报学之间的教学联系紧密,三者在教学中相互渗透。张锦和王海兰[14]研究发现,英国电影组织(BFI) 在组织和功能上实现英国电影信息中心、英国国家影视图书馆、英国国家影视档案馆三者之间的一体化运行模式。
随着研究程度的深入,学者开始重点研究图书、情报、档案一体化策略,具体来说,就是研究从哪些方面可以更好地实现图书、情报、档案一体化的开展和进行。如叶鹰[15]进一步探讨了图书情报档案一体化的学理基础;吴营和季晓琳[16]参考ISO9000标准管理原则,探讨了图书情报档案一体化的质量管理。田丽[17]探讨了辽宁省图书、情报、档案专业人才校馆所联合培养的模式。王小云[18]从图书、情报、档案的专业课程资源的建设角度,探讨了图书、情报、档案一体化专业教育的问题。赵益民[19]探索了图书情报档案的一体化整合模式,尝试通过行业联盟的形式对图书情报档案从虚拟层次进行一体化整合,以实现资源建设和业务管理的整合。
综上所述,可以发现几乎所有涉及图情档一体化的相关研究都未持怀疑乃至否定态度,当然也有部分学者就图情档一体化的可行性进行了论证,如葛翠玲[20]对图情档一体化开展了否定性检验研究,论证结果多认为图情档一体化在我国具有很强(或者一定的)可行性。但是,笔者认为部分学者显然混淆了图情档一体化的概念内涵。其实,图情档的一体化是在保持三者独立性,而不是取消三者独立性的基础上相互联系、相互渗透的,三者是在较高程度的协调性、统一性和整体性[21]上,为社会提供信息保障,三者的本质都是信息工作系统[22],包括工作流程的一体化、服务对象的一体化、资源建设的一体化,学科建设的一体化等等。从现有文献中发现,学者多从信息资源一体化、工作流程一体化、服务流程一体化等工作实务上进行的定性研究,尚未提及较为系统或详实的定量分析。当然也有部分学者从学科建设方面了一些图书、情报、档案一体化的定性探讨,但是多数研究似尚未对学科内容方面进行较为深入的定量分析。如刘满闪和焦运立[23]从基本共性和非基本共性的角度探讨了图书、情报、档案一体化的学科依据;赵国俊[24]研究了图书、情报、档案三个学科发展的分化和整合趋势,他认为当前三个学科在不断分化和整合,其中整合成为主流形态。张莉娅和邓勇[25]从著者交叉和知识网络的角度分析了图书、情报、档案三个学科的交叉融合,利用期刊论文中的著者和关键词分析发现三者虽属于同源性学科但是三者之间有着本质的区别。初景利和张颖[2]指出当前图情档存在学科边界模糊、学科融合危机、体系构建艰巨等问题。闫慧[26]认为图情档三个学科之间存在认同危机,三者不仅长期以来存在话语碎片化、内生力不足的问题,而且图书馆、档案两个学科偏文和情报学话语偏理,这一切都使得三者之间的融合难道较大。
2 图情档一体化程度分析框架
随着期刊全文数据库、文摘数据库及信息技术的发展,期刊论文的题录信息成为承载文献内容的重要元数据。利用相关技术和方法对某一学科领域的期刊题录信息进行处理与分析,可以揭示该学科研究与发展的内外部特征[27-29]。考虑到学科内容主要以文本信息为承载对象,而期刊承载了学科发展、建设方面的信息,所以本文从学科内容的角度来测度图书、情报、档案一体化程度时,主要以期刊为数据对象、以文本处理及分析方法为手段。如果代表学科内容的图情档三类期刊题录信息之间呈现较高的一致性,即研究内容较为相似,则说明图书、情报、档案在学科内容的一体化程度较高,反之则说明三者一体化程度不紧密。其具体的分析框架见图1。
3 数据处理方法
本文以期刊的题名、摘要、关键词三种题录信息来表征图书馆学、情报学、档案学学科的主要内容。考虑到主题是表示学科内容的基本单位,本文利用自然语言处理技术对题名、作者关键词和摘要作为输入数据源作进一步的文本分词处理,以分别获取图书馆学、情报学、档案学学科领域主题词。
3.1 数据处理工具及流程
本文主要采用python语言中的jieba分词工具来进行文本分词。同时,考虑到该工具中分词词表可能无法识别这三个学科的专业主题词,所以本文同时将作者关键词作为分词词典的重要补充;然后,使用自建的常用停用词表对分词结果进行进一步过滤,然后再进行词性分析,仅保留包含实意的动词、动名词。最后,分別对图书馆学、情报学和档案学数据集中的关键词进行频次统计,然后根据词频的大小选取前100个高频词,分别形成三个主题词集合Term情报、Term图书馆、Term档案。针对图书、情报、档案学科内容的一体化测度便是在这三个主题词集合的基础上展开的。
3.2 基于Jaccard相似系数的计算方法
本文为了证明图书、情报、档案在学科内容上一体化程度,需要在已经获取的图书、情报、档案三个主题词集合的基础上,进一步计算三个主题词集合之间的相似程度,以便获取三者学科内容的一体化程度。
本研究主要采用Jaccard(杰卡德)相似系数分别计算出图书与情报、情报与档案、档案与图书之间的主题内容相似度。Jaccard相似系数,又称Jaccardindex,在于计算集合A与集合B的交集元素在各自集合中所占的比例。Jaccard相似系数可用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本间的相似度越高,Jaccard系数值越小,样本间的相似度越低。Jaccard相似系数用公式(1) 表示为:
Jaccard相似性系数主要用于计算符号度量或布尔值度量的样本间相似度。若样本间的特征属性由符号和布尔值标识,无法衡量差异具体值的大小,只能获得“是否相同”这样一种结果,而Jaccard系数关心的是样本间共同具有的特征。这恰好符合本研究测度图书、情报、档案学科内容一体化的需求。同时,与常用的余弦相似系数相比,Jaccard系数可以避免因文本数据稀疏影响而导致误导性计算结果的出现,尤其适合稀疏度过高的数据。假设在计算图书与情报、情报与档案、档案与情报之间学科内容相似度时,如果三个学科的主题词频数据比较稀疏,那个他们三者之间的内容相似度会呈现出比较高的数值,这样不可避免的会影响对实际情况的判断。考虑到数据稀疏性这一因素,本研究选择Jaccard系数来计算文本相似度。
3.3 Jaccard相似系数的局限与改进
Jaccard系数也存在一定的局限。具体来说,Jaccard相似系数使用0~1表示关键词的值,对于每一个词同等对待,计算方便快捷。然而,Jaccard相似系数只考虑主题词集合之间共同交集,忽视交集主题词频之间的数量差异,没有考虑到词频的影响。鉴于此,本文对Jaccard相似系数做出进一步的改进,将主题词的词频这一因素考虑进来,利用改进后的Jaccard相似系数来计算图书、情报、档案三个学科彼此间的内容相似性。Jaccard相似系数的改进步骤具体如下。
首先,增加主题词权重。根据齐普夫定律,本文按照词频统计从大到小进行排序,然后将主题词词频顺序的序数的倒数作为该主题词的权重值。
3.4 一体化程度测度说明
利用Jaccard相似系数计算图书与情报、图书与档案、情报与档案之间学科内容的相似程度,这种相似程度仅仅体现了两个对象之间的一体化程度,为此需要将图书、情报、档案三者之间的相似程度拟合成一个整体才能够代表三者学科内容的一体化程度的数值。
本文利用三者之间的集中程度和离散程度将三个学科内容相似系数拟合成学科内容一体化指数。在利用图书、情报、档案三者间的内容相似程度来把握三者学科内容的一体化程度时,主要利用三者间的内容相似度的集中程度来反映相似度的整体集中水平,利用三者间内容相似度的离散程度来反映各个相似度之间的差异程度。如果图书、情报、档案三者间的内容相似程度的整体水平高且各个相似间的差异小,那么三者的整体内容相似度高,即学科内容的一体化程度高。所以一体化在测度时既要考虑各个相似程度的整体水平,也要考虑离散水平,两个因素相互依赖。由于两个因素的相互作用决定了整体一体化水平,因而我们采用乘法合成法,将整体水平和离散水平合成一个指标。本研究中采用均值来表示整体水平,采用变异系数来衡量离散水平,其中不用标准差的原因主要是它只能反映组内数据的离散水平,而无法衡量不同数据组间的离散水平。而变异系数则消除了不同组间数据量纲的问题,可以进行不同组间的离散程度比较。由此,图书、情报、档案学科内容的一体化指数的公式为:
4 实证分析
4.1 数据来源与获取
《中国图书馆学报》 《情报学报》 《档案学研究》分别是由中国图书馆学会、中国科学技术情报学会和中国档案学学会主办的国家级专业期刊,三个刊物分别刊发图书馆、情报、档案研究的重要成果,具有很高的学术水平,是国内图书情报档案研究热点和前沿主题的风向标,具备一定的代表性。因此本文将三种期刊分别作为图书、情报、档案学科内容分析的数据来源。
在CNKI《中国学术期刊数据库》中检索《中图书馆学报》和《档案学研究》自2008年以来近十年所有的文章,从万方数据《中国学术期刊数据库》中检索《情报学报》自2008年以来的所有文章,经人工筛选,只保留学术研究论文,共获得3396篇,作者关键词8618个(见表1)。
4.2 文本计算与分析
首先,利用python语言中的jieba分词工具来对3396篇《中国图书馆学报》、《情报学报》、《档案学研究》中论文的题录信息进行文本分词;然后,去除停用词和按词性进一步过滤后,分别统计三种期刊中的主题词频数,按照词频统计从大到小进行排序,利用(公式2)获得所有主题词的权重。再次,选取前100中的主题词作为主题词集合,并取图书、情报、档案三者之间主题词集合的交集。最后按照(公式4)计算图书、情报、档案三者之间主体内容的相似程度。
表2为2008—2017年图书、情报、档案三者之间的交集主题词个数,交集主题词集的个数占比都在18%~50%,仅由交集主题词集合的数量可以看出图书、情报、档案三者的学科内容呈现一定程度的一体化(交集主题词占比高于18%),但是这种一体化的程度并不太高(交集主题词占比低于50%)。
在交集主题词集合的基础上,进一步结合主题词的权重分析2008—2017年图书-情报、情报-档案、档案-情报两两之间的内容相似度(见图2)。在2008—2017年这十年间,图书-情报间的内容相似度在0.0363~0.0753范围内,图书-档案间的内容相似度在0.0309~0.0695范围内,情报-档案间的内容相似度在0.0204~0.0695范围内,可以看出三者之间内容相似度总体上集中在0.02~0.08。2008—2010年之间,图书-情报间的相似度明显高于其他两个,情报-档案间的相似度相对较低。在2011—2016年间,情报-档案间的相似度开始逐渐提高,相较于同期其他相似度,开始显出一定的优势;相同时期,相较于同期其他相似度,图书-情报间的相似度优势有所降低。在这十年间,相较于同期其他相似度,图书-档案间的相似度优势不是非常明显。总体上看,图书-情报、图书-档案、档案-情报三者之间的内容相似度总体上呈现增大的趋势(图2中两条直线所示)。
4.3 一体化系数计算分析
在完成图书-情报、图书-档案、情报-档案内容相似度分析的基础上,利用(公式4) 计算2008—2017年图书、情报、档案三者一体化指数,具体结果如图3所示。从总体上看,图书、情报、档案三者学科内容的一体化呈现逐渐增大的趋势,但这是一种比较缓慢的增大过程(图3中的直线所示)。在这十年间,图书、情报、档案学科三者之间的内容相似的平均水平集中在0.038~0.068,三者之间的整体相似程度变化幅度小,三者之间的内容相似度的差异程度集中在0.072~0.482,内容相似程度的差异性波动较大,但是图3可以看出这种差异性总体上呈现出逐渐降低的趋势。
2008年和2013年的一体化指数分别为十年间的最低值和最高值,进一步对2008年(图4)和2013年(图5)的一体化内容发现,2008年的一体化程度明显差于2013年的一体化程度。在2008年,图书-情报、情报-档案、图书-档案三者所具有相似主题内容各异,尤其是图书-情报之间存在较多的相似主题,图书-情报之间多侧重自动构建、资源、专家、主题词表、中文、中国、质量、知识转移、知识流、知识管理、战略、用户研究、用户、影响因素、引文分析、研究综述、研究现状、学科、叙词表、信息资源、项目、系统、网络环境、网络、途径、图书馆服务、数字图书馆、数字、实证研究、论文、领域本体、理论、科学、技术、高校图书馆、服务质量、电子政务、测度。而情报-档案、档案-图书之间的相似主题内容较少,其中情报-档案多侧重知识集成、因素、新闻、情报、企业、领域、国际、关系、高校、概念、对策,档案-图书多侧重政府信息公开、信息资源建设、信息服务、新时期、现状、文献、图书馆、史学、美国、理性、开发利用、基础理论、传统。所以,2008年图书、情报、档案的一体化程度总体较差,其中图情档三者共同关注的主题内容为策略、发展趋势、环境、科学、模式、模型、期刊、视角、体系、信息。
在2013年,图情档三者共同关注的主题内容为美国、技术、内容、环境、中国、网络、实证研究、信息、资源、评价、方法研究、研究述评、高校等,图书-情报、情报-档案、图书-档案三者共同拥有的主题内容数量较多。图书-档案多侧重数据库、信息化、图书馆学、资源共享、国际、平台、信息资源、馆藏、标准等内容,图书-情报多侧重情感分析、个性化、用户、电子、质量、web2.0、特征融合、制度、社交网络、文献等内容,情报-档案多侧重互联网、政府门户网站、数据挖掘、突发事件、知识图谱、企业、政策、信息服务、电子政务、数据等内容,图书-情报、情报-档案、档案-图书之间的相似主题内容的数量比较均衡。
5 结语
通过对以《中国图书馆学报》《情报学报》《档案学研究》三种核心期刊为代表的图书、情报、档案学科内容的分析研究发现,三者面临的工作环境、工作对象、手段发生变化,三者在某些领域存在逐渐融合的态势,但是三个学科之间仍然有自己的特定的理论和方法,这种融合的主题内容范围和融合的程度仍然限制在一定范围,即没有出现较为明显、剧烈变化。
本文基于学科内容的图书、情报、档案一体化的测度,通过对核心期刊的论文题录信息实证研究发现,可以量化图书、情报、档案在学科内容上的一体化程度及趋势。当然,本文提出的方法也存在一定的局限性。首先,选用实证数据可能无法全部囊括全部的图书、情报、档案的主题内容。其次,对学科內容的把握仍然仅仅依赖于期刊的题录信息,受一定条件的限制,无法通过全文来进行分析。最后,本研究仍然将主题词作为构成学科内容的基本单元,但是主题词可能会脱离具体语义,造成与内容之间存在一定的误差,影响分析结果。所以,针对这三个方面的问题,未来本研究的研究重点将会侧重基于更多期刊的全本数据及基于语义的学科内容分析。