基于共词聚类分析法的我国档案管理研究热点
2015-12-03王景文董雪艳
王景文,董雪艳
(1.华北理工大学 图书馆 河北 唐山 063000;2.唐山市人民医院 河北 唐山 063001)
当前对档案管理研究热点的分析,多是通过对论文的主题进行人为归类;或是通过对论文的主题词(或关键词等)进行频次统计,再将高频词进行归纳、分类的方法来进行,这是一种主观性的分类,分类结果是否准确、是否合理,跟研究人员的学识水平、知识结构等有很大关系。而采用前沿信息计量方法——共词聚类分析法对档案管理研究热点进行探讨的成果较少。
共词聚类分析是一种内容分析方法,主要是通过对表达某一学科主题或研究方向的专业术语(主题词或关键词)共同出现在一篇文献中的现象分析,判断该学科中主题间的关系,从而展现该学科的研究结构[1]。它是根据“物以类聚”的原理,基于数据统计的基础上,通过SPSS软件的聚类分析功能,将本身没有类别的主题词或关键词聚集成不同类团,每个类团代表着不同的研究子领域,进而清晰、直观地揭示学科的主题结构与变化。共词聚类分析法是一种基于数据计算的客观性分类,它使情报研究从以篇、册为单位的文献单元,深入到文献内部对关键词(或主题词)等知识单元进行研究,从而克服了主观性分类的不足,无论是研究的深度、准确度都得到大大提高。因此,本文拟采用共词聚类分析法,对我国档案管理研究热点进行定量分析,透视我国档案管理研究的现状,以便为档案管理研究与实践提供定量的、有价值的参考信息。
一、数据获取与处理
以CNKI中国知识出版总库为数据源,以“档案管理”为关键词,检索我国档案管理研究论文。时间范围:默认为数据库收录文献的初始年,截止时间为2014年底;文献类型限定在档案学核心期刊。一般而言,核心期刊发文质量高,载文量大,具有学科性、集中性、代表性及权威性等特点[2],核心期刊上发表的论文,足以反映统计时域内我国档案管理研究的热点。
经检索,并剔除不相关文献,共得到4926篇论文作为本研究的样本。这些论文共有274 个关键词,总频次为2078次。截取出现频次≥20的前24个高频关键词(见表1),其累计频次达1260 次,占关键词总频次的60.6%。一般而言,累计频次达到40%以上,就能反应本领域的研究热点[1]。
上述关键词代表了统计时域内档案管理研究的热点。但是这些词本身是孤立的,它们之间的联系仍无法确定,为此需对这些高频词做进一步处理:两两统计它们在同一篇论文中共现的次数,共现次数越高,说明他们之间的关系密切,这样形成了一个24*24的共词矩阵(表略)。为消除共现频次悬殊造成的影响,用Ochiia系数将共词矩阵转化成相关矩阵。
表1 标准化处理后的数据
下面绘制共词聚类树状图。该图的绘制分两步:首先将相关矩阵导入SPSS软件进行共词聚类分析。经过聚类处理之后,这些关键词被重新组合起来,形成一个个代表不同研究热点的关键词类团。二是因子分析。关键词类团是由关键词相互间的密切程度而聚集在一起的,在整个档案管理研究框架中,所应划分的类团数目仍无法明确判断,为此,可以借助因子分析的结论来确定聚类分析时确定最佳分类数。所谓因子分析就是用尽可能少的互不关联的综合元素(即公共因子)尽可能地反应原来元素之间的大部分信息。表现在学科知识结构分析上,因子分析能够把大量的数据归结为少数几类,从而把某一学科划分成多个学科分支。将相关矩阵导入SPSS作因子分析。结果见表2。
表2 解释的总方差
按“特征值大于1的因子被保留,特征值小于1的因子被舍弃”的原则,前6 个因子的特征值大于1,其累计方差贡献率为66.098%。一般而言,累计方差贡献率达到60%以上就能满足分析的需要[3]。也就是说,在本研究中,将24个关键词分为6类,就解释了总体信息的60%以上。为此,将图1中的24个关键词聚类数确定为6类比较适宜。结合聚类分析与因子分析的结果,划分不同关键词之间的节点区域,绘制出共词聚类分析树状图,见图1。
二、结果分析与讨论
结合高频关键词聚类处理结果,可将我国档案管理研究归纳为以下6个方面:
(一)档案信息化建设研究;档案资源整合与共享研究
图1 共词聚类分析树状图
由1、2、7、11、21号关键词构成。自20世纪70年代末期以来,随着我国档案管理自动化工作试点的开始,档案信息化建设开始进入档案学界研究的视野。特别是2002年《全国档案信息化建设实施纲要》的出台,标志着档案信息化建设从国家层面正式启动。近些年来,随着网络的普及,社会信息化趋势的增强,使档案的信息属性、品质优势被充分认知,档案信息化建设的战略地位日益凸显。在这种背景下,档案信息化建设研究迅速发展,并呈现出多样化研究态势。其主要研究内容包括档案信息化基础设施建设、档案信息资源建设、档案管理应用系统建设、档案信息化标准规范建设以及人才队伍建设等方面。
档案资源整合与共享是密不可分的,二者共同构成档案信息化建设的基础内容。近些年来,北京、深圳、湖北、上海、辽宁、江苏、浙江、安徽等各省市在本地区档案信息化建设规划中都对档案资源的整合与社会共享做出了重点部署。随着各项工作的推进,档案资源整合与共享研究也逐步走向深入,主要包括档案资源整合与共享的内涵、模式与保障机制研究、典型案例分析;档案资源整合与共享的观念问题、经费问题、安全问题、信息化技术水平问题等等[4]。
(二)电子政务与政府信息公开研究;档案开放与公布研究
由6、24、4、8、10号关键词构成。随着全球一体化发展,我国各行业与国际接轨的步伐加快,各领域对政府实行电子政务,实现信息公开的要求愈加迫切。然而,目前与之相适应的一系列法律、法规与机制尚不健全。同时,社会公众对档案资源的利用方式和要求也在不断发展、变化,这些都无疑是巨大的挑战。政府是信息的最大拥有者,政府信息是档案信息的重要组成部分,实行电子政务、开放与公布档案、实现信息公开,从而最大限度地满足全体国民共享信息资源的需要,就成为全球一体化趋势下档案界研究与实践的热点。其研究主要集中在电子政务、政府信息公开、档案开放与公布的具体涵义、理论基础、原则、意义、范围、措施、法律法规、保障机制,以及档案社会服务等方面[5]。
(三)文件中心与文件生命周期理论、档案管理、电子文件与电子档案及档案学研究[6]
由5、13、3、14、17、16 号关键词构成。我国自20世纪80年代末期引进文件中心理论以来,关于文件中心与文件生命周期理论就一直成为档案界理论研究热点。其研究内容主要集中于建立文件中心的理论根据,建立文件中心的利弊、文件生命周期的分阶段以及分阶段依据等方面。
电子文件、电子档案的出现不仅对档案工作带来了巨大挑战,同时也拓宽了档案学的研究范畴,成为近年来档案学研究的热点。其研究的焦点主要是关于电子文件及电子档案的概念、电子文件信息资源获取、电子文件转化为电子档案的条件、电子档案特性、管理及法律效力等等。
档案管理研究一直贯穿在档案工作的始终。离开档案管理的实践性要求,档案学不仅会失去发展的源泉,而且也会失去存在的意义。档案学界历来尊重档案学科的这种实践性,也一直保留着重视档案管理工作研究的传统与优势。在档案管理研究中,对体现档案实体管理特征的档案分类、档案检索、档案保护、档案编纂、档案鉴定、档案编研、档案利用、档案服务等一直都有较多、较深入系统的研究。
档案学研究是档案学学科建设和发展的基石。其研究内容包括档案学学科属性、发展方向、发展规律、理论体系、理论依据、新型档案馆(电子档案馆、数字档案馆)建设、档案事业等等。“档案学”成为10年间的热点研究领域,这对我国档案学的发展大有裨益。
(四)档案开发利用与信息服务研究;数字档案馆研究
由12、19、15、9号关键词构成。档案开发利用与信息服务是体现档案职业社会存在价值与意义之所在,也一直是我国档案界的研究热点。主要研究内容包括档案信息开发的对象、意义、途径、技术;档案信息服务的理念、内容、措施、机制、过程与环节、档案用户等等。从对档案实体的物理特征的关注,转向档案文献作深度的信息开发与信息服务的研究,说明社会对档案信息的需求进入了一个新的阶段[5]。自1996年数字档案馆这一概念提出后,数字档案馆相关问题也成为我国档案界研究的热点。诸如对于数字档案馆的概念、比较研究、开发利用、功能定位、关键技术、馆藏结构等均有大量文献报道。
(五)档案数字化建设与档案安全研究
由20、23 号关键词构成。21 世纪是信息化的时代,档案数字化是社会发展的大方向。档案数字化建设作为开发和利用档案信息资源的基础和前提,已被提上日程。研究内容包括档案数字化建设的可行性问题、标准化问题、法律问题、安全问题以及利用问题等。
档案是重要的文化财富,与物质财富不同,档案损坏之后难以再生,因此安全是档案工作的重中之重,是档案学研究与档案工作的热点主题。“档案安全”研究的热点主题主要集中在:电子文件安全、档案安全标准体系、档案安全保障体系框架、档案安全保障体系建设等方面。
(六)档案法、档案网站建设研究
由18、22号关键词构成。档案法是管理我国档案事业的法律规范,是保护档案财富、开发档案资源的法律保障。自从我国档案法颁布实施以来,档案法制理论就成为档案界研究热点之一。主要论题集中在档案立法原则、档案法规体系、档案法律关系、档案执法监督、档案法与政府信息公开、电子文件立法、档案法自身研究等方面。
档案网站是档案信息化建设的重要组成部分,是国家各级档案馆在互联网上发布、公开档案信息资源、提供在线服务的综合平台。随着各级档案馆网络化建设步伐的加快,档案网站建设研究日益活跃,研究论题主要集中在档案网站信息资源组织(建设)和档案网站评价两大方面。具体包括档案网站建设步骤、页面设计、建设原则、建设目标、技术路线、网站维护管理、网站评价指标体系、评价实施、新技术应用、网站建设现状以及案例分析等[7]。
三、主要结论
共词聚类分析是一种新颖的情报内容分析法。它是在基于数据统计的基础上,通过SPSS软件的聚类分析功能,将本身没有类别的主题词或关键词聚集成不同类团,以清晰、直观地揭示学科的主题结构与变化。共词聚类分析法的应用,使我们对我国档案管理的研究从文献单元,深入知识单元,提高了研究的深度与准确度,能够为我国档案管理研究提供有价值的参考信息。
档案管理研究是我国档案学研究的重要内容之一。统计表明,1979-2014年间我国公开发表档案管理研究论文共4926篇。这些论文中共有不同关键词374个,其累计频次为2078次。其中频次≥20的前24个高频关键词累计频次占关键词总频次的60.6%,这些高频关键词代表了我国档案管理领域的研究热点。
本文采用共词聚类分析法,结合因子分析的结论,绘制了我国档案管理研究的共词聚类分析树状图。该树状图将我国档案管理的研究主题划分为6个子领域:①档案信息化建设研究;档案资源整合与共享研究。②电子政务与政府信息公开研究;档案开放与公布研究。③文件中心与文件生命周期理论、档案管理、电子文件与电子档案及档案学研究。④档案开发利用与信息服务研究;数字档案馆研究。⑤档案数字化建设与档案安全研究。⑥档案法与档案网站建设研究。这6个子领域是1979-2014年间我国档案管理研究的主要课题,是我国档案工作者研究与实践的热点。
[1]张晗,崔雷.运用共词聚类介析法研究生物信息学的学科热点[J].医学情报工作,2004(5):327-330.
[2]《中国矫形外科杂志》编辑部.核心期刊与目前中国核心期刊数据库概况[J].中国矫形外科杂志,2008(13):1040.
[3]王景文.基于SPSS知识地图的国外阅读疗法研究热点分析[J].图书馆研究,2014(2):124-128.
[4]陈忠海,孟祥喜.1997-2007年国内档案信息化建设研究综述[J].档案学通讯,2008(5):4-7.
[5]陈艳红.30年来档案信息资源开发利用研究述评——基于《档案学研究》、《档案学通讯》的论文分析[J].档案学研究,2010(2):45-48.
[6]朱玉媛.近几年来我国档案学理论研究热点透视与问题分析[J].档案学研究,2002(1):9-12.
[7]宗乾进等.2010年中国档案学研究热点的知识图谱分析[J].档案学通讯,2010(5):8-12.