科学计量与知识网络分析
——党建研究创新的方法与实践
2019-06-12赵娜,罗霜
赵 娜,罗 霜
北京师范大学,北京100875
2017年12月,习近平总书记在主持中共中央政治局第二次集体学习时指出:“大数据是信息化发展的新阶段。随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人民生活都产生了重大影响。”[1]大数据改变了人类世界,改变了人类理解世界的方式,也改变了学术研究的思维与视角。结合党建研究并选取特定的主题,通过选取相应的统计分析软件进行知识单元统计与网络分析,对于探析大数据背景下党建研究方法的运用与创新具有一定意义。
一、大数据与党建研究
大数据是信息化发展的新阶段。从大数据自身维度来看,大数据是特定的数据科学;从大数据支撑维度来看,大数据是一种技术平台;从大数据工具维度来看,大数据是一种研究方法;从大数据价值维度来看,大数据是一种潜在资源。无论从何种角度出发给出多少种定义,大数据都包括结构化、半结构化和非结构化数据,具有的“大量”“高速”“多样”“低价值密度”“真实性”等特征已成为共识。与大数据相伴的,是大数据的存储技术、生产技术、挖掘技术、物联网技术、云计算技术、人工智能技术等。大数据及其相关技术的发展影响了世界各个领域的深度变革。它在影响人类社会生产与社会生活的同时,促进了人们思考问题方式的转变,对学术研究亦产生了重要的影响。大数据不仅为学术研究带来海量的信息化、数据化资源,还为学术研究提供了新方法、新视角。这些增大的数据与新兴的方法为学术研究带来了新知识和新思维。然而,知识爆炸的同时也带来了一系列的问题,如获取精准知识难度的增加、对数据挖掘和数据分析能力的更高要求等。即便是在学术研究中获得了相关领域或主题的文献数据,但其规模之大也使得科研人员难以驾驭。因此,对学术研究者而言,数据分析技术成为一种必备技能。掌握分析原理、分析方法和分析工具,对于提升科研工作者宏观驾驭问题的能力,尤其是科学发现新的研究领域、学科交叉生长点等,具有重要的价值和意义。面对海量的专业文献,研究人员只有科学地获取文献,在掌握数据的基础上通过大数据研究方法(如可视化分析、机器学习、深度学习、云计算等)合理并高效地挖掘其中隐藏的价值信息,让数据具有“说话”的能力,才能真正做到大数据时代下学术研究的胸中有“数”。
对数据的重视与运用是党史党建研究的一个重要方法。在早期研究中,有不少文章通过对数据统计和相关表格来呈现党的建设中的现象与规律。如陈公博的《共产主义运动在中国》(1924年)、蔡和森的《中国共产党史的发展》(1925年)、瞿秋白的《中国共产党历史概论》(1929—1930年)等。毛泽东提出将重视数量关系的研究行为上升到指导工作的方法论层面,党建研究也在数据运用层面上升到理论和方法论层面。尤其是20世纪80年代交叉学科计量史学传入后,党史党建研究者把计算机科学、信息理论、数学应用等引入党史党建学科领域,为研究者提供了一种新的观察、分析问题的视角,党建研究亦相应不断发展。然而,随着信息大爆炸的新一轮发展,无论是传统的数据运用还是计量史学的引入,都难以应对当今大数据对党史党建研究所提出的要求与挑战,之前运用和处理的数据,也成为了名副其实的“小数据”[2]。党的建设作为一门学科,目前的研究方法主要有历史演进研究法、宏观—微观研究法、比较研究分析法、实证主义研究法、案例分析法等。这些方法传承了传统研究方法,是伴随着党的事业发展的需要在长时期的研究实践中形成、成熟和发展起来的,是党建研究的基本方法和根本手段。同时,党建研究不断吸收其他学科的研究方法,注重从跨学科角度借鉴政治学、社会学、经济学、组织学等学科的研究方法进行交叉研究,这也是多年来党建传统研究方法发展和推进的重要体现。当前,在大数据时代海量文献的背景下,党建研究人员在传承传统研究方法的基础上,如何获取海量文献信息进行分析管理,并为党建研究提供新的学术视角与增长点愈加重要。
近年来,不少学者尤其是政治学、社会学等相关领域的学者开始关注大数据背景下学科研究的发展问题,如佟德志的《计算机辅助大数据政治话语分析》[3]、漆海霞的《大数据与国际关系研究创新》[4]、孟天广的《政治科学视角下的大数据方法与因果推论》[5]等,从不同角度对大数据为学术研究提供的挑战与机遇进行了研究。在党建学科,一些学者开始关注大数据背景下如何开展党建工作和提高党建科学化等问题,如赵淑梅的《“大数据”与提高党的建设科学化水平》[6]、郑吉峰的《机遇、挑战与路径:大数据与党建科学化》[7]、米华全和申小蓉的《运用大数据创新高校党建工作的思考》[8]等。另外,部分学者从大数据与党史、改革开放史等角度进行了研究,如王冠中的《大数据时代的中共党史研究:挑战与变革》[2]、潘娜的《改革开放史研究应对大数据时代的挑战》[9]。从学术界对大数据与党建研究的整体状况来看,学者们或关注大数据在党建工作中的实践和应用问题,或着重探讨大数据带来的挑战与机遇并提出相应的研究原则,但从方法论上尤其是结合学科特点进行具体操作分析的研究较少。因此,以党建研究的某一主题为切入点,一方面进行党建研究的知识单元统计分析,即通过对某主题进行一个或者多个知识单元的频次和统计分布研究,以把握该主题的时间分布、空间分布和热点分布等;另一方面进行党建研究的知识单元网络分析,即通过对各知识单元间关联关系进行深层次量化研究,以梳理该主题的发展历程与研究着重点、分析该主题的研究基础和发展展望等,对于深入理解大数据与党建研究相结合,尤其是相关分析方法的具体探讨和实际操作具有一定的意义。
二、知识单元统计分析
描述性统计分析是科学计量分析中的最基本方法。它通过抽取一个或者多个知识单元字段后,对知识单元的频次和统计分布进行研究。以中国知网数据库为例,其中收录文献的知识单元组成要素主要有作者、发表时间、载文期刊、基金项目、被引量、下载量、关键词、摘要、参考文献等(如图1)。对数据库收录文献的知识单元组成要素进行分析,如分析文献的类型、时间分布、作者分布、期刊分布、关键词词频分布、基金分布等,有助于研究者从宏观上把握某一研究主题的整体概况。在党建研究中,以党内法规研究为例,通过下载各数据库(中国知网、维普、万方等)所收录的以“党内法规”为主题的文献,对这些文献信息进行类型(如专著、期刊、博硕论文等)、时间、作者、期刊、关键词、基金项目、摘要内容、正文内容、参考文献等信息的频次进行计算并统计其分布情况,有助于从整体上把握党内法规研究的发展概况。
图1 文献知识单元组成要素
(一)研究文献的时间分布
研究文献的时间分布,主要是通过数据的发布时间来统计分析文献的增长情况与规律。按照文献增长的逻辑曲线,文献在初始阶段呈指数增长规律,当文献量增至一定量时,其增长率开始变小,最后进入缓慢增长阶段。对文献时间分布的研究,一方面可以了解某领域的总体增长状况和不同阶段增长状况;另一方面也可以总结规律并分析该领域今后的发展趋势。例如,从中国知网数据库和维普中文期刊服务平台所收录的CSSCI和核心期刊文献中下载关于党内法规主题的论文847条,通过统计论文的年发文量(图2),一方面可以看出党内法规领域的研究经历了初步发展、缓慢发展和快速发展的三个阶段;另一方面可以对党内法规今后发展趋势进行分析,在今后党内法规的发展趋势上,由于2018年的统计数据仅包含了1-6月的党内法规研究发文数据,根据期刊的发文周期及数据库更新速度,该数据仅占2018年发文量的三分之一,由此可以看出党内法规发文量仍将继续增长,党内法规研究的热潮仍将继续。
图2 中国共产党党内法规发文量年度分布图
(二)研究文献的作者分布
研究文献的作者分布,主要通过计算作者的科学生产率及作者H指数、G指数等来发掘某一领域内学术产出量较多和学术影响力较大的学者。H指数和G指数是用来衡量学术研究者学术影响力的重要指标。其中,H指数指该作者发表的Np篇论文中有h篇每篇至少被引h次,而其余Np-h篇论文每篇被引均小于或等于h次;G指数是为修正H指数对高引论文增量不敏感的缺陷,将引论文增量计算在内,论文按被引次数降序排列,找出g值,使得前g篇论文被引次数的总和大于或者等于g2,而前g+1篇论文的被引次数小于(g+1)2。一方面,通过计算作者的科学生产量和科学生产率来探究科研工作者在该领域的活跃程度及贡献;另一方面,通过计算作者H指数和G指数来找出在某研究领域提供了较高的学术产出并形成了一定学术影响力的作者。研究党建领域作者分布问题,可对一位作者的科学生产率进行分析计算,也可对党建领域中某一研究主题的所有发文作者的科学生产率进行分析计算。例如,对党史党建专家张静如教授进行作者发文量及H指数统计,可以检索到其公开发表的期刊论文共295篇,总引用量为1256次,作者H指数为16;以党内法规研究领域为例进行该领域发文作者的发文量及H指数计算,发现在该领域较为活跃且学术影响力较大的前十位学者分别为操申斌、肖金明、潘泽林、韩强、姜明安、张晓燕、何克祥、邹庆国、秦前红、鞠成伟(表1)。
表1 党内法规研究发文作者H指数
(三)研究文献的载文期刊分布
研究文献的载文期刊分布,通过统计期刊对某一主题论文的刊载,对期刊的总被引次数、影响因子、去除自引的影响因子、5年影响因子、论文影响分值等,统计在某领域的具有高影响力的期刊。以张静如教授发文期刊为例,其公开发表论文共刊载于72个期刊,通过对载文期刊的发文量与H指数统计来看(表2),张静如教授的发文量与学术影响力基本上呈现于《中共党史研究》《党史研究与教学》和《北京党史》等期刊。同样对党内法规为主题的论文进行载文期刊统计,在研究样本中共出现163个期刊对党内法规主题的论文进行了刊载,通过分析期刊的总被引次数得出期刊H指数(表3),《探索》《人民论坛》《中共中央党校学报》《理论学刊》《理论与改革》等期刊载文量和期刊H指数基本成正比,具有较大的影响力。
表2 张静如教授论文载文期刊H指数
表3 党内法规载文期刊的H指数
(四)文本词频分析
文本词频分析,通过对组成文献文本内容的词或短语在文本中出现频次的统计和分析,来挖掘该领域的热点词与关键词。对文本词频的分析,一方面可以通过对文献本身所列出的关键词进行统计,通过计算其中的高频词来分析该领域的研究热点,例如对党内法规研究文献中的关键词进行词频统计,可以寻找在党内法规研究中学者们关注的研究点有“党内法规”“全面从严治党”“依法治国”“党的建设”“依规治党”“党内监督”等(表4);另一方面,由于文献本身所列出的关键词是作者的提炼归纳,具有一定的主观性,因此可以通过专业的分词软件对文本内容(如摘要或者正文内容)进行分词,并统计其具有权重的关键词(此时的关键词是从文本中计算而来,因此具有权重)词频,以此来分析某一领域的研究热点。同时,对词频分布的分析也可以“新词发现”为切入点,寻找不同阶段的研究热点,如对党内法规研究文献中的摘要部分进行分词和关键词统计(表5),可以发现在不同发展阶段党内法规研究的热点和重点有所不同,党内法规研究的领域和关注点不断拓展,其研究视角从微观的党务管理(如党员行为规范、党内专门机构等),逐渐拓展和深化到宏观治国方略(国家治理现代化等)等深度。
表4 党内法规研究关键词词频
表5 党内法规热点词权重与频次统计表
三、知识单元共现分析
知识单元共现分析是文献计量分析中最核心的分析方法。它通过一定的关联关系,构建同质的知识单元(如合作网络、共词网络、引文网络)或异质知识单元之间(如主题—文献网络、关键词—作者网络、作者—机构网络)的关系,并进行深层次量化分析。一般而言,实现知识单元共现分析的方法有网络分析方法、多元统计分析以及数据可视化。这里的网络,指的是由点和连接点之间的线组成的集合(图3)。点被称作节点,网络节点可通过计算其节点的度中心性、接近中心性、中介中心性、特征向量中心性等进行分析。边是各个节点之间的联系并具有一定的数值,节点之间联系次数越多,边的数值越大,在网络图中则越粗。在党建研究中,可通过分析作者(机构、学科等)之间的合作网络,进而分析党建研究中所形成的学术团体及学科交叉问题;可通过分析关键词之间的共词网络,进而分析党建研究某领域中的研究主题及其发展历程;可通过分析参考文献之间的引文网络,进而分析党建研究的学术基础及论文的相似性与差异性等问题。
图3 网络的基本组成
(一)合作网络
随着科研工作的发展,科研合作成为越来越重要的研究方式。在科学计量学研究中,合作网络的分析主要是分析作者(机构、学科等)在科研成果上共同署名的情况。通过统计这些作者(机构、学科等)共同出现在一篇论文的署名字段的频次来构建作者(机构、学科等)的合作矩阵和合作网络。合作网络可研究单个作者(机构、学科等)的合作情况,如在研究张静如教授发表的论文中构建起以“张静如”为核心的作者合作网络图(图4),可以看出与张静如教授合作署名发表科研成果的其他作者,并通过相关信息分析可以得出张静如教授的合作关系中主要以师生合作为主。合作网络也可分析某一领域内所有作者的合作发文情况,如在研究党内法规发文作者的合作情况(图5),可以看出在作者合作发文中偶有单个作者与多个作者分别进行合作的情况(如以刘先春等学者为核心的研究团体)和有多位作者交叉合作情况(如张纪、翁淮南等学者的研究团体),但在作者合作中多以固定的二人合作发文为主(两个节点单向联系的作者合作情况占90%),且往往以同机构合作、师生合作等为主。当然,以此为思路可以进行这种方法多种使用,如研究不同机构的合作情况、不同学科合作情况来具体分析某一研究主题的跨学科问题,研究随着时间变化作者合作或者学科合作的演化等,进而研究该学科的学术队伍和学科建设问题等等。
(二)共词网络
共词网络分析是运用统计方法计算词在同一篇论文中共同出现的频次,得到共现矩阵,并将共词矩阵转换成共词网络的分析方法。其原理是以文献的知识单元为模块,两个词同时出现在同一个知识单元,则表明存在共现关系。通过全篇计算词对在所有文献的相同知识单元中的共现频次,得到最终的共现次数,进而形成众多词对组成的共词关系网络。共词网络在具体的学术研究中可以应用到学科热点及结构内容的研究中。在实际分析中可从文献中提取信息的来源主要有文章标题、摘要、关键词、全文等。例如,对张静如教授发表论文的关键词进行共词网络分析(图6),可以大致总结出张静如教授的学术思想主要集中于李大钊研究、中共历史及党史党建学科建设研究、中国共产党思想史研究、马克思主义中国化研究等方面。对党内法规文献题录中的关键词单元进行共词网络分析(图7),可以发掘党内法规研究的四大主题——“党内法规”“依法治国”“党的建设”和“全面从严治党”。
图4 张静如教授合作网络图
图5 党内法规作者合作网络图
图6 张静如学术思想网络分析图
图7 党内法规研究关键词共现分析图
(三)引文网络
引文网络。文献由于先后之间的引证而形成了引文网络,其中主要有文献共被引网络和文献耦合网络。文献共被引以研究文献两两共被引的频次,来测度文献之间的相似性。两篇论文的共被引次数越大,则两篇论文在研究内容上越相近。由于随着时间变化论文的共被引次数会发生变化,因此文献共被引次数具有可变性。文献的耦合以研究文献两两所具有的相同参考文献的频次,来测度文献的相似性。如果两篇论文所包含的相同参考文献的数量越多,那么这两篇文献的相似性就越大。由于参考文献是论文的一部分,因而已发表的两篇论文的耦合强度,不会随时间的变化而变化。研究某一领域的文献耦合网络,一方面可以看出该领域的基础文献内容及类型,另一方面可以反映该领域研究的相似性与差异性问题。例如,以《中共党史研究》期刊为例,对该期刊从1998年至2017年二十年内的文章参考文献进行文献耦合网络构建和分析,可以发现参考文献基本上分布于党的领导人的著作文集、选集和党的重要文件选集等三类。第一,以毛泽东的选集、文集为核心的文献耦合,形成了以《毛泽东选集》(人民出版社)、《毛泽东文集》(人民出版社)、《建国以来毛泽东文稿》(中央文献出版社)为主要内容,以《毛泽东在七大的报告和讲话集》(中央文献出版社)、《毛泽东书信选集》(人民出版社)、《毛泽东外交文选》(中央文献出版社)和《胡乔木回忆毛泽东》(人民出版社)等为辅助内容的第一大聚类。第二,以邓小平的文选、年谱为核心的文献耦合,形成了以《邓小平文选》(人民出版社)、《邓小平年谱》(中央文献出版社)为主要内容,以《刘少奇选集》(人民出版社)、《陈云文选》(人民出版社)、《周恩来选集》(人民出版社)、《周恩来年谱》(中央文献出版社)和《若干重大决策与事件的回顾》(中共中央党校出版社)等为辅助内容的第二大聚类。第三,以党的重要文件、选集为核心的文献耦合,形成了以《中共中央文件选集》(中共中央党校出版社)、《建国以来重要文献选编》(中央文献出版社)和《共产国际、联共(布)与中国革命档案资料丛书》(北京图书馆出版社)等为内容的第三大聚类。通过对参考文献耦合网络的分析,一方面可以分析在研究某一主题时较为权威和重要的参考文献有哪些,另一方面也可以从参考文献类型及内容的角度上分析该学科研究的不足与发展方向。
四、BibExcel+Pajek工具实操
目前,有大量能够实现文献科学计量与知识网络分析的工具,如BibExcel,Sci2科学研究与实践工具、Loet科学计量工具包、SATI文献题录信息统计分析工具、Bicomb书目共现分析系统等。另外,可通过导出相应的数据结果在VOSviewer、Pajek等可视化工具中实现可视化网络图的制作和展示。其中,以BibExcel和Pajek分析工具为例,其实现文献科学计量和网络分析可视化的基本分析思路为原始数据处理、数据分析和可视化表达。
(一)获取适合BibExcel分析的文献
BibExcel是瑞典科学计量学家欧莱·皮尔逊开发的文献计量工具。其最大特色是利用BibExcel处理得到的文件可以快捷导入Excel中进行进一步分析,对进行文献科学计量和网络分析具有很好的帮助。该软件是基于英文数据库所收录的文献而进行分析的软件,因此对中文文献而言,首先需要将收录的中文文献转换成适合BibExcel可分析的相应格式。将中国知网数据库中某主题的相关文献题录以NoteExpress格式导出。通过NoteExpress文献管理工具将导入的文献以Excel格式导出题录,并将该Excel文件以“文本文件(制表符分隔)”格式储存为txt文本。这样就得到适合BibExcel分析的原始数据。如在中国知网数据库中以“社会科学I辑”为限定领域,搜索以“深化改革”为主题的论文共6323篇,除去与主题无关的论文剩余5906篇。将这些论文题录以NoteExpress格式导出,并通过NoteExpress软件将5906篇论文以Excel格式导出题录。通过对该Excel进行适当删减(删除其中的空白列等)后,以“文本文件(制表符分隔)”格式储存为txt文本。
(二)BibExcel环境下对相应内容的分析操作
将生成的“深化改革.txt”文本点击Edit doc file—replaceline feed with carriage return(确定/是),生成“深化改革.tx2”文件,点击Misc—Convert to dialog format—Convert from WOStabbed format,自动生成“深化改革.doc”文件。通过在Old Tag中对不同字段(如年份、作者、作者机构、基金项目、载文期刊、关键词、参考文献等)进行Prep,可提取出所有文献的相应字段,亦可对此字段在Frequency distribution区域进行排序(如Sort descending),将生成的“深化改革.cit”频次文件用excel打开,即呈现出数据的频次结果。另外,可通过发文量与被引量算出作者(期刊、机构等)的H指数。首先提取作者(期刊、机构等)单元,在此基础上将被引量的单元Add field to units,生成包含作者(期刊、机构等)信息和引用量的jn1文件,提取分析列后在The Box输入2/3,在Edit out file-select columns中生成col文件,最后通过analyze—h-index(确定/是),生成hdx文件,并用excel打开即可统计生成作者(期刊、机构等)的H指数。
(三)可视化分析
可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的一种方法和技术。可视化分析是基于知识单元网络分析及其解读来展示结构关系的一种图形,亦称为科学知识图谱方法。可视化分析一般可分析关系的可视化、文献共被引的可视化、主题共现的可视化。例如,在可视化分析软件Pajek中,将BibExcel中生成的“深化改革.net”和“深化改革.vec”文件导入,继而生成相应的矩阵图和网络图。以作者合作网络可视化为例,第一步在BibExcel中生成“深化改革.out”文件,统计作者频次生成“深化改革.cit”文件,在此基础上形成共现频次列表“深化改革.coc”文件(analyze—co-occurrence—makepairsvialistbox,生成“深化改革.coc”文件),通过mapping—creat net—file for pajek……生成“深化改革.net”文件;第二步将获得的矢量文件“深化改革.vec”文件,点频次文件“深化改革.cit”,mapping—creat vec-file即可获得;第三步将这两个文件导入Pajek中,通过生成聚类(layout—energy—KK—Free),最终得出关于作者合作网络关系图。
时代的革新要求理论研究的革新。大数据为党建研究的发展尤其是党建研究方法创新提供了机遇,适应并革新党建研究方法为深化党建研究提供了新的生长点。党建研究一方面需要通过多学科领域的“大数据”来推动其拓展化、信息化,另一方面需要引入大数据研究方法,结合量化研究和高级统计方法等,实现党建研究的科学性、现代化。当然,不断扩充的数据文献、不断增加的海量信息和不断更新的技术软件,始终都是研究的辅助工具。对党建研究者来说,不仅要掌握数据信息,更要提高对数据的“加工”能力。党建研究者应在党建理论的指导下,根据自身的研究数据,不断加强统计方法原理理解与党建研究问题意识,不断提升理论功底和综合能力,才能结合数据文本对统计结果作出更为细致、深入的解释分析,进而不断深化党建研究。