基于共词知识图谱的人文学科研究热点可视化的实证研究
2010-04-18秦长江
●秦长江
(1.南京农业大学 信息科技学院,南京 210000;2.河南科技大学 管理学院,河南 洛阳 471003)
学术论文是学术研究的有形载体,是映射某一学科领域兴起、发展、演进、融合及分化态势过程和规律的一个重要标志。论文的关键词又是论文内容的提示符,是作者学术思想及学术观点的凝炼,也是文献计量、科学计量研究的重要指标。[1]
两个关键词在同一篇文献中同时出现称为关键词共现。该方法中聚类和分析的指标是词(叙词或关键词),而词与词之间的关系代表着概念间的关系,因而聚类处理之后所形成的类能够比较清晰、简单、明了地揭示学科或主题的结构与变化。[2]与单纯的主题词统计、排序,进而分析研究热点的文献计量方法相比,共词分析不仅分析高频词,更注重这些词之间的联系,从而更好地反映了概念之间的关系。更为重要的是,共词分析法是对当前发表文献的直接统计,反映的是当前论文所集中关注的主题和趋势形成之后的焦点,适合寻找知识领域的研究热点和前沿。因为前沿领域的研究往往人数众多而不集中,作品较分散,被引用情况不稳定,而关键词却很好地体现了学科的研究热点、焦点领域和该领域前沿发展方向。[3]
总之,共词分析法与共引分析法的功能、结果是一致的,但对国内研究者而言,共词分析法更有价值的是不需要庞大的引文索引作基础,免去了国内引文数据库数据质量不高的障碍,而且应用的范围更为广泛,不仅仅包括学术期刊,还可以包括会议录等其他灰色文献。[4]随着计算机技术的发展,共词分析法在分析学科发展历史、揭示某一领域研究的发展动态和趋势、发现新的学科增长点和突破口等方面的作用越来越显著。
而共词知识图谱则是指将可视化技术与共词分析原理结合,生成具有各种属性的图形、图表或科学地图,来确定这些代表性词语之间的概念图谱或知识网络结构,通过一系列图谱详细地描述某一学科领域的主题和热点,以揭示知识领域结构、映射知识领域发展趋势。[5]
1 实验设计思想
大量的文献调研表明,国内共词知识图谱的研究与国外相比有极大差距,主要表现在3个方面:[6]①研究手段和方法严重滞后;②研究层次低;③研究对象范围过窄。目前国内共词知识图谱研究都局限在自然科学、管理科学领域,且大部分都是这些学科某一研究方向的国际化研究,数据都选自国外权威数据库,还没有在我国人文学科,特别是文史学科中研究成果的报道。由于人文社会科学研究及其文献具有自然科学所没有的特点,因此,构建文史学科的共词知识图谱,研究方法更具复杂性和特殊性。比如对于相关朝代和地名的取舍问题,如果也采取共词知识图谱通常使用的方法,一开始就将朝代和地名舍去,那么,一是由于文史学科过多的高频词都是类似性质的词,略去过多会影响到研究的准确性;二是会影响区域史和不同时期分区史的研究。然而,如何对待这些高频关键词,国内外还没有任何研究报道。因此,本文把研究对象选定为文史特征很强的学科——农业史学科,把知识图谱方法应用到我国人文学科领域的研究中,从实证角度证明知识图谱这一科学计量学方法在人文学科中的有效性和存在的问题。这也是国内文献和科学计量学研究方法的一次有意义的创新尝试。
本文采用共词分析法,按照1980—1995、1996—2008两个阶段,对1980—2008年我国农业史学科文献的关键词进行统计,通过考察这两个阶段关键词之间关联的强弱来挖掘知识结构之间的亲疏,用知识图谱方法中的类团关系图来定量地分析两个时期农史学科集中关注的热点主题和主题变迁,使结论具有定性、定量的特点,提供了一个观察学科发展演进过程全景的新视角。
2 数据处理
2.1 筛选和清理数据源
本次实验共词数据采用套录“中国农史论文全文数据库”(该数据库是由南京农业大学中华农业文明研究院开发的,主要对现、当代农史研究论文进行数字化加工和整合。共收录1980—2005年间的农史论文10098篇)的数据,补充录入2005—2008年数据的方法(补充数据主要采用“中国期刊全文数据库”中《中国农史》《农业考古》《古今农业》这三大农史期刊2005年至今的所有论文数据),同时再搜索、筛选、补充其他相关期刊中农史论文的数据,将三种方法获得的数据进行查重、剔除后整合到一起,建立中国农史学科论文关键词共词数据库,作为分析的样本和基础。所建立的中国农史学科论文关键词共词数据库共有文献数据12247条,1980—1995年有4325条,年平均270条;1996—2008年有7922条,年平均609条。词表的集合足够大,进行共词分析是适合和恰当的。
首先对共词数据库的数据进行筛选清理,将非纯学术论文和没有关键词的论文全部剔除后,利用自编的计算机程序,将这些关键词按照它们出现的频次由高到低排序,得到两个阶段降序排列的关键词总数分别是8472、11631个。按照科学计量学的原理,共词分析法对高频词数量的选择没有统一规定,如果选择的高频词过少,则不能如实反映学科结构的构成;如果范围过大,则将给共词分析带来不必要的干扰。目前高频词的选择一般为截取的高频词的累积频次要达到总频次的40%左右,[7]因此,本文分别截取第一阶段词频量大于12、第二阶段词频量大于14的高频关键词,这样第一阶段词频量大于12的关键词共有120个,累积频次为3054,达到总频次的36.1%(3054/8472=0.3605);第二阶段词频量大于14的关键词共有156个,累积频次为5291,达到总频次的46.6%(5291/11361=0.4657),将这些关键词作为表现当前中国农史学科研究热点的标志是合适的。
2.2 合并关键词
鉴于文史学科的特殊性,笔者在数据处理过程中,发现有许多同义和意义相近的关键词汇,如明清时期和明清、江南地区和江南、民国时期和民国、茶叶和茶、先秦时期和先秦、农具和农业工具、栽培史和栽培历史等等。为统一处理,笔者将所有这样的两个词统一为一个更常用的词。将所有类似表达同样内容的词汇统一规范处理后,再将一些无法表达实际意义的词如:发展、起源、开发、对策、影响、传播、现状、分布等统一删除,这样,第一阶段词频量大于12的120个关键词简化为86个、第二阶段词频量大于14的156个关键词简化为113个,从而分别确定了两个阶段的86个和113个高频关键词表(限于篇幅,两个词表略),作为共词分析我国农史学科研究热点的基础。
2.3 形成原始共词矩阵和构造相异矩阵
利用自编的计算机程序,统计这些关键词在该共词数据库中共同出现的次数,这样形成了一个86×86和113×113的共词矩阵(由于篇幅限制,两个表略)。这样的共词矩阵是一个对称矩阵。因为两个关键词共现频次的多少直接受两个关键词各自词频大小的影响。因此,要想真正揭示关键词之间的共现关系,还需引入表示关键词共现相对强度的指标。在文献计量学中,目前应用较多的就是Ochiia系数和Jaccard指数。[8]本文用Ochiia系数将共词矩阵转换成相关矩阵,然后再用“1”与全部相关矩阵上的数据相减,得到表示两词间相异程度的相异矩阵(86个高频关键词的相异矩阵片段见表1,113个高频关键词的相异矩阵略)。相异矩阵中的数据数值越大,表明关键词之间的距离越远,相似度越差。[9]
表1 86个高频关键词共词相异矩阵(部分)
2.4 构建类团关系图
利用相关的多元统计方法,进行聚类分析,得到聚类结果树状谱系图。用该图把这些关键词重新组合起来,关键词之间的亲疏关系就表示出来。从而反映出这些关键词所代表的研究热点和研究主题。[10]类团形成后,通过计算各类目之间的外部链接和内部链接,得到类团之间和类团内的联系强度。两个类团的所有关键词共同出现在同一篇论文中的次数总和就是两者的“外部链接”,内部链接指某类团所包含的全部关键词共同出现在同一篇论文中的次数总和。按照链接强度绘制成类团关系图,以反映各类团之间的关系。[11]本文首次在国内利用社会网络分析软件pajek绘制出类团关系图。
3 实验结果和分析
3.1 实验整体情况
通过对1980—1995年、1996—2008年两个阶段86、113个高频词共词矩阵的聚类,分别在分类阈值为2.2、2.25水平上得到12个、15个类团,分别包含55个、61个关键词。两个阶段中删去的词分别是:表示朝代和地区的关键词、未聚入任何类目的词、聚成了两个小类团的词(如第一阶段的农业资料和甲骨文、第二阶段的少数民族和畜牧业等,由于每个类团只有2个关键词而被忽略掉)。由此,笔者列出了每阶段的聚类结果(由于篇幅限制,两个阶段的树状聚类图略),绘制了类团关系图等知识图谱,进行详细的对比研究。
3.2 主要研究领域及其演变
两个阶段由聚类图的聚类结果形成的类团关系表见表2。
第一阶段有12个类团,根据学科范畴总结为以下6个方面:①农业科技史,有农业生产与工具史、畜牧兽医史、稻作农业研究、作物栽培史、农田水利史5个类团,居各类团主题内容之首;②农业考古与农业起源研究(有两个强度大的类团);③农业经济史研究(有土地制度史和以农业经济结构为主的研究两个类团);④农书研究类团;⑤农业文化史研究(即茶文化类团);⑥传统农业与农业现代化研究类团。
表2 类团关系表
第二阶段有15个类团,根据学科范畴总结为以下6个方面:①农业科技史,稻作农业研究、农田水利史依然存在;畜牧兽医史、作物栽培史消失;农业考古、农业起源与原始农业、农业生产与工具史合并成一个关键词最多、强度最大的一个类团:农业起源与原始农业研究。②农书研究、传统农业与农业现代化研究、茶文化类团依然保留,变化不大,该阶段又有了茶叶生产与贸易史研究类团,说明有关茶的研究内容在扩展。最值得关注的是第二阶段中出现的新类团。在这一阶段,与农业经济史(特别是当代农业)研究有关的新类团和农业环境史研究、农业灾害史研究类团的出现是最显著的特征。虽然这些类团关键词不多,类团强度不够大,但很值得研究。③农业经济史研究。该阶段有4个类团(笔者把当代农业经济研究也划入到该领域),即农业经济史、农业赋役史、三农问题研究、人口与土地利用研究。④农业环境史。本阶段有两个与环境史有关的类团:农业环境史、生态环境保护与新农村建设研究(严格来说,人口与土地利用研究类团也与环境史研究相关)。⑤农业灾害史。这一阶段有一个灾害史类团,根据关键词的内容来看,研究范围包括了几乎所有的农业自然灾害。⑥农业与农村社会发展史。该阶段首次有一个类团:农业乡村社会史研究进入热点研究领域。
3.3 类团关系图分析
笔者根据各类团之间的内部联系强度和其外部链接数量,首次在国内用社会网络分析软件pajek绘制了两个阶段的类团关系图(图1、图2),形象直观的研究哪些类团是核心类团、边缘类团以各类团彼此联系的强度。
pajek软件绘制的网络图,节点大小代表该类团的内部联系强度,节点越大,该类团的内部联系强度越大;连接节点线条的粗细和颜色的深浅代表两个节点外部链接数量和强度,线条越粗,颜色越深表示两个节点外部链接数量和强度越强。
从图1可以看出,第一阶段,“农业生产与工具史”“农业起源与原始农业研究”和“农业考古研究”三个大类团是整个领域的研究重点,它们几乎与所有的类团都有着或强或弱的联系。“稻作农业研究”“畜牧兽医史”“传统农业与农业现代化研究”“农田水利史研究”“作物栽培史研究”等是次核心类团,其他类团是边缘类团,相互影响很小。
从图2可知,第二阶段情况发生了很大变化。上阶段的两个大类团合并为一个最大的“农业起源与农业考古研究”核心类团。“三农问题研究”成为第二大核心类团;同时上阶段的次核心类团“稻作农业研究”“传统农业与农业现代化研究”“农田水利史研究”仍然是次核心类团,而“农业经济史研究”“农业环境史研究”类团成为新的次核心类团,它们与其他类团联系也较多。其余类团是边缘类团,相互影响很小。唯一例外的是,“茶文化研究”“茶叶生产与贸易史”类团联系很强,但与别的类团联系很少。
图2 15个类团关系图
总之,从两个阶段的“稻作农业研究”等次核心类团保持不变;新兴的“农业环境史研究”等类团成为新的次核心类团;出现了不少强度更小、范围更广的新类团——这三个现象充分说明农业史学科的重要研究领域比较稳定、主要研究热点比较突出、学术特色依然保持,同时新兴研究热点不断涌现,研究范围和内容更加拓展,研究热点增多和更加分散。
4 小结
特别需要说明的是本文对于相关朝代和地名的取舍。类似性质的高频词所占比例非常大,因此如何处理,会极大地影响到研究的准确性和科学性,而国内外还没有如何处理这些高频关键词的任何研究报道。因此,笔者采取了4种方法进行试验:
(1)在降序排列的关键词词频分布表排出之后,将这些词排除,然后再进行相关的后续步骤;
(2)在合并、规范处理关键词后再舍去;
(3)全部词参与聚类并形成聚类图后,在形成类团关系表时将它们排除(就是本文的方法);
(4)这些词全部参与聚类和分析。
经过对比分析,第三种方法效果最好。原因如下:由于学科的特殊性,第一种方法误差太大,不能如实反映学科研究热点;第二种方法得到的共词数量很少,无法进行共词分析;第四种方法会影响、干扰到类团的命名和分析。因此,虽然第三种方法也有不足,即会影响区域史和分区史的研究,但目前是最理想的方法。
总之,虽然共词分析法避开了引文数据这一重要影响研究质量的因素,尤其对我国的人文学科更为适用,但仍然存在一定局限性。比如:①由于人文学科的特殊性,关键词的著录不完全规范,在归并意义相同的关键词时存在一定的主观性;②期刊不同发文量造成部分主题关键词过多或过少,干扰部分类团的命名以及使某些类团的密度和向心有些失真等,这些命题仍需要进一步研究。
[1]张勤,马费成.国内知识管理研究结构探讨——以共词分析为方法 [J].情报学报,2008,27(1):93-101.
[2]钟伟金,李佳.共词分析法研究(三)——共词聚类分析法的原理特点[J].情报杂志,2008(7):118-120.
[3]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(162):88-92.
[4]周静怡,孙坦.共词可视化:以人类基因组领域为例 [J]. 情报学报,2007,26(4):532-537.
[5] Chaomei Chen,Jasna Kuljis.Therisinglandscape:a visual exploration of superstring revolutions in physics[J].Journal of the American society for information scienceand technology, 2003, 54 (5): 435-446.
[6]秦长江.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37.
[7]张勤,马费成.国外知识管理研究范式——以共词分析为方法 [J].管理科学学报,2006,12(6):526-531.
[8]梁立明,谢彩霞.词频分析法用于我国纳米科技研究动向分析[J].科学学研究,2003,21(3):138-142.
[9] Bauin,Setal.Using bibliometrics in strategic analysis:“understanding chemical reactions” at the CNRS[J].Scientometrics, 1991, 22 (1): 113-137.
[10]刘则渊,尹丽春.国际科学学主题共词网络的可视化研究 [J]. 情报学报,2006,25 (5):20-25.
[11]钟伟金,李佳.共词分析法研究(二)——类团分析 [J].情报杂志,2008 (6):141-143.