APP下载

共词分析及相应工具软件的设计与开发

2014-12-24谢松

科技创新与应用 2014年36期
关键词:共词分析算法

谢松

摘 要:基于关键词的共词分析自提出以来,在学科前沿热点、学科发展、学科研究范式等研究中得到了越来越广泛的应用,文章研究了目前的常用共词分析的过程与步骤,比较了已使用的共词矩阵算法,设计开发了一个简洁高效、自动化程度比较高的共词分析工具软件,并以实例作为说明。

关键词:共词分析;共词矩阵;算法

1 概述

共词分析是法国文献计量学家于20世纪70年代提出来的一种文献内容分析方法,1986年法国国家科学研究中心的Callon M和Law J等人出版了第一部关于共词分析法的学术专著,经过几十年的发展,已经被广泛应用到许多领域,产生了大量的研究成果。其思想来源于文献计量学的引文耦合与共被引概念,当两篇文献同时被其他文献引用时,表明它们所研究的主题在理论或方法上是相关的。两篇文献共被引的次数越多,它们的关系就越密切。同理,当有两个专业术语在某学科领域的同一篇文献中同时出现,表明这两个词之间存在一定的关系,同时出现的次数越多,表明它们的关系越密切[1]。

共词分析法主要是对一组主题词或关键词两两统计其在每一篇文献中出现的次数,以此为基础构造共词矩阵,通过对共词矩阵变换为相似矩阵与相异矩阵,然后进行多元统计分析, 把众多分析对象之间错综复杂的关系以数值、图形直观地表示出来,揭示出这些词之间的亲疏关系,进而分析它们所代表的学科和主题的变化与趋势。

2 共词分析的过程与步骤

运用共词分析法进行研究大致可分为几个步骤进行,在具体的操作中可根据实际研究主题选择合适的分析方法。

2.1 确定研究主题与文献选取

利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域学科的发展过程与趋势,以及领域学科之间的关系等等。确定好研究主题之后即可在数据库中检索相应的文献,去除重复文献、非相关文献后筛选合适的文献作为处理对象。

2.2 高频词的选取

在分析文献的相关性时,统计分析的过程中如果使用两个完全不相关的词汇进行处理,对统计分析的结果将产生很大干扰,因此,被分析的词汇最好是受控词、被统一标引的主题词,只有这样,利用文献中词语对的共现频次来反映研究主题内在联系的方法才能成立[2],因此在研究中通常使用检索的主题词或文献的关键词作为分析对象。将所有主题词或关键词按出现频率的高低顺序排列,选取其中出现频率较高的词汇作为分析对象。确定高频词的方法有两种:一种是结合研究者的经验在选词个数和词频高度上予以平衡;另一种是结合齐普夫第二定律关于低频词分布规律理论来判定高频词的界限[3]。

2.3 构造共词矩阵

为反映高频词之间的关系,需要将其两两组对,统计每对高频词在同一篇文献中出现的次数,如果两个主题词(关键词)在众多的文献中出现频率高,则说明它们之间的关系密切。如果选取了N个高频词,则它们之间的关系,可以通过构造一个N*N的矩阵计算共现频次来反应。共词矩阵的计算是共词分析中的重要一步,由于统计词对出现的频次值是绝对值,难以反映词与词之间真正的相互关系,因此需要对词频进行包容化处理以反映出两者间的紧密联系的程度。目前各种共词分析文献中应用得比较多的一种方法是采用Ochiia系数将相关矩阵转化为相似矩阵和相异矩阵:

2.4 采用多元统计方法分析

在计算共词矩阵的基础上,采用不同的统计学分析方法,揭示共词中的信息,常用的分析方法有: 因子分析、聚类分析法、关联规则分析、多维尺度分析等方法。目前已有学者将新近出现的突发词监测法引入共词分析中开展文献学评价研究。

2.5 阐述共词分析的结果

共词分析过程是使用统计学以及数据挖掘等方法反映研究主题间的关系,要深入揭示隐含在文献中的知识,必须结合相关学科的知识对统计的结果进行科学分析与合理阐述。

3 共词分析工具软件的设计开发

构造共词矩阵并计算共词频次是共词分析的重要环节,在处理的文献数量很大时,通过手工统计众多主题词或关键词,计算共词矩阵是不现实的。通常可以采用spss、ucinet等软件进行构建作者和关键词矩阵以分析文献数据,但这些软件比较难以理解和掌握。也有学者通过Microsoft公司的办公软件Excel来进行共词分析,但前期的题录导入、关键词切分与统计等工作还需手工完成,工作量巨大。相比较而言,自主地设计开发一款自动完成文献题录导入、关键词切分与统计、构建共词矩阵、计算共词频次等功能的软件,在实际的科研工作中,可以起到事半功倍的效果。

3.1 系统功能模块

文本预处理:将下载的文献规范化处理,去除文本中不必要的空行、特殊字符等,为导入题录做好数据准备。

文献题录导入:从文献库中检索下载题录信息之后再导入数据库,由于CNKI、维普、万方、中国生物医学数据库等不同的文献库的题录格式不同,处理时需根据实际需要再做变更。

关键词切分:文献篇名、作者、关键词等题录信息导入之后,可以分别处理。在做共词分析时,主要是对关键词做统计分析,而关键词在文献中大都用中英文的逗号或分号间隔开来,统计之前需做切分处理。

共词矩阵构建与计算:选定高频关键词之后,需要进行共词矩阵的构建与频次计算。其实现方法的讨论在下节中再详细讨论。

多元统计方法分析:可以根据需要添加因子分析、聚类分析、关联规则分析等功能,此功能模块属于扩展功能。

3.2 共词矩阵计算方法比较

共词频次的计算方法很多,在实践中用到了两种算法,试比较如下:

3.2.1 依据定义机械对比

根据定义,共词的频次是两两组合的高频主题词或关键词在每一篇文献中出现的频次,依次设计的算法比较简单,假设文献总数是max_source_id,高频关键词总数是max_gaopin,定义两个高频关键词数组key_row(max_gaopin)、key_col(max_gaopin)一个存储共词词频的二维数组Gongci(max_gaopin, max_gaopin),然后判断两两组合的关键词是否同时出现在同一篇文献中,最后累计得到共词词频,并此基础上再用Ochiia系数计算出相似矩阵和相异矩阵。部分代码如下:

这种算法思路简单,但实现起来用到了三重循环来计算共词频次,算法时间复杂度和空间复杂度大,运行时效率比较低。

3.2.2 利用SQL聚合函数计算

SQL语言的count()函数返回的是数据表中匹配指定条件的行数,将题录中的关键词切分存储到数据库的表中,然后以两两组合的关键词作为匹配条件,根据文献编号分组,使用SQL语句进行count()计算,如果返回值等于2即表示这两个词在同一篇文献中出现,查询数据集的记录总数即为共现的文献篇数,亦即共词频次,部分代码如下:

4 应用举例

文章以“图书馆联盟”为主题词在CNKI全库进行检索,共有检索文献964篇,去掉非相关的通讯报道等文献,得到826篇论文。对关键词进行切分处理后得到3091个关键词,统计之后的高频关键词如表1所示。

在高频关键词表的基础上,按步骤依次计算共词矩阵、相似矩阵与相异矩阵,然后进行统计分析。共词矩阵如表2所示(限于篇幅,只显示部分):

5 结束语

共词分析作为文献计量分析的新的工具,由于具有众多的优越性,使用得越来越广泛。迄今为止, 基于关键词的共词分析在学科前沿热点、学科发展、学科研究范式等问题上的研究上已经形成了较为固定的研究方法和套路。但已有的共词分析软件大都操作不便,比较难以理解和掌握,为此,文章设计开发了一个简单高效的共词分析工具,操作时只需从文献数据库中下载相关主题的文献,导入题录之后就可以自动实现关键词的统计、共词矩阵计算分析功能,不足之处在于能提供分析的方法有限,有待于进一步完善。

参考文献

[1]张勤,徐绪松.定性定量结合的分析方法-共词分析法[J].技术经济,2010,29(6):20-24.

[2]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,3

2(162):88-92.

[3]魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404+1434.

摘 要:基于关键词的共词分析自提出以来,在学科前沿热点、学科发展、学科研究范式等研究中得到了越来越广泛的应用,文章研究了目前的常用共词分析的过程与步骤,比较了已使用的共词矩阵算法,设计开发了一个简洁高效、自动化程度比较高的共词分析工具软件,并以实例作为说明。

关键词:共词分析;共词矩阵;算法

1 概述

共词分析是法国文献计量学家于20世纪70年代提出来的一种文献内容分析方法,1986年法国国家科学研究中心的Callon M和Law J等人出版了第一部关于共词分析法的学术专著,经过几十年的发展,已经被广泛应用到许多领域,产生了大量的研究成果。其思想来源于文献计量学的引文耦合与共被引概念,当两篇文献同时被其他文献引用时,表明它们所研究的主题在理论或方法上是相关的。两篇文献共被引的次数越多,它们的关系就越密切。同理,当有两个专业术语在某学科领域的同一篇文献中同时出现,表明这两个词之间存在一定的关系,同时出现的次数越多,表明它们的关系越密切[1]。

共词分析法主要是对一组主题词或关键词两两统计其在每一篇文献中出现的次数,以此为基础构造共词矩阵,通过对共词矩阵变换为相似矩阵与相异矩阵,然后进行多元统计分析, 把众多分析对象之间错综复杂的关系以数值、图形直观地表示出来,揭示出这些词之间的亲疏关系,进而分析它们所代表的学科和主题的变化与趋势。

2 共词分析的过程与步骤

运用共词分析法进行研究大致可分为几个步骤进行,在具体的操作中可根据实际研究主题选择合适的分析方法。

2.1 确定研究主题与文献选取

利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域学科的发展过程与趋势,以及领域学科之间的关系等等。确定好研究主题之后即可在数据库中检索相应的文献,去除重复文献、非相关文献后筛选合适的文献作为处理对象。

2.2 高频词的选取

在分析文献的相关性时,统计分析的过程中如果使用两个完全不相关的词汇进行处理,对统计分析的结果将产生很大干扰,因此,被分析的词汇最好是受控词、被统一标引的主题词,只有这样,利用文献中词语对的共现频次来反映研究主题内在联系的方法才能成立[2],因此在研究中通常使用检索的主题词或文献的关键词作为分析对象。将所有主题词或关键词按出现频率的高低顺序排列,选取其中出现频率较高的词汇作为分析对象。确定高频词的方法有两种:一种是结合研究者的经验在选词个数和词频高度上予以平衡;另一种是结合齐普夫第二定律关于低频词分布规律理论来判定高频词的界限[3]。

2.3 构造共词矩阵

为反映高频词之间的关系,需要将其两两组对,统计每对高频词在同一篇文献中出现的次数,如果两个主题词(关键词)在众多的文献中出现频率高,则说明它们之间的关系密切。如果选取了N个高频词,则它们之间的关系,可以通过构造一个N*N的矩阵计算共现频次来反应。共词矩阵的计算是共词分析中的重要一步,由于统计词对出现的频次值是绝对值,难以反映词与词之间真正的相互关系,因此需要对词频进行包容化处理以反映出两者间的紧密联系的程度。目前各种共词分析文献中应用得比较多的一种方法是采用Ochiia系数将相关矩阵转化为相似矩阵和相异矩阵:

2.4 采用多元统计方法分析

在计算共词矩阵的基础上,采用不同的统计学分析方法,揭示共词中的信息,常用的分析方法有: 因子分析、聚类分析法、关联规则分析、多维尺度分析等方法。目前已有学者将新近出现的突发词监测法引入共词分析中开展文献学评价研究。

2.5 阐述共词分析的结果

共词分析过程是使用统计学以及数据挖掘等方法反映研究主题间的关系,要深入揭示隐含在文献中的知识,必须结合相关学科的知识对统计的结果进行科学分析与合理阐述。

3 共词分析工具软件的设计开发

构造共词矩阵并计算共词频次是共词分析的重要环节,在处理的文献数量很大时,通过手工统计众多主题词或关键词,计算共词矩阵是不现实的。通常可以采用spss、ucinet等软件进行构建作者和关键词矩阵以分析文献数据,但这些软件比较难以理解和掌握。也有学者通过Microsoft公司的办公软件Excel来进行共词分析,但前期的题录导入、关键词切分与统计等工作还需手工完成,工作量巨大。相比较而言,自主地设计开发一款自动完成文献题录导入、关键词切分与统计、构建共词矩阵、计算共词频次等功能的软件,在实际的科研工作中,可以起到事半功倍的效果。

3.1 系统功能模块

文本预处理:将下载的文献规范化处理,去除文本中不必要的空行、特殊字符等,为导入题录做好数据准备。

文献题录导入:从文献库中检索下载题录信息之后再导入数据库,由于CNKI、维普、万方、中国生物医学数据库等不同的文献库的题录格式不同,处理时需根据实际需要再做变更。

关键词切分:文献篇名、作者、关键词等题录信息导入之后,可以分别处理。在做共词分析时,主要是对关键词做统计分析,而关键词在文献中大都用中英文的逗号或分号间隔开来,统计之前需做切分处理。

共词矩阵构建与计算:选定高频关键词之后,需要进行共词矩阵的构建与频次计算。其实现方法的讨论在下节中再详细讨论。

多元统计方法分析:可以根据需要添加因子分析、聚类分析、关联规则分析等功能,此功能模块属于扩展功能。

3.2 共词矩阵计算方法比较

共词频次的计算方法很多,在实践中用到了两种算法,试比较如下:

3.2.1 依据定义机械对比

根据定义,共词的频次是两两组合的高频主题词或关键词在每一篇文献中出现的频次,依次设计的算法比较简单,假设文献总数是max_source_id,高频关键词总数是max_gaopin,定义两个高频关键词数组key_row(max_gaopin)、key_col(max_gaopin)一个存储共词词频的二维数组Gongci(max_gaopin, max_gaopin),然后判断两两组合的关键词是否同时出现在同一篇文献中,最后累计得到共词词频,并此基础上再用Ochiia系数计算出相似矩阵和相异矩阵。部分代码如下:

这种算法思路简单,但实现起来用到了三重循环来计算共词频次,算法时间复杂度和空间复杂度大,运行时效率比较低。

3.2.2 利用SQL聚合函数计算

SQL语言的count()函数返回的是数据表中匹配指定条件的行数,将题录中的关键词切分存储到数据库的表中,然后以两两组合的关键词作为匹配条件,根据文献编号分组,使用SQL语句进行count()计算,如果返回值等于2即表示这两个词在同一篇文献中出现,查询数据集的记录总数即为共现的文献篇数,亦即共词频次,部分代码如下:

4 应用举例

文章以“图书馆联盟”为主题词在CNKI全库进行检索,共有检索文献964篇,去掉非相关的通讯报道等文献,得到826篇论文。对关键词进行切分处理后得到3091个关键词,统计之后的高频关键词如表1所示。

在高频关键词表的基础上,按步骤依次计算共词矩阵、相似矩阵与相异矩阵,然后进行统计分析。共词矩阵如表2所示(限于篇幅,只显示部分):

5 结束语

共词分析作为文献计量分析的新的工具,由于具有众多的优越性,使用得越来越广泛。迄今为止, 基于关键词的共词分析在学科前沿热点、学科发展、学科研究范式等问题上的研究上已经形成了较为固定的研究方法和套路。但已有的共词分析软件大都操作不便,比较难以理解和掌握,为此,文章设计开发了一个简单高效的共词分析工具,操作时只需从文献数据库中下载相关主题的文献,导入题录之后就可以自动实现关键词的统计、共词矩阵计算分析功能,不足之处在于能提供分析的方法有限,有待于进一步完善。

参考文献

[1]张勤,徐绪松.定性定量结合的分析方法-共词分析法[J].技术经济,2010,29(6):20-24.

[2]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,3

2(162):88-92.

[3]魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404+1434.

摘 要:基于关键词的共词分析自提出以来,在学科前沿热点、学科发展、学科研究范式等研究中得到了越来越广泛的应用,文章研究了目前的常用共词分析的过程与步骤,比较了已使用的共词矩阵算法,设计开发了一个简洁高效、自动化程度比较高的共词分析工具软件,并以实例作为说明。

关键词:共词分析;共词矩阵;算法

1 概述

共词分析是法国文献计量学家于20世纪70年代提出来的一种文献内容分析方法,1986年法国国家科学研究中心的Callon M和Law J等人出版了第一部关于共词分析法的学术专著,经过几十年的发展,已经被广泛应用到许多领域,产生了大量的研究成果。其思想来源于文献计量学的引文耦合与共被引概念,当两篇文献同时被其他文献引用时,表明它们所研究的主题在理论或方法上是相关的。两篇文献共被引的次数越多,它们的关系就越密切。同理,当有两个专业术语在某学科领域的同一篇文献中同时出现,表明这两个词之间存在一定的关系,同时出现的次数越多,表明它们的关系越密切[1]。

共词分析法主要是对一组主题词或关键词两两统计其在每一篇文献中出现的次数,以此为基础构造共词矩阵,通过对共词矩阵变换为相似矩阵与相异矩阵,然后进行多元统计分析, 把众多分析对象之间错综复杂的关系以数值、图形直观地表示出来,揭示出这些词之间的亲疏关系,进而分析它们所代表的学科和主题的变化与趋势。

2 共词分析的过程与步骤

运用共词分析法进行研究大致可分为几个步骤进行,在具体的操作中可根据实际研究主题选择合适的分析方法。

2.1 确定研究主题与文献选取

利用共词分析法基本原理可以概述研究领域的研究热点,横向和纵向分析领域学科的发展过程与趋势,以及领域学科之间的关系等等。确定好研究主题之后即可在数据库中检索相应的文献,去除重复文献、非相关文献后筛选合适的文献作为处理对象。

2.2 高频词的选取

在分析文献的相关性时,统计分析的过程中如果使用两个完全不相关的词汇进行处理,对统计分析的结果将产生很大干扰,因此,被分析的词汇最好是受控词、被统一标引的主题词,只有这样,利用文献中词语对的共现频次来反映研究主题内在联系的方法才能成立[2],因此在研究中通常使用检索的主题词或文献的关键词作为分析对象。将所有主题词或关键词按出现频率的高低顺序排列,选取其中出现频率较高的词汇作为分析对象。确定高频词的方法有两种:一种是结合研究者的经验在选词个数和词频高度上予以平衡;另一种是结合齐普夫第二定律关于低频词分布规律理论来判定高频词的界限[3]。

2.3 构造共词矩阵

为反映高频词之间的关系,需要将其两两组对,统计每对高频词在同一篇文献中出现的次数,如果两个主题词(关键词)在众多的文献中出现频率高,则说明它们之间的关系密切。如果选取了N个高频词,则它们之间的关系,可以通过构造一个N*N的矩阵计算共现频次来反应。共词矩阵的计算是共词分析中的重要一步,由于统计词对出现的频次值是绝对值,难以反映词与词之间真正的相互关系,因此需要对词频进行包容化处理以反映出两者间的紧密联系的程度。目前各种共词分析文献中应用得比较多的一种方法是采用Ochiia系数将相关矩阵转化为相似矩阵和相异矩阵:

2.4 采用多元统计方法分析

在计算共词矩阵的基础上,采用不同的统计学分析方法,揭示共词中的信息,常用的分析方法有: 因子分析、聚类分析法、关联规则分析、多维尺度分析等方法。目前已有学者将新近出现的突发词监测法引入共词分析中开展文献学评价研究。

2.5 阐述共词分析的结果

共词分析过程是使用统计学以及数据挖掘等方法反映研究主题间的关系,要深入揭示隐含在文献中的知识,必须结合相关学科的知识对统计的结果进行科学分析与合理阐述。

3 共词分析工具软件的设计开发

构造共词矩阵并计算共词频次是共词分析的重要环节,在处理的文献数量很大时,通过手工统计众多主题词或关键词,计算共词矩阵是不现实的。通常可以采用spss、ucinet等软件进行构建作者和关键词矩阵以分析文献数据,但这些软件比较难以理解和掌握。也有学者通过Microsoft公司的办公软件Excel来进行共词分析,但前期的题录导入、关键词切分与统计等工作还需手工完成,工作量巨大。相比较而言,自主地设计开发一款自动完成文献题录导入、关键词切分与统计、构建共词矩阵、计算共词频次等功能的软件,在实际的科研工作中,可以起到事半功倍的效果。

3.1 系统功能模块

文本预处理:将下载的文献规范化处理,去除文本中不必要的空行、特殊字符等,为导入题录做好数据准备。

文献题录导入:从文献库中检索下载题录信息之后再导入数据库,由于CNKI、维普、万方、中国生物医学数据库等不同的文献库的题录格式不同,处理时需根据实际需要再做变更。

关键词切分:文献篇名、作者、关键词等题录信息导入之后,可以分别处理。在做共词分析时,主要是对关键词做统计分析,而关键词在文献中大都用中英文的逗号或分号间隔开来,统计之前需做切分处理。

共词矩阵构建与计算:选定高频关键词之后,需要进行共词矩阵的构建与频次计算。其实现方法的讨论在下节中再详细讨论。

多元统计方法分析:可以根据需要添加因子分析、聚类分析、关联规则分析等功能,此功能模块属于扩展功能。

3.2 共词矩阵计算方法比较

共词频次的计算方法很多,在实践中用到了两种算法,试比较如下:

3.2.1 依据定义机械对比

根据定义,共词的频次是两两组合的高频主题词或关键词在每一篇文献中出现的频次,依次设计的算法比较简单,假设文献总数是max_source_id,高频关键词总数是max_gaopin,定义两个高频关键词数组key_row(max_gaopin)、key_col(max_gaopin)一个存储共词词频的二维数组Gongci(max_gaopin, max_gaopin),然后判断两两组合的关键词是否同时出现在同一篇文献中,最后累计得到共词词频,并此基础上再用Ochiia系数计算出相似矩阵和相异矩阵。部分代码如下:

这种算法思路简单,但实现起来用到了三重循环来计算共词频次,算法时间复杂度和空间复杂度大,运行时效率比较低。

3.2.2 利用SQL聚合函数计算

SQL语言的count()函数返回的是数据表中匹配指定条件的行数,将题录中的关键词切分存储到数据库的表中,然后以两两组合的关键词作为匹配条件,根据文献编号分组,使用SQL语句进行count()计算,如果返回值等于2即表示这两个词在同一篇文献中出现,查询数据集的记录总数即为共现的文献篇数,亦即共词频次,部分代码如下:

4 应用举例

文章以“图书馆联盟”为主题词在CNKI全库进行检索,共有检索文献964篇,去掉非相关的通讯报道等文献,得到826篇论文。对关键词进行切分处理后得到3091个关键词,统计之后的高频关键词如表1所示。

在高频关键词表的基础上,按步骤依次计算共词矩阵、相似矩阵与相异矩阵,然后进行统计分析。共词矩阵如表2所示(限于篇幅,只显示部分):

5 结束语

共词分析作为文献计量分析的新的工具,由于具有众多的优越性,使用得越来越广泛。迄今为止, 基于关键词的共词分析在学科前沿热点、学科发展、学科研究范式等问题上的研究上已经形成了较为固定的研究方法和套路。但已有的共词分析软件大都操作不便,比较难以理解和掌握,为此,文章设计开发了一个简单高效的共词分析工具,操作时只需从文献数据库中下载相关主题的文献,导入题录之后就可以自动实现关键词的统计、共词矩阵计算分析功能,不足之处在于能提供分析的方法有限,有待于进一步完善。

参考文献

[1]张勤,徐绪松.定性定量结合的分析方法-共词分析法[J].技术经济,2010,29(6):20-24.

[2]冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,3

2(162):88-92.

[3]魏瑞斌.基于关键词的情报学研究主题分析[J].情报科学,2006,24(9):1400-1404+1434.

猜你喜欢

共词分析算法
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
算法初步两点追踪
基于增强随机搜索的OECI-ELM算法
基于德温特数据库的关键共性技术分析
国内图书馆嵌入式服务研究主题分析
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
一种改进的整周模糊度去相关算法