研究前沿探测的效标关联效度研究：基于自然语言处理*

2018-05-05周文杰

图书与情报 2018年1期

周文杰

（1.西北师范大学商学院甘肃兰州 730070）

1 研究背景

研究前沿的探测对于科学研究趋向的判别、科技政策的制定和科学研究资源的优化配置都具有重要意义。在科学学及相关学科领域，研究者应用多种技术对科学研究和技术发展的前沿展开了预测。然而，研究者针对特定科学领域所预测的前沿真的能够有效代表该领域的研究方向吗？本研究通过文献调查发现，这一重要问题迄今并未得到清晰回答。基于这一研究现状，有必要通过对共词分析所识别的研究前沿的效标关联效度进行检验，以便对研究前沿识别的有效性做出判断。之所以选择以效标关联效度作为衡量研究前沿预测有效性的标尺，是因为这种效度检验方法已经在测量领域得到了普遍应用，是检验测量有效性最成熟、效率最高的工具之一。而选择以共词分析作为科学计量领域探测研究前沿的代表性方法，则是因为相对于引文分析等传统方法，共词分析具有时效性强、直接针对主题展开分析等诸多优势，因此在科学计量领域具有更广阔的应用前景。

综上所述，结合科学计量领域对于研究前沿探测的有效性检验相对薄弱这一现状，本研究拟通过自然语言处理，以来自CNKI的学术文献题录及全文为对象，应用历时分析的方法，对基于共词分析所探测的研究前沿与通过科学计量领域常用的工具所识别的研究热点之间进行相关分析，以便对共词分析在研究前沿判别中的效标关联效度进行全面检验，从而不仅为基于共词而探测研究前沿的有效性做出评判，更为科学计量领域丰富和发展研究前沿探测的理论与技术提供可资借鉴的参照。

2 理论基础与研究回顾

2.1 效度与效标关联效度

效度（validity）是衡量测量结果有效性或正确性的基本指标。经过教育学、心理学、管理学、社会学等领域研究者的共同发展，效度检验已成为检验测量有效性的基本途径。效度检验有多种具体指标和方法，其中效标关联效度因效率高、结果稳定、操作过程简单而被广泛应用于研究有效性的测度之中。

效标关联效度是一种通过衡量一个测量得分与一些预测结果变量之间的相关性，从而对测量结果的有效性进行评判的效度检验方法。在效标关联效度检验中，结果变量被称为效标。根据测量理论，同时效度和预测效度是效标关联效度的两种主要形式。所谓同时效度，是指研究者在取得所关注的指标得分的同时也获得相应效标的测量分数的一种检验形式。所谓预测效度，是指研究者在获得测量分数之后再获取效标得分的一种检验形式。

由于本研究所关注的是基于共词分析而预测的研究前沿是否具有有效性问题，因此选用预测效度作为主要评价指标。

2.2 研究前沿预测

研究前沿预测已得到了科学学及相关领域研究者的普遍关注（如邱均平等、程赛琰等）。截至2017年9月3日，仅在CNKI收录的文献中，其主题、题名或关键词中含有 “研究前沿”的文献已达10，562篇之多。对于研究前沿的预测，不同的研究者常常使用不同的方法。许晓阳等通过文献调研后将研究前沿识别的方法总结为三类，即，基于引用关系的方法、基于文本内容的方法和基于复合关系的方法。其中，共被引、文献耦合和直接引用是基于引用关系方法的主要类型，高频、共词和文本挖掘方法是基于文本内容方法的主要类型，而上述方法的结合使用构成了复合关系分析方法。本研究将20082—2017年CNKI数据库中各种研究前沿预测方法的应用情况做一概括（见图1）。

图1 2008-2017年CNKI中关于研究前沿探测的论文使用方法

由图1可见，共词分析与引文分析、文献耦合等方法一起，是研究前沿预测中使用最普遍的方法之一。如前文所述，相对于基于引文的分析方法，共词分析因针对词和文本本身展开分析，具有更高的时效性，因此在科学计量领域关于研究前沿的探测中具有更加广泛的应用前景。可以预见，在未来研究者关于研究前沿的预测中，共词分析方法将进一步得到普及。

综上所述，虽然科学计量及相关领域应用包括共词分析在内的多种方法针对研究前沿预测已展开了大量研究，但对于所预测的研究前沿有效性的检验相对薄弱。本研究正是针对这一研究现状，基于自然语言处理，将题名、摘要、关键词和全文等四种分析单元纳入分析范畴，通过历时共词分析，对研究前沿预测的预测效度进行评价，以期为科学计量领域基于共词而展开的研究前沿预测提供可资借鉴的理论和实践参照。

3 研究设计

3.1 逻辑框架与操作性定义

在本研究中，预测效度评估的主要目标是检验基于共词而预测的研究前沿的预测效度。为实现此目标，首先需要确定一个可用于对照的效标。而确定效标的基本逻辑是：如果所识别的研究前沿具有较高的预测效度，则基于前一期语料而识别的研究前沿在后一期（或几期）语料中恰恰应该成为研究热点。因此，后一期（或几期）语料所识别的研究热点将被作为效标。这一逻辑进而可以操作化为如下研究过程：首先，将本研究拟分析的全部语料（1988-2017年，共三十年）分为三期，每期十年；其次，分别识别各期语料的研究热点；最后，由于前一期所预测的研究前沿恰恰对应着后一期（或几期）的研究热点，因此，通过将探测到的研究前沿与跨时期研究热点进行相关分析，就可以识别出研究前沿的预测效度。

3.2 数据来源

本研究选择了一个发展相对成熟，边界比较清晰的学科——动物学为分析对象，下载了1988年以来该学科发表于中文学术期刊并收录于CNKI数据库的全部文献的题名、摘要和关键词等题录信息。通过数据清洗，剔除了其中重复收录、书评等题录信息，最终获得55374条记录以备分析。进而通过随机抽样，从这些记录中随机抽取了1500篇文献（每十年500篇）以备分析。

3.3 分析步骤

第一，应用Python 3.5，对题名、摘要和全文进行了分词并识别了词性。

第二，提取上述分词结果中的高频名词，并会同关键词一起，建成高频词矩阵。在四个分析单元（题名、摘要、关键词和全文）上每十年建一个矩阵，并建成了总语料的共词矩阵。共建成历时共词矩阵12个，总矩阵4个。

第三，应用 Sci中的“爆发词探测”功能，针对各期语料进行研究前沿的探测，识别各期的前沿研究问题。

第四，应用Sci对基于各期语料而建成的共词矩阵进行中心度分析，识别各期的研究热点。

第五，比较分析所识别的研究前沿与后一期（或几期）研究热点的相似性，以此确定预测效度。

4 研究结果

4.1 逐期识别的爆发词与热点词比较

在Sci软件中，通过爆发词探测实现对研究前沿识别的功能。本研究逐期识别了“动物学”领域研究的爆发词。同时，利用Sci所计算的各种中心度指标（算法），识别了相应时期的热点词。

根据研究设计，本文将以后一期（或几期）研究热点为效标，对前一期所探测的研究前沿进行效标关联效度的检验。其基本思路是，如果所探测到的爆发词确实能够代表研究前沿，则前一期的爆发词在其后一期（或几期）会变成热点词。依据这一思路，本研究展示了三个时期Sci所探测到的爆发词和热点词（见表1）。通过对比得分处于前三位的爆发词和热点词发现，大多数爆发词并没有成为滞后一期（或几期）的热点词。由此可以得出一个初步结论，即探测到的爆发词对于研究前沿的代表性存在一定效度风险。

4.2 爆发词与热点词匹配情况分析

通过比较不同分析单元下Sci探测到的爆发词与热点词，初步识别出基于“爆发词”所探测到的研究前沿与其后各期所识别的研究热点之间存在着很大的差异。为进一步确认这种差异之于效度的影响，本研究进而对前一期所探测到的爆发词与后一期识别到的热点词进行了匹配。从理论上讲，一些研究问题之所以能够被称为前沿，是因为在过一段时期之后，这些研究问题将演变成热点。显然，如果所探测到的前沿最终在其后一段时期内都没有演变成热点研究问题，则这种前沿探测的效度就非常值得怀疑。将表1中三个时期的爆发词与热点之间的匹配情况进行对比（见表2），通过在四个分析单元上分别进行前一期探测到的前沿与后一期识别出的热点的匹配发现，在四个单元上，匹配词差别仍然很大。而且，针对1988-1997年随机抽样得到的全文样本所探测到的爆发词与1998-2007年基于随机抽样而得到的全文样本所识别的研究热点进行匹配后发现，这两组词能够完全匹配的只有6个词。

结合表1和表2综合分析可见，爆发词与热点词之间匹配的一致程度较低。在此状况下，如果以爆发词作为研究前沿的表征，以热点词作为研究热点的表征，再以后一期研究热点为前一期研究前沿的效标进行衡量，现有爆发词探测的方法确实存在很高的效度风险。

表1 基于题名逐期识别的研究前沿与研究热点（前三位）

表2 爆发词与热点之间匹配情况对比

4.3 以热点词识别的综合得分为效标的效度分析

上文已经检测出以滞后期热点词为效标时，爆发词探测所识别的前沿可能存在的效度风险。这种风险最终到底是导致了无效度还是低效度？这种效度状况是否会因为时期的改变而有所改变呢？为了回答这一系列问题，本研究进而对不同时期爆发词的权重与热点词的中心度综合得分的标准分进行了相关分析。

在 Sci中，主要使用 Authority_score_hits、Page_rank、Authority_hits和 Eigen_centrality四种算法进行研究热点的识别。为详细分析Sci的爆发词探测功能所探测到的爆发词与该软件所识别的研究热点之间的相关程度，本研究从综合指标和个体指标两个层次上计算了相关系数。

在综合指标的层次上，本研究计算了Sci用以识别研究热点的四种算法的标准分并求和，从而形成了一个热点词中心度的综合得分，并列出前一期探测到的研究前沿（即爆发词的权重得分）与滞后一期所识别的研究热点的综合得分（即四个单项指标Z分数之和）之间的相关系数（见表3）。可以看出，在四个分析单元上，1988-1997年所探测到的研究前沿与1998-2007年和2008-2017年两个时期所识别的研究热点均无统计意义上的显著相关。简言之，从综合得分的角度看，如果以近期（滞后一期）和远期（滞后二期）研究热点为效标，Sci所探测的研究前沿没有检测出效标关联效度。但从表3也可以看出，基于1998-2007年的语料探测到的研究前沿与基于2008-2017年语料所识别的研究热点均显著相关。就题名、摘要和关键词而言，由于1998-2007年语料与1988-1997年语料的区别仅仅在于前者数量更多，据此可以认为，语料数量的多少对于这三种分析单元下研究前沿探测有明显影响。然而，由于本研究的目标仅仅是对研究前沿探测的效度进行检验，对于语料数量临界值的判定，尚需在后续研究中展开。尽管语料的数量不产生明显影响，但存在明显的效度不稳定性。导致这种不稳定性产生的因素也需要后续研究的确认。另外，从综合指标来看，在语料数量充足的情况下，基于全文探测到的前沿与滞后一期的研究热点系数最高，摘要次之。据此可以认为，全文和摘要在研究前沿探测方面效率更高、效果更好。

表3 探测到的研究前沿与综合得分滞后各期识别的研究热点之间的相关系数

4.4 以热点词识别的单项指标为效标的效度分析

本研究以Sci的算法上的得分为效标，进一步检验了爆发词在研究前沿预测方面的效度（见表4）。

从表4中可以发现，与综合指标相类似，当以单项指标所识别的研究热点的中心度为效标时，呈现出语料较少时无效度而语料较多时有效度的现象。具体来说，在应用Authority_score_hits算法所获得的热点词得分为效标时，在四个分析单元上，基于1988-1997年的语料而探测到的爆发词得分与滞后一期（1998-2007年）和滞后两期（2008-2017年）的热点度得分均不存在统计意义上的相关性。进一步对基于1998-2007年的语料计算爆发词权重得分，然后与基于2008-2017年语料而计算的热点词得分进行相关分析，发现在四个分析单元上，相关系数都是显著的，而基于全文的相关系数最高，摘要和题名次之，关键词最低。上述发现与基本综合指标而得到的结论基本一致。但是，也需要注意到，基于全文而识别出的爆发词与滞后二期的热点词之间匹配度非常小，以至于无法计算出二者的相关系数。从Page_rank计算出的热点度来看，这种趋势与Authority_score_hits算法大体一致。略有不同的是，Page_rank在题名和全文两个分析单元上，滞后一期有效度。也就是说，以page_rank为研究热点识别工具时，所识别的研究热点与基于爆发词而探测到的研究前沿之间一致相对较高。Authority_hits和Eigen_centrality两种算法则表现出明显的不同：在以全文为分析单元时，无论语料数量、无论滞后几期均没有检验出显著的效标关联效度；而在另外三个分析单元上，仍然表现出效度与语料数量之间的关联性。

5 讨论

5.1 研究前沿的探测存在明显的语料数量依赖性

从上文所列出的分析结果来看，基于题名、摘要和关键词而探测到的爆发词与滞后一期和滞后两期的热点之间存在明显不同。由于除语料数量之外的其他因素都没有改变，因此，大致可以确认语料的数量对于所探测出的研究前沿产生了影响。这一现象的启示是，在对研究前沿进行探测时，首先需要足够数量的语料支撑。显然，所确定的语料数量不足，则难以确保所探测到的研究前沿的有效性；但如果语料数量过多，则会使研究前沿探测的可行性和效率大打折扣。囿于本研究的议题，用于前沿探测的语料数量临界值的确定尚需要在后续研究中完成。

5.2 不同分析单元和指标对于研究前沿探测的作用不同

由上文的分析可以看出，基于题名、摘要、关键词和全文四种不同的分析单元所探测到的研究前沿具有不同的预测效度。这对于科学计量领域的研究者所产生的启示是，研究前沿的探测需要综合运用多种指标和算法，而不能仅仅基于一种分析单元，完全依赖于Burst detection一种算法。就本研究所使用的工具和指标来看，有一些指标在某些分析单元上的预测效度高，而在其他分析单元上的预测效度低。可见，着眼于“精准”预测研究前沿，未来，科学计量领域的研究者很可能需要使用一整套基于不同单元使用不同指标的综合计算方法，以便使所探测到的研究前沿预测效度最高。

表4 探测到的研究前沿与四种算法滞后一期识别的研究热点之间的相关系数

5.3 前沿存在时效性问题

本研究以十年为期，分别识别了各期的研究前沿与热点。但是，研究前沿是一个有明显时效性的概念。以十年为一期，固然能够做出历时的分析，但对于前沿分析的时间 “粒度”仍然缺乏客观统一的标准。为此，科学计量领域的研究仍需要关注研究前沿预测的时效性问题。由于研究前沿预测的时效性不仅关乎预测的效度，也关乎预测本身的质量。因此，对于研究前沿预测的时效性进行深度解析具有相当的理论与现实意义。

6 结语

本研究基于动物学领域30年来的中文学术文献，应用自然语言处理方法，并选用了科学计量领域的一个典型工具Sci，对不同分析单元下的语料所探测的研究前沿的预测效度进行了解析，发现一下几点：首先，无论基于何种分析单元，基于爆发词进行研究前沿的预测都存在一定的效度风险；其次，相对而言，全文在研究前沿预测中的效度最高，而题名、摘要和关键词的预测效度则明显受到语料数量的影响；第三，如果以不同单项指标（算法）所识别的研究热点为效票，基于不同分析单元所探测的研究前沿的效度存在着不一致的情况。

通过上述研究步骤，本研究初步回答了预期的研究问题，但也存在一些局限。如上文所述，囿于研究选题，关于语料数量的临界值、研究前沿预测的时间粒度等问题在本研究中都尚未得到解决。对这些问题的深入解析，尚需后续更多研究的持续跟进。

参考文献：

［1］郑日昌.心理与教育测量［M］.北京：人民教育出版社，2011：93.

［2］Ying Ding.Ronald Rousseau and Dietmar Wolfram，Measuring Scholarly Impact［M］.Springer International Publishing Switzerland，2014：261.

［3］张洪秀.教育测量与评价方法［M］.长春：吉林大学出版社，2014:59.

［4］Elazar J Pedhazur，Liora Pedhazur Schmelkin.Measurement，Design，and Analysis：An Integrated Aproach［M］.Lawrence Erlbaum Association，1991：69.

［5］（美）格雷戈.施俊琦，译.心理测量：历史、原理及应用［M］.北京：机械工业出版社，2012：104.

［6］王孝玲.教育测量［M］.上海：华东师范大学出版社，2004：170.

［7］邱均平，温芳芳.近五年来图书情报学研究热点与前沿的可视化分析——基于13种高影响力外文源刊的计量研究［J］.中国图书馆学报，2011，37（2）:51-60.

［8］程赛琰，丁磊，魏淑娟.基于知识图谱分析的电子政务研究现状、热点与趋势［J］.图书与情报，2013（1）:116-123.

［9］许晓阳，郑彦宁，赵筱媛，等.研究前沿识别方法的研究进展［J］.情报理论与实践，2014，37（6）：139-144.

［10］赵蓉英，吴胜男.基于战略坐标图的我国馆藏资源研究主题分析［J］.图书与情报，2013（2）：88-92.