APP下载

新兴主题探测方法及实证研究综述

2013-04-29董丽安璐

科技创新导报 2013年9期
关键词:分析方法

董丽 安璐

摘 要:新兴主题目前没有明确统一的定义,它表述为近几年来逐渐引起人们兴趣,并被越来越多的学者研究的主题领域,也可以理解为发现某一特定领域中的焦点、热点,并挖掘最新的变化趋势时主动提示的过程。文章对新兴主题的研究主要集中在两点:一是研究主题的探测方法,如分类与聚类、可视化等,二是关于特定学科的新兴主题实证分析,通过总结现有研究中的不足,指出未来研究新兴主题的研究方向。

关键词:新兴主题 分析方法 分类和聚类 前沿

中图分类号:G353 文献标识码:A 文章编号:1674-098X(2013)03(c)-00-03

从海量的科技信息中探测新兴主题是科技创新的关键任务之一,科研人员及其管理者在进行科学研究前必须要充分了解其研究领域的前沿热点,把握新兴趋势,从而提出有创新性的研究方向和主题。近年来,新兴主题吸引着越来越多的国内外科研组织及研究者讨论研究,关于新兴主题的概念解析、探测方法、分析工具等方面国内外科研组织都相继做出了卓越贡献,但总的说来研究相对孤立和分散,分析总结新兴主题研究成果还不够成熟和完善,因此,对于新兴主题的探测研究和实证分析已是十分迫切与必要。

随着信息时代的发展,2002年Naohiro等人在海量的数据中发掘出新出现的主题,提出新兴主题(Emerging Topics)的概念[1],是指在某个当前正在研究的特定科学领域中,研究者发现新的一组由多个关键词或词组来表示的一组主题领域簇,代表著科学研究中极具发展潜力的研究方向或趋势。A.Kontostathis等学者在2003年提出新兴研究趋势(Emerging Trend):随着时间推移逐渐引起人们兴趣、并被越来越多的学者讨论的主题领域,也可以理解为发现某一特定领域中的焦点、热点,并挖掘最新的变化趋势时主动提示的过程。新兴研究趋势是目前文献挖掘中一个新兴的研究方向,它能够揭示某个特定领域在一定时间内显示出来的研究方向的变化情况。深入挖掘文献集合中包含的时间相关信息具有重要的意义,借助计算机技术去主动探测emerging trend[2]可以提高科研人员和情报人员对科学研究动态及时把握和处理的能力,提示他们注意某些外部事件或者新兴的技术对研究领域的影响,帮助他们快速的探询研究方向的进展情况,有利于其确定或修改研究计划。

Le Minh Hoang[3]引用了Kontostathis对新兴研究趋势的定义,对新兴研究趋势的判断过程分为Topic Representation(主题描述)、Topic Identification(主题界定)、Topic Verfication(主题判断)三个部分,并加入了对关注主体(研究人员、研究机构、文献来源等)的专业性的考虑。他赋予每个主题6个属性值,根据这6个属性值来确定每个主题的受注意程度以及有用性,其中属性值1、3、5、6的平均值衡量受注意程度,属性值2、4、5、6的平均值衡量有用性。属性值依据文献计量学的统计结果和挖掘法计算得出。主题根据受注意程度和有用性属性值可分为:受注意程度和有用性的属性值均大于0为新兴主题;受注意程度大于0 而有用性小于等于0则为潜在的新兴研究趋势(Potentially Emerging Trends);受注意程度和有用性的衡量值均小于等于0 为陈旧的趋势(Obsolete Trends);受注意程度小于等于0而有用性大于0则为不显著但对研究有用的趋势(Creative Trends)。普赖斯认为一个研究前沿大概由40~50篇最近发表的文章组成[4]。

国内研究者对新兴主题概念的理解与国外观点基本一致。杨良选等人认为研究前沿(research fronts,RF),又称科学研究前沿,是指某一时点上某一焦点领域和出现的具有发展潜力的研究方向,研究趋势,是科学演讲中最先进的、最有发展潜力的、最新的研究主题。侯海燕也用研究前沿进行了概况,他根据引文献聚类[5]将其定义为一组突现的动态概念和潜在的研究问题,知识基础(intellecture base)是它在科学文献中(即由引用研究前沿术语的科学文献所形成的演化网络)的引文和共引轨迹[6]。

1 特定学科新兴主题的实证研究综述

对新兴主题的研究主要集中在两点:一是研究主题的分析方法,如分类与聚类、可视化等,二是关于特定学科的新兴主题实证分析。

国外许多研究机构在新兴主题研究的分析上提出多种方法和原型系统,许多研究机构在新兴研究趋势探测方面提出了多种方法和相关的原型系统,从自动化角度分有需要专家或用户介入的半自动化系统、也有基于机器学习方法的全自动化系统。

国内殷蜀梅[7]认为新兴研究趋势探测的主要指标有:文献中术语出现的频率统计、与主题相关的关键词的共同出现频率统计,还认为新兴研究趋势技术的实现与信息抽取和命名实体识别技术息息相关。殷素梅在2008年的《判断新兴研究趋势的技术方法分析》中通过分析海外相关机构开发的新兴研究趋势探测系统,分析它们的实现特点和设计思路,认为在具体的评价方法上应采取多个评价指标综合判断。

该文从采用的技术方法角度,分为文献计量学法、机器学习法和共引聚类网络分析法对新兴主题进行研究。

1.1 文献计量学法

文献计量学法是对科研论文进行统计、对科学研究量化的重要方法之一,它通过对学科的文献数量进行计算分析科研追溯某一学科科研的研究情况及其动向,同时通过对科研发展过程的需求关系、内部结构的变更情况等潜在的动态趋势进行定量分析、评价和预测,可以有效帮助科研人员了解目前该学科的研究前沿和发展趋势。

它是一个简单实用的方法,可直接应用系统将统计指标以时间序列用图形表现出来,如ThemeRiver[8]、TOA(Technol2ogy Opportunities Analysis)[9]。分为单纯采用文献计量学指标法、杂志数据库和网络资源综合指标法。它所采用的指标有:关键词的用词频率统计、关键词的共现用词频率统计、文献的国家统计、文献的机构统计等,其中关键词用词频率统计几乎是所有系统均采用的一个指标。该方法的系统并没有总结出新兴主题或指出某一领域的研究趋势,而是根据时间序列,通过图形表现指标的变化趋势,由使用者总结出新兴主题或其他,如TOA系统将关键词用词频率(这个是使用者确定的)、文献的国家、文献的机构等按年份(如2001年-2012年)进行排列,以直方图、对数图、Fisher-Pry曲线图以及地域研究图谱来表明这些指标的变化趋势;Theme River系统仍以时间为序列,将文献库中某时间段的关于某一主题数量多少作为该主题的浓淡度,在图形上表现出来是一条着墨不均的曲线,再把多个主题标识到一个图形上,可以对比出任一时间点上主题的新兴程度;美国LEHIGH大学计算机科学与工程学院开发的CIMEL项目属于综合网络资源和科学文献数据库辅助人工判断,用户列出主要的新兴主题,然后通过数据库检索或GOOGLE、BAIDU搜索这些新兴主题,搜索出的文献由用户删选成文献集后输入系统,系统计算文献集每年相关文献数量、文献机构、文献国别等,并进行图表化

展示。

除此之外,国内学者还采用内容分析法、引文分析法等对文献内容进行系统的定量分析方法,对大量的文献进行标注,通过特征识别研究文献中隐含的深层信息。国内学者陈悦利用多维尺度等方法绘制了中国管理科学作者的合作情况知识图谱[10]。

1.2 机器学习法

计算机训练学习如分层分布式动态索引文献挖掘算法(HDDI),计算机自动抽取信息进行文献选择和挖掘,探测新兴主题,掌握对新兴主题的判断。计算机首先对文献做处理,按规则表达式抽取复杂名词短语,然后设置0、1可变阈值,对复杂名词短语(新兴主题)归类。该方法认为一个新兴主题应该具有两个特点:概念更加丰富;被引用次数增多,与之相关的概念增加[11]。

机器学习法通过阈值使机器可自动归纳新兴主题,机器学习法对文献不是一视同仁,而是考虑了各个文献指标在主题研究趋势判断中占有的权重,通过对阈值的调整来修正输出的结果。但是应用该方法在最终效果评价上并不很好,精度和召回率都不算高,而且机器学习法选用的文献计量指标至选择了词频和共词,而且将概念包含的主题作为其中一个衡量指标,这样虽然在信息抽取上获得的精度和召回率都比较好,但在新兴主题判定上得到的效果并不理想。

1.3 共引聚类网络分析法

共引聚类网络分析方法是由Small提出的,指两篇文献通过另外一篇或者多篇文献建立联系。他认为研究文献的主题,研究的是文献之间的引用与被引用的关系,文献的引用能反映主题之间的关系,可以反映出文献之间的联系程度和结构关系,引用的文献主题是被引用文献主题的发展、改进。Morris[12]在《研究前沿的时间线可视模型》、 Boyack[13]在《资金支持数量的影响和引用研究文章数量的可视化》和 White[14]在《探索网络和笔者共被引研究》均对可视化做出努力。共引聚类网络分析中,以Citespace系列软件最为常用。该软件分析某一学科的新兴主题的变化,以及研究新兴主题的关系,利用共被引聚类,分析不同新兴主题之间的内部联系,最后通过可视化,使用户能直接分辨新兴主题的变化路径。具体流程为:取一时间段(如2001-2012年),以特定關键词检索数据库,得到文献集合。计算集合中每个文献被引用的次数,以一定阈值挑选文献,缩小文献集,然后再对文献集聚集,形成文献簇。Chen在2006年发表《CiteSpace II:科学文献中新趋势与新动的识别与可视化》[15],进一步完善了可视化软件。Small等发表《跟踪和预测科学增长领域》提出共被引聚类,并预测术语[16]。

国内韩涛提出采用共词、共引等方法对数据库聚类。通过对共被引分析中主题簇聚集程度的强弱和主题簇间关系由特定阈值的共词或共引关联强弱来确定,通过不同阈值层聚类结构之间差异性的自动进行检测分析、系统自动发现宏观结构性的潜在结构,系统反应科学领域的主题分布结构。该研究揭示了同被引分析中隐藏在低阈值层中有重要意义的潜在簇[17]。2008年王翼等利用John Hopcroft[18]对中国生命科学中一百五十万论文杂志聚类,找到我国医学研究前沿[19]。章成志、梁勇等人采用主题聚类方法,从主题角度对包括时间信息的学科学术论文集进行主题分析与主题聚类,通过全面分析后归纳出某一特定学科的研究热点和这些热点的发展趋势。实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善。通过对学科领域的文献信息可视化使研究者能够直观的辨识出学科前沿的演化路径及学科领域的经典基础文献[20]。

荷兰阿姆斯特丹大学的Loet Leydesdorff选取期刊数据库中文献的引文,利用多元统计分析方法,通过Pajek等软件绘制了期刊之间的引文网络图谱,反映出各学科之间的关系。

共引聚类网络分析法能精选文献并研究文献间的关系,自行推测新兴主题,但文献的引用次数与文献发表的时长有关。总体而言,新发表的文献被引用次数低。

2 特定学科的新兴主题实证研究

特定学科的前沿问题、发展趋势之类文献众多,大部分是对可视化的运用。如许振亮[21]等在《基于知识图谱的国际生物科学与工程前沿计量研究》中,运用可视化技术,展示国际生物科学与工程技术领域存在以“基因工程、蛋白质工程、酶工程”、“基因组学、蛋白质组学”与“细胞工程、组织工程”为内涵的三个主流知识群,绘制出国际生物科学与工程技术前沿领域的知识图谱。

2008年,赖茂生[22-24]采用调查问卷、论文分析、研究项目统计分析三者结合,定量总结出情报学的前沿领域。

刘菁在《基于科学知识图谱的国内移动学习演进与前沿热点分析》中,根据《中文核心期刊要目总览》(2008 年版)和的CSSCI数据库中1998-2009年所有“移动学习”文献,通过定量分析和定性分析相结合的方法,应用CiteSpace软件进行数据问题,绘制了共现网络,对国内移动学习的变化趋势和研究热点进行了可视化分析[25]。

我国的刘则渊、侯剑华等许多专家学者把CitesSpace Ⅱ 信息可视化技术应用到科技期刊文献信息可视化分析当中,充分展示了该项技术在科学知识可视化研究中特色及其强大的功能。

王伟[26]在《国际信息计量学研究前沿与热点分析》中对ISSI、COLLNET/WIS和S&TI国际会议主题选择分析,得出国际信息计量学研究关注的前沿领域和研究热点,指出其发展趋势。

李雅在《知识图谱方法科学前沿进展实证分析—以动物肠道纤维素酶基因工程研究为例》中,以Web of Science为数据库,通过多元统计中聚类分析与多维尺度分析(MDS)图谱相互验证的方法,把相关的关键词聚为关键词集,根据关键词集反映动物肠道纤维素酶基因工程的研究趋势及关键词的相关性[27]。

马费成和张勤利用词频分析的方法,根据知网中世界知識管理类论文和杂志的关键词,找出知识管理的新兴主题[28]。

赵蓉英在《网络计量学研究热点与前沿的知识图谱分析》中,以ISI WEB OF KNOWLEDGE为数据库,以网络计量学为主题,利用CITESPACE软件进行图谱分析,通过检测主题变化来确定网络计量学的研究热点和发展趋势。文中选择的文献信息为作者、题目、摘要和文献引文,选择阙值为1997年至2009年,根据文献法得出文献的时间、机构和地域分布图。除此之外,还继续使用CITESPACE软件对数据进行了分析,得出网络计量学的新兴主题:网络站点、社会网络、链接分析等[29]。

陈立新等在《力学各分支学科研究前沿和发展趋势的可视化分析》中,以《流体力学》、《固体力学》、《计算力学和振动》等力学领域的14种国际代表性期刊为研究对象,通过CITESPACE软件对引文数据和主题词数据的分析和处理,生成共被引文献网络和施引文献主题词共词网络组成的共被引与共词的混合网络图。以知识图谱的方式展示了力学各分支学科的重要被引文献、主要学术人物以及由施引文献主题词所表达的力学重要研究领域,揭示了流体力学主流研究、固体力学主流研究和计算力学主流研究等的演化过程、研究热点和前沿发展趋势[30]。

3 研究存在的问题及趋势展望

从上述国内外研究的现状我们可以看出,新兴主题目前没有明确统一的定义,目前国内外学者对新兴主题的研究主要集中在探测方法和特定学科的实证分析。从理论上看,国内对新兴主题的研究还相当缺乏,可参考的文献主要是对国外探测方法进行介绍和分析。在研究方法上,国内学者多局限于理论层面的分析而没有将理论分析与实证研究结合起来进行综合考察,真正有理论根据的定性研究和规范的实证研究为数甚少。目前采用的TOA系统、Theme River系统、CIMEL系统等虽以图形展现各项指标,使得指标的变化趋势更加直观,能省去科研者的大量时间,使他们能够迅速把握可以发展趋势,确定研究前沿,但均不能自行判断指标的变化趋势,确定新兴主题,均需通过人为加以判断及区分。总而言之,新兴主题的研究尚处于起步阶段,关于新兴主题的定量定性探测方法还需进一步的探索,建立及完善新兴主题理论体系也十分必要,最终促进开发更具实际意义的研究模型也是一个亟待研究的问题。

参考文献

[1] Matsumur Naohiro Matsumura,Yutaka Matsuo,Yukio Ohsawa,et al.Discovering Emerg ing Topicsfrom WWW[J].Journal of Contingencies and Crisis Management,2002

(2).

[2] Mawhinney T C.Total Ouality Management andOrganizational Behavior Management:An Integration forContinual Improvement[J].Journal of AppIied BehaviorAnalysis,1992,25(3):524-543.

[3] Le Minh Hoang.Emerging Trend Detection from Scientific Online Documents.http://www.jaist.ac.jp/library/thesis/ks-do ctor-2006/paper/hoangle/paper.pdf.(2007-08-01).

[4] Price D D.Networks of scientific papers[J].Science,1965(149):510-515.

[5] Staw B M,SandeIands L E,Dutton J E.Threat-Rigidity Effects in OrganizationaI Behavior:A MuItiIeveI AnaIysis[J].Administrative Science OuarterIy,1981,26:501-524.

[6] 侯海燕.科学计量学知识图谱[M].大连.大连理工大学出版社,2008.

[7] 殷蜀梅.判断新兴研究趋势的技术方法分析[J].情报科学,

2008,4.

[8] Brian Lent ,Rakesh Agrawal ,Ramakrishnan Srikant.Discovering Trends in Text Database[Z].Proceedings of KDD-97 ,1997:227-230.

[9] Soma Roy ,David Gery ,William M.Pottenger.Methologies forTrend Detection in Textual Data Mining[EB/OL].http:PPdi2macs.rutgers.edubillpPpubsPETDMethodologies.pdf,2007-08-01.

[10] Chen Yue,Liu Zeyuan.Co-authorship on ManagementScience in China[C]//10th Internationai conference of theinternationai society for scitometrics and informetrics.Stockhoim,Sweden:Karoiinska unversity press,2005.

[11] William M.Pottenger,Yong-Bin Kin,Daryl D.Meling.HDDIT M:Hierarchical Distributed Dynamic Indexing.http://www.cse.lehigh.edu/billp/pubs/HDDIFina-l Chapter.pdf,2007-08-01.

[12] Morris S A,Yen G.Timeline visualization of researc fronts[J].Journal of the American Society for Information Science and Technology,2003,55(5):413-422.

[13] Boyack W.Indicator-assisted evaluation and funding of research:Visualizing the influence of grants on the number and citation counts of research papers[J].Journal of the American Society for Information Science and Technology,2003,54(5):447-461.

[14] White D.Pathfinder networks and author cocitation analysis[J].Journal of the American Society for Information Science and Technology,2003,54(5):423-434.

[15] Garfield Historiographic mapping of knowledge domains literature[J].Journal of Information Science,2004,30(2):119-145

[16] Small H.Tracking and predicting growth areas in science[J].Scientomitrics,2006,68(3):595-610.

[17] 韓涛.知识结构演化深度分析的方法及其实现[D].中国科学院文献情报中心,2008.

[18] Cohen J,Cohen P,West S G,et aI.AppIied multiple regression/correlation analysis for the behavioral sciences[M].Mahwah,NJ:Erlbaum,2003.

[19] 章成志.基于样本加权的文本聚类算法研究[J].情报学报,2008(1).

[20] 侯剑华,陈悦.战略管理学前沿演进可视化研究[J].科学学研究,2007,25(S1):15-21.

[21] 许振亮.基于知识图谱的国际生物科学与工程前沿计量研究[J].情报学报,2009(4).

[22] 赖茂生,王琳,李宇宁.情报学前沿领域的调查与分析[J].图书情报工作,2008,52(3):6-10.

[22] 杨文欣,杜杏叶,张丽丽,等.基于文献的情报学前沿领域调查分析[J].图书情报工作,2008,52(3):11-14.

[24] 赖茂生,王琳,杨文欣.情报学前沿领域的确定与讨论[J].图书情报工作,2008,52(3):15-18.

[25] 刘菁.基于科学知识图谱的国内移动学习演进与前沿热点分析[J].中国电化教育,2012(2).

[26] 王伟.国际信息计量学研究前沿与热点分析[J].医学信息学杂志,2010(2).

[27] 李雅.知识图谱方法科学前沿进展实证分析—以动物肠道纤维素酶基因工程研究为例[J].情报学报,2012(5).

[28] 韩客松.中文全文标引的主题词标引和主题概念标引方法[J].情报学报,2011(2).

[29] 赵蓉英.网络计量学研究热点与前沿的知识图谱分析[J].情报学报,2011(4).

[30] 陈立新.力学各分支学科研究前沿和发展趋势的可视化分析[J].情报学报,2009(10).

猜你喜欢

分析方法
基于EMD的MEMS陀螺仪随机漂移分析方法
一种应用等效平面的公差分析方法
一种角接触球轴承静特性分析方法
路堤下CFG桩复合地基稳定分析方法探讨
中国设立PSSA的可行性及其分析方法
故障树分析方法在FADEC控制软件中的应用研究
基于传递矩阵法的变截面连续梁动力分析方法
TD-LTE网络覆盖的分析方法研究
重金属铜离子酶联免疫分析方法的建立
核安全设备疲劳分析方法与步骤