基于Kleinberg 算法的楚辞文献突发信息监测研究
2015-03-16周澍绮
周澍绮
摘要:文献计量学中的突发词监测算法广泛应用于领域热点的监测分析。该文以先秦楚辞为主题,使用Kleinberg突发监测算法对学术数据库中2004年至2012年的楚辞文献数据进行计算分析。在获得楚辞研究领域中各主题的突发权重的基础上,利用信息聚类技术得到楚辞研究热点在不同阶段的突发趋势。这不仅是突发词监测算法在人文社科领域的一次尝试,也为传统楚辞研究提供一种新的研究思路。
关键词:楚辞;突发词监测;Kleinberg算法
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)04-0086-05
随着数字信息的广泛应用,以学术数据库为基础的文献也逐年递增。利用信息管理方法对已有文献进行热门主题分析已经成为文献管理和数据挖掘的重要研究分支之一。
文献信息挖掘最重要的方式就是通过文献元数据信息进行统计分析,而对关键词的研究是文献计量学[1]的一个重要切入点。利用关键词进行统计和分类,是研究文献主题以及知识挖掘的一个重要方法。突发词监测是指对短期内单个词在领域内的增长势头研究,进而发现学术领域中局部热点的变化。将关键词的突发性作为主要指标,通过自动机分析调整突发权重在不同领域内的同步率成为国内外进行研究的主流方法,如Ketan对核糖核酸,Cell Line等关键词的突发性分析[2],Chen.C利用Citesapce对突发词的研究[3],崔雷利用共词突发性研究医学热点[4]等。
突发词监测算法在自然科学领域,尤其是在医学领域应用广泛,在社科领域特别在传统文学领域的应用仍处于起步阶段。现以楚辞文献为例,将突发词监测的研究方法,用来研究楚辞文献中的关键词及其突发性,为楚辞研究提供计量分析的依据。
1 Kleinberg监测算法
突发词监测算法是研究增长势头不断加强的词,这些词在揭示领域热点发展趋势方面更具有及时性。基于单个词的词频增长率变化更有可能涉及领域局部热点的变化,这样细微变化不一定会引起全域研究者的注意,但又是领域发展中不可缺少的部分。虽然它还未达到词频阈值的要求,但是未来的发展势头好,这些词可能低频,但却具有情报意义。
Kleinberg突发词算法[5]是Kleinberg于2002年提出的话题突发监测(Burst Detection)算法。Kleinberg认为话题的文献数量不是平滑增长,而是在不同水平之间跃迁。Kleinberg基于自动机对不同时间段上词出现的频次进行建模。词突发时,自动机处于高频状态。给定文献集合,确定状态的个数、状态差异的大小,以及状态改变的成本,利用Viterbi动态建模法对状态改变的概率模型求最优解,便可得出自动机状态变化的最优时序序列。
权重即关键词由非突发状态跃迁到突发状态的成本。就一般情况而言,突发词权重数值越大,表明其在一个时期内突发的可信度就越高,以此来显示领域研究的热点。
2 楚辞文献的数据准备
2.1 主题词选择
突发主题词的选择以《汉语主题词表》①为基础,结合楚辞领域权威著作的《楚辞字典》②。这样不仅覆盖了文学研究常用汉语主题词,还也满足在专业领域方面的要求。使文献摘要中的关键词都能得到相应权重。在除去重复和不符合研究规范的无效词后,最终确定473个基词。
2.2楚辞文献来源
为确保数据的权威和有效性,这里选取的数据库有CNKI和万方数据库;检索范围主题(标题,摘要或者关键词)中包含楚辞的所有文档,根据突发词算法的要求,挑选其2004-2012年的文献作为主要研究对象,根据其提供摘要格式逐条下载,保存题录信息,其中包括:文献题目,作者,作者单位,关键词,发表时间,刊名。突发监测的默认研究文献,目标限定在标题、关键词、摘要中涉及的楚辞精神和楚文化的文献,并确认文章题录信息有效。
2.3 数据预处理方法
为确保突发词权重的准确可信,在实际测试前,对数据进行整理清洗,主要包括:剔除不相关的论文,删去重复的论文,优化关键词结构等,具体如下:
1) 去重:一方面是篇目去重。由于很多论文在不同的刊物发表,即一稿多投,所以在搜索结果中同一篇文章会出现多次;有时,会出现部分不涉及楚辞领域研究的会议论文或讲话稿,这些主题词及其内容的重复会干扰突发词的权重,需要筛查清除无关论文;另一方面是主题去重,根据本文选用的《汉语主题词表》与《楚辞词典》为标准,对题要中的表达同义词,异体字进行归并。
3.3 突发词监测结果分析
根据对楚辞主题词的突发权重计算,第一组词在2004年权重最大,相关主题词显示这一时期楚辞的研究主要集中在楚辞中爱国主义思想的继承与表达,同时突发的关键词是审美和文献。我们进行主题还原,2004年前后,相关学者连续发表关于文献,楚辞中爱国主义主题的文章,其中以蒋俊的《宋代屈学研究》,董运庭的楚辞系列为代表,前者以南北宋之交对屈骚爱国的呼唤,后者以爱国主义为切入点探究楚文化对后世文学的影响。从聚类分析图中,我们可以看到第二组中,思想与文体学聚为一簇,后与女性相聚,数据显示2005年楚辞在文艺理论领域研究作品增多,同时伴随女性主题词,我们可以认为这一时期,楚辞中女性形象的文艺理论作品较为突出,代表作有《〈楚辞〉〈山海经〉神话比较研究》,《论歌剧〈屈原〉》中的“山鬼”形象》;《楚辞“山鬼”形象探源》。第三组突发词分析可见,先秦、神话一如意料的聚合,后与性、情、艺术分别相聚,成为一类突发关键词。从数据上显示,先秦散文类楚辞中大量运用到神话,学者由此对性、情等方向延展,以此使这一簇在2010年前后突发,其中有代表的《论杜甫思想对屈原精神的传承》《先秦言谏文学研究》等。
从上述研究结果可以发现,Kleinberg突发词监测算法在楚辞文献研究领域的成功应用,找到以文学关键词为基础的突发文献,找到不同时期楚辞领域中的研究热点。突发词监测不仅仅可以发现隐性的小规模的热点,也可以通过以权重作为衡量标准的聚类,寻找与突发词相关的低频热点词,为文学研究寻找新的切入点与研究方向。
4 结束语
通过上文对Kleinberg算法在楚辞文献研究中的运用,可以知道,突发词监测在文学研究领域可以寻找到不少隐形信息,也可以为相关研究领域提供新的研究方向。但是在使用和研究过程中,也会遇到一些问题,现将遇到的问题进行总结和展望,具体如下:
1) 主题词词典的选择。Kleinberg以主题作为突发标准,也就是主题词权重的跃迁度,前期主题词的选择是最终结果的关键。突发词监测在社科领域范围内应用,需要在今后一段时期内完善主题词字典的建设;
2) 这里对突发词小规模尝试,验证方式采用较为基础聚类比例法;可预见在未来对大规模数据进行研究分析时,比例法就显得较为被动,因此寻找一种行之高效的突发词验证是今后一个时期的工作重心;
3) 在选择主题词时没有完全的论证词与词之间的关联,如先秦与神话,性与情等词内部逻辑关系,所以会使主题在聚类的过程中簇过于集中。可预见的在后期的工作中,要将有内部逻辑关联的类词加以区分,不用做同一过程测试突发词。
利用Kleinberg对楚辞主题词突发权重进行分析研究仅仅是抛砖引玉,今后,相关算法在中国古代文学领域,乃至社科领域的研究具有一定的借鉴意义,利用相同的思路,例如突发词结合语义挖掘技术对隐性知识的发现等方面的工作还可以开展更深层次的研究。
注释:
①中国科学技术信息研究所与北京图书馆主编的大型综合性中文叙词表,分3卷10册。
② 袁梅著,收列楚辞中的全部单字、单音词及使用频率较高的词组。
参考文献:
[1] 叶鹰.文献计量法和内容分析法的理论基础及软件工具比较[J].评价与管理,2005(03):1-3.
[2] Ketan, Mane. Mapping Topics and Topic Bursts in PNAS[R].Indiana University,SLIS 10 th Street and Jordan Avenue Bloomington, IN 47405 USA:Katy Berne,2002.
[3] Chen.C. CiteSpace II:科学文献中新趋势与新动态的识别与可视化[J].情报学报,2009.(28):401-421.
[4] 王孝宁,崔雷.突发监测算法用于共词聚类分析的尝试[J].知识组织,2009,53(53):2-3.
[5] JON,KLEINBERG. Bursty and Hierarchical Structure in Streams[J].Data Mining and Knowledge Discovery,2003(7):7-15.
[6] 魏晓俊.基于科技文献中词语的科技发展监测方法研究[J].情报杂志,2007(3):2-3.
[7] 荣泰生.SPSS与研究方法[M].大连:东北财经大学出版社,2012:78-91.
[8] 谢龙汉,尚涛编.SPSS统计分析与数据挖掘[M].北京:电子工业出版社,2012:54-66.