近五年我国中文分词研究论文计量分析
2009-01-11付英英孙济庆
付英英 孙济庆
〔摘 要〕本文依据文献计量学的原理与方法,对2004-2008年5年发表的有关中文分词研究领域的论文进行了分析研究。通过对中文分词研究作者分析和文献分布分析,对我国在中文分词领域的研究现状进行了探讨。
〔关键词〕中文分词;文献计量;作者分析
〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0161-02
Bibliometric Study on Chinese Word Segmentation
Papers of China in the Past Five YearsFu Yingying Sun Jiqing
(Library,Institute of Science and Technology,Shanghai 200237,China)
〔Abstract〕By using the principles and methods of bibliometrics,this paper analyzed the Chinese Word Segmentation papers published from 2003 to 2007 and discussed the current research situation of Chinese Word Segmentation in China through the author analysis and the distribution of literature on Chinese word segmentation.
〔Keywords〕chinese word segmentation;bibliometrics;author analysis
中文分词是中文信息处理系统中的一个核心内容,长期以来为了达到中文信息的智能化处理,对中文分词作了多领域的研究,但是信息检索系统对分词的速度和准确率仍然不尽如人意。期间不同领域的学者对于中文分词技术作了深入的研究,为方便相关研究者了解近五年的研究现状,本文通过中文科技期刊数据库,检索了2004-2008年5年发表的论文,并对其作了计量研究分析,以供参考。
1 中文分词研究作者分析
2004-2008年,我国中文分词研究领域共发表论文246篇,其中单一作者论文为46篇,占总论文总量的18.70%;二人合作论文数为79篇,占了论文总数的32.11%;总的合作者率为81.30%,这表明该领域的研究著者以合作研究为主,合作研究较多,可以促进中文分词研究向纵深层次不断发展。对2004-2008年中文分词领域研究的论文作者所在单位按第一作者进行统计分析,246篇文献共来自152个单位,平均每单位1.6篇。作者单位类型分布见表1。
表2列出发文量大于3篇的单位,共有20个;而发文量为2篇的单位有21个,1篇的有111个;其中发文量最高的清华大学5年发表相关论文只有11篇,科研院所中则以中国科学院最多,只有8篇。同时也可以看出,我国该领域研究大都集中在高等院校,占了论文总数的90.56%,这充分说明,我国中文分词研究领域发展尚处于理论研究阶段,企业参与很少;而且5年单位平均发文才1.6篇,研究的集中度很低,缺乏长期连续的深入研究与高水平的应用研究。显示了国内的论文仍处于低水平的重复研究阶段。
对核心作者的分析同样能反映这一现象。所谓活跃作者群是指在某一刊物上发表论文较多、影响较大的作者集合,也称核心作者。根据文献计量学的普赖斯理论。即杰出作者中发表论文数量最少的作者所发表的论文数M等于发表论文数最多的作者所发表论文数Nmax的平方根的0.749倍:
M=0.749(Nmax)1/2
若仅取第一作者,则由统计可得Nmax=4,于是上式求出中文分词研究领域的活跃作者群(或者称为核心作者)的最低发表论文数为:M=0.749×41/2=1.498≈2(篇)。以M≥2统计2004-2008年在这5年间只有15名作者;其论文数34篇,占总数的13.82%。表3列出了2004-2008年在这5年间共有15位核心作者。
对比表2与表3我们可以发现发文量大的单位与核心作者的单位缺乏相关性,这也证明了研究的偶然性,长期深入的研究不足,这也是中文分词研究技术上难以突破的可能原因这一。
2 文献分布分析
2.1 发文时间分布表
从表4可以看出,2004-2008年有关中文分词研究的论文数量总体上呈现出上升的趋势,说明这一领域研究的关注度处于上升趋势。论文量的分布能反映某学科、专题研究的发展历程,某一时期论文数量的增加速度和数量,在某种意义上不仅说明这一领域研究的理论水平和发展速度,也可以在一定程度上反映研究者和实践者对该领域的研究程度,因而说明我国在中文分词领域的技术研究方面总体上是逐步扩大和深入。
2.2 发表期刊分布分析
对2004-2008年中文分词领域研究的论文发表期刊进行统计,246篇文献一共分布在110种期刊上,载文量十分分散。论文主要发表在计算机科学与情报科学领域,其中以计算机科学为主,说明目前计算机科学领域对中文分词的研究领先于情报科学领域。中文信息学报目前是该领域载文量最高的期刊,是中文分词研究的核心期刊与主要交流阵地。
2.3 文献内容主题分析
对2004-2008中文分词领域研究的论文,按照研究内容进行分析,按发文量主要有八大研究主题,即:分词算法研究、分词系统开发研究、检索应用研究、搜索引擎应用研究、分词歧义切分研究、综述性论文、未登录词研究、分词规则研究,如表6所示。其中内容涉及算法研究的论文数量最多,占了80篇,说明目前对分词效率的研究还是在算法方面。分词的应用研究已成为研究重点,系统开发、检索系统应用、搜索引擎应用研究,相加达到142篇,达58%,这说明中文分词研究已从理论研究阶段进入实际应用阶段。中文分词研究的难点,歧义切分与未登录词、仍然得到中文分词研究者的重视。
3 结 语
经过上述分析,可以看出,随着中文信息计算机智能化处理的发展和人们对信息检索效率的要求的提高,为中文分词研究提供了广阔的应用前景与研究空间。相关领域的期刊也为中文分词研究者提供了完善的学术交流阵地,相信中文分词研究的传统重点、难点问题,在研究者的不断努力下将逐步有所突破。
参考文献
[1]刘颖,唐永林,曾媛.我国专利地图研究的文献计量分析[J].现代情报,2008,(10):153-157.
[2]吕海萍,乔建生.从对《计量学报》论文作者的分析看我国计量学科队伍的现状[J].计量学报,1998,19(3):234-240.
[3]刘芬.2007年《情报科学》载文、作者与引文统计分析[J].情报科学,2008,26(11):1699-1702.