中文信息处理研究信息计量透析——基于图书情报学三种核心期刊
2011-05-29冯英华
冯英华
(常州工学院,江苏 常州 213002)
0 引言
中文信息处理从属于应用型交叉学科领域[1],是自然语言处理的重要分支,涉及的学科领域广泛,集计算机技术、语言文字学、信息管理学、基础数学等多种学科于一身[2]。以中文信息处理为主题,通过信息计量方式,笔者对近十年3种图书情报学核心期刊中文信息处理主题的相关载文及其引文进行了统计分析和梳理,对中文信息处理专题研究的现状及发展趋势进行了归纳总结,并提出相关建议。
1 数据来源及计量方法
以中国知网(CNKI)为数据源,选定《图书情报工作》、《情报理论与实践》、《情报科学》3种图书情报类核心期刊,这3种核心期刊在图书情报类期刊中具有一定的代表性。鉴于中文信息处理研究的复杂性和包容性,数据搜集的检索式:主题(“中文信息处理”or“汉字信息处理”or“汉语信息处理”or“自动摘要”or“文本分类”or“信息过滤”or“主题识别”or“信息检索”)and 刊名(“图书情报工作”or“情报理论与实践”or“情报科学”)。文献获取截止时间为2010年12月31日。去除评价、通知和学术动态等非学术型文献,共获得332篇相关文献。通过Excel软件分别进行载文及引文统计与分析。
2 数据结果与分析
2.1 载文分析
2.1.1 载文量分布
3种核心期刊中文信息处理类载文情况见表1。
载文是期刊进行学术交流的基础知识单元,是衡量期刊信息量和质量的重要指标[3],在一定程度上可以反映出专题领域的研究现状和发展趋势。根据表1可以发现,中文信息处理专题研究领域成果总体呈上升趋势。3种核心期刊近十年该专题领域的载文量依次为:17篇、19篇、11篇、34篇、38篇、49篇、45篇、43篇、59篇和17篇,年均载文率从高到低前5位依次是2007年、2009年、2008年、2004年和2010年,分别为16.99%、14.61%、11.68%、11.40%和11.34%。
表1 3种核心期刊中文信息处理类载文
2.1.2 基金论文分布
基金论文是由各种类型资金支持的项目课题研究成果[4]。基金项目多为学科领域的研究热点、前沿课题,通过对基金论文的数量及级别分布的统计,可以揭示出学科主题研究过程中受各级基金资助的情况,进一步了解国内外政府职能部门、基金组织委员会以及各高校和科研机构对专题研究的政策管理动态(见表2)。
表2 3种核心期刊中文信息处理类基金论文分布
由表2可知,近十年中文信息处理专题332篇相关文献中有75篇受到基金资助,基金论文率为22.59%。其中,2006年、2007年、2008年和2009年的基金论文数量较多,分别有10篇、10篇、15篇和19篇,基金论文率分别为20.41%、22.22%、34.88% 和 32.20%。基金类型中,省部级基金论文最多,有45篇;国家级和校市级基金论文数量较少,各有15篇。同时,近十年3种核心期刊所载中文信息处理专题的基金论文数量呈明显递增趋势,说明近年来对中文信息处理研究的关注度逐年增强,各级机构对中文信息处理的支持力度特别是资金投入逐渐加强,中文信息处理已成为信息分析、处理和挖掘领域的重要研究热点之一。但同时需要强调的是,国家层面的本专题研究基金项目支持力度仍需要进一步加强,跨地域、更高层次的合作型研究项目亟待开拓。
2.1.3 著者分布分析
(1)著者合作分析
3种核心期刊中文信息处理类载文著者合作情况见表3。
表3 3种核心期刊中文信息处理类载文著者合作情况
期刊所载的合著论文是学术研究中思想交流和智慧共享的重要平台[5],也是知识创新与增值的基本形式之一。根据表3,中文信息处理专题研究论文成果合著水平较高,合著论文有216篇,论文合作度为 65.06%,独著论文有 116篇(34.94%),篇均论文著者数为2.36人,说明近十年该专题研究领域合作总体上越来越紧密。在中文信息处理领域,研究合作已逐步增加,客观上也反映出本专题研究合作的必要性和可行性,这与中文信息处理本身的特点相关,与其本身所涉及的研究内容、方式和方法以及学科交叉等诸多复杂环节和因素相关。
(2)核心著者和机构分析
核心著者和机构分析情况见表4。
表4 核心著者和机构分析
核心著者是专题研究领域的主要研究人员[6],这类研究群体中往往有相关研究领域的领军人物,对专题学科发展具有较高的影响力。根据表4,发表3篇论文的有赵丹群、夏立新、孙建军和刘怀亮等6位著者,邹瑾、章成志、张学福和焦玉英等著者发表了2篇论文。中文信息处理专题研究的核心著者为刘海峰、赖茂生、侯汉清、张玉峰、杨建林、王元元和张新民等7位著者,近十年他们在3种核心期刊上发表至少4篇以上的中文信息处理专题研究论文,对这7位核心著者进行更大范围的计量和分析可知,他们在中文信息处理领域均有深厚的理论功底和造诣,有着一定数量有影响力的科研产出成果,有着资源和研究人员丰富的高校和科研机构的支持,影响着国内中文信息处理领域的研究方向。
核心机构是专题研究领域成果的主要产出地[7],这里云集高端知识分子、拥有较完备的软硬件设备和资源以及浓厚的学术氛围,直接影响着专题学科的发展方向。表4所列7个核心研究机构是本专题研究论文的产出基地,近十年共计发文98篇,占论文总数的29.52%。其中,研究成果前5位的核心机构是武汉大学信息管理学院、南京大学信息管理系、北京大学信息管理、武汉大学信息资源研究中心和中国科学技术信息研究所,分别有22篇、20篇、19篇、14篇和12篇研究论文。同时,上述数据也表明国内高校是中文信息处理的研究中心。
2.1.4 中文信息处理主题分析
中文信息处理是一个综合概念,其中包括很多核心的研究课题,对其进行主题分析能够从一定程度上反映该研究领域的热点与重点,帮助研究人员把握该领域的发展趋势。而论文关键词是论文主题的直接反映形式,是揭示论文主题的有力线索之一[8]。对332篇相关文献的关键词做了统计与分析,记录各关键词的频次。从表5可知,频次前10位的关键词分别是“信息检索”、“索引”、“本体”(或“Ontology”)、“Z39.50”、“全文检索”、“支持向量机”(或“SVM”)、“知识组织系统”(或“KOS”)、“信息可视化”、“文本分类”、“OWL”、“元搜索”、“搜素引擎”、“知识检索”、“元数据”和“个性化服务”等。
表5 关键词统计分析
2.2 引文分析
引文是学术论文结构的重要组成部分[9],它能反映著者吸收或利用早期研究者的概念、方法和技术等方面的情况[10]。引文分析是对学术期刊、论文和著者等分析对象进行计量分析,是揭示学科主题研究领域内在发展规律的信息计量方法[11]。笔者对332篇相关文献的引文做了统计与分析,主要从引文量、类型、频率、语种和期刊源等5个方面进行。
2.2.1 引文量分析
引文量是直接反映著者吸收参考文献的宽广度和利用能力的重要指标[12]。经过整理统计,共获得3076条引文数据。对3076条引文进行去重,得到2795条引文数据,篇均引文量为8.42,见表6。从表6可以发现,从1991年以来,引文数据总体上呈现缓慢上升趋势。近二十年的引文数为2344篇,比例为83.86%;有标识的其他年份有198篇,比例为7.09%;未标识年份的引文有253篇,比例为9.05%,这部分引文大部分是网络文献和会议文献,引文数据标识的不规范为数据统计分析带来一定的障碍。
表6 引文数量分布
2.2.2 引文类型分析
引文文献类型[13]分布可以了解论文的文献来源和成分构成以及不同引文类型的受重视程度,从而确定各类文献载体的情报价值、地位和利用情况。表7是引文类型分布情况。
表7 引文类型分布统计
表7数据表明,期刊论文类的引文量最高,有1639条,比率为58.64%。其次是网络文献、会议文献、图书和学位论文,比率分别为19.75%、7.73%、6.51%和5.22%。由此可见,期刊论文和网络文献是引文的主要类型。网络信息资源处理在中文信息处理中所占比重越来越大,中文信息处理研究与网络信息资源的联系也更加紧密,门户网站、搜索引擎、个人网页和信息处理系统等越来越多地成为研究学者的参考和借鉴资源,使得网络文献引用比重较高,这在一定程度上也与文献类型自身的特点相关。
2.2.3 引文频率分析
为了更好地了解引文频率分布,笔者将引文按照5个频率区间进行划分:“1~5篇”、“6~10篇”、“11~15篇”、“16~20篇”以及“21篇以上”。由图1可知,“6~10篇”的引文频率最高,有1245篇,占44.54%。其次引文频率从高到低依次为:“1~5篇”有876篇(31.34%)、“11~15篇”有412篇(14.74%)、“16~20篇”有143篇(5.12%)和“21篇及以上”有119篇(4.26%)。引文频率受到论文研究性质影响,一般而言,大引文量的论文有着较高的可信度,专题研究的学术价值也就越高。
图1 引文频率分布
2.2.4 引文语种分析
引文语种分布可以反映出专题学科领域对各种语种文献吸收和利用的能力[14],是获得最新科技成果的能力标志。从表8可以看出,本专题研究论文语种分布广泛,中文引文有1425条,比重最高,占50.98%;英文引文也有较大比重,有983条,占35.17%;其他语种包括日文、德文、俄文和法文等,共有387条,占13.85%。总体上,国内研究学者对国外研究成果的借鉴比较广泛,国外信息处理技术研究起步较早,技术和方法都成熟,同时,随着我国在国际社会上的地位以及影响日益加大,汉语逐步向世界各地推广,中文信息的交流和信息化的高速发展,使得中文信息处理研究引起了国外很多研究人员的关注,相关研究成果也逐步增多。
表8 引文语种分布
2.2.5 引文期刊源分布
表9是1639篇引文期刊论文的计量统计情况,由表9可以发现,中文信息处理专题研究领域引文期刊源学科门类狭窄,主要集中于图书情报类和计算机相关学科,语言文字类期刊则鲜见。前10位的引文期刊源分别是《情报杂志》、《情报学报》、《现代图书情报技术》、《情报科学》、《图书情报工作》、《计算机工程与应用》、《情报理论与实践》、《中国图书馆学报》、《Information Processing&Management》和《Journal of the American Society for Information Science and Technology》。本专题发文10篇以上的学术期刊中,23种中文期刊,3种国外期刊;图书情报类有16种,计算机类期刊有10种。由此可见,中文信息处理专题研究得到国内外相关领域的普遍重视,并逐步向计算机智能化、跨学科、国际合作等方向发展。
表9 引文期刊源分布
3 结论及相关建议
3.1 研究现状分析
通过以上数据分析,笔者对国内中文信息处理研究现状归纳如下:
(1)中文信息处理研究总体上呈现不断递增的态势。近十年本专题研究在3种核心期刊的载文量和基金论文逐年增加,著者合作也呈现增长趋势,载文引文量逐步增加也客观反映出业界学者对该专题研究有着较高的关注度。当然,也要看到在总体上升趋势的大背景下,该专题研究领域仍然存在着零散不成体系、研究面狭窄以及纠缠于概念、方法引进和低层次应用而忽略其结构和基础研究等情况。
(2)研究支撑需要进一步加大。调查发现,基金论文比率分配不均,资金支持上特别是国家层次基金需要得到重视;为了更好地交流,国内外研究协作也需要进一步加大,与此同时,研究机构也过于集中。通过对该专题关键词研究发现,本专题研究仍表现出较高的同质性,研究领域的深度和广度均不够。该专题的研究成果展示平台过于集中在图书情报和计算机两类期刊中,学科交叉给其带来的理论和实践创新未有实质性表现。
(3)局限于高校和高校直接领导下的科研机构,合作结构不平衡。调查显示,国内高校是中文信息处理研究的中心力量,高校图书情报界学者俨然垄断该专题研究的前沿阵地。高校信息处理相关学科单位依托其强大的资源和人才优势为中文信息处理研究提供了得天独厚的便利条件。独立的科研机构和相关企业对本专题研究不多见,在一定程度上影响本专题研究的进一步合作发展,制约其社会经济效益的发挥。
(4)中文信息处理成为计算机、语言学和图书情报学交叉领域研究的热点。根据主题分布和引文期刊源分布数据,中文信息处理已成为计算机、语言学和图书情报学交叉学科的研究领域。这是中文信息处理自身的内部结构和运动规律的必然结果,通过计算技术加速本专题研究的及时性、简易性和智能性,语言学保障词语性质、结构、语法、语境和语义等角度为本专题研究对象的基础手段,借助图书情报界知识管理、情报检索语言和信息组织整序等手段为本专题研究带来新的研究契机点。三种研究跨界的相互融合为中文信息处理带来新的切入点。
(5)中文信息处理研究向纵深发展,并日益多元化、精确化以及社会化。随着计算机网络、信息管理学、语言学、图书情报学等学科的日益融合,中文信息处理研究走向多样化的纵深发展阶段:研究热点包括自动切分词、自动聚类、信息可视化、智能搜索、元数据和知识组织系统等领域,对这些细分研究领域越来越精确、细致和专深,这些研究发展方向也越来越贴近社会需求大潮流,在门户网站、大型搜索引擎和知识管理系统等方面也有着越来越多的关联。
3.2 专题研究发展相关建议
中文信息处理是自然语言处理中一个具有较高难度的研究分支,同时也是极具研究价值和应用价值的研究课题,它为相关核心研究领域提供了基础和平台。在对其研究文献计量分析的基础上,笔者提出以下几点建议:
(1)进一步提高研究人员自身水平。中文信息处理作为一个集计算机语言学、图书情报学、数学和逻辑学等于一身的交叉学科,对研究人员提出了更高的要求。根据文献调研中存在的问题,本专题研究领域研究人员要做到以下几点:①有较高的学术品质和素养,科研要求真务实、脚踏实地兼具创新思想;②具备扎实的相关专业技术知识和过硬的技术操作能力,不断吸取图书情报学、数学、计算机和语言学等学科国内外前沿成果;③信息搜集、整理和分析能力,熟悉信息检索、信息分析预测和知识挖掘基本技能;④较强的外语水平,保持和国际前沿研究领域的同步,能够及时获悉国外的关键技术和理念;⑤增强科研协作,共享前期智力和资源成果,在知识交流中拓展新思维、新领域。
(2)加大对中文信息处理研究领域的支持。中文信息复杂、冗余和无规律等特点极大地阻碍了研究人员的信息获取、甄别、分析和利用,使得本专题研究成本较高,国内本专题研究零散、片面和狭窄等现状客观上增加了研究成本。根据前述数据可知,本专题项目基金发展不平衡、科研合作有待提高等问题,因此,笔者认为应该加大对本专题研究的支持力度,从以下几个4个方面着手:①经费支持。国家各层机关部门应重视本课题的研究立项,加大课题研究资金资助。②政策支持。以法律为准绳,通过各级行政法规政策加强对本专题研究的立项指导,管理好项目进程、经费使用等环节。③鼓励年轻教师申报课题。年轻教师有充沛的精力、较强的信息处理能力,思维更活跃,可以为本专题研究注入新鲜活力。④组建优秀的科研合作团队。跨学院、跨系统合作交流,加强学术交流,增强本专题研究的深度和广度。
(3)强化中文信息处理自动化和智能化技术研究。为用户提供高质量的知识服务是中文文本信息处理的根本目标,在计算机信息技术日益发展的大趋势下,中文文本信息处理的自动化和智能化要求已成为中文文本信息发展的迫切需求。本专题研究的发展趋势主要有以下几方面:①文本处理,包括分词、分类、聚类及摘要等技术的语义化、智能化;②检索算法改进,如对VSM、KNN、贝叶斯、模式匹配和位置加权等算法的改进;③文本语言的识别、收集和整理控制;④搜索引擎智能化如元数据、元搜索引擎和知识检索等;⑤数据挖掘技术如信息过滤、文本挖掘、数据挖掘、Web挖掘、主题识别和规则抽取等技术;⑥信息处理技术标准的建立;⑦文本信息处理的显示如信息可视化等。
(4)深化中文信息处理应用研究,注重基础理论研究,构建规范的学科研究体系。根据文献计量,目前本专题存在重视应用研究而忽视基础理论研究、研究体系零散的现象。本专题的基本理论研究是从语言学、心理学、逻辑学、数学、情报语言学和信息学等领域,以及计算机学、社会学等交叉学科方面所做的理论基础研究,基础理论研究是本专题研究发展的源泉和基石。同时,本专题的应用研究是把其研究成果应用到社会生产生活等各个方面上去,让中文信息处理技术产生实际的效果。为了更好对中文文本信息处理学科进行深入研究,笔者认为中文文本信息处理的基本理论与应用研究都应得到重视,以基本理论研究指导应用研究,让应用研究更好地体现基本理论研究价值,为用户提供高质量的信息服务。
[1]陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176.
[2]李佰亿.汉语趋向补语的认知研究[D].哈尔滨:黑龙江大学,2007.
[3]王惠翔,宋晓燕,王佳飞.《工程力学》载文调查、引文分析及核心著者测评[J].工程力学,2009,26(1):8 -15.
[4]龚军.《中南民族大学学报》2000—2004年文献计量研究与思考[J].情报探索,2006(9):8-11.
[5]温芳芳,李佳靓.中国情报学期刊论文合著现象分析——基于五种情报学核心期刊的统计分析[J].情报杂志,2011,30(8):55-60.
[6]李栎,张志强.情报研究中核心著者的影响力评价方法研究[J].情报杂志,2010,29(10):80 -83,141.
[7]傅文奇.基于SSCI的2000—2010年我国大陆信息科学和图书馆学论文的计量分析[J].情报科学,2011,29(7):1079-1083.
[8]钱玲飞,杨建林,张莉.基于关键词分析的学科创新力比较——以情报学图书馆学为例[J].情报理论与实践,2011,34(1):117-120.
[9]王立荣.核心期刊《情报资料工作》引文统计分析[J].情报探索,2009(1):17-18.
[10]邱均平.信息计量学[M].武汉:武汉大学出版社,2007.
[11]王曰芬,曹艺.引文分析的研究与进展——基于文献计量分析[J].情报理论与实践,2011,34(8):119,124 -128.
[12]郭盈,缪建兰,何镜明,等.1998—2005年《南京农业大学学报》(自然科学版)载文、引文统计分析与评价[J].农业图书情报学刊,2007,19(10):150 -155.
[13]陶彩军,王惠翔.《力学学报》载文、作者及引文调查分析[J].青岛理工大学学报,2011,32(3):108 -113.
[14]左亮亮,陶静.对我国5种图书情报学核心期刊的引文抽样分析[J].农业图书情报学刊,2010,22(4):203 -205.