基于15年文献计量学的信息检索相关性研究
2018-11-14
(黑龙江大学信息管理学院 黑龙江哈尔滨 230051)
为了更深入地了解国内学界对信息检索相关性的研究状况,本文选用中国知网数据的可视化功能绘制信息技术领域(包括图书情报领域)信息检索相关性主题词文献的科学知识图谱,对近15年(2002—2016)国内该领域的研究状况进行了统计研究,并对研究过程中的缺失和改良对策进行了详细的说明。
1 信息检索相关性的文献分布
1.1 文献研究方法
本文采用文献计量法统计和分析信息技术领域(包括图书情报)信息检索相关性研究论文,借助文献的内外部特征,采用文献计量学中的洛特卡和布拉德福定律的期刊分布等,通过绘制知识结构图谱来展现该范畴的研究特征以及研究的前沿领域。
1.2 数据采集情况
为了提高查询结果的准确度,在中国知网(CNKI)高级检索界面上,采用逻辑与的检索方法,运用检索式主题=(信息检索and相关性)(精确匹配)检索2002—2016年中国信息技术领域相关文献,共得到804篇。
1.3 文献发表时间分析
利用中国知网的可视化功能绘制时序分布情况图(如图1),结合图1和表1发现,2004—2011年这一段时间是研究信息检索相关性的热潮阶段,2011年达到高峰期,所占比例为11.7%,2012—2013年发文量有所下降,2014 年开始有所回升,所占比例8.4%。但是从2015—2016年发表的论文数量开始下滑,且2016年是近15年来发表信息检索相关性论文最少的阶段,可能在研究相关领域的问题时遇到了瓶颈。
1.4 信息检索相关性关键词的分布研究
图1 文献时序分布图
表1 文献时序分布统计表
对近15年的期刊文献进行词频统计,并从中抽取55个高频关键词,其中关于信息检索、搜索引擎、查询扩展、相关性、本性、向量空间模型、文本分类等关键词研究的文献比较多,而关于相关性反馈、网络蜘蛛、XML、分词等方面研究的不多。由齐普夫定律可知,某学科相关论文关键词出现的频次和规律能显示出学科学术研究的热点以及预示未来发展趋势[1]。(见图2和表2)。
图2 关键词知识图谱
表2 对信息检索相关性词频较高的计量研究(部分)
1.5 高产作者
根据文献计量学的普赖斯定律,即普赖斯根据级数的性质提出的,(其中Nmax为高产作者论文数)这是特洛卡定律的一个重要推论。从中国知网的可视化分析图谱上可以看出来自江西师范大学的王明文和南京大学的成颖为最高高产作者,发文量都为8篇,最后得出M约等于2.12,把M向右取整约等于3,则可以得出发表论文量≥3的则为高产作者(见表3)。
表3 发文数在3篇以上的高产作者
由表3可知,高产作者中有来自南京大学的成颖和江西师范大学的王明文(8篇),大连理工大学的林鸿飞、南开大学的黄名远(7篇),武汉大学的孙建军(6篇),大连理工大学的林原、江西科技技师学院的王知津(5篇),还有武汉大学陆伟(4篇)等等,由此可知,高等学校专业教师和图书馆员是我国图书情报领域信息检索相关性研究的核心群体,他们拥有丰厚的知识蕴涵以及尖钻的科研水平,是国内图情领域信息检索相关性研究的核心力量,但是公共图书馆对该领域的研究比较薄弱,应鼓励相关人才加入公共图书馆进行理论分析与实证研究[2]。
1.6 研究机构
通过中国知网的机构分布图谱可以分析得出,哈尔滨工业大学发表的关于信息检索相关性的论文最多(33篇),且处于领先的行列,可以说是该领域研究的高产机构。南京大学、北京邮电大学机构的发文量依次为28篇、25篇等等,如表4所示。
表4 文献来源机构分布统计表(部分)
根据文献计量学的洛特卡定律的关于作者地区结构与科学活动中心的应用,日本学者汤浅光朝提出各国科学论文作者人数和科学成果占全世界科学家和科学成果总数的比重作为规定科学活动中心的指标。他认为,当这个比例超过1/4时,则科学活动的中心转入该国。但是为了研究我国某研究机构(某地区)科学活动的活跃性,我引入了以下公式:设ci为我国i个机构或地区的作者人数(研究某一领域),N表示我国研究某一领域总人数,C是两者的结构相对数,则:C=Ci/N ×100%。
华东地区包括我国的山东省、安徽省、江苏省、浙江省、台湾省、福建省、江西省和上海,具体的计量统计如表5所示。从表5上也可以看出华东地区的12所高校中研究信息检索相关性论文的人数达到了19人,且在信息检索相关性的研究方面也处于相对领先的地位,用公式可得,C=(19/55)×100%,计算比例为34.5%,而其他地区都低于25%,即我国华东地区是研究信息检索相关性科学活动最高也是最活跃的地区。
表5 华东地区信息检索相关性论文人数统计
1.7 文献被引统计分析
文献被引频次是评价学术质量以及学术影响力的重要尺度。如果一篇文献被引的频次越高,说明该篇文献对学术交流与学术研究的影响力越强[3]。统计结果见表6。
表6 文献被引频次统计
从表6可以看出,高被引文献频数大都发布在2012年之前,且均篇被引频次最高的是2003年发表的论文,频次达到了11.4。普赖斯关于“科学论文在发表后的2年才能达到被引用的峰值”的理论也从侧面解释了论文的被引频次年代是远期大于近期[4]。
1.8 核心期刊分布统计
为了更好地反映布拉德福关于图书情报领域的期刊分布情况,现按照期刊进行搜索,文献量共117篇。由布拉德福定律的定义可知:如果将科学期刊按其刊载某个学科的论文数量的大小,按照从大到小的顺序排列,那么可以分为三个区域:核心区,相关区,边缘区,且期刊数量比成1:a:a2的关系[5]。将下面14种期刊按文献数目分类分为3个区域,载文数量共为 82篇,如表7所示。
表7 载文期刊分布
由此可以得出:p1:p2:p3=1:a:a2,以上三个区域期刊数目比为p1:p2:p3等于3:4:7,即为1:1.33:2.33。何荣利[6]指出“由于期刊文献分布规律的发展,在大部分研究领域中,期刊文献分布的三个区域中,期刊数量的比例已不再呈现整数关系”,可将以上结果近似看作1/1.33/1.332,其中常数a为1.33。再按照布氏定律的图像描述法公式n1/(n1+n2)/(n1+n2+n3)=1:b:b2,即n1/(n1+n2)/(n1+n2+n3)等于3/7/14,即为1/2.33/4.67,同样近似等于1/2.16/2.162,其中常数b为2.16,满足布拉德福定律的图像描述规律。
1.9 文献来源统计分布
为了了解国内期刊论文、硕博论文、会议论文对信息检索相关性研究的分布情况,通过中国知网进行统计检索共得到相关论文804篇,具体分布如表8所示。
表8 文献来源分布统计
从表8可以看出来,804篇文献中,硕博士学位论文占比61%,占据了检索总文献的一半多,说明各高校硕博士研究生对信息检索相关研究作出了重要贡献,也是该研究范畴的主要群体。从表7可以看出,图书情报中关于信息检索相关性的论文达到了82篇,其中10.1%出自图书情报领域的核心期刊 (基于CNKI 核心期刊统计),虽然所占比例较小,但是从中国知网上也不难看出它们的引用频次较高,也充分体现了核心期刊的重要研究价值地位。
2 改善信息检索相关性的措施
2.1 用户的角度
一方面,用户不仅需要对所查找的信息有一个明确的认识,更需要将这种认识明确表达出来,也就是要提高用户对信息需求的表达能力。往往含糊的信息需求表达可以提高信息检索的相关性。而较准确的信息需要表达反而会降低相关性的准确度。另一方面,用户在进行信息检索之前,应该针对自己的信息需求确定最适合自己的检索系统,也就是说应加强用户对检索系统的选择能力。最后,提高用户的知识理解水平。当用户检索时,可以结合自身知识水平和已有的文献材料判断检索结果的相关性程度。
2.2 系统的角度
(1)系统设计的角度。在检索系统构造过程中,应该以用户信息需要为导向,尽量做到便于用户使用。信息检索过程中相关性的好与坏以及信息检索相关性的不确定因素都是由用户判断和引起的,为了减少其不确定性因素,我们应该建立以用户为中心的思维模式。
(2)算法优化的角度。链接分析法因其具有的高效率以及应用引文检索语言的原理,在关键词文本匹配的基础上,利用Web超链接结构,从一个网页链接到另一个网页,并对它们之间的关系进行分析,以此明确该网页在检索结果中的等级。Google和百度正是采用了这种独特的方法。
(3)提供智能的信息引导功能。根据用户信息需求确定用户检索的信息领域,为用户提供详实、准确的信息分类知识。对于不同的用户而言,检索系统会学习用户提交的关键词和相关信息,并收录在其用户模型之中;当用户再一次提交信息需求任务时,系统会自动跳出用户相关的关键词,让用户点击确认,避免用户操作频繁。
3 结语
研究表明,信息检索相关性在国内的研究虽然卓有成效,但主要集中在研究的理论层面,而在实践方面的研究欠缺,理论研究和实践应用不能有效结合。在大数据环境下,以用户信息需求为基础,简化计算机检索系统设计算法,朝着系统和用户需求的双重设计理念出发,是解决信息检索相关性的必要渠道。