学术搜索引擎的优化策略
2015-05-30侯聪聪杨世光
侯聪聪 杨世光
摘 要:该文介绍了一种新的检索模型,提高学术搜索引擎的检全率及检索效率。该扩展模型的创新点在于引入检索词的下位词构成新的检索词组,不再局限于检索词本身字面上的匹配;且文献列表的排序将学术价值这一因素考虑在内,根据相关度及学术价值的综合评分机制对检索结果进行有序输出。该模型具有一定的科学性和实用性,但是其排序的评分机制等需要在未来的研究中进一步细化,完善。该扩展模型主要适用于对检全率要求较高的学术系统及网站。
关键词:学术搜索引擎 扩展模型 检索 文献排名
中图分类号:G64 文献标识码:A 文章编号:1674-098X(2015)06(c)-0243-01
不同于普通网站或系统的搜索引擎,本文所研究的学术搜索引擎是专门针对于知识库的一类搜索引擎,其检索对象较为单一,为期刊、文献等数字学术资源。该文以CNKI为例。当前学术搜索引擎检索模型一般采用布尔模型、向量模型等传统的检索模型[1],这类检索方式只能对检索的关键词进行字面上的匹配,而忽略了其内在含义的相似度,降低了学术搜索引擎的检全率。该文浅谈一种更加全面的检索模型,以提高其检索效率。在该文中此模型统一简称为扩展模型。
1 理论依据
当用户输入检索词后,返回具有相关信息的文献排名列表。此列表的确定取决于文献的关键词或题目及其下位词是否与检索词匹配。此列表的排序则取决于文献与检索词的相关度及该文献的学术价值。该文根据文献所属期刊的影响因子评定文献的学术价值。
所以该模型获取检索词后,首先,根据建好的学科专长词表(表1)利用其下位词进行扩展,扩展后成为扩展检索词组;其次,从文献库中抽取文献题目或关键词中含有扩展检索词组的文献;但是检索词与其下位词能提供的相关度权重不同,根据已确定的评分机制(第三部分将详细给出)即可计算相关文献的得分,按得分高低得出文献列表。
2 模型介绍
该模型是为了提高文献的查全率,借鉴了文献[2]结合专长词表的专家检索方法,即用户输入检索词后,利用词表对检索词进行扩展。具体设计如下。
2.1 构建主题词表
专长词表的一、二级词汇由中国分类主题词表中对应分类的主题词经稍加改造得来。专长词表分为三级,其中部分一、二级词汇如表1所示。
对每一个二级词还需建立相应的三级词文档,一个学术研究领域较长时间内的大量学术研究成果的关键词的集合,可以揭示研究成果的总体内容特征、研究内容之间的内在联系、学术研究的发展脉络与发展方向[3],该文以中国知网CNKI数据库2010—2014年核心期刊上相关文献的所有关键词作为三级词汇来源。
2.2 确定文献列表
用户输入检索词后,首先,利用该检索词的下位词进行扩展。其次,根据CNKI数据库文献表中的文献题目和关键词,生成题目或关键词中含有扩展检索词组中词的文献,此即符合查询主题的专家文献。
2.3 文献排名的实现
文献排名依据两方面:一是依据文献与检索词的相关度;二是依据该文献的学术价值。在此基础上,虽然文献最终得分与文献中含有检索词组中词的数量有一定关系,但并不意味着二者成绝对的正相关,而是仅对同一篇文献来说,随着相关词数量的增加,最终得分也增加。最后按文献得分由高到低得出有序的文献列表。
一般地,题目和关键词能集中体现文章的主要内容,故取文献的题目和关键词衡量其相关度,按体现程度的不同,给二者赋予不同的系数,该文分别将其设定为0.6和0.4(式(2))。其次,在检索词组中,词本体与其下位词体现相关度也不同,将其权数分别设为0.7和0.3(式(4))。最后,由于期刊的级别不同,其权威性也不同,因此,可取期刊的影响因子衡量文献的学术价值。相关度和学术价值的系数分别设为0.8和0.2(式(3))。
计分公式如下:
Wk=Skrel+Skval (1)
Wk为文献k的得分;Skrel为文献k的相关度得分;Skval为文献k的学术价值得分。
Wk=(0.6×Pktil+0.4×Pkkey)+Skval (2)
Pktil为检索词组中词在文献k的题目中出现的频数;Pkkey为检索词组中词在文献k的关键词中出现的频数。
Wk=0.8×(0.6×Pktil+0.4×Pkkey)+0.2×Skval (3)
Wk=0.8×[0.6×(0.7Pkts+0.3Pkte)+0.4×(0.7Pkks+0.3Pkke)]+0.2×Skval (4)
Pkts与Pkte分别为检索词本体及其扩展词在题目中出现的频数;Pkks与Pkke则分别为检索词的本体及扩展词在文献关键词中出现的频数。
在计算出3.2节所得文献列表中每篇文献的分值后,按分值高低排序即可得出有序的文献列表。
3 结语
该模型的创新点在于突破了布尔模型、向量模型等传统模型的僵性匹配模式,通过下位词匹配提高模型的检全率,使检索方式更加智能。同时在进行排序时,将学术价值这一因素考虑在内。该模型可用于对检全率要求较高的系统。但是该模型也有一些缺陷,其评分标准有待进一步的细化、考证;同时检准率有待提高。
参考文献
[1] 王娟琴.三种检索模型的比较研究-布尔、概率、向量空间模型[J].情报科学,1998(3):225-230,260.
[2] 陆伟,刘杰,秦喜艳.基于专长词表的图情领域专家检索与评价[J].中国图书馆学报,2010(2):70-76.
[3] 李文兰,杨祖国.中国情报学期刊文献关键词词频分析[J].情报科学,2005,23(1):68-70,143.