APP下载

基于文献资料科技查新关键词的选择方法

2021-04-11谢雨珊

甘肃科技 2021年18期
关键词:查新检索文献

张 勇,谢雨珊

(1.甘肃省科学技术情报研究所,甘肃 兰州 730000;2.兰州交通大学外国语学院,甘肃 兰州 730070)

近年来科学技术高速发展,科技查新委托量迅猛增长,公众对科技文献查新服务质量的要求越来越高。科技查新已成为成果转化、新产品鉴定、科技进步奖评定、设立创新基金、专利申请和科研立项等申报过程中必不可少的一环。至2009 年世界上总计有超过5000 万篇科技论文[1],而每年新增的期刊论文数量超250 万[2],同时专利申请量的剧增带来了巨量专利文献。如何从海量的数据库中挖掘出符合查新项目所属技术要求的相关文献,给查新工作提出了更高的要求,查新质量管控建设对查新机构越发重要。在开展科技查新时,关键词、检索式是重中之重。如何全、准、快地从数据库获得相关文献,并不是十分容易的事。一方面,查新员受知识面、外语水平、文献检索能力等综合业务素质和社会责任感的影响,阻碍了其对委托查新项目包含的技术要点深层次的理解;另一方面,委托人由于各种原因不能通过技术交底书将项目的技术要点充分地表达出来;再有,没有建立一套规范的查新标准化工作程序和使用科学的检索方法。实际上,查新机构已经意识到以上问题的存在,同时已经在逐步改进其工作方法并研究制定相应的工作流程,如开展查新人员业务培训、进行工作心得交流、举办委托人学习班、设置受理业务岗等。而“关键词”的选择一直以来却无法有统一的标准,都是因人而异进行操作。

1 关键词在科技文献查新中的作用

关键词是图书馆学中的专有名词,也是使用词频最高的文献检索词语,早期来源于英文“keywords”。确定关键词是开展查新工作的起点。人们一般都是在进行专利检索时认识“检索词”,了解科技查新与专利检索的不同,专利“检索词”与科技查新“关键词”的区别对我们掌握科学的查新方法提高查新质量非常有益,通过研究比较二者的区别了解“关键词”在科技查新中所起的作用能更好地理解其在实际工作中的应用价值。

(1)作用不同。专利检索中使用“检索词”、利用检索工具开展检索工作,是对在一定时间内已公布的国内外公开出版物进行所指技术的新颖性,创造性的检索,检索词提供了查找专利文件的渠道和方法。文献查新中的“关键词”反映了查新项目主题内容的查新点,借此获取密切相关文献,并运用综合分析和对比方法,对技术要点的新颖性、创造性做出文献评价和情报咨询服务[3]。

(2)目的不同。通过专利检索词获取的对比文献,是为了将文献中的技术与现有技术进行比对,对拟申请专利的技术方案做出新颖性、创造性的判断,目标为文献记载的技术方案(说明书和权利要求书)。而科技查新是通过科技文献查新结合科技咨询为科研立项和鉴定工作提供鉴证,是对查新项目的新颖性、创造性做出基于文献报道的相关技术的评价,对比的是包含有相关技术的文献。

(3)主体不同。专利检索的主体是与专利有关的利害关系人,文献查新的主体是与该项技术有关的创新者。

(4)检索(查新)报告的结论不一样。专利检索的结论必须明确,对拟申请专利的技术方案作出是否具有新颖性、创造性的判断;而文献查新是找出与技术要点相关、不同、以及完全相同的公开发表文献,查新结论实际上是对相关公开文献与技术要点对比后做出的评价报告。

科技查新采用的工作方法和过程都与专利检索不同,它是文献检索和情报调研相结合的研究工作,且具有独特性。由此可见,掌握一套科学的查新方法十分重要。“关键词”就像一把打开通往数据库大门的钥匙,如何选择关键词直接关系到查新结果的准确性与全面性。我们把“关键词”理解为作为查新入口的关键性专业名词术语更为恰当。

2 研究资料与方法

(1)文献来源:检索2010 年1 月1 日-2020 年12 月31 日收录在万方数据知识服务平台和中国知识资源总库——CNKI 系列数据库的文章。

(2)研究方法:选择关键词“科技查新、关键词、选择”组建检索式,依数据库特点进行文献查新,两个数据库共查到20 篇相关文献。筛选出符合研究标准的文献,对有关“关键词选择”的方法及研究的文献进行分析比对。

3 研究目的

通过检索科技查新中有关选择关键词的文献,整理总结出实际工作中选择关键词的步骤和常用方法,以此改进现有查新方法与同行共勉。

4 研究过程

选择关键词必须要遵循科技查新快、准、全的原则,这就使得选择关键词的方法具有一致性。但要兼顾三方面是不易做到的,它们之间存在矛盾性,导致关键词的选择始终伴随着“扩大或缩小”检索范围而贯穿查新工作的始终。

康阳[4]提出的采用组合选择方法调整匹配关键词即通过布尔逻辑算法组配关键词和限定检索优化法即向已选关键词提供不同类型的限定语法。该方法通过确定各关键词之间的关联性来制定检索策略,实现数个关键词之间的逻辑化组配。采用优化方式限定关键词数量、缩减关键词选择范围以此约束文献的检索范围,保障文献检索的准确性。截词检索优化、加权检索优化、位置算符优化这些方法化解了关键词选择中的矛盾性,尽可能保证了其一致性的特征。该方法的优点是:优化关键词,拓宽检索途径,约束检索范围,使检索结果达到“全、准”的要求。张柏秋,吴晓鐄[5]以“布氏杆菌病的防治研究课题”为例阐述了关键词扩展前后的检出文献篇数的差异性。选择维普数据库作为检索数据来源,以布氏杆菌病防治为关键词进行检索,共检到83篇文献。然而借助词表对“布氏杆菌病”进行扩展,得到布鲁杆菌病(49 篇)、布鲁氏菌病(1352 篇)、布氏菌病(579 篇)等,如果使用以上扩展词进行组合建立检索式(布氏+布鲁+传染性流产+波状热+马尔他热+地中海热)防治共检到897 篇相关文献。使用词表扩展关键词对查新结果的客观性、公正性的影响不言而喻,由此可见词表在关键词选择中的作用非同小可。

近年来,同行从不同角度对选择关键词的方法做了大量研究工作。肖红,连丽艳[6]提出了借助专业术语、标准、辞海、词典、等工具书及检出文献的参考资料展开关键词,利用关键词的同义词、近义词以及上下位词、外来词等,综合考虑关键词的扩展问题,使其成为关键词选择的常用方法,基本方法。邢春国[7]从查新人角度提出了“预检索”概念,对其使用的自由词法进行了解释。他认为目前采用关键词检索法和主题词检索法是科技查新的主要途径。关键词法一般称为自由词法,是应计算机自编索引而产生。实际经验告诉我们,浓缩文献内容的摘要是关键词出现频率最高的地方,从摘要中选出关键词进行文献检索结果更加可靠,比题目、全文检索更快更准确。如果把这种预见方法使用在诸如以查新为目的的检索,达到“快”的目的更为有效。同时还提出了作者法、机构检索法、期刊浏览法、引文检索法等检索策略值得查新人员借鉴。

不可忽视,近年来国内越来越多的高质量学术论文都选择了在国外期刊发表,国外文献检索日益增多。英文关键词的选择与中文存在较大差异,除了不同语言带来的理解问题外还有两种语言使用的词语表达方式不尽相同的原因。诸如中文中的“一词多义”和英语中“自由词”问题,故进行国外文献检索时选择关键词的方法有所不同。张美琦[8]分析了国外文献查新中英文关键词的选择,提出的从网络资源视角下英文关键词的扩展与完善策略不愧为一种创举。文章指出,中文关键词的选择方法不适用于国外文献检索。初选英文关键词后,借助CNKI 翻译助手(http://dict.cnki.net)、欧洲专利局网站(http://ep.espacenet.com)、电子词典(格斯翻译家、有道词霸和谷歌金山词霸等)等,采用逻辑组配方法列出检索式,进入文献数据库开始试检。英文关键词通过这种方式依次完成复选、再筛选、扩补和精炼、以能够直接检索到国际同行发表的英语相关文献为目标。这样我们就可以较容易得到符合英语语法表达方式和语境的词频、双语、新鲜词等;合理地将 “自由词” 转化为符合查新关键词的复核目的。

随着大数据的发展,结合计算机技术的应用,许多研究者已经开始探索借助网络技术,基于大数据下的关键词选择方法,使AI 应用于科技查新,克服手工工作量大、不规范、费时费力的突出问题,实现关键词选择过程的自动化、智能化、规范化。王培,霞余海,陈力[9]等提出了借助统计特征、基于主题模型和基于词图模型的关键词自动抽取方法。两种模型分别采取通过计算词的某些特征(如词频、N-gram、TF-IDF 值等),结合其位置标记(如题名、段首、首次出现的位置等)为词分配权重,根据权重大小顺序提取关键词;通过大量已知的 “词语-文档” 矩阵和一系列训练推理出 “文档-主题” 分布和 “主题-词语” 分布的LDA 模型;以Text Rank 算法,将文档构建成一个词图,图中每个节点对应一个候选关键词,每条边代表候选关键词之间的关系。该方法利用文献本身作者标注关键词的领域专业特性,有助于防止漏检、提高查全率、查准率,这与以文献标引为目的的关键词抽取有很大区别。其优点为:相关文献的来源更丰富。通过检索过程中产生的文献语料,充分考虑相关文献所属领域的相关性、数据量、内容及结论的权威性等,突出表现出检索过程的显著性特点。所抽取的关键词通过网络爬虫在线获取,可以与数据源保持同步,具有动态性、实时性,不会随着时间的变化而发生过时的特点;抽取的关键词通常是表示领域概念的基本要素,具有较强的指示性、领域区分能力,是检索词的重要来源。

5 研究结果

从科技查新质量管控视角下研究关键词的选择方法,尝试一些关键词的选择方法非常必要。科技查新中查全和查准始终是矛盾体,但他们是评价某一检索系统检索性能高低的标准。在检索过程中,查新员应依势灵活调整检索策略,解决好查全率和查准率之间的互逆关系。但在实际工作中,查全是整个查新工作的前提,查准是必然结果。尽力做到根据查新目的不同合理解决二者的关系,对课题鉴定、产品查新、成果评价应提高查准率;对立项查新、科研申报应重点保证查全率。选择关键词包括两个步骤,即确定初选关键词和扩展关键词。参考用户提供的关键词、通过项目名称、技术方案、查新点等初步选择关键词。选择有效方法调整匹配关键词,使关键词组配逻辑化,在“快、准、全”的原则下使关键词拓展与关键词限定语法科学结合,既要有效缩减关键词选择范围,又要保障检索结果的准确性;采用同义词、近义词、上下位词、外来词、以及反义词,掌握不同领域词表的使用方法,充分利用词表的扩展功能;利用网络资源对英文关键词进行扩展与完善;利用相关文献的参考文献;大数据环境下采用基于计算机建模的关键词选择方法等。通过以上扩展策略,对关键词进行重新复核、筛选、补充、精炼使其精确运用于查新工作中。

猜你喜欢

查新检索文献
Hostile takeovers in China and Japan
《建筑结构》开启科技查新新技能
《建筑结构》开启科技查新新技能
《建筑结构》开启科技查新新技能
《建筑结构》开启科技查新新技能
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
2019年第4-6期便捷检索目录
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
专利检索中“语义”的表现