网络资源利用对查新工作的影响
2018-02-14王晓丽
刘 洁 王晓丽 孙 洁
(中国科学技术信息研究所,北京 100038)
0 引言
科技查新(简称“查新”)是以反映查新项目主题内容的查新点为依据,以计算机检索为主要手段,以获取密切相关文献为检索目标,运用综合分析和对比方法,对查新项目的新颖性做出文献评价的情报咨询服务[1]。它始于上世纪80年代,发展于上世纪90年代,壮大于2000年后。科技部制订的2001年1月1日开始实施的《科技查新规范》对于科技查新事业的发展发挥了重要的作用。但进入2000年后,计算机技术的阶梯式发展,大数据时代的来临,该查新规范逐渐显现出一些问题,例如在实际查新过程中,数据库资源类型是否包含网络资源,尤其是利用搜索引擎检索网络海量报道,是否应该纳入查新工作,缺乏操作依据,这也是业内争论的焦点之一。
目前,围绕网络资源结合查新工作开展了很多相关的研究。网络资源作为查新检索资源的有益补充,已是查新业界的广泛共识,其中不乏对网络资源提高查新文献保障率、免费资源的整理和利用等方面研究[2-8]。一方面网络资源的时效性、更新速度快的特点,与查新工作新颖性判定的时效性一致,网络资源很好地解决了数据库资源收录滞后性的问题。另一方面网络资源具有领域分布广、数量巨大、免费资源丰富等特点,也成为查新资源的补充和保障,是查新检索不可或缺的重要信息资源。
查新是一种情报咨询服务,提供价值信息和建设性的咨询是其核心,因此加强考虑网络报道是查新工作的内在诉求,也是迎接时代信息发展的外在动力。查新工作只有积极迎接文献资源、业务内涵上变化的挑战,制订有效的操作准则,才能提升查新工作自我造血功能,健康发展下去。
本文从理论和实际案例角度分析网络资源对查新工作的意义及其实践的必要性、正确性,以计算机、标准物质、科学计量等领域查新课题为依据,对实际检索结果进行对比分析,探讨了查新工作不能忽略网络资源检索的原因,并对有效获取网络资源信息提出了几种方法和注意事项。
1 网络资源检索的意义
网络资源,即以数字化形式记录的、以多种媒体形式表达的、分布式存储在网络计算机磁介质以及各类不同介质上的并通过计算机网络通讯方式进行传递的信息资源的集合[9]。简单地说,就是计算机技术、通信技术、多媒体技术相互融合而形成的网络上发布、查询与存取利用的信息资源的总和[10]。查新检索、分析和对比的文献是科技文献的简称,是记录有科学技术信息或知识的载体[1]。因此,网络资源属于文献范畴,属于查新定义的文献外延范畴。
网络资源在数量、结构、分布、传播范围、类型、载体形态、内涵、控制机制、传递手段等方面,都与传统信息资源有明显的差异,呈现出如下新的特点:数字化存储和传递;数量巨大,增长迅速;内容丰富,形式多样;稳定性差,变化频繁;结构复杂,分布广泛;信息组织的局部有序性与整体无序性;信息新颖,定期更新;信息的表达生动性;免费资源丰富;信息质量参差不齐,价值不一;等等[11]。其数量巨大、增长迅速、内容丰富、分布广泛、信息新颖、免费资源丰富等特点,与数据库资源优势互补,为资源获取提供了便利。一些重要价值信息也不能忽略对网络资源的挖掘。例如科技前沿跟踪与分析通常需要采用文献与网络交互的信息查询方法来实现[12]。针对未来科技前沿分析的信息源主要是世界科技强国的政府网站、重要资助机构网站、重要国际组织网站、国际著名机构网站、重要的学会/协会网站、重要的科研团体网站、开展相关研究的团体网站等[13]。
网络资源是一种公开的信息资源,影响查新项目新颖性。在专利审查中,网络资源就纳入了出版物范畴。《专利审查指南2010》在对出版物的定义时指出,专利法意义上的出版物可以是存在于互联网或其他在线数据库中的资料等[14]。同样,科技查新中对于新颖性的判断所检索的出版物应当包含网络资源。
所以,无论从查新工作的内涵,还是从查新业务外延来看,网络资源都是查新工作不能忽略的价值信息。
2 网络资源利用的问题和现状
查新领域的专业人员虽然知道网络资源的优势和特点,但2001年开始实施的《科技查新规范》未就网络资源纳入查新检索范围进行界定,致使查新员在检索应用中从互联网获取信息产生了障碍。一是没有依据的规章制度,实施起来规范性差;二是查新机构、查新员在繁重的查新任务和经济利益的平衡中,忽略了网络资源的利用;三是面对无序、庞杂、动态多变、价值差异大的海量数据,检索手段单一,检索效果较差。
新的科技查新技术规范(GB/T 32003—2015)(以下简称“新规范”)已于2016年4月1日起推荐执行。该规范在6.2.2.3 选择检索工具部分,对选择检索工具应遵循的原则进行明确规定,其中之一即是利用搜索引擎检索网络资源。上述有关规定不但肯定了网络资源的价值,而且解决了查新工作中资源选择规范性的问题,给网络资源应用扫清了政策障碍。即便如此,因为该规范是“推荐执行”,且不是所有的查新员都有利用网络资源检索的习惯和认识,在实际查新工作中,仍存在不能有效利用网络资源的情况。
主张查新不检索网络资源或忽略网络资源检索的主要原因:一是认为网络资源无法检全,这与查新检索评价的其中一个指标检全率相悖,所以在列举的数据库范围内检索被视为“逻辑上是合理的”;二是网络资源价值不一,一些诸如论坛、转载的信息,其叙述的随意性、不规范性、来源阐述不明、叙述过于宏观或简练等特点,与查新课题系统性研究不同,致使文献对比困难。
查新虽然是对查新项目的新颖性进行评价,但本质是一种情报咨询服务。情报咨询重在客观反映信息的竞争性价值、提供分析性参考。网络资源属于文献范畴,其特点有助于提供研究课题全方位、客观评价。所以,能够客观反映课题当前的研究情况,是查新的基本要求。网络资源对于仅有“一个想法”的浅层次表述,与科学研究并不矛盾。例如专利文献,往往就是一个“伟大的想法”,其实施和验证可能需要若干时间。例如上世纪40年代申请的展布频谱技术和频率跳变思想的专利“Secret communication system”[15],在其申请几十年后才大放异彩。从一个侧面可以看到,网络资源的公开及充分利用可能会影响查新项目的新颖性评价。所以,网络报道中那些浅层、无实际研发内容的思想不能因为仅是一个想法、一种陈述就否定其存在的价值。正是这种情况,反而需要查新员正确把握网络资源,对查新项目提供真正意义上值得参考的情报咨询服务。
3 案例分析
3.1 计算机领域
该领域查新课题普遍具有实用性,除理论、技术研究外,更多侧重于产品研发、功能实现和升级。而查新课题往往就是一个具体项目、软件产品、系统的研究。这类课题往往注重解决实际问题,架构、系统组成、方法虽都有所述及,但更多的是体现效果、功能特点。因此,从维普、万方数据、中国知网等综合数据库检索平台获取的文献,多限于专利、科技成果和学位论文,但数量不多,相关性也有待提高。但是对于产品类型的查新课题,其相关报道多见于网络,对比文献叙述的角度和深度与查新点可比性强,这类课题所具有的更新快、竞争激烈的特点也与网络报道的特点是一致的。鉴于上述原因,在综合数据库中检索的文献差强人意,相关性更高的文献往往出现在网络报道中。
以查新课题《×××拼车软件》为例,查新点一:多途经点拼车线路匹配搜索;查新点二:通过好友验证个人信息获得信用分数、对车主评分、对乘车人评分等3种信用评分体系建立全面的拼车双方信用机制。查新范围:国内。检索时间:2014年4月。
采用检索式:拼车*((线路+路线)*匹配+信用+等级+评分),利用维普、万方数据、中国知网等综合数据库检索平台进行检索,筛选获得3篇文献:《基于Google Maps API的拼车系统的研究与实现》《拼车服务》和《出租车拼车用车载终端》。这3篇文献指出了具体线路匹配的特征,但未否定查新点一的新颖性,且与查新点二的相关性较低。如仅以这些文献为依据整理查新结论,会给查新报告使用者造成查新项目相关研究比较少的假象,而且查新点均具有新颖性。
通过百度搜索引擎检索网络资源,可以获取很多同类型软件的公开报道。下面是摘录的部分说明:《×××拼车》《安全拼车低碳出行 我搭车拼车社交平台发布》《[实用工具] PickRide—信誉拼车好帮手》《PickRide乐搭》《尚力——基于Google Map的拼车网系统项目简介》《微拼车》《拼车社交应用我搭车发布新平台 提高线路匹配率》《爱拼车(2.1.0)》《拼啦——最好用的拼车软件》《AA拼车》《拼车六六》《彩虹拼车》《乐拼拼车 1.0》《全平台智能手机APP产品——拼车2.0震撼发布!》和《速卡拼车》。在这些文献中,《×××拼车》叙述了委托方的有关研究,有“线路列表和消息列表页面优化”设计,结合图片可知具有线路匹配功能;《安全拼车低碳出行 我搭车拼车社交平台发布》指出“建立在Google地图API上,通过出发地和目的地的经纬度匹配,结合经过数月研发的独创匹配算法,拼车的用户不仅仅局限于出发地和目的地相同的匹配,更是可以按照沿途顺路的线路匹配”,否定了查新点一的新颖性,而其他文献未否定查新点新颖性,属于一般相关文献[1]。
对比分析可知,网络资源共检出文献22篇,占此次查新检出文献的76%;相关性方面,查新结论中共选用19篇文献,其中16篇为网络报道,占84%,且含有委托方有关报道以及否定查新点一新颖性文献1篇。利用搜索引擎检索网络资源,获取的文献数量多,相关性更高,不但有委托方文献,而且有否定查新点一新颖性的文献。与仅通过综合数据库检索分析对比,查新结论有根本性的差异。
3.2 标准物质
该领域课题研究机构相对集中,公开成果少,专业性强。如果仅检索万方数据等综合数据库,获取的文献不但少,而且相关性不高,结论往往“具有新颖性”或“未见公开文献报道”。但如果利用搜索引擎,对网络资源进行检索,获取的文献相关性、数量会有很大不同。
以查新课题《含铅、砷元素乳状物的制备》为例,查新点:含铅、砷元素乳状物的制备。查新范围:国内。检索时间:2015年。
采用检索式“(标准物+标准物质)*(铅+Pb)*(砷+Se)”,利用维普、万方数据、中国知网等综合数据库检索平台进行检索,可以获得2篇相关文献:《香水、膏霜等四类化妆品中铅、砷、汞、甲醇标准物质》《水、乳、霜类化妆品中有害物质成分实物型标准物质的研制》。这2篇文献按照新的科技查新规范的规定,不是密切相关文献(与查新项目的查新点实质相同,单独否定查新项目新颖性的文献)[1]。如到此停止检索,该课题的结论是具有新颖性的。利用百度搜索引擎继续检索,在国家标准样品网和仪器信息网上可以查到《GBW09305-霜类化妆品基体中铅和砷成分分析标准物质》有关报道。该文献为密切相关文献,否定了查新点的新颖性。
对比分析可知,网络资源共检出文献10篇,占此次查新检出文献的32%;相关性方面,查新结论中共选用12篇文献,10篇为网络报道,占83%,且有否定查新点新颖性文献2篇。网络资源的检索导致查新报告有完全相反的结论,也是根本性的差别。
3.3 科学计量领域
该领域课题研究机构相对集中,公开成果少,专业性强,国外相关文献获取有一定难度。特别是对于研究指标的对比,综合数据库中公开内容很少,分析困难。
以查新课题《(18~26.5)GHz功率密度标准装置》为例,查新点:在×××中建立功率密度标准装置,用×××法实现18G~26.5GHz频段内不同频率和不同场强下电场探头的校准,校准场强可达300V/m,校准结果的不确定度为0.6dB(k=2)。检索范围:国内外。检索时间:2013年8月。
对于国内公开文献报道,利用以下两个检索式,即检索式一:题名=(功率密度+功率通量密度+比功率+LPD) AND主题=(标准+校准+溯源+不确定度+标准场),检索式二:(功率密度+功率通量密度+比功率+LPD)*(标准+校准+溯源)*(不确定度+标准场),采用维普、万方数据、中国知网等综合数据库检索平台进行检索,可以获得《2.45GHz功率密度标准的研制》《2.45GHz功率密度标准》《1-18GHz功率通量密度标准的研究》《18-26.5GHz功率密度标准的研究》《1-18GHz功率密度标准的研究》《微波功率密度校准仪》《微波功率密度校准的一种新方法》和《中国航天科工集团第二研究院二〇三所电磁兼容实验室》等相关文献。通过发文机构分析,可以了解到委托方、北京交通大学、上海科学技术大学和中国航天科工集团第二研究院二〇三所都在开展相关研究,其中中国航天科工集团第二研究院二〇三所的研究文献《中国航天科工集团第二研究院二〇三所电磁兼容实验室》的叙述还不够深入。利用百度搜索引擎对《中国航天科工集团第二研究院二〇三所电磁兼容实验室》进行进一步的挖掘,通过其官网可以获得该机构针对9KHz~40GHz电磁场传感器和探头(天线除外)校准方法研究的更为详实的信息,如上述研究频率响应:1V/m~200V/m(1GHz~40GHz),动态响应:1V/m~200V/m(1GHz~40GHz),U=2.0dB。这些信息可以与查新点技术特征进行更为全面的对比。另外,还可以通过中国计量科学研究院官网上“国内相关组织”“院属其他机构”的链接获取其他同行研究情况。
对于国外公开文献报道,采用检索式(power()density or power()flux()density or PFD) and (uncertaint? or error) and calibrat?(注:不同检索平台检索规则不同,此处未就相同或相近检索思路列举不同格式的检索式),利用Web of Science、Engineering Village和Dialog联机检索平台进行检索。检索到1篇英国NPL发表于1987年的文 献《Multi-octave devices for calibrating powerflux density probes》。从该文的摘要无法就相应频率、动态相应参数进行深入对比。如果基于上述结果,利用国外公开文献进行对比分析只能泛泛了解英国有相关研究。如果继续利用百度搜索引擎,通过国际相关机构官网就可以获取更有价值的信息。这些相关机构如:国际计量局(http://www.bipm.org)、国际测量技术联合会(http://www.imeko.org)、国际法制计量组织(http://www.oiml.org)、国际实验室认可组织(http://www.ilac.org)、美国标准技术研究院(http://www.nist.gov)、德国物理技术研究院(http://www.ptb.de)、英国国家物理研究院(http://www.npl.co.uk)、法国国家计量研究所(http://www.cnam.fr)、日本计量研究实验室(http://www.aist.go.jp)、韩国标准研究所(http://www.kriss.re.kr)、俄罗斯计量所(http://www.gost.ru)、加拿大计量局(http://www.nrc-cnrc.gc.ca/index.html)、新加坡生产力促进局(https://www.enterprisesg.gov.sg)等。从国际计量局网站“Electricity and Magnetism”可知,德国、意大利、韩国、荷兰、波兰、俄罗斯和英国7个国家具有高于50MHz电磁场校准能力。利用该网站还可以了解到澳大利亚NMIA、捷克CMI、俄罗斯VNIIFTRI、英国NPL、美国NIST、韩国KRISS等对功率密度校准频段都可达到GHz级别。具体地:英国NPL具有18GHz~40GHz的校准能力,其校准不确定度为0.35dB(k=2),校准场强为500V/m;美国NIST具有18 GHz~40GHz的校准能力,其校准不确定度为0.61dB(k=2),校准场强为1~200V/m;俄罗斯VNIIFTRI具有40GHz~178.4GHz校准能力,其校准不确定度为25E-02(k=2,置信水平95%)。瑞典SP对电场探头校准亦可达GHz级别。通过美国标准技术研究院官网也可以查询到英国NPL具有18GHz~40GHz的校准能力,但没有获得具体的指标。
对比分析可知,在国内文献检索中,共检出网络资源文献2篇,占此次查新检出国内文献的12.5%;在相关性方面,查新结论中共选用中文文献9篇,其中1篇为网络报道,占11%,网络报道文献未否定查新点新颖性,但对比深度增加。在国外文献检索中,共检出网络资源文献5篇,占此次查新检出国外文献的38%;在相关性方面,查新结论中共选用英文文献6篇,这6篇文献全部为网络报道,占100%,未否定查新点新颖性,但其相关性和对比深度增加了。
综合上述案例分析,检索网络资源,大大丰富了课题的对比文献数量,提升了相关性,即便是技术参数的对比,文献叙述的深度也能适度满足对比的需要,更加客观地展现了相关领域研究的实际情况。如果没有这些网络资源的补充,查新就相当于“漏检”,不能做到客观公正。但不同领域的查新课题,网络资源相关性在检出文献所占比重不同。因此在新规范下,查新员应培养利用网络资源进行检索的“习惯”,有的放矢,在有限时间内更为有效地利用网络资源补充检索结果。
4 网络资源辅助查新的方法
面对海量、无序、价值不一的信息,如何有效筛选获得相关性较强、价值较高的文献是查新工作的一个难题。现通过搜索引擎检索提出如下方法和注意事项。
4.1 搜索引擎使用技巧
网络报道中已经有很多公开的信息,对搜索引擎的使用方法进行了介绍,以百度搜索引擎为例,可以尝试检索“搜索引擎 使用技巧”获取。结合查新工作需要,将这些公开信息进行筛选、汇总,如表1所示。
特别指出的是,可以利用模糊匹配、英汉互译功能,对检索词扩展。利用“寻找特定类型文献”这种思想获取查新需要的文献信息,可以很好地弥补标准查新、专利查新等资源的不足。
4.2 反向检索
查新检索过程中,存在需要对检索文献的二次挖掘,这种方法形象地说就是“顺藤摸瓜”。如前述科学计量领域案例中,国内文献检索部分,利用搜索引擎对中国航天科工集团第二研究院二〇三所的进一步挖掘,可以获得更为详实、对比更为深入的信息。再如,针对转载、论坛的文献,可以通过其中报道的机构信息、项目信息等获得权威机构、报道对象官网,如能从这些途径获取,则说服力更高。
表1 搜索引擎使用技巧
4.3 针对性检索
科技查新需要查新员具有一定专业背景。随着查新工作内涵外延的深化和扩展,要求查新员需要具备更综合的理论和检索素养,所以,查新员需要注重自身素养的提高,注重知识的累积,学习并总结某一领域网络资源[3-8],如科学计量领域、标准物查询、标准领域、医学领域、化工领域、农业科学领域等,可以有效地在检索中做到有的放矢,改善检索结果。
4.4 补充式检索
根据查新课题专业特点,查新员需要对文献产出类型、相关性有一个判断。如计算机领域课题,实际的研究情况与数据库文献有偏差。在数据库检索的基础上,利用搜索引擎可以从大主题把握,获取同行的相关研究,对于查新点细节的对比,检索时可以借助搜索引擎使用技巧,进行更为精细的检索。再如,专业性很强的化学反应中间物合成课题,即使对美国化学文摘(CA)进行了检索,仍有漏检的可能。原因就在于中间物合成可能是一个复杂反应体系的一小部分,作者对上下游反应的扩展很多,加上不同文献合成的重点不同,CA很难做到对所有物质一一标引。如果辅以美国化学学会官网检索,文献涉及的复杂的反应体系能以图片形式输出,查新员利用这些图片信息可以很直观地分析有关中间物的合成信息。
查新工作需要进行新颖性判断,更重要的是要求查新员能够客观阐述与查新点有关的公开文献情况,提供的是一种价值信息参考。虽然对于公开文献真实性的把握不属于查新范畴,但在网络资源的利用上需要有所选择。例如可以摘选权威、官方机构发布信息;对于相关性高的报道,应找到原始出处;对于报道内容不一致问题,应选取多数一致的文献;选择发布时间早的信息等。另外,因为查新是以查新点为依据,对查新项目的新颖性做出文献评价,因此考虑到网络报道叙述深度不一、叙述有限的情况,对于否定新颖性的网络报道,在项目的整体先进性评价中应权衡考虑。
5 总结
(1)网络资源属于文献范畴,在查新工作的内涵、查新业务外延范围之内,推动了查新的自我校正。网络资源纳入查新范畴体现了科技查新迎合时代发展、顺应时代要求的进步性。
(2)网络资源是查新检索资源的有益补充,提高了文献保障率,是情报咨询工作重要信息来源。
(3)网络资源可以提升查新检索文献的相关性,有助于深度挖掘文献和提高文献对比力度。
(4)网络资源很好地弥补了传统数据库资源收录滞后性的缺陷,与新颖性证明的时效性一致。
(5)免费、易获得的网络资源在查新前期信息收集、检索策略调整过程中,简化了检索过程,加快了信息获取速度,减轻了查新员工作负担。
随着新的《科技查新技术规范》(GB/T 32003—2015)的推荐执行,要求查新机构和查新员重新认识并注重网络资源检索。在数据快速增长的时代,如何获取有用的价值信息是查新员面临的一个难题。对网络资源的利用方面,不能仅仅停留在已知、了解的基础上,还应在查新实际操作中,有针对性地检索网络资源。这个工作不但需要查新员具有较强的责任心,而且只有在查新生态发展的环境下,发挥查新专业委员会的政策导向性,发挥各个查新机构管理和执行上的规范性,才能发挥这些价值信息更大的作用,为查新所用,更好地服务情报咨询工作。