Web of Science®的数据库结构分析及其功能应用
2009-07-10袁豪杰陈耀军
袁豪杰 陈耀军
〔摘 要〕本文直接通过网络的各种特色功能的分析,从而以逆向工程的方式再现Web of Science®系统的数据结构情况和软件架构特色,着重分析了WOS在个性化服务和引文分析方面的特色,从而给使用该数据库的用户和国内外的其它数据库商提供一些新的认识,能为用户提供更好的数据库结构分折及功能应用,同时也为数据库商能进一步完善现有数据库系统提供借鉴。
〔关键词〕SCI;数据库;信息检索;分析应用
〔中图分类号〕G252.7 〔文献标识码〕B 〔文章编号〕1008-0821(2009)05-0117-04
On the Structural Analysis and Functional
Application of Web of Science® DatabaseYuan Haojie Chen Yaojun
(Library,Ningbo Polytechnic,Ningbo 315800,China)
〔Abstract〕Through the analysis of various characteristic functions on network,the thesis reproduced the digital structure and software structural features of Web of Science® system and stressed on the features of WOS in the aspect of individualized service and quotation analysis.All of these offered some new understanding for the customers and other suppliers of this database at home and abroad,better structural analysis and functional application of the database and provided references to database dealer to further perfect the current system.
〔Keywords〕SCI;database;information retrieval;software analysis
1 Web of Science®简介
Web of Science®(简写为WOS)是汤姆森公司旗下汤姆森科技信息集团所推出的ISI Web of Knowledge平台环境的核心。汤姆森公司(The Thomson Corporation,网址:http:∥www.thomson.com/about/)是全球专业信息服务和出版领域最大、最领先的跨国企业,为全球各领域130多个国家2 000多万用户提供服务。汤姆森科技信息集团(Thomson Scientific,网址:http:∥www.scientific.thomson.com)隶属于汤姆森公司(The Thomson Corporation),所提供的信息资源与服务包括学术期刊、学术会议录、发明专利、技术标准等,提供大量的学术数据库。其中ISI Web of Knowledge就是其主打产品,该产品是一个基于Web而构建的整合的数字研究环境,通过强大的检索技术和基于内容的连接能力,将高质量的信息资源、独特的信息分析工具和专业的信息管理软件无缝地整合在一起,兼具知识的检索、提取、分析、评价、管理与发表等多项功能,从而大大扩展和加深了信息检索的广度与深度,加速科学发现与创新的进程。ISI Web of Knowledge以Web of Science为核心,凭藉独特的引文检索机制和强大的交叉检索功能,有效地整合了各种学术信息资源等,各行业提多个领域中高质量、可信赖的学术信息;在功能上,ISI Web of Knowledge提供了强大的知识发现与管理工具帮助研究人员迅速深入地发现自己所需要的信息,把握研究发展的趋势与方向。ISI Web of Knowledge拥有全球81个国家的2 000万用户,每天有超过15万使用人次。作为ISI Web of Knowledge的核心Web of Science®数据库收录了9 000多种世界权威的、高影响力的学术期刊,内容涵盖各个领域。包括Science Citaton Index 〦xpanded®(1900年至今)、Social Sciences Citation Index®(1956年至今)、Arts & Humanities Citation Index®(1975年至今)、Index Chemicus®(1993年至今)以及Current Chemical Reactions®(1986年至今)5个数据库。另外,Web of Science®还收录了论文中所引用的参考文献、并按照被引作者、出处和出版年代编制成索引。通过独特的引文检索,您可以用1篇文章、1个专利号、1篇会议文献或者1本书的名字作为检索词,检索这些文献的被引用情况,了解引用这些文献的论文所做的研究工作:您可以轻松的回溯某一研究文献的起源与历史,或者追踪其最新的进展,即可以越查越旧,也可以越查越新,越查越深入。
2 Web of Science®功能特点和应用举例
2.1 Web of Science®功能特点
(1)使用参考文献回溯的方法,发现对作者工作产生重要影响的研究。
(2)在使用Times Cited时向前浏览,发现某篇论文或其它出版物对当前研究的影响。
(3)链接到重要文献的全文。
(4)记录可直接输出到著名的学术信息管理程序EndNote®、Reference Manager®和ProCite®中。
(5)对检索结果进行多角度、可视化的全景分析。
(6)定制引文跟踪服务。
(7)查看相关文献共有的参考文献数以及这些共有参考文献的内容。
(8)更有效地利用被引文献检索,可以找到如何有效使用被引文献检索这一功能的在线教程。
(9)方便地利用“导航字典”查找Web of Science中收录的作者的姓名、团体作者、被引作者姓名、期刊名称、被引期刊名称。
(10)用户在使用快速检索功能时,系统会自动调出最近经常使用的检索词,用户可以很快地看到关于这个检索词有没有新的数据更新进来。
(11)根据自己的需要做灵活的个性设置。
(12)(Web of Science 7.0取消了原来对检索结果只能看到前500条的限制。)
2.2 Web of Science®的应用举例
(1)发现有谁在引用你的研究,以及你的工作对全球研究界的影响。
(2)找到某个重要理论或概念的开创性研究。
(3)衡量同事或竞争者工作的影响。
(4)跟随当今最热门的想法和概念的思路和方向。
(5)确定某个理论是否已被证实、更改或改进。
(6)找出一个基本概念是如何被应用的。
(7)在几年间的研究文献中追踪某个题目。
(8)验证参考文献的准确性。
(9)找出在标题或主题检索中遗漏的相关文章。
(10)利用论文间天然的引用与被引用关系,进行滚雪球式的检索,不会遗漏重要的文献。
(11)借助引文数据评估同事、竞争对手,以及自己的研究工作在行业内的影响力。
(12)查看某一个理论是否已经被证明、被肯定,甚至被修改。
(13)在全球范围找到研究合作者。
以上所有的功能特点和应用举例都取决于以下对WOS的基本数据架构,也就是说所有的功能特色都取决于以下所分析的内容。
3 Web of Science®基本框架分析
3.1 Web of Science®数据库基本表及其字段属性
从检索结果详细记录(Full record),可以推出Web of Science®数据库最基本表将包含以下字段:
(1)标题(Title):是论文的完整标题。
(2)作者(Author):包含作者的姓和不超过5位的名字的首字母。
(3)文献标题(Source Title):是论文发表的期刊的名称,同时含有卷、期和页码信息。
(4)参考文献(Cited References):包含作者在其发表论文的参考文献列表中列出的文献目录。
(5)被引次数(Times Cited):指该论文自发表以来被数据库收录的其他论文的引用次数。
(6)相关记录(Related Records):指数据库中的与您正在浏览的记录共同引用了1篇或多篇相同参考文献的那些文章。
(7)摘要(Abstracts):如果文章存在作者提供的英文摘要,则摘要被数据库索引。
(8)作者关键词(Author Keywords):指由作者提供的关键词。
(9)扩展关键词(Keywords Plus):指从文章的参考文献的标题中提取的关键词。
(10)作者地址(Address):所有的作者地址都被索引。文章责任人地址被列在最前面,随后是研究人员地址。注意除文章责任人以外,其他作者姓名顺序与作者地址不一一对应。
(11)作者邮件地址(Author Email Address):如果原文中则给出邮件地址。
(12)学科分类(Subject Category):指的是期刊的学科分类而不是文章的学科分类。这里所提供的学科分类与Journal Citation reports的分类完全相同。
(13)文档类型(Document Type):文章的类型,SCI的全部文档类型有:
Article;Abstract of Published Item;Art Exhibit Review;Bibliography;Biographical-Item;Book Review;Chronology;Correction;Correction,Addition;Dance Performance Review;Database Review;Discussion;Editorial Material;Excerpt;Fiction,Creative Prose;Film Review;Hardware Review;Item About an Individual;Letter;Meeting Abstract;Meeting Summary;Meeting-Abstract;Music Performance Review;Music Score;Music Score Review;News Item;Note;Poetry;Record Review;Reprint;Review;Script;Software Review;TV Review,Radio Review;TV Review Radio Review,Video;Theater Review
(14)文章所用语言(Language):原文是用什么语言写的。
(15)IDS号(IDS Number):这是SCI为每篇文章或期刊编的号码。SCI总共有49种语言的选择范围。
(16)ISSN号(ISSN)国际标准连续出版物号。
该数据表的关键属性(关键字)要么在上面的字段中没有体现,如果从以上的属性里存在一个关键属性,那么该关键字可能就是IDS Number。有了基本表和其它相关联的表,数据库的各种功能特性就可以根据这些表的字段进行开发。而通过关键字和各字段的关系进行论文和论文之间错综复杂的引用关系形成了整个WOS的特色,也正是这样简单的数据库表就可以提供各种复杂的数据库应用。
3.2 WOS的用户结构分析
用户数据是WOS各种个性化服务的基础,包括对购买库和追溯时间的限定,保存每个人独立的搜索结果等等。WOS的用户结构是分两个层次的,第一是机构用户,按IP地址段作为关键字属性(或者与IP地址段惟一对应的关键字),Web of Science一般不直接对个人客户开放,都中由机构购买,购买后将机构所对应的IP地址报给汤姆森科技,由汤姆森科技公司相关部门将相应的权限赋予相应的IP地址。用户进入ISI Knowledge主页后网站将自动根据IP地址来呈现所买的数据库和可追溯时间。第二是机构内的个人用户,个人用户由使用者自行注册,注册完成后用户可以选择自动登录。登录后WOS根据个人用户所登录的信息提供完全个性化的服务。也就是说,您进入的每一个WOS页面,WOS都是完全针对您的情况提供相应的服务的,根据用户当前所处的页面的位置针对性的提供相应的工具和链接选项。个人用户在使用WOS,从主页进入后即可以通过“register”注册一个自己的用户账号,该账号以电子邮件为关键字属性。WOS的密码结构也是比较特殊的:至少8个字符并且要包含至少1个数字和特殊字符(!@#。模S%^*()~`{}[]|\),这样的密码结构甚至比网上银行要求还要严格得多,从而进一步保证使用的安全性和惟一性,为个性化服务打好基础。该用户表同ISI另外一个服务EndNote的用户表是相通的,也就是说在EndNote上注册的用户可以无需注册直接在WOS上使用。就像微软提供的Passport服务(现又叫Windows Live Id)一样,可以通过共用数据表或者采用分布式数据库的方式实现。
从注册表单里可以看出用户表的基本属性包括:
(1)名(First Name);
(2)姓(Last Name);
(3)Middle Initial;
(4)密码(Password);
(5)电子邮件(E-mail Address);
(6)主要角色/头衔(Primary Role/Title);
(7)学科领域(Subject Area);
(8)自动编参考文献所用软件(Bibliographic Software Use);
(9)其它可选项(Opt in/Opt out);
(10)是否自动登录(Automatic Sign In)。
正是通过以上的注册内容,WOS为个人用户提供完全个性化的服务和特殊服务,如(引文通知,保存搜索结果,自定义起始页等等)。WOS并没有要求填写非常多的字段,不像很多的数据库商或网上应用那样要求填写很多的并不相干的内容,什么性别,住址,电话等等。WOS只需填写必要的字段,提高用户使用的友好性。这里需要说明的一点是,WOS的姓名我们中国人用起来会不大习惯,包括论文的作者,WOS是根据Last Name,即姓为主要的字段,这可以从它的Author Finder(按作者查找)里体现出来,而像中国同姓的人就实在太多,不便于查找。
3.3 WOS的作者、期刊及机构属性
WOS对文章的作者,所属的期刊以及作者所属的机构是分别进行了索引的。从WOS新推出的功能“作者查找(Author Finder)”的4个步骤可以看出作者具有的字段性属性包括:作者的姓(Last Name),作者名的第一个字母(First Initial),中间名最多3个字母(Middle Initials),作者研究的学科分类(Subject Category),作者所在机构(Institution)。作为作者表,还可以包含作者的地址,电子邮件等。“Last Name”作为必选项,所以姓是作者的主要字段。WOS对以上这些信息进行了索引,正是新推出功能“Author Finder”的基础。WOS在从检索结果里可以看出文章出处的期刊名称,券号,期号,出版日期等信息,但在WOS里对具体的期刊索引没并有体现出来,从汤姆森科技集团的另一个网站:http:∥scientific.thomson.com/mjl/可查到期刊的索引,这里对期刊的字段进行索引的有:期刊名称,期刊出版周期,ISSN号,出版社名称,出版社所在详细地址。
3.4 Web of Science的主要搜索类型
Web of Science共有多种类型的搜索方式在所选的库(如SCI-EXPANDED,SSCI,A&HCI)和所选的时间段内进行搜索,所选的库和可追溯时间根据购买情况决定。现对主要搜索类型分述如下:快速搜索,点击“WELCOME”按钮会进入快速搜索,只需在填入几个关键词即可以从所选的数据库和相应的时间段内进行搜索。WOS有一个个性化的特性是可以把您的搜索结果保存起来,按钮可以把以前保存的搜索结果打开。该搜索类型里的功能 “创建新的会话”的意思是将清除所有的以前保存的表单,标记列表和搜索历史。普通搜索比快速搜索提供了更多的选项,可以通过主题(TOPIC),从文章标题,摘要和关键字中进行搜索,还可以使用布尔符号和通配符进行;也可只针对标题进行搜索(Title only);或通过作者(AUTHOR)查找,作者可以从专门编制的作者索引中查找,还可使用查找作者方式(Author Finder);可通过机构作者(GROUP AUTHOR)限定到指定机构作者中(WOS对机构作者也作了索引);还可限定来源,即期刊标题(SOURCE TITLE)进行查找,同时提供完整的期刊列表可供选择;另外还可限定出版年份(PUBLICATION YEAR);或从作者地址(ADDRESS)中和限定文章的语言进行查找。在论文的领域里,人们比较关注的是该论文被哪里引用,从而看到该论文的各种拓展,这也是SCI引文索引最大的功能特色。在WOS里还可以通过被引作者(CITED AUTHOR)查找,或通过被引工作(CITED WORK)的期刊标题,专利号等来查,以及通过被引年份(CITED YEAR)来查看被引文献情况。结构搜索,显然WOS根据化学结构的特色建立了专门的结构化数据库,通过浏览器插件的方式查看化学结构。本文对该种搜索方式不再作进一步的分析。高级搜索,它是通过标签的形式以特定的语法进行搜索,这是对General Search的方式的扩展。WOS的全部标签为:TS=Topic(主题),TI=Title(标题),AU=Author(作者),GP=Group Author(机构作者),SO=Source(来源),PY=Publication Year(出版年份),AD=Address(地址),OG=Organization(组织),SG=Suborganization(分组织),SA=Street Address(街道地址),CI=City(城市),PS=Province/State(省/州),CU=Country(国家)ZP=Zip/Postal Code(邮篇)。在高级搜索里可以使用布尔运算方式:全部的布尔运算符包括:AND,OR,NOT,SAME。在高级搜索中还包含,也就是说可以对自己的历史搜索结果进行相应的整合,从而产生新的搜索式和新整合的搜索结果。
4 WOS对搜索结果处理的功能特点分析
4.1 对结果进行提炼
WOS可以根据主题类别(Subject Categories),期刊名称(Source Titles),文档类型(Document Types)、作者(Authors)、出版年份(Publication Years)、国家/区域(Countries/Territories),机构(Institutions)、语言(Languages)进一步提炼结果,缩小搜索范围,快速找到想找的内容。以上者是与基本表相关的一些字段属性,通过系统的的实现上,用SQLl表达式就可以快速的限定搜索范围。
4.2 结果排序功能
对结果进行排序,可以根据日期(Latest date),被引次数(Times Cited),相关性(Relevance),第一作者(First author),期刊名称(Source Title),出版年份(Publication Year)进行排序,这些数据也是在基本表中。用SQL表达式的Order By功能即可实现。
4.3 结果分析功能
对搜索到的结果按照相应的等级进行排列输出,以图表的方式,一目了然。分析的内容可以为作者(Author)、国家/地域(Country/Territory)、文档类型(Document Type)机构名称(Institution Name)、语言(Language)、出版年份(Publication Year)、期刊标题(Source Title)、主题类别(Subject Category),分析结果以图表的形式显示。从中又可以进一步的选择相应的结果。它的分析是递归式的,对选出的结果可以重新进行分析,直到自己满意为止。这种递归式的分析只要基本表和逻辑清淅即可,每一次递归都遵循同一个逻辑,对于计算机程序来说只是简单的一次重复,实现上难度并不大,但在使用上却大大的方便了使用者。
5 WOS主要的个性化服务体现和功能模式在国内的应用
以上的分析已经全面的涵盖了整个WOS体现,WOS的各种应用都是从上面的特性出发,体现在个性化上的功能有:记录标注(Marked Records),搜索时一眼就可以看到哪些是自己曾经标注过的,这些工作要是自己一条一条的收集记录会增加非常多的工作量。保存搜索记录(Saved Searches)对于要查找的内容经过几次的递归得到一个满意的结果,把搜索出来的这些结果保存起来,下次要用的话直接调出来即可。引文通知(Citation Alerts),文章被其它人引用时自动得到通知,这要是人工去做的话那就是经常性的徒劳无功。其实WOS也可以提供一个功能是搜索式通知,即同一搜索式出现新的文章时进行个性化通知的功能。
WOS的有些机构或使用者需要对本机构内或者某一范围内论文是否被SCI索引进行研究分析,在期刊上也经常可以看到这种类型的论文。其实这种分析在WOS是比较容易实现的,根据实际需要出发,通过搜索经过几次递归即可产生符合自己需要的搜索结果,保存这些搜索式结果或作上标记,还可用WOS自动的对论文进行分析,下一次还可以将保存的结果打开,分析的结果比用户自己的统计还要精确。
由于SCI在有研究的选刊和期刊影响因子计算,遵循着科学论文的二八定律,高质量的科学引文索引是SCI各种应用的保证。中国的三大期刊全文数据库万方,中国知网和维普,除万方的期刊质量稍好一些外,都没有像SCI那样有着高质量的选刊标准。高质量和高标准也意味着在数据的处理上有更多的规范可以遵循,有了相应的规范则数据的处理就会变得简单。另外WOS里分析出来的结果的价值自然要比一般数据库里分析出来的价值要高,这样就有更多的用户愿意使用其分析功能。因此,这些数据商如果要提供类似WOS的服务,首先要对期刊进行遴选,然后可以参考WOS提供分析和个性化服务。
借签SCI的特色,中国科学院科学数据库推出了“中国科学引文数据库”,在期刊的遴选上作了一些工作,收录了中英文科技核心期刊和优秀期刊近千种,提供了引文索引,被称为“中国的SCI”。并于2002年开始提供网络版,以“中国科学文献数据库服务系统”的形式提供统一服务。虽然在某些方面借签了SCI的一些特色,但在分析功能上远远没有达到WOS的程度。
参考文献
[1]赵云亭.新一代学术信息资源整合体系——ISI Web of knowledge[J].现代情报,2004,(1):57-58,60.
[2]杜永莉,陈锐.Web of Science最新版检索及其新功能介绍[J].现代情报,2005,(10):108-109.
[3]http:∥isiknowledge.com[EB].2007-06-04.