我国中文数据库在世界一流大学的购买情况研究
2021-09-05刘梦影陈益君
刘梦影 陈益君
[摘 要] 通过介绍我国数据库出版概况,利用网络抓取USNEWS世界排名前20一流大学的数据库信息,清洗并统计国际一流大学我国中文数据库的订购信息,讨论国际一流大学倾向订购的通用性中文数据库和选择性中文数据库。从国际一流大学市场占有率的角度分析我国中文数据库的国际影响力现状,并从重视国际营销、提升内容质量和运用先进信息技术三个方面提出在国际一流大学推广中文数据库的建议。
[关键词] 一流大学 中文数据库 购置信息 影响力 国际营销
[中图分类号] G239[文献标识码] A[文章编号] 1009-5853 (2021) 04-0104-07
[Abstract] Through introducing the general publication situation of Chinese databases and fetching data from databases of universities rangking Top 20 in USNEWS World University Rankings,this study summarizes the statistics of Chinese databases purchased by those universities,and discusses what Chinese databases of high universality are more preferred by world-class universities. The study analyzes the international influence situation of Chinese databases from the perspective of market share in world-class universities,and puts up three suggestions to promote Chinese databases on the world-class universities scale: to attach importance to international marketing; to improve contents quality; to adopt advanced information technology.
[Key words] World-class university Chinese database Purchase situation InfluenceInternational marketing
随着科学的进步,新技术应运而生,数字出版产业快速发展。数字出版,是指数字化的出版方式,即采用二进制的数字化手段进行的出版活动[1]。《“十三五”国家战略性新興产业发展规划》明确指出要促进数字创意产业蓬勃发展,促进文化科技深度融合、相关产业互相渗透[2]。数字出版产业的重要产品之一为数据库。数据库通常指电子数据库,是指经系统或有序的编排,并可通过电子手段单独加以获取的独立的作品、数据或其他材料的集合[3][4]。数据库作为知识的集成出版,对海量无序的知识进行整理集成,对于保护知识产权,促进文化传播具有重要意义。我国数据库较国外起步较晚,初期以引进国外数据库为主,近些年发展迅速,具备了一定的国际影响力。本文从世界一流大学市场占有率的角度,对我国中文数据库的国际影响力进行分析。
1 我国数据库出版情况概述
国际上数据库起源可以追溯到20世纪50年代,其典型代表为1951年美国联邦调查局建立的数值数据库。我国数据库出版,从20世纪70年代起步,经历了探索期、试验期和市场化运作期。1993年,我国第一家数据库专业公司“万方数据公司”正式成立,同年重庆维普和北京超星成立[5]。20世纪90年代,我国多个自建数据库落地,电子工业出版社、人民邮电出版社等一批掌握先进IT技术的专业类中央级出版单位提出开发自主信息管理系统,数字出版产业进入萌芽与初期发展阶段。进入21世纪,随着网络通信技术与数字媒体的发展,我国数据库出版进入高速发展阶段[6]。
国内的文献数据库通常分为:期刊数据库、电子图书数据库和古籍数据库等类型。期刊数据库以中国知网、万方、维普、人大复印报刊资料、龙源期刊网等为代表;电子图书数据库以超星、方正、书生之家等为代表;古籍数据库以汉达文库、古今图书集成、国学宝典、中国基本古籍库等为代表。
2 中文数据库在世界一流大学订购统计
本次研究依据知名世界大学排名体系,选取排名前20的研究型大学,通过访问其图书馆主页,获取每个图书馆订购数据库清单,根据清单筛选出我国出版的中文数据库,经过数据清洗归并后进行具体分析。
2.1 一流大学数据库订购统计
目前知名的世界大学排名体系主要有:夸夸雷利·西蒙兹公司(Quacquareli Symonds)发布的世界大学排名(QS World University Rankings,QS),上海交通大学发布的世界大学学术排名(Academic Ranking of World Universities,ARWU),泰晤士高等教育发布的世界大学排名(The World University Rankings,The),美国新闻发布的世界大学排名(US News Best Global Universities,USNEWS)等。本次研究选择USNEWS 2019年发布的世界大学排行[7]前20的一流大学为研究对象,统计每个一流大学图书馆的数据库订购情况。由于排名20位的伦敦帝国学院数据库组织方式较为特殊,无法获取其订购信息,选用排名21位的伦敦大学学院替补。20所研究型大学的数据库订购详情见表1[8-27]。
20所大学所在国家母语均为英语,其中包含16所美国高校,3所英国高校,1所加拿大高校。由于各高校图书馆在进行数据库揭示时选用不同的标准,造成数据库订购情况统计难度,需要对中文数据库的订购比例进行归一化处理,中文库订购比=某大学中文数据库订购数量/该大学数据库订购总量。统计显示,加州大学圣地亚哥分校的中文数据库订购率最高,订购比近10%;哈佛大学、斯坦福大学、耶鲁大学和密歇根大学安娜堡分校中文数据库订购比均超过5%;麻省理工学院、剑桥大学、多伦多大学和伦敦大学学院中文数据库订购率较低,不足1%;加州理工学院未订购中文数据库。订购中文数据库比例较高的多为综合型高校,理工类高校整体订购中文数据库比例较低。从地域看,美国TOP高校中文数据库订购比为4.17%,英国TOP高校中文数据库订购比0.99%,排名前20仅有1所加拿大高校,訂购比例为0.34%。
2.2 一流大学中文数据库订购分析
为了统一数据标准,首先对抓取的中文数据库进行清洗和归并。国外TOP高校共订购中文数据库236个,其中由5所以上高校共同订购的数据库共38个,这批共性数据库为后续分析的清单基础。
从38个数据库的版权地情况来看,以中国大陆为主,共30个,占比78.95%;版权地为中国台湾的数据库5个;版权地为中国香港的数据库3个。从数据库类型情况分析,以学术数据库和古籍数据库为主,学术数据库共16个,占比42.11%;古籍数据库共11个,占比28.95%;报纸数据库4个,占比10.53%;其余类型为事实数据库、新闻资料库、电子图书数据库、民国期刊数据库等。从出版商统计,万方、爱如生均有出版中国方志类数据库,四库全书常见爱如生和文渊阁版本,由于无法进入图书馆数据库详情页,方志库和四库全书无法确定出版商。38个数据库共涉及22个出版商,除方志库和四库全书数据库外,其余36个数据库中出版数据库最多的厂商为中国知网,共6个,占比16.67%;其次为爱如生和万方,各4个,分别占比11.11%;涉及2个数据库的出版商有:方正、华艺数位股份有限公司、上海图书馆、中央研究院历史语言研究所、超星。
3 中文数据库在国际一流大学市场的表现分析
国际一流大学更倾向于订购中文古籍数据库和学术数据库,学术数据库更倾向于订购综合学科海量数据库和人文社科数据库。
古籍数据库是中国古籍数字化的产物。中国历史文化悠久,历朝历代文献积累丰厚。近些年来随着科技水平的提升,数字人文的兴起,古籍数据库已渐成规模,对古籍的保存与利用起着重要作用。古籍数据库可以分为:古籍电子索引、古籍书目数据库和古籍全文数据库三类[28],其中全文数据库按资源类型包含图像型、文本型和图文并存型。我国古籍数据库知名的出版机构有:爱如生、书同文、中央研究院等。
学术数据库又称专业数据库,是为学界、业界人士科学研究提供参考资料的专业学科数据库,根据服务学科情况又可以分为综合多学科数据库和单一学科数据库。我国学术数据库知名出版机构有:中国知网、万方、重庆维普、北京超星、方正阿帕比(Apabi)等。
本次研究将订购高校超过10所的数据库归类为国际一流大学通用性数据库;将订购高校在5所至10所的数据库归类为国际一流大学选择性订购数据库,并对具体情况进行简要论述。
3.1 国际一流大学中文通用性数据库
常用数据库是指那些能够满足大多数用户相同或相似信息需求的电子文献资源,也可以称之为通用性数据库[29]。根据统计情况,我们将国际一流大学通用性的中文数据库确定为11个,具体情况见表2。
从表2可知,中国方志库有14所大学购买,是最受国际一流大学欢迎的数据库,其次是汉达文库和知网中国期刊全文数据库,分别有13所和12所大学购买。在所列的11个通用性数据库中,古籍类数据库有6(54.55%)个,均为全文古籍库,学术数据库有4(36.36%)个,均为综合性多学科数据库,报纸类数据库1(9.09%)个。
3.2 国际一流大学中文选择性订购数据库
从统计情况来看,国际一流大学选择性订购的数据库有27个,其中学术数据库12个,古籍数据库5个,报纸类数据库3个,事实数据库2个,新闻资料数据库2个,电子图书数据库2个,民国期刊数据库1个。
学术数据库按照订购高校数量从高到低分别为:北大法宝(9所)、全国报刊索引(9所)、中国文史资料集萃(9所)、中华数字书苑(7所)、中国当代政治运动史数据库(7所)、世纪期刊(6所)、台湾电子期刊服务网(6所)、中国硕士学位论文(6所)、中国博士学位论文(5所)、国家哲学社会科学学术期刊(5所)、新方志(5所)、万方中国学术期刊数据库(5所)。从具体学科分析,其中北大法宝为法律专业学术数据库,中国文史资料集萃为文史专业数据库,新方志为方志专业数据库,中国当代政治运动史数据库为政治史专业数据库;其余7个数据库为综合性数据库。从资源类型分析,中国硕士论文数据库和中国博士论文数据库为学位论文资源;世纪期刊、台湾电子期刊服务网和万方中国学术期刊数据库为电子期刊资源;其余数据库均涉及期刊、图书等多种资源类型。
古籍数据库按照订购高校数量从高到低分别为:古今图书集成(9所)、中国俗文库(8所)、四部丛刊(7所)、中华经典古籍库(6所)、内阁大库档案(5所),均为全文古籍库。中华经典古籍库为中华书局推出的大型古籍数据库产品,也是中华书局校本古籍的首度数字化;四部丛刊由张元济先生根据具体版本汇集中国古籍经典编纂而成,被誉为“文史工作者必备工具”;古今图书集成为清代官修类书;中国俗文库专门收录自唐宋来中国传统社会底层流行文献;内阁大库档案是研究制度史的重要材料,包含四千多件明代文书,三十多万件清代档案。
报纸数据库按照订购高校数量从高到低分别为:《申报》(9所)、《解放军报》(7所)和中国重要报纸全文数据库(5所)。《申报》是中国近代发行时间最久,社会影响最广泛的报纸,是现代报纸的标志开端;《解放军报》是由解放军报社出版的中央军委机关报;中国重要报纸全文数据库隶属于中国知网,涉及2000年以来中国重要报纸文献。
事实数据库分别为:中国人口普查数据库(9所),由国家统计局进行数据统计与出版;中国统计年鉴数据库(7所),隶属于中国知网,汇集全国重要历史年份和近年的经济社会统计数据。
电子图书库分别为:阿帕比数字图书馆(6所),隶属于方正,提供7万余种中国出版的电子新书,内容涉及多个学科和精品畅销书籍;华艺中文电子书(5所)汇集台湾地区近千家出版社优质出版的书籍。
民国期刊全文数据库由上海图书馆出版,内含民国时期出版的25000余种期刊,集中反映这一时期政治、军事、外交、经济、教育等情况。
3.3 中文数据库在国际一流大学市场表现分析
数据库的国际影响力是由多方面的因素决定的,其内容的质量与特色,数据库的规模与历史,使用对象的数量、范围与地域,平台的技术、知识组织和知识发现的功能等都直接或间接影响数据库的知名度,而数据库的国际市场占有率,很大程度上体现着数据库受用户欢迎的程度。
TOP20大学购买的中文数据库共涉及236个,10所以上高校共同选购的数据库只有11个,5所至10所高校共同选购的数据库有27个,仅有1所高校订购的中文数据库数量高达137个,占比达中文数据库订购总量的58.05%。购买中文数据库数量最多的是斯坦福大学达到193个,低于10个中文数据库的院校高达6所,占比高达30%,其中加州理工学院订购0个中文数据库,多伦多大学订购1个,伦敦大学学院和加州大学旧金山分校订购4个,剑桥大学也只订购5个。这在一定程度上表明,国际名校对中文数据库的依赖性不高,或者说中文数据库还没有形成核心数据库或高国际影响力数据库,由于知名度和影响力不足,被国际知名院校无视或忽略。究其原因可能是多方面的,既有中文数据库资源整合程度不高、平台技术水平不足的问题,也存在高质量的学术论文大量发表在国外期刊上、一定程度上影响了国内期刊数据库的质量,也可能是学科与语种等方面的问题。
4 提升中文数据库国际影响力的建议
4.1 重视国际营销
重视国际营销是推广中文数据库的重要策略。本次研究发现中文数据库在国际一流大学图书馆的数据库名称表达方式纷杂不一,有英文名称,也有中文名称,英文名称有翻译成英文的名称,也有中文名称的拼音,同时还出现同一个数据库存在同语种多个别名的情况。这不仅对数据归并造成困难,也在一定程度上阻碍了中文数据库的国际推广。研究和制定中文数据库的对外推广标准,是在国际市场推广中文数据库的迫切需求。爱思唯尔早在20世纪80年代着力开拓中国市场,除了成立中国办事处外,还积极与中国科研机构合作,在编辑和评审队伍中吸纳中国学者,与中国本土出版机构合作,结合中国国情灵活定制销售方案等。同时,爱思唯尔通过对自身特色数据库的开发还发布“中国高被引学者”榜单[30]来吸引学术界关注。在全球经济一体化浪潮下,中国出版机构需要立足国际视野,拓展国际市场,对接国际标准,加强与国外出版机构合作,结合国际客户需求推广中文数据库,扩大中文数据库的国际影响力。
4.2 提升内容质量
提升内容质量是推广中文数据库的重要支撑。我国的学术数据库,往往存在版权不够清晰、缺乏独家内容等问题。例如,中国知网、万方、超星、书生之家等几大厂商之间订购内容重复率高,本身不拥有内容资源[31]。知网、万方和维普的期刊数据库在国内市场表现优异,但TOP20大学订购知网期刊数据库的只有11所,订购万方期刊库的仅有4所,同时订购万方和知网期刊库的仅有两所,排名前20的大学均未订购维普期刊。除去国际营销的差异,这种现象一定程度上与数据库之间内容重复率高存在关联。国外知名数据库出版机构大多是内容提供商,国内主流的数据库出版机构大多是技术提供商,在资源方面缺乏优势,应该正视版权问题,改进合作模式。
4.3 运用先进技术
运用先进技术,深度揭示知识内容是推广中文数据库的重要途径。2019年8月,科技部、宣传部等六部委共同研制《关于促进文化和科技深度融合的指导意见》,从中央层面开展“全面提升文化科技创新能力,转变文化产业发展方式”[32]。我国数据库出版行业与国际市场比较,起步较晚,更需要借助新科技迎头赶上。将新兴技术与数字出版更多地融合,运用多接口的数字化体系,预留开放对接途径;重视新兴网络技术,了解数据库系统技术更新,通过智慧数据技术,深入挖掘和揭示内容元数据,在基础的访问、检索与下载功能之余,提供更好的个性化附加服务,如利用协同过滤技术高效精准地为用户提供所需信息等[33]。通过新技术的应用,增强数据库的使用体验,引领数据库的发展潮流,是在国际一流大学中推广中文数据库的重要途径。斯普林格是国际著名的出版集团,其科研图谱服务(SciGraph)在关联开放数据影响下,通过语义技术,关联包括科学文献、专著、作者、机构、基金、引用等与学术领域密切相关的资源,实现多源异构数据库的跨模态语义聚合,全方位构建学术领域内的大知识图谱[34]。我国的数据库出版商应该加大知识图谱等智慧数据技术的运用来改进知识的组织和展示,适应时代的发展要求。特别对于古籍数据库,既是中国特色,又深受国际一流大学欢迎,将新技术与古籍相结合,可以更好地向世界展示中国的传统文化。
5 结 论
本次研究调查的用户样本量存在不足,其反映的中文数据库在国际一流大学的表现分析是一种初步尝试。从我国数据库与国际接轨的发展战略而言,应进一步提升中文数据库的内容质量和技术含量,缩短我国期刊数据库与纸质期刊之间的出版时滞,进行数据库商的兼并重组,形成规模化经营,开发独有的数据资源,开展精准化营销等是在国际一流大学增加中文数据库配置的重要手段。
注 释
[1]邓大松,欧阳志荣.数字出版发展趋势与中心出版社转型应对的现实路径[J].出版科學,2014,22(5):8-11
[2]国务院印发《“十三五”国家战略性新兴产业发展规划》[EB/OL]. [2020-06-16]. http://www.gov.cn/zhengce/content/2016-12/19/content_5150090.htm
[3][5]罗曼.数据库出版发展研究[D].武汉:武汉理工大学,2013:23-24,101-104
[4][6]肖洋. 我国数字出版产业发展战略研究:基于产业结构、区域、阶段的视角[D]. 南京:南京大学,2009:9-10,21-24
[7]US News best Global Universities[OL]. [2019-12-26]. http://www.usnews.com/education/best-global-universities
[8]Harvard Library Databases[OL]. [2020-01-15]. https://databases.hollis.harvard.edu/primo-explore/search?vid=HVD_DB&lang=en_US
[9]MIT Library Databases[OL]. [2020-01-15]. https://owens.mit.edu/sfx_local/az/mit_db
[10]Stanford Library Databases[OL]. [2020-01-15]. https://searchworks.stanford.edu/?f%5Bformat_main_ssim% 5D%5B%5D=Database
[11]Berkeley Library Databases[OL]. [2020-01-15]. https://guides.lib.berkeley.edu/az.php
[12]OXFORD Library Databases[OL]. [2020-01-15]. https://libguides.bodleian.ox.ac.uk/az.php
[13]Caltech Library Databases[OL]. [2020-01-15]. https://libguides.caltech.edu/az.php
[14]Columbia University Library Databases[OL]. [2020-01-15]. https://clio.columbia.edu/databases
[15]Princeton University Library Databases[OL]. [2020-01-15]. https://library.princeton.edu/research/databases
[16]Cambridge University Library Databases[OL]. [2020-01-15]. https://libguides.cam.ac.uk/az.php
[17]Washington University Library Databases[OL]. [2020-01-15]. https://guides.lib.uw.edu/az.php
[18]Johns Hopkins Library Databases[OL]. [2020-01-15]. https://databases.library.jhu.edu
[19]Yale University Library Databases[OL].[2020-01-15].https://search.library.yale.edu/databases?search_field=all_fields
[20]Chicago University Library Databases[OL]. [2020-01-15]. https://guides.lib.uchicago.edu/az.php
[21]UCLA Library Databases[OL]. [2020-01-15]. https://guides.library.ucla.edu/az.php
[22]UCSF Library Databases[OL]. [2020-01-15]. https://guides.ucsf.edu/az.php
[23]Penn Library Databases[OL]. [2020-01-15]. https://franklin.library.upenn.edu/catalog?_=1569398207335&f%5Bformat_f%5D%5B%5D=Database+%26+Article+Index&q=
[24]Michigan Library Databases[OL]. [2020-01-15]. https://search.lib.umich.edu/databases? query=&filter.type=Database&sort=title_asc
[25]Toronto Library Databases[OL]. [2020-01-15]. https://guides.library.utoronto.ca/az.php?t=9656
[26]UCSD Library Databases[OL]. [2020-01-15]. https://ucsd.libguides.com/az.php
[27]UCL Library Databases[OL]. [2020-01-15]. https://library-guides.ucl.ac.uk/az.php
[28]毛建軍. 古籍数字化资源整合与导航库建设[C]. 第三届中国古籍数字化国际学术研讨会. 北京,2011
[29]陈益君,周敏.图书馆常用数据库的本质及其评价方法探讨[J].大学图书馆学报,2013(6):67-69
[30]中国高被引学者榜单[OL]. [2020-08-16]. https://www.elsevier.com/zh-cn/solutions/scopus/most-cited
[31]张培培. 我国学术数据库数字化建设发展策略研究[D]. 郑州:河南大学,2016:25
[32]科技部等六部门印发《关于促进文化和科技深度融合的指导意见》[EB/OL]. [2020-08-16].http://www.gov.cn/xinwen/2019-08/27/content_5424912.htm
[33]孙梦婷,袁小群.我国学术数据库协同过滤资源研究现状探讨[J].出版科学,2011,25(4):11-15
[34]宋宁远. 面向智慧数据的科学知识图谱构建:以SciGraph为例[J]. 科技与出版,2017 (11):17-19
(收稿日期: 2021-06-10)