国内西域历史文化类数据库建设调查
——兼论塔里木大学数字西域平台建设
2018-10-08牛文渊
牛文渊 李 洋,3*
(1 塔里木大学西域文化研究院, 新疆 阿拉尔 843300)(2 塔里木大学历史与哲学学院, 新疆 阿拉尔 843300)(3 武汉大学历史学院, 湖北 武汉 430072)
西域是历史上对我国古代西北边疆地区的专有称谓,其特定的政治内涵和具体的地理范围随时代不同而变化,也分狭义和广义两种[1,2]。本文所述,以狭义的西域为主,即指天山以南,昆仑山以北,葱岭以东,玉门以西的地域[3],兼及周边区域。西域自古以来就是中国领土的一部分,也是丝绸之路的重要部分。西域历史文化资源丰富,主要种类包括:历史文献、不可移动文物、可移动文物、非物质文化遗产;中外研究者以此为研究对象产生的研究专著、论文、影像资料等西域历史文化研究成果等。
近年来,随着国家“一带一路”倡议的提出,学术界逐渐重视西域历史文化类资源的数字化工作[4-6],国内数个相关数据库陆续建成并投入使用。相比于历史文化类其他专题数据库建设研究[7-9]而言,西域历史文化类数据库建设的调查与研究有待加强。因此,本文拟通过对国内西域历史文化类数据库的建设状况调查和用户体验评价,分析制约数据库建设的因素,结合塔里木大学在建数字西域平台的情况,提出下一阶段建设策略,以提高资源的利用效率和研究价值,改善用户体验,为西域历史文化研究提供信息资源保障。
1 西域历史文化类数据库建设现状
经初步调查,目前国内以西域历史文化为主题且运行状况良好的数据库共有8个,下文首先对这8个数据库进行简要介绍,然后通过建设状况调查与用户体验评价,分析制约数据库建设的因素。
1.1 数据库简介
(1)“丝绸之路民族历史文化研究数据库”
该数据库是同方知网(北京)技术有限公司(简称“中国知网”)在中宣部与国家广电总局联合运作的“中英文丝路文献数据库多国合作项目”资助下,以“民族”这个贯穿丝路历史发展的核心元素,系统整合了“中国知网”旗下《中国知识资源总库》中学术期刊、博硕士论文、会议论文、报纸、年鉴、工具书等不同类型的文献资源构建而成。该数据库包括六个专题板块:“丝路民族历史”、“现代民族研究”、“丝路语文史”、“丝路名人史”、“特色专题”、“专家视角”。总文献量约53~55万篇,年更新资源量约3. 5~4万篇。关键词聚合与人工编辑的联合应用,使得该数据库聚合的文献主题契合度高。其搜索引擎可以单独搜索库内资源或合并搜索总库资源,加之《中国知识资源总库》收录文献的全面性,可对一个研究方向形成较为全面的阐述。
(2)“丝绸之路宗教历史文化研究数据库”
作为“丝绸之路民族历史文化研究数据库”的姐妹库,该数据库以“宗教”为主题,包括九个专题板块,又可分为两大类:一类是丝路历史上重要宗教的分别整合(包括“佛教”、“道教”、“伊斯兰教”、“犹太与基督宗教”、“祆教与摩尼教”、“中国与印度宗教”等);另一类则对丝路沿线宗教的专题性研究进行归纳总结:包括“宗教名人”、“特色专题”和“专家视角”等。总文献量约12~14万篇;年更新资源量约1万篇。其建设特点与“丝绸之路民族历史文化研究数据库”相似。
(3)“新疆地方文献数字化资源中心”
该数据库是由北京超星集团提供技术支持,全国地方文献资源共建共享联盟联合新疆自治区图书馆创建的地方文献数字化资源数据库群的一个省馆节点。该数据库按照联盟统一标准划分为十四个栏目,包括“特色文献推荐”、“最新文献速递”、“地方人士著述”、“地方期刊数据库”、“地方报纸数据库”、“地方百科资料库”、“地方人物数据库”、“地方视频资料库”、“地方图片数据库”、“地方专利数据库”、“新疆地方志专藏”、“新疆年鉴专藏”、“地方文献搜索引擎”、“地方图书数据库”等。所提供的“地方文献搜索引擎”既可对库内资源单独搜索又可对超星总库资源合并搜索。全国地方文献资源共建共享联盟和北京超星集团成熟的运营模式使得该数据在技术引擎、栏目设置和资源数量等方面有较明显的优势。此外,在新疆地区还有喀什图书馆和哈密图书馆加入联盟,各自创建了相似的地市馆节点。
(4)“新疆历史在线”
该数据库由新疆社会科学院《西域研究》杂志社主办,包括“学术信息”、“地方史”、“民族史”、“宗教史”、“文化史”、“文物考古”、“历史地理”和“过刊浏览”八个栏目,这些栏目转载或链接其他网站的众多资料文献,并提供《西域研究》部分过刊浏览和精品文章转载。该数据库提供类似“中国知网”搜索引擎的搜索服务,功能较为完善,同时作为《西域研究》杂志的官方网站提供远程稿件处理系统入口。
(5)“新疆经典人文特色数据库”
该数据库由新疆乌鲁木齐一心阅读文化科技有限公司构建,有国语、维语和哈萨克语三个版本,内容一致。该数据库划分为四个栏目,其中“新疆地方志”的主要讲述新疆特色城镇,地方传奇故事,地名由来考证等;“新疆人物志”主要讲述新疆历史文化名人;“新疆博物馆志”主要是新疆境内博物馆制作的纪录片或宣传片;“新疆印象”主要是关于新疆非物质文化遗产或特色文物的纪录片。该数据库共收录520余部视频资料。
(6)“西域文物考古数据库”
该数据库经新疆美术摄影出版社与美国克鲁格出版社授权,由谷浪远景(北京)科技发展有限公司研发,较为全面地汇集了新疆文物考古成果。该数据库以地图和地州县市名称为导览,将新疆文物考古成果按地区展示,具体分为“文献图鉴”、“考古区域”、“文物类别”三类。数据来源以《西域文物考古全集》、《西域民俗研究》及《西域岩画图案全集》为主,收录了新疆及周边约1万处文物遗址的相关资料,包括文字约1 000万字,图片约6万幅。该数据库采取商业化运作,目前国内外约10所大学购买了该数据库的使用权限或本地镜像。
(7)“‘一带一路’数据库:史话库”
社会科学文献出版社为配合国家“一带一路”倡议实施,整合国内外研究资源构建了“‘一带一路’数据库”。该数据库是“‘一带一路’数据库”的子库,收录关于“一带一路”的国内外历史文化类文献资料780篇,提供基本检索功能。
(8)“丝路审美文化中外互通资源数据库”
该数据库由兰州大学文学院构建,包括四个专题板块:“丝路审美文化数据库”收录丝绸之路文化相关的论文、著作、图片和影像资源;“专家讲座”收集专家讲座视频;“论坛会议”收录会议资讯;“古丝绸之路沿线地理交通图示”仍在策划阶段,建成后将以静态图片、二维动画、3D建模等形式展示古丝路沿线的地理交通。该数据库收录论文3篇,著作20部,图片资讯70篇,影视作品44部,讲座视频18部,学术论坛及会议链接23条。
1.2 建设状况
表1是上述数据库建设状况基本信息表,体现建设现状如下:(1)数据库构建单位以文化机构和文化企业为主,其专业领域与发展规划决定数据库建设方式,如:“中国知网”旗下数据库借助《中国知识资源总库》进行同主题文献的聚合分类,实现快速搭建“行业知识服务与知识管理平台”、“专题知识库”;新疆自治区图书馆以加入全国地方文献资源共建共享联盟的方式通过馆藏资源数字化建成数据库;“新疆经典人文特色数据库”则是一心阅读文化科技有限公司从书店转型进行区域特色数据库研发的成果之一。(2)涉及领域覆盖了历史学、民族学、语言学、考古学、宗教学、地方志、非物质文化遗产、文化产业,旅游管理等,既有综合库,如:“新疆地方文献数字化资源中心”;又有专题库,如:“丝绸之路民族历史文化研究数据库”、“丝绸之路宗教历史文化研究数据库”和“西域文物考古数据库”。(3)数据库资源以传统资源为主,包括文献、图片、视频三种资源类型,其中文献占绝大多数,如:“丝绸之路民族历史文化研究数据库”和“丝绸之路宗教历史文化研究数据库”的资源是期刊论文、学位论文等文献;“新疆经典人文特色数据库”的资源是纪录片和电视节目视频;“西域文物考古数据库”的资源则全部是来自正式出版物。(4)多数数据库的目标用户以科研人员为主,个别数据库的目标用户为普通大众。(5)数据库的开放程度差异较大,“新疆历史在线”、“新疆经典人文特色数据库”、“‘一带一路’数据库:史话库”、“丝路审美文化中外互通资源数据库”四个数据库完全开放,其他为有限开放或仅限购买。
表1 数据库基本信息表
1.3 用户体验
(1)各数据库的用户整体满意度差别较大。8个数据库的平均分为0. 78,极差0. 32,标准差0. 114 8,反映出这8个西域历史文化类数据库建设水平参差不齐。
(2)选题建库的用户满意度较高。特色性评分≧0. 8的数据库6个,占总数75%,说明这类数据库由于涉及神秘西域历史文化而在选题上占据先机。一致性评分≧0. 8的数据库6个,占总数75%,可能与西域历史文化类数据库自身的选题面较窄有关。
(3)数据资源的用户满意度较低。数据资源的优劣直接决定数据库的核心竞争力,“丝绸之路民族历史文化研究数据库”、“丝绸之路宗教历史文化研究数据库”、“新疆历史在线”的数据资源加权合计≧0. 4(等于1分制0. 8),显示其在数据资源上的突出优势,相应的整体用户体验满意度也高于其他数据库。值得注意的是,数据资源中数据来源的用户满意度普遍较低,并与其面向人员的专业性程度正相关,也就是说,专业性明确的数据库涉及领域较专一,数据相对能满足用户需求,专业性不明确的数据库涉及领域较分散,数据较难满足用户需求。
(4)系统功能的用户满意度较高。“丝路审美文化中外互通资源数据库”系统功能评分0. 12(等于1分制0. 6)是该项最低分,其他数据库得分均在0. 15(等于1分制0. 75)之上,说明现有数据库搜索引擎技术带来的用户体验差别不大,且现有技术已能满足大多数用户的基本体验。
表2 数据库用户体验评价统计表
1.4 制约因素
(1)缺少牵头整合各类数据库资源的组织机构
数据库构建单位希望通过已有资源快速服务用户,以便快速进入市场,加之专题数据库在专业性明确的条件下,往往追求数据资源的“专而精”。然而,用户更加希望“一站式”获取资源,即在同一数据库获得领域更宽广、内容更丰富的数据资源。数据库构建单位出发点和用户需求之间的矛盾,可以通过整合各类数据库资源而消减,然而目前缺少能够牵头整合工作的组织机构。
(2)数据库建设商业驱动力不足
用户体验调查表明,数据资源用户满意度不高的主要原因是缺乏商业驱动力,没有盈利就难以持续提升数据资源质量。
(3)数据资源专业性与通俗性之间的矛盾
用户体验调查表明专业人士普遍对专业性不明确的数据库资源持不满态度,因为它们带来过多无用信息而影响工作效率;非专业人士认为专业数据资源晦涩难懂、趣味性低,获取知识难度大。因此,专业性资源和通俗性资源之间存在矛盾,且两者的元数据差别较大,通常不适合放在同一数据库。
(4)数据库建设人才知识的不全面性
西域历史文化类数据库建设与三种人才有关,即数据库工程师,文献情报专业人员,历史文化学者。这三种人才在数据库建设方面,均会受到自身知识不全面性的约束。例如,数据库工程师和文献情报专业人员无法准确判断数据资源的专业价值;历史文化学者则不太重视数据库的建设路径且不掌握关键技术。了解西域历史文化和文献情报分类理论,并掌握数据库搭建技术的复合型人才缺口明显。
2 塔里木大学数字西域平台建设概况
2012年,塔里木大学西域文化研究院提出数字西域平台的概念,旨在建设以环塔里木地区为中心,辐射中西南亚,涉及文化、历史、考古、旅游、经济等多学科的综合科研资源平台。经历数年的探索和积累,现已完成总体框架构建,包括数字西域服务平台和数字西域专题数据库群,前者集中提供系统功能,后者按专题提供数据资源支撑。下文将从建设原则、总体框架、建设方式和关键技术等方面对其建设现状进行介绍。
2.1 建设原则
数字西域平台建设遵循以下原则:
(1)协调性原则
已有西域历史文化类数据库资源分散,数据利用率低,存在一定程度的学术研究壁垒。数字西域平台强调协调性原则,以便打破壁垒,提高利用率,实现平台共建、数据资源共享。
(2)统一性原则
为实现平台共建、数据资源共享,数字西域平台总体设计和专题数据库设计遵循统一性原则,保证数据资源的标准化与规范化。
(3)扩充性原则
在数字西域平台建设中保证扩充性,可满足专题数据库逐步构建、按需增加、实施分布式存储与运行,并可以纳入其它机构的专题数据库。在专题数据库中保证扩充性,可满足数据类型、数据字段和数据记录不断扩充。
2.2 总体框架
图1是数字西域平台的总体框架,主体包括数字西域服务平台和数字西域专题数据库群两大部分。数字西域服务平台提供通过提供用户管理、权限管理、跨库检索、数据组织等功能。数字西域专题数据库群设置5个专题数据库,分别是环塔里木历史文化资源信息库、环塔里木非物质文化遗产信息库、西域-丝路文献信息库、中西南亚国别信息库、西域新疆信息库。两者通过数字西域平台用户界面进行连接。
图1 数字西域平台总体框架图
2.3 建设方式
数字西域平台的建设以自主设计研发为主,兼顾其他方式。其中,数字西域服务平台由塔里木大学数字西域实验室自主设计研发,以保证学校在平台研发中的原创价值与主体地位,保证平台理念的准确实施;同时,为充分利用资源,降低资金成本与时间成本,实现效益最大化,专题数据库的建设采用多种方式,包括自主设计研发、合作共建、委托企业搭建、购买重组等。
2.4 关键技术
(1)多源数据融合技术
多源数据融合技术指通过协同利用不同来源的异构数据,使其互为补充、融为一体,以获得事物客观评价的数据处理技术。西域历史文化类资源的采集、数字化以及3S技术应用等多种数据积累手段造成了多源异构数据。多源数据融合技术使这些容量巨大、类别庞杂、格式多样的多源异构数据有机融合、深度利用。其关键在于,深入挖掘并规范化表达描述同一主题的多源数据语义,并将规范化表达的数据语义经共同目标融合到一起。就数字西域平台而言,研发该技术能够帮助用户快速、高效地利用数据资源;研发高级阶段,该技术能够自动聚合同主题的多源异构数据,实现自动深度挖掘数据语义,便于开展深入研究。
(2)跨库检索技术
跨库检索技术是指在呈现给用户的一个检索系统界面中,对存在于多个数据库的资源进行相关搜索,也被称为统一检索平台。该技术可以在用户提交一次数据检索命令时,把分布于不同服务器主机、不同网络、不同数据库存储系统中的数据一同检索出来,并集成检索结果,在用户操作界面上进行统一展示[12,13]。数字西域平台采用跨库检索的优势在于,用户只需登录一次就可完成所有专题库的权限认证,实现在平台范围内搜索资源,免去专题库间切换与重复登录,从而提高系统功能的易用性,提高用户工作效率。
2.5 建设状况
数字西域平台建设分为数字西域服务平台建设和数字西域专题数据库群建设两大部分。服务平台已完成详细设计和关键技术研发,进入功能实施与细化阶段,其用户界面如图2所示。
数字西域专题数据库群建设包括五项专题数据库建设,具体情况为:
(1)环塔里木历史文化资源信息库
以北京谷浪远景科技发展有限公司的“西域文物考古数据库”为基础重组建库,内含新疆文物局版权所有的新疆境内88个县市的不可移动文物,共计近万处遗址,6万幅图片、700万文字。
(2)环塔里木非物质文化遗产信息库
以塔里木大学与浙江大学合作完成的国家科技支撑计划项目《环塔里木非遗文化旅游综合服务系统构建与应用》为基础,建成环塔里木非物质文化遗产信息库,该专题数据库包含300项新疆境内的各类非遗基础资料,32项深度挖掘非遗项目资料,非遗传承人信息,新疆境内非遗旅游精品线路,新疆境内非遗项目的最新动态等。
(3)西域-丝路文献信息库
计划与塔里木大学图书馆合作,以其特色馆藏“西域文献库”为基础,对馆内西域文献库中有关西域文化的特色馆藏资源进行数字化,构建“西域-丝路文献信息库”。
(4)中西南亚国别信息库
以北京新文图信科技有限公司的“区域研究数据库:中亚”为基础重组建库,包括基础文献库、国外智库、国内智库、咨询观察库、基本事实库,现处于重组阶段。
(5)西域新疆信息库
该专题库是具有西域、新疆地域历史文化特色的专题性数据库,现处于逻辑设计阶段。
3 塔里木大学数字西域平台建设展望
3.1 发展规划
数字西域平台的建设与发展以塔里木大学数字西域重点实验室委托,该实验室的建规划分三步走,即“西域历史文化资源数字化保护”、“数字西域平台建设及西域文化数字化传播”、“西域历史文化资源产业化及社会应用示范推广”。数字西域平台建设作为其重要环节位于承上启下的第二阶段,既是第一阶段研究成果汇总与加强,也是第三阶段的数据资源保障。从学校层面看,数字西域平台已为塔里木大学在西域研究领域带来了良好的声誉,下一阶段应努力将其打造成为国内西域研究的特色品牌。从更大的层面看,数字西域平台占据了突出的地缘优势,可直接服务于国家“一路一带”倡议、实现新疆工作总目标和兵团向南发展。
数字西域平台的规划体系包括,5年短期规划,完成5个已规划专题库建设,正式运行并按权限原则对外开放;10年中长期规划,新增“西域古籍专题库”、“西域古地图地理信息专题库”、“西域当代艺术专题库”等,扩充至8个专题库。
3.2 建设策略
(1)“平台聚、分库专”。数据资源按不同的专题数据库进行组织,各专题数据库的数据资源和目标用户由其主题决定,但专题数据库形成集群,由数字西域服务平台聚合在一起呈现给用户。
(2)数据资源多样性整合。除传统的文献、图片和视频外,研究西域历史文化的资源还包括三维模型、遥感影像、空间矢量数据等。
(3)多重保障数据资源可持续更新。由塔里木大学西域文化研究院组织牵头,以提供数据库使用权限等方式聚集更多单位合作共建,促进资源交换整合。面向个人用户,数字西域平台会采取严格的权限控制,实行资源互换和适当收费两种方式,保障数字资源的可持续更新。
(4)人力资源整合,培养复合型人才。数字西域平台建设是多学科、多领域专家学者合作共赢的过程,应借此契机培养复合型数据库建设人才,避免知识不全面性对平台发展的制约。
4 结语
经过对国内8个西域历史文化类数据库的调查发现,现有数据库在选题建库和系统功能等方面用户满意度较高,但在数据资源方面用户满意度较低,从而导致用户整体满意度差异较大,分析认为其制约因素主要包括:缺少整合资源的组织机构、商业驱动力不足、专业性与通俗性之间的矛盾、建设人才知识的不全面性等。在此基础上,结合塔里木大学数字西域平台的建设情况,提出四点建设策略,即:(1)“平台聚、分库专”的建设思路;(2)多源数据整合的技术手段;(3)可持续更新的运营能力;(4)复合型的建库人才。在未来的建设中,坚持塔里木大学在平台建设中主体地位,对服务平台进行关键技术的自主设计研发,同时综合利用自主研发、合作共建、委托企业搭建、购买重组等方式建设专题库,通过多源数据融合技术、跨库检索技术改善两者连接方式,以提高资源的利用效率和研究价值,并获得优质的用户体验,为西域历史文化研究提供专业、准确、便捷的信息获取源,也力争成为塔里木大学在西域研究领域的特色品牌,最终服务于国家“一路一带”倡议、实现新疆工作总目标和兵团向南发展。
致谢
本文在成文过程中,万朝林老师提出了有意义的观点及建议。作者在此表示衷心感谢。