APP下载

G IS技术在古籍数字化资源建设中的应用

2016-02-13吴茗

图书馆学刊 2016年4期
关键词:古籍时空检索

吴茗

(国家图书馆,北京 100081)



G IS技术在古籍数字化资源建设中的应用

吴茗

(国家图书馆,北京 100081)

[摘要]GIS技术有着强大的空间定义能力和空间关系查询能力,将其应用于古籍数字化资源组织中,可以实现深度开发古籍资源,为用户提供一种全新的、立体的资源展示方式。评述了GIS技术的理念和属性特点,通过对GIS技术在国内古籍数字化建设的应用实例分析,总结了在古籍数字化建设过程中引入GIS的技术实现路径,并提出了进一步开展GIS应用的建议。

[关键词]GISGIS检索古籍数字化统一时空框架

1 引言

中文古籍数字化历经30余年的发展,在数据量方面取得了长足的进步。权威统计表明,2012年我国公藏机构已经拥有超过20亿字的数字化文本格式的古籍,一些已成规模的大型古籍数据库还在原有基础上不断拓展和完善[1]。然而随着OCR光学识别技术、字处理技术、智能化处理技术和网络技术的发展,数字化工作已从古籍文献信息的简单组织、检索与利用的浅层次开发,深入到海量文献资源的深度分析和挖掘深层次的开发。随着开发层次的不断加深、古籍数字化标准和体系结构的确立,为古籍中引入GIS技术构筑了非同寻常的新平台。

GIS技术有着强大的空间实体定义能力和空间关系查询能力,在组织与管理地理空间数据方面起着至关重要的作用。古籍数字化建设可以基于GIS的理念,把古籍中的各种信息与反映地理位置的空间信息结合在一起,得到时间和空间两方面的直观检索集,为用户提供一个更为有效和可视化的信息检索与资源服务环境。

2 GIS技术的理念与实践

2.1什么是GIS

地理信息系统(Geographic Information System,GIS)是20世纪60年代逐渐发展起来的一门新兴学科,是一种集空间信息和其他数据信息为一体的计算机系统,其对空间信息进行采集、存储、管理、组织、查询和显示并采用地理模型分析方法,适时提供多种空间和动态的地理信息,为研究和决策服务而建立起来的计算机系统[2]。地理信息系统使用和处理的数据分为两类:第一类是反映事物的地理空间位置、几何特征和拓扑关系等,称之为空间信息数据;第二类是反映事物其他特征的信息,即属性信息数据。将反映事物的空间信息数据与属性数据结合在一起,用来存储、组织、查询和显示空间实体及其相关信息,突破了传统的文字表述模式,图文并茂、多方面、多层次地展示在用户面前。

基于GIS的古籍资源最大的改变在于可以帮助人们实现对海量复杂数据的有效管理,并辅助进行分析、解释和数据挖掘。古籍文献信息资源不再是静态的、单一的,不再处于等待被使用的境地,它拥有了时间和空间的序列,这从某种意义上来说会改变古代文学史研究的视角、维度和书写方式[3]。

2.2引入GIS技术的优势

在数据层面,古籍信息文本型数据具有模糊性、不确定性和非线性等特征,不能给用户带来直观的用户体验;将地理空间数据与文献信息资源相关联,就可以为读者提供一个更为有效和可视化的信息检索与资源服务环境。

在检索层面,古籍资源一般通过题名、责任者、出版年代等文本特征加以索引,提供给用户查找和使用。可将地图数据信息与古籍文本相结合,构建基于GIS技术的数据库,在数字化地图上直观地表现古籍内容及其地理分布,并提供地理检索和分析功能,结合文本式检索,帮助用户深入阅读和利用古代文献。与传统的文本式检索相比,GIS检索具有以下优势。

2.2.1弥补文本式检索不能准确检索地名的不足

由于历史的演变,经常出现一地多名、行政区划改变、国土疆域改变等情况,这些都无法用文本式检索准确定位,同时,穷举其历史地名也要颇费周折。而使用GIS检索,则不需知道它叫什么名字,只需对所检索的地点进行框选,利用此处空间的检索值,检索到所需的属性和信息,检索方式方便、直观。

2.2.2减少因检索词的不准确匹配产生的误检

传统的关键词检索主要还是词形匹配而非词义匹配,在汉字关联技术上存在技术疏误,在检索词中一般也未使用分词技术,使用文本式检索时,虽然能够在海量信息集合中快速定位信息,但容易引起大量不准确匹配,产生误检,而使用GIS检索就可以避免这样的错误。

2.2.3可以实现辐射式检索

可以以一个点或者一条线为基础,设置检索范围,对周边区域进行辐射性的检索,而文本式检索只能实现定点的检索,因此GIS检索相比文本式检索扩大了检索的方式。

将GIS检索与文本式检索结合,不仅可以获取时间、空间的直观检索集,还能实现数据统计、地图生成等功能,有利于用户更好地理解海量数据。

2.3古籍数字化建设中的应用实例

目前国外及我国港台地区图书馆的GIS服务已趋向成熟,朝着更专业的方向发展,并有较多的成功案例,例如中国台湾“中央研究院”开发的中国历史文化地图系统,其针对历代地图资源进行数字化和可视化,以中国为空间范围,并以原始社会到现代社会的整个中国历史为时间纵深,以中国文明为内涵的整合性咨询应用环境[4]。借助于该系统,用户可以古代地图为入口,了解到当时的地名设置、区域大小、重要道路以及其他重要文化信息。

国内数字资源领域应用GIS技术虽然刚刚起步,还不够成熟,但也产生了一些具有代表性意义的项目,包括北京大学数字图书馆古文献资源库的时空检索和复旦大学的中国历史地理信息系统项目(CHGIS)等。

2.3.1北京大学数字图书馆古文献资源库的时空检索

该系统结合GIS检索技术,从时间和空间的角度对古文献资源数据进行检索,使历史文化资源的时空特性得以充分展示。目前,该“时空检索”仅在金石拓片这种资源类型上予以应用,用户可以通过GIS检索古籍拓片,形象直观,其弥补了传统检索的不足,突破了传统的文字检索模式。

“时空检索”具有两种功能[5]:①可以在不同朝代的历史地图上按照用户划出的区域进行检索;②可以在地图上反映用户检索的结果集,定位出拓片所反映的原器物的出土或刻立地点,可以直观分析数据分布,补充检索式检索的不足。

在“时空检索”界面上显示的地图上,点选激活拓片图层,就可以在地图上显示拓片所反映的原器物的出土或刻立地点,可以在不同朝代的历史地图上按照用户划出的区域进行检索,检索的结果集直接反映在地图上。

目前已经可以分别提供墓志、墓碑、刻经、造像及全部拓片共5种类型的拓片图标。

2.3.2复旦大学历史地理研究中心的CHGIS

该项目试图建立一套中国历史时期连续变化的基础地理信息库,使其成为中国历史GIS数据的基础平台。与传统的纸质地图不同,CHGIS系统地理要素之间的关系可以修改和更新,按不同历史时期和不同数据集的方式,为用户提供最简洁的数据查询、检索、编绘数据地图和连接用户数据的功能,同时允许用户按他们设定的时间和地区重新组合数据库中的数据,可以将这个系统看作是以时间信息为纵轴,以空间信息为横轴的立体数据空间,并将相关的政治、经济、商业等信息附着其中[6]。

目前该系统的搜索引擎仅实现了提供简体地名及简繁体模糊两种方式进行查询,用户可从授权发布数据的网站上下载并使用CHGIS数据。鉴于该系统只提供历史地理的基础数据以及地图浏览和地名查询等功能,用户要想生成某个学科的专题地图就必须利用GIS系统,对于完全不熟悉GIS的一般用户,还存在一定的困难。

2.3.3构建全国范围的古籍时空分布系统

我国古籍数量庞大,且往往分散各地,由于缺乏一个全国性的权威机构统一指导和协调,其数字化加工与存储各自独立,所生成的独立古籍文献数字资源专题数据库很难形成有机整体。为了实现更大范围的资源共享与揭示,有必要进一步推进我国古籍数字资源整合,若能在此基础上将GIS技术应用到整合资源中,使其具有数据检索、统计、地图生成等功能,古籍资源将不再是相对独立分散的知识点,而是形成了层次清晰的知识图谱体系。

目前,随着全国古籍普查登记工作基本完成,《中华古籍总目》的编制工作已陆续展开和全国古籍普查基本数据库的建立,其为构建全国范围的古籍时空分布系统奠定了坚实的基础。上文提到的复旦大学历史地理研究所开发的全球定位信息系统CHGIS,其目标是建立中国历史时期基础地理信息系统数据库,可实现基于CHGIS构建动态的全国古籍等移动文物的地理信息系统。复旦大学校长杨玉良在《复旦大学中华古籍保护研究院”的创建》中提出,大数据时代,建设基于CHGIS的中华古籍书目数据研究中心”,也就是利用GIS技术存储、管理我国古籍书目数据库,构建可视化的古籍时空分布系统,为国家移动文物普查、古籍保护、传统中华学术研究提供大数据平台,为国家文化保护提供决策,为来自高校、社会的研究人员以及各类决策机构,提供书目信息咨询服务。该系统的建设目标,是要完成古代书名、人名、地名以及相应机构名称的规范化整理和翻译,并将典籍出现时的经济、文化等各种背景综合输入匹配,形成一个整合的数据库[7]。

3 引入GIS技术的技术实现

从国内现状看,在古籍建设过程中引入GIS技术已取得了一定成果,但相对于对文本文献的数字处理技术的日臻成熟,基于文本挖掘的检索和存取已经习以为常,以地图或者图像形式存储的地理空间信息却不像处理文本文献那么容易,国内图书馆目前将GIS技术应用于古籍善本数字资源库的技术还不够成熟,而且这种应用在某种程度上仍属于利用GIS检索电子地图和图像信息等较浅的层面。结合这些系统建设的实践经验,对进一步推进我国基于GIS技术的古籍数字资源深度开发、更好地实现资源检索和利用归纳出以下几点提示和经验。

3.1元数据

为了古籍的深层次开发和利用,利用GIS技术的可视化数据和空间关系分析能力,将文献资源的属性数据与具有结构特征的地理信息进行数据关联聚合,充分重视和突显古籍的时空信息,建构可视化的古籍时空网络,在元数据中应增加突显时空属性的元数据项目,突出时间跨度、空间分布等表达时间特性和空间位置的信息。在时间维度上,记录时间的纪年、纪时方式和时间的类型,兼容中国传统历法时间和公元时间;在空间维度上包括地名的空间位置、所属时期和行政隶属等。

3.2基本数据源

GIS技术的基础和前提是拥有大量准确、翔实、覆盖面广阔的地理空间数据和属性数据。

在地理空间数据方面,需要对时空信息进行采集,建立相关的时空数据库,包括空间地理数据库、时间数据库等;对时间地点信息进行解析和映射,实现时空信息的规范化、结构化表达。其中时间数据由于历史文献的记录与研究水平的关系,往往无法确定具体的时间,应将其相关描述信息予以保留,给用户提供一个参考,以便在今后的研究中予以改正和确认;获取空间地理数据,需要具备基础地图资源,要完成地图图像数据的矢量化工作。

在属性数据方面,除了资源本身所带有的信息外,可整合家谱和地方志的数字资源,将其作为重要的切入点和数据源,二者资源中都蕴含时空信息和相关属性数据,并且具有全面、翔实、权威、系统等特点,利用其特有的资源丰富、古今纵览和信息相关等优势,以地理位置、时间为线索,运用空间信息技术进行显式、动态的可视化表达,将历史全面反映,可成为GIS的重要数据来源[8]。

3.3基础支撑

为了实现古籍信息与地理空间以及时间的关联并构成一个统一的整体,需要在古籍信息数据中抽取历史地名信息和时间信息进行数字化建库,然而在空间位置上,随着地名的不断变化、行政管理区域的改变而带来的地名描述的变化,使得不同时期的地名没有统一的参考基准,地名的空间位置和空间范围难以确定;在时间信息上,因历法差异和纪年方式的变化,计算机难以直接对其进行比较、分析。这就需要组织统一的时空描述参考框架,为所有的古籍提供一致的时间参考和空间参考。

将历史演变过程中具有特定时间、位置、方位、范围及形态特征的地名数据作为基本单元,以时间轴和空间轴为演变标尺构建时空框架。只有在这个时空框架下进行时空解析和定位,规范表达时空信息,解决时间与空间的对应关系和变化关系,才能使得不同历史时期、不同地区的古籍资料整合到一个统一的时空背景下进行分析。

因此,可以说统一的时空参考框架,是在古籍资源建设中利用GIS技术进行共享和分析的基础支撑。

3.4开发平台

古籍资源的GIS应用主要是基于成熟的GIS平台进行搭建实施,目前主要的GIS平台有国外的ARCGIS,MAPINFO,GEOMEDIA,国内的超图等,具有数据录入、编辑、查询、分析、制图输出等完善的功能和强大的二次开发能力。所有GIS数据库的搭建与原有MIS(Management Information System,管理信息系统)类似,只要与地理信息或空间信息相关的数据,均需要以GIS平台要求的数据格式进行规划和存储,然后在平台搭建实施中按照相应GIS平台要求的方式进行展现。同时,随着用户需求的扁平化,还可以基于GIS平台开发更多的核心功能。

4 几点思考

4.1标准化

标准化是资源整合共享和充分揭示的基础,GIS技术的引用依赖于资源的整合共享。坚持数据的标准化、规范化具有突出的现实意义,也是进一步推进古籍数字资源深度开发的基础保障。由于古籍类型众多,包括善本印本、手写本、舆图、家谱、地方志、拓片等,情况各不相同,其数字化资源的格式往往也互不兼容,对数据共享的发展造成了障碍,因此,标准规范方面的工作相当复杂,应从数据、接口、应用、保存等多个层面进行统一和规范,制定统一的、行之有效的标准。

4.2专业人才的培养

目前,图书馆界对GIS技术的应用研究尚处于探索阶段,尤其在古籍数字化方面,图书馆还缺乏这方面的专业人才,同时GIS技术发展迅速,软件不断更新,可获得的空间数据的不断扩大,不同格式、不同平台、不同检索机制的空间数据采集和转换等,都对图书馆员的GIS素质提出了更高的要求[9]。结合我国的实际情况,可采用引进GIS相关专业人才、组织人员进行专业培训、提供实习机会等途径来保证、提高工作人员的素质。

4.3加强合作

在古籍资源开发中引入GIS技术,涉及的内容很多,既包括采集、编目等数据层面,也包括数据的存储、发布、检索等服务层面。因此开展多层次的资源共建和合作是必要的,其不仅包括加强与其他收藏机构和数字化机构的馆际交流与沟通,也包括馆内部门之间的协调沟通。合作内容是全方位立体式的,可以涉及资源、人才、技术、设备等多个方面,实现数据资源的整合共享,形成完整、翔实、准确的数据源,协同服务,优势互补,共享人力技术资源,提供高效、全面的古籍资源服务。

参考文献:

[1]高娟,刘家真.中国大陆地区古籍数字化问题及对策[J].中国图书馆学报,2013(4):111.

[2]韩新蕾,等.基于3DMAX和GIS的三维图书馆空间管理系统开发[J].图书馆学刊,2014(4):105.

[3]范佳.“数字人文”内涵与古籍数字化的深度开发[J].图书馆学研究,2013(3):31.

[4]中国台湾中央研究院.中华文明之时空基础架构[EB/OL]. [2015-09-15].http://ccts.sinica.edu.tw/intro.php?lang=zh-tw.

[5]中国高等教育文献保障系统管理中心.时空检索说明[EB/OL]. [2015-09-16].http://rbdl.calis.edu.cn/pages/GisSearch.htm.

[6] 复旦大学历史地理研究中心.chgis数据说明[EB/OL]. [2015-09-16].http://yugong.fudan.edu.cn/views/chgis_data. php.

[7]杨玉良.复旦大学“中华古籍保护研究院”的创建.[EB/OL]. [2015-09-16].http://www.library.fudan.edu.cn/main/info/42 53.htm.

[8]龚强,胡运权.地方志:GIS的最佳数据源[J].学术交流,2001(01):155-157.

[9]黎明,但旺.国外图书馆GIS服务及其启示[J].图书馆学研究,2008(10):79.

吴茗女,1975年生。硕士研究生,馆员。研究方向:数字化平台运维管理。

[分类号]G250.73

收稿日期:(2015-11-19;责编:杨新宽。)

猜你喜欢

古籍时空检索
跨越时空的相遇
中医古籍“疒”部俗字考辨举隅
镜中的时空穿梭
关于版本学的问答——《古籍善本》修订重版说明
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
玩一次时空大“穿越”
关于古籍保护人才培养的若干思考
我是古籍修复师
专利检索中“语义”的表现