APP下载

汉语地名时空信息的一体化表达

2010-12-28李金良张雪英樊晓春

地理与地理信息科学 2010年6期
关键词:时空实体数据库

李金良,张雪英*,樊晓春

(1.南京师范大学虚拟地理环境教育部重点实验室,江苏南京 210046;2.南京地震监测预警中心,江苏南京 210008)

汉语地名时空信息的一体化表达

李金良1,张雪英1*,樊晓春2

(1.南京师范大学虚拟地理环境教育部重点实验室,江苏南京 210046;2.南京地震监测预警中心,江苏南京 210008)

地名信息中蕴含着丰富的地名时空信息,而目前已建立的大部分地名数据库,从信息内容看,描述了历史地名信息,但忽略了时空信息;从信息结构看,存在描述的范围、完备性和丰富性等方面的差异,缺乏统一的数据结构。该文通过分析地名及其相关信息内容,设计了能够较为完善地表达地名实体、时间信息、空间信息、属性信息和地名空间关系等时空一体化的地名数据库规范,包括地名数据库的结构和数据组织。该研究成果有助于拓展地名数据库在公共卫生、数据信息管理、文化历史和基于文本的地理参考自动化等领域的应用服务。

汉语地名;时空信息;一体化表达

0 引言

地名地理信息作为常用的社会公共信息之一是不可或缺的基础信息资源[1],是地理空间信息的重要组成部分。地名信息描述地名名称、地名所代表的地理实体等方面的信息,表达了地名所代表的一定地理范围内的历史文化、民族特色、风俗习惯、经济状况和社会生态等,具有信息来源范围广泛、区域性差别明显、时间尺度变化大、包含内容繁多和描述方法多样等特点。地名随时间而演变,有时空上的连续性;参照体系差异较大,所代表的地理空间范围有精确表达(如经纬度)和模糊描述(如山脉)之分。另外,地名也存在多种语言描述方式,受异体字、俗字以及译名不同的影响,区域差别性大;汉语地名受传统文化影响大,地名变迁历史长,同时受地貌、环境和风俗等因素的影响。

地名词典和地名数据库是地名信息有效的存储、组织和管理方式。地名词典描述地名实体信息以及地名、空间位置和要素类型三者之间的关系[2]。传统的地名词典是地理特征名称、地理位置和其他描述性信息的列表[3],一般以纸质形式出版,难以更新维护和支持复杂应用;数字地名词典编码地名、地理位置、地理描述和地理类型等要素,Wikipedia、Wikimapia和Flickr等网站提供面向网络服务的数字地名词典,采用大众参与的方法对其进行丰富和完善。地名数据库是一定区域内的地理要素及其相互联系和各种地名特征的数据集合[4],具有容量大、更新容易、服务多样等优点,是一个包含三个基本特征(地名、类型和位置)和其他信息的列表,即一个三元组(N,F,T),N对应一个或多个地名,F代表一个或多个地理位置,T代表所描述要素的类型[5]。因此,地名数据库被看做是一个可以将方言转化为计算机语言,并可以让用户在人类语言和地理空间位置以及要素类型之间随意转换的工具。现有的地名数据库缺乏将面向用户的地理信息与国家地理信息相融合的能力,且不支持复杂查询[6]。

国外地名命名比较规则,变化较少,而且地名数据库标准和规则较统一,各种开放的地名数据服务发展迅速。现有的国外地名数据库有亚历山大数字图书馆(ADL)、地名信息系统(GN IS)和澳大利亚地名词典(GOA)等。作为记录地名的综合结构,ADL被视为档案结构,但其结构复杂且缺乏空间关系; GN IS是美国地理实体命名规则的国家标准,其描述的地名信息内容丰富,但不完整;GOA可以提供地名查询等服务,但描述范围较为狭窄。国内地名命名较为复杂,涉及历史、人文、政治等因素,中文地名数据库没有统一的内容标准。目前比较大型的中文地名数据库有两个:一是国家地理信息中心建立的1∶5万和1∶25地名数据库,将国家地形图上各类地名注记及其汉语拼音、属性要素等录入计算机建成的数据库,与地形数据库通过技术结构链接进行相互访问,或作为独立的关系型数据库运行[7];二是国家民政部开发的地名信息系统——“地名之星”,实现地名属性和空间数据的集成管理与应用,但不包含空间关系。其他国内地名数据库有古今地名数据库和中国历史地理信息系统(CHGIS)等。

综上所述,现有的国内外地名数据库的描述内容包含了地名及与地名相关的空间、时间等信息,但大部分地名数据库描述的地名信息不够完整,主要表现为:1)未描述完整的空间位置信息,缺乏几何空间信息和空间关系;2)未包含丰富的时间信息,缺乏模糊时间信息描述;3)属性信息描述不完整;4)未建立完善、一致的要素分类体系,进行地名要素分类。而分析与总结汉语地名信息的特点、组成、结构与规律,实现地名信息的时间、空间一体化,可以更好地推动地名数据库建设,提高地名数据库的服务和应用水平,推动地名信息建设的发展。本文通过对地名信息的研究,整合已有地名数据库的地名时空信息,建立了表达地名时空演变的数据模型,包含了完整的地名信息,实现了汉语地名的时空一体化表达。

1 地名信息表达的基本框架

1.1 地名时空演变过程

地名、地名信息随着时间而演变。地名的时空演变方式多样,一个地名的产生可以是从无到有,或由其他地名演变而来;地名的结束可以是演变为其他地名或最终消逝。地名变化的原因可能是地名名称的改变、地名所代表的地理实体的变化、或是其他属性信息的改变。因此,地名时空演变是一个复杂的过程。汉语地名的由来、发展和变化,反映了汉民族的社会文化风貌,体现了汉民族的文化心态和民间习俗等[8]。地名时空演变过程如图1所示。

图1 地名时空演变过程Fig.1 The spatial-temporal evolvement of toponym

1.2 地名时空演变数据模型

地名时空演变数据模型主要包括地名的基本信息、要素分类体系、空间位置信息、时间信息、属性信息和空间关系等,具有完整性、合理性和丰富性。作为一个具有综合性的地名时空信息框架,可为构建通用、专用地名时空数据库提供框架参考。地名时空演变数据模型的框架结构如图2所示。

图2 地名时空演变模型的基本框架Fig.2 Themain framework of spatial-temporal toponym evolvementmodel

2 地名实体的基本信息表达

地名实体指简单的地理位置和可被识别并作为参考的人造地理实体(社会建筑)。地名源于人们对地理要素或场所进行概念化及命名[9],广义地名是对一个场所的文本描述[10]。地名实体的名称包括行政区划名、被识别并作为参考的自然地理实体和人造地理实体名称;同一地名实体可能有不同的名称,可能用于特定的目的,只在特定领域中理解与使用。

在地名时空演变数据模型中,地名分为三类:标准名称、简称和别名。标准名称是使用规范文字书写并经官方认可的地名全称;简称是标准地名的简单称谓,如“皖”是安徽的简称;别名是除标准名称和简称以外的其他现行的名称,如南京市又名“石头城”,成都市又名“蓉城”。地名通常有一个简称,多个别名,标准名和别名是一对多的关系。

一般情况下,地理实体的名称代表地理实体的某种特征,它的命名常反映当地的某些自然或人文地理特征,如反映颜色(丹露山)、形态(五指山)、气候(恒春)、方位(海南)、物产(盐城)、商业(骡马市大街)、交通(渡口市)、宗教(鸡鸣寺)、职业(铁匠营)以至祈求(平安堡)等;其中有些特征一直保存到现在,有的特征虽已消失,但地名仍继续流传(如北京公主坟)。很多地名具有区域特色,如带有塬、峁等词的地名只分布在黄土区域,带有涌、滘等词的地名只分布在广东水网地区。

地名中代表该地名含义或地理实体特征的一些字或词称为“地名特征字”。如:南昌市“八一大桥”中的“八一”代表当地的历史事件,“黄屋坡”中的“坡”代表当地的地形特征,温州市“继光路”中的“继光”代表当地的历史人物等。通过提炼和总结地名中的特征字,可以明确探索地名的规律与命名习惯。

在历史文献和其他描述性文档中,地名起着联系历史事件、历史人物及其他描述性信息的作用,地名记录了民族的变迁与融合等人类历史文化活动、环境变化、经济、文化、风俗等信息。通过对地名相关的描述性信息的记录与表达,丰富地名所代表的地理实体的历史底蕴,提高地名的信息蕴含能力,使地名能够提供智能化信息查询以及更多的应用服务。

3 地名的时空信息表达

现有的地名信息应用只涉及空间信息的空间维度和属性维度,大多不具有处理时间维度的功能,而只是描述数据的一个瞬时态,因而无法分析地名变化的历史并预测未来趋势。但是现实世界的信息不仅与空间相关,而且与时间相联系。通过对时间信息的管理和处理功能,便于根据时间维进行地名变化的时空跟踪,实现对地名的历史分析和趋势分析。

时空数据库是研究如何存储历史和当前的时空数据,从而跟踪分析某一区域的变化,最终实现时空模型化和模拟地学过程[11],是包括时间和空间要素在内的数据库系统[12]。时空数据模型是一种有效组织和管理时态地理数据、属性、空间和时间语义更完整的地理数据模型[13]。将空间数据和时间信息按一定的数据结构方式有机组织进行集成管理,完善时态地理数据、属性、空间和时间语义,以便重建历史状态、跟踪变化和预测未来[14]。时空数据库由于其动态性和全面性成为真正意义上的数据库[15]。

3.1 地名空间信息表达

3.1.1 地名空间位置信息表达 地名数据库最基本的组成是地理实体的名称和空间位置的映射[16],地名的意义包含要素和具有模糊位置及边界的地理位置(如横断山脉和中国东部)。地名还可以被描述成与经验相关的位置,如“河流的下游”,是具有特殊性的地名空间位置参考信息,只有在识别为某个特定空间语义中的河流或地区时,这些地名才有特定的空间位置。目前大部分地名都建立在地名机构提供的已有数字化文件基础上,因此不能识别官方未确认的其他类型的地名;而且使用点、或多边形边界来表现要素的地名数据库,不易用于特定类型的信息抽取。因此,应包含描述性的地理空间信息以及高度抽象化的空间位置信息,使地名空间信息表达的方式多样化,提高其表达能力。

在地名空间信息表达中需要着重关注时空表达抽象的程度,不同尺度的时空抽象可以满足不同类型的应用需求。如在一般的地名空间信息表达中,使用河口点的空间位置区别不同的河流,以简单的点的空间位置进行地图显示;在地理信息抽取中,使用最小约束矩形框表示一个地名的空间范围,易于进行叠置分析和复杂匹配。因此,在地名空间信息表达中,若可以精确表达地名所代表的地理实体的空间位置,如某个点状地理实体坐标的经纬度或某个区域的确定边界,则使用点(如经纬度)、线、面等形式存储;若模糊表达地名所代表的地理实体的空间位置信息,则采用空间几何描述,即包含该地理范围南北向的最大、最小纬度和东西向的最大、最小经度所组成的封闭的最小约束框。

地理实体的空间位置信息来源有 GIS数据集、地名词典、从地理信息中抽取等,测量方式有 GPS、CORS、摄影测量等,不同测量方式和不同数据来源使得同一地名的空间位置信息具有不一致性。因此,可以描述同一地名的多个测量结果,包括该空间位置信息的来源、测量方式等,以便对地名空间信息的检索和更新。地名实体与空间位置信息是一对多的关系。当需要对地理实体的空间位置信息进行查询时,首先通过检索排序,显示最精确的地理位置信息,并有相关的多个候选检索结果,根据需求在检索结果中选择。在数据更新时,若新数据与待更新数据在精确度上有可比性,可替换待更新数据或在检索结果中优先显示;若无法进行精确度的判断,则可保留新数据,并将其作为候选检索结果。在地名空间信息表达中,采用多源融合的方法,并使用多种表达方式,可以提高地名空间信息表达能力。

3.1.2 地名空间关系表达 空间关系是指地理实体之间存在的一些具有空间特性的关系[17],主要有拓扑关系、方向关系、度量关系三大类。其中拓扑关系是指在拓扑变换(旋转、平移、缩放等)下保持不变的空间关系,如中部、交叉等;方向关系是指对象在空间中的某种排序,如往南、在右边等;度量关系是用某种度量空间中的度量来描述的对象之间的关系[18],如60 km、5 min路等。空间关系具有层次性和不确定性等特征。空间关系的语义层次主要体现在语义分辨率上(艾廷华,2000),如8方向关系中的“南”、“东南”和“西南”3个概念在4方向关系中合并为“南”1个概念。由于人们认知的不确定性,使得空间关系具有不确定性,在汉语中使用模糊描述的方式表达空间关系的不确定性。空间关系的描述和应用离不开空间认知。人们对空间关系的认知一般使用自然语言描述,地名是空间关系中空间位置的最常用表达。

地名实体的空间位置和范围随着时间变化,如行政区划的分割、合并,由于地名的时空变化,导致其空间关系也随时间而变化。时空关系是在一定时间间隔内或时间点上时空对象所表现出的空间关系序列,这个序列反映了时空对象在关系上的发展及变化,为用户提供与时间有关的数据管理和查询服务。

在汉语中,描述空间关系的语句一般包含以下要素:空间关系主体、空间谓词、语气算子、空间关系连接词、空间关系值、空间关系参照物和语义描述。空间关系主体指被描述的地理对象;空间谓词表示空间方位,如北部、东南部;语气算子是用以加强或减弱语气、表示模糊概念的词语,如大约、很;空间关系连接词是指其连接作用的词语,如在、距;空间关系参照物指空间位置参考的地理对象;空间关系的语义是指地理实体间有哪些空间关系,这些空间关系有哪些性质[19]。通过记录自然语言中描述空间关系的一般要素,以及地名之间的空间关系,便于空间关系的定性或定量推理。

行政区划中下级单位和上级单位之间的隶属关系也是地名之间空间关系的一种,但行政隶属关系又有其特殊性:如行政隶属中的包含在地理位置上可能是分离的;另外,递推关系也不同[20],如东北平原包括吉林省,吉林省包括长白山,而东北平原不包括长白山。因此,需把行政隶属关系作为一种特殊的空间关系。国家标准行政区划编码包含了行政隶属关系,地名行政隶属关系及其随时间的变化体现了行政区划历史变迁过程。

3.2 地名的时间信息表达

历史时期名称的获取与存储可以反映相关的地理观念,同一个时期可以使用不同的名称描述,并有时间范围。地名的时间信息是联系地名过去与现在的纽带,通过记录地名时间信息可以重现地名演变的历史过程。汉语中时间信息的表达方式多样,采用多种计时、纪年方式,包含多种不同的数据格式,使用多个名称描述同一时期,并有丰富的模糊时间描述方法。通过分析地名时间信息的内容和特点,获知各种时间描述所表示的具体或大致范围,从而获取更多的时间参考,为地名的时间信息表达提供更多的信息来源。

3.3 地名的时空关系表达

地名是社会的产物,它的命名、演变始终都受到社会发展水平的制约,不同历史时代都有反映该时代特征的地名。地名名称的更改,地名所代表的地理实体空间范围的扩大、缩小,或该地理实体的行政等级、行政隶属变化,都将导致旧地名的结束和新地名的产生。地名变更涉及政治、历史、地理、语言文字的发展变化,涉及人民生活和社会交往[21]。

地名演变的原因可以是自然环境因素,如扬州市的“五福巷”因自然灾害而改名为“五谷巷”;或人为因素,如城市的建设导致许多旧地名的消失,新地名的产生。地名随时间演变的类型有:新设、扩大、合并、缩小、分离、位置改变、几何形态改变、消失、改名、改行政区划等级、改属、改治。在地名时空演变数据模型中,地名的时间信息和空间位置信息通过地名实体相联系。地名实体的描述性信息包含该地名的起始时间和结束时间,并与在该时段内所对应的特定的地理实体相联系。

通过对地名时空演变的分析,可以更深入了解地名所代表的地理实体在历史进程中的演变原因、方式与类型,以及相关的社会状态、环境等的变化,了解时代变迁对地名及其所代表区域的影响和改变,也可从地名的变化来反映时代特征和社会变化,从而可以重现该区域的人文、自然的一体化历史进程。

3.4 地名其他信息表达

地名数据包括空间数据和属性数据。地名属性数据是指与空间位置没有直接关系的代表地理实体特定涵义的数据,其具有以下特点:一是信息量大,涵盖各个领域的地名以及对地名描述的各个不同的方面;二是信息变化频繁,更新速度较快,时效性较短;三是信息类型复杂,有数字、文字等描述性信息以及图形、声音、视频等多媒体信息,多种信息格式使地名属性数据的表现方式多样、呈现的内容更加丰富。

在地名时空信息中,不但要完整保存地名实体的各个方面的属性信息,还应尽量使同一方面的内容相对集中,既能全面反映地名的客观情况,又能集中反映地名属性信息的每一个侧面。因此,在地名数据库中对属性信息的存储有以下要求:保持数据的独立性;保证数据的安全性和完整性;维护方便,有不断扩充和更新的能力。同时,由于地名属性数据的复杂性,为了便于查询和处理,在建立数据文件的同时,建立一系列的索引文件,提高访问速度。

由于地名属性信息的数据量大、有多种数据类型,通过对各个类型的地理实体的属性进行系统分类,构建属性要素分类体系,可以使属性信息冗余度低、快捷的检索、查询、维护和管理。属性要素分类体系共包含49种通用属性:长度、宽度、高度、面积、容积、海拔、比高、起点、终点、人口、地形、年均温、年降水量、气候、主要产业、用途、类型、形态、建成时间、个数、所属朝代、状态、编号、GDP、岩石类型、主峰、矿产、植被、性质、通行、水质、级别、流量、透明度、水温、组成成分、落差、孔数、层数、方向、驻扎月份、年产量、年发电量、分布、车道数、所属水域、承载能力、电压值等。

地名及其所代表的地理实体都有要素类型,地理要素是自然界中具有唯一性的自然元素或对象。地理要素分类体系中的每一类地理要素对应着属性要素分类体系中的一个或多个属性要素,每种属性要素都有一个或多个具体的属性描述。地名属性要素分类体系的建立,便于从多源、海量、多样化的地理属性数据中抽取出有价值的信息,丰富地名的属性信息,服务于地名的应用。

4 结论

由于汉语地名具有名称构成复杂、空间位置信息受测量方式的影响并有模糊和精确之分,时间信息描述方法多样等特点,使得地名实体的时空演变分析和时空一体化表达具有复杂性。本文分析了汉语地名名称的特征与规律;地名属性信息的组成、分类与表现方式;空间信息类型与表达方式;地名之间空间关系描述与行政隶属信息以及地名随时间的演变等方面,建立了地名时空演变数据模型,完整的表达了地名各方面的信息,并对地名时空演变的原因、过程和方式进行了探讨,实现了汉语地名的时空一体化表达。可以为地名时空数据库的设计与构建提供较好的依据,使地名数据库具有较好的数据结构和良好的可适用性、可扩展性,便于地名及其相关信息的存储、更新、检索、查询、共享和其他应用性服务。

[1] 石若明,陈秀忠.城市大比例尺地名地理信息数据库建设的探索[J].测绘通报,2004(1):41-43.

[2] GOODCH ILD M F,H ILL L L.Introduction to digital gazetteer research[J].Geographical Information Science,2008,22(10): 1039-1044.

[3] H ILL L,FREW J,ZHENG Q.Geographic Names:The Implementation of a Gazetteer in a Geo referenced Digital Library [R].Corporation for National Research Initiatives:Virginia, 1999.

[4] 邹利平,杜清运.省级地名数据库数据组织与更新策略探讨[J].数字地名,2007(8):66-67.

[5] H ILL L L.Core elementsof digital gazetteers:Place names,categories,and footp rints[A].Research and Advanced Technology for Digital Libraries[C].Germany:Sp ringer Berlin,2000.280-290.

[6] KEBLER C,JANOW ICZ K,BRISHR M.An Agenda for the Next Generation Gazetteer:Geographic Information Contribution&Retrieval[D].ACM SIGSPA TIAL GIS,2009.

[7] 狄林,欧阳宏斌.全国1∶25万地名数据库的设计与建立[J].测绘通报,2001(10):32-33.

[8] 肖中琼,戴卫平.中国地名与中国文化[J].语言新观察,2008 (4):102-103.

[9] 陈凯晨,林星,袁一泓,等.数字地名词典中的类型表达和管理[J].地理与地理信息科学,2009,25(5):6-11.

[10] 刘瑜,张毅,田原,等.广义地名及其本体研究[J].地理与地理信息科学,2007,23(6):1-7.

[11] 黄勇奇,崔伟宏.基于历史关系数据库的时空数据库实现研究[J].遥感学报,2008,12(5):759-764.

[12] 唐新明,吴岚.时空数据模型和时间地理信息系统框架[J].遥感信息,1999(1):11-15.

[13] 舒红,陈军,杜道生,等.面向对象的时空数据模型[J].武汉测绘科技大学学报,1997,22(3):229-233.

[14] 陈志泊,陆守一.TGIS中的时空数据模型的研究进展[J].河北林果研究,2003,18(4):395-400.

[15] 林秀玉,廖磊.基于A rcGIS的时空数据库的设计与实现[J].现代测绘,2007,30(5):11-12.

[16] AXELROD E A,M ETACARTA,INC.On building a high performance gazetteer database[A].Human Language Technology Conference.USA:Association for Computational Linguistics.2003.63-68.

[17] 陈军,赵仁亮.GIS空间关系的基本问题与研究进展[J].测绘学报,1999,28(2):95-102.

[18] 郭平,刘然,董晓华.二维空间对象空间关系的定性表示[J].计算机工程,2005,31(2):39-41.

[19] 廖楚江,杜清运.GIS空间关系描述模型研究综述[J].测绘科学,2004,29(4):79-82.

[20] MARD IS S,BURGER J.Design fo r an Integrated Gazetteer Database:Technical Description and User Guide for A Gazetteer to Suppo rt Natural Language Processing App lications [R].Virginia:The M ITRE Corpo ration,2005.

[21] 王际桐.论我国地名更名[J].中国测绘,2001(4):11-14.

Spatial-Temporal Expression of Chinese Toponym

L IJin-liang1,ZHANG Xue-ying1,FAN Xiao-chun2
(1.Key L aboratory of V irtua l Geography Environment,N anjing N orm a l University,M inistry of Education, N anjing 210046;2.Center of Earthquake M onitoring and Early W arning of N anjing,N anjing 210008,China)

The toponymic information includes p lace names,geographic named entity and spatial info rmation,and exp resses the history,culture,customs and so on.It has w ide resources,regional differences and changes w ith time.Besides,it is effected by Chinese traditional culture,long histo ry and contains abundant spatial-temporal information.However,most of the toponym databases have their disadvantages in rep resenting the toponym information,the spatial-tempo ral information,the diversity such as the descrip tion extension,comp leteness,co rrectness,granularity,balance and richness have been igno red,and there is no standardization on the fo rmats.Based on the analysisof toponymic and relevant information,a spatial-temporal toponym database content standard is designed in this paper.Its structure and datum o rganization are also included.This research will help toponym databases to expand their app lication service on public health,natural histo ry data management,cultural histo ry,and automated geo referencing of text.

Chinese toponym;spatial-temporal info rmation;integration of exp ression

P208

A

1672-0504(2010)06-0006-05

2010-04-19;

2010-10-06

李金良(1984-),男,硕士研究生,主要研究方向为空间数据挖掘和地理信息系统。*通讯作者E-mail:zhangsnowy@163.com

猜你喜欢

时空实体数据库
跨越时空的相遇
镜中的时空穿梭
前海自贸区:金融服务实体
玩一次时空大“穿越”
实体的可感部分与实体——兼论亚里士多德分析实体的两种模式
两会进行时:紧扣实体经济“钉钉子”
振兴实体经济地方如何“钉钉子”
数据库
数据库
时空之门