APP下载

面向地理本体的美丽乡村数据分类编码方法

2022-07-23郑灿霞王爱爱张圆圆

现代测绘 2022年3期
关键词:本体编码要素

郑灿霞,王爱爱,张圆圆

(安吉县自然资源和规划局,浙江 安吉 313300)

0 引 言

大数据是指多种类、多来源、海量的数据,利用人工或计算机软件对其进行处理,可以获得所需的信息资源。美丽乡村数据是指在美丽乡村建设前、中、后期产生的数据、图纸和信息。美丽乡村数据具有数据来源广泛、内容丰富、格式多样的特点,通过分析数据可以知悉调查村庄的情况,是一种乡村大数据的体现。基于美丽乡村数据特点,需要对应的数据分类编码方法支撑,才能更好地进行数据管理。通过数据的分类准则和编码要求,地理要素数据可以同时采集,数据库系统可以对不同类别的地理要素自动分类。

目前现有数据分类编码标准众多,如《地名分类与类别代码编制规则》(GB/T 18521-2001)[1]、《基础地理信息要素分类与代码》(GB/T 13923-2006)[2]、《地理信息分类与编码规则》(GB/T 25529-2010)[3]等。城市数据具有种类多、来源广泛、范围广、结构多样、数量大等特点[4-5]。乡村数据具有城市数据一样的特点,同时,乡村数据还具有信息缺失以及缺乏获取信息的有效技术手段的现状,无法全面真实地掌握乡村的实际情况[6],导致现有的数据分类编码大多针对城市编制的标准规范,没有专门乡村数据分类编码标准,在这方面仍是个空缺。

1 基于本体论的地理信息分类编码

1.1 地理本体

本体概念最早来源于亚里士多德在形而上学方面对事物存在本质的研究,后来成为哲学的研究分支,原意是指哲学上关于事物本质描述的一个核心术语。国内外很多专业人士在相关专业领域中,都本体一词进行了定义,本体的术语定义甚为广泛。

在AI领域,本体的概念主要是出于知识的共享,而在地理信息科学领域,则是同时将哲学本体和信息本体的含义引入到本体的概念中。地理本体主要涉及地理概念、类别、关系和过程,尤其是对地理信息科学领域本体的关注。1995年,Egenhofer和Mark最早将本体的概念引入到地理信息学科领域,地理本体最初目的是定义一套能促进不同系统和系统与用户之间的互操作和解决数据集成问题的公共词汇表,随后一大批该领域的学者开始关注本体,并展开研究。1999年,Mark等提出地理本体与地理信息的认知、表达、尺度以及不确定性都息息相关,认为地理信息科学中的本体论研究是高度跨学科的交叉研究[7]。2002年,Harding指出,地理本体是研究地理信息科学领域不同层次以及不同应用方向上地理信息概念的内涵和层次关系,同时给出地理信息概念的语义+标识[8]。

国内也有不少学者对地理本体做了相关的研究和定义。2004年,孙敏等指出,地理本体是研究地理信息科学领域内不同层次和不同应用方向上的地理空间信息概念的详细内涵和层次关系,并给出概念的语义标识[9]。黄茂军等认为,地理本体应同时具有哲学本体与信息本体的含义,哲学本体方面的研究主要涉及地理概念和类别、关系、过程,而信息本体的研究则主要体现在形式化表达上[10]。崔巍定义,一个地理本体系统是空间信息科学中具体应用领域里共享的一个概念化的知识系统的形式化和显示的说明规范[11]。2007年,吴孟泉进一步扩展,认为地理本体是一个多学科跨领域的理论体系,涉及哲学、语言学、Web技术、AI、知识表示和地理信息虽然各种定义表述不同,却有共同的本质即地理信息领域所公认的概念及对它们进行明确的形式化定义,目的都是服务于地理信息的共享集成[12]。

1.2 传统分类编码方法存在的问题

传统的地理信息分类方法通常根据现势事物的概念和概念间联系进行分类编码。随着科技的进步和社会的发展,地理实体的概念有所改变,要素也有所细化,导致不同时代的分类标准不同或者早期分类标准不适用的情况,比如最初道路的描述只是为了简单制图,当经济发展到一定水平,道路可以细化为国道、省道、县道等。

除此之外,传统的地理信息分类编码方法还存在不同领域同一事物的分类方法不同,同一个标准中概念模糊、属性重叠交叉,要素新增、删除导致整个分类系统需要相应修改等一系列问题。造成以上问题主要是因为没有一个全面系统的分类方法。

1.3 基于本体论的地理信息分类编码

为促进信息标准化,信息分类编码极为重要。地理信息标准是地理信息研究的重要内容,其分类编码是标准编制的基础,好的分类编码可以更好为地理数据的处理和共享服务[10]。地理信息分类是一个过程,通过对自然界和社会中地理实体概念的明确,由大到小进行抽象、归类,该过程所得到的是一个分类体系。地理实体是指现实世界中无法再划分为同类的最小个体,例如,将一个乡镇划分为若干部分,这些部分称之为村庄。目前,对本体论的研究在各个领域铺开,借助本体论思想对地理要素分类也是越来越广泛。基于本体论对地理实体概念、属性和特征对其进行语义分类,提出相应的分类体系,解决概念模糊、属性重叠、不同时代不同领域对同一个概念有不同定义等问题。基于本体论的地理信息分类,是指了解地理本体特征,细化和明确地理本体的概念,按照相互关系,不模糊、不重复、不交叉进行分类。根据基于本体论的分类方法,对应每条记录对其编码,并记录在计算机或者存储中。

2 面向地理本体的美丽乡村数据分类编码方法

2.1 美丽乡村数据内容

通过调研,美丽乡村数据内容丰富又复杂,包括属性数据、空间数据、全景数据和街景数据,本文对以上4种数据的分类编码进行研究。属性数据包括美丽乡村规划、建设和成果的文字、图片、视频数据,数据格式包括doc、xls、jpg、png、map4等;空间数据包括各类美丽乡村专题空间数据,数据格式包括shp、dwg等;全景与街景数据包括全景数据、天地一体数据和街景数据,数据格式包括空间坐标点数据和瓦片数据。美丽乡村数据内容如表1所示。

表1 美丽乡村数据内容

2.2 面向地理本体的美丽乡村数据分类方法

数据分类是一个将真实世界现象进行抽象的过程,最后形成一个分类方案,反映真实世界中地理信息的特征、属性和关系,通常使用线分类法和面分类法。线分类法具有层次清楚、易于理解等优点,结构弹性较差的缺点,面分类法具有扩充性好、结构弹性好等优点,组配结构太复杂等缺点。

目前,国家、地方行业中关于基础地理信息要素分类编码的基本使用线分类法,鉴于分类编码方法与国标、地标和行标应相适应,本文提出采用线分类法对美丽乡村平台数据要素分类,要素类型按照从属关系依次为大类、中类、小类、子类、特征码。

美丽乡村数据内容丰富,数据概念不易明辨,数据之间关系复杂,利用基于本体论的分类理念,不但可以填补乡村大数据在分类准则方面的空缺,还可以长期有效的保障数据的分类体系,避免经济发展导致体系动摇的情况。根据地理本体的概念,明确美丽乡村数据定义,并对其相互关系进行剖析,获得美丽乡村本体数据的分类体系。大类包括空间数据、属性数据、全景数据和街景数据4类;中类在上述大类基础上划分,包括行政村、农家乐、旅游景点、人口基本信息等17类;小类在中类的基础上再做划分,子类和特征码同理,分别在小类和子类的基础上再做划分。美丽乡村数据本体的分类体系(大类,中类体系)如表2所示。

表2 美丽乡村数据本体的分类体系(大类、中类体系)

2.3 面向地理本体的美丽乡村数据编码方法

数据编码是计算机处理的关键,由于数据信息内容庞大,为了方便记忆,计算机处理快速,对于记录的信息进行编码,不同的编码代表不同的信息。地理实体数据编码通常是指通过一组数字表示按照某种规则对数据要素进行分类后的类别,是要素类别的一个唯一标识码。

地理要素编码一般都采用十进制的方式,可以根据需求和分类准则,采用不同位数的数据码进行编码,目前用的比较多的有6位十进制编码、7位十进制编码和10位十进制编码。鉴于编码准则与国标、地标和行标相适应,本文提出编码方式采用10位十进制数字码进行,不足10位的用“0”补齐。

根据面向地理本体的美丽乡村数据分类方法,按照大类、中类、小类、子类、特征码的顺序,对美丽乡村数据进行编码,包括2位大类码、2位中类码、2位小类码、2位子类码和2位特征码。要素编码如图1所示。

(1)左起第一、二位为大类码,由自然数01-04表示大类码编码。

(2)左起第三、四位为中类码,在大类基础上细分成的要素类,由自然数01-99表示中类码编码。

(3)左起第五、六位为小类码,在中类基础上细分成的要素类,由自然数01-99表示小类码编码。

(4)左起第七、八位为子类码,在小类基础上细分成的要素类,由自然数01-99表示子类码编码。

(5)左起第九、十位为特征码,由自然数01-99表示特征码编码。

2.4 分类编码的扩充原则

当分类编码方法提供的要素类型或分类代码不能满足需要时,可根据该要素所属的大类表示的内容确定要素的中类、小类、子类,并在此基础上添加特征码,如若无法满足要求,可根据实际情况进行扩充,但编码位数不可扩充。

2.5 分类编码方法的优点

基于国标、地标和行标,参考城市分类编码方法,结合多地美丽乡村的建设,本文提出面向地理本体的美丽乡村数据分类编码方法,具有如下优点:

(1)填补空缺。由于美丽乡村数据专有的特点,目前还没有针对美丽乡村数据专门的分类编码方法,本方法的提出填补了该领域的空缺。

(2)稳定性强。本方法选择各要素最稳定的特征和属性为分类依据,能在较长时间里不发生重大变更。

(3)易兼容。本方法是基于国家和地方分类编码规则,如地名分类与类别代码编制规则、基础地理信息要素分类与代码、地理信息分类与编码规则、基础地理信息要素分类与图形表达代码等分类编码规则,结合美丽乡村数据提出的,因此有较好的兼容性。

(4)易检索。本方法采用10位十进制数字码表示要素,表示方式简洁。由于计算机对于数字的检索功能高于字母,因此采用十进制数字马可以高效检索所需信息。

(5)易扩展。本方法代码结构留有适当的扩充余地,用户可根据需要进行扩充。

3 应用与分析

3.1 研究区域概述

安吉县从2008年开始,围绕“村村优美、家家创业、处处和谐、人人幸福”的美丽乡村建设目标,以人大“决议”形式推进“中国美丽乡村”建设,全县编制有美丽乡村建设行动纲要和分十年推进的美丽乡村建设总体规划,是浙江省美丽乡村首批先进县,是我国首个“联合国人居奖”获得县,是践行青山绿水就是金山银山的发源地,是美丽乡村建设的实行地。美丽乡村创建满十年后,2018年全国改善农村人居环境会议在安吉召开,会议深入贯彻习近平总书记乡村振兴和改善农村人居环境的重要指示精神,进一步推广“千村示范,万村整治”工程经验做法。在美丽乡村建设的过程中,出于环保,规划,交通等部门对地理空间信息的需要,在2012年建设了地理空间数据库。美丽乡村数据库主要数据内容包括农家乐、景点、酒店、行政村、人口基本信息等,本次研究区域如图2所示,包括安吉县188个行政村。

图2 数据覆盖范围图

3.2 研究成果应用

根据本文提出的面向地理本体的美丽乡村数据分类准则和编码要求,结合安吉县美丽乡村建设情况,将本文的研究方法应用到安吉乡村数据中,对安吉乡村数据分类编码进行研究。部分数据分类编码如表3所示。

表3 安吉县美丽乡村部分数据分类编码表

4 结 语

面向地理本体的美丽乡村数据分类编码方法,实现了乡村大数据分类和编码。美丽乡村数据分类编码方法是一项系统性工程,随着应用的不断深入,分类编码方法不断完善和进步。目前已成功应用到安吉县美丽乡村数据平台开发过程中,为安吉县美丽乡村数据的管理提供了依据。借助美丽乡村建设和信息化进步形成的地理信息建设模式,推广到全省乃至全国其它地区的平台建设中使用,在一定范围内形成推广模式。通过各地对平台数据管理方法的使用,逐渐完善成为一个完整、通用、规范的数据管理方法,为美丽中国数据管理提供实际参考作用。

猜你喜欢

本体编码要素
生活中的编码
眼睛是“本体”
《全元诗》未编码疑难字考辨十五则
掌握这6点要素,让肥水更高效
子带编码在图像压缩编码中的应用
一种基于社会选择的本体聚类与合并机制
Genome and healthcare
也谈做人的要素
2015年8月债券发行要素一览表
专题