活动断层探察数据的信息编码优化研究1
2017-10-13吴熙彦于贵华杜克平徐锡伟
吴熙彦 于贵华 杜克平 徐锡伟 王 银
活动断层探察数据的信息编码优化研究1
吴熙彦1)于贵华1)杜克平2)徐锡伟1)王 银3)
1)中国地震局地质研究所,中国地震局活动构造与火山重点实验室,北京100029 2)北京师范大学地理学与遥感科学学院,北京100875 3)宁夏回族自治区地震局,银川 750001
从20世纪90年代起,研究人员就开始探索活动断层探察数据的制作、存储与管理。迄今为止,已经获得了大量的活动断层探察数据,建成了一套系统的数据组织体系,为减轻地震灾害的相关研究提供了数据和技术支撑。近年来,随着活动断层数据库信息的扩充,初期设计的部分属性信息编码已不适用。为了形成适应当前工作的属性信息编码体系,本文以活动断层数据库建设体系为基础,对数据库属性值代码进行信息分类和编码优化。文章将数据库属性值代码分为字符型单一含义值、数值型单一含义值及复合含义值,分别进行编码规则设计,最终优化了数据库属性信息编码体系,提高了从建库到数据应用的数据录入、检测、制图自动化、数据分析等环节的效率。
活动断层 数据库 信息分类 信息编码 探察数据 优化
引言
地震时活动断层的错动会给断层带上的建筑物和生命线工程造成巨大破坏。越靠近断层破裂面的地方,发震断层对建构筑物的破坏越大。准确探明活动断层的位置、滑动速度等特性,并建立相应的数据库,可以帮助社会减轻灾害带来的损失,保护生命财产安全(徐锡伟等,2002;徐锡伟,2006;田胜清,2006)。20世纪90年代,我国多家机构对重要城市、重点活动断层逐步开展探察。研究人员开始探索利用计算机协助相关工作及存储数据(于贵华等,1996)。在我国政府资助的一些重大活动断层探察项目的推动下,探察成果逐渐由过去的纸质储存转变为利用计算机的数据库技术储存。2004年,国家发展改革委员会立项资助的国家级重大科学工程“中国数字地震观测网络工程”中的“中国地震活动断层探测技术系统”分项工程启动。分项针对华北平原区、鄂尔多斯周缘盆地区、青藏高原东缘山间盆地等不同地震地质环境和第四纪地质条件进行了“城市活动断层试验探测”工作和20个大城市活动断层探测与地震危险性评价。在项目的资助和全体项目参加者的努力下,形成了《活动断层探测及研究成果数据规范》,及基于该规范建设的20个大城市活动断层探测成果数据库。同时,相继建立了福州市活动断层信息管理系统(于贵华等,2006)等一系列活动断层探测数据库管理系统(柔洁等,2008;刘娜等,2009;葛孚刚等,2011),并在基于ArcGIS的地震活动断层多源数据组织与管理等方面进行了一系列有益的探索(葛伟鹏等,2006;李策等,2008;崔瑾等,2014)。2008年“中国地震活动断层探测技术系统”工程结束后,中国地震局在2009年启动了中国地震活动断层填图计划。计划包括“喜马拉雅计划——中国地震活动断层探察项目”和“我国地震重点监视防御区活动断层地震危险性评价项目”(中国地震局震害防御司,2013)。为保障数据质量,项目更强调与活动断层填图同步开展数据库建设,在总结“中国地震活动断层探测技术系统”数据库建设经验的基础上,采取了合理优化数据库模板等一系列措施,保障探察数据的及时录入和数据库的准确与实用(于贵华等,2013)。本文在地震活动断层填图项目背景下,以活动断层数据库建设体系为基础,对探察数据信息的编码进行了优化研究与设计。优化与完善信息分类编码是优化数据库模板的一项重要内容,为科学规范化数据库及数据内容提供了技术基础。这一工作也为相关行业使用、访问活动断层数据提供了统一标准,有助于推进活动断层探察基础工作在防震减灾的应用。
1 活动断层数据库值代码优化需求概述
1.1 活动断层数据库规范化需求
活动断层数据库模板近年来应用于城市、华北构造区、南北地震带及其他重点区域的活动断层探察数据库建设,未来可能将应用于我国各地区、各类项目的活动断层探察数据库建设中。库中的数据来源于不同项目和专业。为了便于管理、查询、理解与应用,须对建库各环节内容进行规范化。
活动断层数据库建设各环节规范化的内容包括:要素集、要素类、表、关系类、字段、值域等的命名规范化;专题号、专题数据库号、ID号的编号规范化;属性值的代码规范化;入库数据错误类型、数据集成错误类型等软件使用的代码规范化。从数据库模板建立、数据录入,到数据检测与集成,规范化的工作贯穿了整个工作周期(如图1所示)。
1.2 活动断层数据库值代码初期设计中存在的问题
城市活动断层数据库建设的初期未建立系统的编码规则,大部分属性值仅按照顺序编码,一旦扩展属性值域,将破坏原有值代码规律,从顺序码变为无序码。
随着活动断层探测工作的深入开展,探测手段的不断更新和完善,数据与建库经验的积累,对数据库存储数据的性质及特征认识的不断深入,在数据库模板不断优化的过程中,需要根据已扩展的值域需求,对值码进行编码优化设计,使其有规律、便于理解和维护。
2 值代码优化设计
2.1 编码对象
本文主要对数据库中可用离散值表示的属性进行分类编码。在活动断层数据库发展前期,已经确定了需要用代码表示的属性信息。本文在不改变数据库组织结构的前提下,对库模板中的离散值进行编码优化设计。经总结分析,数据库需要编码的内容包括表述年代的地质地貌形成年代、火成岩形成时代、地层年代,表述方法的样品测试方法、方位角(16方位),表述不同类型实体的断层类型、褶皱类型、火成岩体类别、地震地表破裂类型、剖面线类型、采样类型,表述数据来源或从属关系的钻孔来源、目标断层来源、探槽来源、样品数据来源、目标破裂带来源、所属图件、大文件数据源等。数据库从过程和对象两个层次设计,形成对象-过程的结构(如图2),待编码的值应用于特定调查对象的特定调查阶段,描述对象包括实体、方法、状态、成果、类属等。
2.2 编码原则
信息分类编码通常应先制定相应的分类原则(董曼等,2014;张翼等,2016)。本文研究的编码原则遵循国家标准《标准化信息导则信息分类编码的基本原则和方法》(GB 7027—2002)。该标准给出了信息编码的6项原则:唯一性、合理性、可扩充性、简明性、适用性和规范性。针对本文所研究的数据库值代码,遵循这6项原则,在编码设计上符合以下具体原则:
(1)唯一性原则:本文研究的值代码在数据库建设中具有唯一性。一个值所表述的内容作为一个编码对象,只有一个代码。
(2)合理性原则:值代码的结构与活动断层数据库建设体系相适应,根据数据分层分类设计代码结构。
(3)可扩充原则:值代码在设计编码框架下有适当的可扩充性。
(4)简化原则:控制代码长度,简化实体、方法、状态、成果和类属值的代码。
(5)适用原则:值代码反映编码对象的特点;不仅要考虑系统对编码的辨识能力,同时考虑入库人员的理解与记忆。
(6)规范化原则:在数据库对象-过程的统一框架下设计值的编码。
2.3 活动断层数据库的组织结构与信息分类
本文研究的编码体系基于待编码值的信息分类,将具有不同属性或特征的信息区分归类。拥有相同特征的信息用相同的规则编码;表达相同意义的信息采用相同的代码表示。整个编码体系不仅要具备适应性和规范性,而且要保证码值的唯一性。数据库属性值的分类和编码与数据环境、数据库结构设计、数据的存储和管理等有关(李新通等,2002)。本文的属性信息分类和代码规划遵循这一规律,基于活动断层数据库标准框架统筹与优化值代码。
活动断层数据库建立过程与活动断层探察工作进展一致,在相应的工作阶段将探察资料逐一入库。其中包括大量地质、地貌、地球物理、制图等要素的属性信息。活动断层数据库的组织结构如图3所示(于贵华等,2012)。构建数据库时除了考虑专题内容,还考虑了工作阶段,从2个层面设计数据组织。在数据组织的第一层面,将数据按工作流程分为3类:准备阶段数据、野外调研阶段数据和室内总结阶段数据。在每一阶段,数据按专题内容划分为不同数据集。
数据组织的第二层面将第一层面的各阶段各专题的数据分层分类,分类后同类别的数据出现在不同阶段。随着工作的展开,数据经过再处理和信息更新,形成下一阶段的数据。某一阶段的同类数据既继承了上一阶段的信息,又记录了这一阶段的信息。以地质类数据的断层为例,如图4所示。准备阶段,通过遥感解译手段,获得解译的断层线并存储于遥感数据集的遥感解译线中;野外调查阶段,选取解译的断层,结合实地调查,形成活动断层数据;室内总结阶段,总结分析研究区域内的活动断层、早中更新世断层和前第四纪断层,形成最终的断层数据。数据传递的同时,部分数据组织方式和属性值也从第一阶段传递到第二、三阶段。基于数据组织的非单一层面结构,将数据集作为数据库最顶层数据单元、自顶向下地分类和编码,可能增加代码的复杂度和长度。更优化的方法是基于专业分类,从地质、地球物理、火山调查等层次开始分类与编码。
2.4 编码规划
编码类型按照被编码信息的含义可分为复合含义值、单一含义值;按照编码构成类型可分为字母/字符型、数值型。数值型与字母/字符型编码有各自的优缺点。字母/字符型编码常用于表示名称缩写等,易于记忆,但表示复合含义时长度较长;数值型编码不易于记忆,但可用多位数值表示多重含义,形成数值型复合含义值。数值型复合含义值使用数值型编码方式,由多组1—2位的数值型编码组成,组与组之间具有层次结构,表示一定层次关系与复合含义。
活动断层数据库待优化编码值域包括单一含义值和复合含义值。活动断层数据库的单一含义值采用简单数值或字母/字符型编码,便于理解和记忆。描述判断、级别、方位角度等的值本身与数值相关,采用单一含义数值型码。表示数据来源、数据从属关系等值域一般用文字表述,采用字母/字符型编码,易于记忆与填写。
活动断层数据库的复合含义值采用等长数值型代码,表达多重含义。表示地质年代的代码采用线分类法规划编码。线分类法也称为层次分类法,是一种从上层逐层展开分类的体系。在线分类体系中,同位类的类目之间存在并列关系;下位类与上位类存在隶属关系(如图5)。这种层次关系符合地质年代宇、界、系、统、阶的层次结构,适用于地质年代编码。活动断层研究有将全新世进一步细分,或在特定情况下将早中更新世地层单元合并的需求,需用8位数值码编码。表达特定类别下、特定调查阶段的实体、方法、状态、成果、类属等的值,与活动断层数据库建设所属专题数据和调查阶段相关,采用面分类法规划编码。面分类法又称平行分类法,它将待分类事物或对象的若干属性或特征视为若干个面,面与面之间彼此独立,编码时将面内的类目组合在一起,形成复合类目(如图6)。这种方法适用于活动断层数据库中复合含义值编码。针对本文讨论的数据库结构,该方法更容易将各专题数据用统一的规则分类编码。但面分类法的主要缺点是不能充分利用编码空间。当某个值域没有某一面的特性时,代表该特性的码段会被浪费。活动断层数据库值码既有共同的特性,又有自身的特点。因此,类目内编码可结合线分类法,各面内部自定义编码规则,减少编码复杂性、码段数目和码值长度,根据规划,采用6位数值编码。对数据库体系先进行分层分类,确定值的类目特性,再进行细分与类目内编码。
图5 线分类法示意图
图6 面分类法示意图
2.5 码值详细设计
根据编码值域的特点,编码时把值码分为4类,即单一含义字符型编码、单一含义数值型编码、8位数值型编码和6位数值型复合含义编码。每类编码采用相应的码值设计方法。
(1)表示数据来源的值含义虽然单一,但描述来源的信息可能较长。采用字符型缩写码,既容易辨识与记忆,又降低存储空间。这类值对象包括目标断层来源、地震地表破裂带来源、采样点来源等,如表1。
表1 表示数据来源的值代码表
续表
(2)表示有特定的、单一意义的、与数值有关的编码,使用数值型代码更容易理解。比如方位角、可靠性等级等,如表2。
表2 单一含义数值型代码表
(3)表示年代的代码采用等长数值型代码。地质地貌形成年代、火成岩形成时代、地层年代都用地质年代描述,可以使用统一、标准的编码方式。
地层年代、形成年代的第1位表示宇,第2位表示界,第3位表示系,第4、5位表示统,第6、7位表示阶,第8位表示阶内年代细分代码。年代越老,数值越小,年代越新,数值越大,如表3。
火成岩形成时代通常表达为2个地质年代之间,或者某一地质年代。用于表达火成岩形成时代的地质年代描述到纪。因此,将8位代码划分为前后2段等长代码。火成岩形成时代为2个地质年代之间,前4位表示形成时代的底界(该期最老地质年代),后4位表示形成时代的顶界(该期最新地质年代)。火成岩形成时代为某一地质年代时,前4位表示该地质年代,后4位作为保留位。4位代码段的第1位表示宇,第2位表示界,第3位表示系,第4位作为保留位,如表4。
表3 地质年代代码表
表4 岩体形成时期代码表
(4)表示复合含义的值用6位数值型代码,不同的码段代表不同层次的含义。一方面所有值代码在整个数据库下有统一的表述方式,另一方面可以保证值代码的唯一性。6位代码由多个码段组成。首先利用面分类法对信息组织分类,再利用线分类法对类目内的值进行细分类与编码。第1和第2码段分别占1位,表示值所属大类和小类,用面分类法编码。值所属大类码值含义:1为地质;2为地球物理;3为地球化学;4为样品;5为火山。小类编码值含义:1为实体;2为方法;3为成果;4为状态;5为描述。如表5所示。
表5 代码结构示意表
表6 第3—6位代码含义概况表
表7 断层类型代码表
复合含义6位数值型代码的第3—6位是类目内编码,根据类目特性再划分码段,用线分类法设计编码。小类内部码段分类规划和部分编码设计如表6所示。小类内部编码使用数字型代码,为了统一规划,码位基本等长。码段内基本采用顺序编码,不表示任何特性的码段用0补齐。
以断层类型为例,该值域描述对象是断层的产状和出露情况的描述,第1位表示地质类,第2位表示对象是实体,第3位表示断层,第4位表示出露情况,第5位表示正断、逆断,第6位表示走滑、左旋走滑、右旋走滑。具体的值如表7所示。
3 结果与讨论
活动断层数据库的专题数据复杂,存储阶段数据来源广,因此属性值分类编码也较为复杂。本文研究的分类编码不仅有助于数据库的规范化,还有利于数据库优化和活动断层探察数据成果的推广与应用。本文研究的值代码优化在数据录入、数据检测、制图自动化、数据分析等方面以下意义:①值代码优化后以缩写码编码,易于记忆与录入;②不再存在无序值代码,有效提高了软件检测数据的效果;③值代码规范化提高了专题要素符号匹配的效率,有利于标准化制图;④便于携带与共享的单文件(如断层数据)能实现多层次的分类、分层与分析,提高了数据的分析能力,有助于提高断层探测成果在防震减灾方面的应用。
活动断层数据库属性值代码优化的效果显著。值代码遵循了国家标准要求的6大编码原则。编码通过以下方式实现唯一性:数值码与字符码相互独立;简单数值型码和复杂数值型码通过位数进行区别;复杂数值型码通过不同类型代码位数不相同、同类型代码分码段分类编码。复合型代码的分段以数据库结构为基础,与数据库建设体系相适应。优化后的代码在数据库体系基础上将原来的无序码变为有扩展性的、规范的有序码。复合型代码在码段内预留了部分值,并预留了部分代码的码段,实现了代码的可扩充性,大大降低了原顺序码扩展后变为无序码的可能性。在代码规范化和增加扩展性的同时,也降低代码的长度,从而简化了代码。
活动断层探察工作使用地质、地球物理、年代学、遥感等多学科的研究手段,获得的数据复杂并且量大。数据库除了存储多专题数据,还存储了多阶段数据,增加了值代码优化的复杂性。本文在数据库模板值代码的优化方面进行了具有建设性的探讨和研究,建立了基于活动断层数据库体系的属性值编码体系,对防震减灾工作有着积极的现实意义和实用价值。
致谢:本文的工作是在“中国地震活动断层探测技术系统”、“我国地震重点监视防御区活动断层地震危险性评价”、“中国地震活断层探察”、“编制活动断层相关标准的研究”等项目全体参与者的支持下才得以推广和完成,在此向参与项目的每一位同仁表示衷心的感谢!审稿专家和《震灾防御技术》编辑部老师也对本文提出了很多宝贵建议,在此也向每一位帮助过本文编写工作的专家老师表达感激之情!
崔瑾,柴炽章,王银,2014.活断层数据库建设技术方法及操作综述.震灾防御技术,9(2):271—279.
董曼,杨天青,2014.地震应急灾情信息分类探讨.震灾防御技术,9(4):937—943.
葛孚刚,王冬雷,王志才等,2011.山东省1:20万活断层数据库建设.土工基础,25(3):64—67.
葛伟鹏,袁道阳,郭华,2006.对城市活断层探测项目中地震地质数据建模的探讨.西北地震学报,28(2):134—139.
李策,杜云艳,于贵华等,2008.基于ArcGIS的地震活断层多源数据组织与管理研究.地球信息科学,10(6):716—723.
李新通,何建邦,毕建涛,2002.国家资源环境数据库信息分类编码及应用模式.地理学报,57(S):9—17.
刘娜,张建国,毛燕等,2009.活断层数据库在昆明市防震减灾工作中的应用研究.地震研究,32(S):503—506.
柔洁,刘云华,傅长海,2008.乌鲁木齐市活断层数据库在城市建设中的作用.内陆地震,22(3):193—202.
田胜清,2006.核电厂地震安全性评价中的断裂构造调查与评价.震灾防御技术,1(1):25—30.
徐锡伟,于贵华,马文涛等,2002.活断层地震地表破裂“避让带”宽度确定的依据与方法.地震地质,24(4):470—483.
徐锡伟,2006.活动断层、地震灾害与减灾对策问题.震灾防御技术,1(1):7—14.
于贵华,邓起东,邬伦等,1996.利用GIS系统建立中国活动断裂信息咨询分析系统.地震地质,18(2):156—160.
于贵华,徐锡伟,孙怡等,2006.城市活断层探测信息系统的设计与实现——以福州市活断层信息管理系统为例.地震地质,28(4):655—662.
于贵华,杜克平,徐锡伟,吴熙彦,2012.活动构造数据库建设相关问题的研究.地震地质,34(4):713—725.
中国地震局震害防御司,2013.地下搞清楚:中国地震活动断层探察.防灾博览,(4):20—25.
张翼,唐姝娅,王悦等,2016.地震应急信息产品分类编码研究.震灾防御技术,11(1):132—143.
Optimizing Information Coding of Active Fault Survey Data
Wu Xiyan1), Yu Guihua1), Du Keping2), Xu Xiwei1)and Wang Yin3)
1) Key Laboratory of Active Tectonics and Volcano, Institute of Geology, CEA, Beijing 100029, China 2) Beijing Normal University, Beijing 100875, China 3) Earthquake Administration of Ningxia Hui Autonomous Region, Yinchuan 750001, China
The study of digital active fault database of storing and managing active fault survey data started in the 1990s. In the following 20 years, a systematic database framework has been developed, which provided fundamental data to minimize losses caused by earthquake disasters. In recent years, as the database framework developed and the range of information extended, some early designed attribute value codes are no longer adaptable to the new database framework. In order to build a more applicable attribute value coding system, we designed the coding rules respectively for three types of values: simple meaning character codes, simple meaning numerical codes and complex meaning codes. A new attribute value coding system has been built and discussed in this paper. The results show that the new system is helpful of increasing the efficiency of data entry, data detection, auto-mapping, data analysis and other relevant work.
Active fault;Database;Information classification;Information coding;Survey data;Optimize
1基金项目 中央级公益性科研院所基本科研业务专项(IGCEA1303)、地震行业科研专项“编制活动断层探察相关标准的研究”(20138001)、“中国地震活动断层探察”(201408123)和“我国地震重点监视防御区活动断层地震危险性评价”(201008001)联合资助
2016-01-11
吴熙彦,女,生于1984年。工程师。主要从事GIS在活动构造研究方面的应用研究。E-mail:xywu@ies.ac.cn
于贵华,女,生于1966年。研究员。主要从事数据库、GIS、活动构造等方面的研究。E-mail:yuguihua@139.com
吴熙彦,于贵华,杜克平,徐锡伟,王银,2017.活动断层探察数据的信息编码优化研究.震灾防御技术,12(1):85—95. doi:10.11899/zzfy20170109