APP下载

开放共享环境下城建档案数据脱敏系统研究与设计

2021-07-28袁绍晚

档案与建设 2021年6期
关键词:城建档案

袁绍晚

摘 要:数据脱敏是数据治理的重要内容。文章在数据脱敏概述与文献研究的基础上,指出城建档案数据脱敏系统建设路径包括5个步骤:数据脱敏战略化、分类分级标签化、脱敏策略标准化、脱敏目标元数据化和脱敏流程智能化,并总结了6个脱敏关键技术:传统脱敏技术、文本分类技术、CAD二次开发技术、GIS二次开发技术、内容识别技术和数据可视化技术,最后对脱敏系统进行功能设计。

关键词:城建档案;数据脱敏;脱敏技术

数据开放共享已成为国家治理战略的重要组成部分。近年来,国家层面印发一系列政策文件,对数据开放共享进行宏观部署和顶层设计。在数据开放共享过程中,城建档案数据作为政务数据的重要组成部分,在释放数据红利的同时,也面临着数据泄露或遭黑客攻击等安全风险,其中的敏感数据一旦发生泄露,将会给政府、社会和个人带来较大负面影响,甚至造成经济损失。因此,在数据开放共享环境下,如何在保障数据供给质量的同时,防止敏感数据泄露,已经成为档案管理部门亟待解决的问题。

数据脱敏是数据治理的重要內容,是一项保障数据安全的基本技术。大量实践案例和文献研究已经证明,数据脱敏技术在保护个人隐私数据、防止数据泄露方面具有独特的技术优势。

一、 数据脱敏概述

数据脱敏又称数据去隐私化或数据变形,是在给定的规则、策略下对敏感数据进行变换、修改的技术机制,能够在很大程度上解决敏感数据在非可信环境中使用的问题[1]。数据脱敏流程分为敏感数据分类分级、脱敏策略制订、脱敏目标确认、数据脱敏与分发、脱敏数据审计与监管等环节。在脱敏实现方式上,可分为静态数据脱敏和动态数据脱敏。

以“数据脱敏”为主题在中国知网进行检索,发现目前研究成果主要集中在以下方面:脱敏数据类型方面,已由结构化数据脱敏拓展至非结构化数据脱敏,如文本内容[2]、图像内容[3]、矢量地理数据[4]等;脱敏技术发展方面,诸如机器学习[5]、数据智能分类技术[6]、人工智能技术[7]等智能化数据脱敏技术日趋成熟;行业应用方面,脱敏技术已在政府数据[8]、证券期货[9]、电信运营[10]等行业领域得到广泛应用。

二、城建档案数据脱敏中存在的问题

城建档案数据不仅包括了政府部门在工程建设项目审批过程中形成的政务数据,还包括了建设单位在生产施工过程中产生的建设项目数据。因此,城建档案数据积累、沉淀和汇聚了大量隐私、敏感数据。目前,城建档案数据脱敏主要存在以下问题:数据脱敏无序,没有纳入数据治理的全生命周期管理;数据资产模糊,没有脉络清晰的分类体系;脱敏策略歧义,没有定义明确的执行标准;脱敏目标随机,没有全面完整的数据模型;脱敏操作传统没有自动智能的工具手段。

三、城建档案数据脱敏系统建设路径

城建档案数据脱敏系统建设应当坚持总体国家安全观,以《中华人民共和国档案法》《中华人民共和国网络安全法》《中华人民共和国数据安全法》等为法律依据,在国家数据治理的顶层设计下有序推进。同时,结合城建档案数据的特点,有针对性地引入大数据等信息技术,开展数据脱敏工作。

1. 数据脱敏战略化

国家数据治理的顶层设计是城建档案数据脱敏工作的遵循原则和战略目标。在实践中,要充分认识到城建档案数据具有政务数据和档案数据双重属性,一是要融入国家大数据资源统筹发展工程和政府治理大数据工程[11],二是要融入新时代新成就国家记忆工程和档案信息化强基工程[12]。

2. 分类分级标签化

数据分类分级是数据治理工作的核心任务。《中华人民共和国数据安全法》明确规定,国家建立数据分类分级保护制度。城建档案的分类分级体系有项目性质分类法、文件密级分级法和著录数据分级法。大数据的核心价值通过标签数据的多样应用得到充分体现[13],在城建档案分类分级工作中,引入数据标签类目体系,能满足不同业务场景下数据脱敏需求,多维度体现数据业务价值。

3. 脱敏策略标准化

数据脱敏策略标准是脱敏系统建设的基础。依据《信息安全技术个人信息安全规范》(GB/T 35273-2020)等数据安全类标准,脱敏策略标准制订应以满足落地执行为出发点,覆盖城建档案数据生命周期,包括策略发布流程、策略术语定义、脱敏通用原则、脱敏操作方法、数据访问规则等内容,用于指导敏感数据的管理和保护。

4. 脱敏目标元数据化

元数据是数据脱敏系统建设的中心内容。广泛采集城建档案的业务元数据、技术元数据和管理元数据,建立动态、开放、集成的脱敏目标元数据存储库,不仅能够精准绘制敏感数据的全景视图,建立统一的数据表达形式,还能方便敏感数据的灵活交互和纵横扩展,实现从业务层到技术层的互联互通。

5. 脱敏流程智能化

智能化是脱敏系统建设的关键绩效指标。大数据时代将数据脱敏流程与人工智能的自主学习和强大的数据分析能力相结合,实现易学习、免配置、自动脱敏和自适应脱敏算法等功能[14],可以满足优化营商环境对城建档案敏感数据供给提出的时效、质量、能力等政策要求和考核评估。

四、城建档案数据脱敏关键技术

城建档案业务主题数据的文件格式包括结构化文件、文本文件、图像文件、CAD文件、GIS文件等。针对不同的文件格式,要采用不同的数据脱敏技术。

1. 传统脱敏技术

结构化文件表现形式为关系型数据库的数据表,字段类型可分为字符型、数值型、日期型等。这些字段的内容可以使用传统脱敏技术如替换、无效化、置乱、均值化、偏移、加密等脱敏算法进行数据脱敏。例如,在浏览特定区域内某个建设项目的用地面积时,可以将详细地址置乱为特定区域,将建设单位加密为消息摘要值,用地年限替换为长期等。

2. 文本分类技术

城建档案中存在大量的电子文本文件,如政府批文、地质勘察报告、监理文件等,利用文本分类技术,通过多次对适度规模敏感词训练集的测试、优化,建立敏感词特征库,并以此为基础,通过自适应学习算法完成文本文件内容脱敏工作。

3. CAD二次开发技术

城建档案中有大量由计算机辅助设计(Computer Aided Design,CAD)技术生成的DWG格式电子文件,如建筑安装工程竣工图、市政基础设施工程竣工图等。通过AutoCAD进行二次开发,使脱敏系统具有CAD数据脱敏功能,可以对敏感图层、敏感实体、敏感图形和敏感属性等进行自动脱敏,脱敏操作通常是不可逆、去关联的,如删除、隐藏、变形等。

4. GIS二次开发技术

GIS二次开发技术主要用于地理数据脱敏。地理数据属于高敏感级数据。地理空间数据的脱敏较复杂,需要通过GIS的二次开发,在已有的GIS平台中开发专门的地理数据脱敏功能,涉密属性信息或高敏感级数据多通过地理要素及属性删除法脱密[15]。

5. 内容识别技术

随着数字化设备的广泛应用,城建档案包含了大量的纸质档案数字化副本影像文件、照片文件和视频文件。人工手动脱敏方法已远远不能满足档案利用现实需求。利用图像内容识别技术进行图像数据内容识别、数据加密并进行敏感信息模糊化等手段[16],不仅能快速完成对图像文件中敏感数据的自动脱敏,还能全面满足各种利用工作场景的业务需求,为高效、准确地开展数据保护工作提供有力支撑。

6. 数据可视化技术

数据可视化旨在借助图形化手段,清晰有效地传达与沟通信息。在“公开为常态、不公开为例外”的信息公开政策要求下,将结构化数据如建筑面积、用地面积、车位数、绿地率、容积率等,以柱状图、折线图、饼图等图形方式进行直观表达,不仅达到了政策要求,还实现了数据泛化脱敏处理。

五、城建档案数据脱敏系统功能设计

城建档案数据脱敏系统功能包括数据请求、数据审计、目标识别、策略匹配、数据访问、数据脱敏、脱敏验证和数据封装等(见图1)。

1. 数据请求

用户根据自身数据需求,通过网页浏览器、移动设备、数据接口等方式向脱敏系统发出数据请求。

2. 数据审计

数据审计是在接受到数据请求后和作出数据响应前对相关内容进行审计。在接受到数据请求后,审计内容包括:用户权限、身份角色、请求设备和访问协议等。在作出数据响应前,审计内容包括:脱敏数据的合规性、安全性,问题回溯等。

3. 目标识别

目标识别用于敏感数据识别。数据识别是在元数据库、敏感信息库的相互协作下完成。其中,敏感信息库来源于机器学习对不同文件格式的敏感数据训练集的特征值。机器学习过程并不是一次性完成,而是要不断地进行人工标注和调整。

4. 策略匹配

策略匹配用于數据脱敏策略标准的匹配和管理。脱敏策略标准是在脱敏过程中贯彻的规则、规范、方法和限制的统称,主要内容来源于业务领域的知识库、工程建设的规则库、机器学习的算法决策库及人工配置的规范文本等(见图2)。

5. 数据访问

数据访问分为结构化数据访问和非结构化数据访问。结构化数据访问步骤包括数据源连接、数据表打开、字段记录提取等。非结构化数据视不同的文件格式执行不同的操作:文本文件、CAD文件和图像文件等直接从文件服务器中加载解析;地理数据在GIS平台中提取图层数据和要素数据。

6. 数据脱敏

数据脱敏是在数据分级、脱敏策略的共同约束下,对目标数据集采用适当的脱敏算法和脱敏技术进行脱敏操作。数据脱敏是脱敏全生命周期中的关键环节,脱敏算法的复杂度、脱敏技术的匹配度会直接影响数据脱敏质量和效果。

7. 脱敏验证

脱敏验证是对脱敏后的数据从完整性、一致性和关联性三个方面验证脱敏数据的利用价值是否得到延续。以脱敏后的地理数据集为例,包括地物编码的组成要素是否齐全完整,空间坐标精度是否与坐标元数据描述一致,各地物间的拓扑关系是否相互关联。

8. 数据封装

数据封装是指采用数字签名等安全技术防止脱敏数据被伪造或篡改,保证数据在整个生命周期中有效传递和安全传输。通过数据封装,数据请求者在接收到脱敏系统的响应数据后,能及时确认脱敏数据来源合法性和完整性,防止传输中的抵赖和欺诈。

城建档案数据脱敏在具有通用数据脱敏特点的同时,又具有较强的专业性。

随着建筑信息模型数据加入,势必对城建档案数据脱敏提出更高要求。仅从技术层面对城建档案数据脱敏进行研究,并不能实现真正意义上的数据脱敏,还要更多地从法律层面、文化层面进行研究,为城建档案数据脱敏创造更好的数据治理环境和氛围。

*本文系2020年度国家档案局科技项目“‘互联网+政务服务背景下广州建设项目档案数据治理研究”(项目编号:2020-X-77)阶段性研究成果。

注释与参考文献

[1]陈天莹,陈剑锋.大数据环境下的智能数据脱敏系统[J].通信技术,2016(7):915-922.

[2]李伟伟,张涛,林为民等.基于文本内容的敏感数据识别方法研究与实现[J].计算机工程与设计,2013(4):1202-1206.

[3][16]田菁菁,叶紫光,许慧云.基于图像内容识别技术敏感数据分析[J].通讯世界,2020(1):133-134.

[4][15]李安波,吴雪荣,解宪丽等.精度可控的矢量地理数据脱密方法[J].中国矿业大学学报,2016(5):1050-1057.

[5]王鑫,王电钢,母继元等. 基于机器学习的数据脱敏系统研究与设计[J].电力信息与通信技术, 2018(1):33-38.

[6]徐建忠,张亮,李娇娇.数据智能分类技术在数据治理中的应用研究[J].信息安全与通信保密,2016(6):88-90.

[7]骆京.基于人工智能技术的内容识别系统设计[J].现代电视技术,2018(7):112-115.

[8]王毛路,华跃.数据脱敏在政府数据治理及开放服务中的应用[J].电子政务,2019(5):94-103.

[9]王浩宇,刘超,蒋东兴.证券期货监管数据脱敏方案研究与实践[J].金融电子化,2019(3):36-38.

[10]姜日敏.电信运营商数据脱敏系统建设方案探讨[J].中国科技信息,2014(8):132-133.

[11]中国政府网.国务院关于印发促进大数据发展行动纲要的通知[EB/ OL].[2015-09-05].http://www. gov.cn/zhengce/content/2015-09/05/ content_10137.htm.

[12]国家档案局.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].[2021-06-08].https:// www.saac.gov.cn/daj/yaow/202106/89965 0c1b1ec4c0e9ad3c2ca7310eca4.shtml.

[13]付登坡,任寅姿,孙少忆等.数据中台[M].机械工业出版社,2020:158-158.

[14]王红凯,龚小刚,叶卫等.大数据智能下数据脱敏的思考[J].科技导报,2020(3):115-122.

猜你喜欢

城建档案
浅谈城建档案管理现状与问题分析
对城建档案的社会文化价值的探析
基于Web Service的城建档案信息共享平台
基于知识管理视阈的城建档案管理问题研究
如何做好城建档案的保密与利用
大数据时代的城建档案信息系统构建问题研究
浅析城建档案管理工作的重要性
关于创新城建档案行政监管的思考