安全大数据共享影响因素分析及其模型构建*
2017-04-14欧阳秋梅
欧阳秋梅,吴 超
(中南大学 资源与安全工程学院,湖南 长沙 410083)
0 引言
安全重大事件具有破坏性大、持续性久和影响范围广等特性,具体表现为事件原因难确定、演化扩散机理难预测、对特定区域内造成重大危害等[1]。安全学科具有综合属性,安全大数据需在不同计算机、不同国家、不同领域之间进行交流与共享。目前安全数据分布于多行业、多部门、多地域,形成资源分散,缺少工具对信息资源进行整合[2],导致出现信息不对称现象,同时符合市场规律的共享机制尚未建立,重复建设、信息封闭现象也依然存在[3]。在大数据时代,安全协同治理已成为各国政府和学界高度关注的安全议题,而安全信息共享能力建设已成为发展战略亟待解决的问题[3]。
安全大数据共享是提高安全资源利用率的重要手段。目前国内外的学者多从计算机科学、经济学、管理学、图书馆学、教育学等领域研究大数据共享行为,多集中于3个视角:基于大数据的资源共享影响因素、策略机理研究[4-6];基于大数据的共享平台设计或资源共享库总体架构研究[1, 7-10];基于大数据的资源共享关键技术研究[11-13]等。相对地,国内外对于大数据在安全领域的共享研究较少,且集中于对安全资源共享库的总体架构研究及基于大数据技术的安全资源共享能力建设研究[1-3,8],研究侧重于通过间接依托于计算机科学、信息科学等学科,实现“信息安全”领域的资源共享;或是局限于某安全行业或部门间实现安全资源共享,缺乏对安全大数据资源共享机制、流程、模式等具有广泛适用性、指导性和实践性的研究。
综上,从安全大数据共享首要面临的困境(“不愿、不全、不会、无保障”)出发,以共享观念文化、共享数据有效性、共享技术环境和共享制度政策4个视角,提出安全大数据共享的12个影响因素,然后对安全大数据共享的一般模式进行详细分析,将影响因素与共享流程2个要素结合实现一体化,构建安全大数据共享模型,以期为安全大数据共享流程化提供参考。
1 安全大数据共享定义
安全大数据作为1种资源,具有可重复利用、广泛共享、可建设、可增值等特性。从安全学科属性和安全大数据的价值链及其挖掘方法、原理出发[14-16],安全大数据有狭义和广义之分,狭义上是指可反映安全状态、发展趋势和本质规律的大数据集,广义上还包括处理安全数据集所运用的大数据技术和大数据思维。
结合相关文献[3,6,17]中对共享的定义,安全大数据共享可理解为:在一定规范、原则、标准和原理基础上,运用大数据技术及其他新兴技术,使安全大数据集、安全大数据技术和安全大数据思维在“在一定条件下”与“指定第三方”实现交流与共享的互动活动。它包含的2个限制条件使它不等同于开放与公开,其共享对象主要涉及自然灾害、事故灾害、公共卫生、社会安全等与公众密切相关的公共安全大数据,要求在安全大数据共享时寻求与数据安全、数据隐私的平衡点。
安全大数据资源共享也具有狭义和广义之分,狭义上是指不同机构、不同区域、不同领域之间的安全数据集的关联与共享;广义上是指在符合法规政策规定条件下,不同机构、不同区域、不同领域之间的安全数据集、安全大数据技术和安全大数据思维之间的相互关联、共享与碰撞。前者是后者的前提与基础,后者是安全大数据共享实现社会化的基本要求和最终目的。因此,以狭义安全大数据共享为出发点,以广义安全大数据共享为落脚点,探讨安全大数据共享的影响因素及其模型构建。
2 安全大数据共享影响因素分析
安全大数据共享效率和共享程度受多层次、多维度因素共同作用,呈现明显的多样化与动态化特征。目前国内外关于资源共享影响因素的研究不少,但还不成体系,再结合安全科学的学科属性,要求安全大数据共享研究需有针对性,不可随意和机械套用影响因素指标。安全大数据共享要解决的首要问题是“不全、不愿、不会、无保障”的共享困境,其中“不愿共享”是安全大数据思维观念层面的因素,“共享不全”是安全大数据集层面的因素,“不会共享”是安全大数据技术层面的因素。借鉴已有研究中对资源共享影响因素探索,结合现阶段安全大数据的共享现状,可从共享观念文化、共享数据有效性、共享技术环境、共享制度政策4个视角进行分析,阐述“不愿、不全、不会、无保障”共享困境的深层原因。
2.1 共享观念文化视角
从观念文化视角出发,安全大数据共享活动受共享意愿、共享动机、共享风险等约束,使资源拥有者“不愿”将手中资源共享,同时需求者不敢轻易使用共享资源,具体表现可归纳为以下2种情况:
1)安全大数据共享后的预期利益的不确定性。安全大数据作为资源,是否可获得共享活动后的认可以及互利互惠,是拥有者对安全大数据共享是否能带来预期利益的判断条件。
2)安全大数据共享活动本身带来或将带来的风险。共享安全大数据集本身存在敏感性、隐私性等问题,拥有者考虑到使用者身份资质、资源被误用的可能性等因素,同时使用者无法获知安全大数据来源,使其无法辨别安全大数据是否存在信息安全问题,使得安全大数据在源头上得不到共享。
共享观念的欠缺,使得安全大数据共享活动从源头上得不到保障。因此,有关机构需完善与共享活动相关的政策法规,明确共享各方权益和共享层次,塑造规范的共享环境,保障共享数量和质量,共同塑造完善的安全大数据共享观。
2.2 共享数据有效性视角
大数据时代以“样本即总体”为数据统计特征,安全大数据具有多时空尺度、多对象尺度和多专题尺度等特性。安全大数据共享的方向是全、细、可读与便利,不仅强调在可共享的数据集中尽可能共享多种数据源下的多维度、多层次数据集,还强调保证数据集的可读性和无障碍访问、查询、检索和获取共享数据信息。但目前安全大数据集多以安全领域、行业为单位,存储分散或冗余,形成数据孤岛和数据垄断现象,使得收集到的安全数据集维度单一、层次简单、格式多样、以非结构化数据为主,导致使用时数据结构化操作困难。目前标准化组织通过制定数据类型相关标准,以期实现数据全生命周期的标准化、结构化、规范化[18]。
2.3 共享技术环境视角
已有的研究多集中于共享组织双方之间的资源共享影响因素。在大数据形势下,将安全系统原始数据整合到统一的数据共享平台是普遍认同的数据平台建设模式,安全大数据共享平台在资源拥有者和需求者之间起桥梁作用,充当资源协调者和资源保存者角色,所涉及的共享平台技术不仅包括安全数据处理的全过程(数据采集与预处理、存储、挖掘与数据可视化),还包括如何实现资源在拥有者和需求者之间的有效传播。安全大数据共享平台通过依托大数据脱敏、模式识别、标签化、结构化、整合及可视化等技术,形成更具开放、互联、泛在等特征的共享环境,推动建立远程共享与虚拟共享体系,实现资源共享服务、配置和管理等一体化服务。
2.4 共享制度政策视角
与安全大数据共享相关的政策与制度,可保障共享效率和共享程度。从安全大数据制度政策视角出发,可从以下4方面进行分析:
1)安全大数据共享标准化。建立一套跨部门、跨领域、跨行业的包含安全大数据描述、交互、存储、管理等一体化的安全大数据共享与交换标准规范,明确共享数据接口、共享平台、共享协同方式及机制等,尤其是元数据和数据仓储标准的建立,可在源头上避免同类数据的异质,实现与事故隐患排查治理、危险源监测检测、应急救援、事故责任追究等信息共建共享。
2)安全大数据共享资助政策。以往的资助机构或
企业只是促进安全大数据在某些机构或部门之间的共享,且大部分鼓励而非强制进行共享活动,同时考虑到企业利益,资助的企业一定程度上会限制共享行为[19]。
3)目前安全大数据共享活动存在着学科分布不均现象,多集中在计算机科学、图书馆学、教育学、信息科学、管理学、经济学等,共享活动涉及的广度不够,因此需加强开放共享体制法规环境塑造,加强多学科、多领域、多行业、多维度和多层次的共享。
4)加强安全大数据人才建设。一方面,结合共享服务标准,建立合理的安全资源共享专业化人才评价和激励机制;另一方面,规范和强化教育培训机制,提升共享操作能力,促进安全大数据开放共享专业化人才队伍建设和稳定。
综上,总结安全大数据共享的12个影响因素,如图1所示。
图1 安全大数据共享影响因素Fig.1 Influencing factors of safety big data sharing
3 安全大数据共享模型构建与解析
3.1 安全大数据共享模型构建
安全大数据的全面深度共享与开放,涉及公民隐私保护、资源共享标准、资源共享模式、共享成效检验等多方面内容,是一项复杂的系统工程。在进行公共安全大数据共享时,还有诸多问题待解决,如:可共享的安全数据,是原始数据还是加工整合后的安全数据?类型是结构化数据还是非结构化数据?共享主体包括哪些?被共享的客体(资源使用者)需满足什么条件?共享需遵循哪些原则和原理?共享的内容包含哪些?共享模式是怎样?共享渠道有哪些?共享成效如何评估与检验?还需哪些机制保障共享有效长久进行?
基于以上问题及安全大数据共享影响因素,在构建安全大数据共享模型前可做如下分析:
1)从安全大数据 “共享”概念出发,应先满足其2个限定条件。由于共享的安全大数据集具有高度关联性,可能会加大隐私泄露的风险。需要在数据共享时先采用数据脱敏技术和数据分类分级等措施对海量数据进行脱敏和清洗处理。此外,考虑到安全大数据的潜在价值和不同用户需求,进行公共安全大数据资源共享活动时,应最大程度地共享那些脱敏后不具有隐私信息的“二次原始活数据”,可以是结构化数据,也可以是非结构化数据。
2)进行安全大数据共享的主体不限,包括政府、企业、组织或个人等。就目前现状而言,相关政府部门应在安全大数据共享活动中发挥主导作用,以统一的安全大数据共享交换模式和管理方式为基础,通过政府引导和资源共享模式创新,实现资源的深度融合,进一步推动企业、组织、个人均能以常态化、免费且便利的方式开展共享活动。
3)在进行安全大数据共享活动时,共享内容需满足可读、有效与便利等基本原则,综合运用安全科学导向、安全价值转换、安全关联交叉、安全资源整合等应用原理[15],主体先按照一定标准和规范对数据集进行预处理,然后对资源需求者进行“资格审查”。若审查合格,共享双方需对双方责任和权利有所规定与约束,采用“契约式”共享模式保障资源流通安全。
4)安全大数据共享的内容包含多方面,既包括需求者所需的安全大数据集、安全大数据技术和安全大数据思维,也包括进行共享活动前的机制、责任、权利的确立,以及共享后资源共享成果检验、评估与反馈。
5)结合文献[17]中对数据流动和数据开放的描述,安全大数据的共享模式可归纳如下:首先是狭义的安全大数据共享,共享主体以政府为主,把非涉密的政府数据及安全基础数据进行共享;其次是广义的安全大数据共享与交换,包括从点到点的双边共享,到多边共享,再到统一的资源共享平台;借助安全大数据共享平台力量,通过开放安全大数据的基础处理和分析平台,吸引具有安全大数据思维的人才参与大数据的共享与使用,实现安全大数据基础设施的共享与开放;实现价值提取能力的共享,即充分利用现有数据科学家的专业知识,帮助共享多边建立1个联通领域和专业技能的桥梁。
6)安全大数据共享活动还需有其他手段推动,包括:根据安全发展形势,建立、健全与安全大数据共享有关的法律法规、标准、制度等;明确共享多方的职责与权利,塑造良好的共享氛围;以政府为主导,引导和鼓励多方参与,共同形成整个安全大数据资源“共享-开放-公开”的良性数据链;完善专业化人才培养机制,加强对专业人才的扶持力度,共同推动安全大数据共享观普遍化。
基于以上对安全大数据资源共享机理的分析,以安全大数据共享影响因素为出发点,以安全大数据资源拥有者、需求者和共享平台(协调者和保存者)在安全大数据共享互动流程为研究路径,以安全大数据共享平台建设为着重点,建立公共安全大数据资源共享模型,如图2所示。
3.2 安全大数据共享模型解析
1)模型有针对性地分别罗列出共享多方在共享活动过程中,克服不利影响需采取的措施,具有指导性和实践性。
2)安全大数据具有价值隐含原理和价值转换原理。点对点的双方共享不足以体现的价值,当数据集数聚达到一定量时,可显现出其潜在价值。因此,安全大数据共享平台建设是挖掘数据价值的必然选择,而着眼于安全大数据共享平台构建共享模型,具有普适性和前瞻性。
3)模型是针对目前安全大数据资源共享现状与困境提出,在实施共享活动时不可一蹴而就,应始终以安全系统方法为指导思想逐步开展共享活动。在进行共享活动时,要始终保障公民隐私权,从共享安全基础数据集开始,逐步实现公共安全大数据的整个价值链共享,并逐步从共享走向开放与公开。
4)模型可通过不同数据集在共享平台上的数聚、组构、多维共享、碰撞、关联与比较分析,打破以往安全数据信息不对称和信息流通的限制。
5)模型中,整个共享流程涉及到安全数据集的采集、传输、清洗、转换、脱敏、组织、标签化、建模、识别、抽取、集成、挖掘、可视化等多个环节,要求不断提升资源处理能力,打破技术瓶颈。
6)安全大数据共享流程中,出现多次判断和循环,因此共享多方不仅需要掌握共享的流程、模式和技术,还需要有自主思考和辨识能力。
图2 安全大数据共享模型Fig.2 The model of safety big data sharing
4 结论
1)公共安全大数据资源共享不同于开放与公开,有2个限制条件,需要在进行共享活动时始终关注公民的隐私权,应运用安全系统思想逐步开展共享活动。
2)安全大数据资源共享具有广义和狭义之分,狭义上主要是指共享安全基础数据集;广义上是指共享安全大数据集、思维和技术。
3)对公共安全大数据共享机理进行详细分析,包括共享数据类型、共享多方确立条件及如何建立“契约式”共享模式、共享内容、共享流程及共享支撑要素等。
4)创建公共安全大数据共享模型,以安全大数据共享影响因素为出发点,以安全大数据共享互动流程为研究路径,以安全大数据共享平台建设为着重点,具有一定指导性和实践性。
[1]孔磊. 城市轨道交通公共安全大数据共享资源库研究[J]. 交通与港航, 2015(5):37-41.
KONG Lei. Research on urban rail traffic safety data sharing resource [J]. Public Utilities, 2015(5):37-41.
[2]国家安全生产监督管理总局.大数据与安全生产综述(PPT)[EB/OL].(2015-05-11)[2016-11-18] . http://www.chinasafety.gov.cn/newpage/spzx/spzx.htm.
[3]李明. 大数据技术与公共安全信息共享能力[J]. 电子政务, 2014(6):10-19.
LI Ming. Big data technology and public security information sharing ability [J]. e-government affairs, 2014(6):10-19.
[4]Welch E W, Feeney M K, Park C H. Determinants of data sharing in U.S. city governments[J]. Government Information Quarterly, 2016, 33(3):393-403.
[5]Sayogo D S, Pardo T A. Exploring the determinants of scientific data sharing: Understanding the motivation to publish research data[J]. Government Information Quarterly, 2013, 30(1):S19-S31.
[6]马灿. 国内外医疗大数据资源共享比较研究[J]. 情报资料工作, 2016, 37(3):63-67.
MA Can . Comparative study of large domestic and foreign medical big data resource sharing[J]. Information and Documentation Services, 2016,37(3):63-67.
[7]Gutierrez M A F, Ventura N. Mobile Cloud Computing based on service oriented architecture: Embracing network as a service for 3 RD, party application service providers[A]// Kaleidoscope 2011: the Fully Networked Human? - Innovations for Future Networks and Service[C]. IEEE, 2011:1-7.
[8]曾胜. 重大危险源动态智能监测监控大数据平台框架设计[J]. 中国安全科学学报, 2014, 24(11):166-171.
ZENG Sheng. Framework design of large data platform for monitoring and cotrolling major hazards dynamically and intelligently[J]. China Safety Science Journal, 2014, 24(11):166-171.
[9]王辉, 林垚, 周紫君. 基于元数据的交通运输科学数据共享平台设计[J]. 交通信息与安全, 2008, 26(2):86-89.
WANG Hui, LIN Yao, ZHOU Zijun. Design of metadata-based traffic scientific data sharing platform[J]. Computer and Communications, 2008, 26(2):86-89.
[10]宁玉文, 郭佳, 高东怀,等. 高校研究生教育信息资源共享库设计[J]. 计算机技术与发展, 2014(8):157-160.
NING Yuwen, GUO Jia, GAO Donghuai,et al. Design of educational information resources shared library for graduate students in higher school[J]. Computer Technology and Development, 2014(8):157-160.
[11]Gibbon D C, Liu Z, Basso A, et al. Automated content metadata extraction services based on MPEG standards[J]. Computer Journal, 2013, 56(5):628-645.
[12]马新民,许鑫,席磊,等.基于元数据的农田信息存储、管理和共享[J].农业工程学报,2010, 26(11):209-214.
MA Xinming, XU Xin, XI Lei, et al.Storage, management and sharing of farmland information based on metadata[J].Transactions of the Chinese Society of Agricultural Engineering,2010, 26(11):209-214.
[13] 李小涛, 胡晓惠, 郭晓利,等. 基于元数据的复杂信息共享技术[J]. 系统工程与电子技术, 2015, 37(3):700-706.
LI Xiaotao, HU Xiaohui, GUO Xiaoli,et al. Complicated information sharing technology based on metadata,[J]. Systems Engineering and Electronics, 2015, 37(3):700-706.
[14]VIKTOR Mayer-Schǒnberger, KENNETH Cukier. Big data: a revolution that will transform how we live, work, and think[M].London: Hodder & Stoughton,2013:136-161.
[15]欧阳秋梅,吴超,黄浪.大数据应用于安全领域的基础原理研究[J].中国安全科学学报,2016,26(10):1-6.
OUYANG Qiumei, WU Chao, HUANG Lang. Research on basic principles of application of big data in the field of safety science[J]. China Safety Science Journal, 2016,26(10):1-6.
[16]欧阳秋梅,吴超.安全生产大数据的5W2H采集法及其模式研究[J].中国安全生产科学技术,2016,12(12): 22-27.
OUYANG Qiumei, WU Chao. Research on 5W2H acquisition method and mode of big data for work safety[J].Journal of Safety Science and Technology, 2016,12(12): 22-27.
[17]大数据战略重点实验室.DT时代:从“互联网+”到“大数据*”[M].北京:中信出版集团,2015:13-14,268-270.
[18]大数据战略重点实验室.块数据:大数据时代真正到来的标志[M].北京:中信出版集团,2015:61-62.
[19]张静蓓, 吕俊生, 田野. 国外数据共享行为影响因素研究综述[J]. 图书情报工作, 2014, 58(4):136-142.
ZHANG Jingbei, LV Junsheng, TIAN Ye. Review of factors influencing the data sharing behaviors at abroad[J].Library and Information Service, 2014, 58(4):136-142.