我国数据安全政策文本主题挖掘及其演化分析
2024-12-31马海群崔文波张涛
关键词: 数据安全政策; 数据治理; 数据开放; 数据安全; NMF; Word2Vec; 主题挖掘; 主题演化
DOI:10.3969 / j.issn.1008-0821.2024.08.003
〔中图分类号〕G259.20 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 08-0028-11
随着我国数字经济发展、数字中国建设、充分发挥数据要素乘数效应等战略的实施, 对数据安全的需求逐渐增加[1] 。2021 年11 月, 中共中央政治局会议上, 习近平总书记主持审议了《国家安全战略(2021—2025 年)》, 强调加快提升数据安全的治理能力; 2022 年12 月, 中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》, 指出要建立安全可控、弹性包容的数据要素治理制度。数据安全政策作为保障数据安全的基础,数据安全政策能够为激活数据要素潜能, 使数据要素更好地服务和融入新发展格局提供法律和制度层面的保障[2] 。2016 年起, 我国陆续颁布了《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》和《关键信息基础设施安全保护条例》(以下简称“三法一条例”), 逐渐形成以“三法一条例” 为中心的数据安全治理制度顶层设计, 并且国家或地方逐步通过发布数据安全相关制度来细化“三法一条例”的配套规章[3] 。但从整体上看, 目前我国仍存在数据安全政策供给需求不平衡、结构不合理等问题[4] 。因此, 有必要借助文本挖掘技术, 客观地对数据安全政策进行深度挖掘和演化分析, 对数据安全政策进行整合与重构[5] , 厘清数据安全政策主题分布、演变规律以及存在的问题, 进而帮助政府及时根据数据安全治理情况完善政策体系。
1文献综述
数据安全政策反映了政府对于保护数据资产和防范数据安全风险的重视程度, 以及为此采取的措施和规定。目前关于数据安全政策研究较为广泛,涉及法学、公共管理、信息资源管理等多个领域,主要研究集中在以下几个方面。
1.1数据安全政策比较研究
刘春年等[6] 通过对比中美欧国家和地区的数据安全主题的政策文本, 发现我国大数据安全政策文本还存在覆盖领域不全面等问题。宋筱璇等[7] 通过对国内外科研数据安全管理政策比较研究, 发现国内在数据识别、评估监管及数据处理等存在一定的政策空白。王蕊等[8] 基于政策文本和案例文本的质性比较, 发现我国数据安全政策中, 存在政策工具结构不均衡等问题。
1.2 开放数据政策与数据安全政策协同研究
闫倩等[9] 分析了开放数据政策、数据安全政策的现状及由开放数据政策引发的数据安全问题, 提出开放数据与数据安全政策协同的必要性。张涛等[10] 从主题协同度的视角, 对现有数据政策中开放数据和数据安全主题关系进行分析, 为政府制定政策提供理论支撑和决策参考。华蕊[11] 以省级行政区及其省会城市101 份涉及数据开放和安全管理的法定机构职责、法规政策为样本, 对比分析数据开放与数据安全在管理主体、职能角色、职责内容上的现状与特点, 同时针对两者间的协同情况进行探究。
1.3 数据安全政策内容挖掘研究
马海群等[12] 从《中华人民共和国数据安全法(草案)》解读我国数据安全保护体系建设。毛子骏等[13] 从政策外部属性、政策工具两个维度, 研究我国大陆31 个省域的71 份与政务数据安全相关的政策文本。程慧平等[14] 采用NVivo 11 Plus 软件分析54 份国家层面政务数据安全共享政策文本,发现存在对政务数据共享生命周期各阶段的安全重视不平衡等问题。冉连等[15] 运用内容分析法对我国33 个地级市政府数据安全保护政策内容进行编码分析与信息挖掘。
综上所述, 数据安全政策从研究内容上主要围绕大数据安全、科研数据安全、开放数据安全、政务数据开放安全等问题进行探讨; 在研究方法上,数据安全政策研究主要以政策工具和软件辅助分析进行专家解读为主[16] , 较少有文献从主题挖掘和主题演化视角针对我国政府数据安全政策进行系统性分析。而随着文本挖掘技术的不断发展和数据安全政策的增加, 使得以客观的方式挖掘大样本、细粒度的文本内涵成为可能[17-19] 。基于此, 本文从系统性、客观性视角出发, 采用主题挖掘和主题演化的方法揭示我国数据安全政策的发展全貌、演化脉络及研究重点趋势, 并基于发现的问题, 提出完善我国数据安全政策的建议。
2模型设计
本文所设计的研究框架如图1 所示。具体步骤主要包括: 一是获取自建语料库中“数据安全” 相关政策文本; 二是对所获取的政策文本进行预处理;三是通过NMF进行主题建模, 运用主题一致性指标确定模型最优主题数目; 四是根据主题模型聚类出各阶段主题—主题词的分布, 并进行主题过滤;五是通过计算主题相似度的方式判定阶段主题间的相关关系、构建和识别主题演化路径, 并对主题内容演化进行可视化分析; 六是根据模型聚类结果进行共现分析、提取核心主题, 并对主题强度演化进行可视化分析, 旨在揭示数据安全政策的发展全貌、演化脉络及研究重点趋势。
2.1主题建模
本文采用NMF(Nonnegative Matrix Factorization)主题模型进行政策文本内容的主题挖掘。NMF 是一种用于降低非负矩阵维数的无监督方法, 可以生成易于解释的文本数据聚类。NMF 通常被视为参数固定且可以获得稀疏解的LDA 模型。虽然NMF的灵活性不如LDA 模型, 但是该模型可以很好地处理短文本数据集[20] , 而本文正是按照数据安全政策语句进行拆分, 属于短文本, 因此选用NMF主题模型。NMF 在处理文本时, 它将主题识别问题转化为约束最优化问题来解决, 通过矩阵分解的计算实现主题识别, 其中将聚类解释为主题, 每个文档被视为多个重叠主题的累加组合[21-22] 。核心思想为: 将一个文档—词项的非负矩阵V(由n 行(词项)和m 列(文档)组成)分解成两个非负矩阵W 和H 的乘积, 表示为式(1):
Vn×m≈Wn×k ×Hk×m (1)
其中, k 是可能取到的最优主题数目。W 为文档—主题矩阵, 其大小与k 有关; H 是n∗k, H 为主题—词项矩阵, 其中主题词是通过语义矩阵计算单词与单词之间的距离得到。NMF 度量V 和U 是通过简单迭代获得, 且矩阵W 和H 均为非负。
NMF 建模过程中需要设立主题数目, 本文借鉴已有研究文献基于Word2Vec 提出通过主题语义一致性辅助确定最优主题数目, 即描述由高度相似主题词组成的主题, 通过向量之间的相似性定义,使其在语义上更加连贯[23] , 一致性最大时确定最优主题数目, 如式(2) 所示:
3实证研究
3.1数据采集
为了更多地获取数据安全政策内容, 同时避免不相干政策内容聚类会导致主题过于分散, 本文在选取样本时精确查找自建数据政策语料库[27] 中内容带有“数据”“安全” 字样的政策文本547 部,政策发布时间范围为2013—2022年, 本文所选择的政策文本主要由两部分组成, 一是数据安全专项政策; 二是嵌套于政府发布的各类数据条例、管理办法、发展纲要等具有单独数据安全章节的政策,在此基础上以“安全” 字样进行人工筛查, 提取带有“安全” 的政策文本语句片段10 636条, 共885515个字符数作为研究样本, 利用自建语料库中政策词表并结合CNKI中核心期刊“数据安全”相关文献的关键词, 共形成11461个政策词语, 并对语料库进行数据清洗、分词、去除停用词等数据预处理工作。此外, 根据政策文本数据量分布情况,以两年作为一个时间窗口划分阶段, 共划分5 个阶段[28] , 如表2 所示。从政策数量和语句数量可以看出, 数据安全一直是数据类政策关注的重点内容。2015年8月31日,国务院印发《促进大数据发展行动纲要》后, 国家和地方政府对数据安全问题就尤为重视, 政策发布数量呈现出逐年上升趋势。截至2017—2018 年, 与数据安全相关政策数量达到285篇,语句达到5176句, 此后政策数量逐步下降。
3.2主题聚类
3.2.1确定最优主题数目
本文使用主题一致性大小来验证不同阶段最优主题数目。图2 依次展示了5 个阶段及全局数据安全政策不同主题数目下的主题一致性变化情况, 结果表明, 不同时间窗口下主题一致性大小与主题数目的整体变化呈现先上升后下降趋势, 依次选取各阶段主题数目K为14、15、12、15、16、17 时其主题一致性数值最大。
3.2.2NMF模型训练
在确定各阶段最优主题数的基础上, 借助Py⁃thon 的Sklearn 库对预处理的政策文本进行NMF 模型训练, 参数设置NMF(n_components=topics,max_iter=200), 其余参数选择默认值, 分别进行阶段和全局主题聚类, 然后判断阶段与全局主题的一致性, 过滤掉无效主题, 并可视化呈现描述每个主题含义权重较高的前10 个主题词, 各主题词按权重从大到小排序。其中, 无效主题过滤是通过余弦相似度来辅助判断阶段主题与全局主题间的一致性程度, 将相似度阈值设置为0 25, 以实现过滤各时间窗口的主题与全局主题相似度数值低于阈值的主题, 从而更精确地挖掘出各阶段主题之间的关系,如表3 所示。
3.3 主题内容演化
主题相似度计算是主题内容演化的前提和基础。如图3 所示, 将相邻阶段主题做相似度计算, 形成主题相似度热力图, 并在此基础上设定阈值判定阶段主题间的演化类型。其中, 阈值选取是基于实验中不断迭代测试获得, 当阈值为σ =0.39 时, 主题可解释性较强, 能够清晰地展现主题演化类型。
根据阶段主题间的相似度绘制数据安全政策主题演化桑基图, 如图4 所示, 直观展示了数据安全政策5 个阶段政策主题的分布情况、演化路径及其主题演化类型[29] 。基于此, 本文从纵横两个维度对数据安全政策主题变化情况展开分析。其中, 通过纵向维度能够了解每个阶段内主题演化类型和主题演化能力, 并为横向维度选择和分析重要演化路径提供支持。
3.3.1纵向维度分析
纵向维度主要是分析每个阶段内主题演化类型和主题演化能力。通常分布占比较高的主题融合性或分化性越强, 则主题演化能力越高, 主题影响力越大。从图4 可知, 数据安全政策在不同阶段主题分布情况和演化能力具有明显差异。阶段1: 2013—2014 年, 属于数据安全政策的萌芽阶段, 以分化、继承和消亡类型主题为主。S1-T1、S1-T9、S1-T12属于分化型主题, 这类主题如网络信息安全、应急、安全保障等是数据安全综合性较强的主题, 具有较高的演化能力; S1-T2、S1-T5、S1-T6、S1-T7、S1-T10 属于继承型主题, 这类主题如个人隐私、物联网、谣言传播等聚焦性较强, 不易分化; 其余主题属于消亡型主题, 与阶段2 主题关联性不高, 时效性强, 演化能力相对较低。阶段2: 2015—2016年和阶段3: 2017—2018 年, 属于数据安全政策的生长阶段, 国家对于数据安全问题重视程度提高,数据安全政策相继出台, 以新生型主题较为突出。此外, S3-T5 具有较强的分化能力, 对相邻阶段的其他主题具有较大的影响力, 主要关注数据开放和数据处理过程中的安全问题。阶段4: 2019—2020年和阶段5: 2021—2022年, 属于数据安全政策的发展阶段, 以分化、融合型主题为主, 除S4-T4 是消亡型主题, 演化能力较弱外, 其余主题演化能力均较强。其中, S5-T9 是由阶段4 中多个主题融合而来, 反映出政府对于政务数据安全问题的重视;S5-T15 是新生的热点主题, 主要围绕多元主体参与数据安全治理。
3.3.2横向维度分析
横向维度主要是根据主题演化类型抽取出重要的数据安全政策主题演化路径进行分析, 以主题演化能力为主要参考依据, 选择以下3条重要的演化路径进行分析:
路径一, 继承型: S1-T5→S2-T5→S3-T11→S4-T5→S5-T8, 该路径为数据安全技术相关主题。随着新兴技术的不断推动, 数据服务产业快速发展,以国家大数据(贵州)综合试验区展示中心为代表,国家对数据安全技术尤为重视, 但同时技术的深度应用也加剧了数据安全风险的程度和复杂化。为应对物联网、云计算、大数据等技术应用产生的海量非结构化数据的挑战, 政府一直将平衡技术发展与安全作为政策重点关注内容, 尤其是数据安全领域中的“三法一条例” 规定通过数据安全检测评估与认证、责任落实、采取相应的加密、去标识化等安全技术措施等治理手段来防范数据安全风险, 为数据产业发展提供了支撑和保障, 使得数据安全技术主题呈继承性持续演进。
路径二, 融合型: 通过纵向阶段主题演化类型可知, 融合型主题较多且多集中在第五阶段, 鉴于此, 本文选择主题影响力较大的S5-T9 主题进行分析。(S4-T1、S4-T3、S4-T9、S4-T10、S4-T11、S4-T12)→S5-T9, 该路径主要为政务数据相关主题, 主要由数据全生命周期风险防范与治理相关主题演化而来。随着《中华人民共和国数据安全法》第五章明确规定了政务数据安全与开放相关制度,使得数据安全治理在政务数据领域更加聚焦, 同时也反映出在《中华人民共和国数据安全法》顶层设计下, 数据安全治理内容呈现出融合发展趋势。
路径三, 分化型: 通过纵向阶段主题演化类型可知, 分化型主题较多, 鉴于此, 本文选择主题影响力较大的S3-T5 主题进行分析。S3-T5→(S4-T1、S4-T2、S4-T3、S4-T10、S4-T11、S4-T14),该路径为数据开放主题演化成数据开放与安全问题相关主题。随着我国数字经济的发展, 数据作为国家基础战略性资源和重要生产要素, 数据开放是挖掘数据价值、发展数字经济的必然选择, 因此, 数据开放中的安全问题成为政府关注的焦点。主要包括开放原则、开放领域和治理手段3 个方面。开放原则是指在数据开放过程中需确保个人隐私、个人信息、商业秘密等安全; 开放领域主要聚焦在政务数据、公共数据, 但进入2022 年后, 部分地区发布数据条例, 数据开放范围逐渐向宽口径过渡, 也体现了国家数据开放的决心, 但在数据开放过程中,数据安全问题同时要关注; 数据安全治理手段主要包括完善数据开放制度与协议及提高数据开放中突发事件的应急处置能力。
3.4主题强度演化
主题强度演化能够反映数据安全政策主题随时间变化其强度差异, 通过对各阶段主题聚类结果进行共现分析, 选取核心主题进行主题强度演化分析。具体通过Python 对聚类结果进行共现, 然后使用Ucinet 将共现矩阵转成Pajek 格式, 导入VOSview⁃er 可视化分析软件, 生成共现图谱, 如图5 所示,颜色代表类别, 圆圈大小代表主题的影响程度, 圆圈越大, 主题词影响力越大。本文基于每个类别,选择一个或两个影响程度较大的主题词表征主题,主要包括: 网络安全、应急处置、安全保障、个人隐私、主管部门、服务、技术、数据开放、风险评估、安全可控、监测预警等主题。这些主题代表了在单个时间窗口或多个时间窗口我国数据安全政策关注的重点, 是我国数据安全政策内容的整体映射。因此是数据安全政策的核心主题。
根据主题共现图谱确定上述核心主题后, 根据式(5) 计算出各时间阶段内核心主题共现的政策语句数量, 然后根据式(6) 计算各个核心主题在不同时间窗口下的主题强度, 绘制主题强度趋势图,如图6 所示, 根据主题强度趋势可以划分为3类。
一是主题强度先上升后下降, 但主题强度总体上维持在较高的水平, 主要包括: 网络安全、安全保障、服务、技术主题。主题强度趋势表明这类主题虽然呈下降趋势, 但仍是数据安全的重要组成部分, 具体表现为, 明确网络安全审查要求、完善数据安全保障措施、发展数据安全服务与技术等受政策持续关注, 但内容更为明确、细化。其中, 网络安全主题强度在2019—2020年出现较大波动, 表明网络安全作为数据安全的环境支撑, 随着2016年《中华人民共和国网络安全法》的出台, 数据安全政策中其主题强度一直处于较高水平, 同时数据安全治理也是体系化的网络安全建设中的重点之一[30] 。反映出政府对网络安全在数据安全治理中的重视程度。但随着《中华人民共和国数据安全法》的出台, 逐渐细化数据安全与网络安全的关系, 网络安全审查要求更加明确, 导致在2021—2022 年出现其主题强度急速下降的情况。
二是主题强度总体上呈现上升趋势。主要包括: 数据开放、公共数据、风险评估、主管部门、应急处置。主题强度趋势表明这类主题演化能力强, 是政府持续关注的主题, 预计未来几年将逐步上升, 具体表现为, 将持续推动数据开放、扩展数据安全范围、开展数据安全风险评估、明确主管部门的安全职责、提高应急处置能力。其中, 数据开放和公共数据主题强度尤为突出, 数据开放涉及个人、企业甚至是国家安全问题, 表明随着数字经济的发展, 政府在制定政策时逐渐加强数据开放或数据流通中对数据安全问题的重视; 公共数据主题强度在2019—2020 年出现较大波动, 反映出自2019年起重视公共数据, 数据安全的演进趋势呈现出由早期政府数据安全→公共数据安全→广义上的数据安全, 同时该演进趋势体现了政府数据开放的决心, 且数据安全范围也不断增加。
三是主题强度整体呈现平稳趋势, 波动较小,且维持在较低的水平。主要包括: 个人隐私、安全可控、监测预警。主题强度趋势表明这类主题演化能力低, 主题在数据安全政策内容中占比较低, 具体表现为, 政府在制定政策时对这类主题关注程度也较低。但“三法一条例” 对这类主题从法律层面给出了清晰的定义和明确的要求, 且个人隐私、安全可控主题是数据安全的目标和原则, 贯穿数据安全的始终; 监测预警是对可能引发或导致突发数据安全事件的各种危险要素进行持续地监测并客观分析, 它不但是数据安全风险评估的基础, 还是数据安全风险防范的重要手段。因此, 该现象说明政府对这类主题演进过程政策注意力占比失衡。
4 结论与建议
本文选取547 部数据安全政策作为样本, 采用NMF 主题模型和Word2Vec 词向量模型从主题内容演化和主题强度演化两个视角进行可视化处理与分析, 结果表明: 整体上数据安全主题内容演化围绕全流程控制呈现聚集性, 同时数据安全作为制度的核心要素嵌入到各个领域使得演化领域呈现扩散性。在主题内容演化方面: 阶段1 和阶段2 除了基础性主题外, 大部分主题受关注程度较低, 消亡型主题整体占比较多, 主题间演化能力适中。随着数据安全政策不断增多及《促进大数据发展行动纲要》等政策发布, 阶段3 主题逐渐广泛, 新生型主题整体占比较多, 主题间演化能力和主题影响力逐渐增强。阶段4 和阶段5 随着“三法一条例” 出台, 数据安全顶层设计逐渐完善, 分化和融合型主题整体占比较多, 主题间演化能力和主题影响力较强, 主题演化更加聚焦, 演化路径更为丰富。在主题强度演化方面: 提取核心主题进行主题强度分析和趋势预测, 其中, 网络安全、安全保障、服务、技术等主题的强度呈现下降趋势, 但整体较高, 主题发展逐渐清晰、细化; 数据开放、公共数据、风险评估、主管部门、应急处置相关主题的强度呈现上升趋势, 主题发展逐渐受到重视; 个人隐私、安全可控、监测预警相关主题的强度呈现平稳趋势, 且整体较低, 主题发展较为缓慢。
经过主题内容和主题强度的结果分析, 从以下4 个方面提出建议:
一是持续加强数据开放与安全的协同。当前数据开放范围逐渐扩大, 由政府数据到公共数据再到广义上的数据, 因此数据在开放过程中, 安全问题成为数据开放的重点, 从主题内容和主题强度演化可知, 政府对数据开放中的安全问题等相关主题较为重视, 但随着覆盖领域的范围逐渐扩大, 为了确保开放的数据处于有效保护和合法利用的状态, 需要进一步细化多元场景下的数据开放, 持续加强数据开放与安全的协同。
二是加强全流程的数据安全治理。从风险评估, 到监测预警和应急处置, 体现出将安全可控作为总体目标, 事前、事中、事后的数据安全全流程治理思路[31] 。事前风险评估和事后应急处置主题强度不断加强, 表明政策中该主题部分内容较多和政府对于风险预防与应急处置的重视。但纵观全流程的数据安全治理, 监测预警主题强度不断下降说明持续关注不足, 政府应当持续加强事中监管。
三是完善技术与政策融合的数据安全治理机制。数据安全治理离不开技术, 全流程治理过程中均体现了技术, 并且需要政策使技术发挥最大运用,开发数据安全技术产品如隐私计算等, 使得数据安全政策与技术项目呼应、协同, 以提高数据安全治理的效率和效力。技术的主题强度不断增加实际反映出政府对于技术治理的重视, 但要将技术与政策融合, 需要考虑以数据为中心, 以数据安全技术为依托, 在数据分级分类的基础上为数据场景化使用保持安全状态提供保障。
四是平衡政策主题演化注意力分配。通过主题强度分析可知, 个人隐私、安全可控、监测预警政策主题内容占比较低, 应加强此类主题的重视, 充分衔接“三法一条例” 顶层设计, 形成联动, 发布专项细化政策, 完善监测预警机制, 夯实数据安全治理基础, 促进数据安全与发展协同。