科技稿件脱敏审查的研究与实践
2021-11-03邹宗庆唐蔚
邹宗庆 唐蔚
摘要:本文分析了日益增长的科技稿件公开发表需求对稿件脱敏审查工作带来的技术挑战,结合科技稿件中需标注已不涉密的科研计划项目,如何进行数据脱敏的难点,探讨数据脱敏方法在科技稿件脱敏审查业务中的应用,并对数据脱敏的实现方法予以重点论述,提出了怎样提高科技稿件投稿录用率的几点建议,以期为科技稿件投稿人掌握稿件脱敏审查方法,顺利投稿提供参考。
关键词:科技稿件;脱敏;审查方法
数据脱敏技术作为近年来解决数据安全问题的重要技术得到了快速发展,在政府部门、金融行业、高等院校、科研院所、医疗体系等诸多行业领域中得以应用。本文将数据脱敏技术应用到科技稿件脱敏审查工作中,通过对指定的敏感数据进行编辑,使得敏感数据不再含有敏感内容,从而保障科技稿件中敏感数据安全,同时保留数据原有格式、属性,实现数据的可用性最大化。
1.难点分析
1.1科技稿件脱敏审查的难点
对基于科研计划项目而产生的科技稿件,如果投稿人只是截取项目的部分少量内容,经过脱密审查确定已不涉密,则可公开发表,但投稿人在标注不涉密的科研计划项目时,往往不知如何进行数据脱敏处理。从近年来科技稿件审查情况来看,科技稿件中标注的科研计划项目内容也是风险高发领域,其科技稿件如果公开发表,覆盖范围广、传播速度快,带来很大风险。
1.2数据脱敏与数据加密的区别
数据脱敏是采用专业的数据脱敏算法,可以兼顾数据安全与数据使用;数据加密是通过对数据进行密码保护,使用密码检索原始值。数据加密不能完全从技术上保证数据的安全,任何有权限访问数据的人员,均有可能导致数据泄露。数据脱敏,敏感数据的实际值转换为虚构的,但是看起来非常逼真的数值,原始值具有不可逆性,无法复原,能够更好的保护数据安全。
数据脱敏和数据加密是两种不同的技术,在不同的工作要求中广泛应用,在科研单位内部交流时,往往采用数据加密,在科技稿件公开发表时,必须采用数据脱敏保护数据安全。
2.脱敏审查方法
2.1脱敏主体
科技稿件的所有署名人是稿件脱敏的责任主体。稿件所有署名人需要通过在实践中不断摸索,寻求科技稿件公开发表和稿件脱敏之间的平衡点,对标注的科研计划项目内容先行严格把关,提高认知能力和水平,提升综合防控能力。
2.2脱敏方法
“先静之,再思之,五六分把握即做之”是一种谨慎的智慧,同样适用于科技稿件脱敏审查工作。
(一) 投稿前,先静之
投稿前,稿件作者应再三思考,科技稿件数据脱敏是否符合要求。稿件脱敏流程主要包括敏感数据识别、算法选择、任务执行、结果输出四个步骤。
1. 敏感数据识别
为了科技稿件能够安全公开发表,充分发挥其价值,需要对稿件敏感数据进行脱敏,确保稿件中敏感数据不被泄露,而敏感数据识别是稿件脱敏的前提和关键。
2.脱敏算法选择
依据不同的科技稿件敏感数据类型、特征和脱敏需求,选择不同的脱敏算法,科技稿件所采用的脱敏算法一般包括隐藏、偏移、平均值、替换、遮蔽、随机等等。
3.脱敏任务执行
科技稿件敏感数据脱敏执行过程包括启动、暂停、终止等操作。
4.脱敏结果输出
依据稿件脱敏流程,脱敏任务执行完毕,输出科技稿件敏感数据脱敏结果。
(二)静后,再思之
静中细思,当思奋争。仔细检查,反复修改,总会发现数据脱敏还有不恰当、不完善之处,原先估计不到的问题,经过反复审查和修改,十分必要。所以,一定要再思之,再思的过程实际上就是之前思考的结论二次复盘,认真地再次梳理数据脱敏有无差错、有无遗漏。
(三)五六分把握即做之
静之再思之方可成立。当稿件作者对数据脱敏流程和脱敏要求非常清楚时,便可开展稿件脱敏审查。
1. 科研计划项目来源核查法
对基于科研计划项目而产出的科技稿件,如果投稿人只选取部分内容,并且进行了脱密处理,经审查确定已经不涉密,则可公开发表,但在科技稿件中如需标注项目内容时,首先需要识别出项目来源中的“项目的完整名称”、“項目完成时间”、“台套数”、“生产计划”、“应用前景”等敏感数据,接着对其敏感数据选择脱敏算法,然后启动脱敏,最后输出脱敏后的数据。
2.3隐藏法
在处理“项目的完整名称”这个待脱敏的数据时,投稿人通过对敏感数据进行隐藏,让敏感数据无价值,使它无效。一般采用特殊字符(*或X)代替真实值,这种隐藏敏感数据的方法简单便捷。
2.4偏移法
在处理“项目完成时间”这个待脱敏的数据时,投稿人通过随机移位改变日期数据,偏移法在保持了数据的安全性的同时保证了日期范围的大致真实性。
2.5平均值
在处理“台套数”这个待脱敏的数据时,投稿人通过先计算它们的均值,然后使脱敏后的值在均值附近随机分布,从而保持台套数的总和不变。
(一)科研计划项目关键词检索法
科技稿件关键词检索即在脱敏范围所列的条款中选取关键词,对科技稿件进行全文查验、比对。例如:科技稿件中如标注项目内容,需要对敏感数据“生产计划”进行数据脱敏。通常分为精确匹配和广泛匹配两种。
2.6精确匹配
当投稿人搜索词与关键词完全一致时才能匹配。例如精确匹配下“生产计划”这个关键词,投稿人只有搜索“生产计划”才能启动。
2.7广泛匹配
当投稿人搜索与关键词高度相关的词即可启动。例如广泛匹配下“生产计划”这个关键词,投稿人可以启动搜索出“项目生产计划”、“生产计划进展”、“计划生产”、“生产安排”、“生产方案”等等。
在科技稿件脱敏审查中,往往采用广泛匹配,全文查验,比对相应的法律法规和管理要求,确保敏感数据完成脱敏。
(一)稿件内容鉴别法
稿件内容鉴别法就是逐一分析稿件内容,对敏感技术或者领域中易造成风险的关键点进行严格审查把关。例如:科技稿件中如标注项目内容,需要对敏感数据“应用前景”进行数据脱敏。脱敏审查不仅包括文字内容,还应该包括图片、音视频等内容。图像脱敏除了使用马赛克,可以采用图像分析和图像合成等技术,音频脱敏可以通过差分隐私技术,为数据添加噪声等方式进行数据脱敏。
3.结语
科技稿件脱敏审查是一项专业性很强的工作,需要严把数据脱敏关,须臾不能松懈。本文探讨的数据脱敏方法在科技稿件脱敏审查业务中的应用,以期为科技稿件投稿人掌握稿件脱敏审查方法,顺利投稿提供参考。
参考文献:
[1]孙允凯.科技稿件脱密审查小议[J].保密工作,2021.
[2]武薇.全媒体语境下新闻出版泄密风险与防控[J].保密工作,2021.
[3]毕婷.工业数据脱敏技术研究[J].保密科技技术,2021.
[4]蔡玉琪.科技期刊编辑如何利用专家审稿意见提高审稿能力[J].编辑学报,2006.