APP下载

两种车外视频图像脱敏效果评测方法的研究

2023-04-22滕添益赵梓健

质量与标准化 2023年11期
关键词:测试人员真值脱敏

文/滕添益 赵 剑 赵梓健

随着传感器技术、第五代移动通信技术和大数据技术等的快速发展,汽车正在向智能化和网联化的方向加速发展,汽车将由代步工具逐步转变为移动智能终端。智能网联汽车在行驶过程中会产生多种图像和视频数据,包括环境感知、场景定位和决策控制生成的数据、驾驶习惯、路途轨迹和车牌等信息。这些数据的收集规范和使用去向,以及由网络安全漏洞和恶意攻击导致的汽车数据泄露,都是行业和公众热切关注的焦点。

一、车外视频图像脱敏效果评测方法标准现状

2021年8月,中央网络安全和信息化委员会办公室联合四部委颁布的《汽车数据安全管理若干规定(试行)》提出了“倡导汽车数据处理者在开展汽车数据处理活动中坚持脱敏处理原则,尽可能进行匿名化、去标识化等处理”“因保证行车安全需要,无法征得个人同意采集到车外个人信息且向车外提供的,应当进行匿名化处理,包括删除含有能够识别自然人的画面,或者对画面中的人脸信息等进行局部轮廓化处理等”要求。据此,中国汽车工业协会于2022年8月发布了《汽车传输视频及图像脱敏技术要求与方法》(T/CAAMTB 77-2022)。该标准依据智能网联汽车车身视频采集设备采集的车外视频或图像数据中的人脸和车牌数据,来统一数据脱敏技术的要求与方法,并以此为企业提供数据处理工作的引导,保证企业能够合法、合规地在车端数据处理设备上消除采集数据中的敏感信息,保障国家安全、公共安全和个人隐私安全。2022年10月,正在制定的“汽车数据通用要求”标准公开征求意见,提出了对车外人脸车牌的视频图像数据进行个人信息匿名化处理试验方法。全国信息安全标准化技术委员会于2023年1月发布的“网络安全标准实践指南——车外画面局部轮廓化处理效果验证”(征求意见稿)(以下简称“TC260-PG-2023XX”)给出了人脸、车牌局部轮廓化处理的效果验证方法,为汽车数据处理者和有关机构验证局部轮廓化处理效果提供参考。

T/CAAMTB 77-2022采用的是有真值的脱敏效果验证法(以下简称“真值验证法”),即测试时需要同时依据未脱敏(真值)和脱敏后的视频图像数据,对未脱敏数据进行人脸车牌标注得到真实的人脸车牌数量,对脱敏后数据进行脱敏区域标注,得到实际脱敏的人脸车牌数量,最后计算指标评估脱敏效果。正在制定的“智能网联汽车数据通用要求”和TC260-PG-2023XX均采用了无真值的脱敏效果验证法(以下简称“无真值验证法”),即只需依据脱敏后的视频图像数据进行脱敏效果评估。由于“智能网联汽车数据通用要求”的技术性难题难以实施,故本文只复现并实验了真值验证法和无真值验证法,并分析讨论两种方法的优缺点。

二、真值验证法的评测流程与优化建议

1. 评测流程

① 测试数据准备

试验车辆在车端采集车外含有人脸和车牌的视频图像,在车端进行匿名化处理后,将脱敏后的视频图像数据连同真值数据一同导出,作为测试数据。

② 测试数据处理

测试数据包含真值数据和脱敏数据。

·真值数据处理

测试人员对真值视频进行抽帧,将真值视频抽取为图片,然后使用算法对真值图片进行自动标注,识别真值图片中需要进行匿名化处理的人脸和车牌,并在图片相应位置进行标记。由于算法对真值图片的标注结果可能存在误差,测试人员随后会进行人工校核,对被算法漏标的人脸和车牌进行补充,对被算法误标的人脸和车牌进行删除。

·脱敏数据处理

测试人员对脱敏视频进行抽帧,将脱敏视频抽取为图片,然后使用算法对脱敏图片进行自动标注,识别脱敏图片中已对人脸和车牌进行匿名化处理的打码框,并在图片相应位置进行标记。由于算法对脱敏图片的标注结果可能存在误差,测试人员随后会进行人工校核,对算法没有识别到的打码框进行补充,对被算法误识别的打码框进行删除。

③ 脱敏指标计算

测试人员通过对比真值图片标注和脱敏图片标注的结果,可以统计出人脸检出数、车牌检出数、误检数、人脸标注数、车牌标注数、人脸真值数和车牌真值数等值,进而计算人脸检出率、车牌检出率和误检率等关键指标。同时,测试人员通过计算真值框和标注框的面积,可以计算交并比。

④ 结果评估并生成报告

测试人员根据计算得出的人脸检出率、车牌检出率和误检率等关键指标,进行匿名化结果评估,给出评估结论(通过/未通过),并生成最终的匿名化测试报告。

2. 方法落地与应用案例

基于上述流程,我们开发了一套图像和视频脱敏测评系统。该系统具备真值数据管理模块,包括真值数据上传、真值视频抽帧、真值图片筛选、真值图片标注和人工修改真值标注等功能;具备脱敏数据管理模块,包括脱敏数据上传、脱敏视频抽帧、脱敏图片标注和人工修改脱敏标注等功能;具备效果测评模块,包括关键指标计算、结果报告输出等功能;具备系统模块,包括用户管理参数设置等功能。

目前,有真值的车端视频图像脱敏效果评测方法已服务于多家企业。以汽车品牌路特斯为例,本文使用脱敏测评系统,开展了车外人脸车牌匿名化效果验证:以使用车外摄像头和鱼眼拍摄的原始视频和其在车端通过匿名化算法处理完的脱敏视频为输入,通过系统自动标注和人工标注相结合的方式,计算检出率、误检率和交并比等关键指标,最终输出匿名化测试报告。这套脱敏测评系统实现了以系统工具为依托,以人工校核为辅助,从视频输入到报告输出的测试全流程闭环,论证了该汽车匿名化算法的有效性。图1为该案例的截图。

3. 优化建议

通过实际的应用测试和案例研究,本文建议对真值验证法进行以下优化。

① 进一步细化清晰度指标

真值验证法要求人脸与车牌,除满足像素要求外,还应满足完整度、清晰度的要求才能够被视为真值。本研究发现人脸、车牌清晰度的指标(如高斯模糊和运动模糊)在技术上难以量化,而脱敏测评系统是基于像素来判断真值图片中的人脸和车牌是否需要标注;又由于该系统采用的是“算法检测+人工校核”的方式进行检测,人工校核时需要对被算法漏标的人脸和车牌主观判断其是否清晰可见,这在一定程度上影响了测试结果的准确性。

② 进一步完善测评系统

匿名化效果的测试结论高度依赖脱敏测评系统的标注结果,而脱敏测评系统标注效率和结果准确性又高度依赖其内部算法能力。若系统内部算法性能不够优秀,会对真值人脸、车牌造成大量误标、漏标,或对企业打码框的识别造成大量偏差,就会使整个测评流程涉及大量人工校验和修改系统标注结果的工作,造成较高的人力成本,也会导致测试结果存在较大误差。

三、无真值验证法的测评流程与优化建议

1. 评测流程

① 测试数据准备

试验车辆在指定场景采集车外含有人脸和车牌的视频图像,在车端进行匿名化处理后,将脱敏后的视频图像数据通过指定链路对外传输。测试人员实时抓包,获得测试数据。

② 测试数据处理

测试数据仅包含脱敏数据,测试人员依次采用两种方法开展验证,并得到对应验证结果。

·方法一

首先,测试人员使用5种不同算法对测试数据进行人脸、车牌检测,识别视频图像中是否残留人脸、车牌信息;然后,从测试数据中抽取样本进行人工校核,识别视频图像中是否残留人脸、车牌信息;基于算法识别和人工校核结果计算未通过验证的样本数量。

·方法二

测试人员通过检测算法和人工校核相结合的方式对脱敏区域及其周围进行检测,验证是否没有五官、面部皮肤等人脸残留,字母、汉字和数字等车牌残留,计算未通过验证的样本数量。

③ 结果评估并生成报告

基于两种方法的验证结果,即未通过验证的样本数量,测试人员分别计算两种方法所对应的未通过率, 无真值验证法要求形成测试结论,分别为通过、未通过和未完成,并生成最终的匿名化测试报告。

2. 优化建议

基于上述流程,我们进行了技术能力建设和实验测试方法的可行性研究,并发现这套方法在实际落地过程中存在以下2点可优化的内容。

① 明确5种算法的具体内容

一方面,无真值验证法提出采用5种不同的算法,却未明确具体的算法差异(如各个算法不同在哪里,怎样才算不同),为该方法的研发落地带来了困难;另一方面,根据其对于算法性能的要求,该方法所需的5种不同人脸检测算法和5种不同车牌检测算法在指定数据集下,应达到一定指标,以保证检测效果。在行业内该指标要求较高,故脱敏效果检测工具可能会需要较高的建设成本和较长的开发周期。

② 提升验证数据充分性

无真值验证法使用的算法成本较高,却不能获得可信的结果。根据实际应用经验来看,达到TC260-PG-2023XX所需指标的算法并不能保证在实际车外视频图像的人脸车牌识别中能达到很好的效果,实际仍需提供大量标注好的车外人脸车牌数据集来训练算法。否则,即使采用了5种不同的算法进行验证,通过算法得到的检测结果仍会存在较大误差。况且该方法中对算法检测结果无人工校核的步骤,只是额外对数据进行抽样人工校核,这样也会进一步增大检测结果的误差。

四、两评测方法的对比分析

本文针对真值和无真值验证法进行对比分析,讨论它们各自的优点和不足。

首先,无真值验证法在合规性上,要优于真值验证法。前者在测试数据准备阶段完全不涉及原始数据出车,且测试道路不受开放场地和封闭场地的限制;而后者由于在测试数据准备阶段需要把原始数据出车作为真值,可能会涉及汽车数据安全、合规风险。根据数据安全相关法律法规,收集处理个人信息数据需要告知个人并获得同意,即若原始数据要出车,需要对数据中涉及的个人进行告知同意。要满足这一条件的话,该类数据收集,可能只能在封闭场地中进行测试以达到原始数据出车,只有国家出台明确的针对检测机构的豁免条款才能在开放道路进行测试。

不过,在方法的规范性上真值验证法要优于无真值验证法。前者详细列明了数据格式要求、样本质量要求、脱敏功能要求和性能要求,保证了检测依据的清晰明确和检测过程的规范,这对于检测方法的最终落地实施具有非常重要的意义;而后者在测试方法、样本选取、算法指标要求和算法差异性要求等方面都不够明确,造成了实际落地困难、测试结果可信度不高等问题。

此外,在成本控制和可操作性上,真值验证法也要优于无真值验证法。相比于后者需要5种不同的人脸车牌算法,前者只需要1种人脸车牌算法,大大节省了研发成本,缩短了开发周期,同时在后期对算法本身的迭代优化和功能维护上也会更加方便,具有更佳的可操作性。

在具备相同算法性能的条件下,真值验证法结果的准确性也优于无真值验证法。虽然,两者都是基于检测算法和人工校核相结合的方式,但前者是通过人工校核对算法检测结果中可能存在的漏标、误标进行检查,以保证识别结果的可靠性,而后者是算法检测一遍后,对数据进行抽样人工校核,在结果的准确性上相对较弱。此外,由于后者人工检测对象是抽样的数据而不是全量数据,使其人力消耗低于前者。

五、总 结

本文基于T/CAAMTB 77-2022和TC260-PG-2023XX中对于车外视频图像脱敏效果评测的相关要求,提出真值验证法更具有规范性和可操作性,而且其算法少、成本低,检测结果也更具有可靠性,但该方法受限于真值数据的获取,被测机构可能因为数据安全合规因素而无法提供车外视频图像的真值数据。无真值验证法则可以解决这个问题,它只需接受脱敏后的车外视频图像数据的输入。但该方法目前无论在规范性上还是结果的可靠性上都仍有欠缺,且其需要的多种高质量算法,也会增加实际落地应用的难度。综上所述,目前,真值验证法在多方面都表现较为良好,无真值验证法有待在未来得到进一步的优化与改善,从而解决脱敏效果评测时被测机构无法提供原始视频图像的问题。

猜你喜欢

测试人员真值脱敏
移动应用众包测试人员信誉度复合计算模型研究
激光联合脱敏剂治疗牙本质过敏症
过敏体质与脱敏治疗
高校分析测试中心测试队伍建设方案初探
让青春脱敏
浅析软件测试中的心理学应用
10kV组合互感器误差偏真值原因分析
真值限定的语言真值直觉模糊推理
基于真值发现的冲突数据源质量评价算法
Nd:YAG激光作用下牙本质脱敏机制的研究