人工智能数据安全治理与技术发展概述
2020-07-19郭云
郭云
【摘 要】近年来,经济的发展,促进我国科技水平的提升。当前,随着计算能力的大幅提升和数据规模的暴增,人工智能技术获得快速发展,成为全球各国高度重视和竞相发展的带有“头雁”效应的引领型技术 . 与此同时,数据作为人工智能技术发展的重要资源,其重要价值进一步凸显,但也由此引发了一系列对于数据安全和隐私保护的担忧,数据安全问题已然成为人工智能全面发展的重要制约瓶颈和亟需突破的关键挑战。本文就人工智能数据安全治理与技术发展展开探讨。
【关键词】人工智能;数据安全;隐私保护;全球治理
引言
随着越来越多智能应用的出现,而形成了海量数据,这些数据又在人们的生产、生活场景中不断被收集与利用,在此过程中如何兼顾数据安全和人工智能技术发展,并探寻人工智能数据安全影响因素逐渐成为了当前国内外研究的焦点。
1全球人工智能数据安全治理国家战略层面
2017年7月,国务院发布《新一代人工智能发展规划》,在人工智能数据安全治理方面提出了多项要求,包括“强化数据安全与隐私保护,为人工智能研发和广泛应用提供海量数据支撑”“开展与人工智能应用相关的民事与刑事责任确认、隐私和产权保护等法律问题研究,建立追溯和问责制度”“加大对数据滥用、侵犯个人隐私、违背道德伦理等行为的惩戒力度”“打造人工智能基础数据与安全检测平台,建设面向人工智能的公共数据资源库、标准测试数据集、云服务平台”。在国家人工智能发展战略的指引下,我国相关部门在金融科技、智慧城市、自动驾驶等应用领域纷纷出台了相应的规范性文件,强调要加强人工智能的相关数据安全研究和管控。如在金融科技场景,2018年4月,中国人民银行、中国银监会、中国证监会和国家外汇管理局共同发布了《关于规范金融机构资产管理业务的指导意见》,在第23条对运用人工智能技术开展投资业务进行了相应规定,要求金融机构应当向金融监督管理部门报备人工智能模型的主要参数以及资产配置的主要逻辑,并向投资者充分提示人工智能算法的固有缺陷和使用风险。2019年8月,中国人民银行发布《金融科技(FinTech)发展规划(2019— 2021年)》,提出要“加强金融领域人工智能应用潜在风险研判和防范,确保把人工智能金融应用规制在安全可控范围内”。整体来看,我国目前尚未形成体系完善的人工智能数据安全法律法规。虽然《数据安全法(草案)》和《个人信息保护法(草案)》已发布,但其落实尚需要一系列配套法规、部门规章和规范性文件提供支撑。同时由于上位法尚未出台,人工智能场景化立法的步伐也相对滞后,数据安全并未在相关人工智能应用行业的规范性文件中得到足够的重视和明确的规制要求。未来,我国还需要在《网络安全法》《数据安全法(草案)》和《个人信息保护法(草案)》的体系框架下,加快生物特征识别、工业互联网、智能网联汽车、数字内容精准推送等人工智能重点应用领域的场景化立法,构建完备的人工智能数据安全法律体系。
2人工智能技术自身面临的数据安全风险
(1)训练数据污染可导致人工智能决策错误。数据投毒通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的算法模型决策出现偏差。随着人工智能与实体经济深度融合,医疗、交通、金融等行业训练数据集建设需求迫切,为恶意、伪造数据注入提供机会,使得从训练样本环节发动攻击潜在危害增大。例如,在对话机器人领域,训练数据投毒可导致机器人发表歧视性、攻击性的不当言论;在自动驾驶领域,训练数据投毒可导致车辆违反交通规则甚至造成交通事故。(2)运行阶段的数据异常可导致智能系统运行错误。一是人为构造对抗样本攻击,导致智能系统产生错误的决策结果。例如在生物特征识别应用场景中,对抗样本攻击可欺骗基于人工智能技术的身份鉴别、活体检测系统。二是动态环境的非常规输入可导致智能系统运行错误。人工标记数据覆盖不全、训练数据与测试数据同质化等会导致人工智能算法泛化能力不足,智能系統在动态环境实际使用中决策可能出现错误。(3)模型窃取攻击可对算法模型的数据进行逆向还原。攻击者可通过公共访问接口对算法模型的输入和输出信息映射关系分析,构造出与目标模型相似度非常高的模型,实现算法模型窃取,进而还原出模型训练和运行过程中的数据以及相关隐私信息。(4)开源学习框架安全风险可导致人工智能系统数据泄露。人工智能开源学习框架集成了大量的第三方软件包和依赖库资源,相关组件缺乏严格的测试管理和安全认证,存在未知安全漏洞。360、腾讯等企业安全团队曾多次发现 TensorFlow、Caffe、Torch 等深度学习框架及其依赖库的安全漏洞,攻击者可利用相关漏洞篡改或窃取人工智能系统数据。
3技术发展策略
3.1标准制定与监管
人工智能安全标准制定。人工智能安全标准,是与人工智能安全、伦理、隐私保护等相关的标准规范。从广义来说,人工智能安全标准涉及人工智能本身、平台、技术、产品和应用相关的安全标准。国内外对人工智能标准化工作也越来越重视。中国也应针对技术应用风险,严格人工智能标准制定和行业监管,确保人工智能良性发展。加强人工智能安全监管与预警。加强人工智能安全的研究与监管,全面审查、分析人工智能技术及系统的安全性,包括审查民用人工智能产品的安全性和稳定性,特别是涉及人身安全的人工智能产品;审查人工智能在军事应用中的风险,以及军事智能化对国际法的影响;审查人工智能在国家安全和国防中的伦理道德问题。建立人工智能安全预警机制,对人工智能安全风险进行监控和扫描,识别脆弱点、风险与威胁,建立风险数据库。重点关注人工智能技术的新发展与新应用,维护国家总体安全。
3.2基于差分隐私的隐私保护技术
在许多人工智能应用中,机器学习需要基于敏感数据开展训练,例如照片等。在理想情况下,机器学习模型参数代表的应该是通用模式,而不是关于特定个人数据主体的信息。在这种情况下,差分隐私作为一种隐私保护技术可以提供有效的隐私保护。差分隐私是在统计和机器学习分析的背景下对隐私的一个强有力的数学定义。当基于隐私数据进行训练时,差分隐私能够保证模型不会学习或记住任何特定数据主体的细节信息。
3.3推动高质量数据资源建设,降低数据滥用泄露带来的安全隐患
高质量数据集是提升人工智能算法准确性、模型合理性至关重要的因素,只有当人工智能系统获取更为准确、及时、一致的高质量数据,才能提供更高效、更可靠的智慧化服务,因此推进高质量数据资源建设是解决人工智能数据安全的重要手段之一。
结语
人工智能数据安全挑战会随着人工智能技术的发展突破、应用行业的不断深入扩大等因素加快演变,其对于人类现实社会的外溢和威胁将是一个复杂的长期过程。因此,我国必须要在人工智能的动态发展中实现对数据安全风险整体的可知可控,确保人工智能数据在采集、标注、处理、存储、流动、共享和场景应用的全生命周期安全,不断提高人工智能企业的数据安全能力,增强人工智能数据安全供给链的连续性和可用性。
参考文献:
[1]朱天清,何木青,邹德清 . 基于差分隐私的大数据隐私保护[J]. 信息安全研究,2018,1(3).
[2]郝英好.人工智能安全风险分析与治理[J].中国电子科学研究院学报,2020(6):501-505.
[3]魏薇,景慧昀,牛金行.人工智能数据安全风险及治理[J].中国信息安全,2020(3):82-85.