生成式人工智能的信息安全问题
2024-05-24刘春彦彭曦
刘春彦 彭曦
作为生成式人工智能的一种,ChatGPT能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列复杂任务。生成式人工智能在文本写作、代码编写等领域广阔的应用前景,引起了各界的关注。不能忽视的是,生成式人工智能在数据存储、传输以及使用等环节存在信息安全隐患。本文侧重对生成式人工智能发展中可能存在的信息安全风险及其保护难点进行分析,提出相应的对策建议。
生成式人工智能的信息安全风险
生成式人工智能是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术,以ChatGPT为例,在技术层面,ChatGPT的本质是对大量文本数据进行预训练,基于学习数据的上下文信息形成语言生成概率模型,从而模拟出接近自然语言的回答;在算法层面,ChatGPT依托GPT-3.5这一人类反馈强化学习技术进行训练的语言模型;在算力方面,ChatGPT核心基建主要是AzuerAI超算平台,包括28.5万个CPU核心、1万个 GPU和400GB/s的GPU服务器网络传输带宽;在数据方面,ChatGPT以庞大数据资料为基础。例如,GPT-3囊括了3000亿单词语料。以ChatGPT为代表的生成式人工智能,通过算法模型对海量数据信息进行处理,可能在数据输入、处理、输出环节出现信息安全问题,引发侵犯公民、企业合法权益及损害公共利益、国家安全等安全风险。
第一,数据获取阶段可能存在非法获取数据的风险。2023年国家网信办、国家发改委、教育部、科技部、工信部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》(以下简称《办法》)。《办法》第七条规定了生成式人工智能适用具有合法来源的数据和基础模型,不得侵害他人知识产权,涉及个人信息的,应当取得个人同意等。生成式人工智能服务者可能存在无视相关规定,非法收集个人信息、企业信息等情况,导致侵犯公民个人信息、企业商业秘密,以及国家秘密等。同时生成式人工智能使用者在提问中也可能涉及一些个人信息,个人信息在使用过程中被收集。第二,数据处理阶段可能存在数据滥用的风险。生成式人工智能可能在信息处理时,因为技术漏洞或者其他原因造成信息泄露。第三,数据输出阶段存在被非法利用的风险。生成式人工智能可能生成虚假、错误的信息,造成虚假信息的传播。生成式人工智能还可能被使用者诱导生成虚假信息,被不正当使用。
生成式人工智能信息安全保护难点
《个人信息保护法》第六十二条规定国家网信部门统筹协调有关部门依据本法针对小型个人信息处理者、处理敏感个人信息以及人脸识别、人工智能等新技术、新应用,制定专门的个人信息保护规则、标准。《数据安全法》第二十七条也规定了利用互联网等信息网络开展数据处理活动,应当在网络安全等级保护制度的基础上,履行依照法律、法规规定,建立健全全流程数据安全管理制度、开展数据安全教育培训,采取相应的技术措施和其他必要措施保护数据安全。《办法》也规定了生成式人工智能服务总体要求和促进生成式人工智能技术发展的相关措施。
人工智能在行业发展初期,需要行业从业者强化自我合规监督,提高对自身的道德伦理要求。
数据安全问题不断增多(图文无关)
生成式人工智能信息安全保护存在以下难点:第一,对侵犯信息的行为发现难。特别是对公民个人信息的侵犯发现较为困难。生成式人工智能对数据的获取采用的是海量的方式,公民个人很难发现自己的信息被不当或者非法收集。第二,信息保护维权成本较高。生成式人工智能对公民个人信息侵犯时,公民维权成本较高。可能造成公民知道自己的个人信息被侵犯,但是缺乏低成本渠道进行维权,最终只能放任侵权行为。对于企业而言,消除信息泄露影响的成本高于维权成本,因此健全信息保护机制尤为重要。第三,生成式人工智能信息安全责任划分需要进一步明确。生成式人工智能服务者、生成式人工智能服务使用者,以及生成式人工智能行业管理者等主体责任有待进一步明确。《办法》第三章规定了提供者、使用者的义务和责任,第四章明确了有关职能部门的监督检查和法律责任,相关的管理和规则还需要进一步细化。第四,生成式人工智能对公共数据的收集如何看待。公共数据是各级行政机关及具有公共管理和服务职能的事业单位在依法履行职责过程中获得的各类数据资源。公共数据不可避免包含国家信息、企业信息和个人信息。零星的数据信息可能并不敏感,海量的信息可能反映出某些商业秘密和国家秘密。生成式人工智能对公共数据收集的规范,需要理论和实践的进一步关注。
生成式人工智能信息安全保护建议
第一,进一步明确生成式人工智能服务提供者、使用者的主体责任。明确生成式人工智能提供者、服务者依法收集信息,对使用者输入信息和使用记录承担具体保护责任,以及对使用者生成违法内容的管理责任,进一步明确使用者合法使用生成式人工智能的义务。特别对于生成式人工智能服务提供者,其处于数据控制者的地位,基于其自身掌握的技术优势,理应承担更多的安全保护责任。实践中,可以明确生成式人工智能服务提供者在获取信息时需要取得原始数据所有者的授权,在处理信息时需要采取必要的加密措施防止數据处理阶段的信息泄露,比如采用技术手段实现对访问IP的控制,对于短时间内多次同地址访问等可疑行为采取限制措施;在信息产出时要对输出信息进行二次脱密处理,对其中敏感信息进行技术性屏蔽,比如对个人信息进行匿名化处理等,降低输出信息时侵犯个人隐私的风险。在用户端,即生成式人工智能工具的使用者,也要强化信息安全的敏感性,增强辨别能力,对于可能涉密、涉敏的信息做好自我甄别,避免人工智能可能存在的“盲目性”。第二,注重生成式人工智能行业的规范建设。作为新兴领域,生成式人工智能行业规范的建立需要随着行业的发展不断完善。在行业发展初期,从行业内部看,需要行业从业者强化自我合规监督,提高对自身的道德伦理要求,必要时需要在从业主体内部企业架构中增加合规部门。从外部监管上看,要加强网信、工信等有关部门的管理职责,通过加强宣传、出台相关归责条款等方式,引导生成式人工智能行业有序发展。同时,针对新兴行业的固有特征,在外部监管时要注重监管力度和措施的必要性和谨慎性,给予行业发展一定的“容错”空间,不做“一刀切”的规定,对于存在数据安全保护问题的行业、企业不能“一棒子打死”,但也不能让其“野蛮生长”。要强化政策宣传解读和监督引导,推动行业实现合规基础上的繁荣。具体而言,要预防ChatGPT的数据安全风险,应当在ChatGPT的数据安全风险治理体系中引入合规管理方式,从企业角度建立ChatGPT的数据合规管理体系。生成式人工智能数据安全体系,包括信息分类管理、信息安全基础设施建设、信息风险防控机制设立、信息泄露的处理机制等。第三,建立健全信息保护的救济机制。有救济则有权利。在信息爆炸的当今社会,数据安全问题在社会生活方面的集中映射就是对于个人信息的侵犯不断增多。特别是在生成式人工智能工具侵犯个人信息时,拓宽救济渠道,畅通投诉等救济渠道需要进一步加强。对于严重侵害公民个人信息的行为,公民可以立即要求服务提供者处理,生成式人工智能服务提供者有义务进行处理,拒不处理情节严重的,有可能触犯拒不履行信息网络安全管理义务罪。
(刘春彦,同济大学法学院副教授)