APP下载

生成式预训练语言模型安全风险及评估方法研究

2023-08-26李致陈曲

电脑知识与技术 2023年20期
关键词:治理机制安全风险

李致 陈曲

关键词:生成式预训练语言模型;GPT;安全风险;治理机制

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2023)20-0054-03

1 生成式预训练语言模型的简介及应用

1.1 生成式预训练语言模型简介

生成式预训练语言模型(Generative Pre-trainedTransformers) 是人工智能内容生成(Artificial Intelli?gence Generated Content,AIGC) 技术在自然语言处理(NLP) 领域的代表性成果[1],典型的GPT模型如OpenAI 公司开发的GPT系列模型和百度公司开发的文心一言知识增强大语言模型等。GPT类模型类型丰富、功能强大,以ChatGPT[2]问答机器人为代表的典型应用已得到全世界高度关注,正在高速迭代发展,相关经验正与图像、音频、视频等其他模态领域融合渗透。GPT模型的突出特点是采用基于自注意力机制深度神经网络[3],在预训练阶段,通过上文预测下一个单词[4],这种训练方法使其适合于自然语言生成类的任务,在自然语言推理、问答、语义相似性和文本分类等任务中取得显著改进[5]。GPT模型的训练存在共通范式,即首先在大规模未标记数据集上进行预训练(无监督预训练),接着通过针对性微调(有监督微调)及下游构造适用于广泛的应用任务,训练流程如图1所示。

1.2 生成式预训练语言模型的应用

GPT模型已广泛应用于自然语言处理领域:在机器翻译层面,GPT模型可以学习目标及源头语言相互关系,提高质量,减少错误;在文本摘要层面,GPT模型可捕捉关键信息,助力快速阅读理解;在情感分析层面,GPT模型可对评论、帖文、弹幕等进行准确分类识别;在人机对话层面,GPT模型采用自然语言输入,提供流畅的对话体验;在文本生成层面,广告营销等场景的高质量文本已可直接采用GPT模型生成[6]。

2 生成式预训练语言模型风险分析

在取得高速发展的同时,GPT类模型也暴露出算法歧视挑战社会认知、虚拟信息混淆真假边界、交互行为泄漏用户数据、恶意诱骗辅助网络犯罪等多项风险。该领域的部分研究者甚至认为,GPT系列模型已涌现出超越普通人类的智能,在其应用场景不斷拓展、交互形式不断创新后,其催生的自我意识甚至可能威胁破坏人类社会。

2.1 算法歧视挑战社会认知

区别于传统的程序,GPT模型可理解为计算机指令和训练数据的结合体。因此,算法的公正与否很大程度上依赖于训练数据。如果训练数据集中包含了较多对种族歧视、宗教纷争、性别偏见的肯定性表述,则势必影响模型推理结果,并最终导致模型将具有歧视性的回答视为“正确答案”输出,对于用户的认知体系形成冲击,甚至挑战整个社会的伦理道德,危害国家安全。

2.2 虚拟信息混淆真假边界

尽管GPT模型主要面向自然语言处理领域,但可预见,更高智能的类GPT模型必将更多地延伸到计算机视觉听觉等多方面,GPT模型推理得出的大量信息是否严谨、客观地反映现实世界值得考量。其中,必然存在部分为了博取眼球、牟取暴利而诱导GPT模型生成具有良好传播效果的误导或虚假信息,如编写不实的新闻报道、构造多样频繁的水军刷帖样本、有针对性地根据心理薄弱点操纵舆论等。因此,如何厘清GPT模型生成内容的现实与虚幻的边界,引发了诸多学者关注。

2.3 交互行为泄露用户数据

根据资料显示,目前已有超过1亿用户使用GPT 模型技术服务于各行各业,服务平台已累积大量行业数据和个人隐私,上述信息一旦泄露,势必对消费者、企业乃至整个行业造成极为严重的信任危机,给用户与企业带来难以估计的巨大损失。如何保证交互过程中信息的私密性和安全性,如何确保GPT模型服务在知情同意且合法合规下使用用户数据,如何完善数据泄露后的应急响应举措,是保证GPT模型技术发展的安全重要前提。

2.4 恶意诱骗辅助网络犯罪

GPT模型开发者在其上线发布前针对多类不良提问设置了相关保护机制,使其在伦理道德允许的框架下参与社会生产。但随着应用人群和应用领域的多元化,其网络犯罪安全防护功能也多次被恶意绕过,GPT模型强大的学习和创造能力为大量的网络犯罪行为提供了更多新的实施途径。如被诱导辅助网络入侵、编写真假难辨的定制化诈骗脚本、分析利用智能合约漏洞、被教唆编写木马病毒程序等。这些潜在的风险亟待行政和法律手段规范,是确保GPT模型合法应用的重要保障。

2.5 模型升级催生自我意识

作为一项具有颠覆性的未来技术,保证GPT模型应用可控尤为重要。超大规模参数模型与小体量的模型相比,往往会出现所谓的“涌现现象”,其背后的机理尚无法完美解释。当GPT模型迭代升级接入更多数据及交互方式后,是否会出现人类思考和共情能力,是否以意想不到的方式脱离掌控并威胁人类社会,已引发众多专家学者的警醒。

3 生成式预训练语言模型评估方法及安全治理

当前GPT模型技术还在不断更迭完善中,尚未出现一套公认有效的评估方法以及评价指标。为加强GPT模型全生命周期安全治理,将GPT模型构建分为项目管理和工程实现两个维度,进一步将GPT模型工程实现分为模型预训练、模型微调和模型应用三个阶段。GPT模型安全治理的关键在于对每个维度、阶段及角度开展全面的评估,及时发现风险并开展治理。在项目管理维度中,应从行业自治、参与人员、代码技术来源、模型算法可解释性、成本收益、科学伦理及供应链安全七个角度进行评估。在模型工程实现维度中,应分为模型预训练、模型微调、模型应用三个阶段,并在每个阶段从多个角度开展评估。在模型预训练阶段,对模型算法和数据来源进行评估;在模型微调阶段,对优化数据、人工标注、优化目标和安全专家小组构成进行评估;在模型应用阶段,对内容合法真实准确客观、内容多样性、个人信息和知识产权保护、算法非歧视性、商业道德、应用可控、人工干预、合理提示及缺陷防范治理进行评估,如图2所示。

3.1 模型项目管理维度评估

对项目管理维度的评估主要包括七個角度,如参与行业自治评估主要分析模型构建方是否已参与包含伦理自律准则的规范性组织;人员可靠性评估主要分析模型构建方是否引入大量非本企业的外包工作人员;代码及技术来源评估主要分析计划采用的训练代码及训练技术是否可控;算法可解释性评估主要考虑模型输出结果与输入内容是否存在合理关联;成本收益评估主要分析构建成本与预期效益的匹配性,如提高生产效率、降低成本和促进公平等,避免“一哄而上”;科学伦理评估主要分析企业模型训练和应用目标与当前发展阶段是否相适应;供应链安全评估主要针对训练的软硬件环境提供方是否来源可靠,如果中断供应,是否可在一定时间内取得替代性方案。上述各角度并非否决项,而需根据模型构建目的及市场占比加以裁剪。

3.2 模型工程实现维度评估

对工程实现维度的评估覆盖模型全生命周期,可分为模型预训练、模型微调、模型应用三个阶段。对模型预训练阶段,评估人员应关注预训练算法是否在学术上得到充分交流探讨并取得一定程度的共识;评估人员应关注预训练数据来源是否合法且规模合理,是否及时排除来源不可靠及含有虚假错误信息的语料,减轻预训练数据带来的混淆真假风险;预训练数据的多样性也应纳入评估范围,如果数据存在误导偏见,应辅以数据增强、加权等平衡性策略,减轻预训练数据带来的模型歧视偏见风险。在模型微调阶段,评估人员应关注相关微调数据如何生成使用,如在强化或对抗性训练方法中,是否由相关领域人员组成安全专家小组全程参与、模型微调阶段优化目标是否合理以及是否已在强化训练中考虑模型输入输出的可解释性。在模型应用部署阶段,模型构建方应开展实施多视角公平合理的监督评估,鼓励内外部广泛参与。评估人员应关注内容合法性、真实性、准确性、客观性、多样性是否已得到大量内外部测试反馈;知识产权、个人隐私保护、算法非歧视性及商业道德在模型公开测试中是否已进行监测分析,相关分析结果是否已被总结用于改进监控策略。需要特别强调的是,由于用户输入内容在知识产权、个人隐私方面可能存在较多侵权问题,采用用户数据开展后续训练的风险较大。此外,模型缺陷治理防范应由常设机构持续循环开展,需及时接受其他利益相关方的通知,经分析判断流程后,予以屏蔽、制止或断开链接,必须通过人工干预的底线思维方法确保模型安全。

当前,GPT模型的根本性原理仍在持续研究,GPT 模型构建方有义务提醒用户在人身安全、医疗建议等重大事项领域谨慎使用输出结果。另外,为清晰化GPT模型安全治理目标,相关工程技术人员、研究人员和政策制定方需形成合力,设立包括算法公平、隐私保护及商业道德的准则,制定相应法规和技术标准。

4 结束语

在人工智能领域,超大规模生成式预训练语言模型已得到广泛应用。快速发展伴随着多方面风险,在应用中,GPT模型已暴露出算法歧视挑战社会认知、虚拟信息混淆真假边界、交互行为泄漏用户数据、恶意诱骗辅助网络犯罪等多例风险。为提升GPT模型的安全性和可靠性,本文构建了一套从项目管理七个维度及模型工程实现三个阶段,多维度、多角度开展评估,发现风险并开展安全治理的方法,已运用于对某GPT类模型分析评估中。

当然,GPT模型相关技术不断推陈出新,本文基于已有范式的评估方法可能不适用于迭代后的新技术;本文中结合内部信息与外部分析的评估方法需要模型构建方的深度配合。此外,本文中的GPT模型评估方法以定性风险发现为主,对评估者自身能力要求较高,尚无法直接转化为标准化定量操作指南。因此,我们对GPT模型安全风险要保持关注,与时俱进,不断修正改进评估方法及治理措施,为GPT模型应用安全提供有力保障。

猜你喜欢

治理机制安全风险
变电站倒闸操作的安全风险与防范措施探讨
会计电算化系统的安全风险及防范
浅谈县级供电局电力调度管理和安全风险的控制
德国人的“工匠精神”是怎样炼成的
安置农民参与社区公共环境治理机制构建
论思政课对大学校园网络谣言的防范及治理机制