APP下载

基于单词替换的文本对抗样本攻击

2022-08-28张影

现代信息科技 2022年10期
关键词:扰动语义样本

张影

(安徽理工大学 计算机科学与工程学院,安徽 淮南 232001)

0 引 言

近年来,有研究发现在自然语言处理(Natural Language Processing,NLP)领域中,机器学习(Machine Learning,ML)模型容易受到一些合法但带有微小扰动输入所影响。这种影响会使得模型受到欺骗,做出错误的决策,而人类往往无法感知,这也引起了人们对其在文本分类、有毒内容检测、情感分析等方面的安全性和完整性的高度关注。有研究指出,对抗样本的质量与模型的鲁棒性和泛化性能有密不可分的关系,因此越来越多的关于文本对抗样本的研究专注于提高其质量。

虽然对抗样本的研究早已在图像领域涉及,但是在NLP领域的发展也不过六七年的时间,并且由于文本数据的离散特性,文本对抗样本的生成仍是个的挑战。现有的NLP 攻击方法根据扰动粒度的大小可分为字符级攻击、单词级攻击和句子级攻击三大类。在字符级对抗攻击中,通常是对字符进行增加字符、删除字符、交换字符等操作对文本进行扰动。Gao 等人在基于黑盒设置下进行攻击。他们首先利用设计的评分函数对字符的重要性进行排序,再根据排序顺序对字符进行扰动。然而,字符的修改很大程度上会出现语法错误、语句不通顺的情况。句子级攻击方法主要通过对原始句子进行转述从而产生扰动。Iyyer 等人利用将输入样本进行转述的方式达到对抗攻击的效果。而这种对句子整体进行扰动的方法往往样本的修改幅度较大,容易被察觉。单词级的攻击方法相对以上两种攻击方法来说,对抗样本的语法正确性、语义相似性有所提升以及文本的修改率相对较小。Ren等人用输入样本中单词与之相对应的同义词进行替换生成对抗样本,很好地保持了语义的一致性并且具有相对较低的单词替换率。Jin 等人在两种NLP 任务上进行攻击,先对单词重要性进行排序再对候选词进行余弦相似度、词性检查、语义相似度筛选工作生成质量良好的对抗样本。

然而现有的单词级的扰动大部分是通过WordNet 搜索空间得到,能够搜索到的同义词的数量有限,不一定能找到合适的候选词。HowNet是基于义原形成的数据库,可以找到更多与语义有关的词。因此,本文利用HowNet 语义知识库寻找原始样本中单词的替换词,再对替换词进行多次过滤保留适合的替换词,以此生成有效的对抗样本。

1 方法

1.1 定义

1.1.1 文本对抗样本

给定一个包含个样本的语料库数据集={,, …,x}和相对应的一组类别标签={,, …,y}及一个预先训练好的文本分类模型:→,它将输入样本语料库映射到标签集合。对于样本∈,若要生成一个有效的对抗样本x,应满足(x)≠()=且x=+Δ的约束条件,Δ为添加的不可感知的扰动。图1为文本对抗攻击示意图。

图1 文本对抗攻击示意图

1.1.2 义原

第一,全面向污染宣战,成效显著。国务院先后发布实施大气、水、土壤污染防治三大行动计划,生态环境状况明显得到改善。《大气十条》顺利收官,全面完成空气质量改善目标,京津冀、长三角、珠三角等区域PM2.5平均浓度分别下降39.6%、34.3%、27.7%。其中,北京超额实现“京60”目标,珠三角区域PM2.5平均浓度连续三年达标。全国地表水优良(I-III类)水质断面比例增至67.9%,劣Ⅴ类降至8.3%。36个重点城市建成区的黑臭水体已基本消除。全面开展土壤污染状况详查,完成基本农田划定工作,城市生活垃圾无害化处理率达97.14%,农村生活垃圾得到处理的行政村比例达74%。

1.2 生成对抗样本

在这一节中,将详细介绍本文攻击方法。具体来说,此攻击可以分为三个步骤:单词的重要性排序、生成候选替换词和攻击目标模型。在每次迭代中,攻击首先从原始文本中选择一个单词,然后用与它有同一义原的单词替换选定的单词,以构建一个对抗样本。本节的其余部分将详细介绍本文方法的攻击。图2展示了本文攻击算法示意图。

图2 本文攻击算法示意图

统计学处理 整理数据用Excel 2007软件,数据处理用SPSS 19.0软件,计数资料用百分数(%)表示,组间比较用χ2检验,等级资料采用Mann-Whitney 检验比较,P<0.05为差异有统计学意义。

脑梗死形成的主要原因包括有动脉管壁病损、血流动力学出现异常、血液成分改变等,血液粘滞性高,是脑梗死的主要危险因素[1]。彩色多普勒超声和颈动脉血管超声在临床中为常用的影像学诊断方式,本次主要探究彩色多普勒超声+颈动脉血管超声联合在诊断中的应用价值,研究如下:

(1)词性(part-of-speech,PSO)过滤器。在NLP 任务中,一个基本任务是识别样本中单词的词性,借助词性标注器把它们分为动词、形容词、名词等10 种词性。为满足对抗样本的语法结构和流畅性,引入了PSO 过滤器,它可以清除掉C中与原始输入文本中词性不一致的候选词,只保留词性相同的候选词,从而保证样本的语法结构不被破坏。

这种生成候选替换词方法与基于同义词替换方法相比前者不仅能够找到更多的候选词,还可以在候选词的数量和质量之间实现更好的平衡,由此可保留更多潜在的对抗样本。

重要性分数越高对分类结果的影响就越高,根据单词的重要性对单词进行排序。此外,为保证生成的对抗样本语法被破坏,借助停用词集过滤掉像“in”“are”等对分类结果不起作用的没有实际意义的词。

义原作为人类语言学中的最小语义单位,不可分割,用于解释单词隐含的词语信息。即一个单词的含义可以用其义原的组成来表示。知网(HowNet)是最有名的一个义原知识库,早以被应用于像情感分析、反向词典、词语表征学习等多个NLP 任务中。它已经为超过100 000 个英语单词和汉字进行注释,维护了16 种语义关系,而仅用了2 134 个义原的预定义集合。

为原始输入文本中的单词生成替代后候选词是生成扰动的关键步骤,因为它会显著影响对抗样本的攻击成功率及其生成质量。在此过程中采用基于义原的单词替换方法,由义原的定义可知,它是指能够准确表述某个单词的含义,因此若多个词被同一义原注释,可直接互为替换。例如,单词“movie”在HowNet 中的注释为“produce”“shows”,而具有同样注释的单词有“picture”“film”和“cinema”,这三个单词就是单词“movie”的候选替换词。通过这种方式,为单词w建立一个候选替换词集合C,每一个候选替换词用w表示。

(3)语法检查过滤器。为了进一步维护对抗样本的语法正确性,采用已有的语法检查器去除可能会导致文本语法错误的候选替换词w

在执行攻击目标模型时,按照公式(3)计算得到单词w的替换顺序,用原始单词相匹配的候选词w与之替换,并迭代的执行此操作,直到分类标签改变即攻击成功,或者替换词数量达到上限即攻击失败。在本文中,替换上限为原始样本中单词能被修改的比例,设置为阈值。

其中,为原始输入的干净样本,′为干净样本通过替换未知标记“UNK”得到的。对于干净样本的每个单词的重要性得分由无标记依存正确率(UAS)和带标记依存正确率(LAS)的变化计算得到的。如式(3)计算所示:

(2)词嵌入相似性过滤器。对于每一个替换词wC,通过反拟合方法将语言约束注入到向量空间中,计算单词w与候选词w之间的余弦相似度,并过滤掉余弦相似度小于阈值ε的词。

上式中,UAS 表示标记关系的正确率,LAS 表示标记关系和关系标签都相对应的正确率,Δ(,)表示UAS 的变化,Δ(,)表示LAS 的变化,是控制依赖弧及其标签的相对重要性的系数。

输入:原始样本x=ww,…,w,…,w,替换上限,目标模型

1.2.3 攻击目标模型

对于对抗样本而言,最根本的目的是成功攻击目标模型使其判断错误。然而,为了生成质量良好的对抗样本,仅误导模型分类错误还远远不够,还需要满足单词的正确性、语法的正确性以及语义的相似性,这样才不容易被人类察觉。因此,对于每一个候选替换词w,采用不同种类的过滤器过滤掉不能满足要求的词,旨在生成攻击成功率较高且不易感知的对抗样本。

(4)困惑度过滤器。借助GPT-2 计算候选替换词w的和 ix之间的困惑度差值,并给其设置一定的阈值。其中,x为样本语句中第个单词被w替换后的文本。

算法:基于单词替换的文本对抗样本攻击算法

输出:对抗样本x

2 实验分析

2.1 实验环境

本文实验的主要环境采用Windows10、Python3.7,深度学习模块使用PyTorch1.4,具如表1所示。

表1 实验环境设置

在文本分类任务中,数据集选用PTB-SD-3.3.0。在该文本数据集中使用第2 ~21 节作为训练集,第22 节作为开发集,第23 节作为测试集。目标模型选用两种解析器:Biaffine 解析器和Stack-Pointer 解析器。对于相同的数据集和目标模型,选用DepAttack 攻击方法与本文方法进行比较。

2.2 评估指标

一个有效的对抗样本不仅要使得模型错误预测分类标签,还应不易被感知。为满足约束条件,从两个方面评估对抗样本的质量,分别为对抗样本分类精度(Classification Accuracy,CA)和困惑度(Perplexity,PP)。其中分类精度为被模型正确分类对抗样本占输入原始样本的比例,值越小误导模型判断力的能力越强,也就越有效;困惑度用于衡量对抗样本的流利程度,值越小越贴近人类是叙述手法越不易被察觉。

其中,success_count 为攻击目标模型成功的对抗样本的数量,sum_count 为输入模型的干净样本的总数量。

2.3 自动评估结果分析

根据如上的实验设置,在自动评估方面的主要结果如图表2所示。相较于DepAttack 方法,本文所采用的方法使得对抗样本的分类准确率(CA)和困惑度(PP)都有所下降。如前所述,两者的值越小,对抗样本质量越高。此外,#word 表示样本单词替换数量的平均值,表示着对抗样本与原始样本的相似度,反映被人类感知的轻易程度。由表2可知,本文方法替换的单词数量更少,与原始样本更接近,隐蔽性也就越强。

表2 自动评估结果

2.4 人工评估及案例分析

在人工评估中,从数据集中随机抽取100 个原始样本,生成相对于的对抗样本并对两者重新组合为一个新样本集。由5 位通过国家英语四级等级考试的志愿者根据Likert 量表对每个对抗样本进行打分(1 ~5):是对抗样本为1 分,可能是对抗样本为2 分,保持中立态度为3 分,可能是原始样本为4 分,是原始样本为5 分。结果如表3表示,两种方法都比较接近原始样本,但本文方法更胜一筹。也就是说,从人类角度来看,大多数的对抗样本与原始样本具有相同的属性,会更不容易被发现。

表3 人工评估结果

如图3中,显示了本文方法与DepAttack 方法生成对抗样本示例。从表中可看出本文方法生成的对抗样本质量更好,更有效。

图3 对抗样本示例对比

3 结 论

本文通过利用HowNet 搜索寻找更多的替换词,再经过词性、相似性、语法检查和困惑度过滤后生成单词级的扰动,产生良好的攻击效果。在自动评估和人工评估下的结果表明本文方法同时保持了较小的对抗样本分类精度和困惑度,证明了该方法的有效性。

猜你喜欢

扰动语义样本
一类五次哈密顿系统在四次扰动下的极限环分支(英文)
韩国语“容入-离析”关系表达及认知语义解释
基于扰动观察法的光通信接收端优化策略
直击高考中的用样本估计总体
随机微分方程的样本Lyapunov二次型估计
基于支持向量机的测厚仪CS值电压漂移故障判定及处理
天津大神堂海洋特别保护区生境修复初步评价
带电的标量场扰动下ReissnerNordstrm Antide Sitter黑洞的不稳定性
七年级数学下册期末检测题(B)