基于全局-局部自注意力网络的视频异常检测方法
2023-09-19杨静吴成茂周流平
杨静,吴成茂,周流平
(1.广州铁路职业技术学院信息工程学院,广东 广州 510430;2.菲律宾圣保罗大学,土格加劳 3500;3.西安邮电大学电子工程学院,陕西 西安 710121)
0 引言
视频异常检测中的“异常”与“正常”通常是相对立的。一般而言,相比于正常事件,异常事件的类型是不可穷举的,并且不频繁发生,难以收集。因此,视频异常检测不仅在学术界具有非常重要的研究价值,在工业界也拥有广阔的应用前景[1-2]。近年来,随着视频监控、故障检测系统、智慧交通及智慧城市等的快速发展,视频异常检测变得尤为重要,视频异常检测的问题得到了国内外学者的广泛关注。在视频异常检测中由于场景和任务属性不同,对异常的定义也不尽相同,Saligrama 等[3]对视频异常检测进行了较准确的定义:视频异常可认为是异常外观或异常运动的属性,或是在异常位置或时间出现正常外观或正常运动属性。在异常检测中,正常数据一般遵循目标类分布,异常数据则是分布外或难以获取的样本。视频异常检测的主要任务是检测出不符合预期规律的罕见样本或从未发生过的突发性事件,而对于这些事件的划分并没有明确的界限和标准。具体而言,根据异常检测应用场景的不同,异常类型的界定和划分也会随之改变,如果用分类的方法解决所有异常事件,则工作量将非常大,难以达到良好的性能。因此,对异常事件的准确检测面临各种挑战,具体表现如下。1) 异常事件的划分因场景而异[4-5],同一行为在一种任务场景中是正常的,但在另一种任务场景中可能会被判定为异常。2) 异常事件的类型是不可穷举的,对异常事件进行人工标注的工作量非常巨大。3) 一些正常事件与异常事件非常接近,使其区分具有很大的难度。
随着深度学习在动作识别[6-8]、跟踪[9]、轨迹预测[10]、目标检测[11-13]等领域取得成功,视频异常检测得到了大力实践与发展[14-19]。近几年关于视频异常检测的研究主要集中于无监督学习,即在训练模型时仅使用正常样本。首先,通过一分类,进行图像重建/预测,或使用其他自监督学习方式对正常样本进行建模;其次,通过识别不同于训练模型的分布来检测异常。在异常检测中,由于异常数据和正常数据分布不均,呈现长尾分布的特点。因此,相比于有监督学习,无监督学习对视频或图像的异常检测更加合理和有效。基于无监督的深度学习方法不仅易于获取训练的正常样本,而且不需要使用真实的异常样本;无监督的学习范式克服了有监督学习中无法预知异常的问题,因此,拥有更强且有效的特征表达能力。
重构误差作为模型重构能力的评估指标,已被广泛应用于异常检测技术领域[20-22]。重构误差的基本假设如下:一方面,由于正常样本更接近正常训练的数据分布,因此重构误差较异常样本会更低;另一方面,对于非正态分布样本,其假设或预期重构误差会更高[15]。通常基于自动编码器的方法使用重构误差作为识别异常的指标。在传统方法中,为了在卷积神经网络中处理视频序列,将每个图像帧视为具有灰度通道的2D 图像[23];然后,将这些灰度帧按照时间顺序堆叠在一起,形成一个新的2D图像,其中第三维度由这些堆叠的灰度帧组成。通过这样的堆叠方式,模型可以同时对空间和时间信息进行编码并实现重构。
由于长短期记忆(LSTM,long short term memory)网络能够学习数据的长期依赖关系,Medel等[24]利用卷积长短期记忆网络进行异常检测,并将该问题定义为重构类型。尽管不是完全的自动编码器,但他们的方法使用了编码器-解码器结构,即给定视频帧的输入序列,卷积长短期记忆网络沿着空间和时间维度提取相关特征;最后,经过解码器并计算重构误差。Hasan 等[25]在第三维度通过堆叠视频帧形成时间立方体,保留必要的时间信息,但这样保留下来的时间信息非常有限。为了解决这个问题,Zhao 等[26]提出通过3D 卷积保留时间信息,并增加数据来改善样本密度,进而提高检测性能。基于以上工作,Gong 等[15]通过实验测试发现,一些异常事件的重构误差和正常事件的重构误差非常接近,主要是因为自动编码器中卷积神经网络较强的泛化能力,使接近正常的异常事件也被重构出来。为了解决这个问题,Gong 等[15]引入了一种能够将编码特征存储到内存中的自动编码器,即编码器不直接将编码反馈到解码器,而是将编码视为查询,该查询预期返回内存中最接近的正常模式,将该模式用于解码。这样,在重构异常的情况下,由于内存中只含有正常的内存项,因此其重构误差会很高。
近年来,注意力模型被广泛应用于自然语言处理、图像和语音等领域,神经网络的可解释性也被引入无监督的异常检测中。Liu 等[27]使用了类似grad-CAM(gradient-weighted class activation mapping)[28]的方法将基于梯度的注意力机制推广到变分自动编码器(VAE,variational autoencoder)模型。Venkataramanan 等[29]提出了一种带有注意力引导的卷积对抗变分自动编码器,利用隐空间变量保留的空间信息进行异常定位,并且根据文献[27]的思想生成注意力图,期望在训练时,注意力图可覆盖整个正常区域。Kimura 等[30]利用生成对抗网络(GAN,generative adversarial network)中判别器的注意力图来抑制图像背景造成的异常检测干扰,有效提升了异常检测模型的鲁棒性。
在数据特征提取的过程中,通常使用卷积来对图像的高维特征信息进行提取,然而卷积操作无论在时间还是空间上均为局部操作。若要获取全局的特征关联性和建立长距离的依赖关系就要构建深层的网络卷积,随着网络深度的增加与卷积块的增多,网络训练的难度增大。因此,单纯的卷积操作对图像的全局信息提取存在一定的局限性。而全局-局部自注意力不仅关注图像局部特征的关联性,还关注特征之间长时间的依赖关系。本文拟采用一种编码器-解码器结构的U-Net,将RGB 图像与视频序列2 种模态信息进行混合编码以突显物体的运动变化,两者共享解码器,得到的特征图通过全局-局部注意力网络处理后再反馈给解码器,从而进行视频异常检测。若解码得到的图像与真实图像差异较大,则表明有异常事件发生,反之则为正常。本文主要工作如下。
1) 采用“双编码器-单解码器”的编解码混合结构,充分利用原始视频的多维信息,并通过自注意力模块实现有效的解码,从而使模型能够准确表示和理解视频数据。
2) 使用多源数据作为输入,充分利用运动和外观信息的互补,并综合考虑不同信息源以全面分析视频数据,从而更加准确地识别异常行为。
3) 提出一种基于全局-局部自注意力机制的视频异常检测方法,通过全局-局部自注意力机制综合考虑整体和局部的时序相关性,能够更好地理解视频序列中不同时间尺度的连续性,并保持局部上下文信息的一致性。
4) 对UCSD Ped2、CUHK Avenue 和ShanghaiTech数据集进行测试,实验结果表明,本文方法的检测精度分别达到97.4%、86.8%和73.2%,而且与现有方法相比,本文方法明显提升了视频异常检测的能力和鲁棒性,为视频异常检测的深入研究和实际应用提供了一定支撑。
1 相关工作
1.1 异常检测
许多现有工作将异常检测表述为无监督学习问题,在训练时使用正常数据,并通过重构或判别的方式描述模型的正态性。其中,重构模型将正常数据作为输入映射到某个特征空间,再从特征空间将正常数据映射回输入空间,如自动编码器(AE,autoencoder)[31]、稀疏字典[32]和生成模型[33]。判别模型表征正态样本的统计分布并获得正态实例周围的决策边界,例如,马尔可夫随机场(MRF,Markov random field)[20]、动态纹理混合(MDT,mixture of dynamic texture)[34]、高斯回归[35]和一分类问题[36-37]。然而,这些方法对具有复杂分布的高维数据,如图像、视频等的检测效果欠佳。本文拟采用无监督的深度学习方法进行视频异常检测。
1.2 注意力机制
在深度学习中,模型的参数越多所含信息量越丰富,表达能力也越强,但这也会导致信息量过大的问题。通过引入注意力机制,可快速高效地筛选出高价值的特征信息,使检测模型能更准确地聚焦于关键信息,避免无用信息对模型的干扰,从而克服信息量过大的问题,并提高模型对任务处理的效率和准确性。Purwanto 等[38]在低分辨率视频中利用双向自注意力捕捉长期的时间依赖关系,以此进行视频动作识别。Zhou 等[39]通过注意力图来解决异常检测中前景与背景不平衡的问题,通过对前景和背景赋予不同的权重,使模型更注重前景,并对训练数据中的背景进行有效抑制来提升异常检测性能。Hu 等[40]在自动编码器中引入循环注意力机制,并将其构建为一个循环注意力单元,使模型能够在新场景中具有快速适应能力。Yang 等[41]通过将Swin Transformer 设计为具有双向跳跃连接的U 型结构的网络,并在跨注意力和时序上采用残差跳跃连接来进一步辅助还原视频中复杂的静态和动态运动目标特征。
1.3 基于重构和预测的方法
预测模型的目的是将未来的输出帧建模为基于过去若干视频帧的函数,如GAN 生成未来帧。GAN 主要由两部分组成,一是生成器,模拟原始数据分布;二是判别器,给出来自生成器输入的概率。基于U-Net 在图像到图像转换方面的出色表现,Luo等[42]利用类似GAN 的生成器-判别器结构,将其作为网络的生成器来预测未来帧,并通过网络末端的判别器确定预测帧是否异常。通常假设正常事件是可以预测的,而异常事件则无法预测。Park 等[16]提出了一种在U-Net 结构下,通过编码器-解码器间的记忆模块所记录的各种正常模式,对未来帧进行预测的方法。同时,Yu 等[43]受到在语言学习中完形填空形式的启发,通过时间维度的上下文和模态信息来建立多个模型,分别预测视频中的视频帧或视频流。鉴于在实际场景中异常的复杂性,Liu等[44]提出了一个集成光流重构和视频帧预测的混合框架来进行视频异常检测。首先,在自动编码器中使用多层级记忆模块存储光流重构的正常模式,以便在光流重构误差较大时准确地识别异常事件。其次,在重构光流条件下,通过条件变分自动编码器(CVAE,conditional variational autoencoder)捕捉视频帧和光流之间的高相关性,以便预测未来帧。
在目前主流的异常检测工作中,对正常数据的特征进行重构是较常用且直观的方法。Nguyen 等[17]提出了重构和光流预测共享编码器的网络模型,虽然模型充分学习了物体外观和运动信息的对应关系,但由于光流的计算对资源要求高,整个模型的计算成本较高。在无监督深度学习方法中,AE[31]作为异常检测的常用方法,其对高维数据(如图像、视频等)具有很强的建模能力。基于AE 的方法通常假设能够重构正常样本,而不能重构异常样本。但由于AE 的泛化能力过于强大,以至于异常样本也能被很好地重构,因此为了降低AE 中卷积神经网络(CNN,convolutional neural network)的泛化能力,Chang 等[45]构建了一种将空间和时间信息解耦为2 个子模块的自动编码器结构,两者同时学习时空特征信息,以提高检测性能。Le 等[46]提出了一种基于残差注意力的自动编码器进行视频异常检测,通过在解码器内引入通道注意力机制对未来帧进行有效预测。由于自动编码器在重构时,缺少对图像某些重点区域编码信息的动态掌握,造成重构时视频帧内容的上下文信息缺失,进而导致模型性能下降。为了解决上述问题,本文基于预测的方法进行异常检测,其主要思想是根据先前若干帧的特征变化来预测当前帧,并在测试阶段将预测出的当前帧与对应的真实帧进行对比,如果两者的预测误差较大,则表明存在异常。这样既充分考虑了正常样本的多样性,又抑制了CNN 强大的泛化能力。
2 视频异常检测
2.1 基本原理
本文通过对未来帧的预测进行无监督的视频异常检测。受到重构方法的启发[15-16,47],将预测视为使用之前的若干帧或连续视频序列来进行未来视频帧的重构,因此,本文以一种预测的视角对未来帧进行重构,并采用U-Net[48]为基础网络框架,进行视频异常检测。全局-局部自注意力网络主要由三部分组成:双编码器、全局-局部自注意力模块、解码器。整个网络均采用端到端的方式进行训练,网络的整体框架如图1 所示。在输入之前,需要进行简单的数据预处理,即生成与原始图像相对应的RGB 图像。首先,输入t帧的视频序列和对应的RGB 图像,经过编码器编码后,得到2 个对应的特征图;然后,将特征图通过按位相加进行融合,将融合后的特征图送入全局-局部自注意力模块进行处理;最后,将处理好的特征图反馈到解码器进行解码,从而进行视频异常检测。
图1 网络的整体框架
2.2 双编码器-单解码器结构
本文提出的双编码器结构能够很好地对输入图像中的外观和运动信息同时进行学习,并共享一个解码器。本文采用U-Net 结构,为了避免梯度消失和信息不平衡,U-Net 在高层和低层语义信息之间加入跳跃连接。在原来U-Net 框架的基础上,本文将网络深度从4 层增加到5 层。此外,受ResNet 结构的启发,本文在模型的主干网络中使用残差模块来代替U-Net 中的标准卷积模块,但检测效果较差,其原因有两点:其一是U-Net 整体规模较小,网络没有达到一定深度,使残差模块没有发挥应有的作用;其二,模型训练数据不足,使残差模块得不到充分的训练。
给定编码器t帧视频序列xclips={I1,I2,…,It},得到大小为H×W×C的编码特征图M,其中,H、W和C分别表示特征的高、宽和通道数。
其中,θ为编码器fe(·) 的参数。M经过全局-局部自注意力模块得到特征图M′,并将其反馈到解码器进行解码,即
其中,α为解码器fd(·) 的参数。
预测未来帧的损失函数Lpre和RGB 损失函数LRGB可分别用L2 损失函数表示为
2.3 全局-局部自注意力模块
根据视频分析和视频理解中注意力机制的相关运行原理[21,49-50],本文利用全局-局部自注意力模块捕捉时间维度的全局和局部依赖性。膨胀卷积通常应用于空间维度,其主要作用是在同等分辨率的条件下,通过增大卷积的感受野来获得更多的特征信息。本文使用膨胀金字塔卷积,来捕捉视频片段在时间维度上的多尺度依赖性,从而进一步提高视频异常检测性能,全局-局部自注意力框架如图2所示。
图2 全局-局部自注意力框架
局部自注意力模块从编码器中得到编码特征图M={m1,m2,…,mi,mC},然后对M进行卷积操作,在局部自注意力部分主要有三层膨胀卷积操作,即 {PDC1,PDC2,PDC3},其对应的膨胀因子d分别为{1,2,4}。其数学形式为
其中,Dl表示第l层的卷积操作,mi为特征表达。
全局时序依赖主要通过一个自注意力模块实现,其性能已在视频理解、图像分类、目标检测等多个下游任务中得到验证。通过全局自注意力的作用,将距离相对较远的特征像素点建立一种依赖关系,使全局的特征关联性更加紧密。首先,对特征图M进行1×1卷积处理,得到3 个尺寸和特征相同的特征图Mc(c∈{1,2,3}),将特征图M1和M2的转置进行运算,得到时空关系映射矩阵F,即F=(M1)(M2)T,Fij表示在位置i和位置j的关联程度,其数值大小代表了关联性的紧密程度,然后将F与M3进行卷积操作,得到F′=Conv1×1(FM3),将F′与原始特征图M通过跳跃连接相加得到FSA,其中FSA=F′+M。
2.4 损失函数
为了最小化预测帧和真实帧之间的差异,本文使用了强度、梯度和时序图像差异作为约束。强度约束比较两帧之间每个像素的值,保证RGB 空间的像素值在整个画面中是相似的。梯度约束比较两幅图像相同位置像素值的梯度,并对生成的帧进行锐化。其梯度损失函数为
其中,i和j表示像素值的索引位置。在设计梯度损失函数的过程中,本文使用L1损失函数作为梯度损失,通常情况下能够得到清晰的图像,并且在训练过程中能够更好地被优化。
对于整个网络模型而言,其整体的损失函数为
其中,λ、μ、ν为超参数。
2.5 异常得分
在最初假设不变的情况下,即模型能够很好地预测正常事件,本文使用预测帧与真实帧I之间的差异来进行异常预测。均方差(MSE,mean square error)是一种衡量预测图像质量的较常用的方法,其主要思想是通过计算RGB 图像空间中所有像素的预测值与其真实值之间的欧氏距离。Mathieu 等[51]证实峰值信噪比(PSNR,peak signal to noise ratio)能够很好地对图像质量进行评估,计算式为
其中,maxi表示图像的最大像素值,表示真实图像与预测图像的像素之间的均方差。PSNR 越高表明该视频帧是正常的可能性就越大,在计算完每帧的PSNR 之后,将这些数值归一化到[0,1]内,并计算每个视频帧的异常分数为
3 实验结果与分析
本节使用3 个公开的异常检测数据集测试所提方法以及不同模块的功能,包括UCSD 行人数据集[34]、CUHK Avenue 数据集[52]和ShanghaiTech数据集[53],并对实验结果进行定性和定量分析,以便验证本文方法的有效性。
3.1 数据集
1) UCSD 行人数据集
UCSD 行人数据集由Mahadevan 等[34]创建,包含2 个子数据集UCSD Ped1 和UCSD Ped2,该数据集主要通过学校中固定在较高位置的摄像机俯瞰拍摄获得,且人行道的行人密度是由稀疏到稠密不断变化的。UCSD Ped1 中主要包含34 个训练视频和36 个测试视频,其分辨率为238 像素×158 像素。UCSD Ped2 主要包含16 个训练视频和12 个测试视频,其分辨率为360 像素×240 像素。
2) CUHK Avenue 数据集(简称Avenue数据集)
CUHK Avenue 数据集[52]采集于香港中文大学(CUHK)校园,数据集中人物的尺寸会因为摄像机的位置和角度而改变。其中共有47 个异常事件,主要是行人的异常动作及抛物、异常的奔跑等。该数据集包含16 个训练视频和21 个测试视频,共30 652 帧(包括15 328 个训练帧和15 324 个测试帧)。
3) ShanghaiTech 数据集
ShanghaiTech 数据集[53]是根据已有数据集的固有缺陷所提出的,即缺乏场景和视角的多样性。数据集包含了437 个校园监控视频,在13 个复杂光照条件的应用场景中有130 个异常视频,由于数据集提出的最初设定是用于无监督学习,因此,异常事件均包含于测试集中。
3.2 评价指标与实验设置
本节实验使用视频异常检测中最常用的评估指标,即接受者操作特征(ROC,receiver operating characteristic)曲线、曲线下面积(AUC,area under curve)和等错误率(EER,equal error rate)。AUC不关注具体的正负样本得分,只关注整体结果,因此,它能够有效避免在阈值选择过程中因经验设定而产生的主观性,特别适合于正负样本不均衡任务的性能评估。EER 是错误接受率(FAR,false acceptance rate)和错误拒绝率(FRR,false rejection rate)相等时的错误率,也是ROC 曲线与对角线的交点。模型性能越好,AUC 越高,EER 则相反。根据文献[15,44,47]的实验要求,本文实验使用NVIDIA GeForce RTX 3090 GPU 进行端到端的训练和测试,网络模型使用Pytorch 深度学习框架实现,并使用Adam 随机梯度下降来进行参数优化,学习率为1×10-4,使用AUC 对检测模型的性能进行判别。
3.3 方法比较
本节将所提方法与基于手工特征的方法以及基于深度学习的方法进行比较,对比方法如下。1) 基于手工特征的方法:MPPCA[20]、MDT[34]、DFAD[54]。2) 基于深度学习的预测方法:Conv AE[30]、ConvLSTM-AE[55]、TSC[53]、MNAD[16]、IPR[47]等。表1 列出了不同方法的AUC,对比方法的性能均是从其对应文献中获得的。
表1 不同方法的AUC
从表1 可知,所提方法的异常检测精度优于大多数对比方法,在 USCD Ped2、Avenue 和ShanghaiTech 数据集上的AUC 分别为97.4%、86.8%、73.2%,主要得益于其对编码器的特征分别进行了全局和局部的细节处理,使模型性能有了很大的提升。与IPR[47]相比,本文方法在3 个数据集上的AUC 均高出1%~3%,虽然IPR 中使用的网络结构也基于编码器-解码器结构,但缺少对物体外观和运动特征等信息的处理;同样地,MNAD[16]也没有对物体外观和运动信息进行有效处理,而本文方法中加入了RGB 图像的输入,用来增强视频序列的上下文信息,RGB 图像的信息量与光流特征大体相当,但会节省存储空间并加快学习速度,MNAD 中增加了记忆项,存储了丰富的正常事件的原型,使模型在Avenue 数据集上的性能比本文方法高1.7%,由此可见,原型学习对无监督视频异常检测任务的研究提供了新的思路,对后续研究有一定的推动作用。与文献[42]相比,本文不仅在模型中加入了运动、外观和上下文信息的相关处理,也在基础网络上增加了网络的深度,使网络的整体性能有所提升。本文方法与USTN-DSC[41]都采用了注意力机制,但在AUC 方面,USTN-DSC 表现出较好的性能,这主要是因为USTN-DSC 使用了目前最先进的视频处理架构Swin Transformer,并在时序和注意力中融入了残差连接,能够更好地传递和利用信息,使其性能有了较大提升;此外,HSC[56]采用了一种全新的思路,即引入场景感知的概念进行异常检测,并取得了令人满意的效果,这为解决视频异常检测问题提供了另一种思路和方法。综上分析,在视频异常检测上,本文构建的全局-局部自注意力网络有效性得到了验证。
3.4 消融实验分析
本文对模型中所涉及的主要模型组件进行了定量分析,模型组件在UCSD Ped2 和Avenue 数据集上性能对比如表2 所示。增加全局注意力模块后AUC 仅有小幅提升,在UCSD Ped2 上AUC 提升了0.7%,主要是因为将数据降维编码后,数据的高维特征丢失较多,使全局特征处理受限;而在局部注意力中,现有的编码特征将信息处理的重点放在了细节处理上,使模型性能明显提升,在UCSD Ped2 上性能提升了1.6%。实验结果表明,将全局-局部自注意力模块加入模型后在UCSD Ped2 上的检测效果达到最优,为97.4%。
表2 模型组件在UCSD Ped2和Avenue数据集上性能对比
本文在其他实验组件不变的情况下,对模型架构的基础组件在UCSD Ped2 数据集上进行了测试和性能分析,具体如表3 所示。通过加深基础主干网络的深度,使网络的非线性表达能力更好,能够学习更复杂的特征变换,从而更好地拟合复杂的特征输入,主干网络的加深使模型检测性能提升了0.3%。与经典的单编码器-单解码器相比,本文采用的双编码器模式通过加入相比于光流更轻量化的RGB 图像,将原本单个模态的特征信息转变为2 种模态信息的有效融合作为输入信息,从而对特征提取起到了增强作用,尤其是对运动信息的加强,使模型性能相较于单编码器结构提升了0.8%。
表3 模型架构基础组件性能对比
3.5 可视化分析
本文分别将模型在UCSD Ped2 和Avenue 数据集上的测试结果进行了可视化分析。图3 展示了在UCSD Ped2 数据集上正常帧和异常帧的检测结果,其中具有异常行为的目标物体已用方框进行了标注,图3 中的可视化结果主要为了突出显示异常事件发生的位置,将可视化后的原始彩色图转换为黑白图后,正常帧与异常帧的差别非常明显。在正常帧情况下,没有异常发生,此时的异常分值曲线图处于较高位置,对应于图像时,其色彩过度较平缓,被检测物体间的色彩差异大致相同,如图3(a)所示,在人行横道上的正常情况为正常行走的路人;当有异常发生时,发生异常的位置会显示高异常色彩,如图3(b)所示,方框标注处为高异常,即有人在人行横道上骑自行车和玩滑板。图4 展示了Avenue数据集测试视频的异常得分。当行人正常行走时,异常得分处于较高位置,而有人向空中抛掷杂物时,则被判定为一个异常事件,此时异常得分会急剧降低,且异常行为越突出,异常得分越低,这表明本文中的模型能够有效检测到异常事件的发生。
图3 UCSD Ped2 数据集上正常帧和异常帧的检测结果
图4 Avenue 数据集测试视频的异常得分
4 结束语
本文提出了一种基于全局-局部自注意力网络的视频异常检测方法。该方法采用无监督学习方式,通过加深U-Net 的网络深度、添加多尺度局部注意力模块和全局自注意力模块,以及在数据输入时添加RGB 图像,增强了模型对视频序列中物体运动、外观等信息的处理能力和鲁棒性。实验结果表明,本文方法在不同应用场景的数据集上具有一定的泛化性和有效性。
CNN 方法通过多层叠加来获得全局信息,但随着叠加层数的增多信息量有所衰减,而Transformer中的自注意力机制克服了上述缺陷,使模型具有更强的表达能力,这将是本文未来的研究方向之一。在无监督的方法中,模型的训练通常建立在正常数据集上,如果将已知的异常类型作为重要的先验知识加入模型的训练,则对模型的鲁棒性和检测效果有较大提升。因此,如何将已知的异常类型作为先验知识融入模型的训练将会是本文下一步研究的重点。