基于TriLSTM-SVDD的ADS-B欺骗数据检测方法
2023-10-25董方正汪克念赵长啸
王 鹏, 董方正, 张 伟, 汪克念, 赵长啸
(中国民航大学,a.民航航空器适航审定技术重点实验室; b.安全科学与工程学院,天津 300000)
0 引言
广播式自动相关监视(Automatic Dependent Surveillance-Broadcast,ADS-B)目前已成为大多数空域的强制要求。ADS-B IN技术则是新一代空中交通防撞系统ACAS X与管制员、飞行员协同进行间隔管理的基础。但ADS-B技术的广播特性引入了信息安全风险,容易受到攻击,消息修改被认为是隐蔽性强且影响较大的攻击[1]。
针对ADS-B存在的信息安全风险,诸多措施陆续被提出,可分为广播验证和位置验证[1]两类。基于时序异常检测[2]的方法归属于位置验证,此类方法不需要修改协议,可应对合法无线电设备发出的含欺骗数据的报文,应用场景更为广泛。文献[3]和[4]分别使用VAE和BiGRU对ADS-B时序进行预测和评估,并使用支持向量数据描述(SVDD)与观测值比较进行判别;文献[5]使用seq2seq对时间窗口内ADS-B时序的统计特征进行预测,基于预测值和观测值通过计算重构异常分数进行判别。
本文叙述了从报文生成到被接收的过程,分析了ADS-B系统可能的攻击路径与攻击者的攻击意图,并比较了攻击者怀有某种攻击意图下选择攻击路径的可能性高低。为识别出通过各种攻击路径实施的消息修改攻击,本文使用LSTM模型进行时序预测,使用SVDD模型[6]对预测值与观测值之差进行判别。为提高模型性能,提出了ADS-B时序数据存在的几点模型难以进行学习的特点,并针对性地引入了特征提取等特征工程方法。
1 ADS-B系统安全分析
1.1 ADS-B报文传输过程
ADS-B系统组成如图1所示。根据RTCA DO-260B标准[7],航空器通过接收的GNSS信号计算自身当前的位置、速度等信息,ADS-B相关的机载设备通过机载网络接收来自飞行管理计算机等的航空器状态信息并整理,然后将接收到的状态信息以不同的报文类型向外广播,可供具备ADS-B IN功能的航空器、ADS-B地面站、星载ADS-B接收并掌握该航空器的状态信息。在8种报文类型中,空中位置和空中速度报文分别传输航空器的经纬高坐标和速度、航向、升降率信息,是进行空中交通管理的主要凭借,也是发送频率最高的报文类型。
图1 ADS-B系统组成
1.2 攻击路径与攻击意图分析
从ADS-B报文的生成、传输、发送到接收,相关信息依次通过GNSS链路、航空器机载网络与机载设备、1090ES链路。认为GNSS链路和机载网络同1090ES链路都是攻击者对ADS-B系统实施消息修改攻击的攻击路径。如果攻击者通过对GNSS链路欺骗攻击或是对机载网络入侵修改ADS-B报文传输信息,ADS-B报文信息在发送之前就被篡改,那么只针对1090ES链路的广播验证等方法无法应对此类情况。
攻击者通过消息修改等攻击手段实施欺骗攻击,欺骗攻击注入的虚假信息数据与航空器实际状态数据的差异程度在某种程度上反映了攻击的隐蔽性[8],如果攻击未被飞行员和管制员发觉,客观上导致了其空中交通态势感知能力削弱,增加了航空器冲突乃至碰撞的风险;而欺骗攻击数据与实际状态数据较大的差异尽管隐蔽性差,极易被飞行员或管制员发现,但会使飞行员和管制员耗费精力进行判断,甚至最终放弃使用ADS-B服务,使用一、二次雷达进行管制甚至实施程序管制,增大间隔要求,使空中交通更加阻塞。
文献[1]对攻击者进行了分类,提出以获取经济利益为目标的攻击者(主要为黑客),其目的是通过掺入虚假信息来触发冲突警告(但实际并未发生冲突)等方式,分散飞行员和管制员的精力,造成阻塞交通,进而进行敲诈勒索,他们具有有限的攻击能力与知识,为实现目标通常需要针对某特定空域范围内的多个航空器实施攻击;以恐怖袭击为目标的攻击者(主要为恐怖组织),其目的是利用ADS-B或整个空管系统漏洞,在安全距离内从地面攻击航空器,通过制造飞机相撞等实现恐怖袭击,此类攻击者有着更为充分的攻击能力与知识。
因此,上述两类攻击者具有不同的攻击目标、攻击意图(分别为阻塞交通和制造飞机相撞)与攻击实施能力,以阻塞交通为攻击意图的攻击者(主要为黑客)更倾向于选择容易被发觉、易于实现的攻击路径与方式实施攻击,而以制造飞机相撞为攻击意图的攻击者(主要为恐怖组织)更倾向于选择不易被发觉、能够使航空器偏离航线的攻击路径与方式。
2 检测算法设计
2.1 算法总体流程
以飞机相撞为意图的攻击者通过消息修改攻击注入的欺骗数据异于航空器的真实状态,欺骗数据在已知历史数据条件下表现为异常,基于此假设,本文将欺骗数据检测问题泛化为ADS-B时间序列异常检测问题,并设计了如下检测算法。
检测算法由TriLSTM预测模型与SVDD模型串联而成。其中,预测模型由3个并行的LSTM预测模型组成,分别对纬度、经度和高度3个维度进行预测。预测值与测量值的差值序列反映了数据偏离正常时序数据规律的程度,由于真实攻击数据稀缺且存在正负样本极不平衡的问题,本文采用可容忍正负样本极不平衡的SVDD模型识别差值序列中的异常数据即欺骗数据。本文攻击数据检测算法的总体流程如图2所示。
图2 本文检测算法总体流程
2.2 特征预处理、扩展与选择
ADS-B报文传输的位置、速度信息自身的一些特点使得模型难以进行有效学习。经、纬度数据存在取值范围大而变化量较小的问题(在数据集中随机抽取的一个航班数据中,纬度变化量绝对值的均值为0.003938376°,而其取值范围为-90°~90°,其比值不足万分之一);航向取值范围为0°~360°,但神经网络难以学习到航向这一特征0°与360°的等价关系;经度特征也存在东经180°(在数据中表达为180°)与西经180°(在数据中表达为-180°)等价的问题。为了应对以上问题,本文基于经纬高坐标特征提取出经纬高特征相邻两个时刻变化量特征以放大特征值的相对大小,计算航向的正弦值与余弦值以规避让神经网络模型学习“0°等于360°”。从物理意义出发,本文按要预测的特征分别进行了特征选择(如表1所示),以避免无关变量影响,后续使用相同网络参数的不同网络模型进行预测。此外,为加快训练,对数据进行了归一化处理。
表1 特征选择方案
3 仿真实验设计与结果分析
3.1 实验数据集
实验所使用的数据来自瑞士非营利组织OpenSky Network开源网站[9]。本文共使用436班的航班数据,每段包含1000~1200个连续时刻的数据,将所有航班数据按照18∶1∶1的比例划分为训练集1、验证集1和测试集1供预测模型训练、调参和评估。将测试集1按5∶2的比例划分为训练集2和测试集2。训练集2用于SVDD等单分类[10]模型的训练。将测试集2的时序数据中注入偏差(模拟攻击场景)得到测试集3,用于单分类模型和整体异常检测算法的评估。
由于真实场景中攻击数据的稀缺[11],本文通过给正常数据加入偏差的方式对攻击数据进行了模拟构造,在每6个时刻,依次加入如下偏差:-0.01°纬度偏移、-0.02°经度偏移、-50 m高度偏移、0.01°纬度偏移、0.02°经度偏移和50 m高度偏移,见图3。
图3 虚拟的攻击数据
3.2 仿真实验参数设置
在特征工程方法提升模型性能的有效性验证和预测模型比较的实验中,通过贝叶斯搜索优化初始学习率,通过网络在验证集上的损失值控制训练的停止,并设置最大训练轮数为10,设定滑动窗口长度为10。所有仿真实验均在实验管理器中运行完成,设置最大尝试次数为30,初始学习率范围设置为0.000 1~0.01,优化目标为使得验证集RMSE或损失值最小。在欺骗数据检测方法比较实验中,通过网格搜索,取准确率最高结果对应的超参数为最终的超参数。
3.3 实验结果与分析
3.3.1 攻击者攻击意图与攻击路径关联性分析
为比较怀有不同攻击意图的攻击者选择3个攻击路径的可能性大小,首先对3个攻击路径上实施的攻击在被飞行员或管制员察觉的难易、使航空器偏离航线的难易和实施的难易3个方面进行定性比较分析,然后对怀有不同攻击意图的攻击者选择攻击路径的可能性建模,将对攻击的定性比较结果定量化并计算选择攻击路径的可能性分数。
1) 定性分析。
该部分定性比较了通过3种攻击路径实施的攻击被飞行员察觉的难度、被管制员察觉的难度、使得航空器偏离航线的难度和实施的难度,并按照难易程度给予“容易”、“中等”和“困难”的定性评价结果(如表2所示),相关描述如下。
表2 ADS-B系统攻击路径比较
飞行员察觉到异常主要依靠机载设备状态察觉自身航空器的轨迹异常。通过机载网络实施的攻击可能只会影响到部分机载设备,而通过GNSS链路实施的攻击会影响到所有以GNSS为定位数据源的机载设备,通过1090ES链路实施的攻击难以被本机飞行员察觉。认为飞行员察觉到异常的难度分别为“容易”(机载网络)、“中等”(GNSS)和“困难”(1090ES)。
管制员察觉异常主要依靠多个监视技术的信息融合,此外,通过1090ES链路实施的攻击可以通过位置验证和身份验证两类方法进行检测,而身份验证方法难以检测到通过机载网络和GNSS链路实施的攻击,通过GNSS链路实施攻击的影响范围往往是局部空域而非指定航空器。认为管制员察觉异常的难度分别为“容易”(1090ES)、“中等”(GNSS)和“困难”(机载网络)。
基于1090ES链路进行的攻击,由于广播特性更多影响到其他航空器;通过GNSS链路进行的攻击仅能对航空器位置信息做修改,利用自动驾驶系统或飞行员维持按航线飞行的动作而实际上实现偏离航线;通过机载网络进行的攻击,可对航空器位置、速度信息做修改,还可能对飞行计划进行修改以使航空器偏离航线,甚至可直接对控制指令做修改。认为操纵航空器的难度分别为“困难”(1090ES)、“中等”(GNSS)和“容易”(机载网络)。
考虑到1090ES协议完全开源,且直接包含位置等信息,软件定义无线电的发展使得攻击易于实现;通过GNSS链路的攻击需要对无线电信号的精细控制才能够实现;通过机载网络的攻击方式则需要获得航空器机载网络结构的大量先验知识才能够利用漏洞“操纵飞机”。认为攻击实施难度分别为“容易”(1090ES)、“中等”(GNSS)和“困难”(机载网络)。
2) 量化比较。
以阻塞交通为攻击意图的攻击者只有有限的攻击能力与知识,更倾向于选择易被发觉、易于实现的攻击路径与方式实施攻击,其并不寻求一定能够操纵航空器;而以制造飞机相撞为攻击意图的攻击者更倾向于选择不易被发觉、能够使航空器偏离航线的攻击路径与方式,认为其在3种攻击路径上实施攻击的成功率的差异可忽略不计。因此,攻击意图为阻塞交通或制造飞机相撞的攻击者通过某一攻击路径实施欺骗攻击实现了攻击意图的可能性分数pjam或pcollision可建模为
(1)
式中,p1,p2,p3∈[0,1],分别表示攻击不被发觉的可能性分数、攻击成功操纵航空器的可能性分数和攻击成功实施的可能性分数。
将定性比较中的“容易”、“中等”、“困难”分别赋值为0.25,0.5和0.75以表示难度系数,那么1-e1e2,1-e3,1-e4则可分别用于表示p1,p2,p3。其中,e1,e2,e3,e4分别为飞行员察觉攻击难度、管制员察觉攻击难度、操纵航空器难度和攻击实施难度。基于式(1)计算可能性分数,结果如表2所示。量化计算结果表明,以阻塞交通为意图的攻击者更倾向于选择1090ES链路实施攻击,以飞机相撞为意图的攻击者更倾向于选择机载网络和GNSS链路实施攻击。
3.3.2 特征工程方法的有效性验证
本文基于原始的纬度、经度、高度、速度、航向和升降率6个变量的时序数据,通过差分提取了经度、纬度和高度的变化量信息,通过计算正弦值和余弦值对航向变量进行了重构,基于变量物理意义进行了特征选择,如表1所示。为了实现特征选择,需要使用3个独立的LSTM模型(单变量预测模型,模型输出为单个变量)进行预测。本文也比较了不进行特征选择时使用3个单变量预测模型与使用1个多变量预测模型(模型输出为多个变量)的结果。为了验证上述特征工程方法对预测模型预测误差(RMSE,MAE和MAPE)的影响,设计了9种方法组合并进行了仿真,仿真结果如表3所示。表中,“×”和“√”分别表示未使用和使用该选项。
表3 特征工程方法对预测模型预测误差的影响
其中,方法组合2,5相对于方法组合1,4,对纬度、经度和高度的预测误差都有所下降,方法组合8相较于方法组合7,对经度的预测误差略有上升,对纬度和高度的预测误差有所下降,表明使用3个模型分别对纬度、经度、高度进行预测的方式有助于模型性能的提升。
方法组合3,6,9相对于方法组合2,5,8,对纬度、经度和高度的预测误差大都有所下降,部分误差略有增加,表明进行特征选择是提高模型性能的可选方式。
方法组合4,5,6相对于方法组合1,2,3,预测误差有接近10%的增加,表明航向正余弦值相比航向丢失了部分信息。
方法组合7,8,9相对于方法组合4,5,6,对3个变量的预测误差有大幅下降,从RMSE误差具体看,纬度和经度均下降了两个数量级,高度下降了约65%。整体上看,上述特征处理方法对模型性能的提升效果显著。
3.3.3 欺骗数据检测方法比较
本文提出的检测模型由预测模型和单分类模型组成,首先比较了5个预测模型的预测性能(如图4所示),然后比较了5个预测模型与同一个单分类模型组合进行检测的性能(见表4),最后比较了TriLSTM模型与4个单分类模型(欧氏距离Edistance、孤立森林iForest、支持向量机SVM和SVDD)组合进行检测的性能(见表4)。结果表明,TriLSTM模型的预测误差显著低于其他预测模型,凭借TriLSTM模型的低预测误差,TriLSTM-Edistance检测模型性能相对更好;单分类模型方面,SVDD模型优于孤立森林等模型,说明SVDD模型更适于学习预测误差的分布(如图5所示)。
表4 异常检测模型的比较
图4 预测模型的预测误差
图5 预测误差分布
4 结论
1) 本文提出一种基于结合特征处理的TriLSTM-SVDD模型的欺骗数据检测方法,该方法能够精准识别出0.01°的纬度值偏差、0.02°的经度值偏差和50 m的高度值偏差。
2) 本文提出机载网络和GNSS链路也是攻击者对ADS-B系统实施攻击的可选攻击路径,以阻塞交通为意图的攻击者更倾向于选择1090ES链路实施攻击,以飞机相撞为意图的攻击者更倾向于选择机载网络和GNSS链路实施攻击。
3) 本文提出的结合特征处理的TriLSTM模型的预测误差相较没有进行特征处理的LSTM模型有显著下降。在纬度、经度、高度3个变量上的预测RMSE分别由0.182 1°,0.344 2°,26.75 m下降到约0.000 64°,0.001 84°,5.75 m。
4) 本文异常检测模型由预测模型与单分类模型组成,其中预测模型的精度主要决定了整体检测性能,对检测性能提升的贡献远大于分类模型。SVDD模型对本文预测误差(预测值与观测值之差)进行异常检测的表现优于SVM、欧氏距离和孤立森林。