一种基于下行控制信息的移动通信流量分类方法
2022-05-05刘晓勇田宏峰郑崇辉
刘晓勇,田宏峰,郑崇辉
(1.国家无线电监测中心检测中心,北京 100041;2.电子工业出版社有限公司,北京 100036;3.中国科学院大学杭州高等研究院,浙江 杭州 310024)
0 引言
随着移动互联网业务的发展,智能终端的普及率不断升高。截至2021年6月,我国网民规模达10.11亿,互联网普及率达71.6%,手机网民规模达10.07 亿。网民使用手机上网的比例为99.6%[1]。运营商也不再仅仅承担语音和简单的数据业务,更多的流量压力来自于繁杂多样的互联网业务。扩展数据流量,不仅仅局限于提升设备的性能,也需要业务层面的优化[2]。网络运营商需要逐步优化网络体系结构,以提升数据速率。在这种情况下,针对移动通信流量的识别并进行分析,是进行移动网络特性研究和优化的重要一步。
常规的移动通信流量识别方法主要基于网络协议级或者基于应用层数据等信息来获得关键字段和统计特征。在识别移动流量时,常规方法识别精度低且识别方法复杂,很难满足网络运营商或网络管理员的流量分类需求。为了解决上述问题,本文采集4G LTE网络中的DCI,使用3种机器学习模型和LSTM模型对移动通信流量进行识别、测试,并证明了使用DCI可以有效识别移动通信流量。
1 LTE架构
4G LTE的空口协议定义了逻辑信道、传输信道、物理信道。其中逻辑信道定义了传输的信息类型,传输信道定义了信息的传输方式,物理信道用于物理层具体信号的传输[3]。图1为4G LTE中三类信道的对应关系。
图1 4G LTE中三类信道的对应关系
图1中的物理信道可以分为下行物理信道和上行物理信道,物理信道对应于一系列时频资源的集合,需要承载来自高层的信息。下行物理信道共6种,分别为物理广播信道(Physical Broadcast Channel,PBCH)、物理下行共享信道(Physical Downlink Shared Channel,PDSCH)、物理控制格式指示信道(Physical Control Format Indicator Channel,PCFICH)、物理HARQ指示信道(Physical Hybrid ARQ Indicator Channel,PHICH)、物理下行控制信道(Physical Downlink Control Channel,PDCCH)、物理多播信道(Physical Multicast Channel,PMCH)[4]。
本文对物理下行控制信道(PDCCH)所携带的下行控制信息(DCI)进行解码,DCI包含一个或者多个UE的资源分配以及其他的控制信息,消息由基站以明文的形式发送,处于连接状态的移动终端DCI包含以下调度信息。
(1)无线网络临时标识(Radio Network Temporary Identifier,RNTI)。
(2)资源块(Resource Block,RB)。
(3)调制和编码策略(Modulation and Coding Scheme,MCS)。
将DCI作为分类器的输入,可以对处于连接状态的移动终端上执行的应用和服务进行分类。
DCI使用RNTI来指定目的地。RNTI是16 bit的标识符,用于在LTE单元中进行移动终端的寻址。RNTI可用于不同的功能,如系统广播信息(SI-RNTI)、特定UE(P-RNTI)、执行随机访问程序(RA-RNTI),并识别处于连接状态的用户,即小区无线网络临时标识(C-RNTI)。本文主要研究C-RNTI,它是在移动终端处于无线资源控制(RRC)连接状态时临时分配的标识。
C-RNTI可以是0x003D~0xFFF3范围内的任意值。一旦C-RNTI分配到一个处于连接状态的移动终端上,则定向到该移动终端的DCI使用C-RNTI发送,后者作为PDCCH的一部分,以明文的形式发送。因此,跟踪C-RNTI就可以在无线单元内跟踪特定的连接用户。
2 系统模型
传统的移动流量分类方法采用的特征取决于协议字段的差异,无法区别差别较小的协议特征[5],性能较差。深度数据包检测会遇到大量不包含特征信息的无效数据包,覆盖率极低。
与传统的移动流量分类方法不同,本文基于下行控制信道携带的DCI来进行分流量分类,主要包含以下三步:采集流量、解码获取DCI、训练流量分类模型。
图2 实验框架流程
2.1 流量采集
本文采集了一个4G LTE小区的无线链路流量,获取的流量包含小区内所有用户的流量数据。在4G LTE的PDCCH中,每个移动终端由C-RNTI进行识别,C-RNTI无是线小区内移动终端的唯一标识。因此,本文使用C-RNTI区别本实验用的手机与其他用户的流量信息。本文只使用4G LTE网络中的控制信息,所以并没有采集并获取其他用户的隐私信息。
2.2 解码获取DCI
由LTE架构可知,基站通过PDCCH中携带的DCI将调度信息传递给处于连接状态的移动终端。当用户数据通过加密的专用通道(PDSCH/PDCCH)发送时,PDCCH是明文传输的,可以解码。假定C-RNTI已经获取,则可以通过DCI提取出移动终端业务所分配的资源块数量、调制阶数与调制码率、传输块大小等信息,这些信息可作为流量分类的特征值。
2.3 流量分类模型
本文选择了三种机器学习算法,分别为支持向量机(Support Vector Machines,SVM)、K近邻算法(K-Near Neighbor,KNN)、随机森林算法(Random Forest,RF),以及一种深度学习算法,即长短期记忆算法(Long Short-Term Memory,LSTM)。
支持向量机是经典且高效的分类模型,基于统计学习的理论,其模型具有高泛化能力和极强的数学可解释性,但一般也多用于解决二分类问题。
相比之下,通过K近邻算法可以将未标记的数据归类到与之最相近的、带有标记的样本数据所在的类,通过投票法可以获取标签。
随机森林算法是Breiman于2001年提出的一种用于分类和预测的机器学习算法[6],以Bagging算法和随机空间算法为主。随机森林算法具有较强的非线性模拟能力,且不容易出现过拟合现象。
LSTM网络是一种特殊的递归神经网络(RNN),能够跟踪输入时间序列中的长期依赖信息,并摆脱RNN网络中的梯度消失问题[7]。LSTM网络具有学习长时间依赖信息的能力,是因为其特殊的结构能够保存或者忘记关于状态的整个序列,这使得LSTM适合处理具有长时间依赖性的时间序列。与传统的RNN网络不同,LSTM网络增加了简单的神经网络层,使得LSTM网络有能力通过门限来选通信息,可以删除或者增加神经元状态中的信息,从而保护和控制神经元的状态。
3 实验结果
本文的实验采用软件定义无线电(Software Defined Radio,SDR)设备获取实时的电磁数据,并将电磁数据上传至计算机进行解码,从而获取DCI;采用Ettus Research公司的USRP B210软件无线电设备作为射频前端,采用联想的Y9000K笔记本电脑作为数据处理设备。
本文的实验首先对电磁数据进行了长期的监测和采集,收集了超过5 GB的DCI,其中包含了RB和MCS信息;然后在数据采集完成后丢弃了长度过短信号的跟踪数据,这些长度过短的信号主要是由信令和流量导致的,在数据集中的占比不到总流量的2%;最后将数据集80%的数据作为训练集,将数据集20%的数据作为测试集。
本文的实验采用OWL开源软件进行处理[8],用于对LTE控制信道进行解码,获取被监控基站的完整信息。OWL软件非常可靠,可以在廉价的硬件上执行,无须大量的计算,可以在一些常见的SDR设备(如BladeRF和USRP等)上运行。
本文的实验分类目标主要是区分5种主流的手机应用,分别为QQ语音、QQ视频、抖音、腾讯视频、王者荣耀。
为了确定三种基准分类器算法的最优参数,本文使用网格搜索对参数进行了调整,对最优的模型参数进行了穷举搜索,选择性能最好的参数为最终参数,表1为三个分类器的最终参数。
表1 基准分类实验算法参数设计
设M作为流量采集中获得的总链接数;C-RNTI为每次会话的持续时间,令L=80 s;D是上行和下行链路的通信方向数,D=2;定义X为输入数据集的M×L×D张量,每一列xm都包含着数据的迹线,分类器的估计函数为c:X→Y;Y为M×K的输出矩阵,K表示区分的种类数量;行向量ym=c(xm)=[ym1,ym2,…,ymk];在本文实验中,K=5。
本文提出的基于LSTM网络的算法选用三个全连接层,第一层有128个神经元,第二层有64个神经元,第三层有K个神经元和一个softmax激活函数产生最终输出,最后输出结果为ym。
本文使用F1得分(F1-score)、准确率(Accuracy)、精确率(Precision)和召回率(Recall)作为四种模型的评价标准。
在式(1)到式(4)中,TP表示预测为真,实际为真;TN表示预测为假,实际为假;FP表示预测为真,实际为假;FN表示预测为假,实际为真。
式中,F1得分越高,标识分类器模型越稳定。实验分类结果如表2所示。
表2 实验分类结果
从表2可以看出,LSTM网络比基准分类器的精确度高很多,在四类分类器中识别表现最好。
通过LSTM混淆矩阵(见图3)可以深入了解其性能。LSTM混淆矩阵的行和列分别表示App的真实标签和模型预测标签,并对所有的结果都进行了归一化。通过图3可以看出,在App识别任务中,系统误判主要发生在QQ语音和QQ视频中,这是因为语音与视频的流量模式具有相似之处,容易产生误判;在其他三种业务中,可以得到非常高的精确度。
图3 LSTM混淆矩阵
4 结束语
本文提出了一种算法,该算法允许在不侵犯用户隐私的情况下,对移动通信用户的应用流量进行高精确度的分类。通过解码LTE的PDCCH携带的信息,可获取其中的DCI,从而识别移动终端上执行的应用程序。为此,本文建立了LSTM网络分类模型,并与基准分类器进行了比较。实验结果表明,LSTM网络分类模型在流量分类精度方面优于基准分类器。