APP下载

探索性数据分析在LoRa通信SNR性能的研究

2020-07-23房海峰檀蓉韩院彬赵继军

现代电子技术 2020年4期
关键词:数据收集参数优化

房海峰 檀蓉 韩院彬 赵继军

摘  要: 为了降低数据传输信噪比,提高传输质量,在实际部署过程中需合理配置LoRa物理层参数。为此,基于探索性数据分析,提出一种优化配置参数选择的预测模型。首先,设置物理层参数配置,收集数据;其次,利用探索性数据分析剔除数据中的异常值,并计算各配置参数和信噪比的相关性;最后,通过ID3决策树算法构建预测模型,建立配置参数和SNR之间的关系,以此提高传输信噪比,改善数据传输质量。实验结果表明,预测模型可以有效地对LoRa通信技术中信噪比性能进行优化。

关键词: 信噪比性能; LoRa通信; 探索性数据分析; 参数优化; 预测模型构建; 数据收集

中图分类号: TN92?34                               文献标识码: A                      文章编号: 1004?373X(2020)04?0058?04

Research on exploratory data analysis for SNR performance in LoRa communication

FANG Haifeng, TAN Rong, HAN Yuanbin, ZHAO Jijun

(Hebei Provincal Key Laboratory of Urban Public Safety Information Perception and Processing, Hebei University of Engineering, Handan 056038, China)

Abstract: LoRa physical layer parameters need to be properly configured during the actual deployment to reduce the signal?to?noise ratio (SNR) in data transmission and improve the data transmission quality. Therefore, a prediction model for optimal configuration parameter selection is proposed based on exploratory data analysis (EDA). The physical layer parameter configuration is set to collect data, and then the outliers are removed from the data by means of the EDA and the correlation between configuration parameters and SNR is calculated. The prediction model is constructed by means of the ID3 decision tree algorithm, and the relationship between configuration parameter sums and SNR is established, so as to improve the transmission SNR and the data transmission quality. The experimental results show that the prediction model can be used to effectively optimize the SNR performance in the LoRa communication technology.

Keywords:SNR performance; LoRa communication; EDA; parameter optimization; prediction model building; data collection

0  引  言

LoRa技术是Semtech公司于2013年发布的一种LPWAN(Low Power Wide Area Network)技术,具备功耗低、范围广、成本低的特点[1]。它基于未授权频谱进行数据传输,可以根据用户的需求灵活地部署网络。因此,LoRa在物联网领域具有广泛的应用前景[2?3]。

近年来,LoRa性能方面的研究已有很多,主要集中在它的连通性[4]、可扩展性[5]和系统应用[6]等方面。然而,信号质量作为通信技术基本要求,对LoRa性能的研究十分重要。由于LoRa技术的应用场景可以由用户自己制定,而LoRa通信质量与部署场景密切相关,尤其要考虑特定场景下信噪比(Signal Noise Ratio,SNR)对信号质量的影响,因此需要根据部署环境选择合理的LoRa物理层配置参数,提高数据SNR,提升LoRa通信性能。因此确定LoRa配置参数与SNR之间的关系是优化用户LoRa网络通信性能的关键。

为解决上述问题,本文综合运用探索性数据分析(Exploratory Data Analysis,EDA)和ID3挖掘算法构建LoRa物理层配置参数的预测模型,为决策者提供提升SNR的具体物理层配置的依据[7]。首先,为更全面地收集不同的配置参数与SNR之间的关系,物理层参数配置共选定3种可变配置包括6种扩频因子(Spreading Factor,SF)、5种发射功率(Power)、3种数据包长度(Length)和3种不可变配置包括固定的编码率、带宽和信道。其次,测试得到的数据通过探索性数据分析方法去除异常值并计算各配置参数和SNR的相关性,寻找数据内部之间的关联信息。最后,运用ID3算法对数据进行建模预测,分析不同配置参数对SNR分类的影响。本次测试的场景选定为学校体育场,网关和终端之间相距125 m并且无遮挡。仿真结果表明,基于ID3算法构建的预测模型可以有效地建立配置参数和SNR之间的关系,对LoRa通信中SNR性能进行优化。

1  数据处理模型

探索性数据分析通常是将得到的量大、杂质多的数据,用尽量少的先验假设来决定统计处理数据的方法[8]。EDA采用IPython中多种可视化功能观察数据之间的特点[9]。本文首先通过绘制盒图来观察数据特性,它是包含巨大信息量的数据探索工具[10],由矩形框和须组成,须之外的边缘值规定为异常值。盒图矩形框中包含了50%的样本数据,由四分位数间距(IQR)进行约束,IQR计算方法为[IQR=Q3-Q1],其中[Q1]为第一分位数,[Q3]为第三分位数,盒图的须分别用[Q1-1.5IQR]和[Q3+1.5IQR]进行约束。相关性系数[ρSNR,y]用来表达变量之间的深层含义,使得变量内关系更易被理解。通过计算相关性系数观察各配置参数对SNR的影响。最终,采用ID3算法对数据进行建模,对LoRa性能进行合理预测。ID3是一种决策树算法,通过树的结构将数据进行分类。决策树算法采用自上而下的递归方法构造预测模型并利用信息增益(Entropy)作为属性的选择标准[11],而用来对比的KNN算法是采用最近邻方法对数据进行分类[12]。通过对比两种算法构建的模型,分析各参数配置对LoRa性能的影响,以达到对LoRa性能进行优化的目的。

2  测试环境

测试地点选取在学校操场,测试场景为视线内(L.O.S),网关和终端之间无遮挡,并且两者之间相距125 m,如图1所示。本文采用一个终端向一个网关发送数据的测试方式。网关图如图2所示。

网关放在室内高1.5 m的桌子上,并采用Semtech公司提供的无线射频芯片SX1278,该芯片具有扩频功能,可以实现在同一信道中采用不同的扩频因子同时发射数据且互不干扰。本次测试为了更有效地接收信号,将网关的天线放在高2 m的窗外,如图3所示。终端位于高10 m的体育场看台上,同样采用SX1278芯片来发送数据,如图4所示。

在本次测试中,终端具有三种可配置参数:SF,Length和Power。SF设置成SF7,SF8,SF9,SF10,SF11,SF12六种值;Length设置成50 B,100 B,150 B三种值。Power设置成0 dBm,5 dBm,10 dBm,14 dBm和20 dBm五个值。其中编码率为固定值4/5,带宽为固定值125 kHz,只选取478.5 MHz信道进行数据传输。当配置参数配置成功时,终端周期性地向网关发送数据。本次测试将三种可变配置参数进行组合,一共有90组配置参数,每组配置参数需重复发送30条数据,共发送2 700条数据,但是由于测试过程中有丢包,实际只收到2 695条数据。

3  数据处理

探索性数据分析主要通过绘图来观察数据之间的特性,从而对数据有一个总体的认识;再通过计算数据之间的统计量,发现数据之间的关联,对选用数据建模的算法构建数据预测模型提供依据。该模型是对数据集结构的描述,通过它可以找到相应数据间变化的原因。本文采用探索性数据分析方法对LoRa测试出的数据进行处理并选取ID3算法进行建模优化,最终在得知配置参数的条件下,对SNR进行预测以提升LoRa性能。

3.1  处理异常值

盒图可以表示数据分布特征,并且显示数据中异常点和中位数,从而易于对异常点进行处理。在IPython中对测试数据绘制盒图,如图5所示,可以看出在信道478.5 MHz中,SNR异常值等于6。本文将异常值直接删掉,对剩余[7,16]区间内的数据构建预测模型。

图6为SNR非对称的直方图,能反映出数据分布的频次[8]。横坐标为SNR值,纵坐标为各个SNR值出現的频数。每一个SNR值出现的频次都是不同的,其中SNR=11出现最频繁。为方便运用ID3算法对SNR进行分类预测,根据直方图中SNR分布情况将数据分为A,B两类,每类为5种SNR值,即类别A表示为[A={x|x∈(7,8,9,10,11)}]和类别B表示为[B={y|y∈(12,13,14,15,16)}]。A类中SNR值较小,因此数据中噪声较多;而B类中SNR值较大,数据中噪声较少,信号质量较高。

3.2  计算相关性系数

本文利用IPython绘制出SF,Power,Length不同属性下,SNR的均值变化趋势,从而观察各属性对SNR值的影响,之后通过计算相关性系数进行验证,如图7~图9所示。

在478.5 MHz信道中,不同的配置参数下SNR变化趋势不同,因此可以得知配置参数对SNR有较大关系。由相关性系数计算得知[ρSNR,SF=-0.887,][ρSNR,Length=-0.822],[ρSNR,Power=-0.014],通过三者对比可知,Power和SNR相关性较小可以忽略不计。本文运用ID3算法建立数据模型时,为简化建模过程,不考虑Power属性对SNR的影响。

3.3  ID3构建预测模型

本文随机选取2 695条数据中的180条数据作为预测集,在剩余的2 515条数据中去除异常值,最终使用2 509条数据作为训练集来构建预测模型。预测模型采用ID3算法中用熵划分数据,熵越大混乱度越高,说明数据越不纯。ID3算法的核心是通过熵选择样本分类的属性[13]。预测模型中判定条件熵为0时,表示符合当前判定结果的值全都属于A,B中的某一类;熵不为0时,可以根据数据在A,B类分布的情况,将数据归类到分类数据量较多的类别中。根据ID3算法对数据进行建模分类,得出的预测模型结果如表1所示。

在当前测试场景中,当SF是8,9或10时,接收到的数据属于类B;当SF是7,11或12时,接收到的数据属于类A。如果想得到更高的SNR值和更快的数据传输速率,在以后的参数配置中SF8,SF9或者SF10应该优先考虑。

3.4  预测模型评估

为了验证所构建的预测模型对LoRa性能优化的影响,使用随机抽取的180条预测集数据运用ID3和KNN两种算法进行对比验证。本文将这180条预测集数据通过分类得出的实际SNR类别和预测模型预测出的SNR类别进行对比,其中只有4条数据预测错误,性能优化预测准确性高达97.78%。而运用KNN算法对这180条数据的属性进行预测,优化预测准确率只有68.89%。其中分类出现错误的数据大部分为两类之间的边缘数据。因此ID3算法所构建的预测模型可以在理想参数配置情况下,更准确地预测得到较高SNR值,可以达到提升LoRa性能的效果。

4  结  论

本文研究LoRa技术硬件参数配置对LoRa无线通信性能的影响。选择室外125 m无遮挡环境收集数据测试LoRa性能,对于测试得到的数据运用探索性数据分析方法去除异常值,并通过计算SF,Length,Power与SNR之间的相关性系数,找到数据之间的内在联系。最后,运用ID3算法对接收到的数据构建预测模型,建立硬件参数配置与SNR之间的关系。为验证预测模型对LoRa性能的优化的准确性,训练集数据分别运用ID3和KNN算法进行对比预测,其中ID3算法在各参数配置中预测SNR的准确率明显高于KNN算法。因此在本测试的场景中,ID3算法建立各参数配置与SNR之间的预测模型,达到了对LoRa性能优化的效果。

本文将SNR值分为两类,预测出的SNR值只是个范围并不是准确的数值,后续工作会通过线性回归算法预测出SNR的具体数值,进一步提高算法对LoRa的优化性能。

参考文献

[1] 王阳,温向明,路兆铭,等.新兴物联网技术:LoRa[J].信息通信技术,2017(1):55?59.

[2] RAJU V, VARMA A S N, RAJU Y S. An environmental pollution monitoring system using LoRa [C]// 2017 International Conference on Energy, Communication, Data Analytics and Soft Computing. Chennai: IEEE, 2017: 3521?3526.

[3] YAO Y, CHEN X, RAO L, et al. Lora: loss differentiation rate adaptation scheme for vehicle?to?vehicle safety communications [J]. IEEE transactions on vehicular technology, 2017, 66(3): 2499?2512.

[4] LIM J T, HAN Y. Spreading factor allocation for massive connectivity in LoRa systems [J]. IEEE communications letters, 2018, 22(4): 800?803.

[5] PETAJAJARVI J, MIKHAYLOV K, PETTISSALO M, et al. Performance of a low?power wide?area network based on LoRa technology: Doppler robustness, scalability, and coverage [J]. International journal of distributed sensor networks, 2017, 13(3): 1?16.

[6] GIANNI P, CHIARA B, LUCA F, et al. Smart city pilot projects using LoRa and IEEE 802.15.4 technologies [J]. Sensors, 2018, 18(4): 1118.

[7] 高軼,王鹏.一种基于数据挖掘的目标行为规律分析算法[J].无线电工程,2018,48(12):1043?1047.

[8] BREUKER D. Towards model?driven engineering for big data analytics: an exploratory analysis of domain?specific languages for machine learning [C]// Hawaii International Conference on System Sciences. Waikoloa: IEEE, 2014: 758?767.

[9] TYRALIS H, KARAKATSANIS G, TZOUKA K, et al. Exploratory data analysis of the electrical energy demand in the time domain in Greece [J]. Energy, 2017, 134(C): 902?918.

[10] SUN Y, GENTON M G. Adjusted functional boxplots for spatio?temporal data visualization and outlier detection [J]. Environmetrics, 2012, 23(1): 54?64.

[11] 杜威铭,冉羽.决策树ID3算法研究[J].科技视界,2018(11):145?146.

[12] JIVANI A. The novel k nearest neighbor algorithm [C]// 2013 International Conference on Computer Communication and Informatics. Coimbatore: IEEE, 2013: 1?4.

[13] 李莉.数据挖掘技术决策树分类算法(ID3算法)研究[J].电子技术与软件工程,2018(14):181?182.

猜你喜欢

数据收集参数优化
智能分类垃圾箱的设计与研发
基于正交试验法的路基冲击碾压施工参数优化
基于神经网络的动力电池组焊接参数优化研究
装备使用阶段RMS数据收集研究
研究LTE与WCDMA系统间小区互操作与参数优化
基于磁流变技术的汽车发动机隔振系统的参数优化
变电运行设备的状态检修与数据收集
浅谈公路工程项目竣工资料整理常见问题及解决措施