D2D通信中大数据处理关键技术分析与展望
2016-05-14郑彤崔景伍郑梦婷
郑彤 崔景伍 郑梦婷
【摘 要】
分析了D2D通信中大数据的特征,重点阐述了数据筛选、预处理、建模等大数据处理的关键技术,并对提高大数据无线传输的稳定性、可靠性和高效性进行了探讨和展望。
【关键词】
5G 大数据 D2D
1 引言
在当前移动通信系统中,数据要经过基站、基站控制器、网关和交换机。随着大数据背景下网络流量迅猛增长,基站将不堪重荷。终端直通(D2D,Device-to-Device)通信作为第五代移动通信系统(5G)中的关键技术之一[1-2],可实现数据不经过基站直接传输(如图1所示),借助提高空间利用率来进一步提高无线频谱利用率,可使移动通信在众多场景下变得更加直接和高效[1-3]。
但面对爆炸式的业务量,仅仅依靠D2D通信技术是远远不够的。提升如何从各种各样的数据(包括结构化、半结构化、非结构化数据等)中快速获取有价值的信息的能力对于大数据分析与处理来说十分关键。业界对大数据的特征进行归纳,主要包括4个“V”[4],即数据体量巨大(Volumn)、数据类型繁多(Variety)、数据价值密度低(Value)、有很多实时数据要求快速处理(Velocity)。因此,传统的数据表示方法不能适用于大数据的表示。如何对体量巨大、结构繁多的数据进行有效表示?如何通过结合D2D通信的特点,最大程度地压缩数据的冗余度,挖掘出隐藏在数据背后的规律,从而使数据发挥出最大的价值?是D2D通信中大数据处理技术的核心目标。
本文首先从分析D2D通信系统中大数据的典型特征出发,分析大数据处理过程中所面临的挑战;然后具体分析了D2D通信系统中大数据的表示和处理方法;最后对未来研究方向做了展望。
2 D2D通信系统中大数据的典型特征
(1)数据量大
D2D通信为海量多媒体服务提供了一个强大的通信平台,如海量文本、图像、语音、音视频等应用。但是,随着采集设备成本的降低和存储容量的增大,训练样本的数量往往非常巨大,如在很短的时间内所采集到的数据可以轻易地达到几百TB。由于D2D通信中终端计算及存储能力有限,如何有效地表示采集到的大数据集十分关键。由于D2D大数据集中数据的分布复杂多样,因而需要采用具有较高普适性和较大灵活性的模型和方法来对数据的特征属性进行表示和处理[5]。传统的基于参数建立起的模型及其学习算法由于模型的结构固定,因此限定了其可以表示的数据特征。与参数模型相比,采用具有结构可调节的非参数模型及其学习算法在这样的情况下具有更好的效果。
(2)数据的维度高
由于D2D通信中终端的异构性以及用户需求的异构性,高维和超高维的数据不断涌现。很显然,数据维数越高(属性越多),就可以更加全面地刻画所描述的对象以及更好地分辨对象。然而,过高的维数不可避免地对数据的表示与处理提出了严峻的挑战。研究表明,对于大部分观测或采集到的高维数据而言,其主要信息存在于一个低维空间中。换句话说,该低维空间包含了高维数据中的全部或绝大部分的有用信息。因此,如何在低维空间中有效地刻画高维数据的有用信息,也是D2D通信中大数据处理领域一个不容忽视并且极具挑战性的问题。目前已经有一些隐空间模型和方法,如主成分分析、因子分析、独立成分分析等可以用于完成此项任务,找到这样的低维空间并将数据进行高效表示[7]。
(3)模型的复杂度和计算时间
传统的通信系统处理数据时,由于数据量不大,因此可以采用较为复杂的模型来描述数据的特征。而在与D2D通信大数据相关的应用中,终端处理能力受限,如果仍然采用复杂的模型来处理大数据,则计算和时间成本将大大增加;另一方面,如果采用较为简单的模型,可能不能完全表示和挖掘出大数据的关键特性。解决方法是:一方面,尽可能设计简洁的模型及高计算效率的算法,从而降低模型的复杂度和计算时间;另一方面,利用终端的灵活性,可以采用并行计算和分布式计算技术,把原先一个终端上的数据表示和任务处理分摊到多个终端。通过设计相应的算法,实现多个节点的信息共享和协作,从而降低每个终端上模型的复杂度和计算时间[7]。
(4)算法的实时性和可扩展性
在D2D通信系统的大数据处理中,都需要对其中的大数据进行实时性表示与处理,即当新数据到来以及新类型出现时,算法能够根据实际情况进行自适应的调节,以适应数据的变化。而传统的学习算法偏重于离线算法,因此需要设计一些在线学习算法,对描述或表示数据的模型进行在线学习。其中,贝叶斯技术可以很方便地用于在线学习[8]。此外,在设计模型及其学习算法时,也需要考虑其多媒体应用的可扩展性。
3 D2D通信系统中大数据处理方法
基于D2D通信中大数据处理的具体特征,本文拟从用户的感受出发,设计如下方案来高效地表示和处理D2D通信系统中的大数据,提取其中的有效信息,具体如下:
首先,从应用的内容出发,根据具体用户业务需求和应用背景对大数据进行初步筛选。即只需要保存与所需任务相关的数据,去除无关数据,从而提高后续处理的效率。
其次,设计合理的算法,对大数据进行预处理,并且依据用户体验提取特征属性。如前文所述,D2D通信中所采集到的大数据的维度(属性)较大,因此对于大数据有效特征属性的提取十分重要。此处可采用贝叶斯因子混合分析方法,通过该方法,可以找到一个数据有效信息相对集中的低维空间,从而可以将高维数据投影到低维空间中,最大程度地降低数据的冗余,完成数据的降维过程,从而可以在低维空间中完成后续的操作(如图2所示)[9]。此外,该方法的另一个优点在于,由于得到了高维数据的低维有效表示,从而可以在某些条件下实现数据的可视化。
图2 数据冗余度降低过程
最后,设计合适的模型来精确地描述提取出的大数据属性,从而进一步用高效、简约的形式来表示大数据。在现有的工作中,在用模型对大数据进行表示和处理方面已经开展了一些研究,取得了一些研究成果。具体地,选用混合模型来描述建模大数据的分布已成为主流,主要原因有两点:
(1)D2D通信中业务种类多、网络数据的分布较为复杂,而混合模型在理论上可以建模和描述任意复杂的数据分布。
(2)混合模型及其学习算法属于生成方式的学习范畴,只要获得准确的模型,则可以用该模型作为大数据的紧凑表示形式,因此,其比判别方式的学习具有更小的存储、更低的传输和处理复杂度,并且有利于在线操作[10]。
此外,根据不同目标场景中的不同类型的数据,需要提出与之相对应的模型和配套学习算法,用其来表示大数据。例如,对于属性较少(数据维度较低)的数据,采用所提出的无限成分t混合模型及其学习算法,估计出模型的参数,在后续的处理任务中只要关注参数就可以准确把握数据的特性。对于属性较多的高维数据,则采用所提出的无限成分t因子混合分析器及其学习算法,对数据进行有效地表示。对于具有时间或空间相关性的数据而言,则可以采用所提出的具有stick-breaking先验分布的t隐马尔可夫模型及其学习算法对数据进行表示[11]。隐马尔可夫模型的最大特点在于结构较为灵活,其可以根据数据的分布自适应确定模型的结构(如混合成分数目、因子维数等),并且对大数据中出现的离群点也具有较强的鲁棒性。由于通过学习算法得到的模型精确描述了数据的分布,较好地完成了后续任务,网络业务流量的识别与预测的正确率有了较大的提升[6]。
进一步考虑到大数据表示和处理中对于模型复杂度和计算时间的需求,需要设计与上述模型相关的分布式算法。通过该类算法,网络中的各个终端只需要采集到部分数据,就可以通过节点间的协作来协同估计出反映整个数据特性的模型参数。需要注意的是,在通信网络中,传输的代价比本地终端计算的代价要高得多。因而在协作过程中,各个终端只需要和在其通信范围内的邻居节点进行通信,并且只传输用于估计最终模型参数的充分统计量,而无需把自己持有的那部分数据传输给邻居终端。这样做的优点在于可以将对大数据的表示和处理分摊到各个终端上,从而最大程度降低了D2D终端的计算量。另一方面,由于充分统计量比原始数据量少很多,因此可以最大程度地降低传输代价,并且减少由于传输中丢包或其他错误、干扰等引起的系统性能的下降。
4 研究展望
对于未来D2D通信中大数据处理技术的研究可以从几个方向开展:
(1)进一步地从高维大数据特征中压缩冗余,剔除无关无用属性,提取与应用目标相关的有用特征,将核学习、流形学习方法引入,解决大数据表示问题。
(2)利用半监督学习、迁移学习、集成学习等理论和技术,最大程度地挖掘大数据间的内在关联信息。
(3)在现有模型和方法的基础上,开发设计在线学习算法,实时完成大数据的处理任务。
(4)设计分布式学习以及大数据处理算法,进一步提高网络节点之间协同处理和通信的能力,进一步降低网络节点之前传输的数据量。
(5)针对具体应用,设计结构更加灵活,更具有普适性、鲁棒性的模型,并且开发设计快速、高效的模型参数及结构估计方法,从而获得更简洁的大数据表示形式。
5 结束语
D2D技术被广泛认为是5G的关键技术和解决无线大数据传输的有力工具。本文从D2D通信中大数据特征入手,分析面临的挑战,提出应对策略,展望研究方向,综合探讨了如何提高D2D大数据无线传输的稳定性、可靠性和高效性的问题。
参考文献:
[1] 尤肖虎,潘志文,高西奇,等. 5G移动通信发展趋势与若干关键技术[J]. 中国科学: 信息科学, 2014(5): 551-563.
[2] S Mumtaz, K Huq, J Rodriguez. Direct Mobile-to-Mobile Communication: Paradigm for 5G[J]. IEEE Wireless Communications, 2014,52(10): 14-23.
[3] 邬贺铨. 大数据思维[J]. 科学与社会, 2014(1): 1-13.
[4] 王元卓,靳小龙,程学旗. 网络大数据:现状与展望[J]. 计算机学报, 2013(6): 1125-1138.
[5] D Wu, J Wang, R Hu, et al. Energy-Efficient Resource Sharing for Mobile Device-to-Device Multimedia Communications[J]. IEEE Transactions on Vehicular Technology, 2014,63(5): 1243-1253.
[6] L Zhou, R Hu, Y Qian, et al. Energy-Spectrum Efficiency Tradeoff for Video Streaming over Mobile Ad Hoc Networks[J]. IEEE Journal on Selected Areas in Communications, 2013,31(5): 981-991.
[7] L Zhou. Specific- Versus Diverse-Computing in Media Cloud[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015(99): 1.
[8] L Zhou, Z Yang, J Rodrigues, et al. Exploring Blind Online Scheduling for Mobile Cloud Multimedia Services[J]. IEEE Wireless Communications, 2013,20(3): 54-61.
[9] Q Li, RQ Hu, Y Qian, et al. Cooperative Communications for Wireless Networks: Techniques and Applications in LTE-Advanced Systems[J]. IEEE Wireless Communications, 2015,19(2): 22-29.
[10] Y Wen, W Zhu. Fuelling Big Data Intelligence into Future Multimedia System: Reflection and Outlook[A]. in IEEE International Conference on Multimedia Big Data (BigMM)[C]. 2015: 1-4, 20-22.
[11] G Gao, W Zhang, Y Wen, et al. Towards Cost-Efficient Video Transcoding in Media Cloud: Insights Learned From User Viewing Patterns[J]. IEEE Transactions on Multimedia, 2015,17(8): 1286-1296.