基于移动互联网大数据的异构实时计算框架分析

2019-09-10傅学磊

现代信息科技 2019年15期

摘要：移动互联网的快速发展，让人人都成为消息的传播者，对于扁平化架构的网络，监控工作需要运营商付出大量成本支出，为满足互联网大数据的需要，还需要进一步研究。因此，本文基于大数据处理技术及安全机制，分析了大数据计算现状，并对异构实时计算框架进行了重点研究和分析。

关键词：移动互联网;大数据处理技术;异构实时计算

中图分类号：TN929.5;TP393.01 文献标识码：A 文章编号：2096-4706（2019）15-0183-03

Analysis of Heterogeneous Real-time Computing Framework Based on

Big Data of Mobile Internet

FU Xuelei

（Guangdong Preschool Normal College in Maoming，Maoming 525200，China）

Abstract：The rapid development of mobile internet makes people become the disseminators of news. For the network of flat architecture，the monitoring work requires operators to pay a lot of cost. In order to meet the needs of big data on the internet，further research is needed. Based on this，this paper analyzes the current situation of big data computing based on big data processing technology and security mechanism，and focuses on the analysis of heterogeneous real-time computing framework.

Keywords：mobile internet;big data processing technology;heterogeneous real-time computing

0 引言

我国即将步入5G时代，移动互联网将步入新时期，如今LTE网络数据占据70%以上的移动互联网，局部区域呈现出用户密度高、流量大的特征，移动运营商需要及时掌握社会热点，才能为客户提供个性化服务。互联网使用OTT产品实现跨界融合和网络运营商竞争，让传统运营商受到极大威胁，运营商在用户体验基础上，尽量减少成本，以应对市场竞争，满足企业发展需求。因此，研究异构实时计算对于运营商具有重要意义。

1 大数据处理技术及安全机制

1.1 主流处理技术

在大数据技术的快速发展下，具体处理技术越来越多，从目前应用较为广泛的处理技术来看，主要包括：

（1）Hadoop离线批处理技术。Hadoop本身属于Apache的一个分布式框架，能够在简单硬件设备集群上运行应用程序，并提供稳定接口，具有较好的可靠性和易扩展性。在Hadoop 2.X版本中引入的YARN资源管理模块，与HDFS模块、MapReduce模块共同构成其三大核心模块，支持海量数据存储、云系统资源分配和海量数据分析计算等功能。

（2）Storm架构处理技术。此技术主要在分布式实时数据流处理方面具有明显优势，适用场景包括机器学习、实时分析、持续计算等，具有较强的容错性，可保证数据处理的全面性，而且数据处理速度非常快，每节点每秒可处理数百万条信息数据。而且Storm架构本身部署方便，支持多種语言的程序开发。

（3）Spark架构处理技术。Spark本身是一个大规模数据处理引擎，采用内存运算技术，能够节省运算过程中的数据存储时间。而且Spark是开源框架，支持迭代开发，已经形成独立生态系统，应用较为广泛。可以将Spark作为基础，兼容Hadoop部分组件，支持数据库查询工具等的使用，贴近于用户使用习惯。

1.2 不同处理技术优缺点

上述几种技术都是目前主流的大数据处理技术，且三种技术各有各的优缺点。其中，Hadoop使用时间较早，经过多次的版本升级，目前功能性能较为完善，主要擅长海量数据存储和分析工作，适用于对实时响应要求不高的场景。Storm架构处理技术则与Hadoop不同，主要擅长实时流式分析处理，在处理无界数据流方面有显著优势，适合在对实时响应要求较高的场景使用。Spark框架处理技术与Hadoop相似，也属于批量处理方法，其特点是计算性能强，适用于交互查询、迭代计算等大数据应用场景。通过对大数据处理技术进行合理选择，可以最大化的发挥其应用优势。

1.3 大数据处理技术的安全机制

无论选择何种大数据处理技术，都需要对其数据安全性提供保障。上述介绍的几种大数据处理框架，在实际应用过程中通常以大规模集群方式部署，从而保障系统的大规模并行计算能力。但在该模式下，也需要注意框架内各层次堆栈集成、各节点之间、集群与客户端之间的通信安全问题。以目前较为成熟的Hadoop离线批处理技术为例，在其早期研究中，安全问题就受到了高度重视，并已经取得重要成果。目前Hadoop大数据处理技术主要通过采用用户认证、用户授权、数据存储加密、数据灾备技术等，为数据安全性提供保障。通过采取先进的安全防护措施，可以在保证集群数据安全的同时，提高数据加解密速度，降低不必要的数据存储消耗。对于Spark和Storm技术也是如此，需要不断优化其安全保护机制，为大数据处理技术的推广应用奠定基础。

2 大数据计算现状

运营商建立了DPI一体规范，移动互联网数据主要可以分成控制面和用户面两个种类的原始数据，包括多个接口。移动互联网数据具有数量大、接口多的特征，传统分析方法建立在单一接口基础上，使用XDR方法储存数据。利用该种方案不需要使用过于复杂的部署探针，响应速度相对快速，但是由于其解析速度相对较慢，且无法和其他接口建立关联，没有办法提供整体性反馈，无法通过计算分析网络单用户、业务以及网元等指标。

为实现大规模收集数据，接入设备还需自动识别链路逻辑接口，才能实现设备接入。为保证通信网络不会受到影响，要按照规定格式数据包对通信网络实施封装，解析设备可以输出数据，设备负责解码、合成、关联以及回填用户面原始数据和信令面原始数据，最后形成规范XDR，提供给服务器使用。数据库难以应付多于10TB的数据，处理该量级数据会造成响应速度缓慢。需要通过建立异构实时计算框架对数据进行管控，该计算框架具备可调节、可扩展、大规模的优势，可以满足运营商管理要求，对平台数据进行开放管理。

3 异构实时计算框架分析

3.1 总体框架

如今各信息系统已经实现了和3G、4G、LTE的结合，在高速索引、内存计算、高度容错等先进技术的辅助下，系统从100MB升级为100PB。无论哪一个数量级都拥有最佳处理性能，在流量不断增加的情况下，实现了动态化扩容，且具备自由伸缩的功能。系统整体架构为：XDR详单→ Flume→Kafka→Spark Streaming/Storm→Kafka/Hbase/ Oracle→应用层。

3.2 高速探针

高速探针在软件和硬件结合的基础上，让数据包完整及时地被接收。系统使用汇聚交换机完整收集逻辑接口数据，实现收敛汇聚。借助于ATCA探针架构，板块具备40Gbit/s线速能力，包含12千兆/万兆光口，端口使用ASIC数据包对Buffer实时接收，通过双重捡拾技术的应用有效规避丢包问题的出现，避免了阻塞问题。

系统通过多核网絡处理板处理机制，并利用分布式数据库，实现了用户面和信令面数据的完整解析、回填以及关联，数据经过处理后可实时传送给SDTP协议，以及流式服务器，形成实时数据运算。

为满足计算准确性，通过以下手段实现：

（1）硬件ASIC统计端口接收包，分析比较输入和输出端储存的数据包和流量。

（2）比较数据包分类以及表示。

（3）选择标识处理机制对模块进行辨识，未知包可以被回流模块和储存模块分流，有效规避误报问题，避免出现丢包的弊端。

（4）信令数据涵盖了多重关联，经过比较可以进行正确性的检查。

（5）使用多种关联参数进行业务统计XDR。

（6）IP使用五元组，在多关联参数协助下完成处理，规避由于数据包无法准确辨识造成多种业务流。

（7）动态解析更新的协议码和结构，避免系统重启，造成数据包无法实现关联。

3.3 流式处理

首先借助SDTP接口方式完成XDR数据的实时接收，通过于Kafka工具的应用，在队列中录入并流数据，数据实现了实时入库，不会出现数据延时问题。其次借助于ETL模型，如Storm框架，实现粗粒度级别的清洗、转换数据同时也可以完成逻辑运算数据。在保证计算资源完全充足时，可以运算海量数据，并保证时延不超过5分钟，完成运算可以满足数据维度、时间力度以及跨接口运算的要求。最后对数据进行汇总，将计算接口在Kafka实时队列中完成准确录入。由于Kafka工具能够给运算步骤提供高兼容度的接口，使其得到广泛使用，在应用期间实现了完整对接。上层应用所花费的成本相对较少，开发效率也相对较快，对于大量数据生产起到较大帮助。

同时数据录入进Oracle数据库中，可以进行二次加工，从而完成复杂运算。由于系统的延展性强，能够自动对接前台部分系统。且逻辑运算平台框架支持HBase储存型数据库的数据录入，可以得到海量数据并实现高速高效查询。数百亿甚至万亿数据被记录后，普通数据库无法适应，只能使用HBase数据库，且数据库可以达到秒级。使用该种数据库，可以实现快速查询，且数据库延展性较好，查询结果更加准确。

3.4 拥挤警报

移动互联网中，很大一部分应用数据流建立在TCP协议上传送。TCP协议可以认定为传输层协议。任何接收端收到数据包后，会向发送端发送消息。通过分析Acknowledge-ment，发送端能够实现准确且及时的数据包确认工作，发送和接收端上数据包发生丢失事故时，发送端会重新传输数据包直到接收端确认接收的消息。高速探针可以实时检测到用户数据包，并将源端数据和关联信息完成相互匹配。在传递数据包期间若出现丢失，探针将根据用户TCP数据流，对于数据包丢失率展开准确快速计算。探针可以获得数据流任何一个数据包传输路线，确定信号流。掌握这些信息，用户TCP会话丢失率会被映射给用户，在传输路径上，丢失率是发送路径上全部数据包丢失的累计。当用户随意移动时，传输通道不断改变，丢失数据包和时间路径相互对应。

网络整体丢失率是全部路径丢失率的累积，但是并没有表明网元丢失的细节。探针使用断层扫描技术，通过借助统计推论算法，能够将传输路径上出现的丢失率计算出来。使用该算法要先假设丢失率不是随机发生的，是由各个网元累计而来，且假设传输路径拥有同样的网元，无线用户会拥有相似丢失率，路径之间存在重叠现象，形成巨大采样集，让全部样本数据得到覆盖。探针有两种方法应对拥挤，第一种方法是假设拥挤网元丢包率更高，但是网元未过载，丢失率仍然较高，该定义也成立。网元丢失率会影响用户体验。网络断层扫描算法可以确定数据包丢失，该现象为拥挤警报。第二种方法是检测对比一天负载量和一周负载量，该现象为趋势警告。

4 结论

综上所述，本文研究了移动互联网大数据异构实时计算框架，在软件和硬件联合应用的基础上，辅助运营商使用有序统一方式采集、储存数据，让不同分析、搜索以及访问需求得到完全满足，在提升用户体验感的同时，让故障检修以及通道监控得以实现，使得互联网运营成本得到有序控制，并提高运营稳定性。

参考文献：

[1] 李洪乾.面向电力大数据的多数据流实时处理技术研究 [J].计算机产品与流通，2018（10）：63.

[2] 吴海建，吕军.物联网大数据处理中实时流计算系统的实践 [J].电子技术与软件工程，2018（17）：170.

[3] 陈德冲.基于事件驱动的智能大数据实时处理平台的研究设计和基本实现 [D].北京：北京邮电大学，2016.

作者简介：傅学磊（1979.10-），男，汉族，广东高州人，讲师，硕士，研究方向：计算机应用技术。