APP下载

流式大数据实时处理技术燮教及应用

2019-11-22孙茜江胜月

中国集体经济 2019年32期
关键词:平台应用

孙茜 江胜月

摘要:大数据系统根据时效性特点分为批式大数据和流式大数据。在一定程度上流式大数据(文章出现均用“流式数据”代替)实时处理技术可以实现及时向客户实时反馈,所以相较于批式大数据,流式数据受到更多的关注和探究。根据这种情况,以流式数据实时处理为技术平台,对流式数据进行分析,对该平台设计、优点进行详细说明,解析了流式数据实时处理技术平台的应用。

关键词:流式大数据;实时处理技术;平台;应用

当前大数据技术的广泛应用,促进了很多行业技术进步,是增长效益的关键技术支撑。大数据系统根据时效性分为批式大数据和流式大数据(批式大数据称为“历史大数据”,流式数据称为“实时大数据”)。在互联网等应用场景中,有很多方面对大数据技术处理提出了更严格的要求例如:个性化服务方面、用户体验方面、智能分析等方面为了尽可能满足这些需求,大数据处理必须具备在毫秒甚至微秒级返回处理区的能力。本文对流式数据实时处理技术、平台进行解析,对流式数据平台的应用进行深入探究。

一、流式大数据实时处理技术解析

可以将现有的大数据处理系统分成两个方面:1.是批处理大数据系统;2.是流处理大数据系统。以hadoop为主要代表的批处理大数据系统把数据汇集,经过批量处理后加载到分析性数据当中,能够用来进行高性能随时查看。虽然批处理大数据系统可以能够实现高效率的随时查看,但是它也存在缺点,那就是无法查看到最新数据,存在数据滞后等不足问题。相比于批处理大数据系统,以Spark、Storm为主要代表的流出数据把实时数据通过流处理方式,把每条有效数据都加载到高性能数据库中进行查询。流式数据系统能够对最新数据实现高效率查询,具有数据滞后较低的可能性。但是由于占用内存容量比较大,所以必须要丢弃部分原始数据。结合实际情况相关技术人员要研发出快速、内存大、智能、自主可控的流式数据,能够有效处理数据和平台不足是当前必须解决的问题之一。而要想实现批处理和流处理相结合的系统方案,目前正在面临以下三方面难点。

(一)复杂指标增量、分布式内存的并行计算

实际上计数、求和、平均值等简单指标可以依靠查询结果完成,但是存在方差、标准差等复杂指标问题均不能通过简单合并对查询结果实现有效融合。又或者是,当查询到涉及时事热点或周期间窗口等复杂指标问题时,每增加一遍计算量就会花费大量财力物力。而分布式内存的并行计算应用的调整策略又极易造成内部资源浪费,正因此亟须研究的出现实现了细粒度基于进度实时感知的有机融合策略,优化、大大提升了融合系统内存使用率。

(二)动态数据处理

业务系统的实时数据查询请求会涉及到多尺度时间窗口,例如:最近3笔刷卡交易金额;最近10分钟内输入密码次数;一个月neural交易金额等等。实际上每一次查询请求都会对系统带来很大的影响,就此情况亟须研究实现了支持时间窗口、多种窗口漂移实时动态数据处理方法,亟须研究以极快的速度完成实时查询请求。

(三)高可用、可扩展的内存计算

当集群的内存不足过时节点失效,如何让集群在提供服务时重新平衡是一个正在等待解决的技术性难题。亟须研究分布方式的协议和自平衡的只能分区算法,可以进一步提升流处理可用性。“流立方”流式数据实时处理技术在时间窗口漂移的数据基础上快速处理,支持标准差、求和、最大、最小、等多种分布来具体统计计算模型,实现了对复杂事件等实时分析的有效管理技术。

二、流式大数据实时平台

“流立方”流式数据实时处理平台。流立方平台具有灵活性、适应性的特点。当“流立方”收到系统发出的具体实时请求时,能够根据处理模块在大数据中分析计算出相应指标,最后将结果反馈给业务系统。“流立方”平台在解决批式大数据和流式大数据融合的技术难题,除了实现优异的性能还解决了流式数据处理平台面临的问题:1.是作业具体编排效率。代码编写、功能测试、等环节是开源流处理平台完成流处理编排的重点,完成这些环节也需要大约一周时间。“流立方”平台在进行在线编排时,把上线任务耗时降到分钟,有效地提高了流处理作业编排效率;2.流处理作业灵活变更。流处理平台擅长增量计算事先定义,虽然计算效率高,但是实际计算灵活性受到极大限制。比如:一个业务需要统计未来半年内的数据,而现有的流处理平台在业务上线三个月之后才能有效,这种工作方式让流处理在实際应用中受到很大的影响。“流立方”平台在性能、可用性等多层次进行创新,不仅提高了流处理平台业务能力,充分满足了金融领域内业务运营需要。

三、流式大数据实时应用

流式大数据凭借其灵活性及可用性在诸多领域不断开展应用,以交通领域为例。通过全国摄像头采集到的车牌信息进行实时数据分析,可以通过地理位置信息和地理信息系统更好计算出最短交通距离。在智慧交通领域,“流立方”的流式数据可以获取套牌车信息,为公安打击犯罪提供有效帮助;通过实时分析交叉路口的车辆信息,控制每一个路口路灯的智能转变,进而极大地提升城市交通秩序。“流立方”金融风控反欺诈技术体系主要包括技术、知识、数据三大板块。(其中技术主要包括:设备指纹、生物识别、机器学习等;知识包括:盗卡反欺诈、信用卡套现、营销反欺诈等;数据方面包括:虚假手机数据、IP数据代理等方面)。客观讲“热数据”发挥了重要意义,从产生数据开始,它的实际应用价值随着时间飞逝呈现出逐渐下降的趋势,而未来如何应用“热数据”是一个任务重、责任大的项目。“流立方” 流式数据实时技术处理及平台无论在金融、电信、公安还是在海关、网络安全等行业中都拥有更广阔的发展前景。

四、结语

通过实践经验及理论研究证明,流式数据在技术处理与平台应用上有更大上升空间。基于此种情况,流式数据更具有向大众推广的价值。流式数据采用事前或事中模式来实现感知、判断等功能,需要以流式数据为支撑点。另外,流式数据实时处理还可以为深度学习大数据提供计算保障。“流立方”流式数据实时处理平台为概率、统计、网络等众多形态的人工智能计算框架提供更多支持。利用流式数据实时处理技术的平台系统,充分实现对数据的准确分析、提高流式处理平台数据处理能力的延展性、科学性、能够充分保证需求量。

参考文献:

[1]邢黎闻,陈纯.大数据需要实时智能分析,流式数据的实时分析,一定是有规则、模型的东西[J].信息化建设,2017(04).

[2]吴秋莉,郭丽娟,吕泽承.基于大数据的井喷式状态监测数据实时处理研究[J].电力信息与通信技术,2017(03).

[3]彭晓平,段琳,程旭明.基于电力大数据的实时流数据处理技术研究[J].电力大数据,2017(08).

[4]李鹏飞,刘春宇,海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程,2018(07).

[5]曹旭峰,江国华.一种适用于流式大数据系统测试的数据生成方法[J].计算技术与自动化,2017(03).

[6]高尚.从金融科技创新到金融模式变革——流式计算在信用卡实时大数据应用领域的研究[J].国际金融,2018(06).

[7]付琳.大数据处理系统模式及其应用分析[J].集成电路应用,2018(12).

*基金项目:多场景主动式实时大数据拥堵治理关键技术及应用(编号yjt17001)。

(作者单位:安徽三联学院)

猜你喜欢

平台应用
指媒广播制胜方略浅析
网络平台支持《教育技术学》公共课实验教学模式构建
陕西科技大学镐京学院应用型人才培养模式探索
多媒体技术在小学语文教学中的应用研究
分析膜技术及其在电厂水处理中的应用
GM(1,1)白化微分优化方程预测模型建模过程应用分析
煤矿井下坑道钻机人机工程学应用分析
气体分离提纯应用变压吸附技术的分析
会计与统计的比较研究
搭建医院工会全方位服务职工平台的思考