APP下载

一种大数据融合处理方法研究

2022-05-21孙亮,贺莹

今日自动化 2022年2期
关键词:数据融合多元线性回归

孙亮,贺莹

[摘    要]通过分析数据融合处理平台和网络架构,分析了多元线性回归数据融合的事件统计方法,在保证数据的一致性、完成性和准确性的前提下,构建从数据模型设计、数据开发、运维全生命周期的数据管控平台,并以业务数据为核心构建数据资源共享中心的数据体系,建立数据融合处理分析仿真平台,对相关数据进行融合分析,可为其他业务数据的融合处理和统一管理提供技术思路。

[关键词]数据融合;多元线性回归;网络事件

[中图分类号]TP393 [文献标志码]A [文章编号]2095–6487(2022)02–0–03

Research on a big Data Fusion Processing Method

Sun Liang,He Ying

[Abstract]By analyzing the data fusion processing platform and network architecture, the event statistics method of multiple linear regression data fusion is analyzed. On the premise of ensuring the consistency, completeness and accuracy of the data, the construction from data model design, data development, operation Maintain a data management and control platform for the entire life cycle, and build a data system of data resource sharing center with business data as the core, and establish a data fusion processing analysis simulation platform to perform fusion analysis on related data, which can be used for fusion processing and unification of other business data. Management provides technical ideas.

[Keywords]data fusion; multiple linear regression; network event

多源异构网络信息数据融合主要是基于多种(同类或异类)信息源和数据源,根据某种特定标准在空间和时间上进行数据或信息的整合处理分析,获取多源数据信息的内容精准描述和深度分析,同时要保证本系统的安全稳定运行。从多源数据融合的层次来说,多源数据融合处理的训练模型通常从数据、特征、决策三个层次上进行数据的融合处理分析。

多源数据信息的融合处理系统一般都可以分为集中式数据融合、分布式数据融合和集中式/分布式混合融合。在实际工程项目中,面对不同的实际问题,可根据信息源数据特征的差异和关系,可单独采用多层次多层级的数据融合方法,也可采用组合式数据融合处理方法,以保证数据融合处理的高效和能力最优。当前,基于多源异构网络数据相融合的数据种类多、数量大,需要将各类数据进行统一存储,按照分布式的数据采集,集中式的数据管理原则进行高价值情报信息的分析、挖掘和利用。

本文将通过建立数据标准体系和数据质量体系,保证数据的一致性、完成性和准确性,并建立数据开发平台,提供高效的数据分析、抽取能力,构建从数据模型设计、数据开发、运维、使用一体化全生命周期的数据管控平台,并以业务数据为核心构建数据资源共享中心的数据体系,从而对数据进行各种维度的有效組织和管理,形成全局的数据架构。

1 系统概述

采用分布式架构建立数据资源共享管理系统,来完成数据交互功能的同时,能有效地实现数据服务高可用和高性能,分布式节点之间对业务数据进行读写的并行处理。对各类数据进行存储管理,以保证系统对各类相关业务数据的服务,可实现对亿级在库数据的秒级全文检索及相关系统的互联互通[1-3]。

数据是信息系统的核心,集中、高效、高可扩展的存储环境是实现数据资源保存、共享、开发利用的基础设施。存储备份系统不仅要满足大容量数据存储和快速响应的需要,还要保障数据的安全性和一致性,因此需要通过建立集中、高效的存储备份系统,实现系统在不间断运行情况下的数据保存和意外情况下的数据恢复。

按照存储数据的类型划分,每个存储节点主要包含结构化数据和非结构化数据两类数据。结构化数据主要包括业务数据、公共信息库中的拷贝数据、组织机构及人员信息、权限信息等公共配置信息等;非结构化数据主要包括工作文书、文书审批表、各种图片、扫描件等附件等。本文综合考虑数据类型、业务应用模式和数据规模等多方面的因素,以及数据备份恢复和导入导出等系统维护性需求,结构化数据通过数据库进行存储,非结构化数据通过文件系统进行存储,结构化数据与非结构化数据的关联通过在数据库中保存文件地址的映射来实现。

2 系统架构

数据资源共享管理系统基于Hadoop的数据基础软件,Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的威力进行高速运算和存储,具有可靠、高效、可伸缩的特点。

Hadoop的核心是YARN,HDFS和MapReduce。HDFS是分布式文件存储系统,用于存储海量数据;MapReduce是并行处理框架,实现任务分解和调度。Hadoop可以用来搭建大型数据仓库,对海量数据进行存储、分析、处理和统计等业务,功能十分强大。

基于Hadoop的数据融处理系统架构的设计原则就是要满足大数据输入、存储、处理和分析等需求,该系统主要分为基础支撑层、数据处理与分析层和应用系统层。其中,基础支撑层主要由Hadoop系统组件和其他数据预处理工具组成,在完成数据存储、计算和网络传输等任务以外,还提供基于分布式架构的流计算、在线/离线批处理以及图形计算等服务;数据处理与分析层由多个数据处理和分析功能模块组成,在完成基本数据抽取与统计分析任务的基础上,还具备结构化、半结构化、非结构化以及组合化数据转换处理分析、信息内容深度理解与挖掘等能力,该层核心功能主要包括自然语言处理、图像视频内容深度理解、数字文本深度挖掘关联与分析等,数据处理与分析层对于数据处理的能力大小将很大程度影响应用系统层数据统计分析与综合结果展示的准确性和全面性;应用系统层由SSH框架和综合结果可视化展示工具组成,该层的任务主要是对数据处理与分析层输出的处理分析结果的进一步分析。整个系统框架的构建主要是基于各类开源的组件和插件,Hadoop分布式文件系统为本系统提供存储能力,本系统支持Oracle、MySQL等结构化数据的存储,核心计算功能模块主要包括MapReduce、Storm、Spark以及定制化分布式视频处理引擎,基于SSH框架构建可视化功能模块,并支持按照需求灵活配置。

3 数据融合处理分析

数据融合处理涉及到系统端到端的各个环节,包括数据接入、数据预处理、数据存储、数据处理、数据可视化等。其中,数据接入是基于规范化的传输协议和数据格式,从不同应用和数据源(如互联网、物联网等)进行离线或实时的数据采集、传输、分发;数据预处理是对数据进行整理、清洗、转换等,以便支撑后续数据处理、查询、分析等进一步应用;数据存储基于HDFS 分布式文件系统对海量半结构化和非结构化数据的存储,支撑内容检索、深度挖掘、综合分析等大数据分析应用;数据处理是根据业务实际情况进行数据离线处理、实时处理,并利用机器学习算法对大规模数据进行深度挖掘分析;数据可视化借助图表、2D/3D 视图等多种方式,直观反映出数据各维度指标的变化趋势,用以支撑用户分析、监控和数据价值挖掘。

数据采集主要实现多源、多方式、多类别的大数据采集、汇聚、去重等功能;数据存储主要实现关系型和非关系型数据的统一管理,包括压缩、分布式存储、加密等;数据分析服务主要实现大数据环境下统一数据访问接口设置,通过Java、Ruby、Python、PHP、Node.js、Perl等开发语言与框架以及平台提供的API访问数据资源。

多源异构数据采集是系统核心模块,包括数据采集、抽取、清洗、转换、加载、资源管理、更新管理、审核、融合和数据目录服务等功能;通过XML服务接口、分布式文件读取、关系数据库同步抽取等多种方式,将元数据抽取到大数据分析平台,并经过数据预处理操作,完成数据ETL(清洗、转换、加载)等流程,将采集到的数据进行数据规范化,形成清洁大数据池供各个终端用户通过API等形式调用。

数据处理平台包括外网区、用户访问区、辅助安全区、信息系统区、大数据集群、云计算集群、运维管理区等:外网区由多台高性能路由器/核心交换机连接外网运营商,并且构成骨干网;内网的数据中心网络采用最新的数据中心以太网技术,支持10G的网内服务器之间的高速数据传输;用户访问区是所有人员公用的网络区域,可以通过上网账号和密码使用无线网络或者企业网接入访问数据处理平台;辅助安全区包括流量控制、防拒绝服务攻击(DDOS)、入侵检测(IDS)、入侵防护系统(IPS)、 虚拟专用网(SSL VPN)、漏洞扫描、数据库安全审计系统等。

通过整合多源异构数据库,构建海量数据优化存储系统;支持ORACLE、SQL Server、MySQL等大型的主流数据库;支持Windows、Linux等操作系统;采用Web Service技术、利用XML作为系统接口的数据交换标准,进行信息资源整合;利用SSL安全协议保护登陆过程的账号、密码等信息。

此外,数据安全防护是整个系统非常重要的功能模块,决定了整个系统数据的安全运维和稳定分析。数据库系统及其数据是系统中的核心资产,面对目前数据库和应用系统在逻辑和技术上层出不穷的安全漏洞,以及管理层制定的监督管理制度缺乏有效执行保障的现状,本系统通过建立高可靠性的安全时空数据库架构,从根本上杜绝任何技术手段或违规操作对数据的非法获取和篡改。系统具有海量时空多媒体信息的集群管理、分布式查询与处理功能的跨平台,分布式、高安全的数据库管理系统平台软件,主要功能包括:关系型数据库功能;空间数据管理功能;多媒体数据管理功能;数据集群管理功能;高安全数据管理功能(支持数据库管理员、安全管理员和审计管理员的分立管理,多策略访问控制,细粒度的审计功能,强用户身份安全验证机制,隐蔽信道通信监测和加密通信等)。

4 基于多元线性回归数据融合的事件统计分析

在数据融合处理计算平台和网络平台搭建的基础上,基于多元线性回归模型对大规模业务数据进行融合处理,并在此基础上对某事件进行统计分析。

多元线性回归模型是反映自变量与因变量之间“紧密性”的关系。因此,在分析数据的基础上,采用多元线性回归的方法来衡量数据变化的趋势走向。假设影响因变量y的自变量個数为N,自变量记为x1,x2,…,xn,则自变量与因变量是线性关系:

Y=β0+β1x1+β2x2+…+βnxn+ε

其中,β1,β2,…,βn是回归系数;ε是与x1,x2,…,xn无关的未知参数,取值范围为(0,σ2)。同时,在事件B出现的前提下,事件A出现的概率等于A和B都出现的概率除以B出现的概率,具体如下:

其中,P(A|B)是后验概率;P(A)是先验概率;P(B|A)/P(B)是一个调整因子,是在已知某些观测所得到的结果。在预估先验概率的前提下,再加入观测结果,通过观测结果来增强或者削弱先验概率,由此得到更接近事实的后验概率。

多源异构网络安全状态数据差异性很大,可能是实时数据,也可能是非实时数据;可能是连续数据,也可能是离散数据;可能是互相支持的数据,也可能是互相矛盾的数据。在多元线性回归模型构建基础上进行数据融合,充分利用多源异构网络安全状态数据,将其冗余或互补的数据依据某种准则进行融合,以获得对待识别安全事件的一致性描述或解释,使得数据融合系统得到的实际输出比依靠任何单一数据源构成的系统获得更优越的性能。

5 仿真结果

通过计算机模拟数据融合处理计算平台和网络平台,并结合基于多元线性回归数据融合的事件统计分析方法,对某互联网事件进行分析和结果呈现。在该数据呈现中,拟定呈现一种数据,即以分区某专业内数据产生时间为导向的数据量展示。拟用以时间为导向的柱状图来展示该专业内的数据变化情况。最终呈现效果如图1所示。

从上面数据变化展示图中可以直观地看到某网络事件随时间的变化规律,以及在什么时间段事件的发酵率最大,可为下一步针对该事件进行溯源分析和未来事件发展趋势预测提供支撑。

6 结论

通过分析数据融合处理平台和网络架构,分析了多元线性回归数据融合的事件统计方法,在保证数据的一致性、完成性和准确性的前提下,构建从数据模型设计、数据开发、运维、使用一体化全生命周期的数据管控平台,并以业务数据为核心构建数据资源共享中心的数据体系,并建立数据融合处理分析仿真平台。针对某网络事件,对事件相关数据进行融合分析,可为其他业务数据的融合处理和统一管理提供技术思路。

参考文献

[1] 肖璐雯.大数据形势下的广播电视安全播出技术[J].科技资讯,2020,18(11):2.

[2] 陈青娇.大数据时代高校档案管理工作创新[J].中国管理信息化,2020,23(12):2.

[3] 李明.多源信息融合技术发展简述[J].舰船电子工程,2017,37(6):5-9.

猜你喜欢

数据融合多元线性回归
多传感器数据融合技术在机房监控系统中的应用
《可靠性工程》课程教学的几点思考
基于组合模型的卷烟市场需求预测研究
基于多元线性回归分析的冬季鸟类生境选择研究
基于数据融合的家庭远程监护系统研究
我国上市商业银行信贷资产证券化效应实证研究
云学习平台大学生学业成绩预测与干预研究
全国主要市辖区的房价收入比影响因素研究
船舶动力定位中的数据融合技术文献综述
利用计量工具比较东西部的经济状况