APP下载

基于大数据武警数据平台搭建方法论

2019-11-14杨艳秋中国人民武装警察部队警官学院四川成都610000

新生代 2019年18期
关键词:数据模型数据挖掘可视化

杨艳秋 中国人民武装警察部队警官学院 四川成都 610000

目前,在大数据领域每年都会出现新的技术,这些技术有效的推动了大数据的发展。数据挖掘能够有效的在大规模的数据中分析出隐藏的数据价值。海量数据挖掘是可规划的数据分析行为,在数据量大,数据结构不统一的情况下,建设基于大数据的武警信息平台需要从搭建初期就要有数据思维。本文立足于数据平台搭建的方法论。

大数据的挖掘需要从生命周期做数据规划,主本文从元数据规划、数据质量分析及提升,数据标签,数据建模,数据可视化五个步骤进行阐述。

元数据规划,主要是从运行数据,经营数据,行为数据,维护数据以及其他数据中来建立,其中经营数据包含其他系统的数据,如内部管理系统,Web信息系统,科研系统数据集 运行数据比如系统在运行中产生的告警,预警,事件等 行为数据如登录事件,点击次数、频率,访问页面的地址,分享或者下载的文件等 维护数据如机房断电紧急恢复,对于其他的数据如天气情况,位置信息,环境信息等。通过对元数据的规划,能够有效的将异构的数据做集成处理,交给下一步做数据清洗。

数据质量分析及提升也就是数据清洗,也可以叫数据预处理,我们收集到的元数据做进一步的处理如数据一致性,处理无效值和缺失值等。我们常用到的方法可以是:批量数据补全,对一些数据集中的数据,采用求平均、求最值或者其他数学计算公式得到补全。或者用偏差、针对业务的异常值或可以是统计可以查看到的数据做数据清洗。

数据标签我们也可以叫做数据切片,也就是从不同的维度描述数据,如基础标签:存储,安全登记,怎么访问 数据仓储标签:周期性,是全面/增量 具体的业务标签,是管理系统,是某个功能相关,为这些数据做标签处理。

数据建模是将我们的数据降维,做归一化处理后,变成单个指标或一个数据模型,在这一个步骤中,我们可以细分为多个小方法,第一:需要针对具体的业务场景或针对已有的数学模型选择 第二:需要训练选定的数据模型,通常需要根据业务、具体使用情况调整模型的参数配置 第三:通过训练模型,对比模型是否受用,与标准值的对比,通过一些数学指标如:平均误差率,判定系数等评估模型的正确性、查全性、查全率。第四:评估出最优模型检验模型在真实的业务场景中的效果,并进行优化。通过以上的步骤,并通过聚类、关联规则、EM、KNN等数据分析方法可以进行大规模的指标化,找出数据中的价值。

数据可视化,为了能够更直观的看到数据,它是关于数据视觉表现形式的科学技术研究,解决我们在视觉上,空间上的不足,常用的手段包括:图形化,表格化等。

本文就元数据规划、数据质量分析及提升,数据标签,数据建模,数据可视化五个步骤对基于大数据武警数据平台搭建做了方法阐述。

猜你喜欢

数据模型数据挖掘可视化
自然资源可视化决策系统
改进支持向量机在特征数据挖掘中的智能应用
思维可视化
自然资源可视化决策系统
基于区块链的微网绿电交易数据模型研究
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
基于Pro/E 的发射装置设计数据快速转化方法
关于PowerDesigner软件工程技术的研究
基于知识图谱的我国短道速滑研究可视化分析