APP下载

大数据处理关键技术分析

2020-11-27陈亮

商品与质量 2020年12期
关键词:结构化数据处理数据挖掘

陈亮

北京中电普华信息技术有限公司 北京 100085

1 大数据产生背景

大数据的产生和云计算、物联网、互联网等技术的发展之间密切相关,通过各种先进的技术来获得大量的数据,同时计算机处理大数据能力的增强使得大数据在社会生活的方方面面得到了广泛的应用。云计算是一种在互联网平台上的先进计算手段,通过云计算技术使得计算机的软件资源和硬件资源得到共享,同时为大数据的存储和计算提供了必要的支撑。物联网是大数据产生的根源,通过物联网技术将各种信息得到收集,获取了大量的数据,这些数据中包含有许多具有价值、可以挖掘的信息。借助于物联网技术使得物品和互联网结合起来,例如可以获得消费者购买产品的各种信息,通过消费者购买产品的各种信息来了解消费者的消费习惯,为企业开发新产品,更好满足消费者需求提供决策参考。

2 大数据的数据处理关键技术

2.1 大数据采集技术

大数据进行数据处理的前提是,大数据系统已经获取的大量的数据信息,这就需要用到大数据的数据采集技术,在大数据数据采集技术中,包含了传感器、射频识别技术、计算机转换软件技术等的应用,对于互联网中某一领域出现的数据,包括结构化的、半结构化的,以及非结构化的数据信息进行广泛收集和识别,这是大数据技术的前提和基础。要想实现对于互联网中海量信息资源的准确有效的获取,需要借助分布式高速高可靠数据爬取或采集、高速数据全映象数据采集技术的应用,能够实现高速的数据解析和转换目标。就大数据采集技术系统来说,其中包含的数据采集功能区分为以下几点:

第一,数据智能感知层,这一功能区中包含了对于数据传感技术、通信技术、智能识别技术等的应用,能够对于互联网平台中某一通道或者是领域中的各类数据实施有效的跟踪和接入,完成数据信息的初步处理,为采集到的数据整合和传输奠定基础[1]。

第二,基础支撑层,这一功能区主要是为系统提供虚拟服务器,对于各类数据信息创造合理的分析环境,这一数据处理功能分区中需要重点对于数据的获取和存储,以及整理和分析等的可视化技术接入提供有效支持。

2.2 大数据预处理技术

数据预处理主要包括数据清洗、数据集成、数据转换和数据消减。数据清洗是对于不完整性数据进行处理时利用回归分析、贝叶斯计算公式或决策树推断出该数据的最大可能性。对于噪声数据的处理时一般采用Bin 方法和拟合函数对数据进行平滑。数据集成主要解决数据冗余情况和数据值冲突检测与消除问题。数据转换就是将数据进行转换或归并。数据消减主要目的是从数据集中获得一个精简数据集。

2.3 大数据存储及管理技术

大数据采取的数据信息量十分庞大,对于海量的数据信息大数据系统必须要能有效地存储和管理。针对采集的数据信息,系统通过构建数据库,进行数据的集中储存和管理。在进行数据信息进行储存和管理过程中,需要确保数据库中的数据信息形式尽可能保持一致,这就需要做好对于不同种类数据信息的有效转化和处理。要突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术[2]。

在数据的存储和管理中,还需要注重信息的有效分类,建立对应的数据库,实现信息的有效调用,此外,还要针对数据的安全问题进行有效保护,通过使用加密技术、访问限制、数据销毁等技术应用,提升数据库的数据安全级别,避免数据存在遗失和被窃取的问题。

2.4 数据挖掘

数据挖掘是大数据处理的核心技术,不同的数据挖掘算法可能会获得不同的决策信息。数据挖掘就是要通过统计分析、在线分析、情报检索、专家系统、模式识别等手段来实现对大数据的分类、关联。海量的大数据来通过聚类分析算法进行分类,构建不同的数据处理模型。通过聚类分析来获得彼此相近的不同簇数据,使得数据进行分离。借助于关联规则来获得隐藏在不同数据项之间的关联规则。当前机器学习、人工智能技术的发展使得其在大数据分析中得到了广泛的应用,通过机器学习算法来有效地模拟或者实现人类的学习行为,使得其获得学习新知识的能力和技能,不断地改善自身的性能。深度学习是神经网络的扩展,通过组合底层的特征来获得更加抽象的、较高层次的属性类别或特征,以此发现数据的分布式特征。人工智能是研究大数据分析的重要手段,例如借助于人工智能的知识图谱来获得语义网络,在此基础上挖掘海量数据中所包含的大量信息[3]。

3 大数据处理技术未来发展建议

随着经济发展的日新月异,大数据处理技术越来越重要,高速的经济发展速度也要求更先进的大数据处理技术,一成不变的大数据技术无法跟上时代的脚步。就目前而言,大数据处理技术未来的发展将主要体现于: 优化数据的时效性和稳定性,优化对系统硬件高要求的苛刻条件,同时处理单元与存储结构等方面也有待改进。目前在监管大数据处理技术的应用方面还存在着法律盲区,大数据日新月异的变化亟须更加完善的法律体系,以防其被应用于各类违法活动。随着人们经济活动的复杂性提升,大数据处理技术的价值也越来越高,如何正确应用于保护人们隐私也是大数据处理技术未来的发展方向。大数据处理技术目前的排他性较强,应用性不够广泛,需要不断拓展,从而适用更宽更广的形势要求。另外,大数据处理技术的安全防范能力,也极大地决定了其是否能够广泛应用。如果该技术能在存储、传输和读写等环节能够有效防范外界的黑客攻击,确保大数据处理技术的绝对安全性,那么其应用前景也将大为改善。

4 结语

大数据技术是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化数据进行处理,从而获得分析和预测结果的数据处理技术。大数据价值的完整体现需要多种技术的协同。

猜你喜欢

结构化数据处理数据挖掘
改进支持向量机在特征数据挖掘中的智能应用
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
基于低频功率数据处理的负荷分解方法
无人机测绘数据处理关键技术及运用
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习