APP下载

基于大数据的信息化整合方法及建议

2021-04-11赵昕晖郭智强

甘肃科技 2021年17期
关键词:结构化数据挖掘决策

赵昕晖,郭智强

(1.甘肃省科学技术情报研究所,2 甘肃省物产集团有限责任公司,甘肃 兰州 730000)

在全球信息化这一时代大背景下,各个应用系统产生了大量的数据资源,由此整合数据资源及提升数据价值的需求也日益增长,并进一步推动了大数据和云计算技术的快速发展。大数据是信息化建设中产生的各类数据的总称,从数据结构方面来说,分为结构化数据和非结构化数据;其中结构化数据易于分析处理,而非结构化数据分析处理是大数据应用中面临的难题之一。因此,系统应用分布式计算、非结构化数据存储、垂直型数据库应用等是基于大数据信息化整合的重点研究领域[1]。

1 大数据与云计算的关系

近年来,大数据和云计算等名词频频登上计算机领域的技术热搜榜首。但大数据和云计算之间的关系人们普遍缺乏系统的认识。大数据是指在信息化建设过程中产生的一系列围绕信息化系统的数据总集,这些数据包含了信息化系统本身的基本结构化数据和非结构化数据,以及系统和用户产生的相关日志等文本类型的数据。但想要通过单一的计算并分析这些数据,用来提供一定的决策支撑显然是耗时耗力的,因此必须使用到云计算技术对大数据进行分析和存储。云计算的前身就是分布式计算,将复杂的计算任务由单一的服务器计算通过云计算软件调度,拆分成并行的多个计算线程,由服务器集群分别计算后再汇总结果。因此,大数据与云计算是相辅相成的,想要用好大数据,必须从信息化底层整合计算资源和数据资源。

2 大数据技术对打通信息化孤岛的作用

大数据技术是由一系列处理数据有关的单独技术综合而成,其包含了数据获取技术、数据存储技术、数据检索技术和数据挖掘技术,运用以上四种技术组建数据资源池,并基于各信息化系统的元数据标准,可有效打破各信息系统之间互不关联的信息资源孤岛,形成大数据资源的综合运用。

2.1 数据资源采集获取技术

数据资源采集获取技术分为针对结构化数据的数据导入导出工具、SQL 脚本、软件接口、和数据爬虫等定时推送技术。非结构化信息的获取需要批量采集非结构化数据的元数据信息,通过元数据信息来对非结构化数据进行描述,来达到大数据平台的获取需求。

2.2 数据存储技术

大数据的存储主要采用分布式存储技术,比较成熟的技术包括Hadoop 的HDFS 集群以及由HDFS 集群和结构化数据库MySQL 集群共同组成大数据存储平台。采用这种数据存储方法既保证了多种数据的存储,并且可以有效的利用Hive、Spark、MapReduce 等技术对大数据进行离线计算。从而可以有效地提高大数据的计算处理效率和处理质量,缩短处理时间,提升数据利用率。

2.3 大数据检索技术

大数据搜索技术是大数据的典型应用场景之一,在搜索领域也出现了一些成熟的技术,这类技术主要是基于分布式的全文搜索引擎与数据分析引擎。该技术能实现大数据平台的数据搜索、分析和探索能力,具备良好的可扩展性和二次开发程序接口,可以为大数据整合提供完整的搜索解决方案。

2.4 大数据挖掘技术

大数据之所以产生价值,就在于对大数据的挖掘分析。基于OLAP(联机分析)技术可以使用大数据方便的形成数据画像、各类报表。通过深入的数据挖掘可以形成针对访问用户的精准数据画像,典型的应用包括各类电商平台的推荐系统和保险营销的营销系统。

3 基于大数据技术的应用研究领域

基于大数据技术的信息化整合应从软件和硬件两个方面着手。软件方面,通过使用ETL(数据仓储)工具,将一个个孤立的业务系统数据进行数据抽取、数据清洗、数据转换之后,整合存储到大数据平台资源池以备使用。软件方面,通过使用Hadoop集群可以很好地解决大数据分布式存储和数据挖掘计算。硬件方面,采用流行的软件定义网络产品,将多台高性能服务器使用虚拟化技术进行资源管理和分配,这样能够做到计算和存储资源的有效利用。并且通过部署Hadoop 集群,做到大数据的分布式存储、分发、计算,有效节约了时间成本和运维成本,数据处理效率得到了高可靠的保证。在信息安全方面,大数据中的应用数据始终处于流动状态,因此可以采用https 数字证书加密等方式,保障系统数据的加密传输。在硬件安全方面,应尽量采用安全审计设备,对各类信息进行监测,由专业安全人员根据数据的重要性采用不同的监测和加密方式进行传输和使用[1]。

通过大数据技术将传统的信息化业务系统整合成为了一个统一的应用平台,实现业务系统数据的交互,在数据挖掘方面和数据搜索方面提升了数据的利用率,为决策支持提供有效的数字支撑。例如,采用综合统计报表等方式,通过数据分析大屏直观地展示,从而提供决策支持依据,提升业务流转效率,优化各业务部门的协同作业。

使用大数据平台整合了信息化业务系统后,还可以有效的加强内部辅助系统的应用研发,例如可以在考核、财务、信息资源共享等方面拓展大数据平台的应用范围[2]。在考核方面,有关人员考核的数据可以经由大数据平台汇总,大数据平台可以直观的反映人员的出勤、产出等方面的数据,加强对人员的管理把控;在财务管理方面,有支付需求的业务可以采用统一的支付平台,通过支付平台的应用可以减少财务对账流程,杜绝财务错账坏账的发生,并对合同进行有效的追踪和使用。在信息资源共享方面,可以通过大数据平台轻松实现内部资源共享,并做到相关性资料一键搜索。

4 数据价值体现和发展方向

4.1 大数据推动决策

大数据整合后,用好大数据的主要方向就是向决策主体服务[2],通过各个业务系统汇聚而来的数据,经过大数据平台的分析挖掘,形成的数据分析结果可以在不同的决策主体之间进行共享流转,进而方便各决策主体单位及时掌握大数据平台的分析数据和关联因素,加快决策进程。

4.2 大数据推动智慧城市发展

智慧城市是典型的大数据应用,通过打通城市政府各业务系统,可以实现智慧城市智能大数据应用[3]。例如通过交通信号摄像大数据实现智慧交通,动态调节城市交通;通过对城市常住人口的大数据分析,使社区部门掌握人口变化信息和养老信息,从而推动社区精细化管理。

4.3 大数据推动舆情监控

社交媒体大数据在舆情监控方面独有价值,通过对社交媒体产生的大数据进行挖掘分析,做到对社交人员的学习画像[4],及时掌握舆情信息,促进政府对舆情的正确研判和正确引导,及时介入解决纠纷。

5 结语

大数据的信息化整合,不仅仅是从技术上打通信息孤岛,更是要用好大数据。通过对大数据的分析、加工、挖掘,使数据产生更高的使用价值,从而提高数据的利用率,发挥大数据在决策中的应有作用。本文简单地探讨了大数据的基本整合思路和常用的整合技术,希望能对推动各行业大数据平台落地实施有所帮助。

猜你喜欢

结构化数据挖掘决策
为可持续决策提供依据
促进知识结构化的主题式复习初探
探讨人工智能与数据挖掘发展趋势
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
决策为什么失误了
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于软信息的结构化转换
基于GPGPU的离散数据挖掘研究