人工智能大数据平台及应用分析
2020-11-02员青泽
员青泽
摘要:人工智能与大数据平台是业内研究的主要课题之一,如果能够将二者进行有机融合,则可使大数据平台变得更加智能化,对于其应用领域的拓宽具有重要的现实意义。基于此点,文章从关键技术、平台搭建和应用三个方面,对人工智能大数据平台及应用展开论述。
关键词:人工智能;大数据;平台
中图分类号:TP3 文献标识码:A
文章编号:1009-3044(2020)26-0171-02
人工智能作为一项先进的技术,它能够辅助大数据平台对海量的数据进行深入挖掘和分析,从而进一步提升大数据的利用效率,使数据发挥出应有的价值。不仅如此,人工智能可以对文本、图像以及视频等类型的数据进行处理,由此使得数据的发现能力得到大幅度提高,并且可以将结果输出到显示器上,实现了数据可视化。作为计算机领域的核心技术,人工智能日渐成熟,它与大数据平台的融合,可以使平台的处理速度和自动化水平达到一个新的高度。借此,本文就人工智能大数据平台及应用展开分析探讨。
1人工智能大数据平台的关键技术
1.1 Hadoop架构
Hadoop是分布式系统的基础架构,它可以对大量数据进行分布式处理,该框架的可靠性非常之高,这是因为其在构建过程中,假设计算和数据存储全部都会失败,所以需要对多个数据副本进行维护,确保能够对失败的节点进行重新地分布处理。由于该架构采用的是并行处理方式,因此使其具备了较快的处理速度,处理过程更加高效。Hadoop具有可伸缩的特性,可以对PB级的数据进行处理,它是开源的,任何人都可以使用,成本相对较低。在大数据处理中,Hadoop架构得到越来越广泛的应用,这与其在ETL(数据提取、转换、加载)方面的优势有着密不可分的关联,通过分布式系统能够使大数据处理引擎靠近存储,从而使处理结果可以被直接存储。
1.2 HDFS
HDFS是分布式文件系统的简称,是Hadoop架构的底部基础,它的上一层是MapReduce引擎。HDFS最初的开发目的是为了对超大的文件进行处理,其特点主要体现在如下几个方面:吞吐率高、可靠性高、容错率高、易于扩展等,能够对海量数据进行无障碍存储。HDFS以通用的硬件作为基础,现已成为大规模数据存储的标准之一。HDFS为M/S(主从)架构,其集群中包含两类节点,一类是NameNode(管理者),另外一类是DateNode(工作者),前者能够对文件内数据节点的信息、集群配置信息以及文件命名空间等进行管理,而后者则是存储文件的主要单元。
1.3 Hive
Hive是以Hadoop为依托构建起来的数据仓库平台,只要熟悉SQL编程方法,便可轻松实现向Hadoop转移的目标,这是Hive最初设计的主要目的。早期的Hive是Face book(脸书)的组成部分之一,现在的Hive则是Apache的独立子项目。Hive作为Hadoop的数据仓库,其能够提供如下管理功能:对大型的数据集进行查询和分析,并对相关的数据进行存储管理,支持用户进行SQL操作,并支持MapReduce框架。Hive的体系架构由以下几个部分构成:用户接口、Thrift服务器、元数据存储以及解析器等。
1.4 Python
Python是一种能够跨平台应用的计算机编程语言,是一个高层次的脚本语言,具备解释性、编译性、互动性等特点,可用于自动化脚本的编写。Python应用领域较为广泛,主要涉及如下几个方面:人工智能、大数据、云计算、Web开发、系统运维等。Python具有开源的特性,由此使其可被移植到多个平台上使用,基于Python编写出來的程序,在无须修改的情况下,能够在大量的系统平台上直接运行。
2人工智能大数据平台的搭建
人工智能大数据平台的搭建是一项较为复杂且系统的工作,为简化搭建流程,可将人工智能与大数据进行有机融合,构建起一个大数据智能平台。具体而言,就是为大数据平台赋予人工智能的相关能力,在这一目标的实现中,要使Hadoop与开源的人工智能架构进行融合。
2.1融合要求
在人工智能与大数据平台融合的过程中,应当满足如下要求。
2.1.1隔离机制
融合之后形成的大数据智能平台应当能够支持Docker(应用容器引擎)等Isolation mechanism(隔离机制),并且能够适应更新速度比较快的人工智能开关框架和Python标准库。同时,不会对平台的运行稳定性造成影响,可以对人工智能训练进行隔离,彼此之间不会发生相互干扰的情况。
2.1.2代码无缝对接
丰富的源码共享是开源人工智能框架所具备的基本特点之一,在进行融合的过程中,应当使大数据平台支持人工智能的原生代码,并使这些代码能够与平台无缝对接,这样可以减轻平台的研发量。想要实现这一目标,要求Hadoop架构与人工智能框架可以互相兼容。
2.1.3 HDFS衔接
为了使大数据平台具备人工智能的能力,需要对海量的数据资源进行充分利用。故此,应当确保人工智能框架能够直接对HDFS文件数据进行直接访问和使用,否则将会对平台的应用效果造成影响。
2.2 融合框架
人工智能与大数据平台有机融合之后,形成大数据智能平台,该平台分为以下三个层次:数据处理层、赋能层和应用层。为实现数据处理与人工智能赋能之间的衔接,引入数据融合引擎,对数据处理层与赋能层进行深度黏合。
2.2.1数据处理层
该层以Hadoop集群作为支撑,对相关的数据开源架构进行融合,包括Hive、Spark等,具备如下功能:数据采集、数据抽取、数据转换、数据加载、数据分析、数据治理、数据共享以及可视化展示等。
2.2.2数据融合引擎
在大数据智能平台中,数据融合引擎的加入能够实现人工智能框架、算法模型与大数据平台三者之间的无缝衔接,它能够实现隔离机制,保证人工智能代码的对接和HDFS文件数据的衔接。
2.2.3赋能层
该层由两个部分组成,一部分是深度学习,其中全部为人工智能的开源框架,如PyTorch、Caffe等。另一部分是机械学习算法,包括聚类算法、分类算法以及回归算法等。
2.2.4应用层
该层以海量的大数据作为依托,以成熟度比较高的人工智能算法为基础,以预测的方法,对人工智能模型进行训练,进而提供各种智能应用。
3人工智能大数据平台的应用
本文所搭建的平台是将人工智能与大数据平台进行有机融合,从而使平台本身具备了智能性,由于整个平台采用的是开源架构,所以该平台具有良好的通用性,能够在诸多领域中进行应用,具体包括电力、医疗、物流等。
3.1在电力领域的应用
电厂是电力系统中不可或缺的重要组成部分之一,主要负责电能的生产,可在电厂部署本文搭建的大数据智能平台,借助该平台对电厂运行中产生的数据进行处理,以此来提高数据处理效率,确保数据处理结果的准确性。电厂在对该平台进行应用以后,解决了以下问题:通过该平台对集散控制系统(DCS)的相关数据进行分析,得出设备重要的参数,据此构建监测模型,对数据进行持续监控,发现异常后DCS会自动发出报警,提示工作人员进行处理。当出现异常运行后,可利用该平台对故障点产生的数据进行智能分析,从而找出导致故障的原因,帮助现场操作人员解决故障问题,恢复正常运行。该平台能够对数据进行可视化展示,它在电厂的应用改变了被动的管理方式,通过智能标签的绑定,能够对人员的位置进行实时显示。不仅如此,该平台还能对电厂的小指标进行智能化管理,对相关数据进行自动统计分析,从而及时发现超标的情况,进而降低员工的实际工作量。
3.2在医疗领域的应用
本文搭建的大数据智能平台在医疗领域的应用,除了能够提高医疗机构的管理水平之外,还能为医疗科研项目的开展提供一定的帮助。该平台借助数据搜索引擎,可对某个区域内医疗机构的诊疗数据进行汇集,通过这些数据可以掌握区域的整体医疗状况,从而为有关部门制定政策提供强有力的数据支撑。而医院则可依托平台提供的数据进行可视化分析,以此来对现有的医疗服务进行改进和完善,从而提高医疗水平和服务质量。该平台可以对病案等信息进行收集,建立数据集市,医院的管理人员可以利用数据集市对各个科室进行绩效考评。同时,各个科室也可借助数据集市对本科室的医护人员进行绩效考核。在医疗科研方面,该平台能够对相关数据进行全局展示,并根据科研项目的实际情况对数据进行筛选,将不符合要求的数据剔除,提高了数据处理速度。
3.3在物流领域的应用
物流业是极具发展潜力的一个行业,它的发展有利于促进社会经济的发展。物流涉及的环节比较多,如运输、仓储、装卸、流通加工等,每个环节都会产生大量的数据信息,对这些数据进行深入挖掘,能夠提高物流配送效率,降低物流成本,满足不同客户的服务需求。本文搭建的平台可在物流领域进行应用,能够解决运输路线的优化、库存预测以及供应链协同管理等方面的问题,对于促进物流业的持续发展意义重大。比如,在车辆运输路线优化中,通过本文搭建的大数据智能平台,可以对送货路线进行优化,平台能够找出多条路线,并从中选取出最佳路径,缩短运输路程和时间。
4结论
综上所述,本文基于Hadoop架构,利用HFDS、Hive、Python等技术,对人工智能与大数据平台进行融合,形成了大数据智能平台,并对该平台在电力、医疗、物流等领域中的应用进行分析。结果表明,本文构建的平台具有良好的通用性,可以解决不同领域的实际问题,具有一定的推广使用价值。
参考文献:
[1] 王智阳,谢中朋,郭婷.构建应急大数据平台解决应急管理面临问题的探讨[J].职业卫生与应急救援,2019(12):165-168.
[2] 曾云华,曾睿,袁武彬.智慧新余时空大数据平台实景三维数据应用与展望[J].江西测绘,2019(12):154-156.
[3] 赵少东,王程斯.基于异构计算与实时可视化技术的综合能源大数据平台研究与应用[J].微型电脑应用,2019(11):127-129.
[4] 谢英杰.中医院医疗大数据平台智能搜索子系统设计与实现[D].山东大学,2019.
[5] 王永锐.调度指挥中心大数据平台在企业信息化管理中的应用[J].机电信息,2020(3):54-57.
[6] 杨夏薇.基于Hadoop大数据平台的人力资源决策技术研究[J].现代电子技术,2020(2):32-35.
【通联编辑:张薇】