基于混合核函数支持向量机的智能运维管理研究
2018-10-15彭建新万腾辉
彭建新, 万腾辉, 赵 熙
(1.广东警官学院网络信息中心, 广东广州 510230; 2.广东省公安厅科技信息化处, 广东广州 510050;3.广州越维信息科技有限公司, 广东广州 510660)
0 引言
如今,将物联网、智能机器人、大数据、云计算、移动互联网、智能专家系统等先进技术应用到机房运维中已经是大势所趋。IT信息系统的日渐复杂,也使得业务对信息系统产生高度依赖,这也就对系统的稳定性和可靠性提出了更高的要求,使相对应的运维管理多年处于手工维护和被动的状态[1]。
近些年来,不同类别的应用系统的推广规模和建设速度显得非常迅猛,因此系统维护所需人员亦随之增多,技术水平的要求也逐渐提高,并对技术人员的综合素质也达到了另一个更高的层次,但一个人无法同时具备各类专业技能,需要构建一套基于智能机器人的智能专家系统,为管理人员和技术人员提供故障的预测、故障辅助解决的计算机分类系统(通过智能知识库和智能专家系统实现故障自助处理和专家引导处理)、专家咨询等服务[2]。实现设备运行状态的实时监测、故障的提前预警和故障预判、智能专家服务、科学的设备和服务评价管理等,帮助用户有效延长设备的使用周期,降低设备的故障率,加快故障处理速度,提升IT运维服务水平和设备使用人员对运维服务的满意度。
1 技术介绍
围绕知识在信息化设备全生命周期中的收集、运用和管理展开,以全面的设备和服务评价管理为驱动,在信息化设备维保过程中单位用户、设备厂商、运维服务、个人专家四方互联、协同工作,通过机器自动分类算法加人类专家在线服务技术,需要建立逐步覆盖所有信息化设备,能持续完善、能快速查找使用的智能化的运维系统[3]。
具体来说,针对所研究的问题拟采用如下的技术路线和研究方法。
(1)知识的收集、运用和管理
按照普适的概念,知识的收集是通过前期录入,在被动解决某事件或问题的后所总结出的针对该类情况的解决方案,以及运维人员在日常工作中根据个人知识积累主动总结的运维经验,这可以通过数据清洗和提取特征自来模拟。
通过信息化设备全生命周期管理,研究基于逻辑树知识库模型,使用物联网IOT技术构建统一的信息化设备的接入应用,建立运维共赢生态圈管理模式收集、运用管理知识,使用大数据分析化被动为主动,能够主动为用户提供信息设备运维风险和故障自动识别、预测[4]。
(2)评价系统模型采用AHP(层次分析)模型
层次分析法(Analytic Hierarchy Process,简称AHP)是将与决策总是有关的元素分解成目标、准则、方案等层次,在此基础之上进行定性和定量分析的决策方法。
(3)人工智能技术
人工智能技术的研究包括语言识别、图像识别、自然语言处理、模式分类和专家系统等,涉及到以计算机科学、心理学、哲学和语言学等学科为主的几乎自然科学和社会科学的所有学科。人工智能技术试图了解智能的实质,实现对人类的意识及思维过程的模拟,对机器人的学习、推理、思考、规划和分类等智能行为和能力进行传授,力图使机器人在更高层次的应用方面获得成功,胜任一些通常需要人类智能才能完成的复杂工作。
(4)PC后台管理加移动APP前端应用方式的技术路线
PC后台管理采用J2ee框架开发。移动APP框架包含了HTML5、HTML5 PLUS和MUI移动框架。HTML5具有多设备跨平台,通过封装技术可将它封装成android平台和苹果平台,两种不同手机平台的应用,具有自适应网页设计能力。HTML5 PLUS是HTML5在调用手机硬件方面的拓展,它扩展了JavaScript对象plus,使得JS可以调用各种浏览器无法实现或实现不佳的系统能力,设备能力如摄像头、文件系统等,业务能力如二维码、地图、支付、语音输入等。MUI(Mobile User Interface)是一个轻量级的HTML、CSS和JS框架,它以IOS为基础,补充Android平台特有的控件使得UI上更符合APP的体验,即搭建一个框架便于开发更高性能的APP,这也成为当前最为接近原生APP的框架。
以上的技术都为数据机器自动收集、清洗、模式匹配和构建云端智能分类响应系提供了基础。
2 运维需求分析之特征值与Fisher score 评价
(1)资产管理问题
随着信息化程度的逐渐加深,信息化设备对用户的影响将持续加大,如何做好已有投资建设设备的管理是摆在管理者面前的问题。需要在管理工作中使用更先进智能的管理系统进行辅助管理,实现申请维保预算的依据、申请报废的依据、故障预判模型、设备全生命周期使用成本的管理、设备及其知识库使用和维护评价、新设备采购依据的有效管理,实现信息化投资的最大化利用。
(2)信息化基础设备数据统一采集,解决信息孤岛问题
当前大多用户现有的信息设备工况数据采集由各个系统独立采集,暂未有统一的信息设备数据采集云系统为各系统提供业务及管理数据支撑,不能做到可预测性维护。通过提供完全开放的物联网私有云接入模式,统一接入协议和对所有设备的采集器开放的接口,兼容采集现有所有的信息化设备数据上传,实现现有投资最大化的保值和利用。为智能监测平台提供更好的信号接口。
(3)信息化高端设备,特定设备、专用设备维保难,高端技术人才匮乏
日益专业化、大型化、复杂化和自动化的设备在日常的生产的作用和影响逐渐扩大,这也就使得生产过程的依赖程度越来越高。设备的维护需要相应的专业技术人员。随着信息化技术的不断发展和设备迭代带来的日益复杂化和智能化,信息化人员技术和管理人员也同样存在知识更新问题。内部人员变动、维保人员变动导致的技术交接、培训、安全保障工作更为困难。
(4)现有评价体系薄弱,无法对信息化设备及服务提供科学的评价
经过多年的运维服务外包和管理,收集了一些信息化设备的维护和使用数据,已建立了针对运维服务工作和服务人员的考评体系,但是缺乏对整个信息化设备及服务提供全面、科学的评价。
基于以上基本情况,大多用户现有信息化设备运维工作都是处于被动式的运维模式,运维人员都是充当消防员,四处忙于“救火”。随着信息化程度的加深,人们对信息化系统的依赖程度逐渐增高,原有的运维模式,已经无法满足人民日益增长的服务需求,需要建立主动预防服务模式,提前对风险和故障进行预警和预判,减少风险和故障对信息系统带来的影响。需要通过统一的系统对设备运行状态信息进行收集、监测和分析;利用大数据分析技术对设备运维服务数据进行挖掘和分析,提高运维风险和故障自动识别和预测能力;利用智能机器人和专家结合提供主动预警、风险识别、专家建议和咨询等服务。
基于以上的需求分析,对于各个设备的系统函数,和权限存在着紧密对应关系,查阅最新的主要网络设备官方文档,目前定义了物联网设备和软件可以捕捉到的权限有300多项,参考已有研究对于权限的分类和敏感权限的界定,整理出需要重点关注的运维基本知识。表1展示了主要的系统参数。
表1 主要设备参数列表
另外,硬件和软件系统的行为参数可以分为两类,即单一行为和行为组合。所谓的单一行为,就是指通过一个系统函数就可以描述的行为。所谓行为组合,就是指需要使用多 个系统函数的组合来描述行为。行为组合往往比单一行为能更全面的描述设备或者软件的运行状态。监控的参数组合比单一参数可以获取更多的设备信息或者运行环境信息,根 据以上类似原理,本文定义了需要监测的一系列行为组合。本文最终定义需要监测的设备参数和设备参数组合共计 17项作为智能运维分类系统的特征值,来构造特征向量,均在表2中列出。
表2 需要记录的参数和参数组合
特征值寻优一直是热点关注的问题,它的主要内容是从一个样本存在的许多特征属性中,选取其中的一部分对回归结果和分类结果等影响最大的特征值。Fisher score algorithm(FS)是一种有效的、简单地方法,可快速寻找特征值之间的特殊性,其思想是把高维空间的数据变换为另一个低维空间,因此方差尽量大的同时方差尽量缩小,且可根据标签的不同投影到该特征值上的距离较远,这就是一个好的特征值。Fisher score就是评价特征值对数据结构的保持能力,Fisher score是有监督的特征选择。
本文经过对原始数据的整理和特征值提取后的数据集共有5 000个样本,17个特征属性,按照从1逐渐递增,形成序号为a到q的17种特征值组合。
根据国际上通用最优特征值选取算法的研究,最后选择了Fisher score算法对5 000×17的特征值矩阵进行排序,排序结果证明了对机房运维特别重要的特征值通常具有较高的得分。
表3 最优特征值排序
3 混合核函数支持向量机算法
3.1 算法流程
机房设备和软件运行状态的可变性和模糊性是很多分类算法所不能很好处理的。综合已有的这些实际问题,支持向量机(SVM)在针对小样本、高维度的确定性分类问题上,表现出特别的优势,并且其分类算法有严格的统计学论据,在编程逻辑上是透明的,这使得该算法更容易切入实际分类需求[5]。
机房设备和软件运行状态具有非线性、样本分布不平坦、噪声大等问题,支持向量机虽然在解决小样本数据上表现出许多特有的优势,但对于机房设备和软件运行状态的模糊性等问题,仍存在如下缺陷:
(1)由于支持向量机在训练时对所有训练点是同等对待的,这就会产生一定的局限性,在处理实际应用时,应尽可能保持支持向量的作用,弱化非支持向量的作用。
基于此,我们采用Lin等提出的模糊支持向量机作为分类的基本方法,以减小非重要样本对SVM分类器学习的干扰[6-7]。
(2)SVM在解决非线性分类或回归问题过程中,核函数的选取非常重要。传统的SVM或者模糊支持向量机都是基于单个核函数的。对于机房设备和软件运行状态分类问题,由于对象之间的差异,找到一个合适的核函数又是比较困难的,往往靠大量的经验所得来完成。这样操作,对分类,显然并不科学。
基于此,本文将在模糊化支持向量机的基础上混合多个核函数映射,利用不同核函数之间的互补性特性来更加准确的适应机房设备和软件运行状态模糊、噪声大、样本差异不显著的特点。我们提出一种基于多核的模糊化支持向量机算法用于机房设备和软件运行状态分类,来更有效的模拟机房设备和软件运行状态数据模糊性等实际问题,此算法决策树中的模糊核权重主要借助于样本无监督自学习来确定,能根据实际机房设备和软件运行状态数据的模糊性,形成一种更合适的分类算法[6]。
3.2 混合核函数算法的构造
支持向量机分类器的数学模型原理图如下:
图3 SVM分类器数学模型图
定义1设X是一个非空集合,则称
F={〈x,uF(xi)〉|x∈X,i=1,2,…,l}
(1)
为模糊集,uF(xi)为模糊隶属度矩阵中,样本x中第i个属于模糊集F的隶属度,uF(xi)取值范围在[0,1]之间。
隶属度uF(xi)是指训练集{xl,yl,uF(x)}隶属某一类的程度,而εi是对错分程度的度量。由此得到目标函数的最优结构[7]:
(2)
其中,ε=(ε1,ε2,…,εl)T,φ(xi)表示将xi从Rd映射到高维特征空间。最优别函数式为[7]:
(3)
3.3 分类算法隶属度函数的确定
隶属度函数的确定采用FCM算法ui矩阵的无监督、不断自学习的方法。算法样本空间X,其中X包含N个l=17维的样本xi,i为样本序列号,FCM算法输出隶属度值uic。最小化以下目标函数:
(4)
通过拉格朗日乘数法求解约束优化问题[7],得:
(5)
由(5)式求偏导并设为0可导出以下式子[7]:
(6)
(7)
据此,通过无监督的学习,得到uic。
3.4 分类算法实现步骤
组合多核函数的支持向量机算法,其决策树如下:
(8)
多核函数支持向量机算法分类步骤如下:将特征矩阵里的数据进行归一化处理;按照(7)式,建立分类数据的模糊集;根据(6)和(7)式确定样本点模糊隶属度;根据式(9)选择不同的核函数进行组合;根据式(8)的决策树,运用数据对混合核函数支持向量机算法进行训练,然后进行样本测试。
4 实验结果
本实验在真实网络空间环境中,采集5 000个数据样本,并分成5份,其中4份用于训练分类器,剩下的1份用于测试分类器的效果,并采取了交叉验证方法来验证算法的稳定性,混合核函数支持向量机算法的分类结果如表4所示。
表4 混合核函数支持向量机算法分类结果
在本次实验中,实验对数据特征值进行了标准化,得到5 000个样本,17维度的特征向量作为分类器的输入数据。进行交叉检验,数据集4/5为训练样本,1/5为测试样本。表4详细地给出了应用此分类器的结果。分类准确率从78.56%到87.65%不等,平均的分类准确率是81.49%,实验结果表明,本文提出的分类器能达到比较理想的分类结果。最后得出平均的分类准确率为81.49%。实验结果表明,本文实验提出的混合核函数支持向量机分类算法准确率是比较稳定的。
以上稳定且效率高的计算机决策分析系统可以使实际的IT运维更加高效快捷,并已在实际生产环境中提升了如下效益:
(1)建立了基于资产全生命周期管理体系,通过系统可全面记录设备在管理的过程中设备及财务的台账和管理及维修记录。作为设备全生命周期的分析依据,通过大数据分析对设备整体使用经济性、可靠性及其管理成本作出全面、科学的分析和评价,可以为用户新设备采购和维保经费审批提供决策数据支撑,从而建立设备全生命周期管理闭环,实现资产的规范化管理。
(2)基于监测分类系统可建立智能预警和预判机制,通过构建统一的物联网支持所有信息化设备的接入应用,可实时采集所有信息化基础设备信息,通过大数据技术可以对过往的设备运行数据和故障情况建立多维度的风险识别和故障预判模型,可以提前预测设备运行过程中未来可能出现的故障,提前做好预防工作,降低设备或业务系统维护的风险。
(3)最终系统全面提升了用户运维管理水平。将用户现有的资产管理系统、网管系统、安全监控系统、运维管理系统、现有设备的数据采集系统等系统接入至智能运维管理平台内,实现运维服务的监、管、控于一体化,实现运维服务流程化、规范化、标准化和智能化,并可持续提升用户的运维服务管理水平。
5 结论
采用物联网、智能机器人、大数据、移动互联网、智能专家系统等先进技术,研究成果可以有效解决用户资产管理弱、信息孤岛多、高端人才匮乏、运维服务被动、设备和服务无评价等问题,帮助用户建立资产全生命周期的管理、设备运行状态的实时监测、故障的提前预警和故障预判、智能专家服务、全面的设备和服务评价管理等服务和管理能力,还可以准确识别各类风险、降低设备的故障率、提高故障处理速度,有效延长设备的使用寿命,提升IT运维服务管理水平。
本文将现有的信息化设备运维服务管理带入一个全新的时代。它使得用户不再纠结于IT设备的使用风险、使用成本及维保过程中的问题解决,缺少专家问题上,而是真正让设备的使用价值最大化,为信息系统提供整体运行保障,化被动管理为主动管理,为用户信息系统的可靠运行保驾护航。以此研究和设计基于云环境的智能运维管理,形成智能运维服务和管理新模式,并在公安及其他行业推广应用。