基于机器学习的图像协同分类系统的设计与实现
2021-11-23沈文杰
沈文杰
(福建农业职业技术学院,福建 福州 350119)
如今,多种形式的先进拍照技术越来越普及,网络的图像保存量越来越大,广泛存在于社交过程与图像搜索的过程中。图像可涉及丰富的信息数据,部分不能借助语言和文学表达的场景都能通过图像进行充分呈现,因此怎样高效率地运用图像数据备受学术界以及工业界相关人员的重视。机械学习分析结合生理学知识与认知科学知识,创设与人们学习过程相匹配的模型,创新理论与方法,形成任务模式的结构体系,立足于机器学习进行图像协同分类系统设计是强化图像加工的优质手段,为此笔者具体、详细地开展了相关研究。
1 机器学习应用在图像分类中的实际情况
机器学习算法研究对应信息,在权重分配与其他类型参数的参考之下增强性能、实现目的这一过程就是“学习”的内涵。掌握机器学习信息集十分关键,通常把最初信息划分为训练集以及测试集,前者进行分类器训练,也就是借助学习过程整理模型,在完成训练后,根据测试集对分类器进行预测。针对图像种类的信息源,以机器学习为主的图像分类应该获取图像基础特点,后续构建特征向量,借助机器学习算法实现综合分类器的性能,并将其视作预测样本信息的有效工具[1]。近年来,机器学习算法分类器往往被运用于制作BOW模型以及pbM模型的过程中,且成效较好。机器学习分类种类繁多,例如决策树算法、K最近邻算法等。任何类型的机器学习算法都存在局限,决策树的局限就是仅在计算对应信息时可获取显著成效。对朴素贝叶斯算法来说,应将其作用于简短文本中,决策树处理简短文本的成效不如朴素贝叶斯算法,因此要有针对性地挑选机器学习计算方法。
经过一系列的分析,机器学习算法对图像进行分类的成效受到以下3个因素的影响:1) 图像提取算法。优质的图像提取算法可控制缩放与反射等外在因素的制约,全方位凸显图像信息。2) 机器学习算法分类器的性能设置。关联向量机算法应创设对应核函数,如果选取朴素贝叶斯应严格要求样本独立性、引进K最近邻算法时应确保K值稳定且引进决策树算法时应对树进行加工[2]。3) 图像特征信息的多样化。如果图像比较单一,那么传递信息的过程就会存在难度,提倡综合筛选多种类型的信息数据,这样就能提高图像的表达性能,还可以达到有效强化图像分类效率的目的。在当前的系统编制中,对图像特征向量的精确度进行研究是一种相对可靠的方式,也是后续研究的关键点,在很大程度上可以带动图像分类系统的运作与创新。
2 机器学习的基本形式
机器学习主要是进行数据加工,以信息的形式输出相关信息。第一种形式便是监督学习,也就是在某种情况下分析函数,在接收全新信息数据的状态下对函数进行结果评估。监督学习包括输入过程与输出过程,在训练集中通过人员自主标注,监督学习有决策树学习类型与最近邻居法类型[3]。监督学习选取词汇的出发点是分类,根据经验法则降低信息数据面临风险的概率,也就是经验风险最小化。第二种形式便是无监督学习,根据循环以及递减运算规律对信息误差现象进行规避,从而合理地对数据信息进行分类。不需要给计算机发送指令,而是计算机自主完成数据统计,由于不存在事先安排的样本信息,因此可提高监督学习方法的运用率,对机器学习的模式进行整合与加工,具体的机器学习算法图像分类过程如图1所示。
图1 机器学习算法的图像分类过程
3 以机器学习为主进行图像协同分类系统的设计实现方式
3.1 图像协同分类系统基本结构
基于机器学习构建图像协同分类系统体系,借助计算机定量研究图像信息,对图像的多个组成部分进行类别判断,替换人们的视觉感知。图像协同分类系统是图像检索的内在条件,分类系统可自动化地处理样本图像,形成对应训练模型,由此全方位预测其他类型的数据图像。系统的特征以并行性与协同性为主,按照多种形式机器学习算法设计模型,关联机器学习预测结果并记录类别归属信息。机器学习算法是到现在为止比较稳定的思路,尤其是决策树算法与朴素贝叶斯算法[4]。针对图像协同分类系统结构,引进C/S模式,围绕网络平台对客户端进行设置,利用C++语言编写程序,对应的服务器端MySQL数据库在重要信息的保存与预测中可以发挥重要作用。
3.2 图像协同分类系统设计的需求
3.2.1 非功能性层面
在设计图像协同分类系统之后,将其保存在一般模式的计算机中,由于系统训练以及样本评估体现了信息的不确定性,要思考信息量大的情况,也就是输入大量图像,判断系统是否能稳定、安全地运行,并输出预测结果信息。因此系统的设计应满足以下5点要求:1) 减少内存消耗,由于图像分类过程给予图像信息的每种处理方式都要保存在内存中,科学的保存结构能够降低大比例占用内存的概率,因此可挑选流式加载处理技术。2) 减少样本训练需求的时间,引进并行化理念处理样本[5]。3) 保证预测结果的精准度。传统的预测方式仅选取相同机器学习算法,在图像协同分类系统设计中应利用多个机器学习方式来提升准确率。4) 保持信息库的读写分离状态,读写分离要求信息库阅读操作与写作操作互相分割,由此缓解信息库IO的压力或者将外界环境中的读写请求均匀地分配到多个信息库中。信息库结合事物处理的性质完成类别判断,即主信息库与从信息库,前者实施写作环节,后者实施阅读环节。5) 高维特征向量引保持降维的特征。数字图像加工领域内包括许多降维形式,尤其是PCA形式,关联计算均值、方差与协方差矩阵计算等,需要用到的便是均值计算与方差计算,把矩阵的实际均值与方差信息视作图像纹理的典型特点。
3.2.2 功能性需求层面
功能性需求是根据图像协同分类系统布设要求分类别地对系统基础进行操作与划分,思考如何设定参数、如何计算特征、如何预测样本信息与如何统计最终结果等[6]。
3.3 完善系统框架
完整的图像协同分类系统设计应该包括4层,详细介绍如下。
3.3.1 设计系统的第一层——UI界面层
设计UI界面层,也就是为用户提供可视化界面,以该界面为基础对信息数据进行传递。用户可以直接感受UI界面层,亲自观察分类系统是如何处理图像信息的,获取具有价值的阶段性数据。根据桌面应用流程进行标准化设计,体现本地实时计算与迅速访问的优势[7],它可以执行参数设置、计算特征、训练样本与预测样本结果等操作,用户可以在兴趣爱好的驱使下进行自主选取。
3.3.2 设计系统的第二层——逻辑控制层
逻辑控制层作为数据处理层以及UI界面层的链接媒介,首先是把UI界面层内的信息数据发送到处理层结构中;其次,把处理层获取的结数据转移到控制层中,通过恰当的形式保存在UI界面层中;最后,控制层有针对性地对信息数据进行操作,促使处理层内信息的真实性不受影响,安全、稳定地运作数据处理层。需要注意的是,信息真实性不受影响主要是执行模块在信息传递期间不会更改数据,控制层安设读写锁,全部的执行模块在传递信息之前都应通过读写锁的检验后再开展继续作业,不然会一直保持等待状态。在该过程及时纳入并行化处理技术,也就是发挥多线程技术的作用[8]。控制层在分析硬件数据与资源利用情况之后启动线程数据,让系统保持较高的信息处理效率,可以说线程也是工作线程的简称。如果某个线程在任务加工期间出现停止的情况,那么控制层会及时感知异常,启动其他形式的线程进行替换,以完成尚未被全面加工的任务。发布新任务之后,如果控制层线程数目不多,就要适当地引进线程,此时控制层创设线层模块来完成任务,控制层规避线程调整的数目,也就是Mater-Worker模式,借助系统的整体资源,在不制约处理层运作效率的基础上不出现资源浪费的现象,由此妥善完成逻辑控制层的核心任务。对应的逻辑控制核心和相邻两层交互结构图如图2所示。
图2 逻辑控制核心和相邻两层交互结构图
3.3.3 设计系统的第三层——数据处理层
将数据处理层划分为线程模块、读写锁模块、大信息块以及阶段性信息传递模块等。
3.3.3.1 设计线程模块
线程模块作为图像协同分类系统的核心结构,大多数情况下它可以运作多个类型的线程,任何线程都要求分配任务,对应任务涉及计算切割完成的小信息块与传递控制层的信息结果。
3.3.3.2 设计读写锁模块
被加工的信息往往来源于磁盘文件,并且许多信息数据被保存在文件结构中,尤其是训练模型与训练样本集文件,利用数据处理层的安全来保证读写环节的正常运作[9],可以将一些读写操作存在多个线程之内,如果在相同时刻进行读写,就会缺少保护方案,可能出现文件信息不能真实传递的结果。另外,考虑阅读文件的概率比较大,因此可拟定读写锁来保障安全性。而不需要文件与读写锁一一对应,而是适当地设置读写锁的数量即可,不然大量读写锁会制约系统性能的发挥。因此协同分类系统设计可对关键类型的文件配置读写锁,为信息数据传递的真实性提供保障。
3.3.3.3 设计大信息块
切割大信息块的第一个形式就是基于个体的形式对样本库进行划分,这样样本个体都是单一化的信息块。第二个形式便是为多维向量设置一定维度,这样任何维度中的数据信息都是小信息块。
3.3.3.4 设计阶段性信息传递模块
数据处理层主要进行密集化的数据统计,涉及样本训练信息与样本分析结果信息。操作加工的每个环节都与阶段性信息传递存在关联,把信息传递给逻辑控制层,即保存在本地磁盘内。还可以把信息传递给保存层,即向信息库内输入信息数据。
3.3.4 设计系统的第四层——数据存储层
图像协同分类系统的设计与实现。数据存储层是最后一层,存在于信息库服务器的端口部位,对数据处理层发布的信息处理指令进行响应。数据存储层借助MySQL信息库,由于信息库读写频率是存在差异的,因此这一个层次不仅有唯一的信息库,而且还包括许多信息库。主信息库进行请求书写,从信息库发出响应度请求。前者促使负载维持均衡,让信息库长时间运作;后者借助主从复制实现同步信息统计,根据读写分离技术强化信息库整体并发负载水平,由此完整地设计基于机器学习的图像协同分类系统,把信息数据的处理作业推向高层次发展。
4 结语
综上所述,开展对基于机器学习的图像协同分类系统的研究具有重要的价值,网络发展让图像发展成为比较关键的信息源,图像分类作为创新图像检索技术的有效途径,相关人员要加大力度对机器学习的性能进行研究,优化图像协同分类系统设置,争取在较短时间内获取数据信息处理的最大化效果,增强信息统计的真实性与准确性。