基于视频流的图像识别技术发展与应用

2016-08-15吕东泽

新媒体研究 2016年4期

关键词：流媒体视频图像识别

吕东泽

大庆油田房地产开发有限责任公司，黑龙江大庆 163000

基于视频流的图像识别技术发展与应用

吕东泽

大庆油田房地产开发有限责任公司，黑龙江大庆 163000

摘要首先针对流媒体环境下的图像识别技术价值展开分析，对于当前流媒体图像识别技术的主要应用领域以及需求状态加以说明，而后从技术的角度针对当前该领域中的几种主要技术展开讨论，希望对于切实推动加深认识有积极价值。

关键词视频；流媒体；图像识别；技术

1 流媒体环境下的图像识别技术价值与应用

流数据格式在当前网络环境中愈加常见，其应用范围已经突破了常规的传媒以及安全领域，而进入到了更多的应用环境中，对应的制作工作人员也不再限于相关专业，更多专业和不专业的人参与到了流媒体的工作环境中来。这种情况，从客观上要求在视频流环境中引入更为自动化的工作方式，从而实现对于相关工作的支持，其中图像识别技术就是首要的需求之一。

图像识别技术在流媒体领域中有着较高的应用需求，主要的需求来源于对大量数据的有效存储和阅读，以及工业环境的实时监控两个方面。对于前者而言，由于流媒体本身的特征，决定了它在存储和查找的时候都无法做到像传统数据格式那样的快捷有效，甚至于一直以来对于流媒体的存储、归类以及检索，都要依赖于工作人员添加的标签才能完成，而这对于流媒体的相关操作效率的提升无疑有着不利影响。

当前图像识别领域的应用已经日趋成熟，流媒体本身由众多的数据帧组成，因此在图像识别技术成熟的基础之上应用到流媒体领域，无论从技术还是价值方面都有一定的积极价值。而从应用的角度看，众多领域都存在显著需求，突出表现的几个方面，包括流格式数据的存储与检索，安全领域的自动识别应用以及工业环境中对于数字仪表的自动读取，以及新闻视频中的字幕信息自动提取等。相对而言，当前在安全和工业领域中的需求较为突出，并且也取得了瞩目成果，但是从长远的角度看，流格式数据的深入识别，必然能够推动其存储与检索的优化，这对于带动流媒体在多个领域中的深入应用都会存在积极意义。

2 视频流环境下图像识别的主要技术与发展

当前在流媒体领域中，图像识别技术的发展已经取得一定成果，依据不同领域中的需求状况以及图像特征，可以有多种技术供选用。在实际工作中，应当依据具体情况进行选择，才能获取良好效果。

对于流媒体数据格式中的文字识别而言，常规的方法有基于边缘、基于纹理、基于区域的三种主要工作方式。其中基于边缘的识别方式，主要是在图像中寻找垂直边缘来对文字实现检测。其主要的工作方式是先确定出图像的边缘，而后通过平滑滤波或形态学膨胀的方法来将边缘连接成为文字块，最终加以识别。此种工作方式表现出良好的工作效率，但是如果图像背景复杂文字区域反差小，也会造成误码率偏高问题的发生。而且基于纹理的识别方法，是利用图像中的纹理特征去对比，从而确定一个像素点是否属于文字区域。此种识别方式通用性较强，不仅仅能够实现文字的识别，对于其他类型的图像识别，诸如对运动物体等的识别也能发挥良好作用。但是此种工作方式在有效提取纹理信息的过程中可能会面临较大运算量，从而造成系统整个运行缓慢，工作效率低下的问题，并且无法抵御高噪影响。最后，基于区域的方法则是基于文字像素均存在相似颜色的架设而展开，此种工作方式可以对于新闻视频中的文字进行识别，但是无法对工业仪表等示值有效识别，整体效果和应用领域都相对有限。

除去对于文字的识别，对人脸的识别同样也是

当前视频流数据中图像识别的重要的技术表现。相对于文字识别而言，人脸识别更为复杂，并且经过了更漫长的探索过程，至今都仍然处于不断地完善之中。当前在人脸识别领域中，比较常见的方式是为人脸建立起对应的面部模型用于图像中的识别和对比，实现匹配之后进一步对其面部数据进行分析和提取，最终实现识别。

无论是人脸识别，还是对于流媒体数据内相关信息进行识别，都需要必要的硬件以及软件运算能力加以支持。除此以外，系统本身的学习能力，作为图像识别技术前进的重要技术因素不容忽视。学习本身是系统的一种自适应体现，例如对视频流字幕进行定位的过程中，即便是同一场景也有可能会出现字幕的不一致问题，包括位置以及大小、色彩等，都会发生变化，同样的变化也会出现在工业环境中的仪表示值监测领域，因此系统必须能够实现主动学习，才能切实展开图像识别。除此以外，人工智能等方面技术的深入应用，对于流媒体系统中的图像识别工作质量提升同样意义重大。而实际在展开图像识别的过程中，图像数据的多帧平滑，以及多层前向反馈神经网络等技术的应用，同样也是推动该领域工作效果提升的重要武器。

3 结论

对于视频流媒体的图像识别，关系到社会工作的多个方面，其有效存储和管理关系到数据挖掘和分析的技术实现效果，并且从效率方面有着不容忽视的影响，而图像识别更是相关领域自动化的坚实基础和有力保证。实际工作中需要依据具体情况来对众多技术进行选择，确保能够满足准确和效率两个方面的均衡需求。

参考文献

[1]黄万军，尹宝才，陈通波，等.基于三维可变形模板的眼睛特征提取[J].计算机研究与发展，2002，39（4）：495-501.

[2]李默，李弼程，邓子健.新闻视频主持人镜头的半屏幕检测算法[J].计算机工程与应用，2005（15）：183-185.

[3]王旭智，向长波，宋建中，等.实时字符识别在视频读表系统中的应用[J].电子器件，2006，29（4）：1334-1337.

作者简介：吕东泽，工作单位为大庆油田房地产开发有限责任公司。当前计算机相关技术与通信网络的发展达到前所未有的高度，信息的消费对于社会环境中的生产生活而言，已经不仅仅是单纯的提高效率，而是上升到了成为社会各类活动必要支持的高度。而在网络环境中的数据格式，也随着相关技术的进步有所变化，其中流媒体成为首当其冲的重点所在。

中图分类号TP3

文献标识码A

文章编号2096-0360（2016）04-0026-01