Internet环境下在线图像标注软件的设计与实现
2016-05-14李梦萦宋海玉岳青宇何炳金侯建新李俊华
李梦萦 宋海玉 岳青宇 何炳金 侯建新 李俊华
摘要:文章旨在利用现有的图像标注模型,开发一个能够为用户提供自动图像标注服务的软件。为了使用户能够方便、即时地使用本软件,软件被设计为可以在网络环境中运行、访问的软件。通过对比当前主流的图像自动标注模型,文章选取著名的多重伯努利相关模型作为基础标注模型,并针对多重伯努利模型的一些不足进行了改进。
关键词:图像标注模型;网络环境;多重伯努利模型;相关模型;Internet环境 文献标识码:A
中图分类号:TP317 文章编号:1009-2374(2016)05-0013-02 DOI:10.13535/j.cnki.11-4406/n.2016.05.007
近年来,随着电子技术和多媒体的兴盛,数码产品变得普及,互联网上可存取的图像数据正在以爆炸性的速度增长。在这种情况下,图像数据每日以指数速度增长,如何方便快捷地查询图像逐渐成了对图像数据库进行有效管理的问题之一。为了更好地利用这些图像资源,20世纪70年代末出现了图像数据库管理系统。该系统以人的手工标注作为基础,但事实证明人工标注存在着诸多问题,因此20世纪90年代末出现了自动图像标注的研究。图像自动标注技术的应用前景非常广泛,针对于普通用户,它可以提供更人性化的以Web图像检索为基础的图像检索服务,提供图像数据管理、分类、索引等便捷的功能。针对于一些应用平台,图像自动标注技术也会发挥巨大的作用,例如建立和管理数字图书馆。数字化设备正在变得越来越普及,图书馆逐渐开始把已有的馆藏书籍转化成数字图像数据,存储和索引数量巨大的图像数据可以依靠图像标注的现有研究技术来完成。
1 多重伯努利模型
在多重伯努利模型中,参与图像标注运算的数据是一个手工标注的图像数据集。使用T来代表这个手工标注的图像数据集,数据集T中每幅图像都具有一定数量的标注词,使用V来代表数据集T中所有标注词的一个标注关键字集合。假设图像J是数据集T中的一幅图像,那么图像J的区域特征可以表示为:rJ={r1,r2,…,rn},rJ是图像J的特征集合,n表示图像J被分割的区域个数,也代表图像J的特征向量个数。图像J的标注词可以表示为wJ={0,1}V,wJ表示图像J的标注词集合,wJ是标注词集合V的一个子集,0和1代表图像J中是否含有该标注词。假设一幅待标注图像A,那么综合上述可以得到待标注图像A的图像区域特征可以表示为:rA={g1,g2,…,gnA},wB是标注词集合V中的一个随机子集,对于待标注图像A中出现词汇wB的概率可以使用rA和wB的联合概率P(rA,wB)来表示。图像标注的大致步骤:对于一幅待标注图像A,计算图像A的每个区域与训练集T中每幅图像J的条件概率,然后把图像A的n个区域与图像J的条件概率乘积,以乘积后的结果作为图像A与图像J的特征相似度。然后使用两幅图像的特征相似度乘以图像J与标注词wB的多重伯努利概率,至此便得到了标注词wB出现在待标注图像A中的概率,但是为了这种训练方法的偶然性,需要使用训练集T中的所有图像重复上述的计算过程,最后使用训练集T中所有图像的计算结果做平均值处理,以平均值作为wB与A联合概率。计算公式如下:
根据式(1)的计算结果,可以得到A和V中标注词汇的联合概率,取联合概率最大的前5个词汇作为图像A的标注结果。计算公式如下所示:
2 软件系统模块设计与实现
2.1 软件模块划分
系统设计了两个模块:图像自动标注功能模块和图像检索功能模块。其中图像自动标注功能模块是软件系统的主要功能。图像检索功能模块为提供辅助性的功能模块。
2.2 图像标注功能模块设计与实现
图像标注是解决海量图像数据组织管理的关键技术之一,伴随着图像自动标注技术的发展,大量的人力和物力被投入到图像自动标注技术的研究,涌现出了很多优秀的图像标注算法。本文通过著名的图像标注算法MBRM算法,来完成软件中的图像标注功能。
由于本文设计的是一个在网络环境中运行的在线图像标注软件,图像标注功能模块应具有如下的三个功能:(1)可以通过用户身边的客户端电脑使用浏览器访问本软件;(2)可以上传喜好的图像进行标注;(3)标注用户上传的图像,在界面上向用户提示标注结果。
图像自动标注模块的具体实现主要分为两个方面:一方面是图像自动标注的模型算法,本文使用的模型算法为MBRM模型;另一方面是图像的底层特征的选取和特征的提取方法。
图像的视觉特征分为两种:第一种,通用视觉特征。它一般用于描述图像中的一些共有特征,与图像的具体类型和内容无关,其主要内容有纹理特征、颜色特征和形状特征。另一种为领域相关特征,它是建立在图像内容的一些先验知识上,与具体应用有紧密联系,例如人脸识别等。在本文中,我们只考虑使用通用的视觉特征。在通用特征中,我们选取颜色和纹理两种类型的特征。
2.3 图像检索功能模块设计与实现
图像检索功能模块分成两个部分:基于文本的图像检索和基于图像内容的图像检索。
(1)基于文本的图像检索。本文中基于文本的图像检索根据图像标注模块得到的图像数据进行检索,以图像标注结果中的标注词作为关键字。检索时,根据数据集中已有的关键字匹配,返回通过匹配的图像。(2)基于内容的图像检索。基于内容的图像检索允许输入一幅图像,以查找具有相同或者相似内容的其他图像,它是计算机视觉领域中的重要研究分支。在基于内容的图像检索主要依赖于两个关键技术:图像特征提取和图像匹配算法。本文中基于内容的图像检索中的特征提取方法使用著名词袋方法(Bag-Of-Words,BOW),BOW的大体思想是通过对现有图像的分类,对提取的图像特征进行聚类,将聚类得到的质心作为BOW词典中的词,构建BOW词典。通过BOW的词典来计算图像的特征。
图像检索的匹配算法中,由于通过BOW提取的图像特征向量中的数值比较离散,本文采用街区距离作为图像的匹配算法。街区距离是数学模型中,计算空间中点到点距离的一种有效方法,距离越小,说明图像越相近。图像匹配完成后,对训练集中所有图像的距离进行排序。取前500幅最相近的图像返回。
3 结语
本文尝试使用现有的图像标注技术来完成一个方便快捷的图像标注软件,并希望能够收集一些图像数据,为图像标注技术发展提供参考。但是由于受到了技术发展的限制,本文中设计的软件还存在很多的不足,今后的技术发展中,图像自动标注软件的开发是一个长期的发展目标。
参考文献
[1] 伊怀彬.基于语义的图像多概念标注[D].苏州大学,2009.
[2] Y.G.Jiang,C.W.Ngo,and J.Yang.Towards optimal bag-of-features for object categorization and semantic video retrieval.In ACM CIVR,2007.
[3] 陈恋.基于图像文档模型的图像语义自动标注[D].复旦大学,2007.
作者简介:李梦萦(1995-),女,河北唐山人,大连民族大学计算机科学与工程学院学生;宋海玉(1971-),男,河南安阳人,大连民族大学计算机科学与工程学院副教授,硕士研究生导师,博士,研究方向:图像理解、计算机视觉;岳青宇(1991-),男,黑龙江尚志人,创世比特(北京)科技有限公司软件工程师。
(责任编辑:周 琼)