商标检索中形状特征描述的研究
2011-07-07邓学雄杨志成朱正海
邓学雄, 杨志成, 朱正海
(华南理工大学设计学院,广东 广州 510006)
图像检索中的主要问题是“语义鸿沟”。“语义鸿沟”的实质是,人无法向计算机清楚地描述自己对图像的认知,计算机不明白人是怎样理解和描述图像的,人机之间缺少一套“共同语言”,从而导致人和计算机无法沟通。因而解决“语义鸿沟”的关键是选择有效的特征描述语言,能准确描述图像特征。商标检索是图像检索的一个子问题。其检索方式主要有类目检索、文本检索和内容检索。由于商标对象的构成复杂多样,很多商标图像既不易归类,也不易通过文本方式来描述。
本研究提出了一种新颖的形状描述子——字母描述子,以其来描述图像。所谓“字母描述子”就是利用拉丁字母的物象、抽象、意象等性质,将字母作为描述语言对图像进行描述编码和检索。该方法符合人对图像(图案)的理解方式,并且突破了不同语言的限制,在不同使用人群中具有的鲁棒性,适用于多语种环境下的检索。比如o代表“圆”,l代表“直线”,是人类共同的认知。在人和计算机之间搭建了一座桥梁,人可以将图像的有效特征用“字母描述子”向计算机方便地传达自己的描述,计算机也可以很好地提取和理解这些特征。基于“字母描述子”的形状特征描述,可以给图像增加一类语义标签,从而改变商标检索的“无从下手”的困境,也为“语义鸿沟”问题提供了一个新的解决思路。
1 商标的构成及特征描述
1.1 商标的构成
商标和文字同源,是由原始的图画、符契发展而来。两者在描述思维和描述方法上有共同之处。有研究[1]总结了汉字和字母文字的结构:字素(笔划或字母)→文(偏旁部首或词缀词根)→字(单字或单词)(该公式中“文”、“字”定义取自许慎《说文解字》)。商标也有类似结构和基本元素,如点、线、面是商标视觉符号最基本的构成元素。通过分析这些基本元素的特征以及元素之间构成的规律,为商标检索中的有效特征分析提供科学可行的依据。商标的构成和表现手法,直接关系到商标的视觉形态以及对商标的认知。
1.2 商标的特征描述
在人类的图像理解系统中,底层的图像描述通过感知分组[2]分层次地不断组合,最终获得一个能够被推理过程使用的有意义的图像表达,即构成图像的主要特征。图像识别是以图像的主要特征为判断依据的。对于熟悉的图形,如果掌握了它的主要特征,就会把它当作一个单元来识别,而忽略它的细节部分。这种由孤立的单元材料组成的整体单位叫做“组块”。
经过对大量商标图像进行分析,我们认为商标图像具有组块特点。在此,我们将商标的结构分为 3个特征群:① 几何特征,包括直线、弧线、圆等;② 交点特征,包括A型交点、Y型交点、X型交点;③ 逻辑特征,包括对称、平行、全包围等,如图1所示为商标结构的部分特征形式。
图1 商标结构的特征
本研究随机选取了一批著名企业的商标进行统计,得到如下特征统计数据,见表1。我们将超过25%的特征作为显著特征,包括:直线、弧线、折线、圆、A型交点、Y型交点、X型交点、对称、平行、全包围等,也就是说大部分的商标都可用这些结构特征进行描述。
表1 商标构成的特征统计
2 字母描述子的基本理论
将商标解构成多个组块,提炼出基本特征,并用字母作为有效的特征描述语言,向计算机传递商标的形状特征,这就是本研究——字母描述子的基本理论。
2.1 字母含义
原始字母本是埃及象形字[3],经过希腊文字、拉丁文字,演化到现代欧洲文字。现代字母具有丰富的物象、抽象和意象含义,以及灵活的描述能力。虽然与起源字母的形体、名称、含义不一定存在严谨的对应关系,但是,其象形、象形背后的抽象及意象,以及文字构造的思维方法保留了下来。
字母能不能作为一种有效的语言来描述商标,是由字母本身的含义决定的。已有研究[1,4]通过大量事实论证了字母具有象形的属性,比如:Oo象“日”,Cc象“月”,Mm 象“山”,Yy象“河”,Rr象“火”,Aa象“人”;并且,由象形的字母组成的字缀、字根以及整字仍然带有象形的痕迹,比如:av象“鸟”,cl象“抓”,eye象“眼睛”,bed象“床”,bud象“花”。还有研究[5]分析了英语原始字母宏观的倾向性语义,比如,H与“隐蔽”、“隐藏”有关,N与“否定”、“连接”有关。
经过深入系统地分析,我们对 26个字母含义作了归纳总结,表2列出了其中部分字母的含义。表中:
物象:也称具象,是对客观事物的如实刻画。
抽象[6]:是指对事物非本质因素的舍弃和对本质因素的抽取。抽象具有概括性。
意象:物象和抽象事物的属性,如形状、颜色、声音、动作、位置、方向、出现时间、影响等。
表2 部分字母的物象、抽象、意象含义
2.2 字母描述子
单个字母含有较大的信息量,且字母之间具有明显的差别性,其外形和构造保留了最简洁、最具代表性的特征,可以用来描述图像特征,尤其是简练的商标图像,形成字母描述子。如果用字母对商标图像特征编码,就可以用字母描述子对商标进行检索。根据以上的研究和分析,本研究总结出的字母描述子如表3所示。
表3 字母描述子
即商标图像经简化处理后,其结构特征均可以简单地用 l、c、o、A、Y、X、M、E、P、O等拉丁字母来描述,即形成特征码。
3 商标的编码与检索
本研究开发了一个用于商标图像检索的系统,主要有商标的导入、预处理、特征检测、特征编码和检索等功能。其应用过程是:
(1)将导入的商标图像进行预处理,即使用细化、滤波、腐蚀、膨胀、开闭等算法,去除冗余或干扰信息。
(2)将预处理后的商标特征检测出来,并自动编写特征码(用字母描述子表示)。
(3)将所生成的特征码作为文件名,保存该商标图像。
(4)重复以上步骤,建立商标图像库。
(5)输入检索码(字母描述子表示的特征码),在图像库中检索出相应的商标图像。
以下为应用实例,导入一商标图像,经预处理和特征检测后,即自动编码:IoAYXMEPO,并将编码“IoAYXMEPO”作为文件名保存该商标图像,如图2所示。
图2 商标的编码
在检索时如输入检索码:IoME,在商标图像库中,即可检索出相匹配的商标图像。其结果按匹配度从大到小排列,如图3所示。
图3 商标的检索
以上的检索方法进行了查准率、查全率及误检率作了统计,结果如表4所示。表中的数据表明,本研究提出用字母描述子对商标特征进行描述、编码和检索的方法具有一定的实用意义。
表4 查准率、查全率及误检率的统计
4 结 论
针对“语义鸿沟”问题,本研究提出了“字母描述子”概念,以此作为商标的有效特征描述语言,利用拉丁字母来对商标图像进行描述和检索。这种检索方式较为方便,更接近自然语言,符合人的经验,在图像检索方面作了新的尝试。但“字母描述子”作为特征对商标图像进行编码和检索的方法,目前只适用于小数据量的范围。除了以上所提出的10个描述子外,其他16个字母有是否待于加以利用;还有字母与数字是否能相结合以增加组合,完善图像的描述体系等,都有待于进一步的研究。
[1]袁 立. 字母文字与汉字同构象形论[J]. 北京社会科学, 1999, (2): 151-158.
[2]Qasim Iqbal, Aggarwal J K. Appling perceptual grouping to content-based image retrieval: building images [J].International Conference on Computer Vision and Pattern Recognition, 1999, (1): 42-48.
[3]伊斯特林. 文字的产生和发展[M]. 北京: 北京大学出版社, 2002: 284.
[4]袁 立. 字母文字象形论史证钩沉[J]. 北京社会科学, 2000, (2): 151-157.
[5]戚建平. 论英语原始字母宏观倾向性语义[J]. 信息工程学院学报, 1996, 15(1): 55-61.
[6]李敏艳. 浅谈抽象艺术[J]. 中国商界, 2008, (7):277.