中华艺术视觉信息数据库建设构想(下)
2009-11-26韩丛耀
(接上期)
二、本项构想的建设内容、建设目标及拟解决的关键问题
1.建设内容
本构想拟研究的主要内容包括以下六个方面:
(1)生物视觉信息的共轭关系。任一视觉图像信息的构成都有其共轭的物理元素,有些是眼睛即时看到的,有些是眼睛曾经看到的,有些是眼睛将要看到的,尤其是数字语言的出现,使得这一研究领域更加复杂化。但如果我们集中寻找一种共同有效的元素,而不是分散地研究,就可以使问题得到简化和明了,使讨论更加集中和深入。也就是说任何生物视觉信息都有其共轭的物象,它们是严格与特定对象相适应的,对其共扼关系的研究是建立生物视觉信息模型的基础。
(2)视觉界面的主要属性。视觉界面具有与生俱来的生物特性,又兼备了物理与心理的双重表征特性,而视觉界面语言既有指涉性、象征性、类比性特征,又具有痕迹性特征。对视觉界面主要属性的研究是确立可分类的视觉系谱的依据。
(3)视觉系谱轴的量度标准。前文已经提到的视觉系谱轴均为定性指标,需要将其精确量化方可转化为一个数学问题,这是运用计算机视觉理论和方法求解的前提。这里拟研究的系谱轴包括颜色系谱轴(Color Paradigm)、运动系谱轴(Motion Paradigm)、形状系谱轴(Form Paradigm)和场深系谱轴(Depth Paradigm)。根据分类和识别的需要,系谱轴量化工作包括以下几点:
1)研究同一个系谱轴里的各单元的共同之处,确定使它们同属于一个系谱轴所共有的性质,包括物理、生理和心理特征,抽象出其固定不变的物理成分和其凸显本质特征的因子;
2)研究系谱轴里每一个单元与其他单元的关系,严格划分出相互之间的界限,保证系谱轴将生物视觉类型的划分产生的高维识别空间具备严谨的数学形式;
3)研究各个轴线的刻度标准,使得视觉识别空间模型中的任意对象都有其特定的位置,具备可进行数值量化的识别特征。
(4)视觉毗邻轴的量度标准。视觉毗邻轴的构建是为了辅助视觉系谱轴进行目标识别。本项目的研究方法不同于一般的视觉处理建模,它融入了大科学(Big Science)视野下社会科学和自然科学对人类视觉的综合性研究成果,这里的毗邻轴主要是指与视觉相关联的触觉毗邻轴(Sense Syntagm)、嗅觉毗邻轴(Olfaction Syntagm)、味觉毗邻轴(Gustation Syntagm)、听觉毗邻轴(Auditory Syntagm)、幻觉毗邻轴(Hallucination Syntagm)和精神毗邻轴(Spirit Syntagm)。毗邻轴的量化包括以下几点:
1)研究生物视觉识别所需要的除视觉信息之外的辅助特征,根据视觉信息处理要求选择相应的单元,同时毗邻轴用法必须符合单元中用以组合的规则惯例;
2)研究拟运用的辅助特征相互之间的关系,对每个特征抽象出其本质的物理因子,减少冗余(redundancy)的信息,降低噪音(noise);
3)研究毗邻轴各轴线的刻度标准,如同系谱轴,这是为了使得识别对象在毗邻轴建立的空间有其唯一的位置,从而辅助视觉目标识别。
(5)数据库视觉信息的研究。从图10的视觉系谱轴和毗邻轴的基本模型可以看到,对各轴线精确量化建立的数学问题模型,其维数必然是高维,处理的数据量巨大,视像空间中的每个对象属于空间中的某一点,搜索其位置(即对其进行识别)非常困难。我们拟采用的研究方法是通过演化计算(Evolutionary Computation)理论的遗传程序设计(Genetic Programming)的编码方法对潜在解进行编码,通过协作演化对识别对象在基因型水平上进行分解,逐次求精完成目标识别。
(6)多目标问题的优化方法。视觉识别具有广泛的用途,在求解具体问题时会受到多方面的约束,如何根据问题特征和建立的识别模型完成目标识别也是研究内容的一方面,主要就是多目标优化问题的求解。
2.建设目标
通过对生物视觉信息共轭关系的研究,提取基于生物视觉物理和生理机制的系谱轴和毗邻轴特征,用数学语言描述各特征的主要参数,运用遗传程序设计的编码方法和多目标优化算法计算优化这些参数,构建相应的生物视觉信息处理机制模型,并运用到实际的中华艺术视觉信息数据库的建设中。
3.拟解决的关键问题
基于本构想的研究内容和基本思路,拟解决的关键问题如下:
(1)研究解决共扼关系的数学描述问题。我们讨论的共扼关系很多时候是概念性的,而要对生物视觉信息处理机制建模必须要有定量的分析,这是建模的关键。
(2)研究解决视觉系谱轴和毗邻轴各属性的量化问题。颜色系谱轴、运动系谱轴、形状系谱轴和场深系谱轴,以及触觉、嗅觉、味觉、听觉、幻觉和精神毗邻轴,都是我们用来建模的主要属性,其量化的精度直接影响了模型的精确性,但是过于精细又会导致求解的困难,如何在精确度和复杂度之间求得平衡是另一关键。
(3)研究解决优化算法的设计问题。如前所述,最后的建模必然是个复杂的优化问题,合理的优化算法是建模能否具有实用价值的关键。
三、本项构想的建设方案及可行性分析
本构想拟根据研究内容中考虑的几个方面,通过对研究内容中相关问题的理论分析,结合计算机仿真的数值结果来开展研究。
(1)针对视觉界面的主要属性,分析发掘物理与生理的双重表征特性,确立可分类的视觉系谱族。
(2)依据拟研究的视觉界面系谱轴和毗邻轴的各个项目,分析其特征,包括寻找其共同之处和各单元之间的间隔。
(3)量化视觉界面系谱轴和毗邻轴的各属性,将其综合为视觉处理机制模型的各项参数,进而将建模转化为相应的数学模型。
(4)分析数学模型的各项参数的特点,将模型的求解转化为一个优化问题,同时确定约束条件,为实用化奠定基础。
(5)开展对现代优化方法和计算智能等理论及其算法实现方面的研究,寻求将确定性算法和随机搜索算法结合的途径,在保证模型精度的同时,计算复杂度可以接受。
(6)开展对演化计算理论的遗传程序设计的研究,对潜在解进行线性编码,研究协作演化对识别对象在基因型水平上进行分解的方法,以便逐次求精完成目标识别。
(7)运用小型计算机模拟实际的视觉识别系统,检验算法对实际系统的有效性,根据分析结论实现自适应地调整模型的某些关键参数。
四、本项构想研究的特色与创新之处
(1)本研究拟建立的视觉界面系谱轴以及辅以毗邻轴的形式是其他方法所没有的,这样的研究方法是认识生物视觉信息处理机制的全新视角。
(2)本研究对生物视觉信息处理机制的建模没有局限于某一具体的识别算法,也没有局限于某一具体的应用,而是通过发掘视觉系统的物理和生理特征,以建立普适的高维视觉识别系统为目标,拓宽模型的应用范围,避免研究结论侧重于问题的某一方面所造成的理论性强而工程价值不足的缺陷。
(3)本研究对生物视觉信息处理机制建模问题的研究,融合了自然科学和社会科学对生物视觉的理解。自Marr视觉计算理论提出以来,绝大多数学者均注意到了其人工智能符号论,即理论计算机科学方面的性质,但极少学者考虑到Marr作为心理学家对计算机视觉的多视角理解,本项目研究充分考虑到了这一点,为生物视觉信息处理机制的研究提供了新思路。
(4)使用自然科学最新的研究成果量化艺术科学的研究数据,从而完成中华艺术视觉信息的谱系建构,部分绘出中华的“文化DNA”。
五、结束语
世界上每一种样式艺术,都有其固定不变的物理成分,都有其凸显本质特征的文化因子。如果将研究的视点锚固在中华艺术视觉信息的元素上,通过对视觉界面的深入研究,就可以约简出构成视觉元素的最小公分母。因为任何视觉信息都有其共轭的物象,而共轭关系是可以建模讨论的。最严密的科学研究应是任何人都无法对其自身的特征提出异议,而只能考虑其可能性。该项构想的攻关研究就是确定可能性和不可能性之极限!人文科学和自然科学的基础都在于感官的认知,通过建立其表述艺术特征的视、听、触、味、嗅、心理等轴向数值,可以将其转换成数字式的分析量值,在定性的前提下取得定量的表征数据。
该项构想的最终目标是,建设具有“中华艺术元素”的视觉信息数据库,建构具有“中华艺术风格”的视觉表现形态,创建具有“中华艺术气派”的文化艺术精神。
参考文献:
[1]沃尔夫林.潘耀昌(译).艺术风格学[M].沈阳:辽宁人民出版社,1989.
[2]W.J.T.米歇尔.陈永国,胡文征(译).图像理论[M].北京:北京大学出版社,2006.
[3]潘诺夫斯基.傅志强(译).视觉艺术的含义[M].沈阳:辽宁人民出版社,1987.
[4]Collier,John,Jr.& Collier,Malcom:Visual Anthropology?:Photography as a Research Method[M].Albuquerque:University of New Mexico Press,1986.
[5]Jacques Aumont: L′image [M].Paris: Nathan, 2001.
[6]Martine Joly:L′imageetlessinges?:Approchesémiologiquedel′image fixe[M].Paris: Nathan, 2002.
[7]Robert Layton: The Anthropology of Art [M], London: Cambridge University Press, 1991.
[8]韩丛耀.图像:一种后符号学的再发现[M].南京:南京大学出版社,2008.
[9]韩丛耀.图像传播学[M].台北:威士曼文化出版公司,2005.
[10]韩丛耀.新闻摄影学[M].南宁:广西美术出版社,1998.
[11]韩丛耀.摄影论[M].北京:解放军出版社,1997.
[12]韩丛耀.视觉界面初探[M].视觉新理念,北京:中国摄影出版,2001.
[13]韩丛耀.计算机与摄影[M].升华与超越,北京:高等教育出版社,1998.
[14]韩丛耀.计算机与暗房[M].升华与超越,北京:高等教育出版社,1998.
[15]韩丛耀.瞬间论——HCB的话里话外[M].新闻传播论坛(第8辑),2003.
[16]韩丛耀.失忆与重构[J].台湾台南艺术大学学报—艺术观点,2001年夏季号.
[17]John Fiske.张锦华,刘容玫,孙嘉蕊,黎雅丽(译).传播符号学理论[M].台北远流出版事业股份有限公司,1997.
[18]鲁道夫·阿恩海姆.滕守尧(译).视觉思维[M].北京:光明日报社,1987.
[19]A·J·格雷马斯.吴泓缈(译).结构语义学:方法研究[M].北京:生活·读书·新知三联书店,1999.
[20]杨治良.实验心理学[M].杭州:浙江教育出版社,1998.
[21]鲁道夫·阿恩海姆.滕守尧,朱疆源(译).艺术与视知觉[M].北京:中国社会科学出版社,1987.
[22]H·G·布洛克.滕守尧(译).现代艺术哲学[M].成都:四川人民出版社,1998.
[23]马克·第亚尼.滕守尧(译).非物质社会[M].成都:四川人民出版社,1998.
[24]Gillan Rose.王国强(译).视觉研究导论—影像的思考[M].台北:群学出版有限公司,2006.
(本文系苏州科技项目《基于智能识别的媒体内容管理平台的研发》研究成果,项目号:SYJG0933。)
(编辑:金冉)