关于互联网视觉媒体若干问题的探讨

2016-04-11柴功昊刘微

电脑知识与技术 2016年4期

柴功昊+刘微

摘要：互联网的飞速发展扩大了图片、视频、文字等多媒体信息的传播范围。图片和视频在社交网络中已经成为了最为活跃的一类信息载体。该文初步探讨了互联网视觉媒体的基本内容、视觉媒体的关键技术以及互联网视觉媒体的发展前景等相关内容。

关键词：互联网视觉媒体；多媒体信息处理；发展前景

中图分类号：TP37 文献标识码：A 文章编号：1009-3044（2016）04-0202-02

作为第三次工业革命重要产物的信息技术，是20世纪以来对人类社会造成影响最大的产物。在其诞生后的短短几十年间，迅速地得到了发展和普及，并且对人们生产、生活和工作等等多个领域产生了长远而深入的影响，使人们的各项工作都变得更加的便利和高效。在众多的互联网应用技术中，互联网视觉媒体的应用对社会的发展和人们的生活息息相关，具有重要意义。而网络上越来越多的图片、视频和文字等多媒体信息被用户不断上传到互联网上。

1 互联网视觉媒体的研究意义

目前，大多数互联网视觉媒体数据的开发和应用已经可以达到让非专业用户轻松创造和编辑新的视觉媒体的商业价值。但是，这些软件只是提供了最基础的图像和视频处理操作，用户无法根据自己的意图对图片和视频等进行更加高级或专业的编辑和智能的调整。现在的互联网视频媒体资源大多为非结构化，缺乏对后续应用开发的考虑。其中，图片和视频在社交网络中已经成为了最为活跃的一类信息载体，能够高效地提供直观的视觉效果。新的实时平台开始崛起且增长强劲。而互联网的技术更新和普及发展极大地扩大了图片、视频、文字等多媒体信息的传播范围，加之当前移动互联网技术的革新，使得多媒体信息更是由以往的点对点传播方式转变为了点向面的辐射式传播模式。因此，如何借助多媒体计算技术和社交网络上存在的大量图片及相关信息，来对系统工具实现进一步的开发，已经成为互联网比较关注的方向。

多媒体计算即多种多媒体信息通过计算机的交互式综合处理后建立起逻辑连接，集成为一个具有交互性的系统。多媒体技术主要处理的对象包括文字、图像、图形、音频和视频等。另外，目前网络上存在的大量图片或视频等媒质，以及对这些媒质所附带的标注、评论、用户喜好等信息，常常被用来进行多源异质的媒体信息分析、处理及应用，这就是基于互联网视觉媒体的信息处理。其研究内容涉及广泛，而且可以充分利用现有的视觉媒体资源。通过文本进行简单的索引效果并不准确，这些困难给互联网上视觉媒体资源的开发利用带来了一定的阻碍。因此，对互联网视觉媒体的改进和完善刻不容缓。

2 多媒体视觉信息处理简介

目前，在计算机的多媒体信息中，文本、图像、视频和音频这四类素材是构成计算机多媒体信息的主要部分，而且在多媒体检索领域以及与多媒体有关其他研究领域的应用也已经成为研究的热点。互联网视觉媒体处理流程一般包括三个步骤：视觉内容的获取，视觉数据集的收集整理和基于数据的开发和应用。视觉内容的获取即从互联网的海量视觉数据的资源中选择收集有意义的目标图片或视频建立数据集。视觉数据集的收集整理即通过特征提取、目标分割等方法找到采集到的图片、视频等视觉媒体的基本关系，确保视觉媒体资源可以直接运用于下一步的研究和开发。对数据的开发和应用即可通过改进方法等使图像和视频处理适应多媒体的应用。

近年来，随着计算机成本的降低，使得计算机和网络得到的迅速的普及，而互联网用户数量的激增极大地促进了互联网多媒体创新和应用的发展。计算机图像学、计算机视觉技术和多媒体信息处理技术针对互联网视觉媒体的研究和应用已经取得丰富的成果。目前，给予互联网多媒体视觉信息处理的研究主要集中在基于内容的图像、视频检索；视觉媒体的数据库的创建；视觉内容合成；视觉媒体编辑等四个方面。基于内容的图像、视频检索即通过提取关键特征检索到客户所需要的图片、视频等资源；视觉媒体的数据库的创建即通过互联网及互联网上的搜索引擎等建立一个附带高语义标签和高效率索引的大型多媒体数据库，减少查询所需时间；视觉内容合成即利用已有的视觉媒体资源来生成新的内容；视觉媒体编辑即基于图片和视频进行音频编辑、着色、去雾、边缘感知等编辑。

3 视觉媒体处理的关键技术分析

3.1 视觉媒体的图像渲染技术

计算机图形学作为一门新兴学科，得到了迅速的发展和广泛的应用。其主要内容为研究如何在计算机中表示图形以及用计算机进行图形的计算、处理和显示的相关原理和算法。数字图像的数量由于互联网的发挥在那和图像获取设备的普及呈现出几何级的增长状况，用户对图像关注点已经从如何获取照片上传到网络转移至如何在分享的过程中更好更生动地展示图形的内容。因此，图像渲染技术随之成为计算机图形学中一项重要的研究内容。

按照不同的渲染风格划分，渲染技术主要分为两大类：真实效果的渲染和非真实效果的渲染。具体来说，真实效果渲染一直是学术界和工业界研究的主流。真实感要求在计算机中生成具有真实感的图像，如构建几何场景或光照模型等，其效果及其逼真，能够使观众产生身临其境的感觉。然而在有些情况下，用户更希望计算机能够生成一些和真实照片不同的图像效果，如将自己拍摄的照片转换成油画、素描、水墨画等。因此，非真实感绘制也逐渐得到了重视和发展，开始成为计算机图形图像处理领域的一个研究热点问题。非真实效果的图像渲染不以生成类似照片的图像为目标，而是通过省略与图形无关的细节，简化物体的形状，甚至暴露被消隐的细节等来表达绘制者的意图。非真实效果的渲染还包括基于笔画的渲染、基于区域的渲染、基于样本的渲染等。基于笔画的渲染即通过控制画笔的形状、颜色、方向等元素产生各种艺术风格的图像，绘制离散的绘画元素，来模拟一个特定的风格。基于区域的渲染可以分为渲染区域内的渲染基础单元的排列布局和改变图像的外形、绘图形式或者各区域的组合，在分析图像结构时被大量使用，可以对基于图像局部内容信息进行渲染。基于样本的渲染就是通过模仿艺术家绘画的风格来对现有景象进行艺术风格的创作，对原画像和渲染风格目标图像之间进行映射转换。

3.2 视觉媒体图像的特征提取

视觉媒体图像的特征提取，即计算机为识别图像而去提取作为图像构成的相关像素点，并对像素点进行分析以确定其特征归属的过程。有效的视觉特征的提取对后续的图像分类识别、图像检索等研究有着重要的意义，一直是计算机视觉领域里重要的研究问题。图像特征可以作为区分不同目标类别的依据，具有可重复性、可区分性、集中性等，能够应对亮度、旋转、尺度等变化的影响。图像视觉特征的提取和表示是将图像的视觉信息转化成计算机能够识别和处理的定量形式的过程。视觉特征的提取主要包括以下几种：1）颜色特征。颜色特征是人类认识世界的最基本视觉特征，属于全局特征，常被使用的表示方法有颜色直方图、颜色矩、颜色聚合向量、颜色相关图等。2）LBP特征。LBP特征是局部二值模式的简称，用来描述空间结构的非参数算子。3）SLFT特征，即尺度不变特征变换，基于图像局部特征的描述，可以对图像的初读和旋转变化保持不变性。4）彩色SLFT特征。彩色SLFT特征具有尺度旋转不变性，广泛应用于以特征提取为基础的工作中。5）HOG特征，即方向梯度直方图，对图像的微小几何形变和局部对比度变化可以保持很好的不变性，通过计算和统计图像局部区域的梯度方向直方图来构成特征。

3.3 视觉媒体图像的分类

视觉媒体图像的分类主要有两种方法：传统的图像分类方法和基于深度学习的图像分类方法。传统的分类方法是利用图像特征提取算法，利用K-Means算法构造单词表，最终利用单词表中的词汇表示图像。在图像中提取独立的视觉词汇通常需要经过特征检测、特征标识和单词本的生成三个步骤。基于深度学习的图像分类方法是通过底层特征形成更加抽象的高层表示属性类别或特征，从而能够发现数据的分布式特征表示。

4 互联网视觉媒体的应用与发展前景

4.1 多模态图像渲染系统

所谓的多模态融合渲染，即是指通过对文字的卷绕和对图像的包装来实现将两种模态融合的效果，将图像、文字、视频、音频等进行有机地结合，进而呈现出一种更加艺术性的效果，通过这一方式不仅能实现照片的图像，而且还能传达出简要的文字信息。在现实生活中，我们经常可以看到各种文字拼接的广告和海报，这也是多模态图像渲染的表现。通过多模态渲染系统，可以让计算机自动生成具有这种效果的图像，让人类的视觉系统同时获得整体的图像效果与细节的文字效果，感受到图像和组成图像的文字之间的一种动态的张力。

多模态图像渲染系统结合了图像和文字多模态，包含图像模块、文字模块、两种模态的结合模块以及后处理部分四个部分。具体来说，图像模块作为文字模块输出的容器，在图像模块里，给定一张图片，首先生成图像的二值化剪影，然后对保留下来的图块根据单词变形的合适程度进行排序，生成用来填充关键词的图像块；文字模块输出经过排序的包含文字的图片；两种模态金融结合后，通过后处理部分进一步改善视觉效果。多模态图像渲染系统属于非真实图像渲染，具有艺术化的展示效果。

4.2 皮影戏的继承与发扬

皮影戏又称“影子戏”或“灯影戏”，是一种以兽皮或纸板做成的人物剪影，在蜡烛或燃烧的酒精等光源的照射下用隔亮布进行演戏。对于皮影戏的继承与发扬，主要利用互联网上现存的皮影戏图片和皮影戏视频等视觉媒体资源，设计出一个皮影戏的遗产电子化系统，从而将皮影戏的创作个性化、操作简洁化。皮影戏的遗产电子化系统主要包括两个模块，分别是创作模块和操作模块。创作模块的输入时两张人脸图像，自动生成类似人物的皮影戏头部，提取输入人脸图像的中部侧影线，并将皮影的眼睛卷绕进世纪人脸的眼睛区域中。另外，系统还将皮影的文理转移到侧影线中。操作模块中，重点是在操作皮影戏的过程中保持皮影戏中角色原有的运动模式和特点，生动再现皮影戏中人物的动作独特性，最终实现元动作的平滑效果、动画整体的平滑效果和皮影戏短视频的表演效果等。

近年来，遗产的电子化保护逐渐受到人们的重视，越来越多的人想要通过计算机技术的应用开发来保护文化遗产。遗产的电子化保护已经成为了热门的研究课题，主要是物质遗产保护和非物质遗产保护两种。物质遗产包括建筑、古迹、文物等；非物质遗产包括传统节日、民俗风情、口头艺术等。

4.3 家具风格的视觉分类

家具风格是家具最具判别力的外观视觉特征。人们在设计和选择家具时常常将家具美学价值作为一项重要的参考指标，结合功能和美学，通过家具的类型、颜色和材料等传达出室内装修的视觉效果。随着经济的发展和人们物质需求的不断提高，家具也不断地发展和创新，门类繁多，用料各异，品种齐全，用途不一。家具的研究主要包括家具设计和室内家具摆放。将互联网视觉媒体与家具风格设计的具体应用就是设计出一个交互设计家具的框架，开发出实用的家具几何构造和实体，通过在系统中加入几何元素来帮助用户设计出可靠的家具外形。具体操作该系统时，首先提取家具之间的空间关系，然后根据最小化能量方程来迭代地调整家具的位置，在对目标检测和识别后，根据家具的功能进行分类，最终实现对家居风格的分类的识别和分析。

为了更好地对家具风格的视觉特征进行详细的分析，还可以构建家居风格数据库，包含室内图片和家居图片等，应用于对家居风格的研究。目前市场上主要流行的家具风格主要是美式风格、巴洛克风格、帝政式风格、哥特式风格、文艺复兴风格、洛可可风格、中式明朝风格、中式清朝风格、新古典主义风格、地中海风格、乡村风格、现代法式风格、日式风格、现代中式风格、东南亚风格以及现代主义风格等十六种风格。数据库中的图片来自于不同的网络资源，每张图片都标注了特定的家居风格的标签和家居功能标签，简单直观。

4.4 互联网视觉媒体的发展前景

虽然当前基于视觉媒体信息的研究和应用开发已经取得了很大的进展，但随着互联网媒体信息的不断增长，仍然具有广阔的研究空间。第一，对图像的艺术化渲染不仅存在真实效果渲染和非真实效果渲染，还有多种的角度。并且，对图像的艺术化渲染已经从图像图形学领域延伸至计算机视觉和机器学习技术领域。但是，在视频领域中图像渲染仍面临很多挑战。第二，深度学习作为现在的研究热点，已经得到广泛应用，如图像分类、场景识别、图像分割等方面。今后值得研究的问题之一就是如何将深度学习和图像、视频艺术化渲染结合在一起。第三，视觉媒体资源的丰富性提供了大量丰富的素材可供视觉媒体的开发应用。同时，社交网络下用户之间的互动也为多媒体提供了更多的辅助信息和应用环境。如何将多媒体信息处理和社交网络进行有机结合，仍然值得研究。

5 总结

综上所述，随着信息技术的不断发展，互联网视觉媒体的应用范围将会不断有所拓展和创新。由此，相关从业人员应当把握当前这个良好的机遇加强对互联网视觉媒体相关技术的开发和应用，不断完善和改进，为社会的进步和人们生活质量的提升产生积极作用，从而实现互联网技术的不断进步与社会经济的不断发展。

参考文献：

[1] 刘丽娜. 浅谈日本报纸视觉呈现——探讨互联网时代下传统媒体视觉突围[J].设计，2012（10）：134-135.

[2] 杜比视觉（Dolby Vision）技术提升互联网媒体图像质量[J].现代电影技术，2014（3）：61-62.

[3] 谢薇. 基于互联网的视觉传达设计的研究[J].才智，2011（13）：59.