数字化图书馆中的多媒体数据挖掘技术应用探讨
2017-08-30王亚玲
王亚玲
摘 要:多媒体数据挖掘技术是数字图书馆的核心技术,可以帮助人们检索到文本信息、视频信息,能够为读者提供更加优质的服务。 就多媒体数据挖掘技术的相关概念以及内容进行阐述,分析数字图书馆中多媒体数据挖掘技术系统结构,并探讨多媒体数据挖掘技术的应用,以便提高多媒体数据挖掘技术在数字图书馆中的应用效率。
关键词:数字图书馆;多媒体数据挖掘技术;研究分析
在当今信息时代发展中,世界逐渐进入到数字化、网络化的发展中,信息成为人们生活与工作中的重要部分。在获取信息方面,可以通过互联网络渠道检索出各自需要的信息。随之数字图书馆逐渐发展起来,在数字图书馆中,对信息的获取可以通过多媒体数据挖掘技术来获得。在数字图书馆中,如何更好的使用多媒体数据挖掘技术来获取文本信息、视频信息等是当今急需要解决的问题。
1 多媒体数据挖掘的相关概念以及内容
1.1 多媒体数据挖掘技术的概念
多媒体数据挖掘技术是一种智能化的技术,将以往的以信息存储为主的多媒体技术处理和管理模式转变为以知识获取为主的模式,多媒体数据属于非结构化或半结构化,其具有不同的特点,并且存在不同的表达方式。各媒體数据不仅可以独立表达信息,还可以共同表达相同事物的不同特点,共同表达事物的发展过程及结果。因此,在多媒体数据中,存在信息主体特点、属性,并且数据之间具有紧密的联系。因此,多媒体数据挖掘主要指的是在多媒体数据的内容特征前提下,通过多媒体技术将其数据中隐含的、有价值的可以理解的内容挖掘出来。
1.2 多媒体数据挖掘技术的内容
数字图书馆中的数据挖掘不能看作是简单的对数字图书馆信息的检索,其主要是对以文本信息为主的数据挖掘,换句话而言,是对图像、声音、视频、动画等为代表的连续媒体内容进行数据挖掘。由于多媒体数据中具有丰富多样的内容特点,需要对这些信息特征进行分析研究,对数据之间的关系以及模式进行提取,以便获取有价值的信息。
1.2.1图像数据挖掘技术
数字图书馆中的图像数据种类繁多,其中包括图画、建筑物图、CAT扫描图、X线片、星球地图、天文物体图等。图像具有丰富的视觉与空间特性,其中视觉特性指的是颜色、性状、轮廓、纹理等特征,空间特性主要包括边缘探测、目标模式、边缘提取、模式识别等。图像数据挖掘需要从图像中提取能够代表以及区分该图像的内容特点信息,并且需要收集针对图像处理和数据挖掘的知识内容。当图像数据挖掘内容确定之后,需要对图像内容进行分析、分类以及检索等操作,对挖掘到的信息进行解释与表达,从而获取更深层的含义。
1.2.2视频挖掘技术
视频主要是由各种各样的图像帧序列组成的,其可以使用全局或者局部特征来表达。通过视频处理技术将视频的属性进行分割与分类,从而取得视频结构模式,并且可以从视频中获得视频对象,对其运行动态进行跟踪。通过时间的特点分析视频之间的关联性,以便获取更深层的事件内容。
1.2.3声音挖掘技术
声音挖掘主要对象是语音中的声音,通过对声音数字化的处理后可以得出音频。其中音频的挖掘主要通过两种方式来完成的。其一,使用语言知识识别技术将语音转变成文字,将音频挖掘改变成为文字挖掘。其二,通过直接法在音频中获取声音的特点,例如音调以及韵律、节奏等,通过聚类分析法对声音的模式进行分析,从而分析音频的基频、能量分布特点等,以便获取音频中的对象结构,提取出内在的信息与规律。
2 数字图书馆中多媒体数据挖掘技术的系统结构
2.1 多媒体数据库
在数字图书馆多媒体数据中,主要包括原始的数据库和元数据库。其中原始的数据库指的是原始的多媒体数据,例如各种图像、视频以及音频等数据信息。这些数据的媒体结构与元数据库中的描述具有紧密的关联性,可以通过可视化的方式进行表达和存取。元数据库指的是一种按照挖掘要求组成多维度、多层次以及多媒体的数据库。其能够有效的提高媒体数据挖掘的效率。
2.2 挖掘引擎
数字图书馆中多媒体数据挖掘引擎主要由一组快速的挖掘算法组成,其中涉及到数据的分类、关联分析、聚类、总结等方面。数字图书馆多媒体数据挖掘系统可以根据具体的应用情况,选择一个或者多个挖掘算法,对数据进行深入的挖掘。
2.3 数据预处理结构
数字图书馆中多媒体数据预处理结构主要是通过对多媒体数据进行结构化的处理,并对数据的特征进行提取。在图像数据预处理的过程中,需要对图像中的信息进行结构化处理,并对其进行分割研究。同时,在视频与音频信息处理过程中,均需要通过这种方式来处理。另外,在处理的过程中,需要对事件进行标记,对其叙事结构进行组织,并分析其语义的关联性。数据预处理结构主要是以元数据的形式将其记录在元数据库中。
2.4 用户挖掘数据接口
用户挖掘数据的接口主要是对挖掘结果进行解释和呈现的界面,可以为用户提供交互接口以及扩展的挖掘语言。根据多媒体的视频以及时空特点进行分析,数据挖掘出来的结果需要通过新型的表达方式呈现出来。例如可以通过导航式的知识开展与交互式的问题求解过程来呈现,并且可以为数据挖掘结果提供可视化的接口,方便用户的查询和了解。在数字化图书馆中,通过这种方式可以让用户更加便利的获取自己所需要的信息资源。
3 数字图书馆中多媒体数据挖掘技术分析
3.1 相似搜索技术
传统的数据库搜索方式主要是通过关键字、词的搜索来操作的。例如,在搜索图像的时候,通过图像的标题、关键字以及尺寸进行检索。这些搜索均可以通过人工描述其信息特点,并将其信息特点提交给搜索引擎,以便更好的查找所需要的资源。但是这种搜索方式所产生的结果质量较差,这种检索方式没有统一的标准。目前基于内容的搜索方式就是在这种背景下提出来的,其主要是通过视觉的特征来标引图像,并根据图像的特征进行相似性检索。这种检索方式能够符合各种信息的检索,其具有较好的检索效果。
3.2 关联挖掘技术
数字图书馆中的信息和数据涉及到各个方面,其中图像、视频、音频等数据库中涵盖到多媒体数据对象的关联规则有以下几个方面。其一,图像内容与非图像内容之间的关系,视频内容与非视频内容之间的关系,音频内容与非音频内容之间的关系等。其关联规则主要需要根据颜色、语调、尺寸、纹理等方面进行分析,例如,在一张图中,上半部分50%以上均为蓝色,那么很有可能是表示天空。这些关联的规则与知识库具有较大的联系。其二,与空间关系无关的内容关联性。例如,在一张图片中,有两个蓝色的圆形,对其进行推测可以看出很有可能在图片中还存在一个红色的正方形,同时,在大多数知名品牌的商标中,通常会出现各种特殊的图案。通过这种思维模式的推测,可以分析内容的关联性。其三,与空间有关的内容关联性。
3.3 多维分析
多维分析指的是多媒体数据通过组成立方体的数据库来分析的,具有多维性特点。其多维内容包括:图像的尺寸以及视频的节数、图像与视频的网络状况、视频与图像建立的时间等。这些多维层面的内涵可以根据实际情况自行定义,多维的建立与分析有利于多媒体数据挖掘技术在视频内容以及图像方面进行深入的分析。但是在进行多维分析的时候,需要考虑到维数建立的问题,由于维数较大的数据立方体建立起来比较困难,因此需要制定出更便利的建立方案,以便为多维分析提供前提依据。
3.4 多媒体数据的表达方式
在数据挖掘技术的发展过程中,其底层多媒体数据的表达以及相关规定的重要性逐渐突显出来。随之多媒体内容描述的相关接口研发出来,之后又提出来一种多媒體内容的标准化描述方案,这种方案能够适用于现实生活的各个方面。通过对描述对象的各个特征进行提取,并在此前提下,对数据挖掘技术中的数据库、知识库以及挖掘引擎等进行设计与建设,并为其提供相关的依据。在多媒体数据描述方案中,对多媒体数据挖掘技术的定义比较广泛,其主要涉及到图像、表格、音频以及视频等方面,同时对人的情感色彩、事物的发生过程、人的价值取向等进行分析。并且通过各种元素的相互结合,组成标准的多媒体演示。其中标准的描述集合与描述定义语言主要是用来描述各种类型的多媒体数据,并根据相关指定要求形成各种描述方案。
4 结语
在当今信息、网络等技术的发展过程中,图书馆逐渐进入到数字化、信息化发展模式中,在数字图书馆中,需要通过多媒体数据挖掘技术对信息资源进行索取,为用户提供更加便捷、人性化的搜索模式,以便提高信息获取的效率。在多媒体数据挖掘技术中,还需要对各种技术与方法进行优化与完善,以便为用户提供更加优质的服务。
参考文献
[1]吉根林.Web挖掘技术研究[J].计算机工程,2012,14(1):25.
[2]郑美英.新世纪对数字图书馆建设的要求[J].厦门科技,2011,12(3):64.