声像资料中数据挖掘技术研究
2022-05-13葛向然
葛向然
摘要:随着声像的发展以及声像资料的普及,人们可以将声音、图像进行储存,收集和储存声像的能力已经超过了在声像中获取信息的能力,这一结果促使我们大力发展声像资料下的数据挖掘技术,发现声像资料下隐藏起来的数据信息。本文通过对声像资料和数据挖掘技术的定义研究,拓展出声像资料下数据挖掘技术的应用,希望可以为我国声像资料下的数据挖掘技术提供帮助。
关键词:声像资料;数据挖掘;图像数据挖掘
前言:数据挖掘技术的大量应用,有利于在网络中快速地提取所需要的信息,通过对图像数据挖掘、Web數据挖掘技术进行分析,不仅对声像资料的数据分析具有帮助,也能为发展数据挖掘技术提供方向,对声像资料下的数据挖掘技术研究具有现实意义。
一、声像资料
(一)声像资料的定义
声像又被叫做是感觉声源。当人们听见声音,并根据声音发生的位置产生的声音画面就叫做声像,所谓声像资料就是指在录音机、录像带、磁盘、光盘、手机等载体上记录的声音和图像,不同于音像或者是影像,是声音和影像的结合。一切可以听见或者是看见的都可以被称作是声像。
(二)声像资料的发展现状
现今阶段,声像资料一般用于司法鉴定,为了保证案件的公平与真实性,每一件案件都需要进行证物收集。因为声像资料一般起到记录和储存信息的作用,所以声像资料一般作为证物出现,但是为了保证证物的真实性会对声像资料进行司法鉴定。一般会对声像资料进行完整性、真实性进行鉴定,鉴定声音图像是否属于同一人,鉴定声像资料是否属于案件有关范围。例如,如果是录音类声像资料,那么根据录音中的声音以及所说情况,首先应该根据个人说话的音线和语言特征判断录音的真实性与准确性,然后分析情况。在各个领域中声像资料都展示出了它的重要性,声像技术也越来越受到重视
二、数据挖掘技术
(一)数据挖掘概述
数据挖掘,就是在大量的数据中识别、分析出可以使用的相关知识,从大量不完全的数据中提取有需要的数据信息的过程,这些数据都具有随机性、不确定性,他可能是数学结构也可能不是数学结构,可能需要在基础上再次进行演绎,也可能在基础上进行归纳就可以。数据挖掘是一个完整的过程,他从大量的信息中提取分散的信息,然后通过数据选择、数据预处理等步骤合成有用的信息,并通过这些信息获取丰富的知识或者是做出相对应的决定[1]。
(二)数据挖掘技术的发展现状
目前,我国数据挖掘技术已经不再是初级阶段,它已经从初级阶段走向中级阶段。在初级阶段的过程中已经完成了理论知识依据、模型框架构建等工作;中级阶段将在初级阶段的基础上为数据挖掘提供技术支持,完善算法优化等工作。国内的数据挖掘技术研究稍晚,目前还没有形成完整的研究体系,大多数的数据挖掘技术还在实验和基础理论准备中,所以国内目前有许多高等院校以及事业单位都在进行相关实验,如清华大学和中国科学院等。所以数据挖掘前景良好,未来会出现更加先进的数据挖掘技术。
三、声像资料下的数据挖掘技术
(一)图像数据挖掘
图像数据挖掘技术就是通过对图像分析、模式识别、人工智能等技术对图像中的信息就行挖掘。找出数据库中隐藏在图像、影像中的关联与存在信息。图像数据挖掘与传统的数据挖掘的区别在于,第一,图像上的所有信息都是隐藏的;第二,可以对图像生成多重解释;第三,图像中的信息也包括图像对象的空间信息。
1.目标识别
目标识别一直都是研究图像挖掘技术中非常活跃的领域,通过识别系统发现图像中正式存在的影像,然后再通过技术对影像进行挖掘,然后建立模型。一个目标识别系统一般情况下是由四个部分组成:分别是模型数据库;属性探索器;假设编辑器还有假设验证器。
2.影像检索
影像检索一般考虑图像标引还有系统检索。一种是通过具体描述对图像进行搜索,也就是常见的关键字、关键词等进行搜索。第二种,也是通过他在图像上的内容进行检测,如我们所观察到的信息、颜色、纹理还有形状这些方面进行检测。
3.图像分类
根据基本内容对所鉴别出来的信息进行大致分类与聚类,是大量信息挖掘中寻找有价值的信息中非常重要的一种方法。分类模型在图像挖掘技术中也叫做信息分类器,一般是通过最原始的信息在语义上进行划分。目前主要由两种分类器构成,分别是参数分类和非参数分类。
(二)web数据挖掘技术
web数据挖掘是指应用数据挖掘技术在文档和数据服务器中自行寻找有效信息,在网络中寻找到的音像和影像也算声像资料的一种。
1.Web声像挖掘技术
web是指在网络环境中通过不同的图像分析工具,在大量的、不完整的、不确定的、随机性的图像数据资源中,寻找资源规矩、特征和有用信息的一个过程。
2.web上的信息检索
现今时代,信息化时代的快速发展,网络已经成为了一个巨大的心意容量空间,里面存储了大量的各方面的信息,同时为了方便信息搜索也出现了许多网络信息检索系统,也就是我们经常提到的搜索引擎[2]。尽管这方面的系统已经被大众熟练运用,但是还是会出现许多问题,比如搜索范围较小、信息精准度不高。大多数的引擎搜索系统都处于关键词匹配这一低层次的应用中,在面对较高层次的搜索就会显得束手无策。
3.基于内容的声像检索
基于内容的声像检索是一种新的声像检索技术,它除了应用最基本的关键词或者是相似度进行信息匹配外,还可以用图像颜色的特征进行搜索。比如,国外开发的一些用于图像内容搜索的系统,如IBM等,国内不断研究也开发了许多检测系统,但是这些系统还存在一定的局限性。
4.MPEG4对基于内容的视频检索的影响
新一代多媒体MPEG4为多媒体压缩数据提供了非常广阔的舞台,它与之前基于标准的搜索不同在于,它不只是像素的组合,可以把视频中的每一个要素看成同一系列的对象。它不仅仅只是单声道或者是多声道,它可以是单声道、多声道、文字、动画等所有组合。所以许多内容都可以通过它进行检测,对于基础内容的检测可以起到促进作用。
总结:当今社会处于一个信息化的时代,无线网络、数字城市都是我们处于信息化时代的体现,可以将每个人连接在一起,信息共享。从声像资料的数据挖掘来看,声像资料不仅仅只是我们储存声音、影像的一种工具,更是获取知识的一种途径。数据挖掘技术也是将声像资料充分利用的一种有力工具,但是目前技术还不算完善,许多方面还在进步。
参考文献:
[1]黄君,陈超雪.云计算背景下物联网数据挖掘技术研究[J].电子世界,2021(22):4-5.
[2]王丽丽.大数据背景下数据挖掘技术的应用[J].计算机与网络,2021,47(20):45-47.