APP下载

基于生态声学的虚拟现实影视声景指数量化

2022-01-28毛润坤董雪婷

计算机应用与软件 2022年1期
关键词:数值主观样本

毛润坤 张 莹 董雪婷

(上海大学上海电影学院 上海 200072)

0 引 言

随着虚拟现实技术的飞速发展,目前国内外各大流视频平台大都开设了虚拟现实板块,这种新型的影视模式越来越贴近普通观众的生活。随着5G时代全面到来,虚拟现实影视内容将迎来新一轮的爆发增长。同以上发展趋势形成鲜明对比的是内容制作上的探索还停留在初期,是一片亟待深入开发的领域。虽然在虚拟现实影片中针对声音的特点及设计要求[1]、还音制式[2]等方面已有许多广为认可的观点,但是针对声音的内容设计上所做的研究还难以匹配虚拟现实对高真实感和高沉浸感的要求。针对此现状,有学者提出将生态声学中的声景观理论引入虚拟现实影片的声音设计中[3-4],但该类研究只是从声音设计的美感和人文关怀的角度将两种学科融合,提供了一种新的审美角度,但未解决具体声景设计中缺乏更精细、客观的标准这一问题。

本文从科学量化的角度,提出了一种基于生态声学的综合算法,通过量化声景中的各种元素之间的比例和特征,从而用数值表达该虚拟现实影视场景下的地点、时间、生物氛围等基本信息,以解决传统声音设计中过于依赖声音设计师主观听感和生活经验所导致的空间信息模糊、声音元素比例不够精确等问题。本文方案给影视声景设计师提供了精准的辅助判断依据,帮助其构建一个贴近现实世界的声景观。

1 基于生态声学的影视声景元素分类

影视声景的研究主体是故事发生的背景环境下的声音构建,与故事内容和情绪烘托等相关元素无关。它需要提供的信息一般包括地点、时间和天气等,但又不应该出现对主角的动效或者台词产生任何干扰的声音。其设计原则是:在还原客观真实世界中的自然声景信息的前提下,避免有较大动态,避免有记忆特征的声音信息出现,以此来保证影视声景的沉浸感和对故事叙述的低干扰及可持续性。

针对影视声景设计是基于对真实自然声景的还原这一设计原则,本文方案理论基础来自以自然声景为研究主体的生态声学。该学科发展时间久、成果较多,有较为完整的研究体系。

经过国内外生态声学的学者的大量研究总结发现[5-6],自然景观下的声景元素可依据其发生动机分成自然声、地球声、人为声三类。其中自然声指的是自然环境中不包括人在内的生物所发出的鸣叫声,如鸟叫、蝉鸣等;地球声则指的是地球现象所产生的声音,如风声、雨声、海浪声等;人为声指的是一切由人类活动或者人类生产所产生的声音,如交通声、机器轰鸣声等。这三类声音在频率分布上有一定特性,自然声主要集中在3~8 kHz,若空间中出现了利用超声波进行活动的动物(如蝙蝠等),这个频率段将会扩展至8 kHz以上;人为声的主要频率段则集中在0.2~1.5 kHz;地球声则因为其频率上的弥漫性,其频率特性类似颜色噪声这一类音频。

2 基于元素分类的影视声景量化算法

2.1 基于NDSI的影视声景地点量化

NDSI[7]指数通过计算人为声与自然声在声景中的比例,从而反映人类活动对环境的影响。在影视声景的量化体系中可转化成对地点信息的描述。通过采集到声景观音频的PSD,计算人为声和生物声的频率范围内PSD积分的矩形估计值。利用如下公式,得到NDSI:

(1)

式中:a表示人为声分量;b表示生物声分量。NDSI值越趋近于1则表明该景观下自然声占比更多,影视声景所处地点城市化程度较低,环境比较自然幽静;而越趋近于-1则表明人为声占比更多,影视声景所处地点城市化程度较高,以各种交通声、机器声为主。

2.2 基于ACI的影视声景生物氛围量化

ACI[8]计算的核心思想是计算两个元时间段上的功率波动的情况。最开始这个指标是为了量化鸟类的叫声,因为鸟类叫声的发声频率和声功率变化相比人为声来说变化比较大,在声谱矩阵上表现为相邻时间出现较大的波动。但是后来逐渐发展到昆虫一类的生物检测,其可表示这片区域的生物活跃性[9]。在影视声景的量化体系中可转化成对该区域自然氛围的描述。该描述一方面可结合实际的生活经验为观众提供大致的时间信息,另一方面可烘托影视场景的情感氛围,是死气沉沉还是生机勃勃。

具体的计算流程如下:

通过短时傅里叶变化,将所获得的音频文件提取出功率谱矩阵。记L频段上相邻单位时间上的功率差异为dk:

dk=|Ik-I(k+1)|

(2)

再将元时间内的相邻功率差之和记为D:

(3)

式中:n为元时间内单位时间的个数。又为了消除麦克风距离对其相关密度的影响,故将所得D与该元时间上所有单位时间的总功率之和相除:

(4)

至此,得到在某特定频段上一个元时间内的ACI,将时间横轴扩充到文件长度,则某特定频段上的全文件长度ACI为:

(5)

式中:m为全文件长度中元时间的个数。频率纵轴扩充到全频段,则得到了整个文件完整的ACI值:

(6)

式中:q为频率段数。

ACI值与生物活跃度成正比,当ACI值越大时则表明该区域生物活跃的越高,则说明该影视声景观中鸟叫或者虫鸣声较为频繁。

2.3 基于MCRA的影视声景天气量化

因为天气变化产生的地球声具有广频的频率特征,在量化时将其视作噪声进行估计。利用的是噪声估计中的MCRA,其原理是信号声音活动期间,信号在单点频段上会发生衰减,最终与噪声功率持平,因此可以采用该算法来持续更新噪声功率的变化。基于MCRA的SNR计算流程如图1所示。

图1 基于MCRA的SNR计算流程

根据平均递归的通式,可得噪声估计值:

D(λ,k)=αs(λ,k)D(λ-1,k)+

(7)

根据谱减法的原理,原始音频的组成为:

Y(λ,k)=X(λ,k)+D(λ,k)

(8)

在已知Y(λ,k)和D(λ,k)的情况下,可知X(λ,k)。代入式(9)可得SNR。

(9)

SNR与地球声含量成反比,SNR越大则天气因素的影响较为微弱,而SNR越小则风声或雨声的能量较多,其能一定程度上在影视声景观的重建中量化天气因素。

3 方案评测

3.1 实验样本

所用实验样本来自实地全景声录制。录制设备为Tetra Mic麦克风和ZOOM H6录音机,所得音频格式为Ambisonics A Format。录制地点有两处,Location1为上海市静安区内距离四车道主干马路100米左右的开放式居民区,Location2为远离主干马路的小区深处小树林。

经过剪辑处理,最后采集得到样本46个。其中包括晴天天气下两个地点上午、下午各10个音频片段,以及大风天气下分别在两个地点录得的3个音频片段。

3.2 量化结果

原始录制所得样本中包含4轨独立的单声道音频信息,经由Sennheiser公司提供的格式转换插件AMBEO A-B Converter,将录音获得的A Format信号转换成B Format信号,最后将所得到的包含完整空间信息的B Format信号用Magnitude-LS的方式[10]进行双耳解码,得到双声道音频文件。将该双耳信号进行量化计算,得到结果如表1所示。

表1 所有样本的量化结果

表1总结了全部46个样本的三项指标结果的平均值。其中NDSI指数描述影视声景的地点信息,数值越高则说明场景所在的城市因素占比较低,可能处于树林、公园、乡村等城市化程度较低的区域。ACI指数描述影视声景的生物氛围信息,数值越高表明生物活跃度越高,根据日常生活经验大致可判断声景的时间信息。SNR指数描述影视声景的天气信息,反映天气元素的强弱,数值越大则表明天气成分占比少,倾向于微风、细雨等天气。

3.3 量化结果与实际客观情况的比较

46个声景观采样样本的NDSI数值和ACI数值计算结果如图2所示。

(a)所有晴天样本中ACI数值的量化结果

在晴天没有地球声干扰的情况下,结合之前对两处采样点的客观环境介绍,实验结果非常直观地从声景观采样中的自然声与人为声的比例和自然声的活跃度两个方面区分了这两个区域的所在地点和时间。小树林的声景观采集下的NDSI数值、ACI数值比同时间段的临近马路的小区要高,与其所在地点较为幽静、自然生态系统比较活跃有直接关系。另外在同一地点的不同时间段的对比看来,两处采样环境下均是早上的生物活跃度较高,自然声与人为声的比例较高,这样的采样结果客观上是符合生物活动规律和人类社会活动规律的。从两处采样景观早上、下午的NDSI和ACI数值差异来看,两处ACI数值在上午下午的差异比较一致,说明了这两处单纯的生物活动的变化较为一致,而临近马路的小区早上与下午的NDSI数值差异比小树林的更大,说明该处声景观的变化受人类活动影响更明显。

而在刮风天时,比较两处采样点的NDSI和ACI数值所反映的声景观中的人为声和自然声的特征上与晴天时相似,而量化风声的SNR数值则显示,临近马路的小区的风声比小区树林的风声更大。因为实际风量的大小同一时间不同地点会不一样,同一地点的不同时间也会不一样,所以对地球声的量化是否精准,将在主观听感实验中具体讨论。

3.4 量化与主观听感语义分析结果的比较

从声景设计的根本是听感这一原则出发,本文设置了主观听感的语义分析实验[11],将该实验结果与本文提出的量化算法得到的数值相比较,以判定景观经算法量化得到的数值是否符合设计师对影视声景观设计的主观感受。主观听感语义分析实验设置如下:

挑选接受过声音设计教育或有相关经验的人员10名进行试听实验,试听主要分为两个部分,分别针对晴朗天气下NDSI和ACI与主观听感中对地点和自然氛围的判断是否匹配,以及刮风天气下SNR用于量化风声对于整体声景观比例的准确性,以此来描述天气因素的强弱。

第一部分的测试内容是晴朗天气下的所有采样中,忽略采样地点和时间等因素,选取的5条声景观素材;第二部分的测试内容则是在忽略地点的情况下,在所有刮风天的采样中,选取5条声景观素材。

设置的语义量化如表2所示。

表2 各项特征的语义量化表

实验所得主观测试结果和算法量化结果的趋势如图3所示。

(a)测试样本中ACI的主观客观结果比较

可以看出,关于影视声景中地点因素的量化,主观测试的结果与算法量化的结果趋势基本保持一致,可以证明基于NDSI的声景观人为声与自然声比例算法在计算结果上与专业的影视声景设计师对与地点因素的考虑是有同一性的,说明其在实际运用中有可靠性。另外关于自然氛围的量化,主观测试结果与算法量化的结果在趋势上大致上是相似的,只有在1号测试样本或者4号测试样本中,主观测试与算法量化的结果出现了细微的差异。原因可能应该是4号样本主观测试的听感低于所期待的算法量化值对应的听感,因为4号测试样本中人为声的比例较高,城市交通噪音对样本中鸟叫音在听感上产生了掩蔽效应,所以在听音测试中,部分鸟类的活动被人耳忽略,而导致了这样的主观客观之间的差异。

关于风声对其他信息的掩盖程度方面,主观听感测试的结果与算法量化的结果基本保持了一致。补充证明了基于SNR的地球声与其他声音成分比例的算法在实际的影视化声景观设计中是可靠的。

4 结 语

本文方案基于学科融合的思想,利用科学量化的手段,为声音设计师在重塑某特定时间地点的影视声景观时提供了一个相较于传统影视声景观制作而言更为精准、直观的方式,能给予客观的量化参考,方便其做出理智的分析,创作出符合实际情况的声景观。实际运用中,声音设计师在为虚拟场景做声景观设计时,可将自己作品的声景观指数与参考声景观指数作比较,从三个维度有的放矢地去修改设计中与实际情况有出入的部分。该方案通过与实际客观情况作分析,声景观的量化情况符合实际;与声景观设计师的主观测试打分的结果进行对比和分析,虽然发现了一定程度的出入,但在合理范围之类,且恰好可以证明科学量化的结果能在一定程度上弥补人耳的听觉效应。下一步的研究工作计划如下:(1)丰富对地球声的采集,不仅是针对风声的样本的补充,还须采样更多元的地球声种类;(2)拓宽采样点区域的类型,将现在的两个采样点拓展成更多种类的环境,以进一步精细该方案。

猜你喜欢

数值主观样本
体积占比不同的组合式石蜡相变传热数值模拟
数值大小比较“招招鲜”
舰船测风传感器安装位置数值仿真
铝合金加筋板焊接温度场和残余应力数值模拟
后印象
有主观小量倾向的“数+量/名+之+形/动”格式
挣多少钱,才可以买到快乐
随机微分方程的样本Lyapunov二次型估计
对立与存在
基于支持向量机的测厚仪CS值电压漂移故障判定及处理