基于双目相机的车辆鸣笛监测方法

2023-02-27姜博柳小勤

农业装备与车辆工程 2023年2期

姜博，柳小勤

（650500 云南省昆明市昆明理工大学机电工程学院）

0 引言

随着经济的快速发展，人们对生活品质的追求不断提高，使得车辆数目在逐年快速增长。违规鸣笛现象充斥于日常生活。车辆的违规鸣笛加剧了城市噪声污染，也影响居民的正常生活[1]。为了提高居民生活质量，国家颁布《中华人民共和国道路交通安全法实施条例》[2]，其中第六十二条规定，“驾驶机动车不得在禁止鸣喇叭的区域或者路段鸣喇叭”，但是通过人工监管的方法来进行监管违法乱纪车辆不仅效率低下且耗费大量人力物力。

麦克风阵列因其能够精确定位出声源被广泛应用于噪声测试中[3]。为了提高对违规鸣笛车辆的监测力度，麦克风阵列同样被用于鸣笛检测系统中。孙懋珩等[4]提出一种基于麦克风阵列声源定位技术的城市道路汽车鸣笛定位系统；徐静等[5]在声源定位算法理论研究的基础上，将麦克风阵列定位技术应用于城市违章鸣笛车辆定位中；袁芳等[6]利用传声器阵列对鸣笛汽车进行声学定位实现汽车鸣笛的实时抓拍；张焕强等[7]提出一种基于传声器阵列声源定位算法的违章鸣笛车辆定位方法，通过实验验证了方法的可行性；牛锋等[8]介绍了声源定位技术原理与机动车鸣笛抓拍系统的组成及功能特点；秦朝琪等[9]提出一种声光图像一致及声压准确度的鸣笛监测系统测试方法。

对违规鸣笛监测要求提高对声源定位的准确性与计算速度。上述文献基于麦克风阵列传统车辆鸣笛监测方法，为搜索鸣笛声源，需要提前设定麦克风阵列与被测车辆的距离，距离设定是否准确直接影响违规鸣笛定位的准确性。已有的鸣笛监测系统对整个拍摄视野范围内进行声源搜索定位，降低了对违规鸣笛监测的效率。为了提高鸣笛监测的准确性与效率，本文提出了一种利用双目相机与麦克风阵列相结合的车辆鸣笛监测方法。

1 结合双目相机车辆违规鸣笛监测方法原理

1.1 声源定位原理

利用阵列进行车辆鸣笛检测原理图如图1 所示。空间中存在M 个传声器组成的传声器阵列，存在一辆鸣笛车辆s，假设第m 号传声器作为参考传声器，其接收到的声压信号为Pm（t），则整个阵列信号延时求和可得到波束形成输出结果：

图1 车辆鸣笛定位原理图Fig.1 Schematic diagram of vehicle whistle localization

对式（1）进行傅里叶变换，得到波束形成输出的频域表达式：

式中：ω——信号频率。

当计算声源的波束形成结果时，用互谱成像函数波束形成算法进行计算，能够提高波束形成结果的精度。互谱波束形成表达式为

式中：Cik（ω）——互功率谱矩阵；Pi（ω）——第i 个传声器；Pk（ω）——第k 个传声器接收的声压信号；*——共轭转置。

波束形成算法基本原理是根据扫描点聚焦方向对阵列中麦克风接收到的信号执行延时求和确定扫描点声压贡献量。声压贡献量大的网格点即为声源位置。如图2 所示，进行声源定位需要对定位平面内的所有网格点进行计算，所以算法的处理效率与网格点数量呈反比。计算范围内会存在有效定位区域以及定位干扰区域，若能减小干扰区域面积则能提高定位违法鸣笛车辆的效率。

图2 扫描网格示意图Fig.2 Schematic diagram of scanning grid

1.2 双目相机工作原理

双目相机是模仿人眼视觉系统获取视线范围内物体信息的一种产品，其主要原理是通过相机上安装的两个相机镜头从不同角度对相机视野范围内的同一物体进行拍摄，在各自镜头上会产生不同的物体影像，通过两个物像间的视觉差，结合三角形测距原理能够计算出拍摄的目标物体与双目相机之间的距离。

双目相机拍摄成像图如图3 所示。成像左侧为相机正常拍摄区域为彩色图像，右侧为图像拍摄的环境深度图像。

图3 双目相机成像图Fig.3 Image of binocular camera

对违规鸣笛车辆定位要求计算的快速性与准确性。传统鸣笛检测系统使用阵列对车辆进行声源定位测试时，需要提前设定车辆与阵列间的距离以及搜索平面范围。通过双目相机深度图像能够获得精确的距离，提高声源定位的准确性。对环境深度图像进行图像分割以分离出定位有效区域，减少计算量提高声源定位的效率。

图像分割是进行图像处理的基本操作。通过设定特征阈值可将被测物体从相机拍摄的视像范围内提取出，缩小声源定位的搜索范围，提高声源搜索运算效率。由于深度图像的每个像素点为RGB 图像，即由红绿蓝3 个不同颜色的比例呈现出不同颜色。根据设定特征阈值进行目标物体分离。假设环境深度图像每个像素点信息用函数A（ui，vi，wi）表示，函数中xi、yi和zi分别表示第i 个像素点中红色、绿色和黄色所占数值。设置图像分割阈值标准可将图像分割为有效定位区域与定位干扰区域，阈值筛选条件为T（r1-r2，g1-g2，b1-b2）图像分割函数公式为：

最终获得分割函数C。将C 中数值等于1 的像素点坐标整理排列，即可得到需要进行声源重构的位置坐标，从而实现了有效定位区域与定位干扰区域分离。

1.3 波束形成与双目相机结合方法

对车辆鸣笛监测通过声阵列与双目相机相结合，进行鸣笛车辆的定位。将声阵列获取的声学信息与双目相机获取的光学信息相结合会存在时间关系不匹配和声源定位坐标不匹配2 个问题。

1.3.1 时间关系

在信息采集方面，麦克风阵列会按照采样的时间与频率对外界声信号进行接收，双目相机则是按照曝光的间隔通过每一帧进行图像采集，因此对车辆鸣笛进行实时监测需要将两者信息进行时间关系的匹配，才能正确判断鸣笛的违规车辆。

设置触发器使麦克风阵列与双目相机同时进行信息采集，满足采集时间的同步性。假设相机采样的帧率为αfps，声信号的采样率设置为βHz，第i 帧录像所对应的须进行处理的信号时间段为，具体对应原理如图4 所示。

图4 图像和信号对应原理图Fig.4 Schematic diagram of image and signal corresponding

通过对应关系可将麦克风阵列采集声学信息与双目相机获取的光学信息的时间关系相一致。

1.3.2 位置关系

阵列与双目相机处在不同坐标系，进行声源定位重构面的点位信息应与经过图像分割后双目相机拍摄的深度图中有效定位区域的扫描点相统一。

如图5 所示，空间中存在以麦克风阵列为基准的o-xyz 坐标系，阵列中心为坐标系原点；另一个为以双目相机为基准的o'-x'y'z'坐标系。2 个相机镜头连线的中点为坐标系的原点。已知经过筛选后双目相机坐标系中有效定位点坐标为（，，），则有效定位点在麦克风阵列坐标系中的坐标（Xi，Yi，Zi）可由式（5）表示：

图5 麦克风阵列坐标系与相机坐标系关系图Fig.5 Relationship between microphone array and camera coordinate system

式中：MR——旋转矩阵，使得双目相机坐标系分别绕X'轴、Y'轴、Z'轴旋转角度α，β，γ后，与麦克风阵列坐标系平行；（LX，LY，LZ）T——2 个坐标系原点之间的平移向量；LX，LY，LZ——双目相机坐标系向x、y 和z 方向移动距离，实现两坐标系重合。通过坐标变换公式即可获得在麦克风阵列坐标系中有效定位点区域的坐标，实现麦克风阵列与双目相机位置关系的统一。

通过以上方法就可完成对车辆违规鸣笛的快速定位，其具体流程图如图6 所示。

图6 鸣笛定位流程图Fig.6 Localization flowchart of whistle monitoring

2 实验验证

2.1 实验设置

选择2 辆电动车作为实验对象，进行车辆鸣笛监测声源定位实验。实验设备摆放如图7 所示。实验对象为车辆1 和车辆2，用16 元麦克风阵列和双目相机进行信号采集，2 个设备放置于一个平面，设备中心水平距离相差0.3 m，垂直距离相差0.1 m。麦克风阵列安装有MPA416 传声器，设置麦克风的采样率为12 800 Hz，采样时长为20 s。双目相机为Intel RealSense D415，设置分辨率为640×360，拍摄帧率设置为30 fps。实验总共进行3 次车辆鸣笛：（1）车辆1 鸣笛车辆2 不鸣笛；（2）车辆2鸣笛车辆1 不鸣笛；（3）车辆1 和车辆2 均鸣笛。

图7 实验设备摆放位置图Fig.7 Location map of experimental equipment

2.2 实验结果

麦克风采集结果如图8 所示。从图8 可以看出，信号中1～2 s 时间段为车辆1 鸣笛；信号中2～4 s时间段为车辆2 鸣笛；信号中6～10 s 时间段为2辆车同时鸣笛区间。

图8 麦克风采集信号图Fig.8 Image of signal collected by microphone

双面相机采集成像图如图9 所示。从图9 可以看出，车辆1 和车辆2 分别在距离双目相机1.85 m和1.88 m 的位置。

图9 双目相机拍摄图Fig.9 Image taken with binocular camera

根据方法步骤，选择筛选条件函数T（0-180，30-254，45-254）对双目相机采集的深度图像进行图像分割，经过分割后保留定位有效区域图像如图10 所示。

图10 图像分割后深度图像Fig.10 Depth image after segmentation

通过图像分割后的定位有效区域中仅保留车辆区域的扫描点，去除了定位干扰区域点。以像素点为参照，深度图像分割前与分割后得到像素点个数分别为230 400 和41 622。定位有效区域所占整个扫描平面18.06%的位置。由此可知，经过图像分割后定位算法计算的扫描点会减少原计算量的82%，大大提高了鸣笛监测定位的速度。

选择第46 帧、第91 帧、第211 帧图像进行鸣笛监测定位计算，3 张图对应信号点分别为1.500 01～1.533 30 s、3.000 1～3.033 3 s 和7.000 1～7.033 3 s 段。通过式（5）、式（6）的坐标转换将得到定位有效区间点位坐标转换至麦克风阵列坐标中。依照实验设备摆放位置，式中坐标旋转参数δ、ε和θ均为0°，坐标移动参数LX、LY和LZ分别为-0.3，-0.1，0 m。在不同画面的新号段对定位区域点进行波束形成计算，得到定位结果如图11 所示。

图11 鸣笛监测定位图Fig.11 Localization map of honk monitoring

从定位结果图中可以看出，第1 段信号为车辆1 鸣笛，第2 段信号为车辆2 鸣笛，第3 段信号为车辆1 和车辆2 同时鸣笛，定位结果与实验设置相同。2 个车辆鸣笛定位时，虽能够准确定位鸣笛车辆，2 信号间会存在信号干涉，使得出现干扰旁瓣影响定位效果，鸣笛信号幅值较大的车辆2 能更好地被定位。

3 结论

针对现有基于麦克风阵列的鸣笛车辆监测方法存在计算效率低的现象，本文提出了一种结合双目相机的车辆鸣笛监测方法。首先通过双目相机与麦克风阵列同时采集声光信息，选择适当拍摄画面与其对应的信号段，利用双目相机采集深度图像确定车辆测试距离，分割深度图像获取有效定位区域；利用坐标转换公式统一麦克风阵列坐标系与双目相机坐标系，最终对扫描点进行波束形成计算进行实现违规鸣笛声定位。结果表明，通过深度图像确定车辆与麦克风阵列距离能够提高鸣笛声定位的精确度，通过深度图像分割提高鸣笛声源定位的效率。进行户外车辆鸣笛实验，通过图像分割减少82%的鸣笛声定位计算量，并能够准确定位鸣笛车辆。实验验证了所提方法的有效与实用性，并能广泛推广到交通噪声监测中应用于更多场景。