多模态感知下基于MR 技术的远程监测方法探究
2024-11-29汪楚涵朱经宇陈嘉琪
摘要:随着多模态感知技术的飞速发展,物联网技术与多模态感知技术的结合应用受到了广泛关注。文章以远程监测为切入点,结合多模态感知技术和混合现实(Mixed Reality,MR) 技术,实现对远程目标的实时信息获取和分析,从而对目标状态进行监测与评估。在技术探究层面,依托多模态感知技术和混合现实技术在远程监测领域的应用综述、分析和方法,提出远程监测解决方案。在社会发展层面,远程监测方法为社会各行各业提供了成熟的解决方案和增值服务,为相关研究人员和开发者提供了有益的参考,从而助力虚拟现实与行业应用的融合和可持续发展。
关键词:多模态;MR技术;行业应用;远程监测
中图分类号:TP391 文献标识码:A
文章编号:1009-3044(2024)27-0027-04 开放科学(资源服务)标识码(OSID) :
0 引言
随着人工智能相关技术的不断进步,自动化与虚拟现实逐渐成为关注的热点话题,其中,如何将自动化与虚拟现实技术有机融合受到广泛关注。在《“十四五”数字经济发展规划的通知》[1]中,国务院提出了“推动产业数字化转型”的概念,即加快资源虚拟化聚集,构建虚实结合的数字化新生态。同时,《现实与行业应用融合发展行动计划(2022—2026)》[2]中确立了到2026年在虚拟现实与行业应用的融合发展方面取得重大进展的目标,包括实现虚拟现实与教育、工业、医疗等领域的深度融合,形成一批具有示范效应的应用场景和典型案例。
多模态感知技术[3]是一项综合性技术,能够通过多种传感器和数据源的信息来实现对环境或事物的感知和理解。随着传感器技术和信号处理技术的发展,熊鹏文等人在文献[4]中设计了一种结合触觉和视觉的多模态触觉传感器,该传感器利用单个传感层同时捕捉多种不同的异构触觉模态信息,可用于识别不同的物体。李楠等人在医学图像处理领域提出了一种基于多模态融合的MR脑肿瘤图像分割方法,通过有效融合多尺度特征,加强了对肿瘤图像的分割能力[5]。此外,朱厚喜通过结合可见光和红外热成像模态的观测数据,感知并学习潜在渗水区域的跨模态差异成像特征,提出了基于多模态观测数据的渗水异常检测技术MFF-WLAD,减少了单一模态干扰因素对渗水异常检测的影响[6]。
远程监测方法是一种基于计算机、通信和传感技术的设备状态监测技术,通过在监测点与控制中心之间建立网络连接,实现设备的远程实时监测[7]与数据传输。赵靓等人利用无线传感器网络技术在地铁建设过程中,通过各种参数的实时监测,实现对目标信号的实时采集与监测,帮助施工人员及时发现潜在风险[8]。李锋等人在文献[9]中设计了一种基于物联网的防空工程施工质量监测系统,通过部署多个传感器,收集各种关键数据指标并将数据传输到远程服务器,实现了数据共享和远程监测。张清淘等人设计了智慧农业远程监控系统,使得农业从业人员能够通过系统数据全面了解农作物的生长环境,并能够对外界环境进行远程操控,从而实现智慧化管理[10]。
复杂多元的社会环境需要MR技术和多模态感知的有机融合。因此,将MR技术与多模态感知技术应用于远程监测,提供成熟的解决方案和增值服务,促进数字产业转型升级,助力数字经济发展,契合当下时代的发展趋势。
本文的主要工作包括:1)利用MR技术,设计三维特征提取方法,对图像和点云数据进行特征提取;2)采用多模态三维特征提取,将多个单一特征融合[11]为多模态特征,并建立多模态感知的神经网络模型,提取多模态三维特征的特征值进行相关输入输出;3)通过检测目标类别、位置和动作类别等信息输出,实现下一阶段行为的精确预测,以形成融合远程预判的监测策略并提出示警建议,最终实现远程监测诊断;4)总结基于多模态感知的远程监测方法在各个领域的应用。
1 面向MR 技术的三维特征提取
本文使用基于球面调和变换的三维模型特征提取方法,首先进行图像归一化预处理,然后进行图像特征提取,即将图像中的信息转化为可用于分析和比较的数值或向量,以便更好地描述和区分不同的图像。具体步骤如下:
1) 预处理操作。首先对目标模型进行预处理,经过平移变换使模型的重心与坐标原点重合。使用主成分分析(Principal Component Analysis,PCA) 法对三维模型进行平移、旋转和缩放变换,使模型单位化。
2) 射线投射。从模型内部的重心出发,投射一组射线,其方向沿同经度和纬度分布。
4) 获得模型的特征向量矩阵 H 后,将矩阵设为M × L,其中矩阵H (i, l) 的元素会影响球面求和函数的 L2 范数。
1.2 点云特征提取
本文使用八叉树数据结构的方法进行点云特征提取,有助于识别和分割点云中的不同物体或部分。以下是使用八叉树数据结构进行特征提取的方法:
1) 以晶格中心为重心,设定r 为搜索半径,计算出最接近每个晶格中心点的 F (i) 值,并将大于阈值半径范围内的所有点添加到候选点集 T 中。
2) 在步骤 1) 中选取的候选点集合 T 中,对于每个点的 F (i) 值,如果该值超过预定阈值,则该点被视为精提取的特征点。粗提取半径搜索图(见图1) 。
大圆圈代表搜索范围,三角形表示晶体网格中心最近的点的 F (i) 值高于阈值,小圆圈表示低于阈值。
2 多模态三维特征提取
2.1 多模态特征融合模型
本文构建了多模态特征融合模型,利用椭圆高斯样本分配策略,将远程图像和三维模型投影到俯视图来确定中心点,并使用高斯概率密度函数(PDF, prob⁃ability density function) 创建次中心区域。同时,利用高斯概率作为权重,获得回归样本的权重。具体步骤如下:
将高斯区域的位置作为正位置,并根据归一化高斯密度函数值对不同位置赋予不同权重。对象的高斯概率密度函数(见公式12) 。
对角矩阵 Λ 为长轴和短轴的缩放比例,λ1 和 λ2分别代表为长轴距离 S21和短轴距离S22的平方(见公式14) 。
此时目标描述可以用于分配样本。
3 多模态感知的图像描述方法
3.1 图像描述算法
本文使用注意力机制方法和长短期记忆(LSTM,Long Short-Term Memory) 模型进行图像描述,将图像和三维模型以及已生成的词向量进行分析和处理,以了解关注内容并作出选择。具体步骤如下:
在 CNN 特征提取之后,将特征图设为 a,随后将特征图 a 划分成 L 个相等的部分,每个向量都 ai 对应一个区域:
a = {a1,a2,...,a } L , ai ∈ RD (15)
此时生成的图片描述y 即为:
y = {y1,y2,...,y } L , yi ∈ Rk (16)
基于训练集中的图像文本标签构建了字典集 K,其中C 为句子的长度。ht 为当前时刻的隐藏状态;ai为特征图中的位置,此时可以通过以上两者计算出能量分布值:
eti = fATT (ht,ai ) (17)
注意力分配概率表示模型在创建 yi 时对位置 ai的关注可能性,使用softmax 根据能量分布值计算得出:
此时,即可获得图片的动态上下文信息(ct):
3.2 描述生成方法
本文通过创建一个循环神经网络(RNN, Re⁃current Neural Networks) ,并在注意力层后添加一个多模态层,将注意力机制得到的模态权重与各模态的特征输入融合到循环神经网络中,从而进行多模态描述生成。最终输出的计算公式如下:
ht = f2 (Uh ht - 1 + wt ) (20)
mt = g2 (Wh ht + Ws ĉt ) (21)
yt = softmax(mt ) (22)
结合处理结果,使多模态层的输出被发送到 softmax 层,以确定下一个词的概率分布值。
图2为整体网络结构模型的示意图。在整体网络结构图中,V 表示图像上下文特征向量,xt表示当前时间步的语句输入, ht 表示为隐层状态(见图2) 。
4 远程监测策略
4.1 半监督异常检测方法
本方法结合多模态感知和深度学习技术,通过自动提取多模态数据进行学习和预测。它采用异常检测方法对图像进行监测,针对图像中检测到的目标类别和位置信息,形成融合远程预测输出对应的监控策略,实现远程监测和诊断。网络框架结构如图3所示。
5 基于MR 技术的远程监测方法探究
本文研究了基于MR技术的多模态感知远程监测方法,并将其有效应用于教育、自动驾驶和医学影像分析等领域,为使用者的决策与诊断提供精确的辅助预判。
5.1“ 多模态+人机协同”教学
“多模态+人机协同”教学方式使用了智能多模态传感器感知技术,动态收集教学交互数据,进行多模态数据融合与分析,深入探究教学发生机理,有效引导学生学习,促进知识理解,为学习者创造多维感知的教学空间。“多模态+人机协同”教学方式与数据特征如图4所示。
5.2 远程医学教育
基于MR技术的远程医学教育方法,通过提供沉浸式的专业课程仿真实训与实验,包括在虚拟场景中模拟手术操作与诊断,并获得在线反馈和指导;利用MR技术将虚拟解剖模型叠加在真实场景中。此方法实现了医师学员的无接触式远程全景教育,为医疗服务教学提供了高效的协作交流解决方案。
5.3 多模态自动驾驶
多模态多任务端到端自动驾驶方法通过结合深度学习技术,融合多模态数据,实现对周围环境的全面感知,有效提高了道路驾驶的安全性。在为用户提供更便捷、舒适的出行体验的同时,大大减轻了驾驶员的工作负担,提高了出行效率。
6 总结
与单一模态感知以及单个技术的远程监测方法不同,本文提出了一种基于MR技术的多模态感知与远程监测方法。通过对大量多维度数据的远程输入,利用多模态特征提取方法对数据特征进行识别与提取,本文通过多模态感知神经网络模型准确监测目标的类别位置和动作类别信息,以形成融合远程预判的监测策略。
参考文献:
[1] 国务院. 国务院关于印发“十四五”数字经济发展规划的通知[EB/OL]. (2022-01-12)[2023-12-20]. https://www.gov.cn/zhengce/content/2022-01/12/content_5667817.htm.
[2] 工业和信息化部, 教育部, 文化和旅游部, 等. 关于印发《虚拟现实与行业应用融合发展行动计划(2022—2026年)》的通知[EB/OL]. (2022-11-01)[2023-12-20]. https://www.miit.gov. cn/jgsj/dzs/wjfb/art/2022/art_3ebd54d32dd04668abe4066182578032.html.
[3] 何赟泽,谯灵俊,郭隆强,等.以图像为主的多模态感知与多源融合技术发展及应用综述[J].测控技术,2023,42(6):10-21.
[4] 熊鹏文,尹一凡,童小宝,等.基于新型多模态触觉传感器的机器人交互物体分类[J].测控技术,2023,42(4):82-87.
[5] 李楠,张宏立.基于多模态融合的2D MR脑肿瘤图像分割算法研究[J].光电子·激光,2023,34(8):890-896.
[6] 朱厚喜,曹伍富,李克飞,等.基于多模态特征融合的隧道渗水异常检测方法[J].计算机应用,2023,43(S2):276-284.
[7] 王博辉,王小鹏,闫子春,等.基于物联网的远程物位实时监测系统设计[J].兰州交通大学学报,2023,42(1):62-70.
[8] 赵靓,魏汉明.基于无线传感器网络的地铁建造远程监测和风险预警系统[J].中北大学学报(自然科学版),2022,43(4):335-340.
[9] 李锋.基于物联网的防空工程施工质量远程监测系统[J].自动化技术与应用,2023,42(3):105-107,141.
[10] 张清淘.基于物联网技术的智慧农业远程监控系统设计[J].南方农机,2023,54(2):84-86.
[11] 钱忠胜,赵畅,俞情媛,等.结合注意力CNN与GNN的信息融合推荐方法[J].软件学报,2023,34(5):2317-2336.
【通联编辑:唐一东】
基金项目:江西省大学生创新创业训练项目(S202210846003)