APP下载

深度学习图像字幕应用于施工现场视觉管理研究

2023-10-24袁启旺芦健秋户传真涂小雅周志文

科技风 2023年29期
关键词:解码器字幕语句

袁启旺 芦健秋 户传真 涂小雅 周志文

淮阴工学院管理工程学院 江苏淮安 223003

施工现场视频包含工程项目管理所需的施工设备、施工对象及其活动关系等重要的视觉信息。基于视觉技术分析施工视频,可以通过自动监控施工效率,识别施工安全风险、优化施工空间等实现工地智慧化。近年来,基于视觉的土方开挖效率提升、施工现场临空护栏管理等智慧化管理方法逐渐得到应用。相较于激光扫描仪、射频识别和全球定位系统等智慧工地管理技术相比,基于视觉的施工现场监测技术成本低、施工现场布置及维护简便。

现有的基于视觉的施工方法包括目标检测、目标跟踪、活动识别、场景分析等,许多施工现场智慧化管理均基于这四种类型方法开发得到。对象检测方法从施工图像或视频中检索施工对象(如机器、工人和材料)的定位和分类信息,这是多数基于视觉的施工管理研究的基本步骤。目标跟踪的目的是在连续帧中检索和解释施工物体的运动,通过为每个物体分配标识号(ID)来生成轨迹信息。已有研究表明,活动识别可以有效地用于基于视觉智慧管理,包括安全控制、生产率分析等。

场景分析是指通过识别人、料、机、法、环等施工要素来解释施工图像,提供施工管理图像中的视觉信息。场景分析主要应用于包括违反施工安全规则的自动检测、道路资产评估和施工危险识别等。但场景分析目前多通过物体检测或活动识别分别检索施工要素,并将所有信息组合到预定义的模板中,这种方法在不同场景检测极其耗时,而按预定义的顺序进行分组,并生成语句时极易出错。而图像字幕基于计算机视觉和自然局域网测量处理,可用于施工场景分析。近来,深度学习能够自动从图像中提取高级特征,用于计算机视觉、自然语言处理、强化学习等各种应用。图像字幕技术结合深度学习,可以通过在有标记的图像数据集上训练而得到精确而简洁的文本描述。通过采用深度学习图像字幕技术,可以将施工图像或视频中的场景信息以自然语句的形式进行整体检索。尽管深度学习图像字幕在计算机视觉领域应用广泛,但基于施工场景的应用很少,其可行性尚需验证。目前多数深度学习图像字幕技术都基于日常生活场景,用于施工图像标注的语言模式尚未建立,施工场景搜索通常只采用基本的卷积神经网络(CNN)和循环神经网络(RNN)方法,而深度学习方法尚未在施工应用中得到测试。为此本研究提出一种将深度学习图像字幕技术集成到施工构建场景中的方法。该方法包括三个主要步骤:数据集开发、模型建立和实验评估。

1 数据集开发

构建注释图像数据集是将深度学习图像字幕应用于施工现场管理的基础步骤。数据集建构一般包括三项内容:图像采集、选择和注释。

1.1 图像采集与选择

收集具有尺寸、颜色、形状和照明水平等一系列视觉特征的施工图像,提高了深度学习图像说明方法在建筑场景中的鲁棒性和泛化性。本文采用文献[1]中的图像进行图像标注,包括挖掘机、夯实机、推土机、平地机、自卸汽车、混凝土搅拌车、轮式装载机、反铲装载机、塔式起重机和移动式起重机,该文献中124500幅施工图像来自在线资源37500幅施工图像,由智能手机、固定位置相机和无人机拍摄。然后,对采集的16.2万张图像进行手动处理,去除重复图像、低分辨率图像、删除过大和过小的图像及隐私保护处理。图1为示例图像,3800张施工图像参与运算。

图1 施工图像示例

1.2 语言图式与图像标注

对于图像字幕数据集,每张图像都需要手动标注简单语句来描述图像内容。必须使用专业术语描述施工对象、施工活动和工作内容。

首先根据语言图式从施工形象中解构出施工机械及其配套设备、施工内容及活动情况,以及颜色、数量、天气等补充信息;其次,将专业术语与施工元素匹配;最后用词语来描述施工图像中进行的活动,形成一个逻辑正确的语句。选择挖掘机、夯实机、推土机、平地机、自卸卡车、混凝土搅拌车、轮式装载机、反铲装载机、塔吊和移动吊车等作为主要施工对象和辅助施工对象术语。

1.3 标题数据集摘要

对3800张图像进行注释,共生成8122个注释。字幕数据集中的元素分布包括机器术语和活动术语,挖掘机和自卸卡车是字幕数据集中出现频率最高的两个对象术语,而装载和倾倒是使用频率最高的两个活动术语。字幕数据集划分为训练集(80%)和验证集(20%),为实验评价步骤。

2 模型建构

施工领域目前大多数图像字幕使用CNN-RNN方法构建,本研究选择六种深度学习图像字幕方法。

2.1 方法选择

2.1.1 基线方法(Baseline method,Base)

选择由CNN和RNN网络组成的基线方法进行评估,采用ResNet101网络作为编码器,采用LSTM网络作为解码器。施工管理中多使用基线方法进行施工图像字幕技术研究。

2.1.2 注意法(Attention meth attention method,Att)

注意方法结构采用文献[3]的描述,选择注意方法作为检测施工图像解码器(已选择ResNet101作为编码器)。注意力解码器允许神经网络在序列的不同步骤上查看图像的不同部分。通常,注意力解码器的功能是一个小型神经网络,将工作添加到LSTM神经网络中,将隐藏状态作为输入,并输出一组图像特征的权重,表明LSTM应该关注哪些较大的权重区域。对图像特征施加权重,得到特征内容,然后将内容发送回LSTM以帮助生成输出。与基线方法相比,在集中注意力方法中,LSTM作为注意网络,而编码器网络保持不变。

2.1.3 转换方法(transformer method,Tsfm)

转换解码是一种多头注意机制,在计算机视觉应用中取得了比注意解码器更好的性能,通过集成ResNet101编码器和转换解码器来实现。转换前解码器由多线程注意层、归一化层和前馈层组成。多头注意层是一组计算注意权重的并行注意网络,前馈层负责进行大量的解码工作。

2.1.4 自我临界序列训练(self-critical sequence training,SCST)

该法整合了自—关键序列训练(SCST)策略,采用强化学习方法训练深度学习图像字幕生成,通过不可微的任务指标进行优化。在SCST中,在推理测试过程中估计了两个序列,分别是从softmax分布中抽样,另一个是贪婪抽样。两个序列的奖励组合为自我批判的最终损失,这使得SCST在深度学习图像字幕中更有效地训练。在本研究中,上述三种方法均应用SCST策略。

这样,六种深度学习图像字幕生成方法(即Base、Base-SCST、Att、Att-SCST、Tsfm和Tsfm-SCST)可以进行测试字幕数据集。

2.2 评价指标选择

目前计算机视觉研究中,并没有单一的评价图像字幕技术的通用指标。本文采用了5个自动评价指标,通过比较事实语句和生成语句,来评估深度学习图像字幕方法在语句层级的性能。这些评价指标包括双语评价替补研究(BLEU)、基于回忆的引文评价(ROUGE)、基于显式排序的翻译评价指标(METEOR)、基于共识的图像描述评价(CIDEr)和语义命题图像标题评价(SPICE)。对于这些指标,需要更高的值表示更好的字幕性能。CIDEr的数值范围是0到10,其他四个指标的范围是0到1。

2.3 模型实现

在前述图像字幕训练集上对深度学习图像字幕生成模型进行训练。所有六种深度学习图像字幕方法都是用Python语言实现,编码器(ResNet101)和解码器(LSTM、attention和transformer)均使用Pytorch库实现,ResNet101在ImageNet数据集和Opencv库上进行预训练用于图像输入/输出。

3 实验评价与结果

3.1 语句层级评价结果

对上述图片进行字幕生成,如图2示例图片,六种方法对其图像字幕生成结果如下表所示。

示例图片的字幕生成结果表

图2 六种方法得到的图像字幕生成结果示意

从语句层级评价结果看,Tsfm-SCST施工筑图像字幕处理性能最好,证明了转换解码器和SCST策略用于深度学习图像字幕的可行性。在大多数情况下能够正确描述施工图像内容;Base方法在性能上排名第二,施工场景中优于Att和Tsfm;在计算机视觉方面,Att和Tsfm取得了比Base方法更好的性能。这表明图像字幕在施工管理中技术难度度低于传统计算机视觉应用。

3.2 元素层级评价结果

在元素级评估中,同样使用Tsfm-SCST方法进行训练与进行验证。结果表明,Tsfm-SCST在验证集的平均精度为91.1%,召回率为83.3%,F1得分为86.6%,这意味着它在施工场景中与最先进的对象检测方法具有接近但略低的性能。Tsfm-SCST方法在识别塔机时达到100%的最高精度,在识别分级施工设备及材料时达到92.9%最高召回率。

4 结论

模型实验结果表明:

(1)对于施工场景分析,图像字幕方法相对于现有的施工方法,推理速度更快。

(2)在施工监控中,图像字幕方法可以从图像/视频中生成自然语句描述施工现场实际状况,有可能以文本格式自动记录项目进度和安全问题,减少大量的人工记录工作及手动报告。由于生成语句包含解释性信息,图像字幕可用于评估基础设施损坏情况。

(3)SCST策略被证明可以提高施工中图像字幕方法的性能。模型试验结果表明,在训练中应用特定策略可提高图像字幕方法的性能。

但本研究数据集的数量相对较少,仅对比了基于编码器—解码器的图像字幕方法,而有一些基于其他机制的深度学习图像字幕方法尚需进一步研究。

猜你喜欢

解码器字幕语句
Word和Excel联手字幕添加更高效
科学解码器(一)
科学解码器(二)
科学解码器(三)
重点:语句衔接
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
一种基于单片机16×32点阵动态字幕的设计
整合适应选择度下的动画电影字幕翻译——以《冰河世纪》的字幕汉译为例
论纪录片的字幕翻译策略
如何搞定语句衔接题