基于生成式自监督学习的太阳能电池板缺陷检测

2022-09-30凌旭峰周丽婕杨红卫

机械制造 2022年7期

□ 凌旭峰 □ 周丽婕 □ 祝毓 □ 杨红卫 □ 杨杰

1.上海师范大学天华学院上海 201815 2.上海图书馆(上海科学技术情报研究所) 上海 200031 3.上海志良电子科技有限公司上海 200072 4.上海交通大学图像处理与模式识别研究所上海 200240

1 研究背景

随着光伏发电技术的日益成熟,我国逐步采用太阳能这种安全清洁的能源。光伏发电已经成为我国新能源发展的重要领域,并可以战略性地解决潜在能源危机和环境污染问题。光伏发电应用的核心部件是太阳能电池板,生产工艺复杂,容易产生缺陷。在生产和使用过程中,检测并替换有缺陷的太阳能电池板,能够显著提高发电效率,延长太阳能电站的使用寿命。

目前,太阳能电池板缺陷检测方法主要分为人工目视检测、物理检测、机器视觉检测三种。

人工目视检测方法由专业人员通过可见光相机或红外相机拍摄的太阳能电池板图像来判断是否存在缺陷,需耗费大量人力资源,且检测效率低,对于不同的缺陷存在严重的主观意向,已处于逐渐淘汰阶段。

物理检测方法指使用声波、红外、激光扫描、共振超声振动等方法检测太阳能电池板的缺陷。王亚丽等[1]设计了一种基于红外热像技术进行太阳能电池板缺陷检测和分类的方法,可以根据常见的黑片、断栅、隐裂、碎片等缺陷,提取红外图像平均灰度值差、长宽比、边缘曲率等特征,进行缺陷检测。试验表明这一方法能够检测定位缺陷,并对缺陷进行正确分类。白恺等[2]根据晶硅光伏组件缺陷形成机理,提出了一种适用于现场应用的缺陷光伏组件检测方案,包括红外热成像排查、绝缘电阻测试、电致发光测试、光伏组件特性测试,鉴别光伏组件缺陷的产生原因及对发电性能的影响。施光辉等[3]提出通过电致发光测试技术发现电池组件的黑心、黑斑、隐裂、断栅等缺陷,结合光伏组件电压电流特性曲线,确定电池组件是否存在缺陷。杨瑞珍等[4]提出了电磁感应主动激励下晶体硅光伏电池红外热成像缺陷检测方法,具有检测灵敏度高、可发现内部缺陷、检测缺陷种类多等优势,在脉冲式和锁相式两种激励模式下获得并处理硅电池热成像序列,实现晶体硅光伏电池中热斑、裂纹、断栅、重掺杂等缺陷的可视化检测。石磊等[5]基于太阳能电池电致发光原理,设计了电致发光缺陷检测单元,通过机器视觉系统采集数据,生成光伏组件电致发光图像,辅助人工完成光伏组件的缺陷检测,减轻疲劳等人为因素对检测结果的影响。

相比物理检测方法,机器视觉检测作为一种新的检测方法,具有髙效、精确、实时、灵活、非接触、远距离测量等特点。随着信息处理软硬件技术的不断发展,机器视觉检测方法优势日益显著。机器视觉检测方法主要具有三方面优势。第一,检测速度快,仅需几百毫秒。第二,应用部署灵活,可以根据不同的环境进行配置,以满足用户要求,实现远程检测操作。第三,检测精度高,检测标准化、一致性不断完善。孙海蓉等[6]提出了一种深度卷积自编码网络模型,用于小样本光伏热斑的识别与定位,自动学习并提取小样本图像中的有效特征。试验结果表明,针对小样本光伏热斑图像数据集,这一方法相比传统卷积神经网络识别准确率提升7.98%,并具有更强的泛化能力和稳定性。都胡平等[7]提出了一种在生产过程中检测电池片破损的方法,采用Sobel算子检测图像边缘,计算电池片偏转角度,基于角点检测法检测电池片是否已破损。试验结果显示,这一方法的精度较高,能够检测出电池片串焊过程中的位置偏转、破损等问题。陈凤妹等[8]设计了一种基于深度学习的太阳能电池板缺陷检测模型,在SegNet网络框架基础上使用空洞卷积代替池化层,增大感受野,并保留图像边缘信息。这一模型可以明显提高检测的准确率。邓堡元等[9]提出了一种基于光流法处理光伏电池热流场的热图像序列分析方法,可以准确找到异常发热源,并与短波红外成像找到的异常发光源融合,通过深度卷积神经网络,实现对光伏电池内部缺陷与划痕、覆盖、裂纹、缺损等人工缺陷的有效识别。试验结果表明,这一方法在卷积网络训练中能更快收敛。周得永等[10]采用YOLOv3算法对太阳能电池板电致发光图片进行缺陷检测,在测试集中精度均值达到81.81%。试验结果表明,YOLOv3算法对于含有断栅、隐裂缺陷的太阳能电池板能够实现比较准确的检测。刘怀广等[11]建立了一种特征增强型轻量化卷积神经网络模型,设计特征增强提取模块,提高弱边界的提取能力,同时根据多尺度识别原理增加小目标预测层,实现多尺度特征预测。试验测试中,这一模型的精度均值达到87.55%,相比传统模型高近7个百分点,并且满足精准性与实时性的检测要求。

现有基于监督学习的机器视觉检测方法有三个缺点。一是需要对缺陷位置进行精确定位,才能实现缺陷识别,而缺陷定位难度较大。因为缺陷是开放性的,局部缺陷和全局缺陷属于同一类缺陷,如一条长裂纹中有间断,是定位为一条长裂纹还是两段短裂纹,由此产生缺陷检测定位两难问题。二是需要数据人工标注数据集支持,并在数据集中进行大量训练,才能获得训练收敛的模型。数据集需要人工标注,既耗时又昂贵,在特殊领域,如医疗领域样本标注极其昂贵,由此成为人工智能发展的瓶颈。三是数据标注会导致信息损失。一幅图像所包含的信息非常丰富,除被标注对象之外,还有背景信息、次要目标信息等,而单一的训练任务仅提取图像中的标注信息,忽略其它有用信息。由于信息损失,导致监督学习模型的特征提取能力扭曲,泛化能力较差。

自监督学习方法可以克服监督学习方法的缺点。自监督学习分为判别式自监督学习和生成式自监督学习两种类型[12]。典型的判别式自监督学习方法是对比学习,主要思想是通过自动构造相似实例和不相似实例,获得一个特征表征的学习模型,使相似实例在投影空间聚集,使不相似实例在投影空间分离[13-14]。采用生成式自监督学习方法,训练一个深度学习模型,以重建被遮盖的部分图像。训练收敛的重建模型类似于一个图像编码器,具有图像特征提取能力。笔者提出一种基于生成式自监督学习的太阳能电池板缺陷检测方法,能够避免像素级复原,在显著减小运算量的同时提取图像全局和细节特征,实现较好的缺陷分类识别效果,并且稳健性佳,具有较强的泛化能力。

2 原理

2.1 作用

生成式自监督学习方法可以提取工业产品的表面缺陷,应用于缺陷检测领域,有四方面显著作用。

(1) 相比传统方法,生成式自监督学习方法通过自注意力模糊定位缺陷所在位置,避免缺陷精确定位的难题,不需要显性判别缺陷位置即可检测缺陷,适合检测开放性缺陷。

(2) 生成式自监督学习方法可以对未标注数据集构造自监督任务进行训练,生成特征提取模型,不需要使用人工标注的大样本数据集,可以极大减小人工标注工作量,降本增效。

(3) 使用生成式自监督学习方法,在完成特征提取模型训练后,与有监督模型相比,可以捕捉数据集特征局部细节特征和全局语义特征,模型具有很强的特征提取能力,并且只需要使用对少量标注典型缺陷样本训练的一个分类器,就可以达到不错的分类效果。

(4) 生成式自监督学习方法采用双通道方式训练模型,避免从像素层面恢复原始图像,减小运算量,可以应用于实际工业生产。语义生成式自监督学习方法具有普适性,可以应用于大范围工业表面检测,有非常广泛的应用前景。

2.2 模型架构

生成式自监督学习方法采用双通道方式来训练模型[15]。第一个通道使用离散变分编码器对输入图像进行编码[16],形成输入图像的第一种表征方法,即图像编码表征。第二个通道将图像输入一个视觉变换器的主干网,并采用遮盖模型,要求模型具有获得复原被遮盖图像块的能力,进而形成自注意力表征[17]。为了避免像素级复原而导致的大运算量,使用一个全连接分类网络,将自注意力表征映射为编码表征,进而将像素级遮盖复原任务转换为遮盖编码复原任务。这一方法在实现良好图像特征表达的同时,减小像素级表达的运算量。模型的预训练过程是不断训练视觉变换器和全连接网络参数的过程,使遮盖复原编码与原始图像编码之间的误差尽可能小。

模型架构如图1所示。

▲图1 模型架构

2.3 图像分块

将高为H,宽为W,通道数为C的数字化输入图像标记为X,X∈RH×W×C。R是一个高维张量,每个分量对应不同位置像素在不同通道的值。将图像X分割为多个图像块,设图像块的高和宽均为P,则图像X可以分割为HW/P2个图像块。举例而言,输入图像的高和宽均为224,将P设为16,则图像可以分割为196个图像块。将这196个图像块堆叠起来,由此形成长度为196的图像块张量。

2.4 图像离散编码通道

模型使用离散变分编码器和解码器对图像进行编码和解码。编码器和解码器都由深度残差网络组成,需要通过训练得到。为图像建立一个词汇表,词汇表词典长度为8 192个词,词典均匀离散分布。使用离散变分编码器对图像中的每个图像块进行编码,将图像中的每个图像块均映射至长度为8 192个词的词汇表词典中的码字。输入图像X分割为196个图像块,输入编码器,得到196个离散编码,每个编码的取值在0～8 191之间,于是输入图像转换为长度为196,取值为0～8 191的数组。离散变分编码器可以极大压缩图像,提取图像特征。解码器使用196个码字重建原始图像,重建图像的优劣标志着编码器特征提取能力和生成能力的强弱。

2.5 视觉变换器主干网通道

在196个图像块的最前方,叠加一个附加的可以学习的类别标志,用于综合整个序列的语义信息。整幅图像看作由196个单词构成的一段话,图像识别可以看作是对这段话的语义识别,随后连接嵌入映射层。将包含类别标志的序列通过预归一化层输出至12个串接的视觉变换器模块序列,每个视觉变换器模块由注意力层、前馈层、跳接并联、Dropout层等组成。通过一个全连接层,实现分类功能,作为下游任务。生成式自监督学习方法通过遮盖图像建模任务来对网络进行预训练,随机遮盖输入图像块序列的40%,如输入16个图像块,遮盖5个图像块,在遮盖后的序列叠加位置嵌入编码,经过嵌入层嵌入后,输入视觉变换器,由复原法重建被遮盖的40%图像块。图1中,全黑的方块是被遮盖的图像块,输入视觉变换器后,被遮盖图像块的输出预测嵌入向量值h2、h4、h7、h10、h14,接入后续全连接层。

2.6 全连接网络训练

视觉变换器主干网输出完整的196个图像块嵌入向量值,只需取出被遮盖的预测嵌入向量值h2、h4、h7、h10、h14,没有被遮盖的可以丢弃。随后再训练全连接网络,网络输入为h2、h4、h7、h10、h14,输出被遮盖图像块的编码。网络训练目标要求输入重建图像块编码与对应原始图像块编码之间的误差尽可能小,通过梯度下降法不断迭代训练,直致模型收敛。模型训练完毕后,只需要保留视觉变换器主干网,丢弃之后的全连接网络,即可得到图像的编码网络,完成图像特征提取网络的训练。

3 试验分析

为了测试基于生成式自监督学习的太阳能电池板缺陷检测方法的实际效果,进行了试验。试验在Linux操作系统中完成,操作系统版本为Ubuntu 20.04,服务器具有128 GiByte内存,配备四块RTX 2080Ti GPU显卡。试验时选择主流深度学习平台PyTorch 1.7.1,应用Python编程语言,采用Miniconda3创建独立试验环境,试验过程如图2所示。

▲图2 试验过程

3.1 数据集

太阳能电池板缺陷数据集包含2 624幅8位灰度图像,分辨率为300像素×300像素。缺陷太阳能电池板样本的性能都存在不同程度的退化,从44个不同的太阳能电池板模块中提取。

对所有图像根据大小和透视图进行标准化,并消除由用于捕获电致发光图像的相机镜头引起的失真。采用缺陷概率,即0～1之间的浮点值描述图像,并对太阳能电池板组件类型进行标注。

将2 624幅图像按照7∶2∶1分为训练集、验证集、测试集,样本分布见表1。由表1可以看出,图像样本数不均衡,缺陷概率为0与缺陷概率为100%的样本数较多,缺陷概率为33%与缺陷概率为66%的样本数较少,单晶缺陷概率为66%的样本数仅为56,多晶缺陷概率为66%的样本数仅为50,给模型训练和泛化带来一定困难。

表1 太阳能电池板缺陷数据集样本分布

数据集中,多晶缺陷概率为100%的图像如图3所示,多晶不同缺陷概率的图像如图4所示,单晶缺陷概率为100%的图像如图5所示,单晶不同缺陷概率的图像如图6所示。

▲图3 多晶缺陷概率100%图像▲图4 多晶不同缺陷概率图像▲图5 单晶缺陷概率100%图像▲图6 单晶不同缺陷概率图像

由图3可以看出,缺陷1与缺陷4图像缺陷显著,缺陷2与缺陷3图像缺陷不显著,多晶缺陷概率均为100%的图像类内差别很大。由图4可以看出,缺陷概率为0的图像比缺陷概率为66%的图像缺陷更为显著,显示很强的非线性特征。由图5可以看出,缺陷1图像缺陷显著,缺陷3图像缺陷不显著,缺陷2与缺陷4图像介于缺陷1与缺陷3图像之间,单晶缺陷概率均为100%的图像类内差别同样很大。由图6可以看出,缺陷概率为0的第一幅图像与缺陷概率为66%的图像相似,缺陷概率为0的第二幅图像与缺陷概率为33%的图像显示了更多的缺陷,同样显示出很强的非线性特征。

对比图3、图4、图5、图6,存在图像类内样本差异大、图像类间样本差异小、非线性强等特点。如多晶缺陷概率为100%的图像呈现出丰富的多样性,单晶缺陷概率为100%的图像也呈现出丰富的多样性。从图像表面看,存在多晶缺陷概率为100%的图像比单晶缺陷概率为33%的图像纹理更加干净的情况,也存在单晶缺陷概率为0的图像比单晶缺陷概率为66%的图像纹理更复杂的情况。数据集类内存在差异很大的样本,类间存在差异较小的样本,这给缺陷分类带来很大困难,提高了预测模型的泛化难度。

3.2 网络调优

现有的预训练模型已有广谱二维图像特征提取能力,尤其是提取自然界图像特征的能力,已得到充分训练。太阳能电池板是工业产品,缺陷视觉特征显著不同,不能直接使用预训练模型。笔者导入预训练模型,在太阳能电池板数据集中进行调优,使调优后的模型可以有针对性地提取缺陷特征。

预训练模型调优训练时,参数设定非常重要,合适的参数可以达到收敛快、准确度高的效果。经过反复试验,选定效果较好的参数。参数中,批次为32,优化器选择ADM,学习率为余弦优化方案,热身周期为5,层衰减为0.75,下降路径为0.2,权重衰减为0.05,训练周期为200次。训练结果如图7、图8所示。

▲图7 训练误差与验证误差对比▲图8 训练准确率与验证准确率对比

使用训练集调优时,由图7可以看出,随着训练次数的增加,训练误差降低,验证误差降低。训练次数达到80次左右时,验证误差达到最低,训练误差继续降低。训练次数达到150次时,训练误差收敛到0.75左右,此时已经基本收敛。从经验来说,训练误差与验证误差的交汇点就是模型训练的最优训练点。再往后训练,虽然训练误差可能继续降低,但是验证误差却会提高,模型有过拟合的危险。由图8可以看出,随着训练次数的增加,训练准确率与验证准确率提高,训练次数达到114次时,验证准确率达到81.74%,之后验证准确率基本稳定。

3.3 对比试验

进行一系列对比试验,对比对象包括采用监督学习的卷积神经网络基线模型ResNet、2021年最佳模型Swin Transformer、基于对比学习的自监督学习模型,对比试验结果见表2。

表2 不同模型对比试验结果

表2显示,如果不进行缺陷区域检测等工作,直接使用监督学习的ResNet、Swin Transformer来分类,模型训练识别准确率都低于75%。原因是太阳能电池板的缺陷是开放式的,没有固定模式,在这种情况下,缺陷区域定位难度大。在无法定位缺陷区域的情况下,传统有监督学习方法难以准确提取特征,也就难以实现准确识别。

Dino是基于对比学习的自监督学习,主干网络为视觉变换器,效果较好。自监督学习注意力模型可以依托注意力机制,非显性提升缺陷区域的自注意力,从而达到较好的特征提取效果。表2显示,Dino KNN的识别准确率达到76.67%,Dino Linear的识别准确率达到78.15%,生成式自监督学习的识别准确率则达到81.74%。Dino的对比学习属于判别式自监督学习,特征提取能力不如生成式自监督学习,因而识别准确率低于生成式自监督学习。

4 结束语

针对太阳能电池板检测这一难度较大的工业产品质量控制问题,使用生成式自监督学习提取特征,结合有监督学习进行调优分类,检测太阳能电池板的缺陷。在太阳能电池板缺陷数据集中进行测试,并进行对比试验,生成式自监督学习在200次训练的情况下获得81.74%的识别准确率,高于对比学习和有监督学习。试验结果表明,生成式自监督学习在特征提取方面有独特优势。生成式自监督学习能够很好地解决开放性缺陷问题,省略缺陷定位环节,提高稳定性。相比判别式自监督学习,生成式自监督学习更能抓住细节信息,特征提取能力更强。生成式自监督学习具有很强的图像分割功能,特征提取能力普适性较强,有良好的泛化能力。通过研究确认,生成式自监督学习在特征提取方面具有局部细节丰富、捕捉全局语义特征等优良属性,具有良好的灵活性,在工业产品质量检测及工业图像领域具有应用推广价值。