一种基于卷积神经网络的废弃饮料瓶回收系统
2022-03-23汪仕宇竺韵德
汪仕宇,竺韵德
(1.中国科学院 宁波材料技术与工程研究所,浙江宁波 315200;2.宁波韵升控股集团有限公司,浙江宁波 315100;3.中国科学院大学 材料科学与光电技术学院,北京 100049)
0 引言
随着工业化、城镇化、信息化发展的速度加快,消费结构不断升级,由此带来的生产、流通、消费阶段资源和产品废弃资源大幅攀升[1]。21世纪以来,随着科技的日新月异,越来越多的饮料进入人们的生活,成为人们日常生活不可缺少的一部分[2]。由化工产品制成的塑料饮料瓶也随之而来。目前常用的塑料材料有聚乙烯(PE)、聚丙烯(PP)、聚酯(PET)、聚偏二氯乙烯(PVDC)、聚碳酸酯(PC)、聚苯乙烯(PS)、聚酰胺(PA)等[3-4],它们的可塑性好、成本低廉、运输方便,耐冲击的性能使其被广泛使用,但是也产生很多较为严重的问题,例如资源枯竭和环境污染[5-6]。石油是一种不可再生资源,饮料瓶的生产需要消耗大量的石油资源,当前每年生产的石油中有4%用于塑料的生产[7]。除此之外,每年也会有大量的饮料瓶得不到回收而产生严重污染的问题。
当前各类饮料瓶的分类还主要是采用人工完成[8],不但工作环境恶劣,不适合长时间的工作,且效率低下。因此工业界设计一种机械的方式对饮料瓶进行分类。
在饮料瓶分类中,利用轮廓分类是一种常用的方法[9-12]。利用颜色特征分类也是常用方式[13-14]。但是在如今的生产和生活中,饮料瓶的轮廓多种多样,颜色繁多。根据轮廓无法将饮料瓶按需求精确分类,根据颜色往往需要将各种类型的饮料瓶单独分开,并且同样需要将覆盖在瓶身的标签去除,这将增加时间和成本。
废弃瓶类一般在垃圾回收站存在较多,这种场合环境较为恶劣,常伴有外界光线的干扰、振动以及灰尘,或者其他附着表面的污染物,分类的来料种类也多种多样。因此设备需要有一定的稳定性,结构尽量简单。本文针对上述存在的问题进行改进设计,并根据一般市场要求将废弃饮料瓶分成透明PET、有色PET、乳白色non-PET、彩色non-PET、铁罐、铝罐。
1 工作原理
机械的整体结构如图1所示。
图1 系统结构示意图Fig.1 Structure diagram of the system
将废弃饮料瓶倒入入口中,由传送带进行输送,传送带上的饮料瓶经过理料部位后排列布置整齐。通过质量感应器进入暗箱结构。质量感应器剔除过重的产品。将光源和相机布置在一个暗箱之中,避免外界环境光对饮料瓶的识别造成影响。当瓶子经过暗箱内部编码器位置时,编码器发出脉冲,根据脉冲数来监测瓶子的实时位置。暗箱内部采用光源照明。当瓶子经过光电编码器位置并检测到瓶子经过时,CCD摄像机获取瓶子经过的图片,光电编码器发射脉冲记录瓶子位置。
使用v表示传送带速度,w、l分别表示传送带的宽度和长度,则可以控制摄像机获取频率T=w/l。为了保证识别精度,在暗箱中布置3个摄像头获取图像。将获取的图像输送至上位机进行判别,再将识别的信号输送至下位机。将金属传感器给出的信号和图像识别到的信号结合,从而控制吹气阀的打开。当瓶子到达位置时,编码器发射脉冲数达到阈值,气阀打开,将瓶子吹下。其过程如图2。
图2 回收过程示意图Fig.2 Schematic diagram of the recycling process
在瓶子的识别和分类中,需要将瓶子分开一定的距离,一方面图片中只能有1个瓶子;另一方面,如果瓶子距离太近易造成错误喷气,导致分类的错误率增加。
如今饮料瓶的种类十分丰富,形状颜色多种多样,除此之外还有不同的覆盖面积标签,许多研究在去除标签的情况下进行,无疑会增加人力成本。本文采用图像识别的方式将饮料瓶分为透明PET瓶、有色PET瓶、乳白色Non-PET,彩色Non-PET。其分类的瓶类类型如图3所示。
图3 饮料瓶分类类别Fig.3 Classification category
2 检测和分类
2.1 预处理
瓶子的排列主要是通过理料部位来完成,在瓶类的识别中,多个瓶子一起出现是必须克服的复杂问题之一。
在传送带上设计机械挡片将相邻的瓶子分开,如图4。当瓶子从左向右运行,通过这一结构时,会将外侧瓶子挤下,从而保证传送带上只有单个瓶子。然后布置差速传送带,使其能够将瓶子运动的距离拉开,从而便于吹气。
图4 理料部位Fig.4 Unscrambling location
理料部位使饮料瓶呈现单个状态,多个瓶子出现在同一视野会造成误判,如图5。进行图像处理,判断在同一视野中是否存在多个饮料瓶的情况。如果存在,则不进行后续的图像识别,人机交互界面中显示出“多个”的字样。
图5 识别为多个瓶类型Fig.5 Type judged as multi-bottle
2.2 识别
采用卷积神经网络加大训练样本量能较好解决分类前需事先将标签移除的问题,只要训练样本足够,即便扭曲的形状也能较为有效地被识别。
本文主要采用ResNet网路对瓶类识别和分类,ResNet神经网络能有效解决GoogleNet等层数过多而导致网络弥散度增加的问题,通过Shortout方式直接将底层特征图映射到高层,高层的输出度变为低层映射和原始输出的叠加,保证更深网络的性能。其结构元如图6所示。
图6 ResNet结构元Fig.6 ResNet element
ResNet的数学表达式:
其中,xl是有参网络层的残差单元的输入;xl+1是有参网络层的残差单元的输出;f(xl,wl)残差单元表示学习到的残差;h(xl)表示恒等映射;f表示ReLU函数。
采用交叉熵损失函数(CrossEntropyLoss)减小过程识别中存在的各类饮料瓶的数量不均匀的问题,其真实值和预测值之间的差异用交叉熵来表示:
对于所有的N个样本,总损失函数L如下:
式中,将饮料瓶分为C类,样本k定义真实的类标签 p 为一个维度为 C 的向量 C[t1,t2,…,tc],当检测到该样本为i类时,t1=1,其他值为0。饮料瓶的样本在分类模型的输出预测分布记为q=[y1,y2,…,yk]。
通过再训练部分的人机交互界面对当前图片权重训练。本文设计了ResNet34、ResNet50、ResNet101 3种训练方案,学习率Lr均设置为0.000 1。
2.3 分类
如图7,在获取图片后,传送带带动摩擦滚轮转动,光电编码器和摩擦滚轮同轴连接,从而根据光电编码器的转角检测塑料瓶的前进距离。光电编码器为1 000线,即每转动1周产生1 000个脉冲。
式中,塑料瓶到相应喷嘴的距离为L;R为滚轮半径;θ为前进L所产生的光电编码器的转角;P为对应转角所应该发射的脉冲个数。
图7 分类部位Fig.7 Classification location
将图像识别的瓶子种类传送至PLC通讯模块,当瓶子经过传送带上某一位置时,编码器发射脉冲并开始计数,通讯模块接受识别信号从而确定瓶子到达相应位置时的脉冲阈值P。当脉冲达到P时,饮料瓶恰好到达喷嘴处,通讯模块发送信号至相应的I/O口,驱动电磁阀,实现快速、准确喷射。
3 试验结果
采用该机械结构对各类瓶进行分类,调整各传送带速度,理想状况下塑料瓶的分拣速度最终可达到 1PCS/s。采用 ResNet34、ResNet50、ResNet101 3种不同深度的卷积神经网络对11 226张不同类型的饮料瓶图片进行训练,训练后进行识别的结果如表1所示。
表1 3种深度网络识别正确率比较Tab.1 Comparison of three depths of network recognition accuracy 单位:(%)
对其性能用准确率和召回率进行评估。其准确率和召回率计算公式:
3种网络的准确率和召回率如表2所示。
表2 3种网络的准确率和召回率Tab.2 Accuracy and recall rates of the three networks 单位:(%)
ResNet50和ResNet101识别结果相近,ResNet50略优于ResNet101,ResNet50的训练时间远小于ResNet101网络,因此采用ResNet50网络训练的权重进行测试。在进行120 min测试中,吹入料框内个数为7 462个,平均1.036 PCS/s。统计料框内的各类塑料瓶的正确数量和误检数量概率。具体如表3所示。
表3 分类结果Tab.3 Classification result
综之,正确分类的概率在90%以上,准确率和识别速度能满足市场要求。透明PET瓶识别准确率最高。
4 结语
本文利用ResNet网络对瓶类回收,结合图像处理,解决饮料瓶回收所遇到的种类杂乱、位置关系复杂的问题。
系统设计一个理料部位,用差速带将瓶子的距离拉开,保证图像获取时只有1个瓶子在其中。再进行图像的处理,挑选出只有单个瓶子的图像,输入残差网络。
在训练样本足够的情况下,对瓶身扭曲、标签覆盖、瓶子残缺、瓶子形状多样等复杂类型的饮料瓶,采用ResNet50的网络分类的准确率可以达到90%以上。但在分类中存在着效率不高的问题,未来可以进一步研究以提高效率。