基于卷积神经网络和熵权法的胡蜂识别及危害等级判别模型的研究
2021-07-19李松烨
【摘 要】2019年12月,华盛顿州农业部确认胡蜂出现在美国本土,这一生物入侵现象对经济、社会、生态和公共卫生等方面都是一场无情的灾难。本文遵循“观察规律-实践应用-合理预测”的框架,收集了关于该黄蜂的其他各类情报和详细信息,提出了一系列新颖的模型来辅助政府机构把握这种新生物的时空传播规律并应对生物入侵时繁杂的处理工作。本文致力于解决美国农业部处理混乱而频繁的目击报告时的两大困境——人工识别图像成本过高和处理工作的随意性和盲目性大。我们使用bootstrap抽样方法解决了图片正负样本不均衡的问题,将调整后的图像数据输入经过特殊调参的卷积神经网络中,得到了良好的图像识别效果,准确度达99%以上。且着眼于评价的角度,结合图像为正面的概率、距离和活跃时间段这三个指标,使用熵权法赋予权重配以模糊综合评价,按实际危机程度划分出了四个目击报告处理等级,处理等级越高,就越优先处理。
【关键词】生物入侵;图像识别;卷积神经网络;熵权法
引言
2019年12月,华盛顿州农业部确认胡蜂出现在美国本土,这一生物入侵现象对社会各个层面和职能机构都是一场无情的灾难。在经济方面,美国每年投入到生物入侵的成本估计超过1000亿元,近期一些研究表明,单这种亚洲大黄蜂的控制费用在美国就高达3140万美元。生物入侵的一个典型后果就是破坏生态系统正常运行和生物多样性,甚至经常成为压死濒临灭绝的物种的最后一根稻草。胡蜂最初被纽约时报报道时被称之为“杀人大黄蜂”,这也是因为经常捕食本地一些重要的经济物种,比如蜜蜂。胡蜂的强力针刺在高敏感性个体中会引起严重过敏反应,甚至导致死亡。尤其在当前新冠疫情大流行的全球困境当中,病毒或许会通过对种群人口统计学和种间相互作用的影响,为生物入侵的成功做出贡献,恶化当前状况。因此,收集关于该黄蜂的其他各类情报和详细信息,例如准确识别、扩散分布情况和有效的控制措施等,为政府机构提供参考和建议,及时遏制生物入侵带来的连锁消极后果,是迫在眉睫的。
1.基于卷积神经网络的胡蜂识别模型
1.1图像处理
采集到的positive数据仅有14条,并且对应的图片文件也仅有14张,远远小于negative的图片数量,这意味着我们训练数据存在极大不平衡,这使得我们想要分类预测出的positive的案例在类中难以具有代表性。因此我们主要通过以下方法对图像进行预处理,调整训练数据的数量。
Bootstrap抽样。由于raw图像只有67张,通过数据增强后的样本数量也只有1311张,可能会导致模型对样本特征的识别限制特别紧张,鲁棒性变差。因此我们将positive和negative记录比例规定为4:6。鉴于negative记录共有3389条,positive记录仍稍显不足。Bootstrap是一种用从给定训练集中有放回的均匀抽样,十分适合小样本数据集。因此我们进一步使用bootstrap抽样方法,最终得到了2259张positive记录。
1.2参数调整
我们遵循Francois Chollet的建议,对CNN进行了一些特殊的改进,能够有效提高模型准确度和效率。
(1)使用L1正则化,为模型的泛化添加一个权值累加项,让权值变得更小。
(2)使用Dropout,在每轮训练过程中随机放弃一些神经元节点,相当于减少了权值数量。
(3)使用Sigmoid激活函数和binary_crossentropy损失函数,可以很好适应二分类问题
(4)使用已在大型数据集上预先训练过的网络VGG16架构,提前掌握大多数计算机视觉问题有用的特征,特别适合于本文中拥有少量数据的情况。
(5)微调VGG16模型的最后一个卷积块,先实例化VGG16的卷积模型并加载其权重,再在顶部添加我们自己调过各类超参数的全连接层,并加载其权重,最后冻结VGG16模型最后一个卷积块中的所有层。
(6)使用SGD优化器,确保每次只选择一个样本来更新梯度,使得学习速度大大增强。
随着训练次数的增加,刚开始时,测试集的损失度较大,但随着训练次数的增加,逐渐趋于平缓,最后接近于0,训练集的损失度刚开始训练时也较大,接近0.5,但后面也逐渐接近0。而不管是训练集还是测试集,在第十轮后,准确度都逐渐接近1,從这些指标上看,模型训练的结果较为理想。
为了验证训练的图像识别模型的精确度具体如何,我们又从其他网站找到一些已经被验证为亚洲大黄蜂的图片来验证模型的准确度。我们使用从其他网站中收集来的图片都可以实现一个很好的识别效果。
2.模糊综合评价
根据公众提供的目击报告中的图像,我们已经可以较准确的找出正确目击并排除负面报告,但我们仍未解决处理工作的优先缓急问题。当面对大量报告时,若能准确制定出调查和处理工作的优先顺序,就能大大减少工作量。因此我们在卷积神经网络的基础上进一步综合其余指标,使用模糊综合评价方法得到了一个总的评价模型。
2.1指标选择
胡蜂的活动明显的时间和空间规律。据胡蜂相关的生物研究我们可以很轻松得到它年节律,但考虑到胡蜂刚出现在华盛顿州,与先前研究中具有不用的地势和气候等环境特征,因此可能会出现不同的活跃期。据此我们根据每月的举报提交数量来观察胡蜂的活跃期。如图2可知,我们可将胡蜂的活动周期大概分为4个阶段,其中7-9月为活跃期,其次为5-6月,4月和10月,以及11月-次年3月,我们依次使用“1,2,3,4”来代表这几个阶段t。
当某个地点出现一只胡蜂时,意味着它周围也有极大可能会有其余同伙。因此我们将每个被标记为unprocessed状态的目击报告中的地点和已确定为positive状态的目击报告中的地点计算距离值,再依次比较,选出最短距离d,并将其也作为一个重要指标。
此外,我们之前通过卷积神经网络得到的图片为正面的概率显然也是一个重要的指标,记为α。
2.2权重确定
在本研究中,由于当前经验和规律掌握不足,对现实情况的未知性太大,因此难以找到专家评判或者自行主观确定权重,因此我们考虑使用熵权法计算三个指标各自的权重。熵权法是一种客观的综合评价方法,得到的权重依赖于数据本身的离散性,即熵。当某个指标的离散程度越大,它的熵值越大,也表明该指标对最终评价影响的权重越大。
通过上述熵权法计算权重,我們三个指标所构成的因素集为U={γ,d,t},相对应的权重向量A=[0.857036,0.008431,0.134533]。我们将官方处理优先顺序分为四个等级,等级越高,越应该得到优先处理。因此我们的等级集V={1,2,3,4}。
2.3模型构建与求解
我们将σ对各等级的隶属度函数定义为A(σ),将d对各等级的隶属度函数定义为B(d),将t对各等级的隶属度函数定义为C(t)。由于σ和d都是连续变量,可以分段表示,适合使用梯形隶属度函数,而t是离散表示的,适合用三角形隶属度函数。将指标σ作为例,根据表1中的分段规则,可以得到如下隶属度函数的图形,如图2。
最后,我们使用该模型对全部15个unprocessed记录进行总评价,其中不包含图片、视频等有效文件的数据我们直接打分为0,因为这类数据实验室无法进行判断,只能归为unverified,我们对有效数据(5)的结果进行排序并输出,按照加权平均原则,可以得到每个等级中对应的unprocessed记录,能够有效帮助到相关部门做出优先处理决策。
3.结语
胡蜂在华盛顿州的出现让社会公众陷入一种迷茫与焦虑状态之中,目击报告大幅增长,这给美国农业部造成了巨大的处理压力。他们主要面临两个难点:一是人工识别胡蜂成本太高而尚未找到一种较好的智能识别方法;二是面对不停息的频繁报告他们难以根据实际危机程度划定优先处理等级。
首先,本文利用卷积神经网络以识别正确的胡蜂的图像,可在一定程度上取代人工识别,准确度较高。
接下来,本文利用该图像正确的概率结合胡蜂节律周期和活动空间等指标,并使用熵权法赋予各个指标权重,进行模糊综合评价得出优先处理的等级,最后使用unprocessed状态下的目击报告作为测试集进行测试判断。
参考文献
[1] Meyerson, L. A., Carlton, J. T., Simberlo?, D.,& Lodge, D. M. (2019). The growing peril of biological invasions.
[2] Barbet-Massin, M., Salles, J. M., & Courchamp, F. (2020). The economic cost of control of the invasive yellow-legged Asian hornet. NeoBiota, 55, 11-25.
[3] Wilcove, D. S., Rothstein, D., Dubow, J., Phillips, A., & Losos, E. (1998). Quantifying threats to imperiled species in the United States. BioScience, 48(8), 607-615.
[4] McClenaghan, B., Schlaf, M., Geddes, M., Mazza, J., Pitman, G., McCallum, K., ... & Otis, G. W. (2019). Behavioral responses of honey bees, Apis cerana and Apis mellifera, to Vespa mandarinia marking and alarm pheromones. Journal of Apicultural Research, 58(1), 141-148.
[5] Stankus, T. (2020). Reviews of Science for Science Librarians:Murder Hornets: Vespa Mandarinia Japonica. Science & Technology Libraries, 39(3), 244-252.
[6] Torchin, M. E., & Mitchell, C. E. (2004). Parasites, pathogens, and invasions by plants and animals. Frontiers in Ecology and the Environment, 2(4), 183-190.
[7] Chollet, F. (2016). Building powerful image classi?cation models using very little data.Keras Blog.
[8] Li, G., Cheng, Y. Q., Dong, L., & Wang, W. (2014). Study of the gini coe?cient objective weights. Manag. Rev, 26, 12-22.
作者简介:李松烨(2000.09-),男,汉族,河北邢台人,本科在读,研究方向为信息管理与信息系统