亚洲大黄蜂:我用算法去寻找你
2021-11-24李昕悦
李昕悦
摘要:为降低胡蜂的不利影响,公众提交目击报告,而政府分配资源来解决。然而有些目击报告的错误率较高,并且政府可以分配的资源也是有限的。为了解决这一问题,我们对这个过程进行建模和优化,我们通过分析和拟合大量数据来检验我们模型的可靠性,具体来说
第一点:我们选取了14个被判别为Pasitive ID的地理数据点,采用MaxEnt模型对亚洲大黄蜂在未来可能传播的潜在地区范围进行了预测,并通过ROC评估体系对模型进行了评价。事实证明该模型精确度很高。
第二点:我们主要建立了三个有效模型并且采用了层次分析法,建立了一套完整的评价体系:导入报告人提交的图片、评论以及所在位置这些信息就可以得出该报告成为Positive ID的可能性指标。并通过分析这些数值来预测公众错误分类的可能性大小以及帮助政府优先分配资源。
第三点:随着时间的推移,我们需要不断更新数据库,基于原模型提取部分数据对整体数据进行评分,通过误差积分,该模型在对未来3个月内的预测较为准确,从而确定3个月的更新周期,并且3个月内不再出现Positive ID为华盛顿彻底消除害虫的依据。
关键词:亚洲大黄蜂;层次分析法;数据建模
引言:
胡蜂作为世界最大的大黄蜂,不仅是欧洲蜜蜂的捕食者,还能在短时间内摧毁整个欧洲蜜蜂群落,对当地蜜蜂等种群造成严重影响,因此对胡蜂的防治有很重要的意义。
然而在华盛顿洲收到的公众对此害虫的目击事件中,只有少部分是确认的报告,绝大多数都是错误的目击事件报告。鉴于政府机构资源有限,解决如何优先分配这些资源这一问题是十分必要的。
1工作概况
1.1数学模型
为了研究胡蜂对于当地蜜蜂等种群的影响力,利用数据建立数学模型,找出一些影响因子来判断胡蜂的传播是否可以预测,得出相关数据后解释这种有害生物在一段时间内的传播,利用建立数学模型,找出并量化反映公众报告正确率的指标,形成评价体系,对公众报告提供的数据以及政府优先分配资源方案做出解释。
随着时间的变化,该模型会随着数据更新而优化和更新。
2模型假设和解释说明
不考虑授粉蜂群的移动对胡蜂位置,在已确认的公众报告中胡蜂的位置不随时间变化;不考虑在化学有道因素下蜜蜂或其他种群对胡蜂的反击行为对胡蜂位置的影响;然后不考虑地理环境因素,如山川,河流的分布,对胡蜂位置的影响,公众报告中的总体样本数据服从平均分布,每个公民都清楚地知道胡蜂的特征,所提交的评论都是严谨可靠的,不考虑胡蜂繁衍密度对其位置分布的影响。
3模型建立與求解
3.1最大熵模型
3.1.1数据材料
地理分布数据:亚洲大黄蜂的分布数据由本次竞赛题目给出。环境数据采用WorldClim version 2.1下载的历史气候数据(1970~2000年),共19个气候变量,其空间分辨率为 30 秒(大约1平方千米)。地图数据分别来自CSDN论坛以及ArcGIS Online。
软件:Maxent 3.4.1、ArcGIS 10.2、SPSS22。
3.1.2数据处理
为了使预测结果不受假信息或其他干扰因素影响,我们采用专家已经判别为 Positive ID 的14个地理坐标点作为我们预测亚洲大黄蜂传播的原始数据,并按照MaxEnt V3.4.1软件的要求,将这些数据的经纬度转换为.csv存储。
3.1.3模型操作
我们采用最大熵模型分析上述数据,将14个被判定为 Positive ID的大黄蜂的发现坐标点以及19个气候变量的文件分别导入到MaxEnt V3.4.1 软件中预先运行,得到每个气候变量对对亚洲大黄蜂初步预测结果的贡献率。然后对这十九个变量作主成分分析以及相关性分析(SPSS22),筛选出贡献率较高而空间自相关性较低的十个变量。
3.1.4结果与分析
MaxEnt 生态位模型预测的亚洲大黄蜂的潜在分布区。根据预测结果,随时间变化,大黄蜂传播的高适宜性地区集中在华盛顿州、俄勒冈州以及加利福尼亚州北部沿海地区,也有一部分较高适宜传播地区在夏威夷群岛。另外,少部分适宜区分别分布在阿拉斯加州的西南群岛以及美国南部阿肯色河和密西西比河交汇处北部的附近。
3.1.5模型评估
我们采用ROC曲线下面积AUC对我们的模型预测结果进行精度检验。AUC值越大,表示与随机分布相距越远,环境变量与预测的物种地理分布模型之间相关性越大,即模型预测效果越好,MaxEnt 软件在运行过程中会自动绘制ROC曲线,并计算出AUC值,我们可以通过它们直接评估我们的模型的预测水平。
3.2.子模型:坐标可视化模型
对所有数据集上的经纬度进行可视化处理,并使用红色散点突出Positive ID对应经纬度的所在区域,在对这 14 份 Positive ID 的经纬度进行统计后发现这些被验证为真的亚洲大黄蜂的样本。由此,被验证为真的亚洲大黄蜂地理位置仅处于一个较小范围内。
4. 模型更新
4.1题目分析
根据建立的概率估计模型,我们可以对民众所提交的报告进行打分评估,分数高的报告将会被政府优先研究。但随着时间的推移,新数据库的扩充,我们所建模型必然将会不再适用,所以我们需要对模型进行数据库的扩充,同时我们需要确定数据库的更新周期。
4.2 数据库更新方式
我们评价模型的参考因素分为图片相似度、位置相关度、评论重复率。图像识别部分主要基于已知确定为大黄蜂图像来对其他图像进行相似度检验,报告在图像部分的得分主要基于上述相似度值。因此,模型更新时,我们只需要增加新确定为大黄蜂的图片数据对基准数据进行补充即可。
经纬度评分部分,我们观察POSITIVE ID所对应的经纬度坐标,由于数据过少,现已知的坐标基本上都存在一个很小的范围。所以在处理时,我们将这个范围视为一个整体。满足0.7评分的区域需要同时是所有Positive ID所辐射区域的交集。更新模型时,由于新的数据补充,我们无法再将包含所有Positive ID的范围视为整体。需要对经纬度数据进行预处理,分割成为Positive ID密集的几个区域,再求交集区域拟定打分标准。
5. 模型的评估
5.1优点
①预测模型除原有数据集外还包含影响亚洲大黄蜂分布的一系列因素,精准度高。
②从R,G,B三个通道的直方图来分析两张图片的相似性,既直观又可靠
③笔记筛选机制简单且与亚洲大黄蜂的判断正确度相关性高。
④采用少量样本即可对报告的正确率进行预判,具有较强实用性且适应性强。
5.2缺点
①对于经纬度因素的处理没有考虑到时间因素,且判断标准较为单一,会丢失部分讯息,需要改进。
②通过计算直方图的方法对比图象,总是不能消除图像背景颜色的相似度的影响。
参考文献
[1]Alaniz A J, Carvajal M A, Vergara P M。关键词:大黄蜂,生物多样性,生物多样性,生物多样性,生物多样性害虫防治科学,202.
[2]测量诊断系统的准确性。科学通报,2000,37 (6):689 - 693.
[3]https://blog.csdn.net/sunzhenlin2008/article/details/106876973
[4]https://www.cnblogs.com/jimmy-muyuan/p/5324291.html
[5]http://www.lishimeiye.cn/fun/563.html
[6]https://download.csdn.net/download/qq_38473916/10468077