深度学习在野生动物保护中的应用

2023-12-22钟俊杰钮冰陈沁陈翔王艳

兽类学报 2023年6期

钟俊杰钮冰陈沁陈翔王艳

（1 上海大学生命科学学院，上海 200444）（2 上海海关，上海 200135）（3 上海海关动植物与食品检验检疫技术中心，上海 200135）

物种多样性、遗传多样性和生态系统多样性共同构成了生物多样性，其中物种多样性又包括动物种类的丰富性。野生动物既是宝贵的生物资源，也是生态系统不可或缺的一部分。它们在物质循环和能量流动中扮演着重要角色，并具有诸如促进植物生长、调节植物群落结构和维持水土等方面的生态学价值 (张同作等，2022)。然而，在自然因素和人为因素的干扰下，野生动物的数量和种类在持续减少 (Phelpset al., 2010)。野生动物数量和功能多样性的下降导致其他物种群体的灭绝率上升，并影响整个生态系统的功能 (Malhiet al., 2022)。此外，由于人类开发和经济需求的增加，与野生动物的接触也越来越频繁，一些传染病如SARS、COVID-19 和禽流感等开始流行，对人类及动物构成巨大的健康风险 (You, 2020)，据估计至少有70%新兴的人畜共患疾病起源于野生动物 (Hassellet al., 2017)。鉴于上述原因，科学家们正在努力利用先进的技术手段，例如遥感技术、基因测序和深度学习等，来识别、检测和追踪野生动物，这些技术的应用将有助于更好地了解野生动物的生态需求和行为习性，从而制定更有效的保护策略。但在识别、检测、追踪野生动物以及确定野生动物的种群数量等方面，存在困难与挑战，例如许多野生动物物种数量较少，且行为隐蔽、难以辨别并且主要栖息在广阔而偏远的地区 (Weinstein, 2018)。

随着大数据时代的到来，深度学习和各类研究领域交叉融合。在野生动物保护方面，深度学习应用前景广阔。深度学习算法能够自动检测和从数据中提取特征。这意味着我们只需要告诉深度学习算法图片中是否存在野生动物，并且给定足够多的例子，它将能够自己弄清楚野生动物的样子 (Christinet al., 2019)。将深度学习与无人机、卫星遥感和可穿戴传感器等设备结合后，可以应用于野生动物的生长估计、疾病监测和行为检测等 (Maoet al., 2023)，因而有利于节省人力、财力和时间，加强野生动物的保护 (图1)。传统的野生动物个体识别通常基于视觉特征，例如斑点、花纹等，而深度学习则可以从某类相似野生动物图像中提取出更加复杂的特征并精确识别个体的身份。个体识别有许多优势，例如减少了对动物的干预、可以追踪不易捕捉的物种、减少数据处理时间等。此外，深度学习还可以结合无人机和卫星遥感、红外相机等技术，为野生动物保护提供新颖而有效的方法 (Liet al., 2022)。本文介绍了深度学习及其原理，详细回顾了深度学习在野生动物保护领域的4个主要应用。

图1 深度学习在野生动物保护中的应用场景Fig. 1 Application scenario of deep learning in wildlife conservation

1 深度学习

1.1 深度学习概述

机器学习是指通过算法和训练，使计算机理解和处理特定数据，旨在构建模型以完成目标检测或自然语言翻译等认知任务 (Janieschet al.,2021)。目前涌现了许多传统算法，如人工神经网络 (Artificial Neural Network, ANN) (Schmidhuber,2015)、随机森林 (Random Forest, RF) (Antoniadiset al., 2021)、逻辑回归 (Logistic Regression, LR)(Bonte and Vercauteren, 2018) 等。而深度学习是机器学习的一个分支 (Zhuet al., 2020)，它的核心是人工神经网络，神经网络的灵感源于神经元的运作，最早是在1943 年由神经生理学家Warren Mc-Culloch 和数学家Walter Pitts 提出，模拟大量神经元相互连接并处理大量信息 (Piccinini, 2004; Khamparia and Singh, 2019)。深度学习的概念是由Hinton 和Salakhutdinov (2006) 提出，是指用于通过多层非线性变换对复杂高纬度数据进行建模的算法集合。深度学习与传统的机器学习算法主要区别在于，深度学习可以从数据中自动学习特征，无需人工确定特征 (Wenet al., 2020)。深度学习预测性能高、泛化能力强，因而在面部、语音、图像、自然语言处理、医学科学等领域中应用广泛 (Darganet al., 2020)。

1.2 深度学习原理

深度学习是一种特殊的神经网络，而典型的神经网络由输入层、中间层以及输出层构成。在神经网络中，信息通过许多神经元进行传递，输入层的神经元接收输入信号，再乘以权重值后到达中间层，再经历n层后输出相应结果。在此过程中，随着层数的增加，会得到更有效的特征和信息 (Zeiler and Fergus, 2014)。目前，已经衍生出了各种深度学习的框架，例如卷积神经网络 (Convolutional Neural Network, CNN)、循环神经网络 (Recurrent Neural Network, RNN)、生成对抗网络(Generating Adversarial Network, GAN) 等 (Mishraet al., 2022)。

CNN 是一种专门用于处理图像数据的深度学习算法，在计算机视觉领域得到了广泛应用，主要结构如图2 所示，分为输入、卷积层、池化层、全连接层和输出 (Mittalet al., 2021)。卷积层是CNN 模型的核心，卷积层中的神经元排列在矩阵中，形成多通道特征图，每个通道中的神经元仅连接到该层之前特征图的一部分 (Liu and Wang,2021)。感受野是在卷积的过程中所提取的图片信息，而卷积核的尺寸与感受野成正比，卷积核的尺寸越大，感受野越大，提取特征也越多。常用的卷积核尺寸有1 × 1、3 × 3、5 × 5、7 × 7 和11 ×11 五种类型，并且可以对卷积核进行替换 (马金林等，2022)。虽然大尺寸卷积核在特征提取的过程中表现优异，但是会使计算量增加，因而InceptionV3 将5 × 5 的卷积替换为两个3 × 3 的卷积，为卷积替换提供了思路 (Szegedyet al., 2016)。池化层，也称为下采样层，池化操作从上部特征图中提取主要信息并保留特征 (Alzubaidiet al.,2021)，通常包括最大池化和局部池化。局部池化是通过来自局部区域的数据来显示特征图的方法，而全局池化，为特征图中的每个特征创建一个标量值，表示来自特征向量的图像 (Zafaret al.,2022)，它会选取每个区域内的最大值作为输出，相比于局部池化，全局池化能保留更多的特征信息，但计算量较大。在卷积和池化之间交替后，经常会构建一个全连接层。全连接层将所有信息组合在一起，将多维特征转换为一维特征，然后将其移交给最终回归器和分类器以产生最终结果(Wang and Su, 2022)。CNN 具有局部感知和参数共享的优势，每个神经元只要感知图像的局部像素并在更高层合并这些信息从而得到图像全部特征信息，而参数共享减少了参数数量，降低了模型的复杂度 (Wanget al., 2022)。

图2 CNN基本结构Fig. 2 Basic structure of CNN

RNN 是神经网络的一种特定架构，目的是对有特定顺序关系的数据进行建模，最早由Rumelhart (1986) 提出。为了处理顺序数据，RNN 具有神经元连接的循环层，神经元的信息被传递给同一层和下一层的神经元 (Tranet al., 2021)。RNN广泛应用于序列特异性强的数据，例如文本、音频和视频等 (Yuet al., 2019)。最成功的RNN 架构之一是长短期记忆 (Long Short-Term Memory,LSTM)，其部分程度解决了梯度消失的问题，包含3种类型的门：输入门、遗忘门和输出门，这3种门精妙地结合了长期记忆和短期记忆 (Wanget al.,2022)。门控循环单元网络 (Gated Recurrent Unit networks, GRU) 来自LSTM，在拓扑、计算成本和复杂性方面是RNN 的轻量级版本，比标准LSTM更轻 (Alomet al., 2019)。

GAN 是由Ian Goodfellow 在2014 年发布，是一种无监督的深度学习方法，其中两个神经网络在零和游戏中相互竞争 (Goodfellowet al., 2014)。该网络主要由生成器和鉴别器构成，其中生成器获取随机噪声矢量作为输入和输出，而鉴别器用于区分真实图像和生成器创建的假图像 (Aldausariet al., 2023)。网络以对抗的方式进行训练，同时会提高鉴别器和生成器的性能，最终达到纳什均衡 (Nash Equilibrium)。GAN 被广泛研究，并提出了许多改进版本。谷歌提出了边界平衡生成对抗网络 (BEGAN)，可以平衡图像多样性和视觉质量(Hahet al., 2018)。而Wasserstein GAN (WGAN) 算法与传统GAN 相比，用有意义的损失函数与生成器的收敛性和样本质量相关联，提高了优化过程的稳定性 (陈宇等，2021)。由于GAN 出色的数据生成能力，目前已经被应用于图像修复、视频生成和预测、提高图像质量等方面 (Porkodiet al.,2022)。

2 深度学习在野生动物保护中的应用

2.1 野生动物视频识别

自动隐蔽摄像机或红外相机在大量连续收集野生动物数据方面有巨大优势，在各类自然保护地野生动物监测中得到了快速应用 (肖治术等，2022)。但是大量的图像和视频人工处理极其耗时且单调，而利用计算机视觉中深度学习可以实现对野生动物视频的自动识别 (Nguyenet al., 2017)。野生动物视频检测可以概括为6 个步骤 (Liet al.,2020)：(1) 拍摄视频；(2) 将视频转换为帧；(3) 标注图像；(4) 利用深度学习对标注图像进行训练；(5) 在独立数据上验证和测试模型；(6) 使用训练好的模型检测其他视频。Wang 等 (2021) 提出了一个带有补丁检测器的特征融合网络 (FFN-PD)，用于解决大熊猫 (Ailuropoda melanoleuca) 识别困难，并发现眼睛周围的视觉特征在大熊猫识别中起着重要作用。Schindler 和Steinhage (2021) 基于相机陷阱，评估了在夜间各类深度学习框架对鹿、野猪、狐狸和野兔的识别，发现Mask R-CNN 与ResNet 相结合，产生了最佳结果，动物检测和识别的平均精度为63.8%。Islam 和Valles (2020) 建立一个灵活的CNN 架构，用于从相机陷阱图像中检测蛇、蜥蜴、蟾蜍和青蛙等野生动物。此研究建立了一个高效的监测系统，可以加速野生动物调查和分析的进程。Lei 等 (2022b) 从濒危物种蜂猴 (Nycticebus bengalensis) 的监测视频中提取帧，测试了两种基于YOLOv5 的优化模型，发现YOLOv5-CBAM+TC 模型比YOLOv5 具有更好的精度和召回率，是圈养环境中检测蜂猴的有效方法，有助于实现基于计算机视觉的蜂猴面部和姿势识别。Falzon等 (2020) 开发了一款名为ClassifyMe的野外侦察软件，专门识别相机陷阱中的野生动物，该软件的主要框架是DarkNet 和YOLOv2，可用于在现场捕获图像数据和分析。这些研究基于不同的方法，旨在提高野生动物识别和监测的效率和准确率。这些成果都使用了深度学习技术来解决野生动物识别和监测的问题，其中包括特征融合、补丁检测器、优化模型等方面的创新。同时，都着重考虑了实际应用中遇到的问题，如夜间光线、圈养环境、相机陷阱等，提出了相应的解决方案。

由于相机陷阱在拍摄时存在大量不包含目标野生动物的图像，需要对数据进行过滤。在监测白鲸 (Delphinapterus leucas) 时，Westphal等 (2022)提出使用CNN 过滤掉67.9%不含白鲸的空白帧，并以97.0%的准确率识别白鲸。Dai等 (2021) 提出了一种称为TS网络的方法，用于分割背景和前景，该网络由改进的跟踪网络和显著性网络组成，将视频分割为相关帧，识别准确率提高了1.9%。相比于传统人工识别，目前可以在野外设置摄像头后，定时传回视频再用深度学习进行识别，如果发现野生动物则可采取相应措施并进行保护 (黄志静等，2022)。野生动物的视频识别经历了由人工识别到相机陷阱识别的过程，而深度学习模型在相机陷阱识别数据处理中发挥重要作用，过滤了只包含空白背景的帧，并且对目标进行识别。然而一些问题有待解决，例如图像模糊、异物遮挡等，这些问题是野生动物视频识别所面临的挑战，也是未来的研究方向。

2.2 野生动物图像识别

对于那些在个体或群体之间差异不明显且数量庞大的物种，精确的个体识别就会比较困难，因而野生动物的图像是最难识别的对象之一。此外，野生动物生活在自然栖息地，由于植物的遮挡，使识别更加困难 (Venkitasubramanianet al.,2016)。Kim 等 (2022) 基于Faster R-CNN 对26 种亚马逊鹦鹉 (genusAmazona) 进行分类，而Faster RCNN 提升了运行速度，进一步把检测速度提高到准实时，有利于保护亚马逊鹦鹉的野生种群。Santangeli 等 (2022) 基于YOLOv3 识别秃鹫 (Torgos tracheliotos) 和其他大型鸟类，有助于自动化远程大量收集野生动物生态数据。Chen 等 (2020) 开发了一种全自动深度学习算法，用于大熊猫面部检测和身份预测，并且建立了最大的大熊猫图像数据集，其中包含来自218 种不同大熊猫的6 441 张图像。Xie等 (2019) 搜集了内蒙古赛罕乌拉国家级自然保护区的中华斑羚 (Naemorhedus griseus)、马鹿 (Cervus canadensis)、狍 (Capreolus pygargus)、猞猁 (Lynx lynx) 和獾 (Meles meles) 等动物图像并基于多分支聚合和挤压激励网络的集成模型构建自动图像识别模型，模型准确率为95.3%。Zhang等 (2020) 从澳大利亚昆士兰州的几个国家公园收集数据建立了大型全高清野生动物监测图像数据集，并基于CNN 识别了袋鼠 (Macropus)、鸸鹋(Dromaius novaehollandiae) 等多种野生动物。而在野生动物精准个体识别方面，传统采用人工标记或者记忆方法，需要专业人员蹲点观察很长时间才能把目标野生动物区分开，耗时耗力又容易产生混淆。Guo 等 (2020a) 利用神经网络模型开发了灵长类动物识别系统，能够精确识别41 种灵长类动物，对秦岭地区的川金丝猴 (Rhinopithecus roxellana) 识别率高达95.6%。赵婷婷等 (2018) 利用Cifar-10 深度学习模型代替人眼，用金钱豹 (Campanumoea javanica) 花纹的差异性来区分金钱豹个体，进而估算区域内金钱豹的种群数量。根据东北虎 (Panthera tigris altaica) 的体侧条纹信息不具有对称性，使用CNN 模型有助于实现东北虎个体的精确自动识别 (史春妹等，2021)。这些研究所采用的检测算法有所不同，如Faster R-CNN、YOLOv3、CNN 等。这些算法有着各自的优缺点，在不同的场景下可能表现更优秀。因此，选择合适的算法对于实现高质量的动物检测任务非常关键。此外，这些研究对于数据预处理、模型训练、检测速度等方面的细节也进行了深入探究，Zhang 等(2020) 所建立的全高清野生动物监测图像数据集，可以为后续研究提供高质量的数据支持。未来可以继续深入探索这一领域的技术应用和创新，为野生动物保护和管理工作做出更大的贡献。

为了更准确地识别野生动物，科研工作者对不同的模型进行了测试与比较。Ueno 等 (2022) 使用GoogLeNet 和ResNet-18 与顺序贝叶斯滤波器组合后改善了对日本猕猴 (Macaca fuscata) 的识别，推测顺序贝叶斯滤波器可以提高日本猕猴个体识别的准确性。杨铭伦等 (2022) 收集了神农架国家级自然保护区内梅花鹿 (Cervus nippon)、毛冠鹿(Elaphodus cephalophus)、斑羚 (Aepyceros melampus petersi)、野猪 (Sus scrofa)、红腹角雉 (Tragopan temminckii) 的图像，比较了YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x四种模型的识别精度，认为YOLOv5m 综合性能较好。Guo 等(2020b) 在夜间采集了土狼 (Proteles cristatus)、鹿(Cervidae)、负鼠 (Didelphinae)、浣熊 (Procyon lotor) 和臭鼬 (Mephitis mephitis) 的图像，这些图像中的动物很多情况下被草或树木遮挡使检测和分类更具挑战性，他们开发了一种多通道区域建议和分类网络 (VCRPCN)，与R-CNN 相比速度更快，且准确率提高了21.0% 。de Silva等 (2022) 应用5种不同类型的CNN 模型 (VGG16、ResNet50、InceptionV3、Xception 和Alexnet) 识别亚洲象 (Elephas maximus)，发现Xception模型性能最佳，亚洲象的耳朵是关键特征。Shi 等 (2020) 采集了40 只东北虎8 277 张图像，相比于LeNet、ResNet34 和ZF_Net 算法，他们构建的深度卷积神经网络(Deep Convolutional Neural Network, DCNN) 精度较高，运行速度较快。Shi等 (2022) 收集了47只东北虎12 244 张图像并基于CNN 开发了自动检测和识别方法，发现右脸和左、右身条纹的组合实现了最高的准确率。这些研究涵盖了不同种类的动物，并使用了不同类型的深度学习模型，如InceptionV3、ResNet34、YOLOv5 等。并且针对不同的环境和情况，预处理和增强可以有效提高动物识别和分类任务的准确性。特征选择是影响动物识别和分类任务准确性的重要因素之一，深度学习被应用于野生动物的图像识别，识别常用的特征包括斑点图案、条纹图案、面部特征、身体特征等 (Petsoet al., 2022)，但是种群内部个体相似时，精确的个体识别较为困难，目前实现野生动物精确个体识别仍然是重大挑战之一。此外，有研究表明，图像中个体识别特征发生旋转、特征部位分离度差和拍照时的光线昏暗等因素也会降低图像识别的准确度，因此需要利用合适的深度学习模型来解决这些问题 (Houet al., 2020)。

2.3 野生动物安全监测

利用深度学习这一工具对野生动物进行安全监测，可以提高监测效率。野生动物一旦受到威胁，监测系统能够做出快速响应。Surya 等 (2022)使用DCNN 进行动物检测和区分的实时图像处理，并通过物联网监测野生动物，以避免人与野生动物的冲突，一旦检测到野生动物，其GPS 位置将以短信形式发送到护林员。

基于良好的目标检测和分类性能，深度学习为实现野生动物丰度估算提供了有力支撑，大大减少生物计数所花费的人力。Eikelboom 等 (2019)评估了多类卷积神经网络RetinaNet 在航拍图像中检测大象、长颈鹿 (Giraffa camelopardalis) 和斑马(Equus bruchelli) 数目的性能，发现航拍计数可以减少人工计数的误差。由于栖息地规模广，位置偏远，海鸟的种群计数非常困难，而Hayes 等(2021) 利用无人机和CNN 计数黑眉信天翁 (Thalassarche melanophrys) 和南跳岩企鹅 (Eudyptes crestatus)，准确率高达97.7%和87.2%。

分析野生动物的行为，例如繁殖、迁徙以及异常行为，有助于评估种群规模，及时发现野生动物的异常，对野生动物保护具有积极的指导意义。Swarup 等 (2021) 收集了来自超过218 只大熊猫的10 000 多张图像，并结合Faster R-CNN 和ResNet 识别了大熊猫的5 种行为：行走、坐、休息、攀爬和进食以及2种面部动作：睁开或闭上眼睛和嘴巴，这些行为可以及时向大熊猫护理人员发出信号。Lei 等 (2022a) 基于YOLOv5 识别了夜间蜂猴的行为，这些行为包括进食、移动、休息和社交，有助于管理者及时发现蜂猴的健康问题。Jeantet 等 (2022) 训练了一个完全卷积的神经网络V-net 用于识别绿海龟 (Chelonia mydas) 的筑巢行为和产卵数量，有助于评估绿海龟种群状况。Maekawa 等 (2020) 构建了多尺度分层注意力模型(DeepHL-Net)，发现雌性海鸟的迁徙轨迹明显比雄性海鸟更接近海岸线，栖息地和觅食地等特定地点的绝对坐标会影响海鸟的行为，为海鸟的监测保护提供思路。Roy 等 (2022) 使用GAN 模拟和捕获海鸟觅食轨迹，提示GAN 在野生动物运动建模方面的潜在用途。Sun等 (2020) 提出了基于稠密链接块改进的VGG 识别分类算法，用于识别梅花鹿体姿态如站立、起身、趴卧、回头等4 种日常行为，解决了人工监测时梅花鹿易产生应激反应的问题。外部异常环境会导致鱼类产生异常反应，如鱼群回避以及异常游动等，而Yuan 等 (2021) 提出了视频异常检测模型TransAnomaly 可以对鱼类的异常行为进行有效监测。这些研究表明，深度学习技术可以帮助我们更好地了解动物的生态习性和健康状况，在野生动物行为识别和分类方面的应用前景广阔。通过不断地优化算法和模型，解决数据收集和处理、环境因素以及保护管理等问题，可以为野生动物的保护和管理工作做出更大贡献。野生动物行为受到环境、季节、食物等多种因素的影响，因此我们还需要考虑如何对这些影响进行建模和应对。由于野生动物的行为是由环境和生理因素所引起的，种群的行为、特点及调节机制等方面的研究较少 (边疆晖，2021)，利用深度学习模型准确分析和解释野生动物的行为是一个重要的研究方向。科研人员需要与保护管理人员密切合作，将野生动物行为识别和分类技术与野生动物保护和管理工作结合起来，实现更好的保护效果。

2.4 野生动物音频识别

生物声学是生物学和声学的组合，是生物多样性监测系统的重要组成部分，在保护容易灭绝的物种方面取得了重大进展。野生动物的音频识别与其他种类的音频识别流程类似，首先需要通过传感器收集声音信号，接着经过加窗、噪声的过滤等预处理后，通过深度学习模型处理音频数据提取特征图并识别。Ruff 等 (2021) 利用CNN 识别14 种鸟类和哺乳动物发出的声音并且创建了一个桌面应用程序，但是同时识别多个动物声音的可靠性较低。当音频片段中存在多种鸟类时，现有的鸟类生物声学监测系统会陷入困境。为了克服这些挑战，Shrestha 等 (2021) 提出了基于Faster R-CNN 的音频分割系统，用于区分单个音频片段中多个鸟类的发声，分割错误率为21.81。鸟类声音可以传递森林火灾的警告，Permana等 (2022) 通过CNN，识别了正常情况下和受威胁情况下鸟的叫声，分类准确率高达96.5%，为森林火灾的预警提供帮助。Zhao 等 (2022) 设计了一种基于挤压和激发网络 (SENet) 的模型，从大熊猫的发声中自动识别其年龄和性别，可用于未来野生大熊猫调查。Al Bashit 和Valles (2019) 通过改进和优化信号处理技术，成功应用于濒临灭绝的休斯顿蟾蜍的交配呼叫检测和定位，以保护其免受捕食者的猎杀。他们修改带通滤波器和帧大小并结合梅尔频率倒谱系数 (Mel-scale frequency cepstral coefficients, MFCC) 和LSTM 递归神经网络进行叫声分析。研究结果显示，在训练集上达到了94.0%的准确率，在测试集上达到了92.6%的准确率，因而这一方法对于保护休斯顿蟾蜍具有积极的意义。Nanni等 (2020) 在鸟类、蝙蝠和鲸鱼音频数据集上测试了6 种不同的CNN (AlexNet、GoogleNet、Vgg-16、Vgg-19、ResNet 和Inception)，发现可以对多个CNN 进行微调和融合，以实现鲁棒强和广泛适用的动物音频分类。这些研究表明，深度学习技术在野生动物声音识别和分类方面具有很大的应用潜力，证明了其在多物种语音识别中的可行性。未来的研究可以探索如何解决存在多种物种时的声音识别问题，并通过不断优化算法和模型，促进野生动物保护和管理工作。

海洋哺乳动物会产生各种各样的声音，而水下环境声音嘈杂，对音频识别造成一定困难。虎鲸 (Orcinus orca) 叫声特别，Bergler 等 (2019) 基于ResNet 识别了虎鲸的声音，测试准确率高达94.0%。由于虎鲸、长肢领航鲸 (Globicephala melas) 和竖琴海豹 (Pagophilus groenlandicus) 生活区域高度重叠，Lu等 (2021) 使用CNN 检测和分类这3 种海洋哺乳动物的声音，每个经过训练的模型只需1.3 ms 即可检测或分类，整体准确度达97.4%。Madhusudhana 等 (2021) 利用CNN 和LSTM 网络模型的组合识别长须鲸 (Balaenoptera physalus) 的声音，提示声音的时序性在识别野生动物音频中的潜在价值。但是Bergler 等 (2019) 的算法仅限于虎鲸声音识别，无法适用于其他野生动物声音的识别和分类，而Lu 等 (2021) 的方法可以识别3 种海洋动物。上述研究都探讨了使用深度学习技术识别和分类野生动物声音的问题，并通过不同的网络结构和模型构建方式，取得了较高的识别和分类准确率。此外，我们还需要建立更加完善和广泛的野生动物声音数据集，并将深度学习技术与其他技术结合使用，以实现更加全面、系统和有效的野生动物保护和管理工作。目前人们对野生动物的音频识别兴趣日益浓厚，而大多数声学研究集中在相对不受干扰的栖息地 (Gibbet al.,2019)，例如森林和海洋，但是人为噪声或者杂音可能会干扰目标野生动物的识别。野生动物声学研究对象主要是翼手目和灵长目，而对其他陆生野生动物的研究较少，有待进一步研究 (马海港和范鹏来，2023)。此外，野生动物群落、环境以及声音三者的联系有待探索 (Tobiaset al., 2014)，同样也是一个重要的研究方向之一。

3 深度学习的优势及存在问题

在野生动物保护中，深度学习模型可以代替人工识别或监测，并通常具有更高准确性。深度学习模型经过训练后即可实现不间断工作，有助于减少人为活动对野生动物产生的影响，减少野生动物保护工作者在野外遇到危险的可能性。针对不同数据集，深度学习可以快速学习野生动物特征，不需要像人一样依据自身经验和足够的知识储备，主观识别相似或者相近的野生动物。由于数据共享和开源，大众可以广泛访问深度学习模型和数据集，有利于模型的优化和改进。此外，与传统机器学习相比，深度学习无需手动提取特征 (Segebarthet al., 2020)，并且能够依靠迁移学习，将模型推广到其他对象中，减少训练时间。

深度学习是近年来的研究热点之一，但还未在野生动物保护领域得到广泛应用，深度学习仍然存在一些问题和挑战。

野生动物的数据集获取较为困难，相关数据集较少。深度学习模型的训练，往往需要大量的样本数据。而野生动物的数据集往往需要在野外通过一系列工具获取，例如自动隐蔽摄像机、红外相机或无人机等。如想获取海洋生物的信息，所需要的设备要求更高，例如防水相机 (Liet al.,2022)。而在野外所获取的原始数据非常庞大，往往掺杂着许多无用的信息。当区域内野生动物较少或者不活跃时，难以收集到目标野生动物的视频、音频和图像，可能只含有大量无效的背景环境或背景音。目标野生动物的数据太小，则可能导致模型的泛化能力变差，识别准确率降低，但过多的数据又可能会因模型过拟合导致在测试集中的准确率降低。此外，由于植物遮挡、天气、拍摄角度等问题，所收集的数据质量可能不高，需要对这些低质量的数据进行人工或者计算机的预处理，否则会影响后续深度学习建模。因而，建立更多高质量野生动物数据集以及用更高效便捷方式获取野生动物的数据是当前面临挑战之一。

深度学习模型训练所需时间和金钱成本较高。虽然深度学习模型在应用时速度非常快，但在训练深度学习模型时耗时较长，并且需要具有强大计算能力的硬件支持。Hou 等 (2020) 使用GPU NVIDIA Quadro P5000 (16 GB) 训练65 000 张大熊猫面部图像，耗时7 h。另外，所用的模型本身可能过于庞大，训练过程中为了达到较高准确率和获得更高性能，需要调整各类参数。但昂贵的硬件、复杂的参数以及耗时的训练，一定程度上限制了深度学习在野生动物保护中的应用。

上述问题是未来需要研究和探索的，首先尽管目前已经构建了一些野生动物的公共数据集，但是公共数据集较少，因而在未来需要构建更加全面的野生动物数据集，以便于全世界的研究人员测试并改进优化模型；其次，对于样本数较少的数据集，不仅可以采用旋转、平移、镜像、裁剪等方法 (丁剑勇等，2022) 实现数据增强，还可以建立针对小样本的深度学习模型用于数据增强，比如GAN 可以生成比原始图像更清晰、更真实的图像 (Zhanget al., 2023)；此外，轻量级的深度学习模型具有体积小和检测速度快的优势 (杨铭伦等，2022)，因而构建轻量级的深度学习模型既可以降低硬件的计算要求，还可以嵌入便携式设备并提高处理数据的效率。轻量级的深度学习模型和野外便携式监测设备相结合有助于提高监测效率，是未来的研究方向之一。

4 总结和展望

本文介绍了深度学习的原理，回顾了深度学习在野生动物保护方面起到的重要作用，并分析了深度学习的优势以及存在的问题。野生动物保护方法正在经历由人工向自动化逐渐转变的过程，由纯人工保护发展到红外相机、卫星遥感、无人机等设备辅助人工保护，进一步发展出设备结合深度学习辅助人工保护。传统上，想要保护野生动物需要大量专业的生物学家在范围广阔且充满危险的野外寻找并识别目标野生动物。而现在，可以将设备部署到野外，通过深度学习模型直接自动化识别野生动物，降低了人为因素对野生动物栖息地的影响，减少人工处理设备所产生的大量数据。此外，非专业人士也可以参与野生动物保护，无需大量人力投入，也减少了野外探索的时间，避免在野外遇到危险，识别并追踪野生动物会更加容易。依托深度学习，在未来能够实现野生动物个体及群体的精准监测与保护。针对具体单一个体，深度学习可以分析个体的行为以及健康状态，进一步识别个体和个体之间的通信交流及互动情况，有助于了解该野生动物群体的状态，为野生动物保护提供启示。目前已经建立的各类自然保护区和国家公园，保护成效显著 (游剑滢，2022)，再结合计算机技术、生物学、生态学、机械等学科，能够开发综合性一体化野生动物保护预警平台，实现从个体到群体的多方位保护机制。

随着深度学习算法的不断发展，其在野生动物保护中的应用将越来越广泛。目前，深度学习作为一种出色的技术已经应用于野生动物视频识别、图像识别、安全监测以及音频识别。但是与任何其他强大的技术一样，深度学习并不完美，也存在着一些问题，比如数据集的获取以及深度学习模型的缺陷。因而，计算机、数学、生态学以及生物学等不同领域的专家需要针对这一系列问题进一步深入研究并密切合作。随着深度学习模型的开发和优化以及各类公共野生动物数据集的不断出现，相信将来深度学习可以更好地助力野生动物保护，使野生动物远离灭绝的威胁。