搜索训练中警犬自主作业的定性研究

2022-12-11方绍勤

中国工作犬业 2022年2期

方绍勤

在定向目标搜索如搜毒、搜爆、搜索枪弹等训练中，利用警犬食欲本能进行训练，将训练重点由寻找食物转至警犬对爆炸物、毒品或枪弹气味的记忆和识别环节，而将搜索形式融入此环节中，最大程度激发警犬作业的自主性，提高搜索训练的效能。

一、警犬搜索自主作业的理论基础

美国心理学家、动物心理学的开创者桑代克(Edward.Thorndike)，创设了心理学联结主义。

桑代克首先用实验方法研究动物的学习心理。他创造了迷路圈、迷箱和迷笼等实验工具，试验鱼、鸡、猫、犬等动物的学习。根据这些实验，桑代克认为，动物的学习并不具有推理演绎的思维，并不具有任何观念的作用。动物的学习方式是试错式的，即动物是通过反复尝试错误而获得经验的。这种学习的实质就是在刺激和反应之间形成联结，即“S-R” 联结，因此学习即联结的形成与巩固。

训练操作的核心为：当警犬对正确的所求物做出正确的示警方式时，予以快速及时的奖励，强化警犬的行为，有效建立“S-R”联结；当警犬对错误的所求物做出示警时，不施加任何刺激，弱化警犬的行为，破除“S-R”联结。在整个过程中，训导员不对警犬进行任何强迫，只是在警犬做出正确示警时给予强化，充分利用犬的探求反射，寻找建立“S-R”联结的时机。

二、桑代克的“三律”与警犬搜索自主作业的匹配

桑代克由学习联结理论提出准备律、练习律和效果律。结合警犬搜索训练自主作业，可以进行每个阶段的对应匹配。

（一）准备律，是指在学习开始时的预备定势。当某一刺激与某一反应准备联结时，给予联结就能引发该反应的高频发生。

在训练第一步，利用犬饥饿状态引发的食物欲望，在犬面前将食物放置于干净气味罐内，并重复此动作几次，当犬将鼻子伸入气味罐时，即刻给予食物奖励。这是把食物放置于干净气味罐内作为刺激，把犬将鼻子伸入气味罐作为反应，建立两者的联结，促进犬反应的发生，犬会将鼻子伸入气味罐这一动作由有意识逐渐转化为无意识，只要见到气味罐，犬便会以获得食物奖励为动机，主动将鼻子伸入气味罐中。这一步训练每天6组，每组3次，通常在2天内，警犬即能建立起联结，主动将鼻子伸入气味罐，并持续呼吸，以等待食物奖励。

（二）练习律，是指对一个学会了的反应进行持续的奖励，将增加刺激反应之间的联结，也就是刺激-反应（S-R）之间的联结。练习和奖励越多，就会越来越得到加强，反之会变弱。

在训练的第一步基本成型的基础上，开展第二步训练，即将气味罐内的食物换为爆炸物或毒品，当犬高频率、长时间将鼻子伸入气味罐时，必定会在无意识中感受到爆炸物或毒品气味，同时给予食物奖励。

练习律是对准备律的巩固和升华，一方面继续对犬将鼻子伸入气味罐的动作进行强化，但奖励的时机经常性变化，以破除犬形成动力定型的可能；另一方面加入第二个刺激，即爆炸物或毒品气味，开始建立嗅闻爆炸物或毒品气味与食物奖励的联结。

练习律是时间较长的过程，因为这一阶段蕴含两个内容，既有对犬主动将鼻子伸入气味罐与食物奖励联结的强化，更有对犬嗅闻爆炸物或毒品气味与食物奖励的联结的强化。这一步训练每天6组，每组3次，通常在5天内，警犬即能建立起稳定的动作联结和气味联结，气味联结我们通常称之为气味联系。

在犬主动将鼻子伸入气味罐，持续呼吸，获得食物奖励连贯动作的整个过程中，无须带牵引带，不对犬进行指嗅、引导等动作，全程依靠犬自主完成，训导员的任务是将犬带到训练环境中，食物奖励的任务由助训员完成，以避免警犬形成对训导员的视觉和情感依赖。

这一步训练的优势在于，一是确保气味的相对纯洁，定向目标搜索训练中，嗅源气味的纯洁与否直接关系到警犬记忆的纯洁度，嗅源气味的纯洁性越高，犬排除干扰物气味的能力将会越强。二是气味的重复记忆，定向目标搜索训练中，警犬需要重复不断地记忆嗅源气味，记忆越牢固，在搜索中反应速度越快。三是排除训导员的干扰，警犬嗅觉作业是犬嗅觉器官与大脑神经进行快速交汇的分析过程，人为的诸多声音和动作对于犬而言可能会造成对其正常作业的干扰甚至破坏。

通过一个月的训练，将自主作业的警犬和传统模式训练的警犬进行对比，呈现出截然不同的效果：自主作业的警犬气味联系的时间更短，平均周期为4.28天，而传统模式训练的警犬气味联系的平均周期为10.46天；在干扰物测试中，训练一个月后，自主作业的警犬对干扰物的错误示警为7.27%，传统模式训练的警犬为16.83%；在搜索主动性方面，在60秒以内，自主作业的警犬能搜索82.64只箱包，并对其中3个所求物进行准确示警，传统模式训练的警犬能搜索69.88只箱包，对其中2个所求物进行准确示警。

（三）效果律，是指如果一个动作跟随着情境中一个满意的变化，在类似的情境中这个动作重复的可能性将增加。用桑代克自己的话来说：“满意或不舒适的程度越高，刺激-反应联结就越加强或越减弱”。

在桑代克的早期论著中，效果律既包括正强化律，也包括负强化律。但是，桑代克在后期的研究中抛弃了负强化律。这样，效果律就不再是对称的了，而是主要利用正强化律起作用。

如此一来，效果律便成了准备律和练习律的升级版和强化版，在警犬训练中，警犬通过准备律和练习律中主动作业的动机和牢固的气味联系，我们可以将气味罐逐渐调整为箱包、场地、车辆等场景，这于犬而言，没有难度的变化，只需要适应即可，因为它的终极目的在于将自己记忆中的气味进行确认，便可得到奖励，并坚持这个行为的持续发生。搜索形式在潜移默化中形成，无须训导员携带警犬进行逐个指嗅，犬完全自主形成。

这个环节中，奖励物的选择非常值得思考，无疑，食物和物品是两种类型的奖励。食物的奖励是对犬原始本能的奖励，是对行为的深度强化，对犬做出的正确反应给予食物强化，不会破坏犬的持续行为；物品的奖励是对犬外显行为的奖励，无关原始本能，而且为了训练的持续，训导员必将物品从犬口中取出，一部分犬的动机会转移到物品本身，而弱化行为与物品的联结，从而发生假反应。换句话说，食物奖励是内在的，而物品奖励是外在的，对于动机而言，内在奖励的效度远远大于外在奖励。