关于工作犬训练中采用正强化训练方法的分析

2020-12-01魏建龙王城仁

中国工作犬业 2020年11期

熊鹰魏建龙王城仁

在工作犬的日常训练活动中我们经常提到一些训练术语，例如：正强化、负强化、正惩罚、负惩罚等。正强化一词源于英文词组Positive Reinforcement的中文意译，Positive Reinforcement这个概念最初是由BF Skinner(斯金纳)在一项论证研究中提出的，英文单词Positive 的含义不仅有“正向的”的意思，它还可以表述为“肯定的”“积极的”等意思。

美国心理及行为学家斯金纳根据相关实验结果提出了3 个概念：强化、惩罚和消退。具体如下表所示：

分类条件行为发生频率举例正强化给予一个愉快的刺激增加好行为发生的频率当犬做出训导员想要的行为时，训导员奖励它强化负强化摆脱一个厌恶的刺激增加好行为发生的频率训练卧下延缓科目，当犬不动时，没有牵引绳的纠正正惩罚给予一个厌恶的刺激减少坏行为发生的频率犬扑咬助训员，不听从训导员口令放口，提拉刺钉脖圈惩罚负惩罚撤销一个愉快的刺激减少坏行为发生的频率犬对非目标气味示警时，训导员不理会它消退无任何刺激减少坏行为发生的频率做气味消除训练时，犬对记住的气味示警，训导员不理会它

一些从事竞技类犬训练的团体当中，如训练服从、护卫的IGP 训导员们仍然认为，要把犬训练得近乎完美，唯一可靠的方法就是教会它“必须”服从命令。犬自身的想法并不重要，他们相信给予犬适当的强迫（刺激）甚至是“电击刺激”手段，是可以让犬执行命令的训练方法，而不是通过“暗示”或“要求”犬就能使其做出相应的行为。

一、正强化训练方法的含义

有许多不同的术语可用来描述此种训练方法：正强化、基于奖励、不束缚犬等。提倡这种训练方法的训导员有一个共同的信念：使用更安全、更有效、更人道的方法来训练犬。如果训导员奖励犬正确的行为，那么这种行为就更有可能被重复，出现的概率也会增多。同样，如果训导员忽视犬正确的行为或重定向一个错误的行为，那么犬的这种正确的行为发生的概率就可能会减少。

二、正强化训练方法的要素

（一）运用正面积极的强化方式在工作犬的训练中，训导员使用积极的强化方法已经被行为科学团体普遍认为是有效、持久、人道和安全的方法。正强化意味着如果奖励犬做出一个需要的行为，那么这个行为被重复的概率就会更大。当犬的错误行为与负惩罚相对应（在短时间内取消或扣留犬想要的东西，如食物、关注、玩具或与人接触等），或者使用声音终止（口令“NO”或“非”），将错误行为重定向到想要的行为上，可引导犬做出正确的选择。这些方法是正强化训练的基础元素。沿袭传统训练方法观念的训导员认为，积极的正强化方式表明训导员态度软弱并缺乏领导力。但事实相反，成功的训导员能够在不使用武力的情况下实现改变犬的行为。

（二）避免使用恐吓、正惩罚

科学研究表明对抗性、正惩罚的训练方法不仅不会长期有效，反而会加剧犬的攻击性反应，使本来就喜好打斗的犬变得更加好战。这是一个简单的概念，但有些训导员很难理解。现代行为科学在反对强迫训练中发挥了重要作用，仅凭直觉就能得出结论：奖励比惩罚更为人道。传统的训导员认为，电击、提拉刺钉脖圈或快速踢犬肋骨给予惩罚的方法对犬的伤害不大，但事实上多数训导员会避免做让犬感到痛苦或恐惧的事情。

（三）正确理解地位关系

训导员与工作犬之间不应是“主人”与“仆人”的关系，他们更应该像是朋友、战友之间的关系。

（四）从犬的角度去思考

训导员要了解犬是如何感知周围世界的，否则无法与它建立起牢固的关系。要有效地做到这一点，训导员首先必须学习它的肢体语言与行为特点，了解它的感官体验。感官与情感紧密相连，而情感驱动着行为。阅读犬的肢体语言在训练过程中扮演着不可或缺的角色，训导员以此来了解犬以及解决它们可能存在的行为问题，这个过程被称为感官教育。作为更高级的物种，训导员应该掌握“犬类的语言”，而并非期望犬学习人类的语言。这样能够为训导员与犬建立更牢固的关系打下基础，也会让训导员更容易找到有效的、积极的方法来解决犬可能出现的任何问题。

这4 个要素共同构成了正强化训练的理念。如果没有其中的任何一条，这个理念就不完整，也就不能在相互信任和尊重的基础上与自己的犬建立长期稳定的关系。

三、使用负强化训练方法的弊端

负强化指的是训导员通过施加身体上或者情绪上的压力与刺激来强迫犬改变行为。例如强按犬臀部令犬坐下，或者猛拉牵引绳令犬卧下。在这两种情况下，犬学会了如果服从就会减轻压力，为避免不舒服犬就必须服从命令。对于多数犬而言，特别是那些精心挑选出来的具有高驱动力、身体强健和情感丰富的犬，这些负强化手段通常会在犬和主人之间制造冲突和猜疑，最终可能导致训导员被攻击。虽然使用负强化训练起初看似有效，但犬的恐惧和忧虑却增加了，并可能因此产生许多不容易再改正的问题。

（一）训导员破坏了与犬的关系，犬因为恐惧或痛苦牵扯到训导员，所以对训导员的信任减少了。

（二）恐惧和焦虑会因犬体内过多的压力荷尔蒙存在，导致发生恐惧性猛烈攻击行为。

（三）在看似无关、不可预测的情况下，由于大多数时候犬体内存在的应激激素升高，会时刻感到需要防御。

（四）训导员因为受到挫折，产生报复心理而增大对犬的惩罚力度，会带来额外的风险。

基于恐惧的动机还涉及许多其他风险。从本质上讲它会定期给犬带来难以预测的不快乐、恐惧和压力，而这些都不是一头优秀工作犬需要的元素。

四、正强化训练方法的可行性分析

训导员应专注于强化犬令人满意的行为，而避免强化其不受欢迎的行为。例如训练犬“坐”的服从科目时，训导员可以用表扬或抚摸强化犬的这一行为。如果犬跳起来扑向训导员（产生不良行为）时，训导员应转身走开，不理会犬。训导员很容易从犬身上得到想要的行为，因为训导员控制了犬需要的资源：食物、感情、表扬、散步、网球——所有的好东西。正强化和非惩罚（在犬做出错误的行为后不让犬得到想得到的）可以更好地促进训导员与犬的关系，因为犬学会信任训导员，这样的团队才会树立起更强的工作关系。

在正强化训练中，开始时训导员要花很多精力，但一段时间之后就会趋于平稳，工作量逐渐较少。在负强化的情况下，训导员很快就使犬做出了完整正确的动作，但之后的工作却很繁重，因为犬所做的努力仅限于使其不受到干扰。正强化，尤其是大量的自由塑型，犬就会自主工作去得到训导员给予的回报，犬思维的基本方式也随之发生了改变。

（一）塑造犬的行为

塑造行为的训练原则就是给犬创造条件，鼓励犬自己发现正确的行为并给予其奖励，而不是控制犬的身体或者诱导犬来达到想要的行为。初期训导员的工作就是控制训练环境，避免犬的自我奖励。这个过程叫作犬的自我学习。如果让犬进行自我学习，得到的益处将比负强化和强迫训练的方法要多很多。

许多训导员坚信犬不正确的行为需要被立刻纠正。通过塑造行为，训导员创造训练场景让犬（开始时犬不知道正确的反应是什么）尝试不同的行为来获得其想要的奖励。对扑咬犬而言，扑咬“假想敌”并与之搏斗，不能局限于扑咬“假想敌”身上的防护装备，训导员要奖励犬攻击目标的行为，防止犬只咬护袖这种自我奖励的行为。例如在早期训练时，训导员需要使用牵引绳防止犬过早攻击“假想敌”，兴奋的犬会吠叫并往前冲，但是只有当犬执行训导员的“卧下”口令后，训导员才会允许犬去撕咬“假想敌”。而当犬做了训导员想要的行为并得到奖励时，就改变了犬的行为，犬就会重复做出正确行为以获得奖励。

对一些训导员来说，让犬撕咬时放口训练往往难度很大。需要使犬放口时干净利落，训导员必须保证犬在任何条件下都会服从命令。许多工作犬动力强劲，一直想着咬“假想敌”，让它们放口是个挑战。一般来说，训导员遇到犬不放口的情况，都会使用刺钉脖圈、电击脖圈或撬棍等方法强行纠正。这些方法在短期内有效，但是这种冲突会导致大多数犬进入一种躲避状态，当它们看到训导员靠近时，犬会移动到远离训导员的位置。因此，可以让“假想敌”在犬和训导员之间，这样犬就能延长撕咬的行为。教犬放口是一个有趣的游戏，并且可以让犬有另外的机会撕咬。这种训练的一个重要特点就是开始时难度较低，当犬的行为有了改变时，慢慢增加难度。比如前期“假想敌”很安静，唯一的打斗来自犬，而不是拼命挣扎的“假想敌”，否则只会让犬更兴奋。当犬咬上后，“假想敌”安静不动，训导员只需耐心等待，因为犬不可能永远张嘴咬着。当犬开始疲倦时，训导员发出犬一定会服从的指令，比如“卧下”。当犬卧下时，训导员用咬棒拔河游戏来奖励犬。当犬服从命令放开“假想敌”后，让“假想敌”挑衅犬并与犬再次搏斗。如此反复训练，犬很快就学会了“放口”的口令。以上这两个例子都说明不用惩罚也可以得到一头头脑清楚冷静的扑咬犬。

强迫通常会给犬带来较大压力，使犬无法思考并放口。而犬不服从“放口”指令，带来的只是训导员的武力升级，然后给犬带来更大压力，最终形成一个恶性循环。

（二）塑造和诱导

正强化训练依赖于塑型训练。这是一种训练方法，它包括最初奖励一个接近正确的期望行为，然后逐渐奖励越来越好的接近行为，直到完成整个正确行为。另一种普遍的正强化训练方法是诱导，在诱导训练中，犬会跟随一个喜欢的东西(食物或玩具)进入获得奖励的位置。这两种方法都是一个素质全面的训导员所必须掌握的，但需要灵活运用。

诱导训练有利的一面是可以很快达到想要的行为，大多数训导员都容易使用。不利的一面是如果诱导时间过长，会干扰犬想要学习的行为。频繁使用诱导会让犬过分依赖诱导，致使训导员使用诱导作为一个“贿赂”手段而不是一个训练方法，有效使用诱导的方法又必须使犬尽快摆脱诱导。

自由塑型有利的一面是形成犬自我解决问题的能力，一定要尝试使用各种方法才能知道哪个有效。强调行为而非奖励，虽然犬最终是为了得到奖励，但是奖励不是那么明显地摆在犬面前，很多训导员认为使用这种方法获得的效果更为牢靠。不利的一面是前期需要训导员有耐心，时间上可能也长一些，训导员要善于观察，敏锐地感知什么时候进入下一个训练阶段，这对于新训导员来说是一个挑战。

无论是训练搜索类科目还是护卫类科目，也不管是训练牧羊犬还是猎犬，学习的理论和行为模式大同小异。

五、使用正强化训练的注意事项

100 多年前，两位年轻的心理学家罗伯特·M·耶基斯(Robert M.Yerkes)和约翰·迪林厄姆·多德森(John Dillingham Dodson)定义了动物兴奋与行为表现之间的关系：随着兴奋水平的提高，动物的表现也会提高，直到达到一定的最佳兴奋水平。如果兴奋水平超过了最优点，动物的表现将再次开始下降，并且随着兴奋程度的增加将继续下降，如下图。

兴奋程度

训导员工作就是尽量让犬的状态处于曲线的顶端部分，使其性能最大化。有时要求训导员保持兴奋，有时则要求保持冷静。几乎每个训导员都愿意在必要的时候变得更兴奋，但很少有人愿意在需要的时候保持安静。这在许多情况下造成了困难，因为犬的类型可能与许多年前有很大的不同。10 年前，大多数接受训练的工作犬都不像现在的工作犬那么兴奋。因此，多年前发展起来的诱导方法强调通过使犬尽可能地靠近耶克斯-多德森曲线上升的左侧，来建立犬的兴奋水平，从而最大限度地提高它们的表现，这种方法仍然在被沿用。而现在的犬，无论是进口的犬还是国产的犬，通常都比10 年前的犬更容易兴奋，许多犬的行为表现很差，是因为它们太兴奋了，正处于曲线下降的右侧。所以在训练中对这类犬需要减少刺激，使它们回到曲线的顶端，特别是在训练初期。因此，采用正强化训练方法要注意以下9个方面。

（一）尽量让训练变得富有乐趣。不要在没有乐趣的情况下进行训练，训练应该是一段让训导员和犬牢记的快乐时光。当与犬玩耍时能帮助它做出适合我们需要的行为，因为犬知道有一个奖励在等着它。但不要让犬自己做决定，为了让犬学习并理解“我们渴望它做出行为”，利用这种方式会使它们会学到更多东西。

（二）要充分运用能激励犬的东西。运用犬最喜欢的食物、最喜欢的玩具、最喜欢的拔河游戏等来激励犬做出更好的行为，也可以去尝试一些新的改变，用食物与玩具组合的方式来奖励犬。

（三）对犬而言，一点微小的改变就是巨大的胜利。仔细观察犬，观察它对命令的反应，可能会发现犬有新的反应，而当我们注意到这种情况时，要直接奖励它们。

（四）既要使犬努力工作，又要使其尽情玩耍。没有人否认训练可能是一项烦琐的工作，但我们知道，想要为工作做好准备，犬必须先放松自己，好好休息也是必要的。

（五）要不断提高挑战的难度系数。当我们注意到犬已经开始获得新的技能或较高的专注力时，必须把难度系数提高。例如当犬执行了“卧下”的命令时，应让它适应附近的干扰因素，并让它在卧下的位置上停留更长时间。

（六）坚持每天训练是成功的关键因素之一。工作犬每天都要接受训练，它们要反复听到和执行相同类型的命令。这并不是强制给犬制定严格的军事计划，训导员所要做的就是让犬对自己已经掌握的技能在听到相关命令后始终保持一致。此外，训导员在训练时间和奖励上也要保持一致。

（七）不能忽视适当休息的必要性。在训练过程中犬很可能会感到疲劳，这就是为什么在某个时候训导员让犬适当休息一下是十分必要的。

（八）要善于利用犬自身的警用素质水平。有些犬天生就具备警犬的素质，而有些犬则只能被淘汰。训导员应意识到犬的素质水平程度，要根据犬的素质水平和驱动力情况，确保训练过程能够符合它们的需要。

（九）应以积极的方式结束训练，不要忘记训练应该是一件趣事。每当训导员以积极的方式结束训练，犬就会期待下一次的训练。

六、结束语

训导员和犬建立并保持健康平衡的关系并不是一场战斗。尽管与立竿见影的想法有些不合，教学过程中有时会遇到困难，但花点时间去真正了解犬是如何学习的、犬需要什么才是更值得我们关注的。当一头工作犬进入训导员的生活时，也就签署了一份不成文的社会契约，训导员不仅要照顾、喂养和锻炼它，而且还要帮助它获得所需的所有技能，让它尽可能地体验最充实、最有意义的生命。只有利用积极正向的训练，忽略惩罚和支配观念的捷径和陷阱，才能达到发挥潜能、人犬和谐的目标。