浅谈在警犬训练中以正向强化为主的优势

2022-10-28魏建龙王城仁

中国工作犬业 2022年10期

魏建龙方卿杨洲王城仁

正向强化，是以美国心理学家斯金纳的操作性条件反射理论结合普雷马克原理（利用频率较高的活动来强化频率较低的活动，从而促进低频活动的发生）作为警犬训练的核心原理。训导员提供犬想要的东西，如食物、玩具、抚摸、夸赞等等让犬感到美好的事物作为犬正确行为后的奖励，犬为了得到奖励就会时刻保持积极、向上的心态尝试做出训导员要求的行为。常见的犬体态语言就是视觉、听觉注意力高度集中在训导员身上且尾巴高翘摇摆，训导员就专门抓住犬做出与我们心目中标准一致的好的行为瞬间提供奖励，一次又一次强化犬好的行为，不使用或者尽量少使用惩罚，忽略和包容犬做出与我们心目中标准相差甚远的不好的行为。犬出现好的行为因奖励的强化，出现的次数会越来越多，而不好的行为得不到强化就会行为逐渐消退，出现的次数会越来越少。若过多使用惩罚如牵引绳的控制、严厉的口令、刺激相应的犬体等，利用让犬感到难过的事物来让犬为了逃避惩罚而做出相应的行为，长此以往犬就容易感到压抑、恐惧，甚至抑郁，最常见的犬体态语言就是注意力分散，经常打哈欠、身体微躬、尾巴下垂。

我们的警犬训练经常会遇到一些麻烦，比如∶ 延缓服从科目中警犬会自主提前挪动或离开原有的位置；搜毒、搜爆犬在搜索中可能会出现咬、扒、拱等攻击目标物的行为；扑咬服从训练中警犬不能很好听从训导员的口令而表现出主动攻击助训员以及不能吐口的行为。警犬在看似“毫无警示”的状态下往往会做出一些吠叫或攻击动物、人、物品的行为等。这些不良的行为常常困扰着训导员，笔者以前第一反应是运用惩罚或负强化的手法予以纠正，在多年的工作中深刻感受到，运用“武力”或惩罚来纠正犬的不良行为不仅非常容易破坏训导员与警犬之间好不容易建立起的信任关系，同时也使得警犬在实际运用中不敢大胆尝试一些积极的、自主的行为，从而导致警犬在实际工作中的表现下降，那么正向强化训练是否就能达到比惩罚手段更好的训练效果呢？笔者将从两个实际训练中常遇到的情况做经验分享：

一、正向强化在延缓服从训练中的应用

服从中的坐、卧、立、延缓训练，犬在没有得到训导员允许的情况下主动放弃位置或偷偷挪动，笔者以前过多运用惩罚或负强化的训练方法：训导员面对着犬训练距离坐卧立延缓，若延缓过程中犬出现离开位置或挪动，训导员重新控制犬回到原延缓位置，提拉牵引绳下严厉口令，同时刺激相应犬体位置（按压犬髋骨使犬坐下、按压犬肩胛骨使犬卧下、手伸到犬后肢腋下提起犬股骨使犬站立），再次站回原位置延缓数秒，抛球奖励或者返回犬身边位置奖励，但训练效果事倍功半。

（一）运用正向强化为主的训练方法

训导员面对着犬训练延缓，逐渐增加延时并回到犬坐的右侧位置上奖励犬（犬保持不动时奖励）。训导员离开犬1米，缩短延时回到犬身边奖励犬，然后逐步增加离开犬的距离并依然要回到犬身边奖励犬。逐渐增加离开犬距离的同时慢慢增加延时，回到犬身边位置奖励犬。教会犬听到释放口令后，做释放行为并得到奖励。如果在上一步中，犬挪动了位置，不惩罚犬，也不与犬互动，重新开始。一旦犬不挪动并一直保持，无论是位置奖励还是释放奖励，给它一个大奖。

（二）经验总结

当犬在服从科目中训练失败，训导员要保持冷静的心态，不要用提拉牵引绳、严厉的口令、重力拍打惩罚犬逼迫犬做出行为，可以重新再来几次或降低难度标准直到犬某次表现很好时好好奖励它。在此期间，训导员一定要有足够的耐心包容犬的错误行为，允许犬犯错，只奖励它好的行为，经过一次又一次的正向强化，犬会非常乐意做出行为“获取”相应的“报酬”。但要知道犬是一种没有耐心的动物，如果训导员安排的一轮训练时间过长，惩罚手段过多，犬会感到无聊，出现打哈欠、扭头转身离开的体态语言，若继续强迫或长时间训练，会得到反效果，犬就会感到厌倦甚至恐惧，想要逃离训导员的控制，长此以往就会破坏犬与训导员之间的信任关系。那么就要控制训练时间，短暂约3～5分钟一轮，根据犬的状态安排每次训练3～4轮。无论什么样的训练一定要时刻保持犬的积极性，因为警犬不仅仅只是训练服从就足够了，我们还需要运用它其他方面的能力如嗅觉，如果犬在某一科目的训练被训导员惩罚过多，感觉到与训导员之间相处并不轻松，犬就会不敢积极尝试做出行为而是等待训导员的引导。训导员需要给予犬自我学习的时间，让犬明白这是一种愉快又短暂的游戏而不是痛苦又无聊的工作，做出相应的行为就能得到相应的奖励，而不是因为逃避训导员的惩罚而必须做出相应的行为。

二、正向强化在搜毒、搜爆训练中的应用

在搜毒、搜爆训练过程中，犬出现咬、扒、拱箱包的行为，笔者以前过多运用惩罚或负强化的训练方法：训导员收短、拉紧牵引绳并用镊子引导控制犬搜索，犬重嗅有正确目标的箱包时下口令并按压犬髋骨使犬坐下或按压犬肩胛骨使犬卧下，助训员在一旁抛球到箱包奖励，训练效果不尽如人意。

（一）运用正向强化为主的训练方法

当犬自己搜索嗅闻辨别出有正确目标的箱包时出现某种行为的瞬间，训导员可以下口令坐、卧下的替代行为来教导犬，当它坐下或卧下时，才能得到奖励。或者采用不惩罚、不理睬，耐心等待犬放弃这一不合适的行为，自己坐下或卧下时奖励犬。

（二）经验总结

不要通过拉扯牵引绳或者按压犬体的惩罚手法强制犬做出坐下、卧下的行为去纠正犬的不好行为，也不要通过抽打、严厉的口令来威慑犬，这会让犬不敢积极做出行为。其实犬出现咬、扒、拱的行为是一种十分期待奖励出现的行为，这意味着它从众多的箱包中辨别出正确的目标，只不过它还不理解训导员并不想要这个不良的行为出现。我们应当允许犬在学习过程中犯错，忽略犬不良的行为，通过奖励来强化它好的行为，一次又一次强化犬好的行为，犬好的行为出现的次数会越来越多，而且犬自己在训练过程中习得的行为会比人为纠正出来的行为更为牢固，不好的行为就会渐渐消退。否则犬在学习过程中，会联想到大量的负面记忆，特别对于一些胆量不大的犬来说负面记忆尤为深刻，比如犬每次一听到坐口令，先联想到会被鞭打一下屁股的惩罚，犬每次嗅闻正确目标后先联想到会被按压犬体的惩罚，为了逃避这个惩罚才做出相应的行为。犬在许多次训练当中感觉到压抑的话，累积起许多的“负能量”，到那时候训导员想把犬的积极性调整回来就相当困难。我们希望犬是积极主动地做出我们心目当中的标准行为，特别是与气味相关的训练，训导员并不能代替犬去嗅闻，我们并不知道犬嗅闻正确目标时候是对该目标什么气味做出反应，假如是一包信封纸包着的冰毒实物或TNT实物，犬若只是刚识别出来信封纸气味就被按压下去做出坐下、卧下的行为后得到奖励，那么我们就在强化犬嗅闻到信封纸气味而不是冰毒、TNT目标气味就坐下、卧下的行为了。甚至出现原本训导员是希望犬通过嗅觉搜索出正确目标物的训练变质成一种服从训练，犬只不过对着一排箱包转悠随便假装嗅闻几下找个箱包坐下、卧下“骗取”奖励，这也是笔者之前过多运用惩罚手法训练犬搜毒、搜爆，受训了相当长一段时间犬依旧会出现错示警的原因之一。

笔者在近几年学习国内外先进的警犬技术经验当中发现，随着全世界各国警犬技术的发展，以纠正为主导地位的训练技术正逐步被摒弃，许多国内外警犬单位开始转而采用正向强化方法，取得良好的训练成效。笔者也在现实的工作与训练中深刻感受到，新的训练理念与技术无论给训导员还是犬都带来一种全新的体验！