基于条件反射原理浅析响片在警犬训练中的应用
2023-11-30许普之彭梦华魏荣兴
许普之 彭梦华 魏荣兴
一、警犬训练中的条件反射
现阶段,警犬训练的开展通常基于经典条件反射原理和操作性条件反射原理。在经典条件反射理论中最著名的例子就是巴普洛夫的犬“摇铃实验”(见图1),其逻辑为:将可以引起犬唾液分泌(非条件反应,UR)的食物(非条件刺激,US)与原本是中性刺激(NS)的铃声在时间上反复结合出现,最终铃声和唾液分泌(非条件反应,UR)之间就建立了一种新的联系即条件反应(CR),原本为中性刺激的铃声变成了条件刺激(CS)。当条件反射建立以后,在后续过程中若多次只出现条件刺激而后续未出现非条件刺激用以强化,结果往往会使条件反射的反应强度逐渐减弱,也就是我们常说的条件反射的消退,直至完全不出现。
图1 “摇铃试验”——经典条件反射的建立过程
操作性条件反射是一种动物的学习方式,旨在动物的任意行为反应和直接后果之间形成关联。“斯金纳箱”实验最能阐明操作性条件反射原理,其逻辑关系是:动物被放在某种我们设计的特定的场景中,在本能驱使下产生自发行为(按压杠杆),而这种自发行为将自动获得或者被人为施与奖励(食物),使这种自发行为反复得到强化,这样,当某种特定的场景再次出现时,动物就会做出不断得到强化的行为反应,条件反射就此建立。在此基础上,我们将动物的这种学习行为进一步延伸,在其中加入某种信号,使动物根据人为发出的信号执行某种行为。“斯金纳箱”实验发现,当动物获得食物后,按压杠杆的次数将大大增加,动物的学习行为会伴随着一种刺激而促进其发生,这种刺激会起到强化作用,此时食物则是一种强化物。动物的学习行为是随着一个起强化作用的刺激而发生的,当动物获得食物以后,按压杠杆的次数大大增加,食物就是压杆行为的强化物。所谓强化物不一定是实物,也可以是训导员的抚摸行为、赞赏的表情以及语气等。
二、警犬训练中使用响片的原理
响片是世界上广受欢迎的动物训练工具之一,由于其在训练中有着诸多优势,近些年引入我国并迅速得到广泛采纳和应用。在训练过程中,当受训动物所需行为出现时,按下响片,随后尽快给予奖励(作为主要强化物),重复几次后,响片声音可与奖励相关联,并成为条件刺激(CS)和辅助强化(SR)。截至目前国际上至少已经提出了三种机制来解释响片训练法的工作原理,分别是强化假说(RH)、标记假说(MH)和桥接假说(BH)。强化假说提出响片的声音(SR)本身就是一种“奖励”,因此能够增加所需行为发生的可能性。关于标记假说,有人认为响片的声音充当标记信号,帮助动物区分与主要强化物相关的特定行为。最后,桥接假说则认为响片的声音可以填补所需行为和主要强化物到达之间的时间,起到桥接的作用。根据笔者以及同行以往的训练经验,响片与具有内在价值的主要强化物(一级强化物,例如食物)不同,响片的声音在开始时是一种中性刺激,在与主要强化物反复配对出现后获得特定的强化性质即二级强化物,也就是说响片在警犬训练中的最终阶段倾向于强化假说的概念。
三、对警犬训练中使用响片的理解
在警犬训练中,响片的使用同样是基于经典条件反射理论和操作性条件反射理论。无论是服从科目还是使用科目的训练,首先要将响片的声音与奖励(球或食物)建立联系——也就是常说的为响片赋能,响片可以和任意正向的强化物进行结合,这里是基于经典条件反射理论建立起来的,响片的声音从中性刺激变为条件刺激。在此基础上,在训练中当犬出现某种特定的动作(特定动作既可以是服从科目中的“坐”“卧”“立”等,也可以是使用科目中的对特定气味的示警动作等)时,按下响片同时给予奖励,这里是基于操作性条件反射理论建立起来的,在此过程中,响片的声音从条件刺激转变为条件强化物。最后,通过训练中的不断强化,警犬出现某一特定行为的次数逐渐增加,在警犬做出特定动作的同时引入口令,然后待警犬完成动作时按压响片并给予奖励,直至训导员发出口令,警犬做出特定动作,然后按压响片给予奖励完成整个过程,即建立高级条件反射。在这个过程中,既有基于经典条件反射的犬依照口令执行特定动作,又有基于操作性条件反射的学习与强化(见图2)。
图2 使用响片训练过程简图
在训练警犬的过程中,经典条件反射主要控制和决定的是信号出现后警犬的行为,而不是由此行为导致的结果。而操作性条件反射则是在意和控制警犬某种行为出现后带来的结果,从而起到反馈的作用,用以影响后续这个行为的发生频率。值得注意的是,经典条件反射建立成功后,条件刺激出现引起警犬的条件反应,在这个反应出现后导致的结果又决定了这个行为未来出现的频率,也就是行为的未来走向趋势被操作性条件反射控制着,而结果却被经典条件反射制约着。例如在警犬训练中:训导员下达口令、警犬做出相应动作、训导员按压响片给予奖食。口令出现后警犬立刻就会出现相应动作是多次匹配后经典条件反射起了作用导致的,但而后信号一出现就继续稳定重复出现的行为又一直被后续可以获得的奖励所正强化,则是操作性条件反射在发挥作用。
在警犬搜索训练中,通常会使用到鉴别罐。警犬起初是无意识地将鼻子扎进装有目标气味的鉴别罐,训导员立即按压响片并给予奖励,结果导致犬主动扎进带有特定气味鉴别罐的这一行为被正强化,因此在此训练中这个行为出现的频率就会增加,此时犬鼻子扎进鉴别罐的行为被操作性条件反射正强化。在这个过程中,房间中鉴别罐的出现就已经是“扎罐”这个行为出现的信号,这根源上则是由于经典条件反射建立且操控的。同时,由于犬鼻子扎进特定气味的鉴别罐就可以得到响片及食物奖励的结果,导致警犬进入到训练房间后就会很开心快乐地去搜索并扎鉴别罐,甚至是只要能够进入训练房间,哪怕是未放置鉴别罐也会很开心和自信,证明经典条件反射已建立起来并发生作用。同样的,在这个训练过程中,如果犬一直不能选择到正确的鉴别罐,也就得不到奖励,那么这个经典条件反射就会慢慢消退,直至消失。
四、警犬训练中使用响片的优势
一是使用响片保证了奖励的一致性,其发出的声音是固定的,不受训导员情绪及状态的影响。人类有着丰富的情感,受各种客观因素的影响,无法百分百地保持积极、冷静、坚决的状态。训导员的情绪也会有不同的变化,如愉快、激动、愤怒、心不在焉,这些情绪影响着训练时的状态以及口令的语气。受训的警犬是完全可以感受到训导员的这些细微的变化,从而使它们接收到的信息和训导员实际发出的不一样。当训导员处于一种低落、挫败、忧郁等消极状态时,警犬很难在训练中保持积极响应。而响片发声永远是固定的,固定的音调、响度,这对训练奖励的一致性提供了极大的保障,避免了训导员对警犬行为强化的性质和标准不一致。
二是响片的声音作为条件强化物本身具有一定的强化作用,可以对所需犬的行为进行正向强化。在警犬训练中,一个动作行为实际是拆分开的,甚至有的一整套行为训练更是需要细分环节,一点点来教,一步步来实现,一个动作一个动作地予以认可,一次次地进行奖励。而响片的声音,能够很好地强化了这些环节,并对这些环节进行奖励,使得不需要在单次训练中进行太多次数的食物或者物品的奖励,从而可以少一些训练间断。这样缩短了训练时间,也使得必需的奖励得以延迟,而且有利于食物等奖励从整个训练过程中淡出。
三是响片的声音保证了奖励的及时性。斯金纳认为如果受训动物的行为反应和强化物的出现存在相当大的时间间隔,那么该行为反应出现的概率就会逐渐降低。响片的应用则在相当大程度上避免了此类问题,响片的声音作为辅助强化物,可以在警犬做出特定动作后迅速出现,从而缩短反应和强化物出现之间的间隔,保证强化的及时性。