APP下载

Bayes推理在人员评估多道仪测试结果中的应用

2019-09-11陈云林孙力斌李英男

中国刑警学院学报 2019年4期
关键词:价值评估测试

陈云林 孙力斌 郑 晶 李英男

(1 证据科学教育部重点实验室(中国政法大学) 北京 100088;2 浙江迪安鉴定科学研究院 浙江 杭州 310007;3 天津迪安司法鉴定中心 天津 300381)

1 引言

多道仪测试(Polygraph)结果分析中引入Bayes推理(Bayesian Inference)已有很长历史[1],而且鉴于多道仪的“测谎”效能,不少心理学教材在谈及“推理”部分时,习惯于将Bayes定理用于对测谎结果的解读上,可见多道仪测试和Bayes推理具有的深厚渊源[2-3]。但纵观教科书的解读也好、实践应用也好,似乎总是停留在就数字解数字层面,当真正需要多道仪测试结果的运用时,有意识的Bayes推理却似乎消失了,更多的是一些不知所云的怀疑和莫名其妙的质问[4]。

Bayes推理成功走上法庭,要特别得益于DNA技术的出现。由此,Bayes推理过程才开始不让人感到怪异,因为DNA这样的“铁证”都需要Bayes定理才能合理解释,遑论其他。正是受DNA技术的直接启发,笔者开始把多道仪测试的结果采用Bayes推理组织成符合法庭证据要求的形式,进而实现了国内首例多道仪测试结果刑事审判的证据采信,由此彻底开创了多道仪测试(又被称为“心理测试”)结果的法庭证据化道路[5]。如果说,多道仪测试结果的刑事审判证据化是Bayes推理的“事实评估”结果应用的话,那么,多道仪测试在对人员日常评估时的应用就是“价值评估”结果。在事实评估与价值评估的关系当中,Bayes推理无疑扮演着核心角色。而能够将事实评估转化为价值评估,亦是多道仪测试功能发生根本性改变的基础,否则,多道仪也仅仅只能成为一个“工具”而已[6]。

长久以来,多道仪或多或少承担着某些部门机构的人员评估职责。特别是在美国,第二次世界大战以后,美国国防部、能源部等机构开始了大规模的多道仪测试人员评估[4]。但是由于缺乏有力的理论逻辑体系支撑,这些评估活动始终饱受争议,导致形成了使用者明知其效,却又不知为何有效,而指责者自认有理,却又不知为何有理的诡异状态。若从哲学层面考量,这是人们坠入“事实—价值”“二分”困局的必然结果。由于在犯罪调查的多道仪测试中,人们更多关注测试结果的“事实”属性,无所谓“二分”,因此争执不多;而当多道仪测试涉足人员评估时,就出现了事实与价值的龃龉,由此导致形成了“二分”困局。倘若任由事实与价值“二分”的存在,而不能实现“事实”向“价值”的跨越,那么上述之诡异局面必将仍然持续。

幸有陈晓平在《贝叶斯方法与科学合理性》对Bayes推理的深刻解读[7],阐释了它不仅仅是一个数学公式,而是将其深入理解为一种认识方法,甚至是世界观,这为实现“事实”向“价值”的跨越提供了可行途径。基于此,本研究探讨和总结了如何利用Bayes推理对多道仪测试实验数据进行相应的处理,进而完成了人员评估实践中“事实”向“价值”的跨越,实现了价值评估的过程。

2 评估设备与评估对象

2.1 评估设备

2.1.1 多道仪

多道仪型号:TH-U(北京同方神火联合科技发展有限公司),主要由主机、传感器、计算机和测试软件组成。传感器组成:测量皮肤电反应的皮电传感器;测量脉率的指脉传感器;测量血压反应的血压传感器;测量呼吸反应的胸呼传感器、腹呼传感器;监测动作的动作传感器。

2.1.2 挂壁式温湿度计

挂壁式温湿度计型号:得力(deli)9013(浙江宁波得力有限电子公司)。

2.2 评估对象

2.2.1 受试群体一

某部官兵33名作为被测人自愿接受评估测试。其中,女性1名,年龄31岁;男性32名,平均年龄35.6岁。

所有被测人评估测试前生理状态正常、身体状况良好、无精神疾病或其他不适宜评估测试的疾病。

2.2.2 受试群体二

某机关单位职员27名作为被测人自愿接受评估测试,其中,女性1名,年龄25岁;男性26名,平均年龄32.6岁。

所有被测人评估测试前生理状态正常、身体状况良好、无精神疾病或其他不适宜评估测试的疾病。

3 方法与过程

3.1 方法

3.1.1 评估测试结构

采用系统(调查)测试(Systemic Polygraph Examination for Investigation,SPEI)[8]操作方法实施测试,评估测试结构围绕SPEI主题进行构建,由基本测试和精细测试两部分组成。

3.1.2 数据处理

用“七分制”对多道仪图谱数据进行赋值而得到原始得分(x),再通过赋权处理对各生理指标(皮肤电、呼吸、心电)和测试遍数赋予相应权重,以此将原始得分转换为加权得分(λ),并根据SPEI算式将其转换为相应的条件概率(图谱概率)P(-/L)和P(-/T)。根据Bayes定理有:

多道仪测试数据分析,主要是利用Bayes定理将图谱概率P(-/L)和P(-/T)转化为P(L/-)和P(T/-)的过程,即将被测人“欺骗”(L)时“阳性”(-)的可能性转化为被测人“阳性”(-)时的“欺骗”(L)的可能性,以及将其“诚实”(T)时“阳性”(-)的可能性转化为其“阳性”(-)时“诚实”(T)的可能性(依照多道仪测试的习惯将“阳性”标注为(-)号)。

对于同一名被测人的同一个问题,测试后与测试前的概率变化可通过Bayes因子来体现,这种方式能够较彻底地规避掉“先验概率”的直接影响[9]。

Bayes因子中的P(-/L)被称为灵敏度,P(-/T)被称为假阳性,通过这两个参数的变化,可以直接刻画出技术方法在已知样本中的检出效果。

3.2 过程

3.2.1 题目编制

依照国家的法律法规,如《国家公务员法》《中国共产党廉洁自律准则》《中国共产党纪律处分条例》《中国共产党党内监督条例》等,结合各部门的纪律规定和岗位职责要求,对参评群体进行评估测试,评估结果作为政治考核的一个参考依据予以通报。

测试题目包括无关问题、中性问题、准绳问题和相关问题等,部分题目内容如表1所示。题目以组别为单元模块,每个测试单元模块只包含一个评估主题。

3.2.2 语境营造

(1)测前谈话。正式开始评估测试前,主试人员介绍自己的身份和资质,说明评估需求、技术方法原理及注意事项等,并收集被测人个人信息材料,时间为30分钟。

表1 人员评估测试相关问题示例

在测前谈话的过程中,主试向被测人详细解释每个相关问题的关键部分并确认其正确理解,以保证模块测试的有效性。例如,关于“你妄议过党和国家的民族政策吗?”这个问题,针对的关键点是不按照法定程序和渠道妄加议论和批评,即“当面不说,背后乱说”,而不是出于破坏民族团结的动机、目的(即便对党和国家的民族政策有不同的意见,甚至有激烈的批评,只要通过法定程序和渠道向党的上级组织反映,就不属于妄议行为)。

主试与被测人探讨测试题目内容,根据被测人的理解和领会能力对测试题目内容进行调整。

(2)签署《自愿评估测试书》。《自愿评估测试书》包含被测人基本情况、接受评估测试的原因、对评估测试的了解、对评估测试结果发布范围的认可、被测人本人的确认签字等。

3.2.3 评估环境

评估测试需要在一个整洁、安静、光线、温湿度适宜、通风良好的相对封闭空间内进行。

3.2.4 数据采集

数据采集前主试需要对多道仪进行灵敏度检查和校验。主试为被测人按照一定的顺序佩戴传感器。待佩戴完成、确保信号传输稳定正常后,开始进行适应性测试(刺激测试),主要监测被测人的基本生理反应状况。

通过适应性测试的被测人可进行正式数据采集。采集过程中,主试向被测人呈现的言语刺激要清晰、准确,保证被测人听清听懂,与此同时用多道仪采集记录被测人的呼吸、皮电、指脉等生理指标变化。“刺激—反应”数据重复采集3次,每次采集结束都要对数据进行检查,确保完整性和有效性。每个被测人施测时长约为1小时。

数据采集完成后,摘除传感器,由被测人查看测试记录并签署在测试中未受到权利侵害的相关书面材料。待被测人离开后,主试开始数据图谱分析。

4 结果与讨论

4.1 结果

4.1.1 得分

采用“七分制”标准打分,即比较每个通道的生理反应相对强度,根据反应强度的大小分别在-3~+3分之间赋值,当相关问题反应强度大于相邻的准绳问题强度时赋负值,与之相反时赋正值。根据SPEI算法,形成评估测试数据表,如表2所示。

条件允许时,即可以得到图谱反应的精细变化值时,可以采用计算相关系数(Rr)来确定分值:

其中,Ir和Ic分别代表相关问题和准绳问题的反应强度。

4.1.2 分布

可信度评估指数(Credibility Assessment Index,CAI)也称为“品性评估指数”,可以用来评估个体之品性对其岗(职)位的影响程度,其定义为:

其中,L联合是根据Bayes定理和Bayes分类器原理[10-11]获得的联合似然比(Likelihood Rate),其表示的是如果某次多道仪测试评估包括了k个(1:1)赋分点和m个(1:n)赋分点,那么本次评估测试的联合似然比即为:

其中,L0=1。显然,当CAI=1时,没有品性证明力;CAI〉1时,具有正向品性证明力;CAI〈1时,具有反向品性证明力。且CAI与1的距离越大,证明力越强。在本研究中,由于每个被测人被测时相关问题个数不同,即k和m对每个人并不一致,所以需要对每一个相关问题反应进行比较。

表2 多道仪图谱数据分析结果示例

根据相关问题个数和CAI值,将CAI数据取相关问题个数的几何平均数X后,经频次分析可得到X的分布图。

图1 人员评估单题CAI分布密度函数图

将该分布进行曲线拟合可得一正态分布:

X~N(1.12,0.162)

其分布函数为:

4.2 讨论

4.2.1 Bayes推理的适用性

岗位人员评估具有以下特殊性:①岗位人员评估样本不够充分大,即不可能将单一岗位的需求拓展到所有人群,因此不适宜采用大样本统计理论;②评估具有延续性。依据评估前已掌握的被测人信息,加上评估技术的基础数据,保证了受试群体概率分布的沿承性和一致性;③决策分类的受试群体类别是确定的;④受试群体的先验概率分布是已知的。综上,Bayes推理可成功用于人员评估的多道仪测试当中。

4.2.2 事实与价值

事实评估是指个体言语表述内容与其外显行为(已发生事实)属性的一致程度。例如,在犯罪调查中,对盗窃行为的确认(非法、秘密、不属于自己等)是为事实评估。

价值评估是指个体言语表述与其内心价值判断属性的一致程度。在犯罪调查中,“盗窃罪”罪名的成立则是价值评估的结果,它是通过盗窃行为的后果和性质(如财务损失等)价值意义而确定的。而在人员评估中,价值评估体现为推断个体是否能够胜任或达到职业能力要求。

就犯罪学意义来说,事实与价值或可对应于犯罪的行为与动机。对于理智者的外显行为来说,其总是与某个(些)动机相关联的,也就是说,其事实与价值是统一的,同时也是不可分的,即动机与行为具有一致性和连贯性。但由于法律的介入,其惩处依据又只能以外显的行为为基础,而同样的行为其背后(内隐)的动机往往是不相同的,因而现代法律的执行总是力图在行为的基础上查明动机,进而实现罪罚相宜的立法目的。然而由于动机的内隐性特点,使得其只能以动机主体内省(自述)的方式予以呈现。内省依赖于语言,因而动机的评估便成为语言的评估。

多道仪俗称“测谎仪”,这恰好从“别称”角度说明了它的语言评估功能。但是由于对语言评估一直缺少可操作模式(范式),所以才会出现本文开篇所述的“使用者明知其效,却又不知为何有效,指责者自认有理,却又不知为何有理的诡异状态。”

既然涉及价值评估,明确评估对象的价值体系才是基本。本研究采用“你说……”的方式,首先明确其价值标准,随后立即用导语:“是假话吗?”等引导(或迫使)其采用否定方式回答,意欲通过语境控制营造出张力氛围。显然,当评估对象所言(自述)与其所想(动机)具有一致性和连贯性时,此时的张力是无效的,也就是说,其心理生理反应是正常的,否则,就会出现异常心理生理反应。数据表明,这种问话方式是有效的,这也再次证明SPEI在问题设置时强调控制被测人(评估对象)否定回答的重要性。

本研究中,事实评估与价值评估的区分是题目设置,倘若事实评估之分布与价值评估分布能够相容,那么由Bayes定理确立的事实与价值之间的“函数”关系即可确立。尽管本研究的对象只有60例,但是涉及的评估题目却有400多对(相关/准绳),因而能够出现明显的正态分布效果。

在Bayes统计推断中,不确定数量的先验概率分布,是在考虑一些因素之前表达对这一数量的置信程度的概率分布,再根据随后观察到的事实进行动态调整,随着调整次数的增加,结果将会越来越精确[12]。与此同时,相信随着研究数据的增加,这个分布也将会越来越完美。

4.2.3 结果分布

(1)基本分布。人员评估是一种价值评估,评估的是个体与岗(职)位的适配度,与事实评估所不同的是,其关键不在于“存在与否”,而在于“适合与否”。因此,让被测人准确明白相关问题的意义和价值是重要的,即强调营造语境和准绳问题设置的重要性和必要性。在本研究中,问题类型一是倡导性问题,问题类型二是禁止性问题。禁止性问题用于事实评估,例如“你组织过民族分裂活动吗”这类问题是法律明令禁止的行为;而倡导性问题则用于价值评估,例如“你说‘你能够遵守单位规定’,这是骗人的吗”,答“否”虽不违法,但却可以衡量出个人的品性,体现其价值倾向性。两类问题的结合,实现了从事实评估到价值评估的转换。

SPEI的准绳与相关问题可以互为“信号”与“噪音”。对无辜的被测人来说,准绳问题刺激为“信号”,而相关问题刺激为“噪音”;而对有罪被测人来说恰好相反,因而需要提取“两个分布”,即罪犯被测人的“不通过”域分布和无辜被测人的“通过”域分布。在人员评估的测试中,其目的是遴选合格者,要求相关问题刺激不为“信号”即可,所以只需提取“一个分布”,即“诚实”被测人的“通过”域分布。本研究提取的分布用函数式为:

通过相关系数定义可简记为:

该分布是一个基本参照,具体表现在:①可以准确评价测试的整体准确度;②为图谱评析提供基础依据,为制定打分标准提供数据支持,使得打分更严谨准确;③为技术改进指出方向,准确发现技术的局限与优势所在,有针对性地改进并提高技术水平。

(2)阈值变化。根据Bayes分类器原理,当CAI=1时,没有证明力;CAI〉1时,具有正向品性证明力;CAI〈1时,具有反向品性证明力。且CAI与1的距离越大,证明力越强。本次研究中由于受试群体不同,评估题目内容和数量也不相同,为比较方便,采用单个相关问题几何平均评估的方式。其均值为1.12,明显大于1。再考虑到受试群体均为首次接受这种评估,紧张与顾虑等因素会对数据产生影响。但是由于受试群体均为单位的中层骨干,具有较高的政治性、忠诚度,因此,CAI单题均值整体右移(均值大于1)为预料之中的结果。

4.2.4 不足与建议

本研究分析完全属于首创,即便在Bayes推理语境中也属于先验概率需要不断修正的一个开端。另外,研究群体选择比较单一狭窄,如果条件允许时将针对不同职业群体进行分类评估研究,研究结果将更具实用性。

5 结论

通过对两类岗(职)位要求不同的群体研究发现:

(1)Bayes推理能够适用于人员评估中的多道仪测试及测试数据分析过程;

(2)两类群体多道仪测试的单题CAI人员分布函数表达式:可作为人员评估的基本参照;

(3)CAI的阈值标准根据评估群体不同会有所漂移。

本研究获得的分布可视为Bayes推理的后验概率(分布),亦可成为后续研究的先验概率(分布),故本研究将成为继续研究的新开端。

猜你喜欢

价值评估测试
第四代评估理论对我国学科评估的启示
幽默大测试
“摄问”测试
“摄问”测试
“摄问”测试
一粒米的价值
“给”的价值
双信封制和综合评估制各有千秋
立法后评估:且行且尽善
资产评估法:能否终结“多龙治水”