击键动力学在欺骗研究中的进展
2022-03-23南田玉
南田玉
新疆科技学院,新疆维吾尔自治区 库尔勒 841000
欺骗是指个体对自己的真实情况故意使用言语或非言语信息,让他人产生某种错误信念的行为[1]。欺骗的产生是一个复杂的心理过程,认知在其中起着重要的作用。说谎就是欺骗的一种形式,是个体通过言语或者文字对自己或他人的信念进行有意操作的行为[2]。说谎在认知上比说实话更复杂,这种复杂性反映为个体在执行任务时的行为改变上,那么就有可能通过记录行为变化来推断正在执行任务的个体是否在说谎。随着科学技术的发展,测谎结论也不断地应用于各种案、事件,以及甄别嫌疑人和案、事件关系中,然而到目前为止,我国还没有明确将测谎结论纳入法庭证据中,究其原因,和测谎工作的科学性和准确性有关,如测谎设立指标是否科学、规范,能否正确、客观地反映被试欺骗行为的真实情况。传统的测谎技术大多依赖个体的生理指标,如皮肤电、心率、呼吸、眼动和神经信号功能等指标的变化,容易受个体身体条件、反测试以及外部环境等各方面的影响,造成测谎结论为假阳性或假阴性的情况[3]。
击键动力学描述了人类打字节奏中的详细计时信息,精确记录了一个人在电脑键盘、手机或触摸屏上打字时按下和释放每一个键的时间[4]。击键模式分析可以被认为是一种隐含的行为测量,因为用户在与设备交互时并没有意识到测谎的存在[5]。此外,击键特征是每个个体的独特特征[6-7],这将有助于增强测谎结论的客观性和准确性。因此,击键动力学在既往研究中通常使用生物测量指标来进行安全审查,如用户认证[8-9]和用户识别[10-11]。值得一提的是,TEH 等[4]强调,人们对击键动力学研究的兴趣呈指数级增长。还有研究[12]表明,通过被试的击键特征可以分析用户的情绪状态。这些击键动力学和心理学的研究为击键特征应用于欺骗行为的发现提供了理论依据,也为研究击键动力学对欺骗行为的影响奠定了基础。
本文梳理了击键动力学的特征,归纳总结了击键动力学在欺骗行为中的应用情况,并提出了击键动力学在欺骗行为应用中的研究发展方向,以期为研究更多的欺骗行为指标提供参考。
1 概述
1.1 简介
20 世纪80 年代初期,美国的研究组织首先发现了个体的击键特征能够被捕捉并且可以准确地被识别[13]。击键动力学的研究是通过监测计算机用户的键盘输入,并对用户的击键数据进行采集,最后对用户的击键特征进行分类建模,由此对用户进行分析判别[14]。
GRIMES 等[15]提出用击键动力学欺骗检测模型来解释欺骗行为和击键动力学之间的关系。通过这个模型,发现谎言的产生会增加情感唤起和认知负荷,这些会影响精细运动,从而影响个人的击键动力学基线。
1.2 测量指标
每个人敲击键盘均有其个性化特征,通过特殊软件测量、收集被试击键过程中的特定指标,即可反映被试的击键特征。测试中要求被试通过敲击键盘将文字输入指定的编辑框中,敲击“回车键”表示一个测试项目完成。软件收集的击键特征性测量指标包括:所犯错误的总数,电脑屏幕上句子开始到第一个按键被按下之间的时间间隔,刺激开始到按键的总时间,按下第一个键与按下回车键之间的时间,最后一个按键与按下回车键之间的时间,按键反应的字符数,平均打字速度,每次按键的时间戳(停顿时间),每个密钥释放的时间戳(启动时间),每个键上下键移动的时间间隔(按下时间),每个上升键与下一个下降键之间的交错时间(飞行时间),上下两键和连续三键的时间之和,特殊字符(移位、删除、取消、空格和箭头键)的使用频率等[16]。根据被试的击键特征建立相应的模型,再根据模型分类对被试进行检测和识别。JOYCE等[17]最早使用击键平均时间来进行用户的身份识别。根据这一击键特征可以快速识别用户身份。KACHOLIA等[18]采用按下和释放击键特征构建了持续键盘事件下的模型,使用该模型显著提升了身份识别率。
2 击键动力学在欺骗行为研究中的应用
2.1 网络交互信息真伪识别
如何区别网络信息的真伪已成为急需解决的问题。2012 年,Facebook 统计出了约400 万个虚假的账户,数量相当于Facebook 个人资料总数的4%[19]。针对这种情况,有研究者使用语言学方法[20]或仅考虑一些简单的特征进行语言真伪辨识[21],但识别能力有限。MIHALCEA 等[20]使用基于心理语言学分析的自动分类器对被试的陈述进行分类,准确率达70%。OTT 等[22]使用5 倍交叉验证酒店评论数据集进行虚假评论和真实评论区分,准确率达90%。2013 年,MUKHERJEE 等[23]将OTT 等[22]获得的虚假评论与Yelp归类为虚假的评论进行对比,结果显示,使用语言特征进行虚假评论检测在现实环境中并不是那么有效,而在实验环境中生成的虚假评论可能无法代表现实生活中的虚假评论。上述研究表明,在识别网络信息中的欺骗行为时,如果单纯靠语言学或文本信息进行分析过于单一。研究表明,如果纳入被试的击键特征,网络交互信息真伪识别的准确性将更高。ZHOU[24]的研究结果表明,将被试的按键反应时间、按键时间、撤回或纠正信息的频率等击键特征和文本的语句复杂性、内容的词汇量以及多样性等相结合,能够显著区分被试聊天内容的真伪。DERRICK 等[21]研究了被试击键的反应时间、编辑次数(基本的键击,如退格和删除)、字数和词汇多样性,结果显示,欺骗与反应时间和编辑次数呈正相关,与字数呈负相关,支持认知负荷理论,可以有效区分说谎者和说真话者。因此,在进行网络交互信息真伪识别时,将个体的反应时间、编辑次数、删除频率等击键特征与文本信息相结合将有助于提高识别准确率。
2.2 网络个体身份识别
随着手机、电脑和平板电脑等电子设备的普及,也产生了很多问题,如过多依赖网络,可能产生网络成瘾综合征;过长时间使用电子设备,造成视力下降;浏览不健康的网页损害身心健康等。其中还有些网络犯罪现象,如伪造个人资料,网络欺凌或者网上暴力,滥用在线评论攻击商业竞争对手,传播虚假新闻,网络诈骗和黑客攻击网上银行系统等。据统计[25],在网恋的青少年中,近一半人的身份属于伪造,而且在这些人中很多都是未成年人。因此,建立能够识别电子设备安全操作的系统很有必要[26]。
身份验证是验证系统用户身份的过程,电子设备(手机、电脑、平板等)中的认证通常基于密码、手势模式、指纹扫描或面部识别等来实现。但是,由于这些方法仍存在被假冒或被破译的风险,故有必要寻找更具特征性的方法或指标实现更准确的网络个体身份识别。
MONARO 等[27]通过收集被试的击键特征,发现说谎者比说真话者更容易犯错,在识别被试说谎或说真话的训练和测试中平均准确率为93.75%。在个体身份识别过程中使用认知负荷问题会干扰个体击键特征,被试在回答审核问题时,说谎者的击键特征相应也会发生变化,从而反映其欺骗行为。有研究[28]设计了基于击键动力学的身份认证系统,该系统在实际应用中可以对用户身份进行较为准确的识别。龙永明[14]构建了一套基于用户击键行为的可持续性身份识别系统,该系统将客户端和服务器端的功能进行了区分,其中,客户端负责收集数据和提取特征,服务器端主要负责训练样本、样本匹配和监控客户端的操作,该系统使用击键特征对用户的行为进行实时监控和管理,更有效和便捷。
击键动力学除了可以运用于网络安全维护、防止网络犯罪、进行身份识别以外,还可用于大规模的线上招聘筛查或者安全审查等方面,但未来还需要进一步证实。
3 总结与展望
传统谎言检测的方法都是建立在说谎和延迟反应测量的基础上,而被试则是在回答有关被审查事件的问题。然而,这些方法在应用上存在一些限制:(1)测试之前主测人员必须知道某些关键信息(如案件的细节问题);(2)被试不被允许秘密地进行欺骗检测,因为被试总是能意识到自己正在接受审查,而且大多都是基于生理指标(呼吸、皮肤电、脉搏等)的测验,被试很容易训练自己并实施反测试隐藏自己;(3)传统测谎技术需要使用测谎仪等仪器,相对来说,测谎成本昂贵,并且对测试者(实施测试的人员)要求较高;(4)传统测谎技术都有复杂的指令,需要有一个真正的替代选项,这使得其不适合大规模应用(如网络语言真伪识别)。
与传统测谎技术相比,击键动力学具有很大的优势:首先,其不需要真正的记忆进行对照探测(如必须清楚地记得案、事件发生的过程),只需要收集击键特征即可,因此,适用于大规模应用(如线上筛查)。其次,击键动力学本质上是基于认知策略,能够增加撒谎者的认知负荷,运用被试的反应时间结合鼠标或击键特征的测谎方式,将会大大提高谎言识别的能力。从认知的角度来看,意外的问题可以用来揭露欺骗行为,说谎者很难发现并快速无误地回答意想不到的问题,他们的所有反应将会被击键特征捕捉到。在谎言识别过程中运用击键特征更标准化。相比于传统测谎技术更多依赖个体生理指标(如皮肤电、心率、呼吸、眼动和神经信号功能等)的变化和假阳性较高[29]的情况,击键动力学更客观和标准化,为测谎提供了新思路,并为测谎结论在司法鉴定中的应用提供了证据支持[30]。
击键特征拥有大量的指标,被试很难进行反测谎对抗。击键特征可以从主题上隐藏谎言检测。研究[13]表明,击键动力学有望得到更广泛的应用和研究,如针对自传体记忆的欺骗检测。但遗憾的是,击键动力学仍在初始研究阶段,其适用性还依赖于校准和模型的开发,希望未来有进一步的发展。
近年来,有研究将机器学习算法引入测谎模型的构建中,这非常有利于对欺骗行为的识别。芦效峰等[31]利用击键特征结合模型,使用公开数据集进行实验,获得最优拒真率为1.95%,容假率为4.12%,相等错误率为3.04%。钟意[32]提出了一种在上下文变化时基于用户交互信息的持续身份认证方法,根据用户在不同时间、不同地点与计算机的交互行为,自适应地为用户提供不同层次的安全保障。基于机器学习算法的数据分析方法可以同时考虑多个变量,从而更准确地检测出说谎者的反应模式。这一优势来自经典测谎范式与计算机科学技术的集成,为测谎研究和测谎工具的实际应用提供了一种方法。机器学习分类器可以捕捉到简单线性模型无法捕捉到的数据中的复杂关系,可以将例子分类为属于两个或两个以上类别中的一个(如说谎者或说真话者)。然而,将机器学习算法应用于测谎数据和一般的行为数据,可能会导致测谎方法无法兼容使用的情况。机器学习需要大量的实例,这一要求在传统的测谎研究中并不适用,在现实生活中使用的传统测谎方法,如认知综合测试法、隐藏信息测试法、准绳测试法等,都是基于探测个体对案、事件的回忆进行谎言识别,因此很难收集到大量的实际案例数据。未来的发展方向还应包括将机器学习算法集成到测谎工具和在线测谎系统等应用中,开发出适用于各种类型的欺骗行为检测系统。