出声思考技术在图情领域中的应用*
2022-05-08孙玉伟巩礼男
孙玉伟 巩礼男 苏 军
(山东师范大学图书馆,山东济南 250014)
1 引言
出声思考技术(Think Aloud,以下简称TA)也称为协议分析(Protocol Analysis)、口语报告法(Verbal Protocol)等,最早源于上世纪80年代的认知心理学研究,是由古老的内省(Introspection)方法发展演变而来[1]。是指在研究对象解决问题的过程中,大声将其正在进行的行为和思考过程用口头语言表述出来,同时用录音机和视频录下全部口述和操作,并转录整理成文字材料,对口语记录进行分析的方法。TA在研究中有助于理解行动或行为背后的思想,是一种模型化认知过程的方法[2],目前已经在广泛应用在心理学[3]、教育学[4]、语言翻译[5]以及临床医学决策[6]等领域。
上世纪90年代,TA开始在图情领域得到应用,在图情领域的重要期刊论文(如IP&M、L&ISR、JASIST期刊)以及博士论文[7]中均有应用。比如在信息行为相关研究中,要找到合适的方式来了解用户的潜在思想和认知过程是非常必要的[8],TA满足了研究人员这一需求,不仅可以用于情感和认知过程的探索,也可以用于基于知识的系统构建[9],这也是图情领域认知范式和建构主义范式应用的具体表现。TA的优势在于①信息容易收集;②使探索人们在任务表现中所经历的反应、情感和问题成为可能;③TA协议数据可以在给定时间内让我们观察到认知过程的序列步骤,而不是获得一个过程重点的整体描述。
LISA数据库显示,图情领域TA相关文献共1700多篇,2000年以来的文献占了1500多篇,近10年来处于持续增长的态势。经过30多年发展应用,仍是现阶段图情领域比较重要的数据收集方法之一。为了进一步理解和完善TA技术在图情领域的应用,有必要对现有相关实证研究文献进行梳理分析,为其在图情领域的深化应用提供参考。
2 研究方法
本研究采用内容分析法对1993年到2020年间的103篇利用TA进行实证研究的期刊论文进行梳理。内容分析法是一种将定性素材转换为定量数据的方法[10],依据从文献中获得的直接信息编码构建合理类别,不强加先入为主的范畴或理论观点[11]。本研究参照风笑天《社会学研究方法》[12]和姜婷婷等人[13]关于内容分析的步骤,具体操作如下:选定研究的分析单元、界定目标总体的范围、抽取样本、根据实证研究的基本步骤构建主要分析维度,然后基于文献内容本身提取类目并构建编码体系、阅读原始文献进行人工编码,最后进行数据统计分析得出结果[14]。
2.1 数据来源
本研究以WOS(Web of Science核心合集)的SSCI子库作为主要数据来源,检索式为:主题=think aloud,筛选类别为“INFORMATION SCIENCE LIBRARY SCIENCE”,检索时间为2020年10月18日,获得检索结果122条。通过浏览文献的摘要以及全文,选择利用TA技术作为数据收集方法的实证研究论文,删除书评、综述、方法介绍类等论文,得到了从1993到2020年间发表的实证论文103篇作为研究样本。
2.2 分析框架
本研究依据所分析的原始文献进行类目构建,设置了研究主题、研究目的、任务情境设计、数据收集、数据分析五个分析维度。之后通过对维度的具体内容进行标记并参考相关文献对维度进行下一级类目的划分,归纳出二、三、四级类目,如表1所示。
表1 TA技术的应用分析框架
一级类目二级类目三级类目四级类目编码任务情境设计TA协议类型并发口头协议C28回顾口头协议C29数据收集数据收集的有效性和可靠性有效性D1可靠性D2两者均有D3两者均无D4辅助数据收集方法访谈法E1问卷调查法E2观察法E3事务日志E4其他方法E5数据分析定性分析内容分析F1扎根理论F2主题分析F3定量分析描述性统计分析F4方差分析F5回归分析F6假设检验F7
(1)研究主题:通过对文章摘要的阅读,将TA相关文献的研究主题分为信息行为研究和信息系统研究两大类作为二级类目,结合Wilson关于信息行为定义[15]和样本文献实际情况,将信息行为研究分为了信息源选择、信息查询和信息选择与使用三部分。信息源选择是指文章侧重研究参与者对众多信息源进行对比、分析、鉴别后,筛选出适用信息源的过程[16]。信息查询是指在发现问题、解决问题、主动寻求信息[17]过程中的信息获取行为。信息选择与使用是指与参与者现有知识结构的合成、同化以建立理解、或进行相关性标准和维度评判的过程。信息系统研究依据信息系统构建过程分为信息系统开发、可用性测试、交互、评估四部分。其中,信息系统可用性测试借鉴ISO 9241-11中关于“可用性”的定义,即“在特定的使用环境下,特定的用户可以在多大程度上有效、高效、满意地使用产品来实现特定的目标”[18]。信息系统交互是指研究用户与信息系统如何互动,以及交互中的思考、感知、行为和感觉。信息系统评估是对信息系统的建设过程和系统性能进行全面估计、检查、测试、分析和评审,以确定系统建设程度的过程。
(2)研究目的:TA研究的目的主要包括识别和理解参与者的信息行为和识别信息系统相关问题两大部分。Kuhlthau的经典ISP模型认为整个信息搜索过程是人类行为三个方面的整合,即情感、想法和行动[19]。将这一观点稍加扩展,再结合样本文献的研究过程侧重点,将其分为查询、行为策略,认知过程和情感过程三类。其中查询、行为策略是指参与者在明确信息需求基础上对整个检索过程的规划,包括分析检索问题、选择检索途径、检索式构建、适应性策略的提出等。认知过程是探讨参与者在执行TA任务时参与者的思考、感知及其如何影响行动的过程。情感过程是指关注参与者在交互时的感受、想法、情绪。在信息系统方面,主要目的是通过TA识别互动和可用性问题,帮助信息系统实现相应功能优化。
(3)任务情境设计:主要包括任务情境、是否进行试点研究(Pilot Study)、任务、样本选择、观察者参与程度、TA协议类型六个方面。任务情境是指承载TA行为的交互实体,包括桌面设备(如计算机)、移动设备(如手机)、线下环境(如图书馆);试点研究是对参与者进行任务培训,检查参与者提供解决方案的能力以确定其是否有资格参与研究的重要手段[20],同时也可帮助研究人员测试编码方案是否足以解决研究问题和检查任务设计的技术完备性[21]。
按照任务目标将TA任务划分为五种类型:搜索任务——关注参与者搜索过程(如检索式的创建、选择等)的任务;交互任务——侧重于探讨参与者与信息系统交互的过程;搜索、交互任务均有——与搜索系统发生交互,通过提交查询式获取信息以评测信息系统的过程[22];评估任务——是指在信息系统开发、实施完成或已推广应用的情况下,对系统的建设过程、应用效果及未来适应能力进行综合评估的任务;其他任务——无法划分到以上四类的任务。样本根据抽样方法不同,分为便利抽样、立意抽样和分层抽样;观察者参与程度分为无参与、浅度参与(指观察者在参与者沉默时提醒或参与者沮丧程度较高或任务难以进行时给予提示的情况)、深度参与(允许观察者与参与者互动以澄清与信息或沟通事件相关的问题);TA协议类型遵循Ericsson和Simon的并发口头协议和回顾口头协议两种类型的划分[23]:并发口头协议(CTA)——多依赖参与者的短期记忆,参与者在执行任务的同时不断地描述他们的想法而无需解释原因[24]。回顾口头协议(RTA)——在任务完成之后,参与者回忆其思考过程并口述出来。
(4)数据收集:包括TA数据收集的有效性和可靠性和辅助数据收集方法两方面。数据收集的有效性和可靠性是两个伴生的概念,他们决定了研究结果的说服力,是研究方法设计和分析时考虑的重要因素。有效性指测量工具或测量手段能够准确测出所要测量的变量的程度,或能够准确、真实地度量事物属性的程度。可靠性指采取同样的方法对同一对象重复进行测量时,其所得结果相一致的程度,即测量结果的一致性或稳定性[25]。
在TA实证研究文章中,研究者往往会将其他数据收集方法与TA法相结合来获取更为丰富、全面的数据。主要方法有访谈、问卷调查、观察、事务日志、其他方法(日记法、焦点小组、眼动追踪)等。如结合半结构化访谈用于澄清TA过程中研究人员不理解的参与者的陈述和意见,建立参与者使用术语和过程之间的关系,及详细阐述之前行为原因;结合问卷调查用来采集参与者的人口统计学信息;结合观察法用自己的感官和辅助工具去直接地、有针对性地了解正在发生、发展和变化着的现象[26]。
(5)数据分析:数据分析方法指的是TA数据经过转录后的数据分析方法。本研究根据数据类型和分析过程的差异分为定性分析方法和定量分析方法。定性分析方法主要包括内容分析、扎根理论和主题分析;定量分析方法包括描述性统计分析、方差分析、回归分析、假设检验等。
2.3 编码的信度分析
根据本研究构建的分析类目,由两名研究人员分别对103篇文献进行编码,然后对其中意见不一致的情况进行讨论协商,确定最终的编码方案。编码完成采用计算编码一致性的霍斯提公式来衡量内容分析的信度[27]:编码者间信度=2m/(m1+m2)。其中,m为一致的编码数,m1、m2为两位编码员各自的编码数。经计算得两位编码者的一致性系数为0.92,达到了一致性的较好水平(0.9以上)。
3 结果
3.1 研究主题
经分析可知,103篇TA实证研究文献主要集中在信息行为和信息系统研究领域,信息行为研究占比略高于信息系统研究。其中,信息行为以信息选择与使用(N=33,32.04%)和信息查询研究(N=24,23.30%)为主;信息系统以交互策略(N=15,14.56%)和可用性测试研究(N=14,13.59%)以及信息系统评估(N=10,9.71%)研究为主。信息行为与信息系统研究研究主要用来针对学生或科研人员群体探索其在信息活动中的认知过程和信息系统交互及可用性测试,在信息系统交互方面还包括与特殊人群如盲人[28]自闭症人群[29]交互过程中的寻求帮助情况以及相应功能的测试。在可用性测试和评估方面,多采用实证方法如相关性反馈[30]、多次比较反馈[31]、与网站交互从有效性、易用性、满意度三方面对信息系统进行评估[32]。
3.2 研究目的
如图1所示,信息行为和信息系统研究中对认知过程的探索占到总文献的一半以上(N=58,56.31%),这也印证了信息行为和信息系统以用户为中心的研究中认知范式的主导地位。其次的研究目的是信息系统功能优化(N=33,32.04%),其中包含信息系统使用的可用性评估/测试研究等。另外,信息行为和信息系统中的信息查询、行为策略(N=22,21.36%)也是较为重要的研究目的,而情感过程(N=11,10.68%)的探索较少涉及。
图1 TA研究目的分布
3.3 任务情境设计
3.3.1 任务情境和试点研究
任务情境是由研究目的决定的。TA任务情境以桌面设备(比如计算机终端等设备,N=81,78.64%)为主,以移动设备(如手机,N=14,13.59%)和线下环境(N=5,4.85%)为辅,还有少量研究没有提及任务情境(N=3,2.91%)。任务情境多为参与者感到舒适、放松、安静的环境,这样可以使参与者集中在任务上,尽可能避免干扰。
在103篇实证研究文献中,未进行试点研究(Pilot Study)或培训的数量相对较多,占比63.11%(N=65),进行试点研究或培训的数量较少,占比36.89%(N=38)。对于参与者来说,在正式研究之前进行必要的培训进行试点研究可以帮助他们更好的言语化表达,熟悉口语化的思维方式,使研究取得更好成效。
3.3.2 任务类型、任务数量和任务时限
在任务类型中,搜索任务占比最大(N=44,42.72%),搜索任务与交互任务相结合方式占比11.65%(N=12),由此可见,搜索任务常与TA结合通过交互式信息搜寻对参与者的认知思维过程和情感进行探索性研究,用以分析不同用户群体的信息查询、搜索及使用行为等;除了搜索任务和交互任务,评估任务占比27.18%(N=28),主要对数字图书馆或一般信息系统的可用性问题,也是TA任务的重要类型之一。
文献任务数量方面,52.43%(N=54)的文献任务数量大于1个,小于等于5个,仅有3.88%(N=4)的任务数量大于10个。由于TA任务的特殊性,43.69%(N=45)的研究文献未规定任务时限。任务时限与任务的难易程度有较大关系。仅有15.53%(N=16)的文献任务时限超过了60分钟。
3.3.3 样本选择、观察者干预程度与TA协议类型
样本选择类型方面,立意抽样占比54.37%(N=56),便利抽样占比36.89%(N=38),分层抽样占比8.74%(N=9)。由此可见,TA方法多使用与研究需要相契合的立意抽样,根据研究目的选择具有典型性和多样性的研究样本,如在盲人的数字图书馆可用性研究中通过对样本人群预调查设置实验组和对照组,严格控制两组性别、视力情况等因素,对数字图书馆的帮助功能进行测试[33]、在针对患者的结果报告数据可视化偏好研究中采用两阶段不同样本纳入标准,尽量实现受试人群的多样化[34]。
研究主题和研究目的会影响样本量大小的选择。在TA实证研究中规模相差较大。样本小于等于20人的占一半以上(N=58,56.31%),在20人和50人之间的次之(N=39,37.9%),大于50人的情况较少(N=4,3.88%)。由于TA整个过程(包括数据收集、数据整理和数据分析)相当复杂且耗时,因此当研究人员使用这种方法实施项目时,样本量通常不会很大。现有研究认为一般情况下,样本数量在10人到30人时,小样本不会影响TA任务的准确性[35],如Selinda在信息检索行为研究中发现,在数据收集进行到20个人时,数据即可达到饱和[36]。而有的研究指出在采用TA分析可用性测试问题时,只需要4-5个参与者就可以确定大约80%的可用性问题[37],原因一方面是TA在进行每一个单独会话时会产生丰富广泛的数据,另一方面是可用性的研究主题决定的。
选取2017年6月~2018年6月院内收治的患有心血管疾病的患者86例作为研究对象,将其随机分为对照组与观察组。其中,男54例,女32例,年龄55~86岁,平均(68.25±2.84)岁;高血压28例,高脂血症19例,心律失常22例,心肌梗塞17例。两组患者一般资料对比,差异无统计学意义(P>0.05)。
观察者干预程度方面,多数任务是研究人员无参与,如消费者行为研究[38]、信息检索评估研究[39]等,浅度参与和深度参与数量相差不大,多集中于信息行为研究中的信息查询与信息选择与使用领域。
表2展示了本研究中TA协议类型分布情况。绝大多数研究(N=102,96.23%)采用了并发口头协议的形式来获取数据。并发口头协议可以在没有问题导向偏差的情况下,把握参与者正在进行信息处理的状态,呈现实际想法。同时也可使研究人员发现参与者TA的持续时间,揭示潜在的信息处理模式[40]。相比之下,回顾口头协议依赖于参与者的长期记忆,给参与者提供了一种“最小阻力路径”来描述其执行任务的过程,参与者往往会较少提到任务过程中遇到的“死胡同”或错误的方式[41],完成任务和口头报告之间的时间间隔会给收集的数据带来大量主观性解释,这种主观性可能会对收集的数据产生负面影响[42],需在具体研究中仔细鉴别。
表2 TA协议类型分布
3.4 数据收集
3.4.1 数据收集的有效性和可靠性
表3展示了TA数据收集方法的有效性和可靠性分布。92.38%的研究中并未涉及到数据收集的有效性和可靠性问题,仅有5篇文献(N=6,5.71%)利用引用关键核心理论[43]、从专家处征求意见[44]、对样本文献进行双倍评分计算信度[45]的方式来保证有效性,有1篇文献在保证有效性的基础上,通过Test-retest再测信度保证数据的可靠性[46]。
表3 数据收集方法的有效性和可靠性分布
3.4.2 辅助数据收集方法
TA实证研究文献使用最多的辅助数据收集方法是访谈法(N=57,55.34%)和问卷调查法(N=47,45.63%),并辅以事务日志(N=14,13.59%)和观察法(N=14,13.59%)。访谈法和问卷调查法旨在通过提出更适合文化、社会、语言的问题来提高调查结果的准确性[47]。事务日志的使用为TA协议和参与者伴随动作之间提供了一座桥梁,增加了研究人员对TA协议理解的可能性[48]。其他方法使用较少,具体包括眼动追踪[49]、焦点小组[50]、日记法[51]、民族日志[52]等,这些方法与TA结合一同捕捉任务过程中的话语、眼球运动、屏幕移动以及任务后的任务难度及结果满意度感知等[53],实现多途径最大化获取数据,丰富了研究角度。
3.5 数据分析
在数据分析方面,大部分文献同时使用了多种分析方法。整体来看,定性分析法的使用更为频繁,其中内容分析法是最常使用的分析方法(N=83,80.58%),扎根理论次之(N=9,8.74%)。扎根理论是一种从数据出发,归纳核心概念和范畴构建理论的方法。定量分析方法中描述性统计分析方法占比较高(N=20,19.42%),常用来辅助进行协议分析编码类别统计。假设检验占比较少(N=3,2.91%),主要是在研究人员在探讨样本与样本、各影响因素与情况之间有无显著关系的情况下使用。
4 TA应用的关键问题
TA在信息行为和信息系统研究中的应用使挖掘信息活动过程中的认知和价值评估特征等成为可能,表现出信息收集的易用性和及时性等特点,但现有研究在TA的任务情境设置(包括参与者认知情况判断、是否进行试点研究、样本选择、数据收集有效性和可靠性、科研人员的角色)和数据分析解释方法上仍较为模糊。
4.1 TA任务情境设置
4.1.1 任务说明与试点研究
①在任务开始之前要与参与者说明研究目的,给予参与者充分的指示说明。Stratman & Hamp-Lyons指出如果研究人员给参与者的指示不充分,研究人员在观察期间的语言或非语言暗示可能导致不适当的语言表达[54]。②任务设置要考虑参与者的认知水平差异和任务难度,TA任务要严格评估参与者的认知能力,在研究开始前对每个参与者所处认知阶段进行划分,针对认知差异,采用合适的引导策略,这样既避免了“高认知负荷”任务对参与者的表达的影响[55],也避免了简单任务执行中的自动化问题[56]。如Branch将参与者划分为获取(acquisition)、巩固(consolidation)和磋商(consultation)三个阶段[57],在不同的阶段采取不同的指示说明和干预。在获取阶段的参与者大多通过观察、模仿研究人员的指导,很少能同时做到完成任务和谈论任务;在巩固阶段中参与者可以更加有计划和提出问题,表达变得更高效;在磋商阶段的参与者可以在自己完成任务的情况下为其他人提供援助和与他人有效合作。③合理设置辅助数据收集方法。如在参与者进行任务之前进行问卷调查,了解其年龄、性别、计算机技能、种族、专业能力、学习风格等特征,尽量减少研究人员与参与者之间的文化差异,这将帮助参与者更好的理解任务本身。④在复杂的任务中,要设置必要的试点研究,试点研究或培训可以帮助研究人员限定与研究有关的分析范围,保证任务过程的完备性[58]。
4.1.2 样本的选择与科研人员的角色(观察者干预程度)
如前文所述,TA研究样本一半以上集中在20人以下,部分研究集中在20-50人之间,这是由TA数据收集本身特征以及所要研究的主题决定的。TA收集到的数据内容丰富,然而针对特定的研究主题如信息系统可用性研究则不需要太多的研究样本,因此,在研究样本的选择上应以数据是否饱和并达到研究目标为准则,根据研究问题灵活选择样本数量。
对于在研究中科研人员是否可以干预TA进程,不允许干预的立场是担心人为干预会打断参与者的思路,影响任务思维活动的正常表达,先前使用自然主义观察的研究要求科研人员与被观察者保持社会可接受的距离,并要求观察者不干涉参与者的任务或习惯,然而 Ericsson和Simon认为人对于思想的口语化表达不会干扰正在进行的认知过程,也不会影响任务表现速度,除非参与者的口语表达被研究者干扰。TA在临床问题研究中,研究者常通过对参与者的刺激来实现对临床环境的控制,进行预选和预筛任务,更好实现任务情境设计与研究目的的适配[59]。TA在信息行为研究中则允许观察者与参与者互动,以澄清信息或事件相关的问题[60],从而深入地探索参与者的信息活动行为特征[61]。因此,在实际操作中科研人员是否可以干预TA进程还是要依据研究问题和研究目的进行选择,在尽可能不干扰参与者思维表达的情况下选择不干预、部分干预和深度干预,但如何达到一个平衡点还需要研究者的灵活掌握。
4.1.3 TA数据收集的有效性和可靠性
大多数的研究没有直接提及TA数据收集的有效性和可靠性问题, 这是因为TA数据收集难以像受控实验一样进行精确控制,数据收集多依靠参与者的口头表达。Ericsson和Simon认为针对数据收集的有效性问题,建议使用多个数据源来进行调节,利用并发口头协议与回顾性口头协议为数据收集过程提供两个窗口[62],在并发协议之后使用回顾性的提问来对TA数据进行补充。Fitzgerald在他的博士论文中对于如何规避TA的缺陷进行了描述[63],提出可以使用TA的思维语言、研究者对参与者的行为观察、刺激回忆三种数据来源进行三角互证,来验证TA数据收集是否存在问题,当表达的想法与行为不一致或者相互矛盾时,作者要求被试者立刻解释行为或者通过后面的刺激回忆解释行为。Fonteyn提出内容效度指数(Content Validity Index,CVI)的概念来反映TA任务的相关性和真实性[64],其中CVI是由专家小组通过对任务过程的综合评估使用李克特量表获得,同时专家小组的评论和建议也可以用来修正任务过程的不合理之处,进一步增强有效性。
4.2 TA协议的分析解释
4.2.1 TA协议的分析解释
分析结果表明,TA的样本量集中在50人以下,这就决定了TA协议分析选择假设检验的可能性比较小,这也从侧面说明TA的优势在于挖掘思维过程、认知状态,而不在于用定量分析验证假设。这是因为TA本身耗时耗力的特点,多数研究中的样本量较小,这会对定量研究产生限制。在对协议数据的定量处理过程中,极有可能忽略参与者在任务表现中不同思维风格的存在,低估了参与者之间的反应差异,影响对认知过程的深度研究[65]。而定性研究可以对思维深度、多样性和复杂性进行有效解释。使用定性分析解释之前需要阐明解释角度、参与者的性质和数据处理过程等问题,若用定量分析则建议将每个TA参与者的任务解决过程视为小的、集中的案例研究,将重点放在捕捉思维特点及认知过程上,阐明参与者的个性与差异性。
4.2.2 编码分析的信度问题
评估TA编码分析的信度取决于整个研究中的客观性和系统性策略。在保证获取足够完整的口头报告之后才可进入协议编码分析阶段。大多数研究使用了内容分析法。因此,在编码方案应用之前,必须评估编码方案和编码过程,要求编码方案完整、合理、明确。建议参考Fonteyn关于编码分析的三个阶段,即参考短语分析、断言分析和编码分析[66]。在参考短语分析阶段筛选整理出转录协议中的名词和名词短语,并由研究人员给出定义;在断言分析阶段梳理各名词短语在问题解决过程中的关系链接,最后在协议分析阶段为参与者问题解决的全过程提供总体描述。在每一阶段均由两位以上对任务熟悉的研究者分别编码,共同商量解决编码不一致问题,利用信度计算保证研究的客观性。同时,邀请相关领域的专家对编码概念的定义准确性进行评估,进一步增强研究有效性。
5 结论
TA是一种有效的数据收集方法,能够再现思维过程。本研究从TA应用于实证研究的过程入手,基于内容分析法对TA在图情领域的研究主题、研究目的、任务情境设计、数据收集和数据分析等进行了揭示。发现TA应用的研究主题集中在信息行为和信息系统领域,这也是图情研究的重要核心领域,对这两个领域在以用户为中心的研究范式下探索人们如何思考、感知信息活动的交互过程,揭示用户在信息活动中的策略、认知和情感对用户信息活动的影响等,对解释不同用户群体的信息行为规律和信息系统交互特征以及系统可用性评估做了重要贡献。TA的任务情境大多采用桌面设备;较少研究进行了正式研究之前的试点研究;TA任务类型以搜索和交互任务为主;根据不同的研究目的观察者以无参与为主,浅度参与和深度参与为辅;TA协议类型多采用并发口头协议,多与访谈法、问卷调查法结合进行数据收集,样本抽样以立意抽样和便利抽样为主,数据分析多采用定性分析法。除此之外,TA的任务情境设计、数据收集过程控制(数据收集有效性、研究人员角色)以及协议分析解释仍较为模糊,是进行实证研究需要注意的关键问题。本研究填补了TA在图情领域特别是信息行为和信息系统领域的应用框架分析的空白,可为TA在信息行为和信息系统领域的规范应用提供参考。