稀缺性理论与用户认知下的信息检索研究
2021-03-25汤妙吉从化图书馆广东建设职业技术学院图书馆
邱 跃,汤妙吉(1.从化图书馆;2.广东建设职业技术学院图书馆)
1 引言
就传统的信息检索而言,信息检索是查找文献而不是查找信息内容本身,传统的信息检索忽视了用户在整个自动化处理过程中的地位和作用,从而导致检索效率不高,检索效果远低于用户期望,造成许多检索系统在实际应用中不受用户欢迎,这一现象在信息检索系统的设计与开发中比较常见。通过优化信息检索流程可达到简化繁琐检索步骤的目的,而检索流程随着信息技术的发展在未来更多的依赖于用户主观意识的传达。因此深入开展对用户认知、用户行为的研究成为信息检索研究的一个有效方向。建立用户认知动态结构、研究用户认知能力、分析用户认知特征成为提高信息检索效率的必然要求[1]。稀缺理论的引入为信息检索的研究提供了一个崭新的视角,以重新解释用户在信息检索过程中的认知行为。将稀缺理论与用户认知理论结合分析,用科学理论解释人文现象,可以合理地阐明用户认知行为的发展趋势,并提升信息检索研究的有效性与科学性。
2 稀缺性理论
行为经济学家Seidhill Mullina 和心理学家Edel Shafir 在其合著的《稀缺》一书中首次提出了稀缺理论,它为开展用户认知研究提供了新的视角,成为研究信息检索过程中用户认知与用户行为的重要理论基础[2]。稀缺理论本质上是一种稀缺的心理状态,即当用户接受某项任务时,在初步识别后,会产生一种自身所拥有少于完成工作所需的信息或知识的心态。在稀缺理论中,用户一旦有了稀缺的心态,这种心态就会侵入用户的大脑,存在于人脑的潜意识中。稀缺心态会对用户的信息获取速度和信息理解深度产生影响,削弱用户的认知能力并降低用户对任务的执行控制力。
稀缺心态带来的负面影响具体表现为“管窥”,即带宽负担[3]。带宽负担是指当人们的带宽容量减少时对带宽产生的负面影响,包括影响人们的认知力和执行力。当出现“管窥”现象时,一个人的流体智力将被削弱,导致他的认知能力被影响,执行控制力也会随之弱化。因此,对用户认知能力的管理成为构建以内容查找为核心的信息检索模型的重点内容。
3 用户认知理论的发展
3.1 用户认知能力
认知科学始于20 世纪50 年代,是一门研究认知机制(信息处理)和机器建模的科学。认知科学借鉴了信息论的基本原理来描述和解释人类的认知过程,是认知心理学与计算机科学的融合。20 世纪70 年代后,关于认知科学的观点得到了学术界者的普遍认可,形成了关于相互作用理论和认知信息理论的基本假设。
信息检索过程本质上是用户的认知过程。就以往的研究而言,信息检索认知过程的重点在于揭示用户在信息检索过程中的认知以及与信息检索系统之间的交互联系,但却忽略了用户认知能力的动态变化。为了弥补该研究领域的不足,有必要对用户认知的动态情况进行分析,为信息检索认知过程的研究提供理论依据[4]。
在正常情况下,用户的认知能力处于相对稳定的状态。当用户处于任务情境时,其认知能力会发生相应的变化。用户接受某项任务,由于其本身知识结构的受限,需要从外界获取信息以弥补自身知识结构的不足,此时用户就会产生稀缺心态。一旦用户出现了稀缺心理,其认知能力就会在一定程度上被减弱,很难充分表达出真实的信息需求,这将影响到用户接下来的一系列检索行为。因此,在研究信息检索认知过程时,研究的关注点可以放在尽可能减少其他因素对用户信息需求的干扰,同时,考虑到用户认知能力的动态性(见图1),可对用户的认知情况进行分阶段研究,使其更符合用户的非理性认知过程。
图1 用户认知能力动态变化图
3.2 基于稀缺理论的用户认知能力分析
根据稀缺理论,稀缺并不是绝对的,稀缺更多来自人类主观认知。信息的稀缺源自人们具体的信息需求,而信息需求则是用户解决当前问题遇到障碍时所自发形成的,这个障碍使得用户注意力集中在解决当前的问题上。无形之中,它将降低用户带宽的容量,使用户专注于其缺少的部分而降低对其他事情的关心,致使用户缺乏前瞻性和洞察力,执行力与控制力也被随之削弱[5]。
当用户接受任务时,用户自己的知识结构将与解决任务所需的知识结构进行匹配,形成第一道信息鸿沟,它是知识结构“拥有”与“需要”之间的实际差异,此时,用户将生成信息需求。当用户产生信息需求时,稀缺便会捕获用户的大脑,产生稀缺心态,此时用户可以使用的带宽就会变窄,用户的认知能力会降低,执行控制力也会减弱。在此状态下,会出现第二道信息鸿沟,即认知能力所识别的知识结构“拥有”与“需要”之间的差异。通常,新的认知能力小于初始认知能力,后出现的信息鸿沟也是小于先前的信息鸿沟。然后,用户在新的认知能力中,产生一系列描述概念或者根据已知事实作出一些推理,从而形成新的语义网络,再通过信息检索模型和工具来获取所需信息资源。
3.3 认知信息检索
信息检索研究领域有三大研究趋势,即用户导向、系统导向和认知导向[6]。认知信息检索属于认知导向的信息检索研究,认知信息检索是以认知心理学理论为基础对用户的认知信息进行模拟和处理,在对用户信息检索认知行为进行深入分析的基础上从用户知识结构、检索环境、认知能力三要素出发研究检索系统与用户之间信息交互的检索过程。
在认知信息检索的发展初期,它主要面向中介。随着知识检索的进一步发展,人们发现用户的信息检索行为并不是静态的,个体信息语境的概念发生了变化,用户行为成为研究对象,信息检索过程中的信息交互和用户认知变化受到重视[7]。依据信息检索行为,用户的认知信息检索可分为初始、选择、探索、形成、整合和表达六个阶段。这六个阶段的循序渐进,揭示了认知信息检索的一般过程(见图2)。
图2 认知信息检索的六阶段模型
4 稀缺理论与用户认知的信息检索要素分析
与传统的信息检索相比,稀缺理论下用户的认知变化不是简单的线性增长而是以网络状分布,且基于某一个检索意图集中呈现,是一种动态的交互式的检索行为。因此,交互式信息检索系统是在用户信息获取过程中提供适当的帮助和支持,以实现认知层次上的相互交流[8]。为此,对交互过程中所涉及的要素进行分析有助于进一步揭示信息交互的规律。稀缺理论与用户认知理论下的信息检索交互过程可以由检索系统、用户和中介三部分要素组成。
4.1 检索系统
检索系统是用户与信息进行交互作用的桥梁,贯穿于整个检索过程。检索系统界面的特性包括易用性、美观性、个性化、友好性等。对于用户来说,他们无法看到检索系统的代码组成、后台工作流程等,大部分用户也不具备专业的信息检索能力,检索系统的界面即是他们所能了解到的一切。因此,在稀缺理论与用户认知理论指导下设计的检索系统可以使其帮助用户更快、更便捷地获取信息。如,检索系统的使用方式上应与市场中大部分的检索系统采用统一的检索方法,尽量少用专业术语,以保证用户在使用新的检索系统时不会产生困惑,可以尽快了解本系统的功能。此外,从宏观层面看,检索系统的构建是根据不同用户的使用习惯、信息需求等目的形成具有不同主题的检索系统。稀缺理论与用户认知的信息检索系统,需要分析用户动态行为,引导用户在自身信息缺口下依靠检索系统的链接、提示、提醒、模块等帮助调动主观思维与信息系统进行交互,最后获取所需信息。
4.2 用户
用户在信息检索过程中处于前端,担任着需求方的角色,是信息检索系统设计考虑的首要因素。依据稀缺理论,用户在出现“管窥”视角后将更多的关注于如何获取有用的信息来帮助自己解决问题。因此用户在每次检索过程中会将检索结果与解决任务所需的信息进行匹配,如果信息满足用户需求,那么检索行为结束;如果不满足需求,那么用户会调整检索策略,包括改变检索词、检索途径、信息资源形式等。在社交网络不断发展和完善的背景下,用户获取信息不再局限于图书、报刊等纸质资源,而是更多的面向网络平台、专业数据库等数字资源去寻求基于网络的交互式信息检索服务,网络平台的交互信息检索成为信息检索系统的有效补充。用户既可以通过交互软件与其他用户进行交流获取帮助,也可以利用搜索引擎浏览网页、论坛、微博等相关内容。同时,搜索引擎也会根据用户的搜索路径对用户的兴趣进行分析,从而为用户提供可能感兴趣的信息链接。
4.3 中介
在检索系统中,中介一般是指系统设计模块,它是根据用户检索表达式和长期检索行为描述用户信息需求的方式。系统设计不再让用户靠直觉来判断是否需求信息,而是将用户可能的需求用自然语言表达式和查询表达式衔接。随着时间的推移,用户对事物认知的程度加深,系统会将这些方案用符号的方式储存于检索系统之中,以符合用户认知的动态发展。同时,系统设计需满足信息的存储过程和信息的检索过程。信息存储过程是对信息进行加工,将呈现出的信息特征进行存储并输入进信息检索系统;而信息检索过程是当搜索模块与用户通信时,检索系统分析用户的检索提问并转化为检索语言,并标引出系统能够识别的检索标识。当系统产生信息输出时又将语法信息转为用户能理解的语义,即大家所看到的检索结果。信息检索系统的中介是对检索全过程谋划后的整体设计策略,它能及时反映和分析检索结果与检索目标要求是否一致,可以对检索策略进行相应的修改调整以获得最佳的查准率,并最终呈现给用户满意的检索结果。
5 稀缺性理论与用户认知下信息检索模型的演变
信息检索认知模型是一种基于数学工具对用户检索文本和查询过程之间关系的框架。它以认知科学的概念、方法和数据为基础,结合用户遇到稀缺性心理时的认知变化,研究检索文本和主题的相似度。在稀缺心态下,用户的认知能力在相对稳定的状态会被打破,注意力主要集中在产生的信息缺口上,从而导致其认知能力降低。加上用户的认知能力也处于不断变化的过程中,信息检索认知模型有必要对用户的整个认知过程进行分析,并人工干预信息检索系统的设计,使用户的信息需求更加准确的表达出来,让用户与检索系统间的交互行为更加默契,从而提高信息检索系统的利用率。根据稀缺性理论与用户认知的信息检索循序渐进的阶段,可分为三个模型进行描述。
5.1 初始认知下的信息检索模型
该模型首先假设个体在认知结构上存在差异,它受到自身的认知要素及外部环境的影响;其次从认知的角度分析信息检索过程中涉及的认知要素,包含信息检索所需的基本条件,从而通过信息检索系统传递信息,这部分属于认知的中介机制。最终的检索结果显示:如果用户满意,则变成用户新的认知;如果用户得不到满足,则会生成新的动态认知要素,并返回到检索模型初始段,具体如图3 所示。
图3 初始认知下的信息检索模型
5.2 稀缺理论下的信息检索模型
稀缺理论下的信息检索模型认为用户具有信息需求的原因是用户意识到自己的知识结构异常且无法解决某些问题。用户根据查询目标与任务产生信息初始需求,并通过查询喜好和查询行为进行信息交互,在信息交互过程中用户的认知受到稀缺心态的影响。稀缺会俘获用户的大脑,渐渐让用户失去认知能力和执行控制力,变得更加愚笨和冲动,形成管窥思维[9]。此时,用户的带宽变窄,认知受到限制(见图4)。稀缺理论下的认知信息检索模型揭示了用户在目标和任务的驱动下产生的信息需求。
5.3 信息交互行为下的信息检索模型
图4 稀缺理论下的认知模型
用户与信息检索系统交互的目的是使用与认知和情境相关联的信息。交互行为总是存在于信息查询过程中,与传统的信息检索相比,信息交互行为下的信息检索模型能更准确的满足用户的信息需求。在交互过程中,用户可以对信息进行表达、查看、导航、比较和总结(见图5)。由于交互行为受不同因素的影响发生改变,在不同阶段,用户交互的内容也是不同的。社交网络行为中除了有传统的信息检索文本外,还有大量信息交互层,用户通过与系统对话,完成搜索、匹配、浏览和判断等过程。此外,系统还可以要求用户提供反馈信息。
图5 信息交互行为下的信息检索模型
6 基于稀缺性理论与用户认知的信息检索行为分析
基于稀缺理论与用户认知理论可以发现用户的信息检索行为更具复杂性与动态性。随着社交网络的发展,用户自身的知识结构、工作任务情况和自身喜好习惯等促使用户的检索行为从传统的文本信息检索向新的网络检索转变[10],用户的检索意图在信息稀缺时的认知变化可以对信息检索行为带来影响。
以往的研究表明,用户的检索意图通常可以分为信息类、导航类和交易类三种。信息类检索是用户试图通过网络获取有关的信息,如数据、网页和文档等,它不同于导航类和交易类检索要求,具有时间跨度大、交互作用多、内容形式丰富的特点。其中,历时较长和交互方式多样的信息类检索意图,即为长期检索意图。
稀缺理论表明用户在接受任务时,当发现自身知识不足以应对任务的完成,其认知关注点重在通过查找信息、借助外部的帮助来解决问题。在未解决任务前,稀缺使用户的关注焦点更集中,表现为长期检索意图。而随着社交网络的发展,信息的来源不仅存在于纸质资源、检索系统等载体,社交网络平台也可以提供大量的信息帮助用户解决问题。因此,用户利用社交网络浏览、查询信息与在社交网络上查看、转发和评论文章等行为之间存在语义相似性和一致性[11]。通过对用户浏览器中存储的Cookie 信息进行分析,可以发现用户的社交网络活动中包含了大量的长期检索意图。如用户在一段时间内搜索的各种求职信息、有关python 语言的一系列知识等。此外,用户的长期检索意图搜索过程通常伴随着其他社交网络活动,如浏览视频、新闻、登陆社交平台等。因此,研究在长期检索意图中用户的信息检索行为与用户的社交网络行为之间的关系是重点。
在自然语言处理中,主题可以被看作文档中词汇的概率分布。主题模型可以从文档中的词汇共现信息中提取语义相关的集合,并且可以将词汇空间中的文档转换成主题空间,从而在低维空间中获取文档的表达[12]。
图6、7 显示出了信息检索词汇和社交网络数据在长期检索意图字段中的主题分布概率(手动设置主题数量为30,主题分布由LDA 模型获得)。其中,长期检索意图为在一段时间内用户查询与求职相关的信息,横坐标表示不同数量主题的索引(1-30),纵坐标表示每个主题下文本内容的概率分布。直观来看,图中两种检索行为的主题分布有很大的相似性;然后,对文本内容的特定分析表明,用户通过这些主题词浏览的文本主要是互联网公司的招聘信息,同时用户在检索意图字段中浏览、转发、评论和关注的文本信息包含了大量公司实习生招聘的相关内容。
图6 信息检索主题分布
图7 社交网络主题分布
上述实验中共有75 个检索者,期限为90 天。经过处理,获得了66 名检索者的有效数据。如前所述,本研究的目的是验证长期检索意图中用户信息检索行为与社交网络行为之间的语义关系,因此,结构化的信息检索数据和相应的社交网络数据是本实验的关键数据。通过使用上述查询细分方法,共获取3,667 个有效检索意图,并捕获相应时间段内的社交网络活动数据,形成3,667个文档并分别编号。其中,信息检索文本的内容包括用户提交的检索词集合、用户浏览的网页集合、网页快照集合等。社交网络数据的内容包括用户在相应时间段内浏览和转发的微博内容和相关评论。
研究发现有1,785 个检索意图包含社交网络浏览行为,即48.67%的检索意图包含社交网络浏览行为。对包括社交网络浏览行为在内的所有检索意图的进一步分析表明,社交网络活动与信息检索行为的主题词相似度平均值总是略高于其他类型的网络活动(如新闻浏览、娱乐视频、网上购物等)(见表1)。
表1 长期检索意图中主要社交网络行为比例
表1 显示了每个检索意图字段中用户主要社交网络行为占全部信息检索行为的比例。从表中的数据可以看出,除了文本搜索行为外,平均占比最高的社交网络行为是社交活动,这为分析信息检索行为和社交网络行为主题词的语义关联提供了数据基础。
以上数据从统计学角度可以表明,信息检索与社交网络行为的相关性高于其他形式的网络活动,实验数据基本符合《中国互联网络发展状况统计报告》中用户不同网络活动的比例。然而,上述数据并不足以说明用户的信息检索行为受到社交网络活动的影响,也无法显示两者的语义相关性。为此,在文本语义层进一步研究了检索意图字段中的信息检索行为与社交网络行为主题数据之间的相似性。
为了验证信息检索行为与社交网络行为数据之间的语义相似度是否与检索意图有关,本文将1,785 个查询意图的平均值对应在图中形成连续检索段,并设置1 小时、5 小时、10 小时、15 小时和24 小时作为时间分割,得到的数据如图8 所示,当信息检索行为和社交网络行为以相同的检索意图分布时,相似度显著高于仅在时间上相邻的两组文本。以上分析证明,在相同的检索意图下,信息检索行为与社交网络行为数据之间的语义相关性高于在相同的检索意图下其他网络行为的语义相关性。
图8 不同时间划分下信息检索行为与社交网络行为的检索意图相似性比较
表2 列出了不同和相邻检索意图下信息检索行为与社交网络行为数据的语义相似度相关统计。从表中数据可以看出,现检索意图中的信息检索行为在语义上分别与前检索意图和后检索意图中的社交网络行为文本相似,当信息检索文本和社交网络行为数据分布在同一检索意图中时,词汇与主题的相似度平均最高,前检索意图与后检索意图的语义相似度显示差别不大。
表2 不同检索意图中信息检索行为与社交网络行为的语义相似度比较数据
7 结论
信息检索所追求的目标是通过更好地获取信息来支持人类完成特定的任务,而稀缺理论与认知理论为信息检索的发展提供了新的思路和方法,使认知信息检索理论更加完善,最大化挖掘用户变化的需求实现,提供满足用户需求的检索结果。基于此背景,本研究分析了稀缺心理对用户认知的动态影响过程,并在稀缺心理学的基础上解释了用户潜在信息需求的深层原因。通过实验结果证明了用户的社交网络行为与信息检索行为之间存在一定的语义关系,通过提取用户社交网络数据,为研究用户个性化需求提供理论依据和参考数据,有利于信息检索个性化服务的实现。