发现系统用户检索式行为研究
2020-06-12王俊杨丽萍韦晓莹
王俊 杨丽萍 韦晓莹
摘 要 本文以西交利物浦大学为例,对发现系统中用户的大量检索式数据进行分析,分别从检索式的语种、主题、检索字段、检索策略、检索效果和检索事件来揭示用户检索式的一般行为特征。揭示的特征包括:(1)用户采用的检索式语种以英语为主;(2)用户检索式表达的主题倾向于人文社科领域;(3)用户在发现系统中对检索字段的选用和检索策略的运用高于搜索引擎。针对反映的特征和问题,本文在资源整合、系统优化、信息素养课程设置方面提出改进建议。
关键词 检索词 检索式 检索行为 发现系统
Abstract Taking Xian Jiaotong-Liverpool University as an example, this study investigates users search queries in discovery service including language, topics, search fields, search strategies, search results, and search events. It identifies the general characteristics of users queries behavior, including: (1) users prefer to build their search query in English; (2) search topics primarily focus on social science and/or arts & humanities; (3) users take more advantage of search options and search strategies in discovery system than in search engines. By analyzing the characteristics and problems revealed, we proposed several recommendations such as enhancing the integration of library resources, optimizing user interface of the discovery system, and redesigning instruction courses of information literacy.
Keywords Search term. Search query. Query behavior. Discovery system.
西交利物浦大學(简称“西浦”)在2011年初开始关注网络级发现系统。2012年通过平台部署、测试与评估,最终采用EBSCO Discovery Service(EDS)作为“一站式”资源发现平台,并命名为“Discover”。西浦图书馆从系统和服务整合的角度去思考和图书馆密切相关的用户群体,不断挖掘系统的新功能和新服务;Discover逐渐成为西浦师生访问图书馆资源的主要工具[1]。本文以西浦Discover用户为调查对象,通过前期在发现系统中配置谷歌分析工具(Google Analytics, GA)[2] ,持续收集用户群体在信息活动后留下的大量数据,重点关注和分析用户群体在检索词、检索式和检索流方面的特征。
1 研究方法与对象
1.1 信息检索行为的概念界定
关于用户信息行为的研究,特别是在网络环境下对该命题的研究,受到不同学科领域研究人员的密切关注,他们从不同角度探索信息行为理论模型、研究方法及特定情景下信息行为。根据Wilson典型的信息行为嵌套模型(又称“洋葱模型”)可知,信息行为是一个涵盖性的术语,次层概念是信息觅食行为,信息检索行为则是包含在信息觅食行为之中的[3]。信息检索行为是指信息用户在微观层面与信息系统之间的交互行为,主要包括检索平台的选择与切换、检索前提问式、检索词选择、检索式构造、布尔操作符的使用与否、检索结果浏览与选择、鼠标移动轨迹、网页翻阅页数、检索结果获取等[4]。
检索式是用户搜索相关信息时所表达的一种语言。Wacholder提出从语言学的三个维度(词汇、语法和语义)对检索式的特点进行分析,其中,对词汇的研究主要针对检索词的来源、检索词的个数及其分布等情况,对语法的研究主要是考量检索式中若干个检索词之间连接关系,语义的研究主要侧重于理解检索式的含义[5]。本文主要探讨信息检索行为中关于信息检索式的一般行为,分别从检索词的选择、检索式的构建、检索式的质量和效果进行相关分析。
1.2 研究对象的界定
文章以西浦师生为对象开展调查,研究分析他们在图书馆“一站式”发现系统中的检索行为。西浦是一所中外合作大学,学校专业课采用全英文教学,接受中英两国高等教育质量保证体系的评估,多个学科获得权威国际专业组织认证。
1.3 研究方法
谷歌分析(GA)作为一个网络分析工具,能够实时揭示网站上发生的用户真实行为数据,常被用于评估和优化图书馆相关网站的功能和布局[6-7]。另外,由于GA工具配置在图书馆自建的网站上,数据统计和分析由图书馆员自己管理,在评估电子资源的使用方面,GA可以作为数据库商提供的使用统计报告的补充,帮助图书馆更加全面地评估和决策[8-9]。西浦图书馆自2015年开始就在其发现系统平台(Discover)上部署了GA,用来获取用户访问该平台的详细行为数据,以此分析平台上用户信息行为的一般特征,优化平台的用户界面设置[2]。本文选取平台上2019年4月1日至30日的访问记录,重点考察用户在平台使用中的检索式行为特征。
2 检索式分析
在GA产生的行为报告中,网站搜索维度子报告提供了用户在Discover的具体搜索行为信息,包括搜索字词、网页浏览页数、搜索后停留的时间等。报告显示,在选定期间内,用户访问Discover共产生了25 700个会话,其中87.43%的访问使用了搜索功能,唯一身份搜索次数为55 351。进行搜索的用户,每次会话平均浏览的网页数量为6.57,会话平均时长为11分40秒,会话平均包含2.46个检索式;没有进行搜索的用户,每次会话平均浏览的网页数量为1.54,会话平均时长则为2分59秒,均大幅度小于进行搜索的用户。
2.1 检索式语种分析
根据GA搜索字词报告,在选定期间内共出现检索式记录43987条。从检索式的语种分布来看,如图1所示,英文检索式占总量的87.6%,中文检索式(含中英混合检索式)仅占7.1%。此外,5.3%的记录为韩语、日语等小语种检索式,以及含有DOI、ISBN、ISSN等特殊字符的检索式。分析表明,发现系统用户在检索过程中呈现出英文检索式占据绝对主导的现象。归其原因,这与西浦的英语教学环境有着密切关系。与国内传统高校不同,学校从大一开始便强化对学生的学术英语教学,要求学生掌握英文资料的查找和引用的基本能力。英文学术资源不仅是教职人员的科研需求,也是学生所依赖的学习资源。
2.2 检索式主题分析
检索式又称检索提问式或检索表达式,是指在计算机检索中表达用户检索提问的逻辑表达式,由一个或多个检索词和各种布尔逻辑算符、位置算符及系统规定的其他连接组配符号组成。通过检索式的主题分析,我们可以了解用户关注哪些领域。
2.2.1 数据清洗原则
数据清洗是数据挖掘的第一步,也是非常关键的一步。在聚类之前,将检索式中包含的所有布尔逻辑符(AND、OR、NOT)及用户使用的搜索字段(AU、TI等)去除,只留下关键字。同时排除包含一些特殊内容的检索式,例如DOI、ISBN号、ISSN号等。由于算法限制,中英文搜索字词是分开聚类的,主要的区别在于英文是以单词为单位,中文以词语为单位。
2.2.2 K-均值算法
本文采用计算机文本聚类的方法对庞大的检索式记录进行分类,并且采用数据挖掘与知识发现领域中最常用的K-均值(K-Means)算法。該算法由MacQueen最早在1967年提出,是一种基于划分的经典聚类方法[10]。K-均值算法的关键在于K值的选择,这关系到聚类结果的准确性。如果聚类得到的簇与簇之间的差异性明显,而同一簇内的关键字又相互紧密关联,那就表明聚类结果相对准确。通过反复试验,发现K值取28时,得到的簇符合上述特征。
2.2.3 检索式主题
基于K值聚类的结果如图2所示。在选取的时间段内,西浦用户的信息需求主要集中在以下主题:⑴大型上市公司的人力资源管理、员工奖励制度、企业社会责任等(Cluster 0, 7, 10, 12);(2)信息技术、人工智能与深度学习(Cluster 1, 11);(3)城市规划与建筑美学(Cluster 2, 3, 4);(4)环境污染与可持续发展(Cluster 5, 20, 23);(5)中国经济、人口、城镇化和房地产政策等(Cluster 8, 9, 15, 17, 27);(6)两岸关系与中美贸易(Cluster 21, 25);(7)高等教育与毕业生职业发展(Cluster 6, 13, 19, 24);(8)外语教学方法与实践(14, 22);(9)1997年与2008年金融危机(Cluster 16);(10)刻板印象与跨文化交流(Cluster 18);(11)国际新闻业与数字媒体(Cluster 26)。
此外,对中文检索词进行聚类得到13个Cluster,如图3所示。从得到的中文检索词聚类分析来看,中文的检索主题更倾向于社会性和区域性课题的检索,如社会主义、方言、苏州工业园区、天津等。
2.3 检索式字段分析
Discover默认的检索模式是关键字检索,这也是用户最常用的检索模式。在处理分析所有获取的检索式记录时发现,部分用户仍会主动地选用高级检索模式,按需求选择不同的检索字段,如作者(AU)、题名(TI)、主题词(SU)、来源(SO)和刊名(JN)等。通过提取检索式中所有包含来源(SO)和刊名(JN)的字段,可以整理出用户关注的来源期刊列表,以及这些期刊在Discover中的收录情况。这对于图书馆资源查漏补缺有重要参考价值。
通常,系统管理员可以在Discover后台直接勾选由系统商提供的资源数据包,快速地将订阅资源整合到Discover可访问馆藏中。但是有调查指出,由于数据库/出版商没有及时向发现系统商提供更新的资源数据包,导致发现系统商持有的资源包与实际资源列表不一致的现象普遍存在[11]。以Springer Nature出版社为例,2019年DRAA组团采购的全学科期刊数量是1993种,而EBSCO的资源数据包Springer Journals (DRAA)只有1921种。对比后发现,通过选定字段检索的期刊Environmental Sustainability(ISSN: 2523-8922)被遗漏,并未包含在资源数据包内,这使得用户无法从Discover获取该期刊上的文章内容。此外,提取检索式中期刊信息,除了能够帮助图书馆核对订阅期刊是否有漏刊现象外,还能了解到用户在平台中检索开放获取期刊的行为,对于那些元数据还未添加到Discover中的开放获取期刊,馆员可以随时登陆EBSCO管理员平台进行配置。
2.4 检索式策略分析
为了达到理想的检索效果,用户要善于选择使用各种检索技术,其中最常见的技术就是布尔逻辑检索及截词检索。在Discover系统设置上,西浦图书馆将布尔逻辑符限定在按大写拼写开启,只有当用户输入AND、OR及NOT,才能触发布尔逻辑符的功能。在高级检索模式下,系统提供了多个检索字段的输入框,字段之间配有布尔逻辑符供用户选择。此外,Discover 系统也支持截词检索,用户可通过运用符号 *、#、?来构建自己的检索式。
2.4.1 布尔逻辑检索分析
经统计,在选定的时间区段内,西浦用户使用布尔逻辑的检索式占比为12.2%,其中11.3%为英文检索式,而中文检索式仅为0.9%。相比于其它调查揭示的搜索引擎用户使用布尔逻辑检索的比例,发现系统用户使用布尔逻辑检索的比例要明显高于搜索引擎用户[12]。归纳原因,除了用户群体本身信息检索能力差异外,用户信息需求差异和检索系统差异也是极为重要的原因。相比搜索引擎的用户,发现系统的用户通常检索学术资料,在检索过程会考虑资料的查全率和查准率,而搜索引擎的用户一般搜索非学术性问题,偏好于使用自然语言检索,不太在意检索式的构造。在系统差异上,发现系统在用户的初次检索结果页面提供了高级检索框,可以快速地选择使用布尔逻辑优化检索式。
2.4.2 截词检索分析
截词检索也称通配符,就是把检索词截断取其中的一部分片段,加上截词符号一起输入检索,系统按词的片段匹配数据库的索引词,凡包含这些词的片段的文献均可检出。在英语中,词通常有多种形态,这些不同的形态大多只具有语法上的意义,对于检索而言意义是相同的。截词检索通常使用在英文检索式,主要用于检索词的单复数、不同词性的词尾变化、词根相同的一类词,以及同一词的不同拼法等。使用截词检索不仅能简化检索式,还可以扩大检索范围避免漏检,但使用时要谨慎,如果使用不当,则会造成误检。例如,Discover中出现的下列检索式(案例一,如图4),polic*不但检索出policy、policies的记录,而且还检索出police、policeman等,致使检索结果偏差。
2.5 检索结果偏差分析
观察检索式与执行该检索式后用户相应的网页浏览情况,可以推断出用户信息需求和其得到的检索结果之间是否存在偏差。如果用户在运行检索式后对于返回结果的浏览量为零,甚至随即跳出系统,通常可视为检索失败,用户未能满足检索期望。通过对于这些检索失败情况的深入分析,图书馆不仅可以在日常信息检索课程上纠正学生信息检索的不当的行为和习惯,也可以此为线索调整用户平台的设置,引导用户正确使用资源和服务。
调查发现,当今大学生在信息检索方面比以往任何时候都更加依赖搜索引擎,并且他们容易把在搜索引擎上的使用习惯应用于图书馆提供的发现系统平台检索行为中,造成检索结果与期望检索到的结果大相径庭。例如,从检索式“建筑史 AND 期刊”可以推测,用户期望查找与建筑史相关的期刊,但用户检索后随即跳出了Discover系统,检索结果的浏览量为零。检索式“MAN016 AND past exam papers”则表明用户期望搜索课程MAN016的往年试卷,检索结果的浏览量显示为零。另有不少用户在Discover中检索引文帮助信息,例如“如何引用中文资源”“哈佛引用格式指南”“如何引用中国法律条款”等(检索式案例二,如图5),同样用户在检索结果的浏览量为零。显然,用户没有在Discover检索到想要的信息。
具体分析述检索失败的原因,不难发现很多用户在发现系统中的使用习惯与其在搜索引擎的习惯基本一致。他们不会去主动地判别所使用系统或平台的类型,而是选择方便、易用、熟悉的系统,期望在该系统中查找囊括一切的资源和服务信息[13]。西浦图书馆将发现系统的主检索框配置在网站首页最醒目位置,自然也就成为了用户尝试搜索图书资源与服务的首选。在发现系统的定位上,西浦图书馆将它规划为学术资源的一站式整合系统,已经实现在元数据层面无缝地整合物理馆藏目录、订购的电子书、电子期刊、学位论文,以及经学科馆员甄选的开放获取资源。但是,资源与服务的整合是一个循序渐进的过程,发现系统也有别于用户习惯使用的公共搜索引擎,也就意味着并非所有的资源和服务都能通过其主平台进行有效检索。
目前,Discover可检索的文献粒度主要为文章和书目层面。要查找建筑史期刊,用户应选取嵌入的电子期刊导航(E-Journals),按学科分类浏览或直接检索期刊名。对于过往试卷,图书馆建立了独立的存档系统,按照学校规定学生必须登陆个人账户才能在试卷存档系统中搜索及浏览最近三年的试卷,尚不能通过Discover访问试卷的在线版。对于参考文献的正确引用和标注,按学校教学委员会的要求西浦图书馆编制了常用引用格式指南,发布在图书馆的LibGuides[14]。针对学生经常咨询的引文格式和引文工具,西浦馆员在LibAnswers创建了此类问题的解答[15]。这些咨询类的信息分散在图书馆网站的各个版块,不能通过Discover 检索获取。
2.6 检索事件分析
据笔者前期发表的研究,用户在Discover检索结果页面中进行的分面点击、下载全文、引用文献,可以通过GA自定义的事件追踪来标记。表1统计了在选定时间段内主要检索事件发生的数量及比例。从表格的数据可以看出,点击搜索、启用扩展项和启用限定条件的检索事件数量基本相等。原因是Discover用户在点击检索时,系统将自动启用默认设置——扩展项和馆藏条件限定。启用馆藏限定条件(Available in Library Collection)将检索结果限定在本馆可访问的记录内。当然,用户可以手动移除这个限定条件,将检索结果扩大到本馆馆藏外的文献记录。调查数据显示只有极少数用户选择取消此默认的限定。在发现系统的数据处理上,只有添加为馆藏的资源才能显示全文访问的选项;馆藏外的数据,则是配置了馆际互借选项。需要特别指出的是,用户点击分面的事件数占比为8%,不及点击搜索事件的三分之一,说明多数用户习惯于直接浏览检索结果,不会利用结果页面左侧的分面功能精炼检索结果。
无论用户使用哪种检索条件,信息搜索的最终目的是获取相关的文献全文,或是保存和引用信息等。一次有效的检索,一般伴随着全文下载、引用、导出等事件。表1统计显示,在选定的时间内,用户获取全文共20 885次 (占总事件数的5.7%),包括PDF下载、HTML全文浏览及全文链接(跳转到相应数据库平台下载)等。Research Starter是Discover提供的研究主题综述性介绍,帮助用户快速了解该主题的发展背景、关键知识点和应用案例。如果用户的检索式匹配到相关主题,Research Starter则会显示在检索结果的第一行。如表1所示,用户点击浏览Research Starter共计581次。另外,在检索结果的详细记录页面,系统提供了保存、引用、导出、永久链接等工具,便于用户后续使用和引用。但是,这些事件数仅占总事件的2.96%。
3 结论和建议
用户的检索式行为是用户表达信息需求的具体实施途径,是信息搜索的核心过程。本文通过对发现系统用户的检索式的语种、主题分类、检索字段、检索策略、检索事件等检索行为进行综合分析,并对检索式质量和检索效果进行评估,总结发现系统用户的检索式行为的一般特征如下:(1)由于西浦英语教学环境的特性,用户输入的检索式以英文表达为主;(2)用户检索式表达的主题倾向于人文社科领域,自然科学领域涉及很少,这反映了西浦图书馆的人文社科资源受到用户更多的关注;(3)用户在发现系统中对检索字段功能的选用和检索策略的运用高于普通的搜索引擎,说明发现系统提供的检索字段和布尔逻辑等高级检索功能成为用户优化检索式表达的倾向性选择;(4)造成用户某些检索结果偏差的原因一方面在于他们在信息检索之前并未判别所使用的系统类型,另一方面是发现系统检索范围的局限性,使其无法完全覆盖图书馆所有的服务项目和资源信息。本文分析结果借助大量用户真实的行为数据得出,有较高的可信度和参考价值。针对上述特征和存在的问题,图书馆可以从下几个方面改进工作,为用户提供更优质的信息服务。
3.1 完善信息素养课程内容
参照分析得到的检索式行为特征,图书馆可以调整信息检索课程的设置,有针对性地干预和调节用户在检索层面的焦虑。首先,图书馆在设计信息素养课程时,要帮助用户理清数字图书馆各个系统间的应用范围、核心功能及区别,避免用户因系统选择不当而产生不能如期获取信息的焦虑。其次,针对学生使用布尔逻辑、高级检索的比例偏低,以及检索技巧使用不够熟练等问题,在信息素养教学形式上,要突出检索策略的制定和检索技巧的上机训练。此外,依据用户在发现系统的检索词主题聚类分析,图书馆可以在信息素养教学中选用用户当前关注的主题作为课堂素材或案例,使讲解更有针对性,更加贴合用户的需求。
3.2 优化“一站式”发现系统功能
图书馆必须意识到,用户需求和检索结果之间存在较大偏差的检索式,恰恰是改进系统功能的重要依据。高校图书馆应该优化发现系统的用户界面,调整功能设置,增加或突出用户实际需求的功能,降低用户界面中面向管理员操作的功能比重。例如,在发现系统中加入自定义词条匹配功能(term match)以扩充检索范围,提示用户进入正确的路径。当检索式中出现检索词past exam paper或该词的变体(past exam papers/past exampaper/exam paper/过往试卷/以往试卷)时,可以返回自定义的提示语,设问用户是否需要查找過往试卷,并提供正确的访问路径。要在发现系统中增加可检索的引文格式帮助,也可以参照设计匹配该资讯的词条,加入到发现系统后台数据库中。这样,不断地在发现系统中积累和调整匹配词条,引导用户正确地使用图书馆资源与服务。
3.3 及时更新维护馆藏资源列表
通过抽取大量检索式中期刊信息,能够帮助图书馆核对本馆订阅的期刊在Discover平台是否有漏刊现象,督促出版社及时向系统商更新期刊列表,或者由馆员手动上传适合本馆订阅范围的期刊列表,完成数据精确匹配。此外,对于那些用户有实际检索需求,却因图书馆没有订阅而拒访的期刊文章,可以及时补充到图书馆订购计划中。对于用户实际检索开放获取期刊文章的内容,由于这些开放获取期刊的元数据未添加到系统而造成用户无法访问,也需要系统管理员及时更新和维护可访问资源列表。