APP下载

资源发现系统的用户信息行为分析*
——以西交利物浦大学图书馆为例

2019-05-15

图书馆研究 2019年2期
关键词:会话网页页面

(西交利物浦大学图书馆,江苏 苏州 2015123)

随着信息技术的不断发展,传统被动的服务模式已经不能满足用户的需求,图书馆经历着以“资源为中心”向“以用户为中心”的演变。“以用户为中心”也就意味着以用户信息行为为中心,因为用户是在信息行为过程中选择信息服务,其行为特征也必将指导图书馆信息服务的提供。用户信息行为有哪些特征?影响用户信息行为的因素有哪些?这些都是图书馆在设计和优化信息服务中需要考虑的基本问题。有观点表明,新时期图书馆必定要增强用户信息行为研究的功能,这将是体现图书馆服务水平的最重要标志。

就用户信息行为研究方法而言,Elke通过分析2012至2014年发表的有关信息行为研究的文献,指出在信息行为研究中,研究者主要采用访谈和调研的研究方法[1]。胡珉在介绍用户行为研究常用的7种研究方法时,认为用户调查法是信息行为研究的主要方法[2]。然而,针对数字环境下的用户信息行为的研究,或称之为数字用户信息行为的研究,Marshall指出图书馆或其他机构可以运用“数字考古”的方法,从行为导向的角度来挖掘网络用户的实际使用模式。在众多网络分析工具中,他重点介绍了Google Analytics[3]。曹梅、朱学芳也将“网络策略”纳入用户信息行为研究方法体系整体架构[4]。

本文研究以西交利物浦大学(以下简称“西浦”)为例,围绕核心问题“资源发现系统中的用户信息行为”展开探索,引入网络研究和大数据分析的手段,获取用户在资源发现系统中进行信息活动后留下的大量数据,形成多维信息,找出隐含的用户信息行为规律。这种研究方法采集用户“做什么”的行动数据,而不是“说什么”的数据,数据的生成和采集不受研究者左右,可以更加客观地获得用户群体特征和面向系统的特征信息,以期从用户行为的视角,为图书馆资源的整合优化提供参考。

1 研究对象和研究方法

1.1 研究对象的系统环境

本文研究的对象是西浦图书馆的用户群体,其所处的学校环境是中外合作大学。学校设置的专业采用全英文教学,接受中英两国高等教育质量保证体系的评估,多个学科获得国际权威专业组织认证[5]。因此,图书馆在馆藏资源建设和保障上,密切配合学科建设和评估体系要求,90%以上为英文学术资源。图书馆于2011年启动资源发现系统项目,以下对西浦图书馆资源发现系统做简要概述。

和大多数高校图书馆一样,西浦图书馆建立资源发现系统的途径是引入成熟的商业系统(EBSCO Discovery Service,EDS),通过采用云服务方式进行系统部署,节省图书馆资源建设的基础设施成本。同时,借助EDS的Web开放接口增加系统的可扩展性,实现系统服务功能的延伸。在前期研究中,笔者已经对西浦图书馆的资源发现系统(英文简称“Discover”)做了比较具体的介绍,并列举将Discover嵌入全校教学课程体系的应用案例:运用系统的Curriculum Builder功能,教师可以不离开其熟悉的学习管理平台便捷地创建该课程的阅读清单[6]。随着发现系统资源整合研究和拓展应用的不断深入,西浦图书馆的Discover已经成为其资源统一检索和揭示的强大工具,更是图书馆信息服务推广的有力手段。尽管当前国内外图书馆开始部署和应用下一代图书馆系统,如ExLibris公司的Alma。但是,通过剖析Alma的产品核心功能不难发现:面向读者服务的平台仍然是其同一公司旗下的资源发现系统Primo,也是目前唯一能够全面支持Alma的资源发现系统[7]。因此,资源发现系统至今还是数字图书馆面向用户服务主要的资源整合和揭示平台。通过挖掘用户在资源发现系统中的信息活动数据,可以集中且快捷地掌握用户群体的一般信息行为特征。

1.2 研究方法的选择

本文采用网络研究的方法,在网站页面中嵌入JavaScript脚本进行在线监测与分析。相对于常用的Web服务器日志分析方法,这种策略能整合其他在线大数据、跟踪出站链接和非页面请求类型的行为等优势。这其中应用最广泛的当属Google Analytics(GA)。调研美国图书馆学会2010年以来发布的《图书馆技术报告》,当中不乏有系统性指导GA在图书馆应用的内容[8][9][10],足见它对提升图书馆服务的价值。这些文献自然也是本文在发现系统中安装与配置GA的技术性参考文件。下文所述,西浦资源发现系统采用EDS的云端服务,技术支持由其海外EBSCO公司托管和维护,GA的部署也可以由该公司协助完成。但是GA在国内使用的稳定性存在一定的局限,国内其他图书馆也可根据自身系统环境采用“百度统计”。百度统计是百度推出的免费的专业网站流量分析工具,具有与GA相似的实现技术和功能应用[11]。

2 资源发现系统中配置谷歌分析工具

GA由谷歌公司于2005年推出,经过多次升级改进,其功能设置、分析图表已经成为网站分析的标准,是公认的最好的网站分析工具[12]。针对被分析流量的域名,GA会给出一段JavaScript代码,将这段代码加入Web页面的HTML代码里的head段中,并位于所有meta字段之后即可。这段代码会立刻开始工作,即从这段代码被添加入要分析流量的Web页的那一刻起,任何访问这个页面的动作都开始被收集和分析,但访问这个页面的用户不会感到任何变化。

2.1 建立和部署GA跟踪代码

如何建立新的媒体资源即目标网站,这里不赘述。值得注意的是西浦图书馆使用EBSCO Discovery Service(EDS),所以在GA账户中建立统计目标时需要设置的域名为ebscohost.com。与此同时,为了统计分析用户在EDS使用的检索关键词,我们需要在数据视图设置中打开网站搜索跟踪,并设定查询参数为bquery。生成的GA跟踪代码如下:

将生成的代码放置在EDS页面上,保证其出现在资源发现系统的每个用户页面上,并置于页面html代码的标记之前。

2.2 自定义GA事件追踪

网站常用的追踪模式是基于访问者的页面浏览访问行为。当访问者点击链接打开一个页面,追踪代码会把当前页面的信息和URL记录下来,并将这些信息组织生成报告。通过这些报告,研究者可知道访问者到过哪些页面,点击过哪些链接,从哪个页面离开网站。但若需要深层次挖掘用户在资源发现系统中的信息行为,仅凭这些记录是不够的。在很多情况下,访问者点击了URL后不会产生新的页面,比如最常见的全文下载。因此,我们需要借助谷歌分析的事件追踪功能,来记录不产生页面浏览的用户交互行为。

GA对于事件的定义是:“事件”指可以独立于网页或屏幕的加载而进行跟踪的用户与内容进行的互动。GA事件追踪可以针对每个事件记录四个值,依次是事件类别、事件标签、事件价值和用户行为。同一个事件类别里可以包含多个事件,并使用事件标签来区别不同的事件名称。而同一事件里又可以包含多个用户行为,研究者可以针对每个事件的不同行为计算事件的价值。

在添加事件追踪代码前,先对资源发现系统中需要追踪的事件进行整理,然后进行分类,如分面点击、限制条件增加/减少、使用普通检索/高级检索、使用各种EDS小工具等,并建立对应的事件标签,添加事件追踪代码。以下是资源发现系统用户访问全文链接的情况的统计代码:

jQuery('#FullTextLinking').click(function(){ga('send', 'event', {eventCategory: 'Full Text Linking',eventAction: 'Click',eventLabel: LABEL});});

3 数据分析

谷歌分析能够提供系列报告和图表。最新版的GA提供实时、受众群体、流量获取、行为和转化五类标准报告,其中实时报告是按分钟甚至按秒钟显示网站当前的指标状态,包括此时此刻网站上的活跃用户、每分钟网页浏览量、活跃网页、事件等信息。转化报告主要用于分析商业网站的目标、电子商务和多渠道路径,了解用户在网站上产生转化行为的事件,为网站和营销计划的调整提供数据支持。由于资源发现系统是架构于图书馆网站的功能性网页,用户基本上通过访问图书馆主页直接在平台上进行信息搜索,流量来源渠道可视为单一的直接流量。因此,实时和转化两类报告对于资源发现系统用户行为的分析并无太大意义,本文主要从受众群体和行为两类报告中选取重要指标和维度,对生成的报告进行分析和解读,揭示用户在发现服务平台上的信息行为。考虑到学期中学生和教师的信息需求集中,信息行为数据丰富,我们选取2017年2月1日至2018年1月31日西浦资源发现平台Discover上的交互数据,时间跨度为1年,包含两个完整的学期。文中数据分析所涉及的主要指标定义如表1所示。

表1 本文涉及的主要指标及其定义

3.1 数据概览

图1为GA管理面板提供的受众群体的概览图。其上部显示访问的会话数走势图(可按每小时/日/周/月显示),可以看出西浦图书馆用户访问Discover集中于学期教学周(3月~6月,9月~12月),访问量的峰值为3月和10月,信息行为活跃度呈现明显的周期性。图1下部显示主要指标的数据值及其走势图,包括用户数、会话数、网页浏览量、每次会话浏览页数、平均会话时长、跳出率等。用户访问Discover的平均会话时长约13分钟。会话时长计算分两种情况:一是用户完成会话后主动性地关闭浏览器(所有浏览页面),会话时间为用户开始进入Discover至浏览器关闭的持续时间;二是用户30分钟内与浏览器没有任何互动,Discover会自动结束当前会话,此时会话时长为用户开始进入Discover至会话自动结束的持续时间。用户每次会话浏览页数接近8页,包括检索结果页面浏览数和单个记录的详细信息页浏览数等。4.2%的跳出率表明用户会话质量非常高,反映了用户是带着信息需求来访问Discover的。

图1 用户访问Discover的数据概览(2017年2月1日~2018年1月31日)

3.2 用户分析

3.2.1 用户特征及其技术使用情况

如图2所示,西浦用户访问Discover时在语言、设备等方面表现出明显的偏好。从用户界面的语言设置来看,40.3%的用户选择使用默认的英文界面,这与西浦全英文教学环境紧密相关。但是58%的用户会重新设置简体中文作为界面语言,此类用户可能对英文界面中的各按钮或选项的含义不熟悉,使用中文界面能帮助他们节省时间,提高检索效率。从系统的用户体验,图书馆需要考虑Discover的英文界面尽量以浅显易懂的词义表述,避免因使用生僻的专业术语而影响到服务效率。从用户的信息能力培养来看,图书馆需要结合本校的教学环境,探索英语作为二语(English as a Foreign Language,EFL)环境下的学生信息素养课程体系的设置。

从设备选择来看,绝大多数用户使用电脑(包括台式机和笔记本电脑)来访问Discover,这样便于进行全文下载、文献管理和引用等操作。使用最多的四种浏览器分别是Internet Explorer、Chrome、Safari和Edge,这只表示用户本身对浏览器的偏好,而不仅仅针对Discover的访问,不同浏览器使用者的信息行为并没有明显差别。图书馆需要考虑的是不同浏览器的兼容性问题,以便为不同偏好的用户提供流畅的服务。

图2 用户访问Discover的语言使用比例和技术使用情况

3.2.2 访问者类型

访问者类型报告用来衡量一个网站吸引用户回访的能力。当用户在一个设备或一个浏览器上首次访问Discover时,GA服务器识别出一个新的ID,系统会计算成一个新用户。当检测到一个已存在的ID开始一个新的会话,系统会计算成回访用户。但如果用户切换设备或者浏览器再次访问Discover,将会被识别成一个新的ID,重新被计算成新用户。所以,前文提到的“用户数”不代表实际的用户数量原因即在此。根据统计,67.4%的新用户带来的会话数占比25%,而32.6%的回访用户产生了75%的会话数,反映了用户回访Discover时进行了大量的信息搜索行为。

3.2.3 用户访问Discover的频率

会话频率是指某个访问者在数据采集期内访问Discover的次数。图3分别从会话数和网页浏览量两个指标来分析会话频率。可以看到,有25.1%的会话来自只进行过1次会话的用户,这恰好对应了新用户带来的会话数。进行9次以上会话的用户带来的会话数占33.7%,甚至有少量用户进行过100次以上会话。从网页浏览量来看,不论用户的会话频率差异如何,平均会话浏览页数均为8左右。

图3 用户访问Discover的频率

3.3 行为分析

GA提供的行为报告描述访问者在网站上的具体行为,包括行为流、网站内容、网站速度、网站搜索和事件等子维度报告,每个子维度报告还包含更多的细分主题报告。其中网站内容子维度报告提供对所有页面、着陆页、退出网页的详细数据列表;网站速度报告给出了用户访问网站时网页加载的时间、不同浏览器的平均加载时间对比和速度建议主题报告。速度建议主题报告针对每个网页都提出了加快网页加载速度的优化建议,Discover的技术维护人员可依此提出优化网页加载速度的可行性措施,这里不展开详述。我们主要从行为流和网站搜索两个子维度的报告中分析用户访问Discover的信息行为特征。

3.3.1 行为流

行为流(Behaviour Flow)报告能够直观地显示访问者从一个网页或事件到下一个网页或事件所经过的路径,并揭示访问者在哪些内容上与Discover进行了互动。事实上,GA提供的追踪路线或路径的图形报告可以揭示访问者在网站上每一步操作的实际路径,包括沿途发生的绕路和回溯,这种报告被称为“用户流可视化”。依据选取的维度同,用户流可视化能够生成若干种专门的流报告,而行为流报告只是其中的一种。

本文选取“着陆页”为维度节点生成如图4所示的行为流报告。“节点”表示流量经过的点,点击一个节点,可以突出显示流经该节点的流量,或者查看归纳到该节点的各个网页或事件。维度节点确定了流量的基本进入点,以白色模块显示在报告的最左侧。报告主体包括绿色的网页节点以及节点之间流动的灰色“连接”纽带。“连接”表示部分流量从一个节点到另一个节点所走过的路径。连接的粗细表示该部分流量的相对规模:连接线越粗,流经该连接的流量就越多。路径有时也会以意想不到的方式环回到节点或围绕在节点周围,以灰色渐变短线显示在网页节点左右。报告中红色带有向下箭头是行为流的“退出点”,表示访问者最终离开Discover的网页位置。网页节点以“列”呈现,每列表示访问者与网站的一次互动,而GA将第一列网页节点作为行为流的起始网页,依次往后为“首次互动”“第2次互动”……。GA默认显示前3次互动,管理员可以点击“+步骤”显示更多甚至全部的互动,直至最后一个会话结束。

下面对图4中显示的网页节点所代表的Discover页面描述如下:

/eds/results-简单搜索(Basic Search)的结果列表页面;

/eds/detail/detail-检索结果的详细页面(Detailed Record);

/eds/search/basic-简单搜索(Basic Search)检索框页面;

/eds/resultsadvanced-高级搜索(Advanced Search)的结果列表页面;

/eds/search/advanced-高级搜索(Advanced Search)检索框页面。

从Discover的起始网页的流量分布来看,Discover用户主要形成了四种流量路径。66.7%的流量进入简单搜索得到的结果列表页面(/eds/results),形成此种路径的用户习惯在图书馆主页(Discover检框索内嵌在图书馆首页显著位置)内嵌的Discover检索框开始信息检索行为,其中半数用户在浏览结果列表之后,进入检索结果的详细页面,他们首次与Discover的互动就是点击自己感兴趣的结果查看文献的详细信息;14%的流量进入检索结果的详细页面(/eds/detail/detail),此类用户通过点击自己保存或者他人分享的文献详细页面的链接进入Discover开始信息行为;12.7%的流量进入Discover主页(西浦Discover主页网址为http://ebsco.cc/xjtlueds,提供简单检索和高级检索,系统默认设置为简单检索。用户可自定义检索选项限制“Search Option”),此类用户通过默认的简单检索框(/eds/search/basic)开始信息行为;3.4%的流量进入高级搜索及高级检索搜索的结果页面。我们注意到,“/eds/results→/eds/detail/detail→/eds/results”作为典型的单元出现在整个行为流中,由此可以归纳出用户信息搜索的典型模式,即浏览搜索结果→查看某条结果的详细信息→返回搜索结果,继续选取其他结果并查看其详情,这种搜索模式常用于开放式主题检索。

图4 用户在Discover中的行为流(仅显示前3次互动)

3.3.2 网站搜索

Discover是图书馆资源的一站式检索工具,其价值体现在用户是否通过该工具进行了有效的搜索,而不是局限在对网站的点击访问。从表2中看出,86.4%的会话在着陆后至少进行了1次搜索。每次搜索后,用户平均浏览了1.8个搜索结果页面,这说明用户在搜索信息时通常只关注检索结果的前2页。由此可见,检索结果的相关度排序将直接影响用户的信息行为。搜索后平均停留时间是指执行搜索后用户在网站的平均停留时间,如果一个会话有多次搜索,则前几次搜索停留时间分别是指相邻两次搜索的间隔时间,最后一次搜索停留时间是从最后一次搜索发生到用户离开网站的时间。用户平均花费约5分钟的时间来浏览每次搜索得到的结果。

表2 用户在Discover上搜索行为的度量

搜索优化率、退出率和平均搜索浏览页数是分析Discover是否很好地实现其资源获取功能的三个主要度量。当用户完成一次搜索后又立即进行了另一次的搜索,我们基本可以定义后一步搜索是优化搜索。搜索优化率也就是优化搜索的次数除以总的搜索次数。优化检索通常是用户为了缩小/扩大搜索范围或者改变搜索目的而产生的行为,至于其提高或是降低信息搜索的质量则需要分情况讨论。例如,用户以“Chinese restaurant”为关键词开始检索,然后改进为“Chinese restaurant South Beauty”或者“Chinese restaurant in Seattle”。用户通过多次优化搜索逐步表达其信息需求,他们一开始可能就意识到检索词的模糊性和不确定性,期望借助后续优化对得到的结果进行探索。但前提是Discover能够灵敏地相应优化搜索后的相关度反馈,毕竟用户最终的信息行为目的是获取与搜索关键词高度相关的结果项。对于检索词含义明确/具体/单一的信息需求,如果出现较高的优化率,则表明搜索结果的相关度排序存在问题。

搜索退出率指搜索退出次数除以总的搜索次数。当用户的搜索同时表现出很高的优化率和退出率,则说明该信息搜索行为的效率较低。相反,退出率和优化率越低,同时平均浏览搜索结果页数越少,那么说明信息搜索越有效,效率越高。表2列举的是全部搜索行为的平均度量值,其中搜索优化率较高,退出率和平均浏览搜索结果页数都较低,但无法明确判定信息搜索的效率高与低。后续研究将通过分析检索词是明确/具体/单一还是开放式主题,进一步揭示高优化率的原因。

4 结论和启示

本文运用网络分析工具,已经初步获取西浦图书馆用户在一站式资源发现系统Discover中的信息行为的一般特征,为优化图书馆资源整合提供了基础的客观依据。但是,探索数字环境下用户的信息行为是一项极为复杂的过程,需要从多个维度综合分析影响用户信息行为的主导因素。鉴于篇幅的限制,对于用户的信息检索式行为——检索词的选择、检索式的构建、检索式的效果,不能展开分析和讨论。

后续关于用户信息行为的研究,将从几个方面入手:深入用户的检索式行为分析,可以针对性干预和调节用户信息检索层面的焦虑;综合运用多种研究手段,探究隐含在用户信息行为背后的真实心理和需求;进一步挖掘用户细分群体的信息行为特征,如教师、普通职员、本科生、研究生等不同类型的用户群的信息行为分析特征,实现发现服务平台针对不同类型用户提供个性化功能;尝试对更多平台的用户行为的数据监测,探索图书馆不同平台间用户行为流和使用偏好的情况,进而提升图书馆各在线用户平台的使用便携性与功能整合性,实现“以用户为中心”的目标转变和优化。

猜你喜欢

会话网页页面
刷新生活的页面
答案
基于HTML5与CSS3的网页设计技术研究
QQ和微信会话话轮及话轮转换特点浅析
让Word同时拥有横向页和纵向页
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
基于集群节点间即时拷贝的会话同步技术研究①
年龄大小的种种说法