高校科研用户画像特征分析及案例研究
2020-07-23胡振宁庞弘燊
王 英,胡振宁,杨 巍,庞弘燊
(深圳大学图书馆)
1 科研用户画像研究概述
1.1 科研用户特征研究的现状和不足
国外图书馆界学者关于科研用户特征的研究主要集中于用户对资源的访问及获取、各类信息行为等方面,多采用访谈调查与实践相结合的研究方式。如,在资源获取方面,Hayman通过访谈得知读者最关注的是专业数据库全文获取的便捷性;[1]在需求发现方面,Guo等通过研究提出浏览行为分析需求发现模型;[2]在查询行为方面,通过对高校研究人员资源类型偏好、信息搜寻行为方式的调查,提出改善图书馆服务和技术等建议。此外还包括对数字行为、共享行为及影响因素、信息行为、学术行为等方面的研究。
国内同行同样重视收集用户需求、分析其行为偏好,部分学者面向读者群体进行普遍信息行为特征研究。如,调查用户需求并提出发展建议[3]、分析学术信息获取偏好的影响因素[4]、构建移动图书馆用户偏好模型[5]、基于偏好算法改善图书馆检索系统等。[6]还有部分学者面向科研用户进行科研信息获取行为的各种专题研究。如,在行为特征方面,董欲超等采用自制科研人员信息量表调查不同级别项目中科研人员信息查询行为特征及差异性;[7]在需求模型方面,王欣等从知识需求的独特性和状态多变性角度出发,构建隐式+显式的科研用户兴趣模型,探究科研用户知识推送服务模式;[8]在技术方法与实证方面,肖诗伯等通过分析科研用户的各类特征,改进文献推荐算法,并实证文献推荐精准度的提高;[9]沙勇忠等分析特定科研机构的Web日志,揭示科研人员重要的网络信息行为特征。[10]
总的来说,图书馆界对用户行为特征和偏好的理论与实践探索已较为丰富,对构建用户画像无疑具有很好的借鉴作用,但现有研究也存在不足。如,访谈调查和问卷调查偏多,存在一定的主观性;研究内容集中于资源获取、需求、偏好等方面,对一些客观特征及网络行为特征的揭示不够全面;对用户属性特征的展示方式不够直观,用户变化的动态性也未能充分表达。
1.2 用户画像技术研究和应用现状
用户画像借助网络技术和大数据方法,能够捕捉用户的“数据足迹”,对用户属性和行为特征的揭示更加全面和客观,展示方式更为新颖独特,广泛应用于产品推荐和市场营销。国外图书馆界在用户研究中较早引入了用户画像的概念和方法,国内同行则在近三年以用户画像为热点展开多方面的理论和实践研究。
在理论研究方面,国内外研究都集中于用户画像的概念、构成要素、模型及构建方法。最早提出用户画像概念的是交互设计之父Cooper,他将用户画像定义为基于用户真实数据的虚拟代表。Guimaraes等认为,用户画像的构成要素包括用户的基本素养、文化水平、社会背景、社交情况、工作情况、交通情况、可支配时间等;[11]曾建勋指出,用户画像既包括学历、职称、职业等静态信息,也包括搜索、浏览、点击等用户行为动态数据,并特别强调精准服务需要用户画像。[12]国内外学者根据对用户画像的理解和实践探索,提出了不同的模型构建方法。Henczel提出,需求征集、数据采集与识别、问卷调查与访谈、初步成像、评估测试、动态反馈六阶段来构建和持续维护用户画像的方法;[13]许鹏程等认为,通过从用户多数据源中提取用户标签的形式来进行用户画像,是构建用户画像模型的核心,并从用户的自然维度、兴趣维度、社交维度构建三维多级用户标签体系;[14]高广尚对用户画像的七种构建方法进行了综述,并从逻辑思路、性能特点、局限性三个方面对用户画像构建方法进行了详细的比较分析。[15]
在实践应用方面,基于用户画像的图书及资源个性化推荐在国内成为热门的探索方向,并取得了实际效果。如,国家图书馆通过用户画像和资源画像构建大数据平台,[16]在特定读者群和资源群内实现“以书找人、以人找书”。在科研学术大数据精准服务方面,谢靖等采集科研用户的基本属性信息、行为日志信息、发表文献信息和社交活动信息,建立科研用户数据组织架构,通过构建用户画像和资源内容画像,将分类一致、标签匹配度最高的内容推荐给用户,从而实现千人千面的个性化资讯推荐服务。[17]国外研究者同样把用户画像技术应用于信息推荐[18]或信息过滤[19]等方面。用户画像在应用过程中也存在难点问题,国外学者Nasraoui等提出用户偏好演变是观测难点,用户画像模型改进的重点是不断增加或完善标签项以提升画像表达动态性的能力。[20]
综上所述,用户画像作为一种较为成熟的技术和方法,应更深入地应用于图书馆对科研用户的研究和服务中。本文从高校科研用户的具体科研活动入手,全面总结科研用户画像涉及的各类特征,分析各类特征的数据来源和数据特点。同时以高校科研人员为研究对象,通过相关算法分析识别用户特征,摹绘可视化的用户画像,为图书馆改进服务策略,实现有效精准的智慧化科研知识服务提供一定的参考。
2 高校科研用户画像特征分析
2.1 高校科研人员的科研活动
科研用户是高校科研创造力的来源,研究科研用户画像的特征必须围绕科研活动的全过程。科研活动主要包括科研管理活动和具体科研工作(见图1)。科研管理活动一般由具有高学术水平的科研人员来领导和组织,包括对科研人员的指导、交流、评估和激励等,是实施科研工作的根本保证。具体科研工作包括知识积累、科研立项、实验或调研、成果形成、成果发布和保存等环节。在科研过程中,时刻伴随着科研人员的各类需求,如开放获取需求、课题查新需求、学术交流需求、学术价值评价需求等,这些主观上的需求体现在科研人员围绕科研所做的具体活动和行为上,如查询信息行为、索取文献行为、网络交流行为、课题申报行为、发表文献行为等。因此,对科研全过程相关行为及需求进行收集、整理、研究并摹绘成用户画像,有利于图书馆及其他科研服务机构识别科研用户的需求、预测主客观因素的变化,有利于实现个性化、专业化、精准化的科研知识服务。
2.2 高校科研用户画像属性特征和数据来源
科研用户画像的特征随科研工作和客观信息环境的变动而变化。本文从高校科研活动的一般规律以及科研用户的个人属性、行为属性和数据属性等因素考虑,认为高校科研用户画像特征具体分为五个方面,即一般特征、角色特征、网络行为特征、科研实地活动特征、科研数据特征。这五大特征可细分为12项要素(见表1),共同组成科研用户画像。
图1 高校科研人员的科研活动过程及需求
表1 高校科研用户画像的属性、特征和数据来源
科研用户的特征兼具静态性和动态性。静态性是指在某一时间节点,我们可以较为准确地获得某个科研用户以上五项特征的完整数据,并摹绘出一幅科研用户的静态图像。静态性是相对的,而用户的动态变化是绝对的,各项特征都有可能发生改变。在一般特征上,研究成果直接展现科研能力及科研状态,研究方向会随着科研用户日积月累的科研综合素质的提升而扩展或深入;当角色转变时,其所关联的科研任务及管理活动也随着相应变动,还有可能同时承担两个以上的科研角色;随着个人素质能力提升或研究深入,网络行为特征中的浏览、共享、收藏、评论反馈、访问、查询、咨询、学习等行为亦会变动或优化;科研实地活动特征中的团队内部交流、学习、阅读、会议参与、知识咨询、经验分享、科研空间位置等会受技术及方法创新优化的影响,其方式或流程会发生改变;科研数据特征会随着科研进展和成果发布而产生较大的变化。总之,研究用户特征必须追踪用户动态的、关联的学习和研究过程,甄别全过程的动态实时数据,从而有效预测用户的动态需求。
用户画像是用户特征的直观表达,“像不像”取决于用户特征数据的准确性和完整性。为保证信息的真实性,应以用户所属单位的官方网站和科研成果数据库为基础,对各种数据来源进行判断,形成可信信息来源库。为提高信息的完整性,应多渠道、全方位、多层次地获取碎片式的动态化特征信息,并结合客观数据进行分析甄别。各类数据源可互相补充、关联,形成数据链条,佐证数据的真实有效性。
2.3 科研用户画像的数据特性
科研用户画像建立在数据及用户特征的基础上,构建科研用户画像的数据特性体现为科学性、全面性、融合性和实时性。科学性代表着科研用户的客观特点,画像模型相关特征标签源于与科研用户工作密切相关的渠道,且为非主观者提供的可公开、客观的数据。因此,以密切程度与客观数据为基础,挖掘分析出的各类特征具备客观科学性。在全面性上,与科研活动相关的渠道皆可划入收集监测范围,且表现为科研工作的全过程,数据及特征范围皆具备全面性。在融合性上,多个特征对应多个数据来源,在多源数据的融合中面临数据异构问题,且各类特征具备不同动静属性,因此注重数据融合、属性融合,并对应需求的融合,更加体现用户画像模型的融合性。在实时性上,由于科研用户的科研过程是一个动态发展的过程,其科研特点和科研活动中的各类属性都会因客观的科研环境以及个人主观的科研活动而变化,因此在用户画像数据的获取上,需要实时获取数据进行分析。
3 构建科研用户画像的技术思路和实践探索
3.1 高校科研用户画像获取模式框架
高校科研用户画像的数据以具体系统、人员及因特网为数据研判来源,采取动态监测以收集更新的特征信息。在具体特征信息处理后,析出科研用户个性化特征标签集,并据此实现精准高效的科研服务。由图2可知,高校科研用户画像获取模式框架主要由数据来源模块、数据解析模块、特征匹配模块和可视化模块组成。在数据来源模块中,通过对所属单位、图书馆和因特网所关联的信息源采取动态监测方式进行数据挖掘或人员访谈来收集原始数据。在数据解析处理模块中,对主要的网络数据如Web网页结构数据、访谈人员得到的文本数据或其他异构数据进行解析,其过程包括对原始数据的信息抽取、分词及文档融合。在特征匹配模块中,科研用户画像特征库根据五大特征,建立特征词库,并将解析完成的文本与建立好的特征词库进行匹配,得到科研用户画像特征集。在可视化模块,利用可视化技术如标签云将科研用户画像的特征集标准地表示为标签云图或科研用户的具体画像特征集合表,实现可视化。最后根据可视化结果,提供具有针对性的精准化的科研知识服务决策。
3.2 用户画像数据的获取和分析
科研用户画像的特征数据主要呈现在因特网上,但获取网络数据需要技术支撑。目前,网络爬虫技术在Web文本挖掘分析方法中的应用最为广泛,可广泛收集用户个人信息、网络行为及状态属性等网页,分析对象网页文档的主要文本摘要结构及信息字段,并进行信息抽取和解析。爬虫方法可聚焦某一特定目标,排除其他无关内容,提高信息的针对性和爬取效率。爬虫方法支持增量爬取方式,可及时监测到网络信息的改变,并洞察目标内容的最新动向,同时通过页面排序优先策略,获取指定爬取页面的更新量和新网页,这种方式有利于监测科研用户特征的动态变化。
本次案例以深圳大学化学与环境工程学院LJH教授为研究对象,选取并设定以下信息源,采用聚焦和增量爬虫相结合的方式获取网络数据(见表2)。
表2 主要数据来源
表3 爬取结果(部分数据)
爬取结果如表3所示。其中,F表示更新信息所占百分比,f为爬取频次。可见,通过频率1次和2次的遍历爬取,获得前后一个月设定内的网页更新变化,可见ID为2-4的网站更新较快,便于获得科研用户特征的动态演变。
数据解析主要是一个去噪的过程,因特网来源的数据多以HTML为架构,分析获取化学与环境工程学院科研人员的网站URL结构,对结构化文本数据进行解析,抽取数据中与标签库相关的信息,因此数据去噪是对内容正文的抽取。在抽取网页中的内容时,需要分析页面的HTML结构,解析页面的DOM数据模型,与科研用户特征标签库进行匹配,从而解析到所需要的科研用户特征值。
如表4中的科研人员研究兴趣HTML片段,通过文本匹配到科研用户特征组成中的具体特征如“职位”“研究领域”,解析其后的节点即可得到标签对应的数据。
表4 HTML节点解析(部分)
除了获取网络数据,还应注意用户本身也是非常重要且可靠的信息源。对于实地科研活动,可通过用户访谈或邮件、社交网络获得科研人员的科研状况和最新动态,形成原始资料文档,用于网络分析的补充与验证。以LJH教授为例,学院官网“现任领导”和“师资队伍”里有关信息不一致,经核实,LJH教授职务标签内容应更正为“院长(2006-2010年)”。
3.3 可视化呈现
通过对LJH教授进行的信息采集、增量爬取以及抽取解析等规范化过程,整理出相关信息(见表5),通过标签化得到LJH可视化的用户画像标签(见图 3)。
表5 收集用户画像实例特征信息
图3 科研用户画像标签云图(前、后)
本次探索只选取了部分信息来源,摹绘出一个化学教授的简易画像。比较两个时间点用户画像的不同,可追踪到LJH教授在学术研究上的两个变化,一是新发表1篇学术论文,二是新研究方向为单原子催化剂设备与应用。
4 研究总结与应用展望
4.1 研究总结
文章通过文献调研法分析国内外图书馆关于科研用户特征及用户画像技术应用现状,归纳高校科研用户的特征属性及用户画像组成要素,构建用户画像获取模式框架。案例探索选取了高校具体科研人员具象,通过网络爬虫技术获取该科研用户的特征数据并进行整理,以特征标签摹绘科研用户的科研状况,尝试表现用户画像的动态性。通过研究与实践探索,已能够采用用户画像技术摹绘单个科研用户的主要特征,并跟踪特征的动态变化。但研究尚处于初级阶段,不足之处体现在4个方面:① 信息的全面性和准确性有待提高,需在合法合规的前提下加强用户网络行为特征的采集;② 标签信息的规范化有待研究,应考虑以本体技术和受控词表建立特征词库,对大量标签数据进行管理,以便建立用户之间的关联性;③ 科研用户群体有待深入研究,需根据用户标签聚类,抽象一类用户群体的共同特征并摹绘科研群体画像;④ 个性化服务有待开展,需进一步开展文献资源画像研究,并通过用户画像技术实现精准服务和智慧服务。
4.2 应用展望
通过对科研用户个体或群体画像特征标签的精准标注、聚类分析,有利于图书馆向用户提供匹配度较高的科研服务,辅助科研人员进行高效率和高水平的科研活动。用户画像技术应用于高校科研服务,可从以下4个方面开展。
(1)应用于文献资源的智能推送。利用科研用户画像洞察个体或群体行为,为用户提供不同程度、热度、新颖度的资源文献推荐。如,根据该画像重点研究方向及其近期科研聚焦的主题热点,并通过如邮箱、机构官网、科研群聊、图书馆智能系统等交互渠道向具体科研用户推送相关学科领域的研究态势、重大项目、热点前沿、学术会议的文献资源或资讯。
(2)应用于科研项目生命周期服务。针对科研特征,掌握过程状态,依据过程提供具体需求。如在立项前提供相关研究的主题或选题定题情况,并进行选题查新;在项目申报中提供申报规范、注意事项和渠道信息;在立项后提供优质的撰文规范、相关主题或最新文献推送、刊物投稿信息等。
(3)应用于学术合作与交流。利用用户画像技术分析科研用户行为以促进群体合作,不仅可以促成学术讲座与交流活动,还可以促进实现不同部门、地区及专业领域潜在的合作、交流或竞争等。
(4)应用于便捷的科研管理与评估,包括人才评估与引进、成果评估等。科研用户画像由权威渠道获取而来,其客观地展现了科研人员的科研及成果信息,直接体现了科研人员科研经验是否丰富、学术能力的强弱,科研管理人员可以有针对性地对经验少、能力弱势的科研个体进行学术指导和鼓励,激励经验丰富、能力较强的个体突破和进取,在评估科研人员科研质量以及引进科研人员时,可以利用用户画像技术便捷、高效地进行评估。