探索数字资源发现、整合、揭示新路径
——以服务大学发展视角下的专题资源门户建设为例*
2022-06-24时莹李娟陈雅迪邵晶王庆洁
□时莹 李娟 陈雅迪 邵晶 王庆洁
1 研究背景
1.1 资源门户建设现状分析
大数据环境下,图书馆对数字资源的揭示是指在庞大的图书馆资源群中,按照一定的策略和规范,通过先进的技术和手段,实现资源的精准定位与呈现[1]。国内高校图书馆数字资源服务经过多年探索,形成了资源导航、一站式发现平台、特色专题资源库、学科服务平台等多种资源服务模式,以满足师生及科研人员对资源检索与获取的需求。图书馆资源服务在助力师生的教学与科研、助力大学人才培养方面,发挥了重要的资源支撑作用。近年来,随着信息资源的愈发碎片化、多样化和海量化,如何直接获取与学科和研究方向相关的信息,并同时对多种类型资源的综合获取和利用的需求凸显,面向学科的信息门户应运而生。学科信息门户是将图书馆文献资源按学科进行分类后,提供基于某学科的一站式文献检索、筛选与获取服务,以满足某学科用户便捷查找资源的需求。
在学科信息门户的建设实践中,上海交通大学在2020年推出了基于学科聚类和数据驱动的电子资源导航系统“学术资源地图”,能够定位至教育部13个学科门类下的110个一级学科及404个二级学科的中外文期刊、图书、学位论文、会议录等类型的电子资源,实现面向学科的学术资源聚合和导航[2];东北大学根据学校学科特色,设计构建了冶金专题文献揭示发布系统,该系统收集、整合、发布“冶金工程”学科相关的期刊、图书、会议、专利等文献,提供检索、浏览相关文献的功能以及向科研人员推送相关资源的信息服务[3];武汉大学图书馆为本校“中国边界与海洋研究院”建立的边界与海洋研究资源专题门户,利用图书馆各类型数据库、互联网信息、研究论文、图书等资源,收集、整合了全球关于边界与海洋问题的资源,为边界与海洋研究领域提供资源服务[4-5];北京大学图书馆以知识服务为核心,从供给侧改革的视角,通过对信息资源的梳理、组织和整合为用户提供知识服务,并基于此理念为北京大学海洋研究院搭建了海洋学科门户[6-7]。
由此可见,专题资源门户建设逐渐成为图书馆探索资源服务的新动向,尽管在建设中存在诸多问题和难点,但是随着建设理念的不断突破、资源的不断更新、技术手段的不断改进、馆员专业技能的不断提升,专题资源门户建设思路和方法将不断得到改进和完善。
1.2 资源门户建设中存在的问题
通过对高校图书馆资源门户建设现状进行调研和分析,对存在的主要问题归纳如下:
(1)资源组织与揭示大都以图书馆传统的文献分类思维方式对各类文献资源进行组织、聚类。由于学科分类体系的不统一、不规范,导致许多学科信息门户仅有学科门类和学科方向的划分,因而缺乏针对性,主题方向不明确,知识点不聚焦,往往所提供的内容并非是学院或学科重点关注的内容,科研人员难以从中快速获取相关的资源与信息。
(2)对于商业性资源门户的引进,在资源配置方面,大都是采访馆员或技术馆员参与其中。在对各学科方向或研究方向的资源进行遴选和资源来源配置时,由于缺乏具备专业情报获取技能的馆员和专家学者的参与,因而难以对相关领域内关键词进行精确抽取,以及深层次的知识挖掘、筛选,呈现的资源内容难以体现出资源门户的专业性和权威性。
(3)现有资源门户组织呈现单一,大都以资源导航和一站式发现平台相结合的模式为用户提供检索和发现服务。即便是以某学科为重点的资源门户,虽能对读者日常查找资料提供便捷的入口,但是缺少动态跟踪相关研究前沿、研究热点的思路和机制。
(4)资源更新不及时、维护不到位、管理不便捷是资源门户建设中普遍存在的问题。调研中发现,资源更新滞后、访问限制多、链接打不开等问题居多,影响了用户使用时的体验感,对用户持续关注专题门户的吸引力不大,造成门户访问量小,建设效果不佳。
1.3 突破传统理念,探索资源发现、揭示的新思路
在我国“双一流”建设进程加速推进以及国家“新基建”“新工科”“中国制造2025”等发展战略逐步实施的背景下,大学的发展必将聚焦世界科技前沿、面向国家重大需求,不断提升自身综合实力和国际竞争力。大学图书馆作为大学的资源中心,其资源服务如何围绕学校发展战略而深化创新,从服务师生教学与科研提升到服务学校发展的层面,用创新的资源服务支撑学校发展和学科建设,这一趋势应引起图书馆的重视。在专题资源门户建设的探索实践中,我们更加意识到,图书馆不能仅停留在资源导航模式下资源的组织与揭示层面上提供服务,必须要聚焦于学校发展战略,为学校的战略布局方向提供与之紧密契合的前沿领域专题资源门户。因此,西安交通大学图书馆在“十四五”规划中,明确将服务学校发展战略、创新资源服务作为重要的行动计划之一,以服务学校发展为动力,探索创新专题资源门户建设的新思路、新方法,以期通过建设专题资源门户为学校的大平台、大项目、大团队提供更加学科化、知识化、精细化的资源服务,彰显图书馆服务学校发展和学科建设的能力与水平。
2 专题资源门户建设方案与关键实施路径
近几年,西安交通大学图书馆围绕学校发展规划和新动向,在专题资源门户建设方面做了一些尝试,在此过程中积累了不同类型专题资源门户的建设经验。归纳起来,专题资源门户的建设要点包括:技术框架与资源整合、栏目规划与资源选取、情报分析与检索策略制定、可持续性与可迭代性等,下面分别予以阐述。
2.1 技术框架与资源整合的设计
2.1.1 专题资源门户技术框架及解决方案
专题资源门户的设计架构由数据来源、接口层、数据层、算法层和应用层构成,其技术框架如图1所示,基于微应用的设计便于门户功能的迭代和完善。门户资源通过元数据进行存储和管理,数据采集后通过数据调取展示在门户前端,实现专题资源门户不同栏目下特定资源的浏览、检索、发现与获取。
专题资源门户依托学术资源发现平台、专业数据库、馆藏资源、互联网资源等,将多源异构资源整合起来,通过自动化的数据采集、数据清洗、数据标引、数据转换形成结构化的元数据,在统一的数据标准下实现数据融合,以广泛的数据资源、精准的知识提炼、明确的内容聚焦,从用户最关心的角度揭示数据内涵,构建了集高级检索、智能推荐、资源利用热点、资源引流统计、专利模块、“热词”分析、可视化展示等功能于一体的专题资源门户,为用户提供靶向性的专题资源服务。
2.1.2 资源整合的技术路线
专题资源门户中的资源整合其数据源类型有三大类:互联网资源、学术资源发现平台和专业数据库。动态信息类栏目的资源(如行业资讯、会议信息、标准动态等栏目)主要来源于互联网权威网站;科学研究类栏目(如技术领域或热点研究等栏目)的学术资源主要来自于学术资源发现平台;具有可视化功能的栏目其可视化呈现和关联检索的资源发现主要来自于专业数据库(如专利数据库)。因此,在专题资源门户实施资源整合时,有以下三类资源整合技术方案。
(1)互联网权威网站资源与动态信息类栏目的集成
针对诸如行业资讯、会议信息、标准信息等动态信息类栏目,需要集成来自互联网权威网站的信息。为了实现多源、海量、异构的互联网权威网站动态资讯的信息融合,采用信息抽取技术,实现对网页内容的自动化采集,从而集成于动态信息类栏目中,便于用户统一发现、统一浏览。该技术的难点在于不同网站的页面结构格式各异,页面内容信息混杂,无法直接套用整页内容。因此,需要构建互联网权威网站的信息采集策略。
尽管不同网站的具体页面布局不同,但其信息内容具有共同的构成要素,包括标题、关键词、发布时间、摘要、正文、链接、图片等。在信息采集前,首先构建信息采集的元数据模型,并对各要素建立信息抽取规则。抽取规则是基于同一网站的结构相似性,将目标网页上待抽取目标按照其网页路由、层级定位、关键标签形成信息抽取的依据。互联网权威网站资源与动态信息类栏目的集成技术路线如图2所示,网页信息抽取采用以下步骤进行:
①请求目标网页数据,读入网页内容,根据网页编码进行解码及结构化转换。
②清洗网页中的噪声内容,去除广告、头部导航、底部版权信息等无关信息。
③读入页面的文本内容,对页面进行全文本搜索,与关键词库的主题领域关键词匹配,根据搜索结果,对页面资讯进行主题分类。
④应用目标网页的信息抽取规则,在抽取边界内逐一遍历,匹配网页中的各信息要素,获得〈title〉标签下的资讯题名、〈p〉标签下的正文信息,〈href〉标签下的资讯链接、〈img〉标签下的资讯图片等信息。
⑤对抽取结果进行数据校验,将信息要素融合为动态信息类栏目的元数据,并根据主题分类进行信息入库。
图2 互联网权威网站与动态信息类栏目的数据集成技术路线图
(2)学术资源发现平台与科学研究类栏目的集成
由于学术资源发现平台具有海量的学术文献资源元数据仓储,在与科学研究类栏目集成时,在平台级的对接方式基础上,通过对密切相关资源的重新聚类,可为科学研究类的栏目提供海量学术资源的发现服务。其集成对接的技术路线(如图3所示)分为以下三个层级:
①数据层对接。根据专题领域的研究方向、技术热点、应用场景等信息,全面梳理其技术领域下的相关术语,构建覆盖性、扩展性查询的高级检索式。在学术资源发现平台中对构造的检索式进行全面数据抽取,形成科学研究类栏目相关资源的检索合集。
②业务层对接。对信息抽取后的数据进行深度清洗,通过数据去重消除多次抽取后的数据重复项;通过数据消歧剔除无关领域下的同类词检索结果。在数据清洗后,对相关技术研究热点的关键词进行数据聚类,生成研究方向、技术热点、应用场景下的检索导航词,并对其建立查询索引。
③应用层对接。在专题资源门户的科学研究类栏目中,嵌入学术资源发现平台的一站式搜索模块,针对诸如关键技术下相关技术、热点研究、应用领域等内容,为用户提供快速发现的分面导航功能,并呈现包括文摘、全文和文献传递在内的各类资源获取渠道。
(3)基于API接口的数据库平台与具有可视化功能栏目的集成
针对具有可视化功能的栏目,为了使专题资源门户能够直观呈现研究领域下的研究成果、快速跟踪关键信息,采用基于API接口的集成方式,实现对专业数据库的信息提取、即时渲染和交互式响应,达到多维度、细粒度的资源可视化展示效果。例如,5G专题资源门户中的“专利栏目”与“大为专利搜索引擎”专利数据库的API接口集成,可实现发明人排行、专利发明机构排行、专利发明国家排行、相关技术专利布局等的可视化呈现和数据关联检索发现。基于API接口的数据库平台与可视化栏目的信息集成技术路线(如图4所示)分述如下:
①根据信息抽取维度,获得数据库商的应用程序编程接口API的规范和授权。
②在专题资源门户的数据接口层接入专题数据库API,向数据库发送HTTP请求,获得特定领域下的专利信息数据,包括类别分布、专利发明人、归属机构、专利国别等内容。
③将返回的JSON数据进行格式转化、建立关联关系、存入可视化栏目的数据集。
④根据统计生成发明人排行、专利发明机构排行、专利发明国家排行等数据,并输入网页前端的可视化模块进行渲染。
⑤在网页前端设置交互操作的触发点。在用户产生图表的触发动作后,通过API接口建立对专利数据库的关联查询,实现细分类别下的专利数据快速发现。
2.2 栏目规划与资源选取策略
专题资源门户栏目的规划和每个栏目下资源的选取非常关键。不同类型的专题资源门户其栏目设计应根据门户服务对象的定位和其针对性需求进行规划,资源选取应尽可能选择具有专业性、权威性、实时性的学术资源发现平台或专业数据库以及互联网权威网站。因此,在门户搭建之初,首先要明确专题资源门户建设的功能和服务群体定位,以便科学规划栏目的设置和确定各个栏目的资源选取原则。下面以西安交通大学5G专题资源门户为例,进一步说明专题资源门户栏目规划和资源选取的思路。
图3 学术资源发现平台与科学研究类栏目的数据集成技术路线图
图4 基于API接口的数据库平台与可视化栏目的数据集成技术路线图
我们在对5G专题资源门户的栏目进行规划时,首先对5G关键技术和应用领域开展文献调研和情报分析,然后结合西安交通大学5G领域的发展规划,明确了5G专题资源门户的具体功能需求,即:能够实时提供关于5G的国内外权威资讯动态信息;可提供5G相关会议动态信息、国家及地方相关政策信息;能够提供5G相关标准动态信息;可实时跟踪5G关键技术及应用场景相关学术研究及研究进展的各类中外文研究文献;可实时提供专利动态信息以及全球相关专利技术布局等可视化动态信息。门户的服务对象为活跃在5G研究领域的不同学院、不同学科的专家学者以及对5G感兴趣的其他研究人员。根据5G专题资源门户功能需求及服务对象的定位,规划其栏目并分为三大类:一是动态资讯类,具体栏目包括:行业资讯、会议预告、标准动态、法律法规、相关期刊/图书等;二是技术研究/热点研究类,具体栏目包括:关键技术、应用场景、专利动态等;三是专利信息可视化栏目,从多维度呈现5G技术相关专利发展态势。通过上述栏目设置,研究人员在5G专题资源门户中不仅能及时了解掌握5G相关的动态资讯信息,而且也能便捷、直观地发现自己感兴趣的相关研究进展和应用领域研究动态。
在资源选取策略方面,对于动态资讯类栏目(如行业资讯、会议预告、法律法规、标准动态等栏目),由学科馆员事先确定相关权威性网站和行业网站(如科技部网站、工业与信息化部网站、中国通信工业协会网站、中国通讯学会网站等),以确保来源信息权威、可靠,并按照网站与栏目集成的技术方案,实现动态资讯类栏目下相关网站动态信息的整合、发现和呈现;对于技术研究/热点研究类栏目(如关键技术、应用场景等栏目),其资源选取主要利用的是海量学术资源发现平台,按照学术资源发现平台与栏目的集成技术方案,实现关键技术、应用场景栏目下的资源发现和呈现,让科研人员能迅速定位到自身研究领域,便捷地发现相关学术文献和研究进展;针对专利信息栏目,按照专利数据库API接口与栏目(专利信息栏目)的集成技术方案,实现专利信息栏目下的5G相关技术的发明专利多维度可视化呈现和相关知识发现,便于研究人员能直观地掌握5G相关技术发明最新动向和专利布局信息(如图5所示)。
2.3 情报分析与检索策略制定
专题资源门户中除了动态资讯类栏目外,技术研究或热点研究类栏目是专题资源门户的重要核心栏目,因此,特定专题的相关技术或研究热点需要学科馆员事先开展相关专题或领域的检索信息收集、技术要点和应用领域分析,梳理出相关的检索词,并最终构造出能尽可能全面地发现相关研究文献的检索式,为技术研究或热点研究类栏目提供靶向性的资源发现和聚类。
以5G专题资源门户中的关键技术和应用场景栏目为例,为了能够精准提供5G关键技术及其应用的相关研究文献,学科馆员事先需要对5G相关技术开展文献检索和情报分析,包括查阅相关文献综述及白皮书,如查阅了中国移动研究院发布的《5G VoNR+白皮书》《“智简5G”系列白皮书》,中国信息通信研究院发布的《5G应用创新发展白皮书》《5G同步组网架构及关键技术白皮书》,华为公司发布的《5G应用场景白皮书》等,多次与相关科研人员进行深入沟通,对5G专题的主要关键技术和应用领域进行系统梳理,并根据国际电信联盟(ITU)发布的5G三大应用场景,最终梳理出若干细分场景及26个关键技术点(见图6和表1),根据关键技术要点,经过反复试验、不断调整检索策略,梳理出每个关键技术所对应的关键词及其同义词;通过构造每个关键技术点的检索策略,最终构建出一个复杂的检索式,为实现关键技术和应用场景领域方面的学术文献统一发现和揭示提供了科学的检索依据。
图5 5G专题资源门户布局
2.4 可持续性与可迭代性
专题资源门户一旦建成,既要有可持续维护的机制,又要具有可迭代性。门户的可持续性维护机制包括:学科馆员根据用户需求的变化,对已建成的专题资源门户进行栏目的增设、不同栏目下预制检索策略的修订、检索词的增加或调整、集成的数据库或平台的更新,以及相关网站连通性的监测等。而门户功能也应该能够根据需求的变化易于扩展和迭代,如随着某专题下新技术的突破和新研究点的涌现,学科馆员通过追踪新的技术发展方向,不断进行情报挖掘与梳理,更新资源来源与整合策略,对呈现的资源进行更新迭代,以确保栏目资源紧扣热点前沿。并能够根据后台数据统计,对专题资源门户的访问情况、资源利用热点等进行分析,评估资源使用效果,进行功能扩展和迭代,确保资源被合理和充分使用。
3 思考与建议
近年来,西安交通大学图书馆紧密围绕学校需求与发展规划、学科建设与人才培养目标,依托图书馆的资源优势,在专题资源门户建设实践中不断探索数字资源发现、整合、揭示的新路径。例如,正在建设的5G专题资源门户、人工智能专题资源门户,为学校前沿领域发展布局、交叉学科研究人员提供靶向性资源服务;已建成的专题资源门户中,“一带一路”专题资源门户,为支撑学校“新丝路大学联盟”国际交流合作、留学生培养提供资源服务;新冠病毒研究专题门户,为学校参与全球新冠病毒研究与合作提供实时的最新进展资源服务;本校课程教材教参门户,为疫情期间学校开展线上教学提供教材教参资源保障;西安交大机构知识门户,为有效保存和管理西安交通大学知识资产、最大限度彰显学校及学者在全球的学术影响力提供支持;马列专题资源门户,为马克思学院学科建设提供专题资源服务。实践表明,专题资源门户的建设,一旦契合了学校需求和发展,不仅能盘活图书馆资源,而且可大大提升数字资源可见度与资源利用率。西安交通大学专题资源门户的建设实践,为深化数字资源服务、提升资源服务能力、支撑学校发展提供了思路。结合实践经验,在进一步深化专题资源门户建设方面提出以下几点建议供同行参考。
图6 5G应用场景
表1 5G关键技术一览表
3.1 专题资源门户建设是图书馆创新资源服务支撑学校发展的新路径
突破传统资源服务理念,创新资源服务是大学图书馆“十四五”期间的首要任务。资源服务除了服务师生教学科研外,更要服务并支撑学科建设和学校发展。因此,图书馆在做好常规服务的同时,既要密切关注前沿领域发展新动向和国家发展战略,也要紧密结合学校学科发展规划,通过创新资源服务,助力学校发展。而专题资源门户建设是拓展、创新资源服务的重要路径之一。图书馆可针对学校学科建设布局以及大平台、大项目等,有计划、有针对性地开展相关专题资源门户建设(如重点学科专题门户、前沿领域专题门户、新基建、新能源等专题门户)。利用购买的电子资源和互联网资源,对前沿领域相关的最新资源进行挖掘、组织与揭示,为学校、学院和学科发展提供专业性、靶向性和权威性的专题资源服务。
3.2 善用技术与工具加快专题资源门户的建设进程
先进的技术与工具是加快专题资源门户建设的有利保障。因此在专题资源门户搭建过程中应尽可能地采用多种技术手段或工具进行各类资源的发现、重组和呈现。其中包括灵活的资源管理工具、前端展示工具、多终端统一配置工具等。而采用基于微应用的模块化架构,保证了专题资源门户的可迭代性与可扩展性。通过资源与技术、工具的深度融合,可有效加快专题资源门户建设进程,最大限度发挥专题资源门户的作用,提升专题资源门户的服务能力。
3.3 加强与服务平台商和资源提供商的横向合作
加强图书馆与服务平台商和资源提供商的友好合作,是专题资源门户建设提质增效的关键。目前国内外学术资源发现平台在专题资源门户建设方面大都愿意与图书馆合作,在资源整合方面能积极给予集成技术支持。而数据库提供商大多持观望态度,在数据库服务方面仅限于提供基于IP的授权访问模式,而不提供基于API授权的访问模式。究其原因,主要还是对提供API访问模式究竟能带来什么益处并不了解。事实上,如果数据库商能够提供基于API授权的访问,就意味着图书馆在建设专题资源门户时,可利用数据库API接口来进行特定资源的调用和相关资源信息的发现,这是一种新的资源发现和利用方式,不仅能让用户在专题资源门户中通过特定栏目直接进入相关的专业数据库,继而浏览相关检索结果列表,也可进行相关资源的进一步检索,从而使数字资源的利用更加便捷,并大大提高数字资源、特别是专业数据库资源的可见度和利用率。随着专题资源门户的建设规模逐步扩展,基于API的访问需求会更加普遍。因此,在进行数据库谈判时,应尽可能地争取数据库商的理解和支持,促使其提供数据库API授权访问模式。此举既能提升专题资源门户的使用效果,也有助于提高数据库的利用率。
3.4 注重馆员专业技能的提升和业务部门之间的协作
创新资源服务对馆员队伍在不同领域专业知识的扩充和先进技术的综合运用、与学校各部门的协调协作等方面提出了更高的要求。因此,要将锻造复合馆员队伍和专项服务团队建设、提升综合素质和服务能力作为图书馆队伍建设的重要抓手。通过各种创新项目,组织并培育多部门协同项目团队,鼓励一人多岗、一专多能,不断锤炼馆员情报专业知识与其他专业知识及技术的综合运用能力,以项目团队促进馆员综合素质和专业技能的全面提升,从而打造一支具有敏锐力、执行力、创新力的馆员队伍,在跟踪、把握前沿领域和学校发展新动向过程中,能够应对学校、学院及科研团队多样化的需求与挑战;在服务学校发展、学科建设以及大平台、大团队、大项目中,提供专业、精准的资源服务,真正实现图书馆服务新突破。