我国智慧图书馆体系下的知识资源建设:内涵、路径和策略分析
2022-12-20周笑盈国家图书馆
周笑盈(国家图书馆)
在智慧图书馆的运行和发展过程中,知识资源是智慧图书馆建设的基础,具有数字化、网络化、智能化、多维融合、泛在互联、情境感知、高效协同、精准增值、以人为本等特点。随着智慧图书馆时代的到来,知识资源的阐释与挖掘面临着新的课题。
从整体看,智慧图书馆具有场所泛在化、空间虚拟化、手段智能化、内容知识化、体验满意化等特点。本文基于全国智慧图书馆体系的视角探究知识资源建设的内涵与要素,提出以解构抽取、融合重构、人文呈现为主线的知识资源建设方法论模型,从数据层、组织层和消费层探索全国智慧图书馆体系下知识资源的建设策略。
1 智慧图书馆相关研究
1.1 智慧图书馆理论研究
关于智慧图书馆的理论研究,一般从新基建、数字孪生、全程智能、用户体验、数据驱动、泛在网络环境、协同理论、信息生态理论等视角论述。智慧图书馆的定义主要从哲学、技术、服务、空间、学科五个角度展开。刘炜等提出了智慧图书馆是“无人+ 自助+自动感知+精准高质量”的科技型图书馆[1],唐燕等认为智慧图书馆是“数字人文咨询+ 数据管理+ 社交协作+ 创意制作+ 劳动力孵化+ 数字人文素养培养”的综合服务体[2]。关于智慧图书馆的构成要素,有学者认为是“人+物”[3],有学者认为是“技术+资源+服务+馆员+用户”的协同体[4]。可见,智慧图书馆的关注热点在宏观层面表现为战略规划与体系管理,在微观层面表现为知识服务、用户服务与技术应用。
1.2 智慧图书馆技术应用研究
智慧图书馆技术应用研究主要从技术发展趋势和建设项目探索两个方面展开。相关技术包括:3R(AR、VR、MR)技术、标识技术、协同计算技术、模拟仿真技术、深度学习技术、神经网络、人脸识别、深度学习、RFID、微服务平台建设、人工智能、数据挖掘、区块链等。建设内容涉及:用户场景库、用户画像库、知识资源库,主要目标是为读者提供无感借阅、直播互动、智慧场馆、精准推送、智慧书房等服务。吴丹等认为,智慧图书馆服务有数据来源更加广泛、数据融合更加全面、服务更加精准化、更加注重数据隐私和安全等 4 个发展趋势[5]。
1.3 智慧图书馆的实践探索
国家图书馆“十四五”发展规划提出建设“全国智慧图书馆体系”[6],将总体架构归纳为“1+3+N”:“1”指智慧图书馆的云基础设施,“3”指搭载于其上的全国智慧图书馆管理系统、全网知识内容集成仓储和多维融合知识服务平台,“N”指在全国各级图书馆及其基层服务点普遍建立线下智慧服务空间。我国图书馆中已有应用现代信息技术积极推动资源、服务、设施、管理等领域转型创新的案例,为智能技术在图书馆的一些业务环节、服务领域的落地应用提供解决方案。如:在大数据领域,上海交通大学建设了覆盖图书馆主要业务的一站式统计平台;在人工智能领域,武汉大学图书馆建设了“百度大脑”应用;在物联网领域,深圳图书馆支持图书智能盘点、定位、防盗及街区自助图书馆;在情境感知领域,国家图书馆、福州图书馆、上海交通大学图书馆建设了 VR、AR 阅读体验区[7]。
2 知识资源建设内涵与要素
伴随知识化处理技术的提升与图书馆用户服务水平的发展,下一代智慧图书馆的知识资源建设将充分融合图书馆的资源数据、用户数据、机构数据和空间数据,利用智能标引、文本挖掘、多源异构融合、泛在互联、量化分析、多维可视化展示等技术,促进细颗粒度资源挖掘、跨领域数据关联、多维度计量分析和可视化故事表达,实现科学性数据决策、场景化阅读感知和交互式知识发现,进而促进知识资源的智慧流转和知识服务的价值再造。智慧图书馆知识资源建设涉及的要素很多,本文从数据要素、技术要素、场景要素和功能要素四个维度入手进行分析。其中,数据要素是基础,技术要素是关键,场景要素是目标,功能要素是价值体现。
2.1 数据要素
知识资源建设的基础是图书馆丰富的数据要素。图书馆是资源的集散地,长期致力于资源采集加工、知识组织和传播传承,传统图书馆的数据通常包括资源数据、用户数据和机构数据,这些数据广泛存在于管理系统中。资源数据规模大,具有跨领域、多种类、来源不同、粒度不一、格式迥异、缺乏关联的特点,跨机构的共建与资源共享为知识资源建设奠定了一定的数据基础。智慧图书馆语境下知识资源的数据要素应从全方位、立体化、资产化的角度考虑建设综合性的数据生态,在传统的以文献为基础的对象数据和元数据建设的基础上,还应新增本体数据、三维立体资源和数据集资源。用户数据不仅包括用户的基本信息数据,还应增加用户行为数据、行业监测数据。机构数据在充分梳理各成员机构的管理数据和服务数据的基础上,应向时空角度延伸,新增空间数据和业务流程数据。
2.2 技术要素
知识资源建设的条件是可被广泛应用的新型智能技术,如智能标引、文本挖掘、量化分析、关联数据、知识图谱和区块链等技术,它们为知识资源建设提供了路径和解决方案。如:利用本体技术从高层视角实现对隐性知识的显性表示,将异构资源纳入统一的知识模型中;利用知识图谱技术建立抽象的知识共享模型,达到统一的知识建模和知识表示,进而提供语义分析和个性化的知识发现服务。
2.3 场景要素
智慧图书馆背景下的知识资源服务场景可总结为空间体验服务、泛在阅读服务、情境阅读服务、虚拟参考咨询服务、虚拟在线教育服务、用户互动与反馈服务。从总体来看,知识服务是知识资源建设的根本目标,智慧图书馆的建设应该更好地整合、组织和定位资源,以帮助用户更容易、更快速、更高效地利用图书馆的资源,支持用户自主知识发现。如:为研究者提供大数据分析工具和语义检索、关系发现、自主专题生成等个性化的知识定制服务,帮助用户自主知识发现;通过智慧服务设备和智慧服务空间(如RFID、智能书架、智能门禁与人脸识别、智能展览、智能监控、智能机器人等)实现智慧服务场景的嵌入与融合;基于已有平台优势为用户提供增值服务,包括用户的个人活动管理、用户评价、阅读报告、学科分析、自动查新与科技报告等。
2.4 功能要素
知识资源建设的价值是依靠功能要素实现的,传统图书馆的功能包括社会记忆功能、知识管理功能、文化教育功能和文明传承与发展功能。智慧图书馆在新时代也承担了新的智慧服务理念和价值观,强调在具体的服务过程中,全面捕捉、记录和分析读者行为和偏好,从而融通资源优势,建立多维的服务体系和形式,其目标是促进资源挖掘从“事实—信息—智力—知识—智慧”的功能进阶(见图1)。
图1 知识获取模型框架
3 知识资源建设的方法论模型
根据数据生命周期和图书馆资源开发利用的基本模式及其理论基础,结合智慧图书馆数据类型和特点,本研究构建了“解构抽取—融合重构—人文呈现”的知识资源建设方法论模型(见图 2)。
图2 知识资源建设方法论模型
3.1 解构抽取:澄显细颗粒度知识单元
传统的书目著录往往以资源种类或篇章作为最小单元,无法充分揭示资源内容特征和发挥文献整合利用的功能,在知识元、关联数据等概念提出后,传统的文献著录单元让位于知识单元。
知识资源的聚合是解构抽取的基础,即通过文献整合、联盟性整合及跨学科互操作等方式建立大型的知识库群,汇聚海量网络信息资源、各类数字文献资源和特色馆藏自建资源,将资源的聚合视角从传统的载体形式扩展到内容、时空和知识体系。在智慧图书馆建设背景下,知识资源建设的关注点从单件文献的数字化保存与著录转向对知识内容的解构和知识单元的建设,利用语义网、知识图谱、大数据、智能计算等技术,开展对知识资源的细颗粒度内容标识、关键知识点的标签和标引建设,在对文献的形式结构和逻辑结构分析的基础上,构建细颗粒著录的数据框架[8],并根据不同层级的细颗粒度知识单元设置著录字段,最终的著录成果为XML 格式的数据信息,为资源的精细化揭示和知识化、专题化服务奠定基础。
本研究提出知识资源解构抽取的两个维度:基于知识结构的文献著录和基于文献内容的知识标引。基于知识结构的文献著录以文献的最小单元为加工单位,拆分各组成要素,得到由文献层、节段单元层和知识单元层组成的细粒度描述单元。在此基础上开展知识内容标引,标引对象一般从文献内容出发,以人物、机构、地理名称、事件或其他具有标目意义的关键词为标引单元,各个知识实体均具有属性值。如:人的属性包括姓名、性别、出生日期、国籍、所属机构、亲属关系、作品等;事件的属性包括事件名称、重要人物、主要地点、过程、结果等;地理名称的属性包括地名、年代、沿革、隶属、地理位置等;书目资源的属性包括标题、名称、出版社、责任者、语言、版权、标识号、来源等。
3.2 融合重构:泛在互联下的多维组织
针对解构抽取环节提炼出了细颗粒度的知识单位,利用知识本体、语义知识图谱等技术,按照特定的逻辑进行关联,以形成特定主题下规范有序的知识网络。泛在互联下的多维度组织通过自上而下的知识组织形式抽象出独立于领域且与资源的载体和格式无关的高层互操作层,是对知识的整理、加工、揭示、控制及有序化操作。
融合重构的核心是构建知识组织本体和搭建知识图谱。构建知识组织本体一方面包括需要复用已有的领域本体,并在此基础上补充相关元素加以改进,另一方面则需要自建本体,筛选本领域相关的元数据标准,构建术语词表,定义类和属性,完成本体模型的设计和转换。知识图谱是充分利用和有效呈现细粒度标引资源的关键方法,为深层次的资源知识发现提供了可能,知识图谱的构建主要通过语义关联和系统构建两个步骤。语义关联是指基于细颗粒度标引的知识实体属性信息,构建知识实体之间、属性之间、知识实体与属性之间的关系,通过元数据框架完成书目关系和字段的映射扩展;系统构建是通过知识获取、知识存储、知识建模和知识发布与服务四个流程完成知识图谱的运维和操作。知识图谱技术可以利用先进的挖掘算法分析图谱关联路径,对资源相关的人、事、地、时等基础要素潜藏关系进行挖掘[9],并以可视化的方式完成展示,如针对“人”的社会网络关系构建和时空轨迹构建,针对“事”的历史线索串联等。
图3 知识资源融合重构架构
3.3 人文呈现:数据可视化与故事表达
人文呈现是大数据时代的新课题,传统图书馆往往更关注数据建模、数据整合等数据处理业务,但有一项关键技能经常被忽视:清晰有效地表达数据结果的能力,即数据的人文呈现能力。数据的人文呈现是数据科学的“最后一公里”问题[10],其重点是将数据中的价值内容传递出去,智慧图书馆的知识资源呈现更需要将数据洞察力转换为数据行动力,完成数据可视化产品和数据故事化产品的开发。
本研究认为,知识资源的人文呈现主要涉及两方面内容:数据可视化与故事化表达。数据可视化强调易于理解、易于感知和易于洞察,而故事化表达则强调易于记忆、易于认知和易于体验。知识资源的人文呈现分为两个基本步骤:从数据到可视化模型(通过可视化建模)以及从可视化模型到故事化表达(通过故事化叙事)。数据呈现涉及时空维度、目的维度、场景维度:时空维度以带有空间坐标或时间信息的数据的可视化为重点;目的维度包括说明型数据呈现、解释型数据呈现、陈述型数据呈现和预测型数据呈现;场景维度包括虚拟教育服务、专题特色资源推介、立体资源整合、文化遗产实物数字化延展、空间智能导航、用户信息分析等角度。
图4 知识资源的人文呈现模型
综上所述,智慧图书馆知识资源建设的本质是立体化的数据收集、智能化的数据解构、泛在化的知识组织和全方位的知识呈现,通过知识解构、知识组织和知识呈现,达到知识融通的目的。
4 我国智慧图书馆体系下的知识资源建设策略
智慧图书馆中知识资源建设对公共图书馆馆藏资源的挖掘、展示、重构与传承具有重要的意义。本文在提出“解构抽取—融合重构—人文呈现”的知识资源建设路径的基础上,从数据层、组织层和消费层总结了知识资源建设的策略选择。
4.1 数据层:兼顾资源广度与深度的细颗粒度加工
知识资源解构的核心是构建单元层级的细颗粒度加工框架,细颗粒度加工框架是文献资源全部数据描述信息的集合,分为文献层、片段单元层、知识单元层等三个层级。
4.1.1 文献层
文献层描述文献的基本元数据信息,书目数据内容包含题名、责任者、出版信息、主题词、分类号等字段。
4.1.2 片段单元层
片段单元层依据加工对象的文献形态、逻辑结构、服务需求等确定知识资源的加工粒度,标引的对象一般按照文献结构的最小单元划分,如:图书类资源的文献结构单元一般包括:封面、题词页、书名页、出版说明、版权页、序、前言、凡例、目次、正文篇章、图表、参考文献、附录、索引、插页、后记(跋)、封底等;报纸一般以单篇文章(单个广告)作为著录单元;古籍文献结构单元一般包括:封面、版权页、题名页、牌记、序、凡例、正文各卷、跋、签条、封底等。片段单元层的著录内容包括基本信息著录、内容著录和连接著录。基本信息层包括标识符、结构类型、语种、名称、创建者、著录对象的起止页、总页数、摘要等;内容著录涉及内容层面的信息标引,包括分类号、关键词、个人名称、机构名称、地理名称、事件名称等,标引词尽量复用受控词表,在无特定受控词表的情况下,可选择自由词或依据主题设计分类标签体系;连接著录通过唯一标识符信息关联文献层和图表层,著录来源文献ID、参考文献、图表ID 等。
4.1.3 知识单元层
知识单元层在语篇和句群结构分析的基础上对知识内容的语义功能进行描述,知识单元的体量与维度并非固定的,可能存在于同一个语句中,也可能是多个语段、篇章的集合。
在划分不同层级的细粒度片段单元后,针对片段单元中抽取的人物、机构、事件、地理名称等其他具有标目意义的关键词作为标目开展知识标引,参照文献著录规则完成知识单元著录。如:针对人物知识单元的标引,除了对人物名称、性别、时代、生卒年、籍贯、职官等进行著录外,同时标引关系人物、关系事件和关系机构;针对特色知识单位的专题标引,例如对古籍钤印的印文、印章、印主等内容进行标引。
最终借助知识定位技术及单元层关联技术,在文献层、片段单元层、知识单元层之间按照聚合单元层级组织相互关联的数据ID 形成知识体系。
图5 不同层级的信息组织框架
4.2 组织层:自上而下的知识组织与专题揭示
本研究在总结知识资源融合重构的方法论模型的基础上,从学科建设、文献内容建设和知识图谱服务三个角度提出了知识资源组织与揭示的建设方向。
4.2.1 基于图书情报学的领域本体模型
在学科建设方面,本文以图书情报学为例展开论述,利用已有的学术专著梳理出图书情报学的学科体系结构,以此为基础对领域本体的概念集进行第一次分类,然后对每一个大类进行二次分类,再选择部分二级类目进行更细致的分类,所得类目即为核心概念集。根据权威图书情报学教材《图书馆学概论》《图书情报学发展导览》《图书馆学研究概论》将图书情报学的领域知识划分为4 个大类,分别为图书情报学、图书情报学研究代表人物、图书馆以及文献。
(1) 图书情报学类。该类下设3 个子类:① 图书情报学基础理论,主要研究和阐明图书情报学的研究对象、学科性质、社会职能等;② 图书情报学研究方法,主要研究图书情报学常用的研究方法,如文献研究法、访问研究法、调查研究法、实验研究法、统计分析法、历史研究法、文献计量法等;③ 图书情报学应用技术,主要研究文献保护、缩微、计算机管理等新技术如何应用于图书馆学研究。
(2)图书情报学研究代表人物类。该类下设子类:国内图书情报学者、国外图书情报学者。
(3)图书馆类。该类下设4 个子类:① 图书馆事业,主要研究图书馆历史、图书馆事业结构、图书馆联盟和图书馆法;② 图书馆业务,主要研究图书馆业务机构设置,包括文献资源建设、用户服务、特色馆藏建设、自动化管理等;③ 图书馆管理,主要研究图书馆规章制度设计、图书馆统计、图书馆工作评价与图书馆评估等;④ 数字图书馆,主要研究虚拟图书馆、智慧图书馆等。
(4)文献类。文献的子类则分别按时间、内容和载体等进行划分,在完成图书情报学领域本体框架构建后,基于对每个类的分析,可为每个类设定属性集,定义类目概念之间的相互关系,并创建若干类的实例。
4.2.2 基于文献内容的本体关系模型
采用本体建模方法,构建人物类、时间类、地点类、事件类、机构类、实物类、作品类,并设计类间关系描述模型。
人物类可细分为责任者和内容人物,同时可按性别、职业、家庭关系、社会地位等进行属性描述;机构类可细分为内容组织、责任者单位和出版单位;事件类可按军事活动、文化活动、政治活动、宗教活动、经济活动、心理活动、自然活动细分;时间类可细分为创作时间和出版时间;地点类可细分为创作地点和内容地点。
在各类知识实体细分的基础上,以文献的知识单元为父节点,定义不同知识单元间的关系,关系属性可以通过继承机制进行扩展和衍生,从而勾画出文献资源中的重要人物、组织机构和事件之间的关系,建立起知识单元网络。关系类别一般从内容特征角度进行描述,如表1 列出了部分人物、机构、时间、空间、作品等知识单元之间的关联关系。
表1 知识单元间语义关系定义
4.2.3 强化数据感知的知识图谱
知识图谱能够将知识及知识间的关系转化为可理解的视觉表达形式,特别是在浏览、研究大规模数据时,有助于发现隐藏特征和规律。本研究提出知识图谱服务的两种应用场景:关联关系知识图谱和发展变化知识图谱。
(1)关联关系知识图谱的建设对象一般为文献资源、叙词表或知识条目信息,建设内容包括资源语义网络、主题叙词表思维导图或知识条目关联图谱,一般采用旭日图、元堆图、树状图、气泡图、结构图、热力图、标签云、网络图等可视化呈现形态将知识及知识间的关系转化为可理解的视觉表达,对数据中的人、事、物等构建社会网络,理清社会关系,将用户与资源密切关联,重点关注高频出现的资源与用户信息,实现知识资源的多重关系发现。
(2)发展变化知识图谱建立在知识计算的基础上,通过文本分析、社会网络分析、知识挖掘等技术方法,揭示资源集合中内在结构特征,发现海量数字化对象中隐藏的知识脉络与演化规律。如:通过词频统计、词汇共现、时空演化技术分析资源内容特征与演化趋势;通过跨文本比对、知识片段比对的方式展示知识流变历程;通过提供文本分析工具和开放数据形式帮助用户自主完成知识发现,实现跨领域共建共治共享;通过时空叙事图谱、地图、时间轴等方式展示资源内容或社会记忆的发展变迁。
4.3 消费层:强化沉浸体验的新型数字资源建设
新型数字资源是指运用VR、AR、MR 多种数字创意技术,将原始纸质文献的物理形态在三维立体空间中形象地还原初始风貌,并进行故事化解读,为读者提供交互性、立体化和沉浸式的多维度阅读体验。新型数字资源具有虚拟性、交互性、临场感、沉浸性特征,强调为读者创设一种视觉、听觉、触觉的三维立体感受,营造虚实场景深度融合效果,产生身临其境之感。其加工对象既包括文化遗产等重要实物资源,又包括古籍特藏等传统文献内容。
4.3.1 新型数字资源的应用场景
一是主题阅读推广,遴选适用于阅读推广的内容,让用户充分了解主题资源的知识背景,完成知识解读,引导深度阅读。建设主题包括:教育、科幻、艺术、音乐、旅游、民俗、中华优秀传统文化。二是文化遗产的数字化保护与传承,针对稀缺资源,通过虚拟现实等技术创建立体影像,构筑三维立体展示空间,有效保存和传承文化遗产资源,为图书馆资源开发注入活力。建设主题包括:古籍、善本、手稿、胶片等特殊类型文献。三是图书馆馆藏特色资源推介,通过对馆藏特色资源的加工整理,构建三维影像,融合语音、图片、文字、文献链接等信息,串联人物、时间、事件、地理人文等要素,将文本、书籍、图片、人文地理和音视频等不同资源类型进行立体呈现,为用户提供系统、全面的主题化资源推介服务。建设主题包括:地域特藏文献、古籍(民国)特藏、名人大家特藏、专题领域特藏。四是红色文化资源开发,充分挖掘红色文化资源的丰富内涵,利用实物史料创作虚拟场景,增强红色教育的生动性。建设主题包括:红色文献、革命传统资源、警示教育资源、廉政文化资源。五是虚拟教育课程的开发,融合虚拟现实技术和MOOC 优势,借助多媒体、仿真、虚拟现实等技术,设计教学任务、课程、过程和细节,建设线上新型教育课程,让学习者产生沉浸式学习体验。建设主题包括:思政类、医学类、艺体类、地理类、建筑类、消防安全教育等。除此之外,还可以从立体资源整合、智能导航、游戏体验服务等角度开展新型数字资源建设。
4.3.2 新型数字资源的建设路径
一是VR 虚拟现实全景视频内容制作,利用虚拟现实技术挖掘图书馆特色资源,推动现有馆藏特色文本数据向虚拟现实内容转移,推进古籍等特色资源的深度利用。二是AR 增强现实场景可读服务,利用AR 扫描、实景拍摄、3D 建模等技术助推文旅融合,串联线下文旅资源,链接馆藏检索系统,动态展示相关的背景知识和馆藏状态。三是MR 混合现实内容制作,将虚拟场景和现实场景相结合,突破传统空间呈现形态,产生隔空互动的效果。四是虚拟漫游导航系统,对场馆进行高精度还原,将图书馆藏品以720°形态呈现在观众面前。五是历史文化时空地图,将地方重大历史文化事件与地图结合,通过时空地图方式快速浏览历史文化变迁。六是文旅知识图谱应用,采用图谱等不同知识可视化形态,将重要历史人物、文献、历史事件等百科内容全景式呈现给读者。七是其他发展创新服务,从虚拟教育服务、馆藏资源推介、立体资源整合、智能导航、文献评价、远程服务等角度开展新型数字资源建设,创新服务方式,增强服务效果,实现资料、实物、场景的深度揭示、关联、展现,乃至沉浸式体验和应用。
5 结语
知识资源是智慧图书馆建设的核心智慧,智慧图书馆知识资源的构成主要包括数据要素、技术要素、场景要素和功能要素四个部分。本文提出了“解构抽取-融合重构-人文呈现”的知识资源建设的方法论模型,“解构抽取”包括基于知识结构的文献著录和基于文献内容的知识标引,核心是构建单元层级的细颗粒度加工框架,分为文献层、片段单元层、知识单元层等三个层级;“融合重构”的核心是构建知识组织本体和搭建知识图谱,本文提出了图书情报学的领域本体模型、基于文献内容的本体关系模型和知识图谱可视化的建设方向;“人文呈现”主要涉及数据可视化与故事化表达两方面内容,本文提出了智慧图书馆背景下新型数字资源的应用场景和建设路径,希望这些有关知识资源建设的内涵、路径和策略方法的研究能对全国智慧图书馆体系构建有所助益。