机构知识库建设实践与思考
——以中国农业科学院棉花研究所为例
2022-07-16王倩华苗成朵
王倩华,苗成朵
(中国农业科学院 棉花研究所,河南 安阳 455000)
机构知识库(Institutional Repository,简称IR),又称机构库,机构仓储等。目前学术界对于机构知识库的定义没有统一的认识和标准,有的基于资源和服务的角度界定机构知识库,有的从机构知识库本身建设的意义及数据存储的角度进行阐述。作为学科研究的主要机构及科研产出的主要阵地,高校率先尝试机构知识库的建设实践[1]。由于学科建设及人员配备等因素,我国综合性大学、学术水平领先的科研院所机构知识库建设工作进展较好,而农业类高校和科研院所等机构知识库建设工作相对滞后一些。
1 建设目标及意义
机构知识库(IR)是一个单位知识资产的系统收集、长期保存和传播利用的管理与服务系统,在保存机构原生学术资源、科研产出评价、提高学术影响力等方面具有重要作用。
中国农业科学院棉花研究所(以下简称中棉所或CCRI)发展至今,积累了大量的有价值的科研成果,有效规范保存和展示这些成果显得尤为重要,因此,积极开展机构知识库建设,保护知识资产,实现学术成果的规范长期保存、开放存取,促进业内学术交流,提升机构学术影响力。
当科研人员开展某一领域的研究时,最快捷的途径是查阅该领域学术带头人的研究成果,然后分析该研究团队的成员关系,获取更多的相关文献信息[2]。机构知识库的建立不仅有助于科研人员查阅相关文献,还有助于了解掌握相关学科领域的专家研究动态,有利于科研人员之间互相交流,促进科研能力的提升。
中棉所自建所以来,产出中英文期刊论文、会议论文及学位论文6 000多篇,科研著作190余部,授权专利330余件,获得各类成果奖励150余项,还有作为特色资源的棉花品种100多个,以及一批行业标准、研究报告等相关科研成果,而且呈逐年增长的趋势,是棉花科研领域重要的成果产出和创新群体。而科研产出成果缺少集中保存和管理平台,知识资产长期处于低效保存利用状态,不利于知识利用和知识创新[3]。
2 建设规划
中国农业科学院棉花研究所机构知识库(CCRI-IR)软件平台的搭建及建所初期至今的历史数据回溯与中国农业科学院农业信息研究所合作完成。以后每年进行数据更新,按照中国农业科学院棉花研究所的组织架构,由所属各研究团队派专人负责数据采集、整理和提交,图书馆负责系统数据维护。第一阶段,完成基本功能需求的IR建设,实现本所机构知识库从无到有;待CCRI-IR稳定运行一段时间后,根据各研究团队的特色及需求反馈,不断拓展服务和功能。
3 建设实践
CCRI-IR的建设根据自身机构特点及研究领域特色,围绕机构学术成果的内容规划建设、平台设计开发以及相关支撑机制等层面逐步开展研究和实践。主要内容包括:①对本所产出的多种类型科研知识资产进行采集、汇聚、加工、保存、管理及共享利用。②搭建CCRI-IR门户,提供科研成果展示、学术交流平台。
3.1 CCRI-IR建设内容设计
3.1.1 基本原则
主要包括机构资源模块规划设计、数据采集处理两方面内容。其中,实现学术成果全面、准确、规范、系统典藏是机构知识库建设的基本原则。因此,数据采集和质量控制是机构库建设的重点。
3.1.2 学术成果模块规划设计
CCRI-IR建设初期,对本所的学术资源情况进行详细的调研和规划,确定要入库的资源范围、资源类型以及各资源模块的字段设计。所覆盖的数据资源类型包括公开学术资源和内部学术资源,其中公开学术资源包括已发表的中英文期刊论文、会议论文、学位论文、著作、专利、标准、棉花品种、获奖成果;内部学术资源包括棉花纤维品质检测报告、种子质量检测报告、棉花国家区域试验报告等机构内部保存的数据资源。所有呈缴的内容均有相对完整、规范的元数据,以便对资源进行详细标引。
3.1.3 入库内容处理
机构库建设的重点是入库内容的处理,包括学术数据采集、数据处理、质量控制等多个环节,数据处理流程见图1。
图1 数据处理流程
3.1.3.1 学术数据的采集。数据采集方式主要包括批量历史数据回溯、定期自动获取和更新、个人主动呈缴。为使历史成果数据回溯完整、全面,在初步采集阶段根据机构名称创建多个检索词,对建所以来公开发表的4 类学术成果,包括期刊论文和会议论文、学位论文、专利、获奖成果等类型的成果元数据进行全面回溯。由于早期机构名称(包括全称和简称以及英文名称)和作者姓名英文拼写格式等要素很不规范,加之少数拼写错误的情况,因此需要不断补充中英文机构名列表和作者英文署名格式,及时调整检索策略,并需要对不同来源的相同学术数据去重,保留高质量的数据。另外,针对本所科研学术成果的特色,人工录入了棉花品种模块的数据。
截至目前,共有6 486条学术数据成功入库,具体成果类型及数量见表1,已入库期刊论文的收录情况见表2。对比二者中、英文期刊论文数量可以看出CCRI-IR的建设已基本完成对本所公开学术成果的全覆盖,实现对本所知识资产的集中管理与展示。
表1 CCRI-IR学术成果类型及数量
表2 CCRI-IR学术成果收录情况
3.1.3.2 数据处理。对已采集的学术成果数据进行处理,主要包括成果确认、自动清洗、规则去重、自动关联等,难点在自动关联。数据关联包括“成果—二级机构”的关联及“成果—研究者”的关联。“成果—二级机构”关联,需提前预设作者与二级机构的归属关系,根据作者署名将成果自动分配到对应的二级机构。成果—作者关联包括确认作者的关联和疑似作者的关联,当成果中署名的机构与本所机构名相同(包含各种格式、拼写错误等)且作者唯一,则认为是确认的成果—作者关系。当成果中所署的机构名与本所机构名不同,或者本所机构名下多个同名作者的情况视为疑似成果,需要人工审核确认。
3.2 特色资源模块建设
3.2.1 棉花品种
中棉所自1957年建所以来,历经60多年的科研攻关和不懈努力,半个多世纪以来,已培育出100多个棉花品种,它们曾经对我国的棉花生产做出了重大贡献。“棉花品种”是中棉所的核心学术成果,是中棉所特有的品种资源,因此,在CCRI-IR的建设工作中,特意增加构建了“棉花品种”特色资源模块,把中棉所自主培育的棉花品种信息收集并集中展现出来,既提升中棉所的学术成果影响力,又方便广大育种工作者交流借鉴。CCRI-IR收录的棉花品种信息主要包括:品种名称、审定编号、育种人、品种来源、特征、产量表现、栽培要点等。
3.2.2 获奖成果
获奖成果是科研单位的拳头成果和名片,代表了一个科研单位的科研实力和学术影响力。中棉所自建所以来,经过几代科研人员的努力工作,先后获得了国家级、省部级及其他科技奖励共计152项(截至目前),其中国家奖23项,省部级奖60项。
“获奖成果”作为本所的特色资源,在CCRI-IR建设中,增加创建了“获奖成果”模块。对获奖成果的典藏,一方面,记录中棉所的辉煌历史,另一方面,也展示出这些成果的价值所在,激励和鞭策后人勤勉工作、勇于创新、出大成果。CCRI-IR收录的获奖成果信息包括:成果名称、完成人、获奖类型及等级、获奖时间、成果简介等。
目前,CCRI-IR的建设已经实现常规学术资源(包括中英文期刊论文、会议论文、学位论文、授权专利、棉花标准等)和特色成果资源(包括棉花品种和获奖成果两个模块)的全面收录典藏,预计以后1 a~2 a内陆续实现其他类型学术资源的收录工作。
3.3 机构库门户平台建设
3.3.1 建设理念
建设内容完善、用户体验良好的机构知识库门户平台,有利于全面展现本机构的学术成果和学术价值,进一步提升机构的学术影响力,吸引科技人员积极参与本所机构知识库的建设工作。CCRI-IR的建设按照统一揭示、个性展示的设计理念开展门户系统的开发,主要功能架构见图2,围绕公开成果、内部成果、特色资源3部分内容实现不同研究团队(课题)、不同学者不同层面的学术成果展示。同时面对科技人员、馆员、科研管理部门等不同用户提供多样化的权限和服务。
图2 CCRI-IR功能架构
3.3.2 建设成效
3.3.2.1 门户平台特征。CCRI-IR门户系统页面见图3(首页),页面设计以“天空蓝”为主色调,搭配象征棉花朵的白色,代表中棉所衣被天下、温暖万家。首页采用滚动照片展示本所引文量排名前五的学者,彰显他们的专家风采。首页醒目位置滚动展示本所获得的最新成果、高被引成果等重要学术成果。同时针对机构的成果总量统计、成果类型统计、期刊收录统计、二级机构等重要内容统一揭示。二级页面可以实现从资源类型、收录级别、年份、期刊、关键词、作者、二级机构等分别揭示,帮助用户快速实现成果检索及浏览。
图3 CCRI-IR门户系统页面
3.3.2.2 门户系统功能。CCRI-IR针对不同类型的用户设置不同的权限,提供多样化的知识服务。对于普通用户而言,CCRI-IR满足其成果获取、自我成果管理及同行交流的需求。用户可根据不同的分类方式快速检索和浏览学术资源,可在登录系统后提交、认领、管理个人成果。对于馆员而言,CCRI-IR赋予其对自有成果、用户及系统功能的管理权限。馆员登录系统后可对后台系统、功能配制、权限设置、用户信息维护、成果内容更新、数据分析等方面进行全面管理。对于科研管理部门,CCRI-IR可以为其提供成果自动更新、统计及趋势分析等数据支持,从而快速了解本机构的科研产出情况。例如可以从成果类型分类、发文量排行、被引量排行、论文收录类型、二级机构隶属等多角度、可视化的方式分析展示。为了提高机构、部门和科研人员参与IR 建设的积极性,系统增加了科研统计分析功能。该功能可以对机构、部门、个人的科研产出进行分项统计,对统计结果以排行榜、表格、柱状图、饼图与折线图等多种方式展示,并可输出成可编辑文档,便于后续利用。同时,为了便于按照SCI、EI、中文核心期刊等期刊指标进行统计,制定了期刊指标库,用于自动识别提交数据是否被SCI、EI 等收录。另外,增加了中科院分区,根据当年中科院分区表数据,自动识别论文分区范围。协助相关部门进一步开展学科发展规划和决策。
4 小结与思考
鉴于目前国内上线的机构知识库学术资源类型单一,内容不够丰富,一般都是期刊论文、会议论文、专利、标准等常规性学术资源,而学位论文和著作等数据信息量大的资源多数都没有收录,而各机构的特色数据资源更是没有收录,这与IR保存机构原生学术资源的功能不匹配。
利用IR内容支持科研成果管理、产出分析和科研评价,为科技人员提供个人知识管理、成果收录通知等服务,为管理人员提供重要成果自动检测、论文引证报告等服务,服务理念建设比技术平台搭建与数据的存储更重要。
4.1 CCRI-IR后续数据完善与可持续发展
目前国内IR 以存缴期刊论文、会议论文、专利、标准等居多,而CCRI-IR增加了“棉花品种”和“获奖成果”两个特色资源模块,并完成了数据采集和存缴,但对于棉花区试报告、纤维及种子检测报告等虽然架构了特色模块,但数据的后续成功存缴还有待完成。
虽然 IR 的建设对于机构的管理者和知识的生产者都具有重要意义,但无论是科技人员还是科研管理部门对IR 的建设热情普遍不高,图书馆如何和所属各部门共同推进IR 进程值得深入思考[4]。未来要积极探索IR从政策及业务上与科研管理系统相互支持,建立自存缴奖励机制及评价参考制度等,进一步明确IR建设的受益主体是研究所或高校,而不仅仅是图书馆单方面的事情。
4.2 访问权限最大程度开放
参考国内已建设完成的IR模式,目前CCRI-IR访问权限设置为部分模块开放,部分访问受限的方式。这在一定程度上降低了资源的利用率,机构内外人员交流受到一定的限制,这有悖于IR建设的初衷。建成IR不是目的,实现学术成果的广泛共享和传播才是最终目标[5]。将来要继续完善和丰富资源类型,逐步打破封闭状态,提高开放共享意识,真正达到促进学术交流的目的[6]。
4.3 针对不同用户提供精准服务
在提升用户体验、积极宣传推广的基础上,根据不同用户需求提供多维度深层次共享利用、学科规划数据支撑、科研评价分析等多样化知识服务。IR 的基础功能是知识资产的存缴管理和检索利用,但是,在CCRI-IR 的建设推进过程中却发现其与机构现行的科技成果管理系统、绩效考核评价系统等有一定的关联性,如何合理规划具有交集的不同系统或平台之间的关系,需要建设者进一步思考。