科技报告整合模式初探
2014-02-02赖院根
赖院根
(中国科学技术信息研究所,北京 100038)
科技报告整合模式初探
赖院根
(中国科学技术信息研究所,北京 100038)
针对当前科技报告共享使用研究相对薄弱的现状,分析科技报告特点及其共享使用难点,认为有必要加强科技报告的资源整合。将科技报告用户群划分为科研人员、科技管理人员和社会公众三类,根据其不同的需求,提出有针对性的资源整合模式,并对相关技术进行了详细论述。指出可从导航系统、元数据整合、关联整合和知识整合等方面开展科技报告信息资源整合工作。
科技报告;信息资源共享;资源整合;整合模式;知识整合
1 引言
科技报告是指在科学技术研究开发过程中产生的,由科研人员按照规定格式撰写,描述科研活动过程、进展和结果的特种文献[1]。近年来,科技报告在我国受重视程度明显提高。中共中央、国务院在《关于深化科技体制改革 加快国家创新体系建设的意见》中明确提出了建设国家科技报告制度的目标任务。科技部等部门正在开展一系列与科技报告相关的工作,如规章制度建设、标准规范制定和服务平台开发等。
科技报告作为一种重要的文献资源,其形成与收集只是国家科技报告制度建设的起点,更多的后续工作将随后展开。其中,实现科技报告的高效共享与有效利用是重中之重,直接关系到整个制度建设工作的价值与意义。只有积极推动科技报告的充分、合理、广泛、安全的交流与使用,才能达到服务自主创新、提高公共科技服务能力的目标,才能真正发挥科技报告作为战略性信息资源的作用。因此,很有必要加强科技报告共享使用方面的研究,并在国家科技报告制度建设初期就尽可能地对相关问题予以充分考虑。
前人对科技报告已经开展了一些研究,美国国家技术信息服务局(NTIS)对科技报告的完整性、质量、标准、密级进行了规定[2],美国航空航天局对科技报告出版发行的目标、政策、选择、标准、审核、批准制定了详细规定[3],Walter论述了撰写国防科技报告的流程和标准[4],这些主要是从形成科技报告的角度进行讲述;邹大挺等提出了我国科技报告体系建设的策略和内容[5],贺德方等提出了科技报告体系建设的框架和对策建议等[6]。这些研究从宏观层面展开,为我国科技报告制度建设的顶层设计提供了很好的借鉴参考。但是,迄今为止,有关科技报告共享使用的研究报道仍很匮乏,亟须对其中可能出现的问题、障碍、难点等进行深入分析,以提高我国科技报告的有用性、可用性和易用性。为此,本文拟先归纳科技报告文献特点,结合我国当前科技管理体制,对科技报告共享难点和资源整合的必要性进行分析, 并讨论用户对科技报告的使用需求,提出科技报告的整合模式。
2 科技报告的特点
常见的科技文献类型包括科技期刊、科技图书、专利文献和科技报告等。这些科技文献都是科研成果或生产技术经验的概括论述,因此在文献著录项上有许多相似之处。其中,期刊、图书、专利文献等属于正式出版物,科技报告属于灰色文献(非正式出版物)。除此之外,科技报告还有一些自身独有的特点。
(1)与科研项目直接相关。在来源上,科技报告一般产生于政府资助立项的科研项目,由政府部门强制呈缴并指定机构进行管理;在内容上,科技报告翔实记载科研项目的全过程,包括成功的经验和失败的教训等。虽然有些期刊和会议论文也会注明其研究受某某项目/课题资助,具体内容也与项目/课题进展相关,但这些论文的发表与科研项目/课题之间并无必然联系,叙述内容也更为简略。
(2)报告类型多样。科技报告可以是科学技术研究的过程和方法描述、结果或进展总结、研制试验结果分析、某项科学技术问题的现状和发展论述、科学技术考察经过、科研成果记录、具体问题的研究分析、技术性文件、阶段总结和纪录等,种类繁多,还可以包括正反两方面的结果和经验。在科研项目全生命周期的不同阶段会产生不同类型的科技报告,例如科研项目研发阶段的科技报告类型就包括专题技术报告、技术进展报告等。
(3)编写较为规范,有统一的编号。科技报告一般都需要按统一的编写格式撰写,题目、目次、摘要、附录等都有相应的格式规范标准,对内容也有较完整的要求。之所以需要规范编写,主要是由于科技报告不经过专家评审和出版编排,如果编写格式不进行统一将非常不利于收藏和共享。另外,科技报告还有统一连续的编号,每篇科技报告的编号永久不变,以供管理和服务使用。
(4)篇幅长短不受限制,内容翔实。期刊、会议等学术论文对内容独创性有严格要求,篇幅受到严格控制,对研究方法、试验过程、中间结果等描述较为简单。科技报告内容详实,能如实、完整地描述科研的基本原理、方法、技术、工艺和过程等,篇幅长短不受限制,时效性、技术性较强。在美国政府科技报告中,最长的科技报告多达几千页。
(5)分类分级的使用制度。与其他公开出版物不同,有些科技报告的内容可能涉及国家安全、技术秘密、知识产权等问题。为保障各方权益,通常需要采取分级分类的共享机制和模式。科技报告的使用类型可以划分为公开、涉限、涉密三类。对涉密科技报告,按照国家保密法和相关保密文献的使用规定执行;对涉限科技报告,通常采用延迟公开或限制使用范围的方式进行共享[7]。
3 科技报告整合的必要性
随着我国科学技术的快速发展,科技报告将与其他文献资源一样,数量呈现急剧增长趋势。在海量数据背景下,不可避免地出现检索冗余、信息孤岛、语义异构等现象,如何快速地进行文献定位以提高获取效率也将成为影响科技报告共享使用的重要问题。除此之外,从科技报告的特点来看,对其的共享使用还需应对以下几个方面的问题。
(1)来源渠道多的问题。不同国家有着不同的科技管理体系。OECD(经济合作与发展组织)将世界各国科技管理组织结构划分为集中型、二元型和分散型3种。我国属于集中型管理体系,在国家层面设有国家级科技管理部门,但在实际运行中科技管理职能却分散在包括教育部、自然科学基金委等在内的多个政府部门[8]。不同部门在项目/课题立项、过程管理、结题验收等环节存在差异,考核指标要求不一。即使制定了科技报告编写规范标准,不同来源的科技报告也很可能出现著录项不统一、填写内容参差不齐的现象。这既增加科技报告编目加工的难度,也不利于最终的共享服务。
(2)篇幅差异大的问题。与期刊论文等受篇幅限制不同,科技报告短则数页,长则成百上千页,这对科技报告的获取效率会有很大的影响,特别是在检索定位上。以文本检索中最常用的TF*IDF算法为例,如果采用同一算法处理几页和上千页的科技报告,在主题词权重计算上就会出现很大偏差。对篇幅很长的科技报告,如果仍采用传统的标题、关键词检索,也不利于用户对其中信息和知识的获取。
(3)涵盖内容广的问题。期刊论文等公开文献对刊载内容有严格要求,强调必须是在理论性、实验性或观测性上有新的科学创新见解,或是已知原理应用于实际中取得新进展、新发现等,因此只能以阐述作者的科学见解和研究结果为目的。科技报告涵盖内容更为广泛,这不仅体现在其覆盖自然科学到社会管理的多个领域,而且涉及多方面的科研内容,包括科学考察、理论研究、技术开发、工艺设计、工程建设、设备运行等。对同一个科研项目,也会有各种类型的科技报告。这将给文献检索带来额外的冗余,也会影响用户对特定项目/课题的特定类型的科技报告的获取。
(4)分级分类管理的问题。与其他公开文献类型不同,科技报告存在涉限、涉密等现象。一方面,分级分类管理有利于保护项目承担单位或个人的合法权益,使其能没有顾虑地跟他人共享研究成果和技术知识;另一方面,这也给科技报告的共享使用增添了复杂度。例如,在进行科技项目信息的查新查重时,就容易产生涉限涉密信息是否考虑在内的新问题。
要充分发挥科技报告在推动科技创新、服务科研管理和加强政府信息公开等方面的作用,标准化是很好的手段之一,包括数据格式的标准化、描述语言的标准化、通讯协议的标准化等,但这并不足以解决上文提到的共享使用问题。为形成结构化、有序化的资源系统,建立统一的信息资源访问和检索路径,为用户提供方便快捷的资源检索与调用服务,有必要寻求其他解决方案来提高其共享使用效率。毕竟,文献资源建设归根结底还是为了满足用户的使用需求。
信息资源整合是指将各种载体、多种形式、多种类型的信息资源,依据一定的需要,对信息资源系统中的数据对象与功能结构及其互动关系进行融合、类聚和重组,形成一个效能更好、效率更高的新的资源体系[9-10]。从该定义出发,本文认为有必要加强科技报告的信息资源整合,优化科技报告信息资源组合,以解决或缓解科技报告制度建设中可能出现的类型多样、资源异构、资源分布无序化等问题。
4 用户对科技报告的使用需求
科技报告完整而真实地记载了科研活动过程及科研成果的技术内容,既能反映科研项目完成的质量和创新程度,也能反映项目承担人的科研实力和水平。换句话说,科技报告不仅能为科研人员提供知识保障,而且能为科研管理部门提供信息支撑,保证社会公众对科研投入产出的知情权。从这个角度出发,可以将科技报告的用户群体简单划分为科研人员、科技管理人员和社会公众三类。这一点与其他科技文献类型存在一定的区别。以科技期刊为例,虽然在科学学研究中也经常用于衡量科技产出或科技实力,但很少被科研管理人员在科研项目管理过程中使用,期刊论文不属于政府信息公开中的内容。下面从用户的视角出发分析科技报告的使用需求。
对科研人员来说,借鉴参考科技报告中饱含的技术信息,来提高后续研究的技术起点和缩短研究周期是其使用科技报告的主要目的。由于科技报告对研究方法、试验过程、中间结果等有着翔实记载,使得其技术含量很高。研究表明,科研人员阅读一份科技报告可产生1280美元的效益,科技报告文献的产出投入比高达26∶1[11]。因此,努力降低科技报告全文获取成本,便捷获取所需信息或知识是科研人员对科技报告的主要使用需求。
对科技管理人员来说,其对科技报告的使用目的主要体现在3个方面:在立项阶段,利用科技报告数据进行查新查重,以有效避免不同科研管理体系中重复立项,减少财政资金的浪费;在项目实施过程中,将科技报告作为中期检查的依据来加强过程管理;在项目结题验收阶段,通过科技报告对科技成果的真实性和创新性进行判定,来把握科研项目考核指标的完成情况。从这些方面上讲,实现科技报告的查新查重,使其能对科研项目进展进行跟踪、对创新成果进行评价是科技管理人员的使用需求。
对社会公众来说,科技报告的价值体现在以下两个方面:一是科技报告是了解科技经费投入、科研成果产出的有效渠道,可以扩大公众知情权和监督权;二是科技报告作为公共财政投入的产出,理应发挥公共产品的社会价值,为社会公众利用并受益。因此,社会公众对科技报告的使用需求主要包括了解科研项目信息及其成果和便捷获取感兴趣的信息或知识。
归纳起来,科技报告的使用需求包括3个方面:(1)方便用户获取其感兴趣的科技报告全文或相关技术内容;(2)便于了解科技项目信息及其科研成果;(3)对特定科研项目进展与结果进行跟踪评价。
5 科技报告的管理与整合
按照当前构想,我国建设统一的科技报告制度将构建由国家、部门/地方和基层科研单位组成的三级组织管理体系。其中,国家科技报告管理中心负责所有公开科技报告的集中收藏、加工和服务。由于将建立统一的服务平台,将提供统一的用户界面和共同的检索方法,因而不存在平台整合的需要。因此,科技报告的整合可以从以下几方面展开。
5.1 导航系统
导航系统相对简单,但对不经常使用或初次使用系统平台的用户来说,却能很有效地发挥其作用。对科技报告而言,科研人员可能更习惯使用检索系统来查找文献,但对科研管理人员或社会公众来说却未必,因为不同用户群体关注点存在差异。在科技报告导航系统设计过程中,需要重视以下几点:其一,丰富导航方式。许多图书馆的导航系统,都以期刊名称、学科名称或文献标题等作为引导途径。这些对科技报告系统平台来说远远不够,需要根据科研管理人员与社会公众的需求将多个字段结合起来进行指引,例如科技计划、科研项目名称、项目立项年份、科研项目经费等。其二,辅以统计分析工具。对科研管理人员或社会公众,更希望从科研立项和项目管理的角度了解科技投入与产出、科研绩效等内容。如果能在导航系统中实时展示科技评价指标的一些统计结果,无疑能更好地满足用户需求。其三,努力降低信息资源更新对导航系统效率的影响。导航系统易于实现,但能否实现信息资源的及时更新是影响其效率高低的重要因素,在实际应用中有必要予以考虑。
5.2 元数据整合
科技报告产生渠道众多,涉及国家、部门和地方多个管理层次,涵盖科研人员、项目承担单位、科技管理部门、科技信息机构等不同责任主体。虽然科技报告有规范的撰写格式,能在一定程度上消除不同科技管理系统、不同学科领域和不同报告类型等对共享使用造成的影响,但不足以形成结构化的信息资源,还有许多内容需要细化。例如,有些科技计划以“课题”为单位进行立项;有些则以“项目”为单位,项目下再细分子课题。这看似无关紧要的地方,对系统设计来说却很难规避,并直接影响检索字段设计和最终的检索效率。
考虑到我国当前科研项目管理现状,笔者认为有必要对科技报告资源进行元数据整合,其目的在于:首先,通过对来自不同科技计划、科研管理机构的科技报告进行全面、详细的规范描述,实现科技报告在信息系统中的存储、管理、定位、调用等功能。实质上就是利用元数据标准来实现来源不同的科技报告的互操作问题。其次,有助于应对科技报告分级分类管理的问题。通常情况下,科技报告摘要的密级要低于科技报告的密级;涉限科技报告的元数据不会泄露技术诀窍或侵犯知识产权。通过元数据的整合,能在尽可能全的基础上进行科技项目查重查新。
在整合过程中,需要建立专门的科技报告元数据库。在元数据集的设计上,元素项侧重于描述科技报告文献特征、表征科技项目信息和管理保存科技报告。其中,描述与管理保存的元数据可以借鉴都柏林核心元数据标准[12],与科技项目相关的元数据则可以参考GILS(Government Information Locator Service,政府信息定位服务)元数据标准[13]。另外,还必须建立不同来源的科技报告著录项与元素之间的映射关系,以保证后期数据库建设的顺利实施。同时,在元数据信息与科技报告全文之间通过科技报告编号建立起一一对应的链接关系,在权限许可的前提下方便用户对报告全文的获取。
5.3 关联整合
期刊论文等文献之间存在多种关联关系,例如引用关系、相似文献等。利用关联关系提高文献获取效率已经应用得较为广泛,CNKI等门户网站上都能提供参考文献、二级参考文献、共引文献、同被引文献等多种关联文献[14]。科技报告之间同样如此,因此可以考虑通过关联关系来整合资源以提高其利用率。需要指出的是,并不是科技期刊中适用的方法都能很好地应用到科技报告中来。例如,由于部分类型的科技报告(如试验报告)可能没有参考文献,而科技报告又没有编辑审校环节,如果利用引用关系来建立科技报告之间的关联就可能存在数据清洗工作量大、精确度有限等问题。
在只考虑利用科技报告文献外部特征进行关联整合的前提下,本文认为以下几种方式值得重视。
(1)基于项目/课题名称的关联整合。以项目/课题为单位建立关联关系,一方面有利于科研人员了解特定项目/课题从立项、组织、研发到结题的全生命过程,另一方面有利于科研管理人员加强对科研项目的过程管理和实时监测。以中国科学技术信息研究所收藏的美国阿波罗计划科技报告为例,其系列报告多达11卷,涵盖生产、制造、组织、专题研究等各方面内容,这对从事相关研究的科研人员来说无疑具有重要的参考价值。
(2)基于项目/课题承担人的关联整合。在当前学术界,还存在重复申请与重复立项的现象。这其中固然与部分科研工作者科研道德水平相关,但客观上也因为当前在科研项目管理上缺乏有效的监控渠道。在建立项目/课题承担人之间的关联关系之后,不仅能够了解单一科研人员的项目申请与完成情况,而且能够监测科研人员之间的合作申请和共同研发状况。同时,这种关联关系的建立也有助于科研人员对特定对象的研究成果进行跟踪学习。
(3)基于项目/课题承担单位的关联整合。当前在分析科研机构的发展方向、学术竞争力等内容时,利用的主要是科研产出数据(如期刊论文发表和专利申请数量等),很少从项目/课题立项数量、结题数量和资助经费等维度展开研究,主要原因就在于数据获取上存在困难。建立项目/课题承担单位的关联关系,对立项审查、合作机构遴选和加强科研诚信管理等都将带来便利。
5.4 知识整合
元数据整合能在检索方式、字段等进行统一、规范处理,但无法解决数据超载和语义异构等问题,因此还需要对科技报告资源进行知识整合。在具体方式上,笔者认为可以从以下几方面展开。
(1)基于领域本体的著录标引。Ontology具有良好的概念层次结构和对逻辑推理的支持,在信息检索特别是知识检索中得到了广泛的应用。利用领域本体,对科技报告内容进行分析、识别和著录,揭示其内容特征,实现信息化整序,达成领域内关于知识和概念及概念与概念之间关系的共识,为知识组织、管理以及检索、查询等提供模型和方法。
(2)主题聚类。随着信息技术的飞速发展,跨学科、学科融合的研究课题日益增多。该现象反映在信息资源管理上,就是基于分类法的组织模式对很多研究项目来说颗粒度过大,不利于检索效率的提高。在抽取科技报告内容主题的基础上,结合项目承担单位名称等进行聚类,建立知识/主体地图来方便用户获取其感兴趣的研究内容。
(3)知识单元链接。知识单元是指文献中相对独立的、表征知识点的一个元素,是知识管理、知识计量与知识评价的最小单元;知识单元之间的关联关系是利用语义网发现新知识的重要途径[15]。利用叙词表、术语或领域本体等提取科技报告的知识单元,在此基础上建立知识仓库并形成知识网络。知识单元链接能有效解决科技报告篇幅不一的问题,不仅方便用户获取知识,而且将为知识挖掘、非相关文献知识发现等工作提供便利。
6 结语
科技报告是国家战略性的信息资源,但只有被充分共享利用才能真正发挥其价值。基于现实需求与研究现状,本文结合科技报告自身特点,讨论其共享使用中存在的难点,从用户类型划分的角度分析其使用需求。在此基础上,对科技报告整合模式进行探讨,提出要多层次、多方式地进行资源整合。整合模式包括系统导航、元数据整合、关联整合和知识单元整合。本文研究意义在于为国家科技报告制度建设提供借鉴参考,科技报告元数据和科技报告知识单元的抽取是下一步研究工作的重点。
[1]张爱霞,沈玉兰.美国政府科技报告体系建设现状分析[J].情报学报,2007,26(4)∶496-502.
[2]NTIS Section 515 Information Quality Standards [S/ OL]. [2014-01-12]. http∶//www.ntis.gov/help/quality. aspx.
[3]Requirements for Documentation, Approval, and Dissemination of NASA Scientific and Technical Information [S/OL]. [2014-01-12]. http∶//nodis3.gsfc. nasa.gov/displayDir.cfm?Internal_ID= N_PR_2200_ 002B_&page_name=Preface.
[4]Walter W Rice. How to Prepare Defense-Related Scientific and Technical Reports∶ Guidance for Government, Academia, and Industry[M]. New York∶ John Wiley & Sons, 2007∶51-62.
[5]邹大挺,沈玉兰,张爱霞.关于建设中国科技报告体系的思考[J].情报学报,2005,24(2)∶131-135.
[6]贺德方,胡红亮,周杰.中国科技报告体系的建设模式研究[J].情报学报,2009,28(6)∶803-808.
[7]贺德方.中国科技报告制度的建设方略[J].情报学报,2013,32(5)∶452-458.
[8]鲍悦华.国内外政府宏观科技管理的比较[M].北京∶化学工业出版社,2011.
[9]胡潜.个性化服务中的信息资源整合分析[J].图书馆论坛,2005,25(1)∶122-124,121.
[10]蔡翠盟.浅论图书馆信息资源整合模式及其实现技术[J].图书与情报,2009(4)∶87-90.
[11]朱东辉,文秀芳.科技报告∶一种高值高效的技术信息产品[J].情报理论与实践,2004,27(5)∶558-560,511.
[12]王松林.DC-Lib——我国数字图书馆元数据的首选[J].中国图书馆学报,2004,30(1)∶55-59.
[13]Version 2 of Application Pro fi le for the Government Information Locator Service (GILS) [S/OL]. [2014-01-12]. http∶//www.gils.net/prof_v2.html.
[14]刘淑梅,金丽娜,许南山.基于CNKI数据库的关联文献管理方法研究[J].图书情报工作,2012,56(21)∶119-122.
[15]曾建勋.知识链接及其服务研究[M].北京∶科学技术文献出版社,2012∶5-11.
Research on Integration Model of Scienti fi c and Technical Report
Lai Yuangen
(Institute of Scienti fi c & Technical Information of China, Beijing 100038)
Tee e fficient sharing of scienti fi c and technical report has important signi fi cances for construction work of scientific and technical report system of China. According to its literature characteristics, the key di ffi culties in information resource sharing and the necessity of resource integration for scienti fi c and technical report have been analyzed in this paper. Teen users for scienti fi c and technical report have been divided into three groups: scienti fi c researchers, research managers and the public, and their respective demands have been discussed. Furthermore, some targeted models of resource integration for scienti fi c and technical report have been put forward, which include navigation system, metadata integration, relevance integration and knowledge integration.
scientific and technical report, information resource sharing, resource integration, integration model, knowledge integration
G311
A
10.3772/j.issn.1674-1544.2014.01.006
赖院根(1977- ),男,博士,中国科学技术信息研究所副研究员,研究方向:知识组织、数据挖掘和科研管理。
国家社会科学基金重点项目“中国科技报告资源体系构建研究”(11ATQ006)。
2013年12月19日。