大数据环境下政府情报研究机构档案情报开发研究
2016-02-13张鲁冀赵燕燕
刘 念,张鲁冀,赵燕燕,陈 默
(1. 北京电子科技学院 北京100070;2. 北京市科学技术情报研究所 北京100048;3. 大唐电信科技股份有限公司 北京100094;4. 机械工业信息研究院 北京100037)
大数据环境下政府情报研究机构档案情报开发研究
刘 念1,张鲁冀2,赵燕燕3,陈 默4
(1. 北京电子科技学院 北京100070;2. 北京市科学技术情报研究所 北京100048;3. 大唐电信科技股份有限公司 北京100094;4. 机械工业信息研究院 北京100037)
情报开发通常指文献情报的分析与综合过程,通过对一定时期某一课题领域进展情况的文献情报进行分析和归纳,以研究报告等多种形式提供的专题情报或系统化的浓缩情报,以满足政府部门的专门需要,或全面了解该领域的现状和发展趋势的需要。科技情报的采集工作是科技情报研究工作中的重要组成部分,也是科技情报深入分析挖掘的基础。随着信息时代的飞速发展,信息呈指数倍增长,科技情报研究人员不得不在情报采集和统计分析等基础工作上消耗过多的时间和精力,这使得科技情报研究的工作效率大幅度下降,已经难以满足情报检索和分析的实际需求。为了能准确、全面、快速地获取较为专业的科技情报,有效辅助相关部门开展科学决策并适时引导,有必要对科技情报的采集和数据分析处理技术进行深入的研究和探讨。
大数据 情报体系 档案
1 概念概述
情报是指被传递的知识或事实,是知识的激活,是运用一定的媒体(载体),越过空间和时间传递给特定用户,解决科研、生产中的具体问题所需要的特定知识和信息。英国情报学家B.C.Brooks 给情报的定义是:情报是使人原有的知识结构发生变化的那一小部分知识。
“科技计划项目档案”(以下简称项目档案),专指以国家或地方政府财政投入为主,并列入国家或地方科技计划项目,在其管理和实施全过程中形成的,具有保存价值的各种类型和载体的原始记录。
项目档案不仅是项目成果的重要组成部分(有时甚至是唯一成果),是项目管理的载体,是项目实施、验收及成果推广应用的真实记录和可靠依据,也是国家科技信息资源的重要组成部分。
目前情报学涉及的大多都是基于图书期刊文献的情报,因此许多人都认为图情档是一家。不过近几年,许多专家都呼吁情报学要与图书馆学区别开来,认为“情报学搞图书”对于学科来说是倒退,要提升情报学的地位,真正做到普通大众所认同的情报。
2 建设的必要性
2.1 内在需要
传统情报所成功的核心因素之一就是有独有的大型情报数据资源,但是,今天所有单位都能获取与情报所一样的数据资源。核心能力的缺失,使得现在国内各情报所无法突出体现其情报研究的核心竞争力。
2.2 外在必要
“大数据”理念在催生社会、技术、科学和经济变革的同时,对情报机构的情报搜索能力和情报分析能力提出严峻挑战。
科技情报从诞生之日起一直没有条件实现对情报对象的全面了解,但大数据可以帮助我们实现对情报对象的全息描述。大数据时代,科技情报从情报匮乏走过情报大众化,正在迈向情报全息化时代。科技情报机构的核心能力也从依靠独家情报来源,发展到取决于情报解读能力的强弱。大数据时代,快速情报服务的提供需要情报机构和情报工作人员具备较强的主题信息搜索能力、数据筛选与浓缩的能力、发现并判断需求的能力、数据关联搜索能力、数据归类能力、情报分析解读能力、行业专家储备能力等。
目前,情报工作中面临着两大缺失和三大不足:
①专业“大数据”缺失。传统情报所成功的核心因素之一就是拥有独有的大型情报数据资源,但是,今天所有单位都能获取与情报所一样的数据资源。核心能力的缺失,使现在国内各情报所基本上都是依附科技厅做事务性工作,情报工作已被边缘化。
②时效性缺失。目前国内的结构化数据(如:万方、CNKI数据库)只能提供1年零3个月以前的数据,使情报工作不得不建立在“历史数据”的基础上。
③全领域覆盖能力不足。过去情报所面对的领域有限,可以为每个领域单独设一个研究室,有几个或十几个研究室就能满足所有方向的任务。但是,随着学科领域细化,目前情报所需要面对的是几十个甚至上百个领域,传统方法已不能满足需要。
④情报生产速度不足。过去社会发展的节奏慢,半年甚至一年完成一份情报报告就能满足需要。但是今天的节奏使领导的要求经常是2周或一个月就必须完成一份详尽的情报报告。
⑤信息处理能力不足。信息处理是情报工作最基础最核心的部分。大数据时代,数据体量大对情报工作流程中传统的信息处理方式提出了挑战。
3 可行性
情报、档案同属社会信息资源,二者相互联系,相互补充。
从形式看,情报、档案都是知识的载体,同属文献信息资源,具有同源性、趋同性、相似性。
从载体来看,图书、情报、档案同属人体大脑之外的知识信息库。在当今知识爆炸的时代,人们的大脑已经不能完全记录所有信息,信息都必须借助于物质载体而存在,在历史长河中常用的物质载体有甲骨、缣帛、纸张、光盘、胶片等等。
从信息的角度来看,图书、情报、档案同属信息范畴。它们都可以被采集、加工、存储、利用、传递,都来源于社会生产生活实践,都可以脱离社会生产生活实践而存在,都可以反过来指导社会生产生活实践。
从管理程序来看,情报、档案的基本工作环节相同。它们都包括收集、整理、编目、标引、编辑、排架、保管和检索提供利用等,这些环节的管理方法也大致相同。
从设备上来看,情报、档案都需要相同的设备。它们都需要库房、书柜、书架等用以存放各自信息载体的设备,都可以使用声像技术、通讯技术、复印技术、缩微技术等管理手段。
情报是反映事物变化和人类活动情况的快速传递的信息材料。档案是情报的一种存在形式,是情报的重要来源。
但档案与情报又有着明显的区别,档案是第一手的原始的记录,而情报则可以是经过加工了的第二手、第三手材料,所以,档案比情报有着更大的可靠性。档案在一定的条件下可以转化为情报,即为了一定的目的,经过加工选择,用于社会交流目的的档案具有情报的属性。
智能化技术为计算机实现情报的智能搜索、智能处理奠定了技术基础,但并不能替代人。面对海量大数据,人脑的处理能力是有限的,计算机的数据处理能力在理论上却是无限的。另一方面,智能化使计算机具有模拟人的感觉和思维过程的能力,使计算机成为智能计算机,可以进行模式识别、图像识别、自然语言的生成和理解、博弈、定理自动证明、自动程序设计、专家系统、学习系统和智能机器人等。但是,情报是为实现某主体的某种特定目的,有意识地对有关事实、数据、信息、知识等要素进行劳动加工的产物。情报是经过人脑加工过的、有用的信息。目的性、意识性、附属性和劳动加工性是情报最基本的属性,它们相互联系,缺一不可。显然,计算机没有情报加工能力。在大数据时代,情报工作需要计算机技术的大力帮助,但是情报的加工分析还是离不开人。大数据时代,情报工作已从传统的“人工查找+解读”的时代走向了“机器搜寻+机器辅助分析+人对情报信息的解读”的时代,情报生产时间能从以月为单位缩短到以小时为单位,快速情报成为可能。
4 主要措施
针对这两大缺失和三大不足的解决方案如下:
①网络数据+结构化数据+专项数据的解决方案,解决两大缺失(专业“大数据”缺失、时效性缺失)。当今世界上最大的数据库就是存在于互联网的数据,也是最新的甚至可以称为即时性的数据。如果将网络数据、结构化数据和专项数据(如:海关数据、专利数据、工商数据)从情报的角度结合起来,将能使情报所拥有独有的、即时性的数据资源。其他单位很难专门为获取情报投入大量精力,也不可能像情报所那样为了情报常年维护巨大的数据资源,更不可能维持一支专业的团队,从各个角度提供数据支撑。如:情报搜索引擎需要计算机专家和情报专家共同维护,专利分析需要专门的人员投入大量时间学习,情报分析算法需要懂情报和算法的专家维护,用于寻找解读情报的专家信息系统也需要专门的力量去维护。
②改变情报生产流程,解决两大不足(全领域覆盖能力不足、情报生产速度不足)。用专用搜索引擎+专用算法+专用词汇表的技术方案可以解决任何领域的情报生产问题,即信息收集、加工、存储和分析的问题(即:情报生产流程中除了情报解读和编写情报报告之外的所有流程)。因此,在云计算平台的支持下,该方案具有同时处理几十个甚至几百个领域情报的能力,而且仅需1~3天。即便考虑情报再搜索过程,通常信息收集、加工、存储和分析所需的时间也在5天之内。通过情报分析系统将最有价值信息从海量信息中分离出来,使领域专家仅需1~2天时间就能通读核心信息。
情报解读是必须由专家完成的步骤,而通过搜索的方式和SNS理论标定专家,邀请相应的专家解读情报,明确核心观点就不困难了。编写情报报告的关键任务转化为根据核心观点对核心情报的摘录,所需时间将会大大缩短。因此,新情报生产流程的建立,能使我们在一个月的时间里完成情报报告。
[1] 贺德方. 我国科技情报行业发展方向的探讨[J]. 情报学报,2007,26(4):23-29.
[2] 蒋仕鹊. 对智慧城市背景下城建档案信息异地灾备的思考[J]. 北京档案,2015(5):40-42.
[3] 成帅. 文献增长规律的研究[J]. 科技情报开发与经济,2005,15(22):13-20.
Archives Information Development in Government Intelligence Research Institutions Under the Context of Big Data Environment
LIU Nian1,ZHANG Luji2,ZHAO Yanyan3,CHEN Mo4
(1.Beijing Electronic Science and Technology Institute,Beijing 100070,China;2.Beijing Institute of Science and Technology Information,Beijing 100048,China;3.Datang Telecom Technology Co.,LTD,Beijing 100094,China;4.Machinery Industry Information Institute,Beijing 100037,China)
Intelligence development usually refers to the process of analysis and synthesis of document information.Based on the progress of a subject area in a certain period,document information was analyzed and summarized in order to study a variety of forms such as providing special intelligence or systematic concentrated intelligence,meet the special needs from government departments,or have a comprehensive understanding of the present situation and development trend in this field.Science and technology information collection work is an important part of science and technology intelligence research work and is also the foundation of science and technology intelligence analysis mining.With the rapid development of information era,there was an exponential increase in information and science and technology intelligence and researchers have to work in intelligence collection and statistical analysis based on the consumption of too much time and energy,which makes the work efficiency of science and technology intelligence research drastically decreased and makes it difficult to meet the needs of information retrieval and analysis.In order to obtain more accurate,comprehensive and fast professional intelligence science and technology,effectively assist related department to make scientific decisions and offer timely guidance,it is necessary to carry out an in-depth study and discussion of science and technology intelligence collection and data analysis processing technology.
big data;intelligence system;archives
G27
:A
:1006-8945(2016)09-0007-03
本论文得到“北京市科技计划项目”资助,项目名称为“数字科技档案自动化与利用服务系统设计研发(Z151100003215042)”。
2016-08-26