大数据环境下科技资料数据化管理的分析
2020-06-03
当今世界,科学技术与经济发展、社会进步、人民生活息息相关,科技力量、创新能力成为展现综合国力的重要标示。国家对科技工作越来越重视。众多科技人员在享受科技硕果的同时,开始被科技资料的“堰塞湖”事件、共享关联度不佳、碎片信息不详等问题频频困扰,因此亟需优化已有科技资料的管理。大数据带来了信息技术的快速发展,同时也开拓了科技资料管理的新思路。
科技资料的管理内容
科技资料包含科技活动、科研项目、科技资金、仪器设备、科技成果、科技人员、科技奖励等内容。其数据一般具有信息分散、阶段性、涉及部门不唯一、经办人不固定、信息关联连接性弱等特点,具体表现为:每一个分类都是一个独立的管理点,每一个点展开后是一个可以相对独立的面。如果从枝、干、叶的简单逻辑对每个面进行角色分类,那么每个面的数据都可以被分类为“枝”信息、“干”信息和“叶”信息。科研项目这一管理点中立项编号、项目名称、项目负责人、项目总经费是“枝”信息;“干”信息就是结项号、成果登记号、奖励编号;项目实施过程中产生的信息、成果等自然成为项目这个管理点里的“叶”信息,如过程中经费使用、设备(购置)、成果(样机、论文、专利、技术法规等)。在特定的管理需求下,这些数据也存在角色交叉性,比如某个面上的“叶”也可能是另一个面上的“枝”。例如,论文、专利在科研项目中担任“叶”角色,而在成果面中则可以“枝”的角色出现。
科技资料管理现状
科技工作的角度不同,管理方法也多种多样。目前,绝大多数采用无连续性点片式数据采集,结合管理制度、档案及抽查监督等方法进行规范,借助电子表格进行管理,少量流程性管理平台的出现,在一定程度上解决了大部分的基本需求。但同时数据缺漏冗余、采集不完整、关联整合差、共享率低的问题也是客观存在的:科技工作大部分存在数据零散、时间拉锯、相关人员变动以及多次可变的现实挑战。这些都增加了基层数据管理的工作难度。目前,绝大多数的管理内容是抓主“枝”数据,突击兼顾“干”数据。采集的数据通常具有突出的流程数据特征,即数据管理集中性、数据信息不完备,以及在多阶段、不同人记录时造成采集数据的缺漏、不连续、重复等。
日常工作中便于掌握的方法是对某一阶段、某一类数据进行点片式针对性管理,记录重要节点中的关键数据信息及其走向记录。但当不同阶段、类别的相关数据需要关联和连接时,无连接、断点的弊端就显露无疑。由不同阶段、类别、人员的数据抽取来重组一个新的数据单元看似简单,但无连接性的管理,让管理人员付出几倍的劳动来完成。如果出现数据缺漏,且数据无路径追踪时,做好单元重组利用更加困难。
随着科技资源开放共享理念被广泛认同,科技资源的有效配置和优化,提高资源利用率,成为科技数据管理共享的目标。但数据冗余、数据关联性弱、枝干间信息流动不通畅,经常造成数据管理工作中的数据、信息、设备等信息共享效果不佳,减弱了利用数据和分析技术推进技术进步的功效。
随着科技资源开放共享理念被广泛认同,科技资源的有效配置和优化,提高资源利用率,成为科技数据管理共享的目标。
大数据环境下的数据化管理模式
近年来,一系列科技管理制度陆续出台,对科技提出了更高的要求。科技资料数据信息量大、数据处理速度、数据多样性、数据分类统计等特点,在大数据环境下,对于科技资料的管理,可以采用数据化管理和现代大数据技术相结合的方式,在浏览器和服务器模式下运用先进信息化手段完成数据采集、关联、共享、分析、统计等交互处理工作。
运用系统完成数据信息采录,数据之间要真实、完整、有效。系统需要实现采集信息全面、采集时间点随时、采集角色多人、数据抓取多方位等目标。系统通过流程化采录与唯一性字段关联抓取的方式,将数据以不同规则相关联,并具备分段管理、分散采集、集中查阅的功能,为后期数据的维护、验证、更新提供方便。采用建立字段关联信息,达到数据互联互通,实现了解全局、统计对比、数据监督、判断提示、规范操作、优化配置、共享服务等目标。
新的管理模式是将科技资料数据直观地展现,明确基本状况,及时发现不足之处,充分利用大数据环境下先进信息技术手段,在细化基础管理的同时,有效推动科技资源的整合共享和高效利用,改变科技设施重复投入现状,为科技工作的决策准确、科技资源的科学共享、科技创新的发展服务,打破科技信息闭塞的格局,畅通科技数据信息,发挥串联地域和内部科技凝聚力的作用。