科研大项目档案“暗数据”管护变革路径探析
2023-12-13王雪萍
■王雪萍
在大数据时代,科研大项目所产生的数据呈现爆炸式增长,这些科研大数据产生后多数即被封存起来,未被及时整理和提供利用,被称为“暗数据”。通过分析大数据视角下科研大项目数据管理面临的挑战,提出科研大项目档案“暗数据”管护变革措施,引起科研档案界的重视,对这些科研宝贵数据加以挖掘,实现知识管理,最终达到融合、创新与发展。
一、科研大项目数据管理带来的挑战
多媒体、移动化、云技术、大数据是未来科研大项目档案管理要面对的现实,这是档案载体和存在形式变革所带来的挑战。科研院所在调研、启动立项、实施过程、中期检查、结题验收、推广应用及后期评估等过程中产生的科研大数据,有科研项目管理和研究过程中积累的大量科研历史数据,也有在科研过程中实时生成的日常数据,还有基于原始数据开放共享挖掘分析产生的开放数据,这些数据成为科研大项目数据库。而在科研结题验收后,并未对这些大项目数据资源进行开发利用,未能根据科研需要构建大项目知识库,还是停留在数据库阶段,这些“暗数据”在大数据视角下给科研大项目数据管理带来严峻挑战,具体表现:
(一)如何保存科研大项目档案所取得的科研软成果是首要考虑问题
如当前中国科学院在实行“率先计划”行动,组织全院力量共同实施跨机构、跨学科、跨领域等“三跨”科技专项,启动战略性先导专项A 类、B 类和C类三种。这些战略性先导项目旨在解决国民经济难题,中国科学院昆明动物所承担的《动物复杂性状的进化解析与调控》专项系统,解析动物复杂性状这一长期悬而未决的重大生物学问题,揭示动物复杂性状形成的黑箱,实现动物复杂性状的可追溯、可预测和可调控。在专项实施过程中,构建了国内公共组学大数据平台GSA 数据库。再比如中国科学院海洋研究所承担的“热带西太平洋海洋系统物质能量交换及其影响”专项中,突出成果之一构建海洋先导专项数据管理与可视化平台,这一可视化平台将专项所取得海洋数据实时存储在平台数据库中。这些作为战略性先导科研项目的软成果,如何保存,在档案领域中,如何支撑体现其所取得的亮点工作成果,并确保未来能得以利用,已成为当前档案人员亟需探索的问题。
(二)多样化的科研大数据多级多层存储管理安全问题有待得到保障
科研大项目所产生的大数据存储平台不同,存在异构。如何将这些多样化的科研大数据存储集成在同构的档案数据库平台中,有待进一步探讨,这些多样化多级多层存储管理的科研大数据给档案安全带来挑战,科研工作者在利用这些科研大数据时,如何满足利用者的检索使用要求,如何确保科研大数据的存储安全、利用安全及传输安全,使得其能真正起到保护科研工作者成果的作用,又能保证科研大数据档案的安全性和隐私性。
(三)科研大数据信息的爆炸式增长给档案的存储速度带来挑战
卫星遥感数据、天文观测数据、生物数据等,这些数据的增长速度远远超越档案存储速度,同时这些数据还处在动态演变中,信息技术能力提升已落后于数据体量增长速度。科研大数据的增长速度之快是大数据时代的突出特点,这些迅速增长的大数据来自方方面面,有历史记录有实时更新和挖掘分析得来,往往像过眼云烟一样还来不及加以保存却已被覆盖。
(四)科研大数据的挖掘给档案提供利用服务指明新方向
当前大数据时代,针对这些爆炸式增长的科研大数据,其未能被深入挖掘,获取的价值较小,档案人员未能对其进行深入分析挖掘,大数据现象将长期存在。在2016 年的数据冰山报告中提出,52%的数据产生后被封存未提供利用和处理,这些数据被称为“暗数据”。档案中也存在较多“暗数据”,这些“暗数据”将很长时间占据主导位置,为了促进科研数据产生大价值,需考虑如何对“暗数据”进行挖掘分析,对其进行知识管理,使其达到最大价值。如何在海量信息中快准全对其进行有效检索困扰着档案人员,需要发挥大数据的大价值。
(五)科研大数据信息的迁移给档案数据库管理系统带来挑战
当前异构档案数据库管理系统未能满足科研大数据信息的迁移,即如何从分散的技术环境中迁至可共享的技术基础设施中,以及如何再向未来更先进的技术环境进行迁移困扰着技术人员,因为技术发展不会停下来。同样科研大项目数据也不会停止,管理系统技术要能与时俱进,兼容技术的发展,完成数据迁移备份,使得科研大项目数据得以完全的迁移。
二、科研大项目“暗数据”管理存在问题
(一)科研大项目数据管理职责有待进一步理顺
针对当前科研大项目主管部门,有科技部牵头负责的国家重点研发专项,有中国科学院牵头负责的战略性先导专项,还有国家发改委、工信部等各自牵头负责的大科学专项,甚至还有交叉共同负责的国之重器等重大基础设施建设专项,如C919 国产大飞机、FAST 中国天眼500 米射电望远镜、深海奋斗者号、中国散裂中子源等涉及众多单位共同参与攻坚完成的。在对这些科研大项目进行研究时,专项牵头单位与各参与单位之间有关科学数据、档案数据的职责未能明晰,造成验收后各自存放,更有甚者,科学数据和档案数据未能实现平台共享。
(二)档案管理部门自身条件有待进一步提升
很多科研大项目取得研制的样机、基因组数据库、品种全过程数据等资料,这些数据作为科研项目的亮点成果,是科学家辛勤劳动的结晶,档案部门如何说服其归档并能完好提供利用,即如何使得这些科研项目大数据档案安全可用,困扰着多数科研院所档案人员。当前档案人员不敢轻易收集,在未想清楚并确保措施得当的前提下,这部分科研大数据尚未归档,如何才能更有效解决科研档案管理的“管理难、利用难”问题。
(三)科研档案与科研数据关系有待进一步整合
当前档案管理部门负责接收的科研大项目档案包括科研全过程档案,涵盖科研项目立项、研究、验收及后期评估等流程档案,涉及档案分类有管理类、科研过程类、科研设备类、验收类等,完全体现科研大项目档案的全生命周期理论。而科技部在重点研发专项管理中,侧重对科研数据汇交要求,并制定了科研数据汇交管理办法,各专项根据汇交办法按时将科研数据提交数据银行(数据中心)经审核后,给予汇交凭证。如今科研档案与科研数据双向要求,给科研人员带来极大不便,有必要对双向要求进行整合,使得数据之间可互通、共享。
三、科研大项目档案“暗数据”管护变革路径
(一)贯彻资源为先,保证科研大数据质量
档案信息资源是科研档案的核心,在技术变迁环境下文件档案的存在形式经历模拟态到数字态,尚未跟随技术变迁发展到当今的数据态。在模拟态中,科研文件档案以实体保存的档案为管理对象,其资源是实际存在的,即为物理状态,主要有文本文件、图形文件等。当前科研档案包括科研成果、科研产品研制文件、设计文件、技术改造方案、图纸等重要资料,这些尚处在由模拟态向数字态转变中,当今对大型科研项目档案进行验收时,已明确要求对档案信息化建设、电子文件进行验收检查。但是当前的科研档案已呈现出数据态形式,如中科院昆明动物所开发的GSA数据库,涵盖植物、动物、人类、病毒细菌、宏基因组等数据,这些数据库数字态管理空间不再是以载体为中心的管理空间,而是以数据、规则、模型为对象进行管理。因此,在大数据时代,应加强对科研数据资源质量的管护,确保资源齐全、完整、准确。
(二)转变管理模式,前置科研大数据管护
科研档案应做到“四同步”管理,但是仍然存在被动管理现象,待科研项目要结题验收时开始根据要求“造档案、补档案”,而后补的档案材料前后不符,逻辑关系存在较大问题,这些后端补管理无法与项目同步,无法反映科研全过程。因此,提倡变被动为主动科研管理模式,加强科研项目档案战略性管理,事后管理变事前管理,主动有针对性地管理和服务,贯穿科研项目生命周期中产生的文件,实时更新,确保版本有效,同步提供利用服务。这一管理模式变革中,需要明确各方职责,落实责任。
(三)构建知识图谱,优化科研大数据集成
科研档案里凝聚着大量有用的科学研究知识,如何实现科研大项目档案数据的集成和挖掘,避免科研大项目档案信息孤岛现象,应重视科研大项目档案信息资源的集成管护和共享协同发展平台建设,从制度上落实科研大项目档案管理制度的确立,实现对科研大项目档案从形成到最终利用全过程管理,实现跨区域、跨单元、跨学科等联动共同推进实施。构建基于科研项目大数据集成分析平台,运用知识挖掘手段,对科研档案所保存的档案信息资源进行深层次挖掘分析,对科研项目大数据中所蕴涵的深度动态广泛的要素进行挖掘,为后续或正在继续实施的科研项目立项、研究实施提供全方位、多层次的档案信息,从而实现科研项目档案“暗数据”向高价值的“金数据”转变,实现档案信息增值服务和提高档案信息服务的竞争力,并解决科研项目大数据在利用上时间、空间的障碍。
(四)结合项目特色,实现多元化技术突破
在学术和科研界对科研项目大数据信息的存储、迁移、挖掘和管护等过程中,需要结合各个科研项目自身特点,对产生的特色档案数据资源进行分析,运用不同的新兴技术进行突破和集成,以构建技术支撑平台。中科院深海研究所承担的海斗深渊专项,其特点是航次记录、海洋深渊微生物标本分析,根据历次航次特色数据构建档案资源数据库。而中国科学院国家天文台承担的FAST 项目,其特点是各个系统设计、研制或调试运行过程中形成的档案数据和图纸。中科院遗传发育所承担的分子育种专项特点是基因组测序、品种权审定过程材料。针对各个科研项目的特色,运用云存储技术、智能化技术,同时高度重视计算技术的实时更新和利用,结合其可弹性扩展特点,存储各科研过程中产生的电子资料和数据,贯穿科研项目大数据生命周期全过程,并将异构数据库和存储设备载体进行整合和平台对接,构建协同管理平台,共同对外提供科研项目数据抓取存储汇集、迁移、访问捕获、管护和共享,实现科研关键过程数据的长期保存,将科研项目档案资源转化为知识资源,实现科研项目大数据管理与共享,解决当前大数据时代给科研项目档案大数据带来的挑战。
四、结语
随着云存储、大数据、人工智能等新兴技术的飞速发展,科研项目大数据档案资源呈现海量爆发增长,而科研需求也在日益朝着智能化、远程化和个性化方向发展,给当前科研大项目档案管理带来严峻挑战,如何做好科研大项目档案管护工作,科技创新的同时也要求档案管护有所创新,使科研大项目档案“暗数据”逐步得到改善。运用新兴技术,结合科研大项目特点,突破瓶颈,构建协同融合创新发展平台,分析挖掘出科研大项目档案高价值资源,最终实现科研大项目数据、档案、知识与智慧的一体化管理。