APP下载

科技档案应用开发研究

2015-05-30刘素香

科技创新导报 2015年7期
关键词:开放获取科技档案大数据

刘素香

摘 要:科技档案是开展各种科技活动后的技术总结,包括项目申请书、项目总结报告、科技报告等,是科技工作者智慧的结晶,也是开展科技创新的重要参考,科技档案的开发利用,既有利于挖掘科技档案中沉淀的知识,为科技发展和经济建设服务,也是对开展各种科技活动绩效的反映。该文从科技档案的利用价值出发,说明科技档案应用开发必须首先建立信息化的管理系统,并采用大数据技术和数据开放获取技术,以充分发挥科技档案对科技创新的参考和支撑作用。

关键词:科技档案 大数据 开放获取 数据复用

中图分类号:G27 文献标识码:A 文章编号:1674-098X(2015)03(a)-0052-02

The Application Development Research of Science and Technology Archives

Liu Suxiang

(Department of Education continues Lishui Vocational and Technical College,Lishui 323000,Zhejiang,China)

Abstract:Science and Technology Archives is a technical summary of the various scientific and technological activities,including project application,project summary report,technical reports,etc.It is not only the wisdom of science and technology workers,but also an important reference for science and technology innovation.The exploitation of Science and Technology archives both in favor of excavating hidden knowledge in Science and Technology Archives,providing services for scientific and economic development,and is a reflection of performance of various scientific and technological activities.Taking utilization value of science and technology archives as a starting,this article describes the development of science and technology archives must first establish information management system,and adopting Big Data technology and Data Open Access technology,in order to give full play to the role of science and technology archives supporting technological innovation.

Key Words:science and technology archives;Big Data;Data Open Access;Data Multiplexing.

科技档案是指为科技活动建立的各种文字、数据、图片、声像材料,本文主要是指大专院校科技管理部门为上述活动建立的各种档案,因为科技管理部门拥有更为健全的档案库,各种企业的创新档案因为是涉及企业内部管理问题,往往不容易收集,在进行研究时也因为关系到企业涉密信息而采取规避。科技档案中最有利用价值的主要为科技项目立项申请报告、科技创新报告、项目验收报告、根据项目提供的资金撰写的科技论文、获得的专利报告和项目总结报告等,这些档案是科技创新重要的信息载体。

随着国家创新驱动战略的实施,科技档案将发挥重要的创新参考作用,科学知识总是在不断更新,大多数的变化是逐渐的,有些则是革命性的根本性的,创新一定是在现实研究基础上进行的探索和新的组合。科技档案中内在的价值不仅体现在对科技探索的总结,在公开公布后有些成果具有转变为现实生产力的价值,从而更加有效地为我国的经济建设服务,这就要求科技档案的管理从仅仅保存资料以备后查向科技档案的重复利用提供创新支撑转变。科技档案应用开发首先要求实现科技档案的数字化,其次是要求实现科技档案的开放获取。

开放获取政策最早是由欧美发达国家制定并实施的。近些年来,美国、英国、加拿大、瑞士、德国、瑞典、挪威、法国、芬兰、澳大利亚等国都相继制定了开放获取政策。美国是国际上首先对科技档案进行开放获取建立国家制度的,2005年12月,美国国会议员Joe Lieberman和Thad Cochran向国会提交CURES提案,要求将联邦政府资助的科研成果强制实行开放获取,2007年12月26日,NIH强制性开放获取政策得到了美国布什总统的签署,2008年4月7日起正式生效,并与5月25日开始实施[1]。2013年2月,奥巴马政府表示,由美国纳税人资助的研究应该在其出版的一年内免费对公众开放。这一指令覆盖了15个机构,其中包括美国国家科学基金会、联邦教育部、环境保护署、美国宇航局、美国国际开发署和史密森学会等。今后公众将可以下载研究机构网站的文章,研究者们也可以更快捷地共享前沿信息[2]。

1 科技档案的数字化

科技档案数字化是随着计算机网络技术、多媒体技术的发展而产生的一种新型档案信息形态,是指“利用数据库技术、数据压缩技术、高速扫描技术等技术手段,将纸质文件、声像文件等传统介质的文件和已归档保存的电子档案,系统组织成具有有序结构的档案数字信息库”,它将各种传统载体的馆藏档案资源转化为数字化的档案信息,以数字化的形式存储,网络化的形式传输,并利用计算机系统进行管理,以实现档案信息快捷利用和共享的目的[3]。

科技档案在数字化工作上应遵循档案管理规范,包括编目和标引。由于科技档案中的科技项目管理一般采用表格形式,在进行OCR(光学字符技术)识别时应采用专业的具有表格识别功能的软件。

2 科技档案的大数据化应用

档案的数据化管理在档案部门的应用已经非常成熟,如果把科技档案仅仅看作查阅的资料是不够的,科技档案中包含很多知识点,这些知识点是启发创新的重要参考。应该采用大数据技术把科技档案与相似文献进行关联,以充分展现科技档案的价值。科技档案本身构不成大数据,需要其它数据库的配合或者是互联网信息的整合。

(1)一般来说科技档案的知识点汇聚在项目申请报告和技术总结报告中,数字化后的科技档案可以利用分词技术自动形成词库。

(2)由于处理后的词库数据量较大,同时意味着数据噪音的增多,因此在数据分析之前必须进行数据清洗等预处理工作,但是预处理与分析如此大量的数据对于机器硬件以及算法都是严峻的考验。大数据挖掘建模问题的一个可行方法是将特征空间矩阵切分成大量的子矩阵,然后将子矩阵文件分布到多个服务器节点上,同时对数据挖掘算法作并行分布式改造,使每次迭代运算分两步进行,第一步是在每个计算节点上对子矩阵进行运算,取得子矩阵的局部结果;第二步是将所有子矩阵的局部结果集中运算,计算出整个对象—属性矩阵的全局结果,然后进入下一次迭代直到得出最后模型。比如,Google的Map Reduce模型就是能够用来实现上述要求的分布式算法[4]。也可以进行人工干预,人工干预是把词库中的词语用人工进行清洗,把关键知识点进行标注,不至于出现太多纬度,造成计算过于复杂。

(3)大数据的关联算法可以采用科学计量学的方法。科学计量学是对科学的定量研究,旨在识别和理解可以阐释科学功能的经验模式,通常需要依靠科学文献,如汤森路透的Web of Science数据库、谷歌学术、CNKI数据库、万方数据库、专利等,都可以作为重要的关联计量数据的来源。

3 科技档案的开放获取

科技档案的应用开发主要目的是推进科技创新,减少重复的创新活动,建立科技档案开放获取网站是发挥其价值的有效手段。开放获取英文为Open Access简称OA,我国又将其译为“公开获取”、“公开访问”、“开放存取”等,它是国际科技界、学术界、出版界、信息传播界为推动科研成果利用因特网自由传播而发起的运动,旨在把同行评议过的科学论文或学术文献放到互联网上,使用户可以免费获得而不需考虑版权或注册的限制,以此打破学术研究的人为壁垒,促进科学信息的广泛传播,促进学术信息的交流与出版,提升科学研究的公共利用程度[5]。科技部从2013年起建立科技报告制度,并建立了科技报告开放获取网站,科技报告属于科技档案范畴,是描述科研活动的过程、进展和结果,并按照规定格式编写的科技文献,目的是促进科技知识的积累、传播交流和转化应用。

理论上,政府和大专院校支持的科研项目或多或少都有其公益性的一面,有责任向公众开放,科技档案的开发利用,既有利于挖掘科技档案中沉淀的知识,为科技发展和经济建设服务,也是对开展各种科技活动绩效的反映。在操作层面,需建立科技档案开放获取管理的信息化应用系统,可以采用防火墙、访问权限等等技术,对于比较重要、机密、敏感的信息,以及披露之后不利于企事业单位发展的相关信息不予公开,或者与互联网进行物理隔离[6]。

除此之外,科技档案的引用开发还可以采用有偿服务的方式,例如下载文章需付给项目课题组一定的费用,作为知识产权的保护和对作者的尊重。

参考文献

[1] 付晚花,肖冬梅.国际开放获取政策及其研究进展综述[J].图书馆杂志,2010(3):23-27.

[2] 石世美.美国政府大力推动研究成果“开放获取”[J].世界教育信息,2013(7):79.

[3] 王学平.浅议我国档案数字化建设实践与发展策略[J].档案学通讯,2011(6):54-57.

[4] 王兰成,刘晓亮.网上数字档案大数据分析中的知识挖掘技术研究[J].浙江档案,2013(10):14-19.

[5] 杨霞.开放获取:综合档案馆数字档案网络化服务的重要原则[J].档案学通讯,2011(2):53-56.

[6] 邹彬.浅谈科技档案在网络环境下的管理[J].石河子科技,2013(6):19-20.

猜你喜欢

开放获取科技档案大数据
浅谈MOOC与信息素养教育
加强科技档案管理的途径分析
浅析新形势下科技档案管理模式的创新