APP下载

基于数据标准的科技信息资源共享架构研究与设计

2022-07-04马文卓勾鑫晔

科技创新与应用 2022年19期
关键词:科研机构科技资源

储 雯,马文卓,勾鑫晔,王 盈,熊 余

(1.重庆邮电大学,重庆 400065;2.重庆生产力促进中心,重庆 401147)

政务信息系统互联和公共数据共享是提高政务部门行政效率、提升服务水平的重要支撑,在政务部门深化改革、转变职能、管理创新中发挥着重要的作用,也是大数据智能化发展的基本要求。国务院印发的《政务信息资源共享管理暂行办法》提出各政务部门形成的政务信息资源原则上应予以共享,并要求政务信息资源共享主管部门负责组织本级共享平台建设[1];重庆市政府发布实施的《重庆市政务数据资源管理暂行办法》提出“政务数据资源以共享为原则、不共享为例外”,并要求各政务部门作为本部门政务数据资源管理主体,推进本部门政务数据的资源汇聚、共享、开放和应用[2]。科技信息资源数据是政务数据资源的重要内容之一,科技部和财政部印发的《国家科技资源共享服务平台管理办法》,同样要求利用财政性资金形成的科技资源,除保密要求和特殊规定外,必须面向社会开放共享,地方政府科技管理部门要推动本部门或本地区平台建设,促进科技资源整合与共享服务[3]。

重庆市目前已建成了十余个科技管理系统,采集了科研设备信息、科研人员信息、科研政策、科研经费等科研活动相关各个要素的信息数据。数据的充分整合和共享能够促进科研要素之间的交流和科技活动有效、快速进行[4],有利于激发各类创新性应用,对科学技术的进步和产业的发展具有非常重要的意义。在此背景下,构建基于统一标准和规范的重庆市科技信息资源数据交换处理架构、建设统一的科技管理服务平台,既是对国家、重庆市和行业要求的积极响应,同时也是促进科技信息资源共享、实现科技信息资源增值的有效手段。

1 重庆市科技信息资源数据现状和应用需求

1.1 数据现状

科技信息资源是记录科技活动和科学知识的载体[5],主要包括科技实物资源的信息化表达、科学数据、科技文献信息资源等,其中实物科技资源主要包括科学仪器设备、自然科技资源实物、科技文献实体资源、科学数据资源管理相关设备、网络科技环境的硬件设备和支撑软件系统等;科学数据是指在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据,包括观测数据、考查数据、实验数据、统计数据等[6];科技文献信息资源是记录科技知识的各种载体,主要包括科技图书、学术期刊、学位论文、会议文献、专利文献和标准文献等。

重庆市科技信息资源数据主要分布在市内各科技创新主体中,包含政府部门、高校、院所、高新企业等。重庆市政府采集的科技信息资源数据主要包含市内科技项目、人才、企业、科技奖励等管理工作中产生的数据,截至2021年,重庆市科研管理部门已整合13 类、273TB 包含大型科研仪器、科技人才、科技型企业、科技信用、科研项目、科技成果、科研机构、研发平台、孵化平台、科技特派员、科普基地、科技文献和专利等的科技信息资源数据。重庆市高校、院所、高新企业采集的科技信息资源数据主要包含各组织机构内部科研管理数据、成果数据等,大部分数据只在各组织机构内实现交换共享。

1.2 数据应用需求

重庆市科技信息资源数据主要应用于科技政务服务“一网通办”、“科技淘宝”服务、知识价值信用评价体系构建等科技管理服务和数据展示与分析服务等。

1.2.1 科技管理服务

科技政务服务“一网通办”实现高效的科技管理和便捷的科技服务,主要需要大型科研仪器、科技人才、科技型企业、科技信用、科研项目、科技成果、科研机构、研发平台、孵化平台、科技特派员、科普基地、专利、科技文献和行政规范性文件等数据作支撑。“科技淘宝”服务实现研发服务在线商品化交易,主要需要科研机构、科技型企业、科技成果、科技服务等数据支撑。知识价值信用评价体系构建实现企业的轻资产债权融资,需要科研机构、科技型企业、科技信用等数据支撑。

1.2.2 数据展示与分析服务

数据展示与分析服务包含科技现状展示、科技发展评价、科技发展预测、科技活动推荐等。

科技现状展示包含科研机构/企业画像、科研项目画像、科技人才画像、科技资源展示、科技服务展示等,需要科研机构、研发平台、孵化平台、科研项目、科技人才、科技专家、科技特派员、科技成果、大型科研仪器设备、研究开发服务信息及检测检验服务信息等数据支撑。

科技发展评价包含科研能力评价、科研人才评价、科研绩效评价、科研仪器平台运行效率评价等。科研能力评价需要科研项目、科研成果、科研绩效、学术影响力、科研管理和人才培养等相关数据;科研人才评价需要项目数量、项目等级、项目角色等科研项目,论文、专利等学术成果,职称头衔、获奖情况、任职情况等学术影响力,学术诚信、学术道德、个人信用等学术道德等相关数据支撑;科研绩效评价需要科研人力资源投入、科研经费投入、科研成果产出、科研成果转化、科研获奖等数据支撑;科研仪器平台运行效率评价需要科研仪器设备开放程度、服务情况、支撑产出、人力投入等数据支撑。

科技发展预测包含科研机构/科技人员科研能力预测、科研方向布局预测等。科研机构/科技人员科研能力预测通过大数据分析,对科研机构/科技人员未来科研能力和发展进行预测,其中科研机构科研能力预测需要科研机构信息、科研人员信息、科研投入信息、科研产出信息等数据支撑,科技人员科研能力预测需要科技人才信息、科研成果等数据支撑;科研方向布局预测需要科研政策、科技趋势、前沿方向、科研成果、科研项目、科研机构和科研人员等数据支撑。

科技活动推荐包含科研合作推荐、科研分析匹配等。科研合作推荐通过对学科领域、科研成果等数据的分析学习等,实现科研机构和人员的科研合作对象推荐,需要科研机构信息、科研人员信息、科研项目、科研成果、科技信用等数据支撑。科研分析匹配面向科研机构和科技人员进行其研究领域的最新政策、热门研究、科研项目等推荐,需要科研机构信息、科研人员信息、科研项目、科研成果、科研政策等数据支撑。

2 重庆市科技信息资源交换共享处理架构设计

2.1 设计思路

按照重庆市地方标准《科技信息资源元数据描述规范》《科技信息资源采集与处理规范》和重庆市科技资源数据共享目录,集成科技项目子系统、科技平台子系统、科技人才子系统等内部数据和平行部门数据、第三方征信数据、外部扩展数据等,将采集到的多源异构科技信息资源数据进行清洗、脱敏、标准化等处理后形成科技信息资源数据中心。科技信息资源数据中心按照大型科研仪器、科研机构、科技人才、科技项目等不同的主题进行数据存储,并以各主题数据库为纽带,通过数据交换共享实现市内科技信息资源数据的统一,为智慧科技信用评价与监测、智慧科技管理、智慧科技服务等科技智慧业务协同和科技指数评价与发布、产业创新链全景图谱、科技发展政策推演等科技政策决策支持提供数据支撑。

2.2 设计原则

标准化原则。相关系统建设和数据使用须遵循重庆市地方标准《科技信息资源元数据描述规范》《科技信息资源采集与处理规范》。

先进性原则。尽可能采用先进的技术、方法、软件、硬件和网络平台,确保系统的先进性。同时兼顾成熟性,使系统运行成熟且可靠。

安全性原则。采用全面的权限管理机制,建立有效的数据备份、恢复机制,对数据的存取严格日志记录和审计,采用高稳定性、高可用性的软硬件产品,确保数据安全。

实用性原则。系统表现和数据展现、管理、使用等操作简单、表现直观,方便用户使用。

可维护性和扩展性原则。提高各组件模块的内聚性,降低各组件模块的耦合度,科学划分组件接口和方法,使系统强壮且易于维护和扩展。

2.3 总体架构

总体架构如图1 所示,包含数据采集、数据处理交换、数据中心、数据应用、数据标准规范、安全保障等部分。

图1 重庆市科技信息资源数据交换共享处理架构图

2.3.1 数据采集

对政府部门、高校、科研院所、企业等相关系统的数据进行采集,每个字段都必须有唯一的数据提供者,并根据不同源数据的业务系统建设实际情况,确定相对应的数据采集方案。对已建有相关业务支撑系统的数据,可通过数据中间库、WebService 接口等方式,按照科技信息资源采集与处理规范、科技信息资源基础数据标准等标准规范集成数据。无系统支撑但数据量大、数据字段复杂的数据,先新建或升级源数据业务系统后再进行数据集成。无数据源业务系统支撑,但数据量较小、数据字段较简单的数据,可直接采用excel 数据导入等方式进行数据集成。

2.3.2 数据处理交换

对采集到的多源异构科技信息资源数据进行数据清洗、数据变换、数据脱敏等处理,如按照策略和规则进行偏差检测、冗余消除和填充缺失值等数据清洗操作,对数据进行审查和校验,补全残缺数据、修正错误数据、处理重复数据;按标准规范进行特征构造、聚集、泛化和归约等数据变换;对身份证件号码、手机号、统一社会信用代码等敏感信息进行数据替换、随机化、偏移和取整等数据变形、脱敏,实现敏感隐私数据的可靠保护;借助Hadoop、Spark 等大数据处理平台进行高效的分布式处理等[7]。

通过ETL 工具、数据共享接口等实现数据交换共享,并进行数据集成调度运行、监控等。相关科技信息资源数据产生单位、使用单位应按照“谁经手,谁使用,谁管理,谁负责”的原则,根据履行职责需要依法依规使用共享信息数据,并加强共享信息数据使用的全过程管理。同时,在对数据目录或获取的科技信息资源数据有疑义或发现有明显错误的,应及时予以校核。各业务平台、系统产生的原始数据不能直接进行数据交换共享,须以权威科技信息资源数据中心作为数据交换共享的统一出口。

2.3.3 科技信息资源数据中心

科技信息资源数据中心汇聚了处理后、标准化的科技信息资源,是科技信息资源数据交换共享的统一出口,包含基础数据库、专业领域数据库、面向政策应用的数据库等,并实现数据管理。

基础数据是描述核心业务实体相关属性的数据,一般是静态数据、变化不频繁,由相关业务部门提供和维护,且跨多个业务流程或系统使用。科技信息资源基础数据包含组织机构信息、科技资源信息、个人信息、科技服务信息等。专业领域数据库包含农业、林业等特色科学数据库。面向政策应用的数据库主要记录科研政策数据。

数据管理包括数据基础管理、数据生命周期追溯、数据异动监测、数据质量管理、数据资产目录开放管理等。数据基础管理对数据情况进行查看、线下数据导入等,如根据截止时间点,查看所有数据的表中文名称、表名、记录条数、所占空间等构建细节;详细查看数据对象所存储的数据集;编辑、导入、导出相关数据记录等。数据生命周期追溯可查询数据对象的接口运行记录,展示数据对象从建立到查询时点的数据变化过程,如数据对象生命周期查看、变化历史记录查询、数据变化历史对比等。数据异动监测管理对数据对象的数据异动情况进行监测,如及时记录异动数据变动历史、列出数据异动的次数、查看数据异动日志等。数据质量管理包含数据质量评估、数据规则及任务管理、数据合规性检测管理等。数据资产目录管理集中展示科技信息资源数据资产目录状态信息、开放使用状态、开放接口、开放的资产目录数量、API 接口数、调用次数、调用记录等,进行数据资产使用统计,并进行数据资产目录开放管理、数据资产申请服务等。

2.3.4 数据应用

面向科技政务服务“一网通办”、“科技淘宝”服务、知识价值信用评价体系等科技管理服务和科技现状展示、科技发展评价、科技发展预测、科技活动推荐等数据展示与分析服务场景,开展数据应用。

2.3.5 数据标准规范

科技信息资源数据标准规范包含科技信息资源元数据描述规范、科技信息资源采集与处理规范、科技信息资源基础数据标准等。

2.3.6 安全保障

包含共享机制和数据安全防护机制。数据共享机制明确数据共享的内容和范围,划清相关业务部门的职责,理顺数据产生部门、数据使用部门、数据管理部门的权利和义务,确定共享的要求和流程等。数据安全防护机制需要根据信息安全等级保护要求制定相应的管理措施和技术方案,对科技信息资源数据中心、数据交换处理平台等重要基础设施加强安全管理,制定数据备份和恢复策略等。

3 结束语

本文对重庆市科技信息资源数据的建设现状和应用需求进行了调研和研究,设计了包含数据采集、数据交换处理、数据中心、数据应用、数据标准规范、安全保障等的科技信息资源数据交换共享处理架构。后续将面向科技信息资源数据共享应用中的标准化体系建设开展研究,为充分发挥科技信息资源数据的价值提供路径建议。

猜你喜欢

科研机构科技资源
基础教育资源展示
吉林省加快发展新型科研机构的综合思考
一样的资源,不一样的收获
逆行者的武汉
资源回收
科技助我来看云
科技在线
资源再生 欢迎订阅
科技在线
科技在线