基于数据融合模型的科技服务资源池构建方法*
——以珠三角城市群综合科技服务智能门户平台建设为例
2022-11-03钟国华胡建敏倪向东
文/钟国华 胡建敏 倪向东
0 引言
“十三五”时期,我国经济发展进入了速度变化、结构优化和动力转换的新常态,以科技创新为核心的创新驱动模式已成为我国经济可持续发展的核心战略与必然选择。我国《关于深化体制机制改革加快实施创新驱动发展战略的若干意见》《国家创新驱动发展战略纲要》的先后印发,将科技创新摆在了国家发展全局的核心位置;《关于加快科技服务业发展的若干意见》指出,科技服务业是 实现科技创新引领产业升级、推动经济向中高端水平迈进的关键一环,对于深入实施创新驱动发展战略、推动经济提质增效升级具有重要意义。
在此背景下,随着科技服务业的发展,我国涌现了一批科技服务机构以及科技服务互联网平台,在科技咨询、技术转移、创业孵化、知识产权、科技金融等方面推动了线上、线下一体化服务发展,可以看到高质量服务背后的底层逻辑是“大数据支撑+跨界专业服务”,数据资源越来越成为科技服务业的核心支撑因素。而由于科技服务的数据资源涉及面广、相对分散,科技服务的异构分布协同不足、综合服务效能不强,各地方虽都建有科技服务类平台、成果转化类平台、技术市场类平台并积累了大量的数据资源,但各系统平台缺乏统一标准和规范、数据无法共享互通,存在出现大量“信息孤岛”、区域间信息不对称、资源闲置浪费等问题。为解决上述众多问题,本文将基于珠三角城市群综合科技服务智能门户平台建设经验,提出基于数据融合模型的科技服务资源池构建方法,以期达到提高科技服务资源的利用率、数据集成能力和智能化应用水平,促进资源区域融合,规范统模型标准,实现跨区域资源调度利用、扩大资源池影响力的辐射范围的效果。
1 科技服务资源池定义及分类
科技服务资源池是指以国务院印发的《关于加快科技服务业发展的若干意见》所列举的八大科技类别为基础,通过数字化手段对每个服务类别所涉及的资源要素进行采集、描述、存储、应用,形成统一的可用、可视、可联的,具备数据目录、数据治理及数据管理应用场景的大数据库体系。从以上定义可以看到,由于不同地方的科技服务发展带有较强的地域属性,必然每个服务类别所涉及的资源要素会有一定差异,资源池的类别也会存在差异。
本文以珠三角城市群综合科技服务智能门户平台构建为例,对该平台所涉及的资源池做了如下分类:一是技术转移资源,包括科技企业、人才、高校及科研院所、技术转移机构、技术经理人、技术需求、技术成果。二是检验检测认证资源,包括科技企业、检验检测机构、检验检测产品、检验检测服务。三是知识产权资源,包括科技企业、知识产权服务机构、知识产权服务产品、知识产权交易、知识产权数据库(专利、商标、软件著作权、集成电路)。四是创业孵化资源,包括科技企业、创业孵化机构、创业孵化载体、创业孵化服务。五是科技金融资源,包括科技企业、融资机构、融资产品、融资服务。六是科技咨询服务资源,包括科技企业、科技咨询机构、科技咨询产品、科技咨询服务、政策、文献、仪器设备。
2 科技服务资源池的构建方法
2.1 常规科技服务资源池构建
在国家大力促进发展科技服务业的背景下,国内各省份已集聚了不少科技服务资源,也曾建立了一些科技服务资源池。常规的科技服务资源池建设过程如图1所示。
图1 常规科技服务资源池构建过程
2.2 基于数据融合模型的资源池构建
常规的科技服务资源池构建方法普遍以自主查询为主,能够服务于相对封闭系统,但随着整个科技服务业走向生态化、复杂化,对资源的要求更加多元、精准、开放,需要系统更好地集成多源数据和支持智能化应用,充分发挥数据价值。这对系统也提出了更高的要求,即从信息积累、简单应用往更高的智能匹配、数据分析、数据决策能力靠拢,通过大数据及人工智能技术在存储、应用、分析、决策、治理、推送等多个层面上规划科技服务资源池的建设。据此,提出基于数据融合模型的科技服务资源池构建方法(见图2),对当下科技服务资源池建设过程提供标准化的建设参考,以促进科技服务资源池的互通共享、提升科技服务效率,推动科技服务业发展,助力产业科技创新。
图2 基于数据融合模型的科技服务资源池构建过程
3 数据融合模型主要建设内容
3.1 数据建模
科技服务资源池作为信息系统建设项目,无法脱离基本的数据建模过程。数据建模主要是实现了把现实物体转换成虚拟数据的过程,以物体的常规属性及特征为标记进行多维度的属性定义,直到能够满足业务需求而形成的数据结构描述。
数据建模以业务为导向。进行数据建模,就是通过信息手段从多维度对物体进行描述,包括外观属性如颜色、大小、形状等,内在属性如分类、结构等,但业务场景只要求实现通过一种方式识别物体的功能,而建模只需要对应该属性即可。以技术转移资源数据建模为例(见图3)是一个典型的业务导向建模例子。先对珠三角城市群综合科技服务进行提炼,再对交集数据进行基本信息初定、形成公共属性,如资源唯一标识、资源创建时间、资源相关人、资源区块链支持、资源名称等。公共属性形成资源基类,资源特征属性都以子类形式进行扩展,迭代形成各种资源分析模型,同时对特征属性进行标定(如常规数值、量化值、文本等)。
图3 技术转移资源数据建模
3.2 元数据管理
元数据被定义为描述数据的数据,是对数据及信息资源的描述性信息。对应科技服务资源数据建模的例子,把元数据理解成维度属性的定义,如外观属性中的颜色、大小、形状,内在属性中的分类、结构等都可以归结为建模对象的元数据。面对各种各样的科技服务资源,元数据的管理在数据统一层面有着重要意义,通过动态管理元数据有效地把握业务方向上的数据模型、提高系统灵活性,同时也是数据管理与治理的基础要求。
3.3 四元分类法
在科技服务资源数据的四元分类法中,一是基础类,即科技服务资源的基本属性;二是业务类,即对科技服务资源的类别、概况、标识等进行规范描述;三是统计类,即科技服务资源中存在复合子类的统计情况;四是附加类,即对科技服务资源的关联、冗余、隐性等属性进行规范描述。以珠三角城市群综合科技服务智能门户平台技术转移资源-技术需求资源为例,通过四元分类对其进行描述,如表1所示。
表1 科技企业技术需求的数据四元分类表示
3.4 数据融合模型设计
经过四元分类后构建的数据模型已能够满足大部分针对资源的应用场景。在高级应用上,如智能匹配等也可直接使用四元分类法建立数据模型实现功能,但高级应用往往汲及多类科技服务资源,如果单纯地按功能需求建模会出现数据属性重复、资源数据重复、数据信息不一致等风险。为了减少多资源信息关联过程重复建模的风险,需要引入数据融合模型设计。
融合模型设计是指在数据建模的基础上,对已建立模型的元数据按业务要求进行提取或增添,从而产生出更高契合度的业务复合模型。按照此定义,数据模型融合后的结果依然是一个模型,这个模型依然遵守四元分类规则,只是在对提取而来的元数据属性上增加一条操作规则标识,对非提取属性则按常规元数据识别。通过引入操作规则引擎的概念,能较好理解基于模型的数据融合操作。数据融合模型操作规则主要分为关联规则、统计规则、触发规则。关联规则指属性的值来自于被关联模型,采用引用机制,随着被关联模型中对应属性值更新而自动更新。统计规则指属性的值来自于其他模型的统计结果。触发规则指属性的值来自于触发规则触发后的结果。
以珠三角城市群综合科技服务智能门户平台下的技术转移资源-专家资源模块为例,平台可通过手机号查询到专家姓名、专业、成果数量、是否高级项目专家,其中配偶姓名属性下则无操作规则,属于常规元数据,如果专家模型的姓名更改了,融合模型的查询结果自然也就更改了(见图4)。
图4 数据融合模型设计示例
3.5 数据融合驱动机制
科技服务业具有跟随区域产业发展的特点,导致科技服务资源带有区域特性,种类多、结构不统一,因此每种资源在各源系统中的元数据不尽相同。为了构建区域统一科技服务资源的资源池管理系统,所有异构数据结构必须经过统一标准的结构化处理才能导入到资源池。为此,引入了异构处理引擎与数据融合驱动的规则引擎,实现系统自驱的数据融合机制。数据融合过程在系统中主要体现在以下两个方面:
一是异构数据处理引擎的关联触发机制。数据输入到资源池是有多种方式的,例如数据库连接输入、应用程序编程接口(API)输入、线下文档转线上输入、爬虫数据输入等,每种输入的方式都可能有着不一样的数据结构,需要有一个标准化的过程转换后数据才能真正输入到资源池。异构数据处理引擎主要处理数据结构转换,转换后的数据输入到资源池会触发一系列机制以更新过往的资源池数据,达到数据自动融合的效果。
二是数据融合模型的操作规则。数据融合模型中自带操作规则引擎,通过规则配置,以主动或被动的方式自动完成关联数据的更新,达到数据自动融合的效果。
4 数据融合模型的优势
目前,大部分科技服务资源池经过建模过程后并不考虑关联数据的融合,需要另外的操作来维护数据关联更新过程,这就需要投入额外资源进行数据多维关联清洗处理,提高了系统建设的人员成本。基于多数据模型的设计,引入数据融合模型机制可以降低数据维护成本,同时实现了数据维度的灵活扩展、增加了系统的灵活性,加快实现数据融合、更高维度的统计、分析应用,增强了系统的自驱能力。此外,数据融合模型还具有维度隐藏的作用,可以隐藏业务中的不必要属性或受保护的数据属性。
5 总结及展望
科技服务资源池作为区域的特色数据集聚,需要得到充分的挖掘和利用才能更好地发挥服务于区域产业的作用。对科技服务资源池建设进行标准化后,将有利于系统提供更快捷、高效服务。同时,在科技服务资源池的构建过程中,引入数据融合模型设计可以降低开发成本、提升系统自驱能力,以及提升数据集成能力和智能化应用水平。
随着数字经济的到来,数据要素将发挥越来越重要的作用,科技服务业也将进入产业数字化改革进程,科技服务资源池也将在此过程中发挥着重要作用;基于数据融合模型构建科技服务资源池将有助于推动科技服务资源池的互通共享、提升科技服务效率,推动科技服务业发展、助力产业科技创新。