基于循证决策理念的长三角科技创新图谱构建
2022-10-20刘志辉张兆锋
杨 岩 刘志辉 张兆锋
(中国科学技术信息研究所,北京 100038)
0 引言
城市群是处于地理空间邻近的、相对独立的、多个城市的群落集合体。城市群是城市数量和空间的聚合,同时也包含了各城市间的城际关系[1],如经济和贸易往来、人才流动、文化影响、科技交流等。由于城市群以城市为单元聚集了大量的人口、经济、社会、科技资源,各主要国家城市群是经济、社会、科技、文化等发展的核心引擎[2-3]。如美国旧金山湾区和纽约湾区组成了其东西海岸发展的核心地理单元[4],日本则是以东京、名古屋、大阪、九州等城市为中心,结合其外向型经济优势构建了多个产业城市群促进了本国经济的腾飞[2-3]。同样地,在我国京津冀城市群、长三角城市群、粤港澳大湾区、长江中游城市群等也成为各区域经济、社会、科技发展的增长极[5-6]。
随着新一代科技与产业技术革命的到来,城市群的科技创新能力发展也成为其继续引领区域进行发展动能转换和产业结构升级的动力,纽约、东京、北京、上海等城市均将自身发展定位与科技创新中心相关联[7-9]。但随着科技与产业的发展,科技创新在城市群这一空间结构的治理与决策也面临着诸多困难,如跨行政区划的制度协调、人员的自由流动、协同保障机制的建立等[10-12]。更为重要的是,大数据时代的到来使得科学研究本身已经呈现出第四范式(大数据范式),也使得科技管理本身面临着创新主体增加、创新人员活跃、创新要素更加丰富、管理数据飞速增长等难题[13]。仅从科技成果数据库来看(如Scopus、中国知网、万方数据等)其存储的数据量均以数亿、数十亿条计[14]。在此种情况下,结合科技创新链条所产生的各类型数据将变得更为庞大,如果再将时空数据、社会统计信息、网络多媒体信息等与科技治理、与决策相关联的信息纳入,则产生的派生信息将无法估计[15]。但从现有的科技创新管理手段来看,大多数还停留在以人工处理、人工分析为主的阶段。这种处理方式在科技大数据爆炸和科技管理需求日益增多的时代将难以为继,特别是面对城市群这类具有多个行政主体和创新主体相互交叉且具有复杂创新网络的治理单元时,传统的治理手段与方法将难以适应新的发展需求。因此,迫切需要面向城市群科技治理,通过科技大数据与相应的管理理念、技术手段,针对城市群科技创新治理提供必要的工具,为城市群创新协同发展提供有效支撑。
1 循证决策理念
1.1 循证决策的关键要素
从历史发展来看,循证决策的发展经历了5个阶段[16]:17世纪的萌芽阶段,20世纪四五十年代的快速发展期, 20世纪60年代的制度化时期[16],20世纪60年代至20世纪90年代的质疑期,20世纪90年代末至今的复兴期[16]。循证决策从字面来看其关键点是“循”和“证”。“证”即证据,“循”即依据。证据是决策的依据和源头,而依据证据进行分析决策则成为决策的另一关键所在。
从证据的定义来看,由于应用领域不同、应用的决策问题不同,循证决策者对于证据的定义、边界存在着不同的认知,但从实际的应用来看,循证决策的证据需要兼顾“定量”与“定性”两方面。如英国在推动循证决策过程中,其证据就同时涉及专家知识、已有研究文献、已有数据及与利益相关者的调查问卷等[16];美国在应用循证决策的过程中同样强调定性与定量证据的结合,如统计序列、回溯审核等证据要素[16]。
从循证决策的分析方法来看,现有循证决策分析方法偏向于采用系统性评价方法,大多数研究所采用的方法与当前计量经济学或其他社会研究方法相关[17]。如以循证决策应用较多的医学领域来看,队列研究、对照研究、计量分析方法、元分析方法等均有应用,但由于应用领域的不同、决策目标的不同,循证决策针对不同领域与问题的方法论尚需进一步研究完善[17]。
从循证决策的实际应用来看,各主要发达国家对于循证决策的应用走在了前列,如前述英国政府与美国政府所采用的循证决策管理方法。近年来,我国政府也在不断倡导科学决策,循证决策正成为各国政府系统化、科学化决策的有利抓手。但是,从循证决策的实际应用来看,它往往受具体决策问题、社会环境、政治文化背景、利益相关方等因素影响,这些因素使得循证决策中对证据的采纳、方法的利用、结论的生成产生了主观影响和偏离[18-19]。此外,循证决策所依赖的“证据”内容也在发生深刻的变化,特别是大数据时代的到来所带来的证据来源与研究范式的变化,使得循证决策未来可采用的证据来源和证析方法愈发丰富。如何将决策问题、定量定性数据,特别是大数据,以及关联的技术、方法引入循证决策中,进一步完善循证决策方法和证据,避免主观因素的影响,融合尽可能完备的证据体系,也成为循证决策在新的发展时期所面临的重大挑战和机遇[20]。
1.2 大数据为科技管理的循证决策带来挑战
当前,科技大数据的涌现为科技创新管理与政策制定提供了原始数据资源,从循证决策的角度来看提供了潜在的证据来源,融合了科技创新链条的多源、多维数据,为科技管理和决策分析提供了庞大的决策支撑基础。在科技创新管理分析中,科技大数据只有经过处理与分析,结合具体的管理应用场景才能成为有效的证据。特别是,针对城市群这样具有复杂组成单元和网络关联的治理单元,循证决策流程需要依据城市群科技的特点进行设置。
从证据获取的角度,城市群所面临的科技创新管理大数据依赖于城市群内各城市的自身创新数据与各城市间的创新网络关联。这些数据不再是单个且孤立的“数据孤岛”,也不再依赖于传统的人工数据,而应该是在区域科技创新链、产业链、政策链、行政单元多尺度叠加下构成的数据。以创新链为例,用于城市群分析的数据主要包括城市创新的管理主体(如政府)、创新主体(如企业、高校、科研院所)、创新人才、创新基础设施(如仪器、平台、装置等)、创新孵化平台(如众创空间、孵化器等)、创新中介服务机构(如知识产权服务机构、金融机构等)、创新成果(如论文、专利、软件著作、技术交易等)。同时,还包括上述数据之间构成的网络,如专利转移网络、论文合作网络、技术交易网络、人才流动网络等,体现了城市群的连接,丰富的数据源构成了城市群创新管理的数据基础。此外,与科技创新环境或信息相关的社会统计信息及即时的网络媒体信息也应该适时地纳入城市群科技创新治理的数据底层资源中。
从证据获取的分析方法角度,城市群的科技大数据转化为信息或需要通过各类数据分析方法、模型和工具,需要针对大数据的“4V”(Volume、Variety、Value、Velocity)特征[21]进行运用。通用型的大数据处理技术可以辅助科技管理信息的提取、分类与初步分析。如爬虫技术可以帮助丰富数据资源,文本信息处理技术可以针对论文、专利、政策等科技大数据进行定量化存储与处理,将非结构化数据转化为结构化数据进行定量分析,而科学计量分析、社会网络分析、地理空间分析、可视分析技术则可以应用于不同场景,针对特定管理和决策需求的应用,分析得出与实际问题相关联的关键证据。但在实际应用中也需要跳出“就数据论数据”“唯数据论”的怪圈。城市群的科技治理涉及多方利益相关者,分析和管理人员需要兼顾科技创新管理的对象、应用目标和应用场景等,结合管理学科、情报学科的定量化分析方法与手段,融合定量、定性多种分析方式,进行多维信息汇聚、抽取、分析,进而形成较为完整且可靠的决策证据。
从证据的应用角度,多元参与是循证决策的一个显著特征,循证决策需要政策相关者的互动与协作[20],这在城市群科技创新管理中尤为明显。多个城市、多个链条、多种主体叠加在同一治理单元内,需要城市群科技创新治理兼顾多个方面。当科技数据提取的证据服务于科技治理与决策之时,则需要将相关证据进行呈现与分享,以统一的模式面向不同类型的参与者。如将专家、管理人员、利益相关方等纳入同一情境和场景中,可以使定量化的证据与专家知识、管理需求相结合,进一步加强证据的有效性,更好地应用于决策。可视化技术是利用计算机图形学和图像处理技术,将数据转换成图形或图像并在屏幕上显示出来,而交互处理技术具有呈现信息、揭示隐性信息的能力,结合可交互、可见即可得的操作特性,为决策管理提供了工具和方法的支撑[22]。因此,针对城市群科技创新管理的循证数据或证据,可以通过可视化分析方法和手段进行呈现,进而揭示不同创新主体、不同创新链条、不同城市的隐含、关联信息,促成数据分析结果的统一呈现与结论形成的快速形成。
2 知识图谱及长三角科技创新图谱框架
图谱或知识图谱(Knowledge Graph)是由Google于2012年提出,其主要是面向复杂关系与实体的分析技术。从本质上来看,知识图谱是一种揭示实体之间关系的语义网络[23]。与之相应地,在科学学研究领域,科学知识图谱(Mapping Knowledge Domains)可以作为宏观层面跟踪科技前沿、选择科研方向、预测学科发展、开展知识管理与辅助决策的有效工具[23]。与知识图谱相比较,科学知识图谱则侧重于利用可视化技术对知识点之间的关联进行图形化展示,主要目的是通过可视化结果支持科技发展规律发现及趋势分析[23]。但从以上概念和总结中可以看出,知识图谱与科学知识图谱所面对的问题领域属于微观层面,其“图谱”针对的研究对象较为聚焦,在面对宏观尺度的科技管理决策问题时,上述数据、工具和技术的应用则显得较为单薄。基于上述问题,赵志耘等[23]基于循证决策理念,结合大数据与可视化技术,利用中国科学技术信息研究所海量多源的科技创新要素数据,构建了中国科技创新图谱,在时间、空间及创新专题等维度呈现了中国科技创新的发展状况,提供了可视化决策证据并辅助科技创新管理与决策实施。
如图1所示,本文将依据循证决策理念,借鉴中国科技创新图谱理念,将空间尺度与研究内容进一步聚焦,针对城市群科技创新管理中的问题,广泛收集长三角城市群科技创新主体、成果、平台、资源等数据,综合科技创新大数据分析技术,如文本分析、信息组织、数据挖掘与可视分析等,构建针对多元主体、多元场景的关联分析基础,并在此基础上着重体现科技创新大数据的动态交互展示,利用可视化手段进行数据和数据关系的呈现,将专家智慧、利益相关方引入到科技创新循证决策分析过程中,从而构建基于循证决策理念的长三角科技创新图谱。该图谱将面向区域内多层次、多角度的科技创新与发展问题,结合科技大数据提供的证据发现其中蕴含的科技创新规律,从而支持长三角城市群科技创新治理。
图1 基于循证决策的长三角科技创新图谱框架
3 长三角科技创新图谱构建
3.1 研究区域
长三角城市群位于中国长江的下游,是我国重要的人口、经济、创新资源集聚地。以创新为例,该区域内拥有上海张江、安徽合肥2 个综合性国家科学中心,拥有约占全国1/4 的“双一流”高校、国家重点实验室、国家工程研究中心。年研发经费支出和有效发明专利数均占全国的1/3左右,上海、南京、杭州、合肥研发强度均超过3%[24]。大数据、云计算、物联网、人工智能等新技术与传统产业渗透融合,集成电路和软件信息服务产业规模分别约占全国的1/2 和1/3[25],在电子信息、生物医药、高端装备、新能源、新材料等领域形成了一批国际竞争力较强的创新共同体和产业集群[26]。
2019年发布的《长江三角洲区域一体化发展规划纲要》要求推动科技创新与产业发展深度融合,促进人才流动和科研资源共享,整合区域创新资源,联合开展卡脖子关键核心技术攻关,打造区域创新共同体,共同完善技术创新链,形成区域联动、分工协作、协同推进的技术创新体系[26]。以创新为驱动发展的核心要素,就需要面对区域内各城市及区域间协同创新所带来的科技协同、科技管理问题,而随着科学研究和应用的日益复杂,针对其管理所面临的数据类型和数量也在不断加大,由此基于循证决策和科技大数据的长三角科技创新的应用将及时地为相关区域发展提供有利支撑。
3.2 平台设计
长三角科技创新图谱所涉及的行政区域包含长三角26 个核心城市,即上海、南京、无锡、常州、苏州、南通、盐城、扬州、镇江、泰州、杭州、宁波、嘉兴、湖州、绍兴、金华、舟山、台州、合肥、芜湖、马鞍山、铜陵、安庆、滁州、池州、宣城。
系统架构主要包括数据层、分析层、引擎层、展示层,如图2所示。
图2 系统功能结构图
(1)数据层:原始科技创新大数据经过清洗、转换、规范、标注、抽取、整合一系列数据加工形成数据层。该层是系统核心底层,主要为分析层提供原始分析数据资源。
(2)分析层:利用科学数据可视化、知识组织、文本信息处理分析、地理可视化等技术,对汇聚的科技创新数据进行关联、分析,并为引擎层与展示层生成相应的自动分析结果,便于相关信息与证据的直接调用。
(3)引擎层:基于是衔接数据层和展示层之间的纽带,是提供上层展示应用功能与信息的中间件的统称。该平台主要基于Echarts、MapV、D3、MapBox GL以及其他第三方API等技术[27]。
(4)展示层:展示科技创新基础、科技创新评价、科技创新分析的各类现状指标,分析图表和详细数据信息和对比结果,提供交互式分析入口[27],使得专家与决策者可以直接通过系统进行数据的统计分析、关联分析、空间分析等,确保决策证据的使用。
3.3 典型数据
为满足整个科技创新图谱围绕科技创新链进行循证分析与决策的需求,长三角科技创新图谱集成了权威的科技创新数据,如大型仪器、论文、专利、上市企业、科技创新统计数据等,这其中反映区域协同的数据最为典型。
(1)长三角科技论文数据:长三角科技创新图谱以中国科学技术信息研究所发布的“中国科技论文与引文数据库(CSTPCD)”[28]为基础。该数据库收集了发布在我国的主要科技期刊题录信息,通过上述题录信息的解析与分析,进行基础研究成果的刻画,并特别关注基于作者信息的长三角区域内论文合作情况的分析与表达。
(2)长三角专利数据:长三角科技创新图谱所采用的专利数据以国家知识产权局发布的中国专利数据为基础,包括外观、实用新型和发明三大类专利,及其转移转让信息。
(3)长三角上市企业及其关联数据:以长三角26 座核心城市的上市企业为收集范围,以沪市、深市主板企业公开的年报、半年报、季报和月报公开披露信息为主,对其文本信息进行解析和深度加工,并结合论文、专利等知识产权信息进行上市企业分析。
(4)长三角地理空间数据:以中国国家地理信息公共服务平台——天地图系统(https://www.tianditu.gov.cn/)为基础数据,进行长三角核心城市的信息展示与分析,保证空间数据来源的可靠性、准确性。
4 长三角区域协同创新分析
本文将利用构建的长三角科技创新图谱平台,选择区域协同创新,以长三角科技创新图谱为载体,通过可视化手段进行证据展示,分析长三角城市群科技创新协同发展的态势。
4.1 长三角城市群内的论文合作
论文是基础研究的代表,而论文合作数据是表征一个区域基础研究协同的典型数据。从长三角城市论文合作变化来看(图3),由地图表征的论文合作网络空间结构较为稳定。网络的核心结点为南京、上海、杭州,其次为苏州、无锡、合肥等,城市群整体的基础研究合作结点分布呈现较好的层次性。论文的发表往往依托以基础研究为主的高校和科研院所,而由于上海、南京、杭州等城市是区域高校和科研院所的主要集聚地,因此也自然地成为区域内论文合作的主要中心结点。
4.2 长三角城市群内的专利转入与转出
从专利转入与转出的城市来看,上海市相较于长三角其他城市有着明显的优势,始终占据着长三角专利转入转出核心城市的位置(图4)。其次是苏州、南京、无锡、杭州等城市。如果与图3中基础研究的空间结构对比可以发现,产业分布集中的城市(上海、苏州、无锡、常州)是整个区域专利转入转出的重心所在。从时空变化来看,长三角近年来专利空间转入转出呈现结点涌现的态势,区域内应用技术的协同转化能力得到了加强,应用知识在区域内的溢出与吸纳较为活跃。
图3 长三角核心城市论文合作变化
图4 长三角核心城市专利转移转让变化
4.3 长三角城市群内的创新主体
上市企业往往是一个城市和区域经济发展的龙头,同时某一产业中上市企业的聚集也会对该产业的发展产生深远的影响。本文展示的是长三角地区A股主板上市企业(沪市A股、深市A股)的情况。
从长三角上市企业整体空间发展来看(图5),近年来长三角主板上市企业数量不断增加。从上市企业的空间分布来看,长三角地区上市企业的集中程度更趋明显,上市企业整体以上海市为中心,以杭州、南京为两翼向周边辐射扩散。
图5 长三角核心城市上市企业数量变化
4.4 长三角城市群产学研关联分析
4.4.1 空间关联
从基础研究与产业分布来看(图6),即从论文合作网络与上市企业的空间分布来看,论文合作主体与应用技术和产业发展的分布关联较弱。从应用技术转移(专利转移)与产业分布(上市公司)来看,其空间分布的关联性可直观地从数据可视化分析上看出来(图6),上海、杭州、南京、宁波等上市企业集聚度较高的城市也是专利转移强度较大的城市。决策证据的可视化分析与展示,较好地表达了区域内科技创新主体与应用产出的辐射能力之间强相关性。
图6 长三角城市群论文(上)、专利(下左)、上市企业(下右)空间分布对比
4.4.2 创新要素关联
从上市企业的行业分类(证监会分类)来看(图7),长三角地区的主板上市企业主要以制造业为主,是我国制造业的核心区域,其次还包括信息传输软件和信息服务业等。
图7 长三角核心城市上市企业行业分类
从论文合作的主要领域来看(图8),长三角城市群论文合作主要集中在医学、建筑、电工技术、化学、环境科学、经济学、轻工业等领域,基础研究所涉及领域与生物医药、装备制造等产业有着密切的联系。
图8 长三角论文合作领域
从专利转移的从技术领域来看(图9),机电设备、机床、热处理与燃烧设备、医药化学及环保设备占据较多数量,这也与本区域内以制造业为龙头的产业布局相一致。
图9 长三角专利转移转让技术领域
基于循证决策的分析角度,将上述可视化结果(证据)综合来看,长三角地区的基础研究合作、应用转化与创新主体的创新分布体现了其区域创新产学研之间的合作与协同。从创新链来看,长三角地区基础研究、应用研究与上市企业均是围绕制造业进行优先布局的,相互之间形成了较为紧密的耦合关系,从创新链的角度为促进长三角科技创新经济社会发展提供了良好的支撑。从地理空间布局来看,长三角应用技术的研究转化与创新主体的布局具有较好的空间一致性,而基础研究相较于这两者则有一定的空间错位,随着长三角一体化的推进,特别是交通、物流等一体化发展[29-30],将使人员、货物等要素在区域内的流动更加便利,在相当程度上削弱不同类型创新资源的空间差异,进而支撑区域整体的发展。
5 结语
本文基于循证决策理念构建了长三角科技创新图谱,分析长三角区域协同创新得到以下结论。
(1)从长三角科技创新图谱的构建来看,利用循证决策理念,结合科技创新大数据、大数据分析技术、可视化技术、地理空间分析技术等,面向特定城市群构建的长三角科技创新图谱有效地反映了长三角典型科技创新要素的空间分析、时序变化及内在规律,较好地反映了长三角创新发展态势,为科技创新管理决策提供了直观的、定量化的分析支撑。
(2)从长三角科技创新图谱的分析结果来看,长三角科技创新从“数据”到“证据”的变化可以表明,长三角地区是中国的核心创新单元。从创新链视角来看,可视化的“证据”表明,长三角的区域科技创新与产业发展具有高度的耦合性。以论文合作、专利转移为代表的数据表明,长三角科技创新研究集中于制造业领域。从其创新主体的分布来看,制造业的龙头企业也为长三角科技创新链与产业链耦合发展提供了重点的结合点。同时,从“证据”的可视化分析也可以看出,长三角协同创新能力与均衡发展程度较高,城市群内以上海、杭州、南京为核心,其他城市的创新发展变化梯度分明,形成了多中心化的城市创新体系。从证据展示的地理空间特性来看,长三角技术应用产出与产业主体的分布重合度较高是由企业这样的创新和产业主体决定的,而基础研究的产出重心则与前述两者有一定的错位是由高校和科研院这样的研究主体决定的。
(3)从以上的循证分析来看,长三角作为中国的科技创新与经济发展核心引擎,需要保持其在制造业发展的应用研究与创新主体优势,持续打造长三角在未来发展中的核心驱动力。前述分析也表明,长三角区域内基础创新资源、应用创新资源、经济产业主体存在空间分布与差异,在未来的经济、科技、社会、交通发展规划中,长三角地区需要关注高校、科研院所集中城市与产业集中城市在信息、交通、物流、人员方面的联系与沟通,进一步促进长三角地区不同类型创新要素的交流,减少既有空间布局对创新要素流动的影响。从本文呈现的长三角一体化科技创新“证据”来看,长三角三省一市中创新链条的辐射与影响主要还是受上海、南京、杭州等传统意义上经济、科技实力较强的城市影响且具有明显中心辐射的特点,未来在长三角科技创新一体化过程中,除要继续突出上述城市的特点外,需要兼顾区域整体均衡发展,面向安徽省、江苏省北部、浙江省西部地区等创新辐射与吸纳能力较强的城市进行布局,促进人员和要素的梯次流动,进一步提升长三角发展的梯度与深度。
(4)从长三角科技创新图谱的应用来看,科技大数据结合循证决策理念所构建的科技创新图谱,可以为未来科技创新治理提供一条直观、快速、精确的技术解决路径,通过对多源科技大数据的定量化、精确化、快速化收集与解析,可以为科技创新治理提供直观的证据,进而精确地支撑整个决策过程。随着数据源、技术方法的不断丰富,相关模式可以向其他空间和时间尺度进行迁移,如在省域、城市、区县等尺度进行快速的迭代与应用,为科技创新治理提供科学性强、适用性好、穿透性强的决策分析工具。
(5)城市群在我国经济、社会、科技发展过程中承担了核心空间引擎的作用,长三角科技创新图谱的构建为循证决策理论结合科技创新图谱在其他城市群的应用提供了先例和借鉴。首先,基于循证决策理念的科技创新图谱可以针对不同城市群,提供相应的底层创新链条数据,进而自下而上面向不同应用场景成为政策分析与科技管理的证据。其次,基于证据和循证决策理念的科技创新图谱可以对城市群这一尺度的创新链条提供精确、全面、直观的刻画,并融合专家分析理论与框架,实现定量与定性要结合的决策分析路径为不同城市群科技创新管理与决策提供可快速迭代的分析工具。