APP下载

我国科学数据开放共享政策量化评价
——基于PMC指数模型的分析

2021-08-30宋大成焦凤枝

情报杂志 2021年8期
关键词:变量政策科学

宋大成 焦凤枝 范 升

(1.上海大学图书情报档案系 上海 200444;2.上海大学管理学院 上海 200444)

自21世纪以来,我国积极参与全球开放科学、开放数据运动,先后颁布并实施了一系列与科学数据开放共享相关的政策,如《科学数据管理办法》《国家重点基础研究发展计划资源环境领域条目数据汇交暂行办法》《政务信息资源共享管理暂行办法》《中国科学院科学数据管理与开放共享办法》等。这些政策文件规范促进了我国科学数据开放共享活动的发展。目前,国内已经对国内外科学数据开放共享政策内容[1-4]、框架体系[5-6]、利益相关者[7]以及与个人数据保护的政策协同[8]等主题,运用内容分析法、文本分析等定性研究方法进行了探索性研究,还利用层次分析法构建了科学数据开放政策评估指标体系[9],但我国科学数据开放共享政策的量化评价研究相对不足。为了更全面、深入了解我国科学数据开放共享政策内容与实施效果,本文结合利用文本数据挖掘、PMC指数模型对我国科学数据开放共享政策量化评价,以便为完善我国科学数据开放共享政策提供参考。

1 科学数据开放共享政策的数据来源

我国科学数据开放共享政策不仅包括国家层面出台的相关政策,而且不同省市也依据国家层面的指导思想制定相应的地方政策[10]。由于国家层面和省市级层面制定的政策存在一定的差异性,并且科学数据开放共享政策类型范围广、种类多,因此本文选取国家层面出台的科学数据开放共享相关政策,从而保持政策研究层面上的一致性以及满足研究对象的普适性和权威性。

1.1政策文本的选择本文在收集科学数据开放共享政策文本时,为了保证政策文本的查全率,采用以下检索策略:①通过文献调研的方式对我国有关科学数据开放共享政策的文献进行检索,从相关文献内容中收集我国科学数据开放共享相关政策。②通过政府官方网站中数据文件库、政府信息公开、公报、政策专题等查检索相关政策文件。③通过访问“北大法宝”等专业数据库检索相关政策文本。④登陆我国为促进科学数据开放共享实践而建立的科学数据开放共享的网站,将其中与科学数据开放共享相关的实施细则、技术标准、实施办法等政策文本提取出来。⑤利用百度、Google等搜索引擎进行检索,查缺补漏。通过以上检索策略,最终确定185项科学数据开放共享政策作为政策分析样本(检索时间截至2021年5月1日)。

1.2政策文本的筛选为了避免政策文本的重复收集或无效收集,保证政策文本的查准率,本文在对科学数据开放共享政策文本筛选过程遵循及时性、相关性等原则,以确保所搜集的政策文本具有科学合理性和代表性。①及时性原则。由于我国科学数据开放共享实践活动已经开展多年,其中有些政策文本进行相应的更新修订,因此所以选取最新的政策作为本文的研究对象。②相关性原则。为了保证所选政策文本与科学数据开放共享密切相关,通过对政策文本全文浏览从而挑选出符合研究主题的政策,该过程由两名研究生各自独立完成,然后将初步筛选后的政策文本进行归纳合并,对讨论意见不一致的政策文本再次进行商榷。此外,本次政策文本的选取不选取讨论稿、征求意见稿、函、批复等一些非正式的政策文本,从而保证政策文本选取的权威性。按照以上原则筛选整理后,最终确定114条具有代表性的科学数据开放共享政策文本作为本次的研究对象,时间跨度为2001年—2020年,政策文本形式包括办法、意见、细则、方案、规定、通知、措施、规划、计划等13种,政策文本内容共计20余万字。

2 PMC 指数模型的构建

PMC(Policy Modeling Consistency)指数模型可以被定义为一种学术或实证分析研究方法,它通过以不同的理论为基础,定量或定性模型为支撑,由此来科学地评估任何政策发布的原因以及对社会产生的影响[11]。PMC指数模型作为政策量化评价的方法,通常以多指标构建来衡量政策建模过程中的一致性,它的构建涉及9个主变量和若干个子变量,研究各个子变量对整体变化的累积效应。它通过多指标构建来评价政策制定的一致性,使用三维可视化空间构造的方法来展现政策的优劣,这也是PMC指数模型区别于其他政策评估最大的不同。一般来说,PMC指数模型包括以下四个步骤(见图1):①变量选取及参数识别;②多投入产出表构建;③PMC 指数计算;④PMC 曲面绘制。

图1 PMC指数模型的构建

2.1变量选取及参数识别在构建科学数据开放共享政策评价模型之前,需要考虑与科学数据开放共享政策所有相关和可能相关的变量。本文采用内容分析和文本数据挖掘的方法,利用ROSTCM文本挖掘分析软件来提取政策文本中的高频词,去掉无明显意义的高频词,如“科学数据”“共享”,将其余高频词归纳整理后得到 “政策内容”主变量与子变量,并在现有研究基础上建立并调整其他8个主变量以及各主变量下的子变量,见图2。

图2 变量选取的过程

根据Omnia Mobilis假设,PMC指数模型反映相关政策之间存在的内部关系,需要从政策动态发展的角度来看待其基本属性,因此PMC指数模型不能孤立地考虑一些变量,需要广泛、全面地考虑所有与其相关的变量[12]。本文参考Ruiz Estrad对政策量化评价设计的经典变量,用“政策性质”“政策时效”这两个主变量以判断某一条科学数据开放共享政策的相关性质以及政策的有效时长,根据我国政府部门文件的有关规定,政策文件的有效期一般为3~5年,我们将政策文件作用时效为5年以上的政策定义为长期政策,3~5年为中期,3年以下为短期[13];由于科学数据开放共享政策制定者目的不同,不同政策作用的领域也有所不同,因此设置“政策领域”用来判断政策制定的作用领域;对我国国家层面颁布的科学数据开放共享政策采用内容分析和文本数据挖掘的方法提取高频词,通过对政策文本中的高频词进行整合形成PMC指数模型中“政策内容”变量;为了更加清楚地了解科学数据开放共享目标是如何通过具体的方法或手段实现的,利用政策工具理论将科学数据开放共享政策工具划分为供给型、需求型及环境型,从而设置“政策工具”变量;由于不同科学数据开放共享政策目标需要涉及相关作用对象来实现,因此将政策作用的对象设置成“政策客体”变量;科学数据开放共享政策的制定涉及科学数据的产生到消亡所经历的不同阶段,因此在前人研究的基础上将科学数据的生命周期划分为创建与汇交、组织与存储、共享与传播、增值与利用、监督与评价5个阶段,并设置“生命周期”变量;为了更好地对科学数据开放共享政策整体制定的情况做出判断,以及了解相关政策整体的执行效力,因此设置“政策评价”“效力级别”这两个子变量来对科学数据开放共享政策做出评价及其政策效力做出判断。因此,本文在现有相关研究基础上调整并建立9个子变量和42个子变量。其中,这9个子变量分别为政策性质(X1)、政策时效(X2)、政策领域(X3)、政策内容(X4)、政策工具(X5)、政策客体(X6)、政策生命周期(X7)、政策评价(X8)、效力级别(X9),具体内容见表1。

表1 科学数据开放共享政策量化评价子变量的选取

2.2子变量参数的设定PMC指数模型的核心思想是需要尽可能地考虑多的相关变量,而不能忽视一些相关变量的作用,因此在对所有的子变量进行选择和分类之后,需要对每个子变量的参数进行设置。为了保证所有的子变量具有相同的重要程度和权重,需要对每个子变量采用二进制0或1赋值。具体来说,如果科学数据开放共享政策文本中涉及相关子变量的内容,则该子变量的参数为1,否则为0(见表2)。

表2 子变量参数的设定

续表2 子变量参数的设定

续表2 子变量参数的设定

2.3多投入产出表构建为了更好地量化各子变量的数值,PMC指数模型第三步需要建立多投入产出表(见表3)。多投入产出表作为数据库分析框架的另一种表现形式,允许存储大量数据来度量单个变量,这些单一变量从总的角度反映某项政策的演变,所以它被用来设计评估不同类型的变量[14]。多投入产出表是衡量科学数据开放共享政策的基本分析框架,其中每个主变量由多个子变量组成。

表3 多投入产出表

2.4PMC指数计算PMC指数的计算通常通过以下4个步骤:①将科学数据开放共享政策中9个主变量和42个子变量放入多输入输出表中;②利用文本挖掘的方法并结合公式(1)和公式(2),将同一主变量下的多个子变量赋值;③根据公式(3)分别计算每个主变量;④根据公式(4)计算出亟待评价的科学数据开放共享相关政策的PMC指数,即所有主变量之和相加。

X:N[0,1]

(1)

X={PR:[0,1]}

(2)

(3)

其中,i为子变量,j为子变量

(4)

最后,根据现有的研究PMC指数可以分为4个一致性级别[14](见表4):当PMC指数的得分在0~3.9之间时,则该政策是低一致性政策,评分等级为不及格;如果分数在4~5.9之间,则是可接受的一致性政策,评分等级为及格;如果分数在6~7.9之间,则是较好的一致性政策,评分等级为良好;如果分数在8~9.0之间,则是完美的一致性政策,评分等级为优秀。即PMC指数的值越大,则等级越高。

表4 政策等级划分

2.5PMC曲面绘制为了将PMC矩阵的结果以可视化方式呈现,为此需要构建PMC曲面。PMC曲面是一个3×3的矩阵,它保留表1中的9个主变量的结果,这9个主变量可以建立一个对称的立体曲面。如果PMC矩阵保持相同的行数和列数,那么PMC曲面可以显示为对称视图。根据公式(5)来绘制PMC曲面,可以更加直观地以图形化的方式看出某项科学数据开放共享政策的优劣程度,从而判断该政策的评价效果。

(5)

3 科学数据开放共享政策量化评价的实证分析

在构建PMC指数模型之后,需要对科学数据开放共享政策做进一步的量化评价,科学数据开放共享政策量化评价分为四个阶段:样本政策的选取、PMC指数计算、PMC曲面绘制、政策量化评价。

3.1样本政策的选取PMC指数模型的主旨是不忽略任何一个可能相关的变量,因而在实证研究选取政策样本时不必遵循特定的规律,在选取政策时不必按照政策工具的类型、发布机构和效力级别等维度进行划分,如果主观地选取样本,这样无疑会带来评估模型的主观偏差[20]。本文对114项科学数据开放共享政策通过简单随机抽样的方法,选取我国国家部门出台的六项科学数据开放共享政策(见表5)。

表5 科学数据开放共享政策样本

3.2PMC指数计算依据上述子变量和子变量的选取以及参数的变量参数的设定,建立六项科学数据开放共享政策的多投入产出表(见表6)。

表6 六项科学数据开放共享政策的多投入产出表

依据公式(4),分别计算出政策P1、P2、P3、P4、P5、P6的PMC指数,这六项不同政策样本的PMC指数(见表7)。

表7 六项科学数据开放共享政策样本的PMC指数

依据表4中关于政策等级划分,对上述六项科学数据开放共享政策样本进行政策等级认定(见表8)。

表8 六项科学数据开放共享政策等级评价

3.3PMC曲面绘制依据公式(5),按照PMC指数计算的结果对六项科学数据开放共享政策样本进行排列,得出3×3的PMC矩阵(见表9)。

表9 六项科学数据开放共享政策PMC矩阵

根据公式(5)绘制PMC曲面,可以更加直观地从图形化的方式看出某项科学数据开放共享政策的优劣程度,从而判断其政策的评价效果。下面以P1为例绘制出政策曲面图(见图3),其余政策曲面图可以依照同样的方法得到,其中矩阵的横坐标为图中的123,纵坐标为系列123。

图3 科学数据开放共享政策P1的曲面图

为了更加直观地显示各项科学数据开放共享政策的整体得分情况,因此选取三项得分变化最明显的政策(P1、P3、P5),利用戴布拉图进行展示(见图4)。通过戴布拉图可以直观地观察出这三项科学数据开放共享政策得分的整体变动情况,其中变动明显的指标为政策时效、政策领域、政策内容、政策工具、政策客体、效力级别;相对而言变化较小的指标为政策性质、生命周期、政策评价。

图4 科学数据开放共享政策的戴布拉图

3.4政策量化评价

3.4.1 政策整体评价 通过对上述六项科学数据开放共享政策计算其PMC指数并绘制相应的曲面,按照得分的高低将六项政策排序为:P5>P2>P6>P1>P4>P3,并根据表4中政策等级划分,因此我们可以将这六项划分为3个不同的等级:①I级政策:政策得分在8~9分之间,政策等级为优秀,如P5;②II级政策:政策得分在6~8分之间,政策等级为良好,如P2、P6、P1、P4;③III级政策:政策得分在4~6分之间,政策等级为合格,如P3。从总体上来看,国务院出台的政策(P5)得分大于其他部门出台的政策(P2、P6、P1、P4、P5),各部门政策得分高低的原因可能是政策作用的时长、政策的专指性等原因,P5虽然和P2、P6、P1、P4同为国家部门规章政策,但P5主要是3年内的短期政策,政策时效性比较短,此外该政策的领域范围仅涉及社会和科技,涉及范围比较狭窄,并且该政策主要针对国家科技基础条件平台,内容上相对于其他政策而言不够全面。由此可见,政策的效力级别越高,PMC指数的得分越高,如P5;政策的专指性越强,PMC指数的得分越低,如P3;同一效力级别的政策得分的高低取决于政策时效、政策领域、政策内容等变量。

3.4.2 各项政策评价 结合科学数据开放共享政策的PMC指数及相应的曲面图,对六项科学数据开放共享政策依据政策级别以及得分的高低对其依次进行分析(见图5)。

图5 科学数据开放共享政策的得分柱状图

a.I级政策。P5的得分为8.29,排名第一 ,政策等级为优秀。在具体的变量评分中,该政策分别在X2政策时效、X5政策工具、X6政策客体、X7生命周期、X8政策评价分别达到最高值,因为国务院办公厅出台的《关于印发科学数据管理办法的通知》是关于科学数据开放共享的长期指导政策,其政策时效、效力级别达到最高;且该项政策首次明确国务院科学技术行政部门、国务院相关部门、省级人民政府相关部门、科研院所、高等院校和企业、科学数据中心等政策客体在科学数据生命周期过程中以及在“保密与安全”环节上的职责与做法[21],采用供给型、需求型、环境型政策工具来提高我国科学数据开放共享水平,即该项政策在政策客体、生命周期、政策工具变量中评分明显高于平均水平,所以该项政策的评级为优秀。

b.II级政策。P2、P6、P1、P4这四项政策等级均为良好。P2的得分为7.96,排名第2,它是由中国地震局颁布的关于地震科学数据的中长期管理办法,涉及地震科学数据的产出与汇交、管理与服务、共享与使用等不同生命周期的阶段的管理,且该政策条文对政策时效、政策内容以及政策的作用对象做出详尽的阐述与说明,在政策性质、政策时效、政策领域、政策内容高于全部政策的均值,但是该政策缺乏在需求层面拉动科学数据开放共享活动的开展,没有涉及鼓励引导、示范工程等方面,即缺少对需求型政策工具的使用,因此政策工具低于均值。P6的得分为6.69,排名第3,随着人工智能、工业互联网以及5G技术的发展,为促进工业大数据的开发利用和大数据在工业领域中的应用,因此工业和信息化部出台中长期政策以贯彻落实工业大数据发展战略。该项政策内容涉及数据汇聚、数据共享、数据应用、数据治理、数据安全、组织保障等多方面规定,采用多种政策工具手段从而实现并完善我国工业大数据生态体系,在政策时效、政策内容、政策工具、政策评价明显高于均值,但是该项政策仅涉及政府和企业这两个政策客体,不涉及公众、非盈利组织等其他政策客体,且效力级别相对于其他政策而言较低,因此在政策客体、效力级别这两项变量的得分低于均值。P1的得分为6.9,排名第4,它是由中国气象局根据《中华人民共和国气象法》有关规定制定的中长期管理办法,涉及气象数据资料的共享、使用、保管以及违反规定的罚责等方面,且该项政策对涉及不同客体(政府部门、科研单位、企业、公众等)的职责做出明确的说明,该项政策在政策时效、政策客体、政策评价等方面明显高于政策的平均水平,但是该项政策并没有涉及科学创新、基础设施以及数据安全,且在实现政策目标上并没有涉及需求型工具的使用,即政策内容、政策工具这两项的得分低于均值。P4的得分为6.69,排名第5,该项政策是由交通运输部办公厅发布的中短期规划,主要实现建立健全交通运输业数据资源开放共享机制和完善开放共享技术体系,打通全行业之间的壁垒,建成互联互通的开放共享平台,打造行业数据资源开放共享示范应用,涉及经济、社会、科技等方面,因此在政策性质、政策时效、政策内容、效力级别低于均值,但是该项政策在政策工具、政策评价这两项变量的得分高于均值。

c.III级政策。P3的得分为4.95,排名第6,政策等级为合格。其中,政策时效、政策领域、政策内容、政策客体这几项变量的评分偏低,主要是因为该项政策主要针对的是三年内的短期政策,政策时效性比较短,影响力比较低,即政策时效是所有变量中评分最低的参数;且该政策的内容具有高度的专指性,仅涉及科学数据的基础设施、科学创新、资源共享这三方面内容;政策领域范围仅涉及社会和科技,涉及范围比较狭窄,即政策领域、政策内容这两项变量的评分比较低;此外,该项政策客体涉及的作用对象为政府和非盈利组织,不涉及其他的作用对象,即政策客体评分也较低;另外,该项政策的政策性质、政策工具、生命周期等其他变量的评分都低于所有政策的均值,所以该项政策的评级为合格。

4 结论与启示

本文以2001-2020年我国国家层面出台的114项科学数据开放共享政策为研究对象,利用内容分析、文本挖掘方法归纳、合并高频词,并在已有学者研究基础上构建科学开放共享政策的评价模型,从而对六项科学数据开放共享政策文本进行量化分析。研究结果表明:①选取的六项政策按照等级划分,其中P5处于优秀水平,P1、P2、P4、P6处于良好水平,P3处于及格水平,政策得分高低的主要原因是由于政策性质、政策内容、政策工具以及效力级别等指标的影响。②科学数据开放共享政策整体质量表现良好,但所有政策的作用效力均达不到法律法规级别,科学数据开放共享政策的法律法规有待完善。③科学数据开放共享政策的级别效力水平越高,PMC指数的得分也越高,如《关于印发科学数据管理办法的通知》;专项政策涉及的调控范围比较小,但政策专指性却较强,如《关于进一步推动国家科技基础条件平台开放共享工作的通知》。基于此,本文提出以下几点建议:

第一,政策性质层面。当前的科学数据开放共享政策主要体现在建议和描述层面,预测、反馈、监督作用居中,而引导作用不足。一方面,在政策制定时应适当增加引导性的内容。如在某些政策中,大篇幅都在强调如何管理科学数据,而涉及科学数据开放共享的内容较少,缺乏引导社会更多人开放共享数据。另一方面,科学数据开放共享政策制定的目的是促进科学数据开放共享的实践,因此,应适当增加监督方面的内容,比如增加设置监督机构等类似内容。

第二,政策内容层面。目前大部分科学数据开放共享政策内容涉及社会发展、资源共享与经济建设等方面,往往忽视科学创新和基础设施等内容。但是在科学数据开放共享整个活动过程中,基础设施是基础,是科学数据开放共享实践的重要保障;科学数据开放共享最重要的价值是创新,因此,需要拓宽科学数据开放共享政策内容,重视开放基础设施和科学创新科技创新的政策内容,确保科学数据开放共享活动行之有效。

第三,政策工具层面。应该加强科学数据开放共享政策工具的设计与使用,尤其是将供给型工具、需求型工具、环境型工具将这三种工具以组合的方式对科学数据开放共享政策进行设计,以此促进科学数据开放共享政策的实施,发挥出政策制定的作用与价值。

第四,政策效力级别层面。我国科学数据开放共享政策大部分属于部门规章,目前尚未出台科学数据开放共享政策相关的法律法规,未来我国相关政策法规的制定应该结合科学数据开放共享不同阶段的具体情况,以及出台相应的配套政策来优化我国科学数据开放共享环境,从而实现科学数据价值的最大化。

猜你喜欢

变量政策科学
政策
政策
寻求不变量解决折叠问题
抓住不变量解题
助企政策
政策
点击科学
科学大爆炸
科学拔牙
分离变量法:常见的通性通法