基于知识图谱的科学数据开放核心政策研究
2022-11-02吴金红吴容正
吴金红,吴容正
基于知识图谱的科学数据开放核心政策研究
吴金红,吴容正
(武汉纺织大学 管理学院,湖北 武汉 430200)
对我国科学数据开放政策进行细粒度分析,探讨我国科学数据开放的核心政策的影响情况与机制,为数字经济环境下制定促进数据高效共享政策提供参考。采用自顶向下方式,构建知识图谱模式层,识别并提取政策实体、属性及关系构建数据层,并存入Neo4j图数据库;实现语义层面的关联查询与可视化,从不同细粒度对政策文本进行多维分析。通过知识图谱识别核心政策,结合政策工具进行政策文本多维分析,探究科学数据开放核心政策对现有政策体系的影响情况。发现科学数据开放的核心政策在政策演化过程中,能够对其关联政策以及政策整体的政策目标和政策工具使用产生影响。
科学数据开放;政策工具;知识图谱;文本分析
0 引言
自Jim Gray提出“第四范式:数据密集型科学发现”以来,科学数据的价值日益凸显[1]。2020年3月,国务院颁布《关于构建更加完善的要素市场化配置体制机制的意见》更是体现出国家对数据要素价值的高度认同。政策文件的设计、选择与应用对于科学数据开放运动的推广与运行发挥着引导和规范作用。分析政策文本能够揭示相关领域的发展与演化规律,而政策体系中存在政策引用与被引用关系构成的政策网络,其能够体现政策制定的扩散过程和方向,不断完善我国科学数据开放政策体系的布局[2]。核心政策作为政策扩散的领导者,与其引用政策形成政策扩散网络,分析其隐含信息对政策整体是否具有引导作用,对于相关政策领域的全面深入研究具有重要意义。
核心政策隐含信息的挖掘与知识结构化、核心政策的识别以及核心政策对政策整体的影响可借助知识图谱实现。知识图谱以具有知识表达属性的三元组为基础,以具有语义关系的有向图结构描述政策中的相关概念及其关系。将知识图谱技术应用于政策文本研究中,能够展现政策文本内容的隐含信息,挖掘不同政策间的内在联系,实现政策的精细化利用。
基于此,本文提出一种基于知识图谱的政策文本细粒度分析方法,利用知识图谱良好的语义表达能力来识别科学数据开放的核心政策,通过知识图谱发现核心政策与引用政策的主要条目、政策主体以及政策属性之间的内在关联,结合政策工具理论,探究科学数据开放核心政策对于政策整体的特征和演化规律的影响。
1 相关研究与现状
1.1 科学数据开放政策研究
科学数据开放共享已有的研究更多集中在相关概念[3]、表现形式[4]、影响因素[5]、制度建设[6]与评价体系[7]上,相关研究成果较多,其中也有部分研究涉及到相关政策研究,包括对现有政策进行量化评价[8]、政策主体合作[9]、体系构建[10]、国内外政策比较研究[11]和政策工具[12]等。可以发现目前对科学数据开放政策的分析大多是采用传统的文件解读方式,存在主观性和片面性,政策文本量化分析采用量化的方法对政策文本分析,主要集中在三类:(1)政策工具,通常是借用Rothwell等[13]提出的政策工具法进行定量研究;(2)文献计量,采用统计学的方法对政策文件进行描述型统计分析,从文件外部特征上对政策文件进行主体特征、政策现状分析[14];(3)文本挖掘,采用文本挖掘方法,借助于机器学习、数据挖掘等,对政策文件的内容进行情感分析[15]、语义分析[16]。政策文本量化虽有一定优势但缺乏文本内容之间的语义关联,不利于全面理解相关政策的走势。而知识图谱强大的语义表示能力,能够弥补不足之处。
1.2 知识图谱相关研究
知识图谱是一种描述真实客观实体之间关系的语义网络,通过<实体,关系,实体>或<实体,属性,属性值>形式表示实体之间的相互关系和实体所具有的属性,形成语义知识库,以图形化方式增强计算机描述客观世界中相关概念及其关系的能力[17]。由于其强大的语义表示能力,被广泛应用于个性化推荐[18]、语义搜索[19]、智能问答[20]、风险识别及预警[21]等应用领域。近年来,有不少学者对政策文本抽取知识,构建语义化的政策知识图谱。如张维冲等以贵州省大数据政策为样本数据构建贵州省大数据政策知识图谱[22]。张雨等以科技政策文本为数据源,通过Bi-LSTM模型构建科技政策知识图谱[23]。
1.3 政策扩散相关研究
政策扩散表示政策之间发生引用、演化等一系列行为的过程[2]。与文献计量学的引用与被引用相类似,一篇政策文件被其他政策文件引用或参照,体现出政策的继承与发展关系。通过对政策扩散的过程研究,有助于了解政策制定的来龙去脉以及发展趋势。学者们对于政策扩散的模式也展开了深入的研究,如Brown和Cox在总结政策扩散过程的三条规律基础上提出“领导者与追随者”的层级效应[24]。Marsh和Sharman根据政策扩散在研究中受到的关注程度,提出了学习、竞争、胁迫和模仿等四种扩散机制,并分析了不同扩散机制的侧重点[25]。许乾坤等结合科技政策篇章文本的形式语义和内容语义两个方面对政策文本结构化处理和深度挖掘,提出科技政策的自组织方法[2]。
2 科学数据开放政策扩散模型
2.1 政策扩散路径
政策扩散路径如图1所示。与文献引用相似,政策扩散是政策的引用与部分引用的一个过程,一篇政策的内容是来源多篇政策,或者是政策被多篇政策借鉴和引用,而核心政策是政策扩散的源头,是所有引用政策的“领导者”。与文献引用的规范格式不同,政策引用则是以书名号的形式将参考政策名称在文中罗列,有时甚至简化参考的政策标题对研究政策扩散产生极大阻碍。知识图谱能够通过政策引文关系探究政策扩散规律。其实体融合消岐的过程能有效解决政策引文关系格式不规范等问题。
图1 政策扩散路径模型
2.2 政策知识图谱及其构建
通常构建政策知识图谱都要考虑其两个层面,分别是模式层和数据层。模式层是指所要构建的政策文本中的概念和概念的特征,而数据层是对模式层的具体落实。政策知识图谱构建过程如图2所示,知识图谱的构建是基于数据获取、知识获取、知识融合、知识加工的动态循环过程,从政策文本提取实体及其相关关系,同时对提取的内容进行审核,从而得到相应的模式层,并在模式层的基础上更新数据层,最终构建政策知识图谱。
图2 知识图谱构建过程
2.3 核心政策判别方法
本文根据社会网络分析中K核的概念来提取展示政策知识图谱中的核心政策。K核分解是以不断移去网络中所有度值小于或等于K的节点的形式揭示网络层级结构特征。假设网络G=(V,E)是一个无向网络,该网络由|V|=N个节点和|E|=E条边组成,则K核分解的定义如下[26]:由集合推导出的子网络H=(C,E|C),当且仅当对C中的任意节点V,其度值均大于K,具有这一性质的最大子网络的补集被称为K核。K核的分解始于网络中最边缘的节点,随着K值的逐渐增大,由外到内逐渐进入网络的最核心区域,根据K核定义可知,最大K核节点代表网络最核心节点。
3 融合知识图谱和政策工具的政策文本分析
3.1 语料数据的选取与知识图谱构建
本研究语料数据为科学数据开放主题相关的国家层面的政策文本,选取过程如下:在中国政府网和北大法宝检索标题或全文中含有“科学数据开放”、“数据开放”和“数据共享”关键词的政策文本;筛选和剔除政策文本中与主题关联较弱的政策文本以及答复和函这类参考价值较弱的政策格式;整理获得2007-2022年208篇科学数据开放的政策文本。对收集到的政策文本正文部分按照一级标题将一篇政策分割为若干个政策条文,保留与主题密切相关的政策条文内容,即对包含“科学数据”、“开放”或“共享”关键词的政策条文予以保留,最终获得政策条文849条。
本文根据政策文本特点以及内容组成要素,以全面反映科学数据开放政策演化过程中政策内容包括政策目的、政策对象、政策类别、政策性质为目标构建知识图谱模式层。本文在融合政策工具理论和知识图谱理论等基础上,对政策文本进行细分,形成政策文件-政策条文的二级分层体系,并补充和调整一些实体、关系和属性,构建科学数据开放政策的知识图谱模式层,如图3所示:
图3 科学数据开放政策知识图谱模式
(1)实体定义。实体是对客观个体的抽象。通过分析政策文本的特征,将涉及的实体分为两个层面:政策文件层面和政策条文层面。政策文件层面的实体主要从政策外部特征来界定实体,政策条文层面主要从政策内容进行界定,如表1所示。其中条文类别的划分是在政策工具的分类的基础上,结合科学数据开放政策进行分类,供给型条文类别包含信息科技支持、公共服务、人才培养和资金支持;环境型条文类别包含法规标准、工作制度、公民参与和目标规划;需求型条文类别包含消费市场、合作交流和政府采购。
(2)关系定义。在知识图谱中,通常以节点表示实体,以节点之间的有向边进一步表示实体之间的关系,本文的关系包括发布、包含、目标、类别和隶属等八类关系,如表2所示。
(3)属性。属性是对实体的抽象描述,政策文件层面的属性包括发布时间、政策摘要和政策关键词,条文层面的属性包括条文关键词。如表3所示。
本文采用Neo4j数据库来存储抽取的实体、属性和关系。基本过程是先建立知识网络的关系映射表,然后按照Neo4j要求将抽取的实体、关系和属性实例化。采用Python的os、pandas、py2neo模块将构建好的实体及关系数据逐条导入neo4j的图数据库中,形成科学数据开放政策知识图谱,共计实体1291个和关系5399条,并通过Cypher语言查询发现政策知识图谱节点间的内在联系。
表1 科学数据开放政策知识图谱中的实体及描述
表2 科学数据开放政策知识图谱中的关系类型及描述
表3 科学数据开放政策知识图谱中的实体属性及描述
3.2 核心政策的识别与其政策偏好分析
知识图谱能够通过对节点间关系进行知识推理,发现政策间隐含的内在关联。根据K核分解,最终发现当K=4时为最大K核,其代表的节点为核心政策,部分节点关系如图4所示,其中K=1时政策共125个,K=2政策共27个、K=3政策共10个、K=4政策共3个,分别为2015年8月的《大数据发展行动纲要》(以下简称《大数据》)、2016年3月的《国民经济和社会发展第十三个五年规划》(以下简称《十三五》)以及2016年7月的《国家信息化发展战略纲要》(以下简称《信息化》)。
图4 K=2时部分政策间引用关系
核心政策的政策目标及政策工具使用情况以《大数据》为例(如图5所示)。《大数据》的政策目标中仅有产业发展,在政策工具使用时缺乏对法规标准、政府采购和公民参与的使用;《信息化》的政策目标偏向创新驱动,政策工具的使用缺乏资金支持和政府采购;《十三五》的政策目标偏向数据治理和产业发展,而在政策工具方面仅使用到了法规标准、工作制度、消费市场和公共服务。
图5 《大数据》政策工具及目标情况
3.3 核心政策对于政策整体演化的影响
通过对核心政策的发布时间属性进行查询,结合科学数据开放政策数量演化情况,如图6所示,发现核心政策均发布于科学数据开放政策爆发式增长阶段初期,相关政策集中发布于2016年和2017年,这与科学数据开放政策的整体变化趋势相吻合,而在2018年后,核心政策的影响力逐渐衰弱,科学数据开放政策的发展步伐放缓。由此可见,核心政策可能影响了科学数据开放的进程。
图6 政策时间分布频次及变化
通过对比核心政策与整体的政策工具使用情况,可以研究核心政策对整体政策工具使用情况的影响。本文中核心政策的政策工具运用为供给型10条、环境型8条和需求型2条,偏向于运用供给型和环境型政策工具。根据图7可以发现,核心政策的政策工具使用情况与整体大致相似。值得注意的是,在核心政策的发布年份以及引用核心政策的科学数据开放政策数量最多的年份,即2015年至2017年中,供给型政策工具的使用情况略多余其他年份,说明核心政策在政策工具演化上产生了引导作用。
图7 各年度政策工具分布占比
3.4 核心政策的影响机制分析
通过分析核心政策对引用核心政策的科学数据开放政策(以下简称关联政策)在政策目标和政策工具上产生的影响情况,有助于探究核心政策的具体影响机制。
3.4.1 核心政策对于关联政策在政策目标上的影响
通过研究核心政策的政策目标偏向,探讨其对关联政策的政策目标影响情况。在政策知识图谱中分别匹配核心政策的关联政策及其政策目标,关联政策在政策目标上的分布情况汇总如表4所示,结合核心政策在政策目标上的偏好情况,发现《大数据》政策目标中仅有产业发展,其关联政策的政策目标在产业发展政策目标上的比重较高;在《十三五》的政策目标中,数据治理包含2条,产业发展包含1条,而其关联政策的政策目标中亦是数据治理占比最高,产业发展次之;在《信息化》的政策目标中仅有创新驱动,而在整体政策的政策目标中,创新驱动仅占比7.6%,但在《信息化》的关联政策的政策目标中,创新驱动占比达到了27.3%。由此可见,在科学数据开放政策中核心政策的政策目标偏向确实能够对其关联政策的政策目标产生影响,但这个影响还不足以对政策整体产生作用。
表4 各核心政策的关联政策的政策目标占比情况
3.4.2 核心政策对于关联政策所使用政策工具的影响
通过研究核心政策的政策工具使用,探讨核心政策对关联政策使用政策工具情况的影响。在政策知识图谱中分别匹配核心政策的关联政策及其政策工具的使用,通过汇总核心政策的关联政策和政策整体政策工具情况(如表5所示),结合核心政策的政策工具使用偏好情况,发现《大数据》在运用政策工具时,偏向于供给型,其次在使用需求型与环境型政策工具相对均衡,而在《大数据》关联政策中供给型与需求型政策工具占比同样高于整体情况;《十三五》中环境型与供给型政策工具使用较多,而在其关联政策中体现为供给型与环境型政策工具占比差距较小;《信息化》中政策工具使用为供给型3条、环境型4条和需求型2条,相对于整体而言,核心政策《信息化》政策工具运用相对均衡,在其关联政策中体现为需求型政策工具占比远高于总体情况。由此发现,关联政策工具的使用情况大体与科学数据开放政策总体情况相似,但核心政策在三种类别政策工具中使用的具体工具并未对关联政策产生明显影响。
表5 各核心政策的关联政策的政策工具占比情况
4 结论与建议
本文采用自顶向下的方式构建知识图谱,在分析语料数据的基础上,构建科学数据开放政策的模式层;基于模式层从语料库里抽取出实体、属性和关系,存入图数据库中。对我国科学数据开放政策现状,以政策工具理论为基础,从知识图谱的角度进行深入剖析,探究科学数据开放的核心政策对其关联政策以及整体的政策目标和政策工具使用变化的影响。
研究结果表明,科学数据开放的核心政策在政策演化过程中,能够对其关联政策以及政策整体的政策目标和政策工具使用产生影响。核心政策能够调节政策整体的目标偏好以及政策工具的使用情况,推动科学数据开放政策体系的平衡与完善。但就目前科学数据开放政策制定的现状来看,我国核心政策发布数量较少,同时引用的关联政策较少;核心政策的影响力减弱后,由于缺乏后续核心政策的发布,使得科学数据开放发展的步伐放缓。我国政府应当增加核心政策制定,以加强政策体系的结构性,通过不断发布新的核心政策,维持科学数据开放的发展动力,为推进我国科学数据开放的发展提供宏观把控以及具体指引。
本文的研究中仍存在不足之处,选取政策文本数量较少,仅以国家层面的政策作为研究对象,而地方政策,作为中央政策的延续是政策体系不可或缺的一部分,更多的内在联系以及特征规律尚未被挖掘。
[1] 郭华东. 科学大数据―国家大数据战略的基石[J]. 中国科学院院刊, 2018, 33(08): 768-773.
[2] 许乾坤, 刘耀. 科技政策隐性扩散路径自组织研究[J/OL]. 情报资料工作, 1-14. http://kns. cnki.net/ kcms/ detail/11.1448.G3.20220118.1528.002.htm, [2022-04-14].
[3] 王瑞丹, 高孟绪, 石蕾, 等. 对大数据背景下科学数据开放共享的研究与思考[J]. 中国科技资源导刊, 2020, 52(01): 1-5+26.
[4] 章琰, 杨一图, 吴健, 等. 我国科学数据共享运行机制模式创新探讨——以产业技术联盟为例[J]. 科学学研究, 2021, 39(11): 1970-1979.
[5] 刘文云, 刘莉. 欧盟开放科学实践体系分析及启示[J]. 图书情报工作, 2020, 64(07): 136-144.
[6] 张娟. 欧盟开放科学战略生态体系建设及其特征分析[J]. 世界科技研究与发展, 2021, 43(01): 64-76.
[7] 黄如花. 我国政府数据开放共享标准体系构建[J]. 图书与情报, 2020, (03): 17-19.
[8] 宋大成, 焦凤枝, 范升. 我国科学数据开放共享政策量化评价——基于PMC指数模型的分析[J]. 情报杂志, 2021, 40(08): 119-126.
[9] 朱玲, 李国俊, 吴越. 国外科学数据开放共享政策中的主体分工合作框架及启示[J]. 图书情报知识, 2020, (01): 94-104.
[10] 卫军朝, 闫妍, 王海彪. 科学数据开放政策保障体系的构建与应用[J]. 图书馆学研究, 2017, (22): 46-54.
[11] 邢文明, 杨玲. 中美科学数据政策比较——以《科学数据管理办法》和《促进联邦资助科研成果获取的备忘录》为例[J/OL]. 图书馆论坛, 1-10. http://kns. cnki.net/kcms/detail/44.1306.G2.20210621.1728.007. html, [2022-04-14].
[12] 赵洋, 程雪涓. 政策工具视域下我国开放数据政策研究[J]. 图书馆杂志, 2021, 40(11): 31-38+47.
[13] Rothwell R, Zegveld W. Reindusdalization and Aechnol- ogy[M]. London: Logman Group Limited, 1985.
[14] Huang C, Su J, Xie X, et al. A bibliometric study of China’s science and technology policies: 1949-2010[J]. Scientometrics, 2014, 102(2): 1521-1539.
[15] 王亚民, 宁静, 马续补. 基于社会化媒体的公共政策舆情支持度研究[J]. 情报理论与实践, 2018, 41(03): 95-100.
[16] 孙春升. 基于语义分析的我国煤炭行业政策趋势研究[J]. 煤炭工程, 2018, 50(11): 167-171.
[17] 田玲, 张谨川, 张晋豪, 等. 知识图谱综述——表示、构建、推理与知识超图理论[J]. 计算机应用, 2021, 41(08): 2161-2186.
[18] Huang G, Yuan M, Li C S, et al. Personalized Knowledge Recommendation Based on Knowledge Graph in Petroleum Exploration and Development[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2020, 34(10): 2059033.
[19] Wu Q, Fu D, Shen B, et al. Semantic Service Search in IT Crowdsourcing Platform: A Knowledge Graph - Based Approach[J]. International Journal of Software Engineering and Knowledge Engineering, 2020, 30(6): 765-783.
[20] Yang Z, Wang Y, Gan J, et al. Design and Research of Intelligent Question-Answering(Q&A) System Based on High School Course Knowledge Graph[J]. Mobile Networks and Applications:1-7, 2021, 6(1):1884-1890.
[21] Boytcheva S, Angelova G, Angelov Z, et al. Enrichment of EHR with linked open data for risk factors identification[C]. ACM International Conference Proceeding Series, 2017. 84-90.
[22] 张维冲, 王芳, 黄毅. 基于图数据库的贵州省大数据政策知识建模研究[J]. 数字图书馆论坛, 2020, (04): 30-38.
[23] 张雨, 吴俊. 科技政策知识图谱构建研究[J]. 数字图书馆论坛, 2021, (08): 31-38.
[24] Brown L A, Cox K R. Empirical regularities in the diffusion of innovation[J]. Annals of the Association of American Geographers, 1971, 61(3): 551-559.
[25] Marsh D, Sharman J C. Policy diffusion and policy transfer[J]. Policy studies, 2009, 30(3): 269-288.
[26] 任卓明, 刘建国, 邵凤, 等. 复杂网络中最小K-核节点的传播能力分析[J]. 物理学报, 2013, 62(10): 474-479.
[27] 盛小平, 吴红. 科学数据开放共享活动中不同利益相关者动力分析[J]. 图书情报工作, 2019, 63(17): 40-50.
Research on The Core Policy of Scientific Data Opening Based on Knowledge Graph
WU Jin-hong, WU Rong-zheng
(School of Management, Wuhan Textile University, Wuhan Hubei 430200, China)
This paper makes a fine-grained analysis of China's scientific data opening policy, and discusses the impact and mechanism of China's core policy of scientific data opening, so as to provide reference for formulating policies to promote efficient data sharing in the digital economy environment. Using the top-down method, build the knowledge graph pattern layer, identify and extract the policy entities, attributes and relationships, build the data layer, and store it in the Neo4j graph database; Realize the semantic level of association query and visualization, and conduct multi-dimensional analysis of policy text from different fine-grained. Identify the core policy through the knowledge graph, conduct multi-dimensional analysis of the policy text in combination with the policy tools, and explore the impact of the core policy of scientific data opening on the existing policy system. It is found that the core policy of scientific data opening can have an impact on its related policies, as well as the overall policy objectives and the use of policy tools in the process of policy evolution.
scientific data opening; policy tools; knowledge graph; text analysis
吴金红(1974-),男,教授,博士,研究方向:竞争情报系统、大数据治理与商务智能.
2020年度湖北省社科基金前期资助项目(20ZD053).
G203
A
2095-414X(2022)05-0021-08