APP下载

基于共词分析的“数字福建”政策结构研究

2018-09-10李永忠谢隆腾

关键词:共词主题词福建

李永忠 陈 静 谢隆腾

(福州大学经济与管理学院, 福建福州 350116)

一、引言

“数字福建”是习近平总书记在福建工作期间亲自部署和推动的经济社会信息化重大战略工程[1],旨在通过建设公用信息平台等基础设施,整合和利用信息技术和资源,借助网络化信息共享,形成以数字化为根本特征的电子政务、电子商务、电子社会等信息系统及信息化社区,逐步实现福建省国民经济和社会信息化。[2]经过十几年的政策支持与引导,“数字福建”已经取得了一定成效。但随着信息社会的高速发展,“数字福建”也暴露出部分问题,主要反映为“数字福建”建设机制的不完善。[3]建设机制的完善需要明确当前的政策现状和政策结构,只有“知”现状,才能“治”困局。因此,分析现阶段“数字福建”政策结构与特点,梳理政策侧重点与薄弱点,有助于进一步优化和完善“数字福建”政策,破除现有的困境,寻找新的出路。

“数字福建”作为经济社会信息化重大战略工程,既具有一般信息化工程的特点,又拥有其自身特色。在信息化战略工程政策方面,已有部分学者进行了研究:Caragliu等通过调查欧盟上百份政策文件来研究智慧城市与智慧城市政策之间的关系,结果表明密度更大、发展程度更高的城市其智慧城市政策结构也更加完善[4];Codagnone等研究了电子政务中制度同构、政策网络和测量指标之间的关系,提出了一个更为全面的政策基准框架,来完善电子政务评测的政策结构[5];Praharaj等从印度“智慧城市”改造工程(包含百来个城市)地方与中央政策的差异中得到借鉴,通过案例分析提出了新兴经济体建立健全智慧城市的政策结构。[6]在“数字福建”的研究方面,暂无对“数字福建”政策的专门研究,而有关“数字福建”现状的研究多为定性、宏观,无法对“数字福建”建设提供具体指导,如谢丽彬从政府服务创新的角度,提出了“数字福建”移动政务服务的若干建议[7];王爱萍仅宏观上提出了若干点有关“数字福建”建设的建议[8];周功元虽然提出了在“数字福建”建设过程中,针对PPP模式的相关政策,但其研究对象为PPP模式并未对政策进行具体的研究。[9]

共词分析法是内容分析方法之一,目前的研究主要集中于方法改进和方法应用两个方面。在方法改进上,主要集中在主题词筛选、包容系数和聚类方法等。如傅柱等研究了规范化术语下的主题词选定方法,为提高主题词的有效性提供了一种新的思路[10];路青等将互信息引入共词分析法中,研究其作为一种新的数据包容化处理方法的可信性[11];孙海生通过融合连边社团检测算法,得到了一种新的共词聚类方法,从而提高了共词聚类的有效性[12];在方法应用方面,刘孝美等运用共词分析法分析了我国重症手足口病研究的现状,并提出未来可能的研究方向[13];苏瑞波利用共词分析法来对五个省份的众创空间政策进行差异性研究。[14]从以上文献可知,共词分析法已经较为成熟,虽然方法仍在不断的改进中,但是作为一种定量分析方法,已经能被大多数学科所运用,并取得了较好的研究成果。

综合以上文献可知,在信息化工程研究方面,多以案例分析、政策分析和实践经验为主,缺乏定量分析的方法;而在“数字福建”研究中,虽有一些研究涉及政策结构优化与改良,但其多为宏观性的建议,并无定量的研究内容,无法为“数字福建”现状和政策结构的改善提供具体的指导;在共词分析法的应用方面,已经形成了较为成熟的研究方法和研究流程,并被许多学科运用。因此,本文拟采用定量的共词分析法对“数字福建”政策现状、结构展开研究,通过分词、LDA主题模型来挖掘“数字福建”的政策主题词,构建共词矩阵,然后进行战略坐标分析和社会网络分析,梳理出“数字福建”的政策现状与构成,最后提出“数字福建”政策类团的优先序,填补了“数字福建”政策现状与结构研究方面的空白,为完善与优化“数字福建”提供参考。

二、数据来源与研究方法

(一)数据来源

本文数据来源于北大法宝,检索时间:2000年1月至2017年12月(“数字福建”于2000年首次被提出)。通过提炼《福建省人民政府办公厅关于印发2017年数字福建工作要点的通知》和《福建省人民政府办公厅关于印发福建省“十三五”数字福建专项规划的通知》两份文件的主要内容,设置检索关键词为:“数字福建”“电子政务”“电子商务”“互联网+”“信息化”“工业4.0”“智慧城市”“云计算”“大数据”等。为使数据更有代表性,仅收录福建省内官方机构发布的政策相关文件;同时,为保证数据的有效性,排除无实质指导内容的政策文件(如招商通知、会议通知、培训通知等),最终得到共281份政策相关文件。

(二)共词分析

共词分析法早期是用于研究学科热点与趋势的一种方法。[15]梁帅等将共词分析引入专家评审意见中,对评审意见进行了主题词共词分析。[16]共词分析法的过程与方式不尽相同,随着研究对象特征的不同而略有差别,其基本步骤可归纳为:确定分析问题→确定分析单元→高频词选定→共词出现频率(共词矩阵)→共词分析中的统计方法→共词结果分析。[17]

本文所采用的共词分析研究路径为:政策文件分词(python结巴包)→主题词筛选(LDA)→构建共词矩阵(Salton矩阵)→共词结果分析(战略坐标图、社会网络分析)。

(三)LDA主题模型

LDA是无监督学习的主题分类模型,利用极大后验概率拟合单词与主题及文档与主题的概率分布情况。[18]王玉林、王忠义证明运用LDA主题模型能排除掉一些无实际意义的高频词,从而降低共词分析结果的错误率。[19]

三、数据分析

(一)主题词筛选

在词频统计过程中,存在一些对研究内容无意义的高频词,如“区”“市”“建”等。引入LDA主题模型对可构成主题的词汇进行筛选,排除无意义的高频词。

LDA模型将文档看作是多个隐含主题的概率分布,而每个隐含主题又被看作是多个词汇的概率分布。首先,通过LDA 统计主题模型获得文档的主题信息,而后,借助这些信息实现主题词的打分,分数越高说明该主题词用来代表主题的概率越大。因此分数高的词将被挑选为标识文档的主题词。其基本流程如下:

文本

分词→构建词

向 量→LDA模

型打分 →抽 取

主题词

主题词有别于前文的检索关键词,主题词是政策文本通过LDA主题模型得到的,用来挖掘文本主题;而检索关键词,是为了获取政策文件而设定的,用来寻找相关政策文件。

为了获取尽可能多的主题词(贪婪原则),本文设置了20个主题,每个主题包含20个主题词。由于某些主题之间存在重复的主题词(如“信息”一词可能分布于多个不同的主题),因此最终得到295个主题词(小于400个),用来反映“数字福建”政策结构与特征。

(二)词频统计

“数字福建”政策文件的词频统计如表1所示,从中可知“建设”“服务”“支持”三个主题词在大部分文件中均有提及;绝大部分文件也都涉及“工作”“资源”“行业”等主题词。

表1 “数字福建”政策主题词词频统计(前16)

(三)构建共词矩阵

统计主题词及其共现频次(同时包含两个词的政策文件数量),建立初始共词矩阵。在初始共词矩阵中,词对频数是绝对值,难以反映词与词之间真正的相互依赖关系,需要对词频进行包容化处理。[20]本文采用Salton指数来表示词对共现的强度,其公式[21]为:

其中:S表示词对共词强度,值越大关系越紧密,值域分布在0-1之间。Ni,j表示词i与词j共同出现的频次;Ni、Nj为词i出现的频数与词j出现的频数。表2为包容化后的Salton共词矩阵。

表2 Salton共词矩阵(部分)

(四)类团分析

类团指的是相互间联系较多的主题词集合[22],通常采用聚类的方法进行类团区分。运用SPSS对表2数据进行聚类操作,本次实验采用系统聚类,样本间采用最远邻元素法,距离公式采用欧几里得距离。

表3是由聚类归纳出的8个类团。类团的命名需要通过中心词来确定,中心词是可以用来表示类团中心思想的主题词。通过比较类团中每个主题词的粘合力可以确定中心词,用某个主题词与类团内其他主题词共现频率的平均值表示粘合力,粘合力最大的词即可称为中心词。[23]如类团1中,粘合力排序前三的主题词是“服务”-1.3742、“支持”-1.3742、“建设”-1.3742(由于几乎所有文件中都包含这三个词,导致三个词粘合力相同)。

由于本文某些类团涉及的主题词较多,为了使类团命名更为合理,将选取1-3个粘合力最大的主题词,同时,结合福建省人民政府办公厅印发的《福建省“十三五”数字福建专项规划》中提及的关键领域(如政务信息共享、网络经济等),对各个类团进行命名(表3)。

表3 类团命名汇总

从表3可知,部分主题词之间存在一定的矛盾,一方面是因为无论是python结巴分词还是LDA主题模型,都无法智能地将缩略词与原词合并,导致相同含义的词被作为不同的主题词对待;另一方面,部分缩略词往往与其他词配套使用,其含义与原词有较大差距。以“电商”和“电子商务”为例,在政策文件中“电商”往往和其他词配套出现,如“电商平台”“跨境电商”“第三方电商”等,因此,频率更高,所涵盖的内容也更多涉及经济领域;而“电子商务”往往作为单独的词出现,与之配套出现的往往是“两化融合”“智慧城市”等宏观性词汇,主题表达较为模糊。

在政府部门类名词的分类中,经贸委和其他政府部门之间有明显的差异性。通过查阅经贸委的政策文件发现,相关文献主要集中于经贸委和阿里巴巴合作的“千万工程”,与词汇“阿里巴巴”的亲密度较“电商”更近。由于类团8主题词之间关系较为不紧密,在规划文件中也无相关资料,故将命名“其他”类。

(五)战略坐标图分析

战略坐标图是以向心度与密度为参数绘制成的二维坐标图,主要用来描述领域内部联系情况和领域相互影响情况。向心度用来度量一个类团与其他类团的联系程度;密度用来度量一个类团内部元素的联系程度。[24]通常将类团内部主题词与其他类团主题词的平均共词词频作为向心度。

密度的测算通常采用类团内部主题词的平均共词词频,与类团整体的词频数存在较大关系(即与向心度存在相关性),因此,本文引入网络密度(density)[25]来重新定义战略坐标图的密度公式。网络密度的计算公式为:

其中:d(G)表示网络密度,L表示网络中的实际连边数,N表示节点数。

本文研究的“数字福建”政策主题词共词矩阵为X×Y的方阵,可抽象成网络图,则每个主题词为网络中的一个节点。公式(1)中的边数L反映的是节点之间的连通关系,连接则为1,不连通则为0。为适应本文研究,对每条边赋予连接强度(0-1之间),则重新定义后的网络密度计算公式为:

由公式(2)计算出的网络密度(表4)作为各个类团的密度,并结合向心度得到8个政策类团的战略坐标图(图1)。横轴表示向心度,纵轴表示密度,分别取所有类团向心度与密度的平均值作为二维空间划分的依据,则将战略坐标图划分为4个象限。[26]

第一象限(右上角):包含“教育培训”“平潭实验区”“政务信息共享”。在此象限中的政策类团,密度与向心度都较高,具有较强的稳定性和开放性,是目前“数字福建”政策中的热点话题,同时也说明这些政策类团已经得到足够政策文件的支持。“教育培训”的内容在历年的《数字福建工作要点》中都被提及。“平潭实验区”在政策文件中主要与电子商务、信息网络经济、“一带一路”等内容挂钩,其所反映的主题也可解释为“信息化合作”的内容,与《福建省“十三五”数字福建专项规划》的内容相一致。“政务信息共享”在《2006-2020国家信息化发展战略》的指导下,也成为福建省“数字福建”建设的重点工程。

第二象限(右下角):暂无,未发现密度低而向心度高的政策类团,表明“数字福建”所涉及的大部分重要内容都有相关政策的支持,并未出现遗漏缺失的情况,从侧面体现了福建省对“数字福建”建设的重视程度。

第三象限(左上角):包含“宏观指导”“网络信息标准化”;在此象限中的政策类团,密度较大而向心度较低,内部稳定但开放性较低,有向第一象限发展的趋势。从表1可知,“宏观指导”的内容几乎在所有的文献中都有提及,但图1又反映出该政策对其他政策的指导性较弱;同理,“网络信息标准化”作为重要的政策类团,虽然大部分文献都有提及,但作用力有限。从另一个角度来说,这两类类团也都属于发展阶段,具有较大的潜力,是目前“数字福建”政策结构中急需优化与完善的部分。

图1 “数字福建”政策类团战略坐标

第四象限(左下角):“基础设施”“信息网络经济”“其他”。在此象限中的类团,密度和向心度都较低,开放性较差且不稳定,可能是突发的政策类团。为改善“基础设施”“信息网络经济”,福建省政府已经将其列为《福建省“十三五”数字福建专项规划》的主要任务,但由于过去的政策支持较少,导致这两个类团无论是稳定性亦或是开放性方面都有待进一步提高。

表4 各政策类团的网络密度

(六)社会网络分析

社会网络图谱可以反映各个主题词在整个主题词该网络中的“地位”,其中“中心性”是社会网络分析的重要指标。[27]本文通过绝对点度中心度(Centrality)和中介中心度(Betweenness)来反映主题词的“中心性”,然后再用主题词来表达政策类团的结构特点与影响力。

将主题词Salton共词矩阵输入Ucinet6,分别生成绝对点度中心度(图2)和中介中心度(图3)的社会网络图谱。由于主题词较多,因此只显示关系度较为紧密(S>0.4)的社会网络分析图。

图2 “数字福建”政策主题词社会网络图谱(绝对点度中心度)

图3 “数字福建”政策主题词社会网络图谱(中介中心度)

图2中节点大小为绝对点度中心度,节点越大说明该主题词越处于网络的中心位置,影响力更强;反之,节点越小说明其处于网络边缘,影响力有限。[28]从图2中可知,除小部分(如“合同”“阿里巴巴”“专区”等)词外,大部分主题词的绝对点度中心度都较高,说明目前“数字福建”政策文件间的衔接性、关联性都较为紧密,各个政策文件之间具有较强的相关性;具体地看(表5),“平台”“资源”“建设”等主题词的绝对点度中心度位居所有主题词的前列,表明这些主题词所反映的政策类团对当前“数字福建”建设具有较大的影响力,同时,这些主题词之间的绝对点度中心度值的差距较小,表明目前“数字福建”建设是一个庞大的工程,涉及范围较广,与众多领域相关。

表5 主题词绝对点度中心度排序(前16)

与图2类似,图3中的节点大小表达的是各个主题词的中介中心度大小,节点越大说明该节点的资源控制能力越强[29],在政策中反映为对其他政策的支持与引导作用。从图2中可知,“资源”“平台”“服务”等主题词的节点依旧较大,表明这些主题词是“数字福建”政策结构的基础,也表明其所反映的政策类团是最为基础的类团,再结合表4可知,此类主题词大部分都包含在“宏观指导”“网络信息标准化”类团中,体现了这两个类团的基础性作用;与图2相比,“教育厅”“政务”“信息化”“标准”等主题词的中介中心度大小与绝对点度中心度相比都有明显的缩小,表明此类主题词所涉及的类团较为依赖其他政策类团。

进一步从类团角度分析,结合表3政策类团的主题词,用类团内每个主题词的平均绝对点度中心度来反映“数字福建”政策类团的影响力,并对其进行排序(表6)。

表6 政策类团影响力排序

由表7可知,“宏观引导”在“数字福建”政策中有最大的影响力,处于“数字福建”政策结构的核心位置;“网络标准信息化”“教育培训”“政务信息共享”和“平潭实验区”都有着较大的影响力,也是目前“数字福建”政策的重点工程;相对而言,“基础设施”“信息网络经济”是政策薄弱点,尚待改善。

四、政策类团优先级

本文通过类团分析,对“数字福建”政策进行了类团划分,同时,利用战略坐标图将其分成四个大类(四个象限);通过社会网络分析,进一步挖掘出政策类团的影响力、政策结构特征与薄弱点。综合前文分析,提出进一步完善和优化“数字福建”的政策类团优先级:

(1)第一优先级:包含“宏观引导”“网络信息标准化”,它们是“数字福建”政策结构的基础性类团,对其他类团起到重要的指导性作用;从图1可知,“宏观指导”“网络信息标准化”都位于战略坐标图的第三象限,具有较大的潜力,同时,结合表6,对这两个政策类团进行优化与升级能最大程度完善“数字福建”的政策结构,有利于为其他政策类团提供指导和标准,是“数字福建”建设的基础性工程。

(2)第二优先级:包含“信息网络经济”“基础设施”。这两个类团位于战略坐标图的第四象限,是目前“数字福建”建设的重点内容。“信息网络经济”是随着电子商务的发展而逐渐壮大的,导致其起步相比其他政策类团略晚;“基础设施”随着数字福建基础设施建设的不断完善,其他信息化需求的不断增加,其在政策结构中领先优势已逐步被其他类团所“蚕食”。这两个类团成为目前“数字福建”政策结构中最为薄弱的环节。从两个类团的中介中心度可知,他们较为依赖其他政策类团;从表6中可知,它们目前的影响力也较弱,无法为其他政策类团提供有力的支持,但无论是“信息网络经济”中涉及的电子商务,还是“基础设施”中涉及的城市智能化的内容,都与福建省经济息息相关,因此,改善与优化这两个类团自然成为提升“数字福建”战略成果的重要手段。

(3)第三优先级:包含“教育培训”“平潭实验区”“政务信息共享”三个政策类团。平潭综合实验区是加强两岸信息化合作的重要平台,是数字福建建设的一个重点领域;“教育培训”侧重于信息化相关的支持政策,如高校电子商务教学实践等;“政务信息共享”已逐步从理论走向实际,越来越多的综合平台、共享平台在相关政策的扶持下落地。该优先级中类团的特点是,已经是“数字福建”建设的热点话题(图1)且也具有一定的影响力(表6),是目前“数字福建”政策结构中较为稳定部分,只需要循序渐进地发展即可。

(4)第四优先级:仅包含“其他”。此类类团影响力较小,是目前不重要或“数字福建”建设中尚未被挖掘的“蓝海”,由于资源有限,在无突发事件或重大社会变化的情况下,其优先级一般都最低。

五、结语

本文运用共词分析法对“数字福建”政策现状与结构进行了研究。通过对“数字福建”相关政策文件的分词找出主题词,然后利用LDA主题模型来筛选有意义的主题词作为本文的研究对象。构建Salton共词矩阵,并通过聚类得到8个“数字福建”的政策类团,分别是:宏观引导型政策、网络信息标准化政策、教育培训政策、政务信息共享政策、平潭实验区相关政策、基础设施建设政策、信息网络经济政策和其他。更进一步,对各个类团进行战略坐标图分析,得到各个政策类团的特征与结构。紧接着进行社会网络分析,用中心度来反映各个政策类团的影响力情况。最后,综合前文研究明确未来“数字福建”政策完善的侧重点为“宏观引导”“网络信息标准化”,为“数字福建”建设提供指导方向。

本文将共词分析方法引入“数字福建”的研究中,一方面对“数字福建”的政策现状与结构进行研究,填补了该领域的空白;另一方面,为进一步研究“数字福建”提供了新的定量方法。本文的不足之处在于,LDA主题模型虽然能筛选出主题词,但无法排除近义词,导致在聚类后需要对近义词等进行人工排除。未来可对“其他”政策类团进行更为系统的研究,为提升“数字福建”寻找新的落脚点。

注释:

[1] 杨 林:《“数字福建”及其标准化进展》,《标准科学》2016年第9期。

[2] 游宪生:《“数字福建”纵横谈》,《发展研究》2000年第11期。

[3] 余鲲鹏、郭东强、郭建宏:《“互联网+”背景下信息化3.0的建设机制思考——以“数字福建”建设为例》,《长春大学学报》2017年第5期。

[4] Caragliu A., Bo C. F. D., “Do Smart Cities Invest in Smarter Policies? Learning From the Past, Planning for the Future”,SocialScienceComputerReview, vol. 34, no. 6 ( 2016), pp. 305-319.

[5] Codagnone C., Savoldelli A., Savoldelli A., “Institutional isomorphism, policy networks, and the analytical depreciation of measurement indicators”,TelecommunicationsPolicy, vol. 39, no. 3 ( 2015), pp. 305-319.

[6] Praharaj S., Han J. H., Hawken S., “Urban innovation through policy integration: Critical perspectives from 100 smart cities mission in India”,CityCulture&Society, vol. 12, no. 6 ( 2018), pp. 35-43.

[7] 谢丽彬:《移动互联下“数字福建”政府服务创新研究》,《湖南科技学院学报》2017年第7期。

[8] 王爱萍:《关于进一步推进数字福建建设几点思考》,《福建电脑》2014年第12期。

[9] 周功元:《社会资本参与数字福建建设影响因素研究及政策建议》,《商》2015年第46期。

[10] 傅 柱、王曰芬:《共词分析中术语收集阶段的若干问题研究》,《情报学报》2016年第7期.

[11] 路 青、靖彩玲、范少萍:《基于互信息的共词分析方法研究》,《情报科学》2016年第4期。

[12] 孙海生:《连边社团检测算法对共词分析聚类结果的改进研究》, 《图书情报工作》 2016年第10期。

[13] 刘孝美、罗碧如、舒 敏等:《我国重症手足口病研究现状的共词分析》,《现代预防医学》2017年第15期。

[14] 苏瑞波:《基于共词分析的广东与江苏、浙江、北京、上海支持众创空间政策的对比分析》,《科技管理研究》2017年第13期。

[15] Callon M., Courtial J. J. P., Turner W A, et al: “From translations to problematic networks - an introduction to co-word analysis. Soc Sci Inf Sur Les Sci Soc”,SocialScienceInformation, vol. 22, no. 2 ( 1983), pp.191-235.

[16] 梁 帅、高继平:《F5000论文评审意见的优秀论文特征识别》,《科学学研究》2017年第3期。

[17][20] 钟伟金、李 佳:《共词分析法研究(一)——共词分析的过程与方式》,《情报杂志》2008年第5期。

[18] Zhu M., Zhang X., Wang H.,ALDABasedModelforTopicEvolution:EvidencefromInformationScienceJournals, International Conference on Modeling Simulation and Optimization Technologies and Applications, 2016, pp.87-92.

[19] 王玉林、王忠义:《细粒度语义共词分析方法研究》,《图书情报工作》2014年第21期。

[21] Callon M., Courtial J. P., Laville F., “Co-word analysis as a tool for describing the network of interactions between basic and technological research: The case of polymer chemsitry”,Scientometrics, vol. 22, no. 1 ( 1991), pp.155-205.

[22][23][26] 钟伟金、李 佳:《共词分析法研究(二)——类团分析》,《情报杂志》2008年 第6期。

[24] Law J., Bauin S., Courtial J. P., et al, “Policy and the mapping of scientific change: A co-word analysis of research into environmental acidification” ,Scientometrics, vol. 14, no. 3 (1988), pp. 251-264.

[25] Leskovec, Jure, Kleinberg, et al,Graphsovertime:densificationlaws,shrinkingdiametersandpossibleexplanations, Kdd, 2005,pp.177-187.

[27] Wasserman S., Faust K., “Social network analysis: Methods and applications”,ContemporarySociology, vol. 91, no. 435 ( 2016), pp.219-220.

[28] Borgatti S. P., Everett M. G., Freeman L. C., “UCINET for Windows: Software for social network analysis”,Connections, vol. 14, no. 12 ( 1992), pp.12-15.

[29] 茨韦特瓦, 库兹涅索夫:《社会网络分析:方法与实践》, 王 薇译,北京: 机械工业出版社, 2013年, 第58页。

猜你喜欢

共词主题词福建
中国这十年·福建封
那个梦
福建老年大学之歌
我国高校辅导员研究热点分析——基于共词分析的视角
基于突变检测与共词分析的深阅读新兴趋势分析
基于Matlab的共词矩阵构造
《老年医学与保健》2017年第23卷主题词索引
福建医改新在哪?
基于共词知识图谱技术的国内VLC可视化研究
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词