APP下载

我国人工智能政策新词发现与演化研究

2024-06-03刘清民王芳黄梅银

现代情报 2024年6期
关键词:政策分析人工智能

刘清民 王芳 黄梅银

关键词: 新词发现; 人工智能; 政策分析; 政策演化; 多特征融合算法

DOI:10.3969 / j.issn.1008-0821.2024.06.002

〔中图分类号〕G350.7; TP18 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 06-0018-15

政策制定是政府实施社会治理和提供公共服务的重要手段[1] 。地方政府需要充分理解以往政策并与顶层政策设计保持一致[2] , 企业需要即时分析大量政策以支持快速变化的社会和经济环境[3] 。政策文件作为公共事务的反映和行为印迹, 是政策分析的首要选择[4] 。政策智能化分析可以快速获取政策关键内容[5] , 而要实现政策的主题分析[6] 、情感分析[7-8] 、知识发现[9]等, 首先要对文本进行分词。中文分词经历了基于匹配的词典分词、基于标注的机器学习和基于理解的深度学习3 个阶段[10] , 已经取得了相当的进展, 但是面对政策领域内新词, 仍存在切分歧义和未登录词(Out of Vocabulary)识别问题[11] 。这限制了自动分类、关键词提取、文本摘要等文本挖掘技术在政策分析中的应用[12] 。

新词发现的目的是识别和提取文本中出现的新词, 不断完善词典, 优化分词结果, 提升政策文本分析效果, 进而更好地理解政府调控方向和思路[13] 。在词汇学中, 新词是指随着社会环境的变化而产生的新词汇[14] 。从词典的参照角度出发, 新词可看作是现有词典没有收录的词语[15] , 也就是“未登录”到分词工具所使用的词典中的词汇(未登录词)[16] 。在本文中, 新词主要指的是未被分词算法正确识别或者已有词库中未出现过的词汇, 由一些基本的字词组合而成[17] , 比如: “云计算” 被分词工具切分成“云” 和“计算”。新词给分词工具带来了很大挑战, 因为大多数分词方法是通过词典和相应的匹配算法实现的[18] , 只有不断更新词典才能保持其检测新词的能力, 但更新词典会消耗时间和资源,并且可能无法识别意外出现的新词。针对现有新词发现算法对领域知识和语义使用不足的问题, 本文提出了融合多特征的新词发现算法(Multi-featureFusion, MFF), 一种结合了词特征和语义特征的新方法。将运用MFF 提取的新词以词库的形式加入到Jieba 分词系统中, 可以提升文本分词效果。

政策文本是记载政策意图和政策过程的客观凭证[19] , 政策词汇承载着政策目标、意图和导向, 对政策研究至关重要。新词的产生和使用反映了社会的发展变化和创新, 它们直接体现了社会问题、需求和挑战, 政策制定者通过精确选择和使用词汇来传达政策的含义和目的。相比于学术文献、网络媒体等文本, 政策文本的形成须经过逐级严格审核,因此用词更加准确、严谨。同时, 政策数量相对较少, 基于政策文本进行新词发现, 具有成本低、准确性高、确定性强、价值大等优势, 对于扩展领域词典、开展政策研究具有十分重要的意义。

近年来, 人工智能蓬勃发展[20] , 涌现出“强化学习” “自动驾驶” “智能医疗” 等新技术与应用[21] , 这些变革给政策制定者和技术创新者带来了全新挑战。人工智能政策文本是一个国家或地区政策制定者对技术应用、伦理规范以及社会影响的认知和规划。借助新词发现算法深入研究人工智能政策文本, 可以从新词的角度审视政策在人工智能创新、延续和扩散方面的作用, 探索政策与技术发展的相互关联, 揭示政策在不同时期对新技术和应用的关注点, 以及在不断变化的技术环境中应对挑战的方式。为此, 本文选择人工智能政策文本作为研究对象, 并应用MFF 算法, 不仅丰富了政策文本分析的方法, 也为未来人工智能政策研究提供了新的视角和工具支持。

1 相关工作

1.1 政策文本计算研究

政策文本计算是一种基于计算机科学、语言学和政治学理论的框架, 旨在进行海量政策文本的挖掘和计算分析, 它倡导使用政策编码、政策概念词表以及政策与语言之间的映射关系, 以实现政策概念的自动识别和处理[22] , 涉及文本数据处理、文本内容分析和文本挖掘[23] 。政策文本内容分析是利用人工或者借助编码管理工具对政策进行概念编码和信息语义分析, 介于定量和定性之间[24] , 其目的是对政策文本中涉及的主题进行深入分析、解释和预测, 探索相互关联的发展趋势[25] 。其数据处理主要依赖研究者的人工提取, 这类计算处理方法能够处理的政策文本数据有限且主题特定[22] 。

基于文本数据处理和文本挖掘的政策文本分析, 通常依赖于开源的中文分词工具。利用分词后的语料对政策主题、类型、情感等进行统计或计量分析, 或应用共词或共现分析政策增长、政策扩散、政策变迁[26] 、府际关系[27] 、政策演进[28] 、政策演化[29] 等变化规律, 或进行潜在的语义知识发现、关联规则发现、聚类分析[30] 、自动分类[31] 等。开源的中文分词工具对政策文本适应性较差, 对于未登录词和新词的敏感度较低[10] , 难以捕捉领域新兴词汇和新兴概念。专业词库的缺失也限制文本挖掘技术在政策分析的应用。针对这些问题, 研究者尝试了一些应对策略。一方面, 在分词时导入开源或者人工构建的领域专属词库, 增加分词工具对政策文本中名词术语的识别能力, 改善切分结果的准确性[32-34] ; 另一方面, 通过构建包含词汇同义、类别以及词间关系的领域主题词表, 提供领域相关的语义信息[35] , 从而更准确地切分政策文本。为了无监督地构建各种类型的主题词表, 现有研究主要依据词频、共现等特征从分词数据中提取关键词[36] , 并通过关联性分析和相似性匹配等方法识别词语之间的等级关系[37] 。添加词库可以快速适应特定领域, 但需要维护和人工添加更新。构建主题词表可以提供全面的领域词汇覆盖, 但目前针对政策领域的主题詞表研究较少。

1.2 新词发现算法研究现状

新词发现可以自动识别政策领域的新词和专有名词, 扩展分词器的词库和政策领域主题词表, 提高政策文本的分词效果。王芷筠等[38] 利用互信息和边界信息熵发现新词, 辅以人工补充修正构建环境政策法规专业词库, 验证了新词发现构建词库的有效性。张一帆等[12] 通过无监督学习的方式提升条件随机场(CRF)模型领域适应性, 并结合种子词典、关键词提取、人工筛选和补充的方式实现能源政策的新词发现。魏伟等[19] 在领域词典的基础上,利用信息熵对分词后的结果进行词合并, 分别对频繁词、热词和新词进行概念界定, 揭示了政府工作报告的共性问题、热点问题和演化规律。

新词发现算法可以分为基于规则、基于统计和两者混合3 种。基于规则的方法一般从语言学、领域知识出发[39] , 通过构词特征[40] 、词性以及词的形态特征[41] 构造规则模版来识别新词。基于规则发现的新词质量比较高, 但需要人工浏览语料或者结合领域知识制定规则, 人工成本较高[39] 。基于统计的新词发现算法利用大规模文本语料库中的统计信息自动发现新词, 通过词频[42] 、互信息[43] 、结合度、自由度[44] 等统计特征进行新词识别。QianY 等[14] 提出了基于词嵌入的方法(WEBM), 利用词向量剪枝策略来量化判断一个高频词串是一个新词的可能性, 在金融、音乐、体育和旅游领域实现新词发现。受WEBM 启发, 张乐等[45] 结合中国知网和汉字笔画库训练多语义词向量(MWEC), 利用多语义词向量的语义相似度来筛选经过热度和合成性规则生成的候选词, 解决语义混淆问题。基于统计的方法可以自动处理大量语料库数据, 发现规则方法中未定义的新词, 可移植性强, 但对于少见的词语或特定领域的新词表现不佳, 同时需要大的语料库支撑。混合方法是将规则和统计方法结合起来, 综合二者的优点, 既能利用规则方法的专业知识, 也能利用统计方法的自动化处理能力[46-48] 。

现有新词发现算法取得了一定的效果, 仍存在以下问题: 忽视潜在有价值的数据与知识, 在融合领域知识方面存在不足; 大多方法忽略了词的语义信息, 未对获取的新词进行语义完整性判断, 导致提取过多不合理的新词。同时, 单一特征往往无法全面捕捉词语的特点和上下文信息, 而通过融合多个特征, 可以更好地捕捉到新词的潜在特征。

1.3 人工智能政策研究现状

世界各国(地区)纷纷出台相关政策推动人工智能研发和应用[49] 。这些政策的主要目标是确保其国在人工智能领域的领导地位, 同时利用这项技术提高全球竞争力以及解决社会挑战和发展需求[50] 。目前, 对于人工智能政策研究多以基于框架的内容分析[51-54] 、政策对比分析[55-58] 和政策量化分析[59] 为主, 大多涉及词频统计、关键词提取、政策分类、主题词挖掘、主题词相似度计算和编码内容分析等。人工智能是一个极具创新性的领域,新的技术、应用和挑战不断涌现[60] , 我国人工智能政策非常注重在技术研发、产业经济和智能社会等方面的布局[61] 。人工智能政策是一项宏观复杂的产业政策, 需要不断调整以适应变化[62] , 过程中会产生许多专业术语和新词汇, 需要正确切分才能正确解读政策文件[63] 。但是, 政策文本分词在遇到专业词汇时容易出现错误, 在一定程度上会影响词频统计和主题挖掘[64] , 导致研究结果难以反映政策制定者和实施者在特定时间和背景下的具体思考及决策过程, 不能很好地体现政策演变。

2 基于新词发现的人工智能政策演化分析

本文拟通过新词发现算法构建人工智能政策词库辅助分词, 基于政策新词发现结果对人工智能政策的创新、延续和扩散进行演化分析, 帮助政策受众及时捕捉行业发展方向和政策支持导向, 帮助地方政策制定者及时跟进新兴领域, 实现政策创新和针对性发展。研究流程如图1 所示, 包括新词发现算法和基于新词发现的政策演化分析。

2.1 MFF 多特征新词发现算法

2.1.1 算法介绍

不断出现的技术新词给中文分词带来巨大考验,影响了分词的准确性[65] 。为了更全面地考虑词汇在不同维度上的特征, 捕捉更丰富的语义信息, 本文提出了一种融合多特征的新词发现算法(MFF)。MFF 多特征包含词的热度、上下文关联度、语义完整度和KL 融合度, 定义如下:

1) 热度(Heat, H): 可以用词频来表示。词频是指某个词汇在一个文本中出现的频率, 在一定时间内出现的高频词汇可能是候选新词[66] 。

2) 上下文关联度(Contextual Association, CA):同一词分开的单元在向量表示空间中显示出高相似性, 当相连的子词在上下文中显示出高关联度时,可能是潜在的新词。

3) 语义完整度(Semantic Completeness, SC):对词的语义完整性进行评分, 可以判断一个词以及其相似词能否成为新词。本文使用Transformer[67]进行全局和自注意力循环序列建模, 借助人工智能文献中的关键词和公开的分词数据, 对语义完整性判断算法进行训练。

4) KL 融合度(KLFusion, KLF): KL 散度(Kull?back-Leibler Divergence)用于度量两个概率分布之间的差异[68] , 而KL 融合度则是利用KL 散度对结合度[69] 和自由度[70] 进行联合计算, 用以量化词语的内部结构与外部环境之间的差异, 获得更鲁棒和合理的新词发现结果, 公式如下:

2.1.2 数据实验

1) 数据收集与处理

从政府官网和北大法律信息网(https:/ / www.pkulaw.com/ )选取标题含有“人工智能” 的政策文件, 共215 份, 中央级政策为42 项, 占比19%,地方政策173 项, 占比81%。清洗政策文本, 运用Jieba 分词工具进行分词, 形成政策分词语料集。从语料集中提取500 句作为测试集, 邀请两名专家阅读并从中选择新词, 作為测试依据。

2) 政策新词发现实验

新词词库构建流程: ①从经过预处理的政策分词语料集中筛选出N-gram 词(N 的范围是2~3)作为候选新词; ②统计并计算出MFF 多特征最佳阈值如图2 所示; ③满足MFF 多特征阈值的词作为新词以构建新词词库。

新词发现是一个复杂任务, 不同领域的语言特征、词汇习惯以及新词出现的频率会影响任务的难度和算法性能表现。MFF 是无监督算法, 为了检验MFF 算法在新词发现方面的有效性, 选择平均互信息(PMI)[71] 、邻接熵(BE)[72] 、WEBM[14] 和MWEC[45] 进行比较。其中, PMI 和BE 是两种流行的无监督方法, WEBM 和MWEC 基于语义相似度,性能优于CRF 新词发现算法, 已在新词发现上取得较好效果。针对人工智能政策文本的测试集进行了一系列实验, 结果如表1 所示。

在人工智能政策文本的测试集上, MFF 算法的P 值、R 值和F1 值均超过其他先进算法, 显示出算法在准确捕捉新词的同时, 可尽可能少地将非新词误判为新词。需要讨论的是, 本文新词发现算法F1 值接近但未超过80%, 但优于其他先进算法, 表明MFF 算法综合利用了热度、上下文关联度、语义完整度和KL 融合度等多种特征, 可以更全面地捕捉新词的潜在特征, 提升新词发现的质量和准确性。另外, F1 值是综合Precision 和Recall的指标, 在评估新词发现任务时受到多种因素的影响, 如测试集的规模、内容以及其中包含的新词种类和数量等。已往文献表明, 新词发现算法在不同领域、不同测试集上F1 值在0.4~0.8 之间, 都可以证明算法的有效性[73-77] , 能够为术语库构建、领域情感词典构建和辅助分词提供有力支持。

为了评估MFF 每个特征的有效性, 本文在测试集上进行了消融实验, 依次去除热度(H)、上下文关联度(CA)、KL 融合度(KLF)、语义完整度(SC)。表2 列出了不同模型在测试集上的P / R/ F1值, 结果表明: ①去除任意一个特征都会导致新词发现效果的下降, 證明特征融合的必要性和有效性;②去除热度特征, 新词发现效果大幅度下降。低频新词的特征不明显, 难以被挖掘, 这也是未来的研究方向; ③去除上下文关联度特征, 新词发现效果大幅度下降, 说明词向量能捕捉到组合词之间的语义关系, 具有更强的语义表示能力; ④去除KL 融合度, 新词发现效果下降。通过KL 融合度, 均衡结合度和自由度, 捕捉词周围的关联关系; ⑤去除语义完整度, 新词发现效果下降, 说明领域知识与语义完整性特征的有效性。

3) 多领域新词发现实验

在评估算法性能时, 考虑到领域差异和测试集的多样性对F1 值的影响, 通常会对多个不同领域的测试集进行评估, 以更全面地了解算法在不同场景下的表现, 并且对比不同算法在相同测试集上的表现来进行客观的评估。因此, 将MFF 算法在已有文献金融、体育、旅游和音乐4 个不同领域数据集进行实验, 并与原文中WEBM、MWEC 算法的结果进行比较, 如表3 所示。

MFF 算法的F1 值在4 个数据集上的表现均优于WEBM、MWEC 算法, P 值在旅游和音乐数据集上略弱于WEBM, R 值在体育数据集上略弱于MWEC算法, 证明MFF 算法具备对多领域数据集的鲁棒性和适用性。

2.2 人工智能政策新词词库

2.2.1 新词词库构建

词汇作为语言的基础单位, 是分析和理解政策变迁的重要路径之一[78] 。利用MFF 新词发现算法对政策语料集进行新词发现, 构建新词词库用以辅助分词。为提升新词词库构建的准确性, 在新词发现结果的基础上对无效词进行过滤: ①通过语言规则剔除不符合构词规则的新词词汇; ②依据政策领域多重指标混合筛选新词词汇[35] 。

共获得846 个人工智能政策新词, 形成词库,如表4 所示。一些新颖和热门的合成新词被识别了出来, 如: “元宇宙” “智能云” 等, 反映了人工智能领域的新概念和新主题。一些涉及地点的新词也被识别, 如: “云上贵州” “之江实验室” 等。多数政策常见的基础词, 如“社会治理” “隐私保护”等, 虽然被识别了出来, 但专业特征不明显; 也有少数词汇具有明显的专业特征, 如: “机器人系统”“多源数据” 等。

从当前来看, 部分挖掘出的新词不再新颖, 但在其最初出现的时候代表了人工智能技术发展的前沿领域。由于传统分词工具未能准确切分这些复合词, 因而它们仍然符合本文对新词的定义。将发现的新词添加到词库, 分析政策文本中的时空特征和时序演变。

2.2.2 分词结果对比

利用MFF 算法构建新词词库用于辅助分词,可以进一步检验MFF 算法的有效性。从人工智能政策语料集中随机抽取句子作为测试集, 并进行了人工分词确认。分词效果通过P 值、R 值和F1 值进行衡量。如表5 所示, Jieba 代表单独采用Jieba分词, Jieba+MFF 表示将词库添加到Jieba 分词中辅助分词。相对于单纯的Jieba 分词模型, 添加词库辅助分词能够显著提升分词效果, 准确率、召回率和F1 值分别提高了22.47%、12.63%、17.89%。值得注意的是, MFF 算法的应用使得分词F1 值达到了98.16%, 表明MFF 算法对政策分析的积极作用, 可以为政策分析提供可靠的帮助。

以2017年7月8 日国务院发布的《新一代人工智能发展规划》中的部分内容为例, 未添加词库的分词结果为: 新一代/ 人工智能/ 在/ 智能/ 制造/ 、/ 智能/ 医疗/ 、/ 智慧/ 城市/ 、/ 智能/ 农业/ 、/ 国防建设/ 等/ 领域/ 得到/ 广泛应用/ , / 人工智能/ 核心/ 产业/ 规模/ 超过/4 000/ 亿元/ , / 带动/ 相关/ 产业/ 规模/ 超过/5/ 万亿元/ 。

添加词库之后的分词结果为: 新一代人工智能/在/ 智能制造/ 、/ 智能医疗/ 、/ 智慧城市/ 、/ 智能农业/ 、/ 国防建设/ 等/ 领域/ 得到/ 广泛应用/ , / 人工智能/ 核心产业/ 规模/ 超过/4000/ 亿元/ , / 带动/相关/ 产业/ 规模/ 超过/5/ 万亿元/ 。

在添加词库后, “智能制造” “智能医疗” “智慧城市” “智能农业” 等人工智能相关概念被识别了出来, 涉及新兴领域、新技术、新产业等。通过这些新词, 可以更好地理解政策文本的主题和重点, 帮助政策受众更好地把握政策方向和内容。

2.2.3 基于新词发现的政策关键词对比

关键词自动抽取技术用于抽取具有专业性、能够反映文档主题的词汇或短语[79] 。利用TF-IDF进行关键词提取, 结果如表6 所示。与未添加新词词库的Jieba 分词后文本提取结果相比, 多数关键词得到优化, 表明新词发现技术有助于提升关键词提取的全面性和准确性。

2.3 人工智能政策新词出现特征

2.3.1 政策新词出现数量和频次

新词出现个数可以反映政策的热度和关注点,所有新词被提及的平均频次(所在年份的每个新词频次相加/ 所在年份的新词出现个数)则揭示了新词在政策文本中的重要程度。如图3 所示, 2017 年人工智能政策新词数量显著增加, 这可能与政策数量增长以及2017 年国务院发布《新一代人工智能发展规划》有关。随后, 新词数量逐渐减少, 但依然保持着一定年出现数量, 说明国家继续深化发展人工智能。新词平均频次总体呈现出波动上升的趋势, 特别是在近几年, 新词的平均频次显著增加,反映了某些新词在更为细分和专业化的政策文本中使用频率较高, 被频繁提及。结合央地政策数量来看, 体现出人工智能政策萌芽、急剧增长和平稳发展3 个阶段。

新词数量和平均频次之间呈现出一种“反向”关系。当新词数量较多时, 所有新词的平均频次较低, 表明政策关注的领域比较广泛, 试图全面推进不同领域的发展。当新词个数较少时, 新词平均频次较高, 表明政策将重点放在少数几个领域, 有针对性地推动相关产业和技术的发展, 以实现更加专业化和深度化的支持。

2.3.2 政策新词时序变化

对政策文本中的词汇进行聚类, 可以揭示出政策领域的关键主题和核心概念。首先, 记录人工智能政策新词所在的年份; 其次, 使用所在年份的政策语料训练词向量模型, 将这些新词转化为词向量; 最后, 使用k-means 聚类算法对新词向量进行聚类, 得出中心词和相关词, 聚类的主题数由轮廓系数(Silhouette Coefficient)和卡林斯基-哈拉巴斯指标(Calinski-Harabasz Criterion)确定。结果如表7 所示。

人工智能政策在不同年份聚焦的中心词不断变化。2009—2016 年, 政策中心词从医疗领域扩展至公共服务和交通领域, 反映出人工智能技术的应用范围逐步扩大。2017—2019 年, 政策进一步关注人工智能的整体发展、核心技术、社会福利和交通旅游等领域, 体现出人工智能的应用产业逐渐多元化。2020 年以后, 政策开始关注人工智能的标准化、特定区域推广、产业升级以及算力资源等,体现出政策对于技术规范、创新生态和基础设施建设的重视。技术和应用的成熟推动创新体系和标准体系的建设, 政策中出现了“数字创意” “试验区”和“元宇宙” 等新词, 强调人工智能在经济和产业转型中的重要作用。

2.4 基于新词的政策演化分析

基于新词的政策演化是指政策新词在不同时间和语境中的创新、持续出现以及在更广泛领域中的传播和应用的过程。这一概念综合了新词的创新性、延续性和扩散性, 包括从初始创造到逐渐被采纳并在不同政策文本中持续发展的过程。与简单的变化不同, 基于新词的政策演化更强调新词如何在不同政策文件中的持续演进, 进而影响和塑造政策制定的语境和方向。

2.4.1 政策新词创新与延续

新词创新是指在某一特定年份出现的新词, 它代表了当时政策关注的新的概念、技术或措施。新词延续是指新词重复出现在政策文本中, 表示新词所代表的概念或议题在政策实践中具有一定的延续性和影响力, 而非短暂的现象。利用TF-IDF 获取每一年权重排名前三的新词, 记录出现年以及后续每一年的频数, 绘制折线图如图4 所示。“辅助诊断” 自从在政策中出現就稳定存在, 说明政策一直关注人工智能技术在医疗诊断中的应用和发展。“智能汽车” “智能终端” 和“智能制造” 等一直受到政策关注, 在后续年份中得到进一步推动。“云上贵州” “传输设备” 和“复工复产” 是在一定的时代背景和政策环境下产生的新词, 反映了当时的政策重点。尽管在随后的政策文件中不再出现, 不排除其可能仍具有影响力, 可以被视为“隐性延续”。

人工智能政策中的新词在不同年份呈现不同的创新与延续性。总体而言, 每年都有新词出现, 政策针对特定的社会需求或技术发展做出了新的规划和调整。大部分新词在后续年份中都有出现, 表明政策对这些领域的关注具有一定的延续性, 反映了政策制定者对人工智能相关领域持续关注并推动政策应用落地。同时, 也有少数新词在后续年份中逐渐减少或不再提及, 反映出政策制定者对人工智能认识的深化和注意力的转移。

2.4.2 政策新词扩散

词级别的分析可以呈现具体的政策知识、信息在不同层级机构之间的扩散[80] 。政策新词在不同地区和领域中扩散, 新的政策知识和信息也随之传播。新词在政策间的流动方向, 可分为自上而下、自下而上和水平3 种。政策新词扩散一方面可以提高政策的认知和理解, 促进政策的有效实施; 另一方面, 政策新词扩散的方向和速度也可以反映政策的影响力和受关注程度, 有助于评估政策的实施效果和社会反响。采用新词发现算法获取同主题政策新词, 筛选具有代表性的新词, 绘制新词时序图,从时序和方向两个维度研究政策新词扩散的过程和特点。以“云计算” 和“智能汽车” 为例进行政策新词扩散的研究, 是基于这两个领域在当今社会中的重要性、多层次合作特点以及受到广泛社会关注的因素, 这样的考虑将有助于更全面地理解政策新词扩散的机制和影响。

智能汽车在政策颁布机构间的扩散如图5 所示。智能汽车最早出现于2016 年国家发展改革委、科技部、工业和信息化部、中央网信办联合颁布的《“互联网+” 人工智能三年行动实施方案》。2017年, 智能汽车出现在国务院颁布实施的《新一代人工智能发展规划》, 并陆续扩散至其他地方政府颁布的政策文献中。总体上看, 智能汽车呈现“中央向地方” 的自上而下扩散; 同时, 地方政府之间存在着平行扩散现象。2017 年, 北京、上海、浙江等地相继出台了与智能汽车相关的政策, 后来陆续扩散到福建、广西、江苏等地方政府的政策中; 政策数量在不同地区之间存在差异, 部分地区在智能汽车发展上展现出更积极和突出的态势。

图6 显示云计算政策的扩散过程。其最早是在2017 年天津市的人工智能政策中提出, 其后扩散到中央机构和地方政策, 呈现自下而上和地方平行扩散趋势。这表明在云计算领域的发展上具有一定的协同性和一致性, 彼此之间借鉴、学习和共同推进。在地方政府机构颁布的政策文献中, 关注程度和积极性也不尽相同, 上海、浙江等省市对云计算持续关注。

2.4.3 政策新词演化实例

使用政策新词流量刻画政策新词演化, 由落实中央政策(与中央政策新词相同)、地方首创(与中央政策新词不同)和横向参考(与发文较早的其他省市政策新词相同)3 个维度组成。落实中央政策反映政策的延续性和一致性, 地方首创展示政策的创新性和开拓性, 而横向参考则体现政策制定的学习能力和优化方向。以“新一代人工智能发展规划”为主题, 选取中央和省市政策如表8 所示, 统计3个维度的新词数量, 如图7 所示。

各省市政策与中央政策新词相同的数量较高,这意味着各地在政策制定过程中更加注重对中央政策的遵循, 以确保政策的一致性和统一性。不同的个数体现了地方的政策创新和个性化调整。随着时间的推移, 各省市政策与中央政策新词不同的个数逐渐增加, 反映了地方政府推动人工智能发展策略的灵活性和适应性, 为人工智能在各地的应用和发展提供了更具地方特色的路径和支持。省市政策新词之间存在借鉴和学习的现象, 表明政策创新不仅仅局限于特定地域, 而是被其他地方借鉴和采纳,产生政策的扩散和创新。

新一代人工智能发展规划政策中新词的演化揭示了政策垂直扩散、水平扩散和地方的适应性创新等方面的信息。各地政府在政策制定中既注重对中央政策的遵循和落实, 又依据本地的实际情况和发展需求进行个性化的调整和创新, 总体上形成了统一而灵活的人工智能政策体系。同时, 政策扩散方向也反映了中央政策的指导作用和地方政府在人工智能发展中的创新性贡献。

3 总结与展望

由于单一特征难以全面捕捉词汇特征和上下文语义, 本文综合考虑了热度、上下文关联度、KL 融合度、语义完整度等多种特征, 提出了一种多特征融合的新词发现算法MFF。新词发现实验证明该算法效果较好, 但在低频新词的识别方面仍有待进一步提升, 后续将进行重点研究。

在优化新词发现算法的基础上, 本文对人工智能政策进行了多角度分析。从新词出现个数和新词提及的平均频次可以窥探人工智能政策在不同时间段对不同领域的关注程度和战略转变。受《新一代人工智能发展规划》发布影响, 新词出现数量在2017 年急剧增加。同时, 新词平均频次呈现波动上升的趋势, 尤其近年来增长明显。结合政策数量的变化, 这一趋势反映了人工智能领域的深化发展以及国家人工智能持续的支持和关注。值得注意的是, 新词出现个数与新词平均频次之间呈现出一种“反向” 关系, 折射出人工智能发展的3 个阶段: 初期的萌芽阶段、紧随其后的急剧增长阶段, 以及逐渐趋于平稳的发展阶段。通过运用经典的k-means算法对每年的人工智能政策新词进行聚类时序分析, 可以清晰地观察到人工智能政策关注主题的演变。这一演变从最初的单一关注逐步拓展为多元化的关注领域, 从简单的发展态势逐步深入到更为复杂的层面。

新词的涌现和传播能够有效反映政策创新、延续以及扩散的过程, 实现对人工智能政策的演化分析。大部分政策新词在后续年份中持续出现, 表明政策在这些领域具有一定的延续性。同時, 少数新词在后续年份的政策中逐渐减少或不再出现, 可能源于相关领域的变迁或其转向隐性影响。政策新词扩散反映政策呈现自上而下、自下而上以及水平扩散, 与之前学者以关键词得出政策扩散方向一致[81] 。在同一主题政策下, 各省市的地方政策新词呈现出显著的差异, 体现了各地方政策关注重点的多样性,与之前的时序分析结果一致。值得特别关注的是,大部分省市的政策新词都源自中央政策, 表明地方政府在落实中央政策方面付出了不懈努力, 这些新词以一种自上而下的方式垂直扩散开来。随着时间的推移, 本文观察到省市政策中创新的新词逐年增加, 反映出地方政府在人工智能发展过程中采取了更加灵活的因地制宜策略。此外, 省市政策中还融合了横向借鉴学习而来的新词, 从而呈现出明显的水平扩散趋势。未来的研究可以进一步深入探讨同一地方在不同时间段针对相同主题的政策, 以揭示新词演变的趋势和变化。这将有助于更全面地理解地方政策制定的动态过程, 以及其与中央政策的互动关系, 从而为地方政府在人工智能领域的决策提供更有深度的洞察。

基于新词发现的政策研究为政策分析带来了新的视角和方法, 有助于更全面地洞察政策的演化和创新, 进而扩展政策智能化治理的范围。一方面,对人工智能政策新词的出现特征进行了总结; 另一方面, 从人工智能政策新词演化的角度分析了央地之间的创新、采纳和借鉴现象, 揭示了政策新词演化过程。然而, 尽管这种量化分析具有一定的优势,但欠缺了深入的定性分析理解, 特别是在解析政策现象的深层背后因素方面。因此, 如何有效地融合定性研究方法, 以增进对政策背景、动机和影响因素的理解, 将成为未来研究的重要方向。

猜你喜欢

政策分析人工智能
我校新增“人工智能”本科专业
2019:人工智能
人工智能与就业
数读人工智能
关于研究生淘汰制实施成效的政策反思
随迁子女异地高考政策研究
在纠结中前行的网约车改革
中哈霍尔果斯国际边境合作中心优惠政策分析报告
基于广州流动儿童的城乡居民基本医疗保险政策探究
下一幕,人工智能!