美国著名智库文本成果研究
——以人工智能领域为例*
2021-03-20张誉曜陈媛媛
张誉曜,陈媛媛
0 引言
智库作为在人类社会发展中出现的一种特别的组织,目标是将知识和决策结合起来,以影响未来的政策进程[1]。现代智库逐渐发展成为一种研究和提出思想,并推动决策者将其转化为公共政策的机构,其最突出的特点就是对事物进行监控和预测,并根据实际发展进程做出相应的调控策略[2-3]。智库文本作为智库研究成果的展现形式,表达出来的战略思想以及对政策的预判性成为国际一流智库的标志[4]。从1956年人工智能这个概念被首次提出以来,发展几经波折。随着近年大数据等领域快速发展,人工智能正在引领科技浪潮。对此,美国一流智库加大人工智能领域的关注度。本文以美国智库针对人工智能研究的文本成果为研究对象,利用自然语言处理技术、可视化分析等方法对智库文本型成果进行量化分析:一是尝试基于自然语言处理技术,从大量非结构化智库文本型成果数据中提取关键内容单元;二是将关键内容单元进行数据分析与可视化,并结合事件以及政策进行关联综合分析,以此来提高情报分析的可读性,呈现出美国智库在人工智能领域的研究现状。
1 现状调研
1.1 自然语言处理应用
自然语言处理流程大体可分为五步:(1)获取语料;(2)对语料进行分词、去停用词等预处理;(3)将词向量化,以展示不同词之间的关联关系;(4)基于有监督、无监督学习等模型的训练;(5)对建模后效果进行评价。
利用自然语言处理技术对文本进行提取研究已经有很多方法。Ortega等[5]对语料库关键词进行提前标记,以此将TextRank算法训练成为监督算法,虽然提升了准确率,但存在过拟合现象。夏天[6]以权重为重点,将词的频率、位置、词性等特征加以融合,改进TextRank算法,提升了准确率,但使用范围有限。顾益军等[7]将LDA融合TextRank算法,在对单一文本和整体文本信息结合的条件下进行关键词提取,虽然改善了关键词的提取质量,但要对海量文本进行主题分析。杨玥等[8]利用主题模型分析和词频统计相结合的方法来提升提取关键词的准确率,代价是需要海量的文本数据。
近年基于自然语言处理技术来对智库文本研究方面取得了丰硕成果。荣婷等[9]利用可视化分析对美国单一智库在南海问题方面的政策进行了解读,了解到美国智库关于南海问题的研究规律和特征。彭红梅等[10]以美国四家主要智库的研究成果为基础,从国家安全和风险评估两方面进行了相应政策的分析。齐欣[11]基于LDA主题模型对智库文本带来的推特评论进行了内容挖掘,展示了美国智库专家对华的观察视野。
以上方法虽具有很好的借鉴作用,但不管是单纯对算法进行改进或者对智库政策文本进行单一分析都不适用于本文,均存在一些缺陷:一是以文献计量视角利用各项指标去分析规范性政策文本的研究较多,而直接对智库非结构化成果型文本进行分析的研究较少;二是无法将政策事件加入算法进行综合统筹分析。本文所要研究的为非结构化的文本数据,因此将采用基于Python的自然语言处理技术并结合可视化分析对美国智库关于人工智能领域的相关文本成果进行提取研究,为传统文献计量提供新的研究视角。
1.2 美国在人工智能领域的政策调研
随着信息技术的快速发展,人工智能在21世纪的第二个十年迎来了质的飞跃,受到了各国的广泛关注。美国作为世界上唯一的超级强国,在人工智能领域研究的规模和实力都要远胜其他国家。奥巴马执政时期,美国政府就开始积极的推动人工智能的发展,2016年,白宫相继发布了《为人工智能的未来做准备》《国家人工智能研究发展战略规划》和《人工智能、自动化与经济》三份极具全球影响力的报告,主要针对美国政府、相关机构的人工智能发展、研发以及经济影响等方面提出了相关建议[12]。
进入特朗普政府时期,受科技、军事政治等多方面的复杂因素影响,以兰德公司为首的多家智库机构针对人工智能国家安全层面所面临的问题,开始密集地发布相关文本。2018年5月,白宫成立“人工智能特别委员会”,旨在协调联邦政府各个机构之间人工智能研发优先事项并向白宫提出建议,美国各大智库机构也相应针对人工智能进行了多维度研究,内容涉及与人工智能结合的安全、科技、法律、创新等多个领域,其中如兰德公司、皮德森国际经济研究所等一些智库还专门设置了人工智能专栏以进行系统性研究。2019年2月,特朗普签署的行政令《美国人工智能倡议》由白宫科学和技术政策办公室(OSTP)正式发布,该行政令皆在优先多投入,调配更多联邦资金转向人工智能研究,由此可见美国政府已经把人工智能作为继互联网后下一科技浪潮。
2 实证研究
2.1 数据获取
本文根据美国宾夕法尼亚大学发布的关于全球智库排名的研究报告2019 Global Go To Think Tank Index Report选择了排名前十的美国一流智库作为研究对象,包含兰德公司、布鲁金斯学会、国际战略研究中心、卡内基和平基金会等,这些智库研究成果在政府政策制定上起着重要作用。实验通过收集其智库官网中以人工智能为关键词的文献,以此来形成研究数据。研究数据所选取的时间跨度为2016-2019年,利用Beautifulsoup和Selenium等工具爬取美国智库与人工智能相关的研究文章和报告,共获得原始文本数据325条。获取原始文本数据分别为文本全文和发表时间,如表1所示。
表1 原始文本数据(部分)
2.2 数据清洗与词典准备
为方便后续研究,首先对原始文本进行清洗和词典准备,本文主要基于NLTK工具包实现上述功能。NLTK作为Python构建的处理人类语言数据的平台,提供数个语料库和词汇资源易于使用的接口,以及一套便于分类、标记、解析和语义推理的文本处理库,可对文本信息进行去停用词、字符串处理、分词以及词性标识等功能模块的处理[13-14]。本文对所采集到的文本数据进行统一大小写,为降低后续关键词词典的规模,对字词进行Stem操作,如把单复数统一为单数,把动词统一为动词原形等;为了避免有意义的字词被分拆,本研究还构建了关键词词典,如把facial recognition转化成facial_recognition,避免把facial recognition分拆成facial和recognition两个词等,以免造成数据的损失[15]。此外,还在NLTK stopword的基础上自定停用词词典,以降低文本的数量,去除分析价值不高的词。
2.3 基于TextRank的信息提取
TextRank是一种基于图的自然语言处理算法,可用于关键词和句子的提取,其由PageRank算法发展而来[16-17]。PageRank算法核心公式如(1):
∂为阻尼系数,通常设置为0.85,Zi为所有链接到网页i的集合,Sp为网页p的PR值,Bp为网页p的对外链出数,由此,可以有效地得出网页i的重要性值。如果把文本类比成网页,将句子设为节点,则可以运用PageRank的思想对文本中的句子重要性进行排序,即TextRank。TextRank算法的核心公式如(2):
这里只是将PageRank 算法公式略作修改,i、p分别为任意两个词汇节点,ω表示两节点边的重要程度。
上述是算法的基本公式,随后是对文本进行清洗,利用TextRank算法把文章的句子进行切分等操作,在这里不作详细描述,所获取结果如图1所示。
图1 基于TextRank算法生成的关键句(部分)
对文本关键词提取分为两步,一是对数据进行处理,包括分词、去停用词等;二是利用关键词提取算法进行提取。在关键词提取上目前流行采用TextRank算法和TFIDF算法。在获取关键句前提下,将关键词作为结点,同理可以利用TextRank算法对关键词进行提取,具体步骤为:(1)将文本分割成整句形式,如T=[j1,j2,j3,...,jn];(2)依次将每个句子进行分词和词性标注,删除停用词,保留指定词性的词,如名词、动词、形容词,形成候选关键词;(3)构建候选关键词图G=(V,E),V为候选关键词节点集,随后利用共现关系构造两节点边,节点之间存在边且在对应词汇长度为k的窗口中共现,k为窗口大小表示最多共现k个单词;(4)重复迭代直至收敛;(5)对节点权重进行排序,合理提取。TFIDF算法在从文档中提取关键词时不仅考虑单个文档,还考虑从语料库中提取所有文档,它的核心是字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降[18]。本文结合TFIDF算法进行对比,表2展示的是TFIDF算法和TextRank算法所提取的关键词。
表2 基于TFIDF算法和TextRank算法的关键词(部分)
通过观察可知,其一,TFIDF 算法和TextRank算法所获取的关键词皆为与主题相关的词,无介词连接词等其他不相关的词,证明实验结果是有效的、可取的。其二,同一原始数据两种算法提取结果不同,如表2,TFIDF算法提取结果顺序为“health”“advance”“war”等,TextRank 算法提取结果顺序为“security”“job”“risk”等,取前十观察,相同词有3 个:“war”“China”“job”,但排名不相同。其三,结合所取文本主题以及所提取文献的时政背景分析,“job”“China”“innovation”等核心主题词在TextRank 算法中排名较为靠前,相比较TFIDF算法,TextRank算法更能体现出美国智库在人工智能领域的文本内涵,因此在关键词提取中本文将采用TextRank算法来进行文本研究。
3 研究成果
3.1 文本共词分析
共词分析法是属于内容分析法的一种,是针对一组词两两统计它们在同一篇文献中出现的次数,对这些词进行聚类分析,构建共现矩阵,共现矩阵统计的横轴和纵轴都是所需要分析的词[19],其中某个格子展现的是两个词语在同一个文本中出现的次数,以此来体现这两个词之间联系的强弱,从而反映出词之间亲疏关系,进一步对这些词所代表的主题结构进行分析[20]。本研究根据所取智库文本数据进行分析统计,展示宏观核心主题词高频部分如表3,利用Excel表格进行排序如图2。
根据所提取摘要,构建共现矩阵,在这里对共现矩阵进行优化,合并各个文本数据共现矩阵并去除掉0值以及低频值,选取部分词共现矩阵表格展示如表4,数据文本发文量如图3。
表3 核心主题词高频词列表(部分)
图2 高频词频统计表(部分)
表4 文本高频主题词共现矩阵(部分)
图3 数据文本发文量
从高频词以及共现矩阵中所示可以看出来,在高频词统计里,专有名词如“America”“China”等词频较高,此类词汇代表主题性较强,其从2016年的文本中就开始有所涉及。在共现矩阵中,频率较高的也为相关类似名词,例如“safety”“object”等。从数据文本发文量分析可以得出:(1)美国著名智库对于人工智能领域的研究相关文本成果每年呈上升趋势,以月为例,从获取的有效文本统计,美国著名智库对于人工智能领域的发文量从2016年月均5篇,到2017 年月均6篇,2018 年月均7.9篇,最后到2019年月均8.1篇,其中下半年的发文量占比较高,达到全年发文量的60%以上。(2)美国著名智库对某个领域的发文量代表着其关注度,以2016-2019这4年来看,其涨幅较高的为2018年下半年至2019年上半年。2018年,美国政府开始正面打压华为,同年5 月,白宫顺利举办“美国产业人工智能峰会”,确保美国人工智能创新领先全球,2019年2月,美国总统特朗普签发“美国人工智能计划”行政令。结合以上词频、发文量、共现矩阵以及政治事件综合统计发现,美国著名智库文本数据在科研竞争、民生安全、外交政策等方面所涉及相关词汇频率高,关注度较高。下面将结合文本分析等相关分析法,在安全、法律、就业、中国关系四个方面进行研究分析。
3.2 美国智库人工智能与安全的研究
为研究美国智库针对人工智能领域安全方面的研究,本文筛选以security和safety等作为关键词的研究文本,对其进行分析,利用TextRank 算法获得的关键词前20 名如表5 所示,利用Gephi进行可视化结果如图4所示。
表5 人工智能安全主题文本的关键词
图4 美国智库人工智能安全研究关键词分析
2018 年6 月19 日,美国安全中心发布的《人工智能:决策者需要了解什么》指出人工智能的弱点以及可能对应用领域造成的影响:(1)局限性。人工智能目前只能够在一定的场景和语境之下进行“思考”,一旦场景出现变化且超出一定范围,人工智能将会停止“思考”。(2)不可预估性。人类无法预估人工智能的下一步行为,有时候它会给出与设计者初衷不同的决策,这种风险是存在的。(3)弱可解释性。人做某件事情会有做某件事情的理由,而人工智能不会,部分人工智能难以解释其系统行为的原因,人工智能系统的扩展应用需要更加具有解释性。(4)系统漏洞。人工智能一旦出现系统问题,人类无法及时叫停,往往会带来毁灭性后果。(5)人机交互故障。人工智能未能完全理解人类思维,带来的决策会有致命危险,如2016年特斯拉自动驾驶撞毁事件中,根本原因就是人类决策者与人工智能所带来的决策未能完好地进行交互。(6)机器学习漏洞。在对抗环境中,对手可以利用人工智能行为方式的某种漏洞进行攻击,造成行为缺陷等,目前还未有具体的防范措施。(7)违规问题。人工智能没有人类的感情,不会存在人类的行为法规,只注重结果,往往过程的进行是与设计者的初衷不相符的。美国智库在人工智能与安全方面主要关注于对人工智能的应用安全,部分高频词如“safety”“data”“risk”等也从侧面印证了美国智库学者对该领域的思想动态。
图4 中“privacy”与“risk”、“network”与“disinformation”等词之间的PageRank 值较大,关联度较高,比较客观地反映出了人工智能技术的发展使得传统的安全领域发生了巨变。人工智能领域的安全议题一直以来都是美国智库重点关注的领域,保护美国民众和维护美国独有的生活方式一直以来都是美国政府的工作核心,在当前人工智能技术有可能被滥用的背景下,该领域的安全议题就显得尤为突出。为此人工智能技术对安全领域中的隐私影响也是美国智库研究的重点,这是崇尚自由生活的美国人的内在要求。人们可以决定是否将自己的隐私暴露在公众之下,这是人们唯一能完全控制的事情之一,因此隐私对于构建个体的安全感是至关重要的。美国国家科技委员会在2019年更新的《国家人工智能研究发展战略规划》中涉及的八大研究方向,其核心思想与特朗普政府不谋而合,首要任务就是确保并维持美国在人工智能的领导地位,巩固美国在人工智能创新方面居于世界领先这一局面,以此来确保美国国家及其公民的信息、主权等绝对安全问题。
3.3 美国智库人工智能与法律的研究
为研究美国智库针对人工智能领域法律方面的研究,本文筛选以law和legislation等作为关键词的研究文本,利用TextRank算法获得的关键词前20名如表6所示,利用Gephi进行可视化结果如图5所示。
表6 人工智能法律主题文本的关键词
图5 美国智库人工智能法律研究关键词分析
2016年美国发布《为人工智能的未来做好准备》报告,针对人工智能的发展、政策等问题进行分析。特朗普政府执政后,重点对监管方面的障碍进行整改,其在2018年成立的“人工智能特别委员会”促进了美国国会对人工智能的立法。图5 中“legal”与“legislation”之间线条较粗,关联度较大,可以看出当前美国智库在人工智能法律领域主要关注点是立法,希望通过立法弥补相关领域的法律空洞,同时还有关于人工智能法律主体客体的探讨。人工智能拥有类似人类的智慧,但是并未展现出人类的理性,人工智能超强的智能蕴含巨大的风险,必须处于人类的支配和控制之下[21]。
从美国国会2017年提出的两党法案《人工智能未来法案》到2018年5月白宫举办的“美国产业人工智能峰会”再到2019年特朗普政府的人工智能计划来看,美国政府始终在加强监督与鼓励创新之间积极地寻找平衡,从具体领域或者实际问题入手,有针对性地制定相关法律,消除监管方面的障碍。美国人工智能立法规划以立法机关作为建立监管体制和树立基本原则的起点,行政机关发挥政策的平衡和调节作用,司法体系发挥保障和事后监管作用的整体框架[22]。作为自然科学的新领域,人工智能的进一步突破尚有许多不确定因素,当前人工智能远未达到关于法律主体的规定性条件,若将其设定为法律主体必将导致现有法律主体理论和制度的颠覆性调整,由于人工智能将渗入人们生活的各个方面,整个法律关系和社会关系将面临这种法律调整的动荡,因此对人工智能本身以及人工智能的发展均需要通过相应立法去规范[21]。人工智能的监管体制需要得到公众的认可,美国政府积极的探索相关合适的监管路线,其既能很好地消除人为不可控的人工智能风险,又可以推动美国人工智能产业的积极发展,确保美国的领先地位。
3.4 美国智库人工智能与就业的研究
为了研究美国智库针对人工智能领域就业方面的研究,本文筛选了以job和employment等作为关键词的研究文本,对其进行分析,利用TextRank 算法获得的关键词前20 名如表7 所示,利用Gephi进行可视化,结果如图6所示。
表7 人工智能就业主题文本的关键词
美国国家科技委员会2019年更新的《国家人工智能研究发展战略规划》八大方向中,3个方向分别为加强数据获取学习、发展人才队伍、提供相关领域教育就业。各州制定相关计划,在人工智能科学、国防、经济、医学、安全等领域培养相关人才积极就业。特朗普上台后美国经济有 所 波 动, 图6 中“machine”“factory”“unemployment”等词显示较明显,说明关联较多,其中“risk”与“factory”之间连线较粗,突出美国民众对失业的担忧,结合时事政治细观图6,人工智能技术应用快速发展,不仅为经济增长提供了新动力,也引发对机器替代人造成大规模失业的恐慌。面对具有学习能力的人工智能,传统行业的就业必将受到冲击。针对新技术变化趋势,美国智库提出了对相关机构开展工人培训的措施,主要重点加强低端职业技能和专业素质,以应对由于大规模人工智能应用而引发的失业潮。
图6 美国智库人工智能就业研究关键词分析
3.5 美国智库人工智能与中国的研究
中美科技及相关产业的发展水平经历了从严重不对称到差距逐渐缩小的过程[23]。随着中国产业政策及自主创新进程的推进,美方认为其面临的安全挑战上升[23],特别是最近几年中国在人工智能领域取得的显著进步,美国的技术优势受到了削弱。由此,中国的科技创新态势成为影响美国对华政策的重要因素。为了分析美国智库在人工智能领域对中国的研究,选取贸易战前后进行对比。通过比较贸易战前后美国智库对人工智能相关关键词的研究可以发现,其最显著的区别是“China”的出现,如表8所示。为更直观的呈现不同词语之间的关系,本文采用Gephi进行可视化,结果如图7-8所示。
从上图看出,对于当前中国在人工智能领域的成功,美国智库普遍采用competition这个字眼,尤其是贸易战后“China”明显突出,图中“China” 与 “competition”,“China” 和“future”之间的连线较粗,显示出了明显的相关关系。同时与“China”联系紧密的还有“warfare”,可以看出当前美国智库在人工智能领域把中国当成了竞争对手。美国智库对中国人工智能领域进行了深入研究。事实上,自贸易战以来,美国逐渐将中国视为人工智能领域的竞争对手,当前美国政府对华科技战略的发展即是这一战略倾向的具体诠释,也在相当程度上强化了这一战略倾向。另一方面,随着中国科技产业的相关政策出台以及自主创新发展趋势的逐渐增强,美国战略界已经将其看作了对美国技术主导地位、核心科技自主权等方面的威胁。目前,美国政府对华科技战略所涵盖的政策领域广义上主要包括在与科技及相关产业政策有关的国土安全、对外贸易与技术产品出口管制、外资、外交及国际教育交流等政策领域[23]。这一战略将对中美关系产生诸多负面影响,面对美国政府对中国人工智能战略带来的挑战,我国需相应调整国内科研政策和相关的扶持措施,保持中国在人工智能领域发展的势头。
表8 贸易战前后美国智库人工智能研究关键词(部分)
图7 贸易战爆发前美国智库人工智能研究关键词
图8 贸易战爆发后美国智库人工智能研究关键词
4 结论
本文提供了一种基于自然语言处理的智库文本分析方法:首先从美国各个智库官网提取人工智能领域的文本型成果,随后利用TextRank算法进行核心数据获取,并融合共现矩阵、相关统计图等信息进行综合可视化分析,最后结合时事事件、政策文本加以验证。本文以人工智能领域为参考对照,发现采用这种研究思路和方法可行有效,可以从繁杂的文本数据中快速提炼文本重要信息,从而精确、全面地掌握该领域智库专家的思想动态,为准确判断政策趋势提供参考。
主要结论包括:其一,从文本内容来看,美国智库在人工智能领域关注的方向是安全、法律、就业与外交关系四大块,具体细化的小领域开始呈现内容多元化、规则具体化。粗略可分为对“内”和对“外”两层,对“内”来说,未来美国将会逐渐调集联邦政府以及各州相应机构的统筹力量,来完善人工智能的创新、研发以及相应的规范等等,以此来服务于美国公民,确保美国公民的民生、自由。对“外”来看,美国始终抱有防备态度和担忧心理,这也使美国应对其他发展中国家的创新时,一直存在着一种竞争关系。其二,从文本发文量来看,随着科技的进步,美国智库对于人工智能领域的关注度逐渐递增,从奥巴马政府时期的快速发展、成熟,到今天特朗普政府时期的多领域结合交叉关注,智库文本与政府决策之间的联系更加紧密。其三,从智库文本在政策过程中的作用来看,不管是贸易战时期还是华为事件时期,大量高质量的智库研究文本已经成为政府决策的重要依据,智库文本型成果“政策化”现象显著,人工智能领域的智库文本不仅体现在“咨政、启民”和“育才、伐谋”,还体现在“察人之谋、为我所谋”。