国内人工智能研究的知识图谱分析
2021-04-20徐延民李德明
徐延民,李德明
(1.上海财经大学人文学院,上海 200433;2.肇庆学院科技处,广东肇庆 526000)
人工智能(Artificial Intelligence,简称AI)的概念于上世纪50 年代中期在美国达特茅斯会议上提出,其研究领域涉及到心理学、哲学、计算机等学科;伴随跨学科研究趋势日益凸显,笔者基于CNKI数据库的文献来源,借助Vosviewer 与Citespace 软件工具对国内人工智能领域文献进行计量分析,探索该领域研究现状,通过可视化图谱绘制出对该领域知识聚类以及学科交叉的热点分布。
1 数据来源与研究分析
1.1 数据来源
为系统分析国内人工智能的研究现状,本文以中国知网CNKI 数据库为数据源,选择时间不限,按篇名=“人工智能”,期刊来源选取核心期刊与CSSCI 进行期刊精确检索,截至 2020 年3 月3 日,通过检索得到2 973 篇文献。经阅读对文献数据进行处理,剔除会议通知、重复文献、关键词缺失、作者缺失等非学术文献以及相关度不高的文献后,共筛选出2 713 篇文献作为样本数据。
1.2 数据整体性分析
通过对所得文献数据进行统计分析表明(见表1),国内人工智能研究领域的文献有2 713 篇,作者4 897 位(含合著);由图1 看出,国内人工智能研究的年发文量增长趋势,呈现出先平稳波动到爆发式增长趋势;1992—2015 年期间,每年的发文量在13~36 篇区间波动;2016—2019 年,发文量剧增,即2016 年68 篇、2017 年250 篇、2018 年708 篇、2019 年1 023 篇。换言之,该领域的研究在2016 年开始大热,2017 年喷井式爆发,其中2017 年的发文量是2016 年的3.7 倍,2018 年的发文量将近2017年发文量的三倍;在2019 年发文量达到历史巅峰,其作者数为1 866 人,关键词数2 550 个,文献数1 023 篇;2016—2019 年期间的发文量共2 049 篇,占总发文量(2 713 篇)的比率为75.53%,近几年来的发文量增速显著,表明该领域研究的热度大增。
表1 国内人工智能研究的作者数、关键词数、文献数年度分布情况
图1 国内人工智能研究的文献数量年度分布可视化图
由表1 和图1 可知,2016 年以来国内人工智能的文献数、作者数量、关键词数都呈现出整体性井喷式增长态势并进入活跃期,可以说2016 年是人工智能元年,伴随国内人工智能研究的深入,研究视角日益多元化,研究内容也向广度和深度延伸,可以预见,在未来一段时间关于人工智能的研究将会继续呈现大热态势。
1.3 作者分析
样本文献中,发文量大于等于3 篇的作者共有165 位,碍于文章篇幅限制,将发文量大于等于4 篇的62 位作者列表呈现(见表2)。在本表中发文前五位的作者并非人工智能学科科班出身,其中高奇琦教授的学科背景是政治学,徐英瑾教授学科背景是哲学等等;换言之,不同知识背景的人文学者在该领域汇聚是不争的事实,未来研究范式呈现出多元化的研究进路。
表2 国内人工智能文献1992—2020 年发文作者列表(发文量≥4) 单位:篇
笔者借助vosviewer 软件将作者出现最小频次(minimum number of occurrence of a keyword)设置为3,即表示该作者出现次数大于或者等于3 次会在图中显示,经过数据处理最终得到节点共165 位作者在图中共现(见图2)。图2 中的节点与字体的大小表示该节点出现的频率高低,字体与节点越大表明频率越高,节点间连线表示作者曾经合作发表过文章。如图2 所示,作者合作团体主要有:李德毅、潘云鹤为中心的学术团队合作,徐英瑾、王培、陈昌凤为中心的团队合作,还有于观贞为中心的学术合作,剩下的大部分作者合作发文较少或者独作为主。
图2 基于vosviewer 软件的作者共现图
1.4 关键词分析
样本数据文献中共有关键词7 671 个,频次在15 次以上高频关键词有38 个(见表3)。由表3 得出,自2016 年以来出现的高频关键词有大数据、人工智能时代、著作权、人才培养、智能教育、人机协同、独创性、出版业、新闻业、新闻生产、职业教育、人工智能生成物、刑事责任、智能化、法律规制、人工智能创作物、法律主体。这些关键词反映了最近几年的研究热点,在图3 与图4 中的可视化图谱中可以看到它们的相应节点。
表3 国内人工智能文献1992—2020 年高频关键词列表(阈值≥15) 单位:次
1.5 基于vosviewer 的关键词标签共现图分析
笔者将关键词出现最小频次(minimum number of occurrence of a keyword)设置为7,即表示该词汇出现次数大于等于7 次的在图中显示,经过数据处理最终得到节点共140 个。如图3 所示,图中节点和字体越大表示频率越高,节点之间的连线表示节点之间曾共同出现过,节点颜色表示不同类别的聚类。分析图3 可得,关键词基本在自然科学领域和人文社会领域两个知识群,对其划分为五大聚类:标签一的聚类,主要节点人工智能技术、专家系统、神经网络、遗传算法、知识库、知识获取等,这表明人工智能技术工程领域应用的聚类;标签二的聚类节点有计算机、机器、人类、人类智能、人脑等,该聚类围绕人工智能与人类智能相关的讨论;标签三的聚类节点有大数据、深度学习、机器学习、区块链、全球治理、医学影像、图书馆、数据挖掘、伦理、社会治理等,反映了人工智能研究的学科融合,从计算机技术工程领域向经济学、医学、图书情报学、社会学、伦理学等领域等各类社会应用的普遍拓展,即人文社会领域融合发展研究。标签四与标签五是人工智能向人文社会领域拓展融合过程中的聚焦子类,分别是人工智能涉及的法律问题研究以及人工智能对教育的影响应用研究;标签四的节点有著作权、知识产权、法律主体、刑事责任、人工智能创作物等,标签五的节点有智能教育、人才培养、教育人工智能、新工科、职业教育等。总而言之,两大知识群与五大聚类共同形成了国内人工智能研究的基本格局,为进一步深化该领域研究提供思路。
图3 基于vosviewer 软件的关键词标签共现图
1.6 基于Citespace 的关键词共现时区图谱分析
关键词进行聚类分析可以得出该研究领域内各研究主题的基本状况。为了清晰地识别学科发展的拐点与前沿的时态模式,可以将关键词共现图谱按照时间序列进行排布,从而显示出每个时间段内研究热点的分布情况。在本研究中,笔者借助Citespace 软件将节点选择为关键词(Keyword),切片长度(Slice Length)设置为3,选择标准(Selection Criteria)设置为Top50 per slice,即提取每个时间切片排名50位的数据来生成关键词共现时区图谱(Time Zone),如图4 所示。在此关键词共现时区图谱中,每个时间段对应一条纵向的时间轴,时间轴上的关键词代表着在该时间内该关键词首次出现,节点的大小表示该关键词出现频次的高低,连线代表共现。
由图4 可知,中国人工智能研究主题在不断地演变,结合定性分析可以将其划分为三个阶段:首先是1992—2000 年,这一阶段主要停留在人工智能技术的理论探究层面,围绕神经网络、专家系统、机器学习、遗传算法等关键词进行研究居多;其次是2001—2016 年,此阶段的研究主题比较分散,对应该阶段研究中的关键词出现频次太低,以至于在中间有一段空白时期,说明未形成比较集中的研究问题;第三个阶段为2016 年-至今,其研究主题不断扩大,研究热点持续增多;此阶段人工智能研究的主题发散式扩展,其中有深度学习、智能教育、人工智能创作物、知识产权、刑事责任、法律人格、政府治理等高频词的出现,这代表了不同学科背景的学者都在此汇聚,逐步从技术工程领域向人文社会领域的社会应用体系拓展。
图4 基于Citespace 的关键词共现时区图谱
2 研究内容分析
知识图谱客观地呈现了当前国内人工智能领域的研究现状,笔者结合样本数据的相关文献进一步整理,结合图3 的标签图对五大聚类进行分析介绍。
2.1 人工智能技术发展及应用研究
标签一聚类的关键词有神经网络、专家系统、人工智能技术、遗传算法、知识库、数据挖掘、卷积神经网络等,聚类标签一的关键词是围绕工程技术领域展开的。工程技术范畴下的人工智能是与技术发展紧密关联,人工智能技术最开始是智能机器或智能人工物,人工智能在历史发展中有三大派别,分别是符号主义、联结主义、行为主义;这三大派别在模拟人类智能的过程中,功能模拟对应符号主义,结构模拟对应人工神经网络的联结主义,行为模拟对应感知动作系统的行为主义;这三者不能相互融通,导致人工智能研究各说自话,没有统一共识。构建统一研究范式,需要运用新的方法论为人工智能研究提供对话机制,即通过确立人工智能生态系统共生机制,将信息、感知、认知、情感、理智、综合决策等基础概念重新整合,进而在共生机制框架下结构模拟、功能模拟与行为模拟的三大主义达成统一,未来通用人工智能理论是基于机制主义的智能理论[1]。
2.2 人工智能与人类智能的关系研究
标签二的聚类节点有计算机、机器、人类、人类智能、人脑等,该聚类围绕人工智能与人类智能的关系讨论。蔡曙山等[2]从神经层面、心理层面、语言层面、思维层面、文化层面来区分人工智能与人类智能的差别;人类认知中,其中心理与神经层面的认知是低阶认知,语言、思维、文化层面的认知是高阶认知,人工智能只是对人类智能能力的模仿,在整体上并未超过人类智能。体能与智能作为人的两种能力,人的能力逐步被工具延展替代,从人工体能到人工智能是工具发展的质变,为社会进步与人的解放增添动力;人工智能与人的智能的相互融合发展是未来人机智能的发展前景[3]。区分作为工具的智能机器与作为主体的智能机器人,人的定义从本质主义转向功能主义。人与机器的关系到跨人机主体间的关系,自然人自身再进化、人机融合是自然人避免被智能机器人所替代、淘汰的可行方案[4]。
2.3 人工智能与人文社会科学领域的融合
标签三的聚类节点有智能机器人、大数据、深度学习、机器学习、区块链、全球治理、医学影像、图书馆、数据挖掘、伦理、社会治理等,反映了人工智能研究从计算机技术工程领域向与社会学、伦理学、医学、图书情报学等人文社会科学领域融合的方向发展。
下面介绍下人工智能的哲学、伦理学等问题的探讨,比如现象学、心灵哲学、主体性、本体论、认识论等;任晓明[5]从计算机科学哲学、人工智能哲学、信息哲学等多学科交叉渗透的复杂性来分析人工智能哲学发展,通过本体论、认识论、美学、逻辑学、伦理学等维度来展示其理论前沿与发展前景。王治东[6]对人工智能的本体论、认识论、方法论、价值论四个维度的研究路径进行阐述。郑祥福[7]对人工智能的四个哲学问题进行了阐述,分别是人的意向性问题、概念框架问题、语境问题、日常化认识问题。孙保学与李伦[8]认为,人工智能的“机芯”设计在人工智能开发设计使用者的“良心”的指导下设计出合乎道德算法的机器,进而确保人工智能的善用,最终指出人工智能伦理研究存在四个向度,即人工智能道德哲学、人工智能道德算法、人工智能设计伦理、人工智能社会伦理。孙伟平[9]针对人工智能技术的应用引起的伦理冲突以及相应的伦理规制进行了分析,也对人工智能的价值冲突进行了反思[10]。王天恩[11]认为在人工智能发展的外在伦理限制和内在伦理的支持中,对人工智能与人的发展所不可获取的部分,应从消极伦理限制向积极伦理规制的转变,创新观念给予伦理支持,进而协调因人机融合进化中出现的新伦理关系。在人机交互系统中智能体“主体性”越来越强,引发学界对人机系统中智能体的事故责任以及如何承担等问题的讨论,在一定程度上人类认知通过人工智能体进行延展,但是责任并未得以延展,这就需要在设计之初将责任要素考虑在内,通过“输入-输出”能否控制的四种语境进行设计人机系统责任承担方案[12]。
人工智能引起的社会各个领域的整体性变革,由此产生的社会治理倒逼公共政策框架的重构与创新,分别在技术逻辑、风险挑战、公共政策选择三个层面上对人工智能治理进行了阐述[13]。在AI 产业布局上,我国与美国还存在差距,下一步需在AI战略布局、科研投入、科研人才培养模式等方面促进我国AI 产业加速发展[14]。
2.4 人工智能涉及的法律问题研究
标签四的节点有著作权、知识产权、法律主体、刑事责任、人工智能创作物等,这是人工智能领域研究在人文社会科学领域渗透过程中凸显出的子聚类。在关键词共现聚类图谱中,人工智能的知识产权认定,刑事责任主体等在人工智能技术社会应用中所要面临的现实风险。法律内部系统正面临着人工智能系统所带来的指令或行为冲突,在具体的民事活动与刑事活动中背离了传统的法律因果关系所造成的现实法律风险。针对人工智能行为的法律因果关系的认定进行归责是现当代法律制定部门亟需解决的问题,面对不同行为逻辑的人工智能系统,比如基于有导向算法与无导向算法的人工智能行为,对行为产生的法律因果关系的讨论需要将技术代码逻辑以及现有法律规制进行融合。
人工智能创作的双重标准,即在形式上版权法规定的外在标准以及受版权法保护的作品应满足智力创作的内在标准;从数据与表达在观念上做出区分,人工智能创作程序的所有者对数据层面的创作结果拥有权利,从数据中挖掘出具有市场价值的人来说,这种结果是拥有排他性并弱于版权的特别知识产权,从一定程度上,可以避免利用人工智能开展“数据圈地”,也可以合理利用纯粹人工智能创作产生的版权侵权责任[15]。
法律主体人格是社会建构出来的产物,人工智能的法律主体人格并非完全以人为前提,面对现状我们需要保持一种开放态度[16]。也有学者认为,意志要素与认识要素是认定刑事主体的关键,人工智能主体类似于法人主体(没有人类肉体与意识的构造模式),但是法人运行机制符合主体认定的实质要求,当前人工智能则不具备,从刑罚目的实现出发,反面论证当前人工智能没有必要作为刑事主体认定[17]。
2.5 人工智能对教育的影响及应用研究
标签五的关键词节点有职业教育、教育人工智能、智能教育、人才培养等。近几年来人工智能领域呈现爆发式增长,一方面,人工智能与教育的融合促进了教育行业现代化发展;另一方面,人工智能学科本身是教育学科门类下的子学科,其发展必然受到学科本身的辖制。新工科需要与智能一级学科的设置相配套,需要有新的专业,智能科学与技术的核心课程应成为理工科通识教育课程;中国智能人才的教育体系需要在“知行合一,学以致用”为特色的工程教育改革中生成[18]。人工智能工程教育仍是作为关键性基础学科,作为新工科的学科属性并未改变;然而在社会化应用过程中考量的参考指标就需要人文社会学科的参与,在相互融合过程中不断打磨出学科的新高度。“智能社会科学应由智能政治学、智能社会学、智能法学、智能经济学、智能教育学、智能心理学、智能语言学等二级学科构成。智能社会科学的构建是一项极其复杂的系统工程,一方面需要对其进行顶层规划与设计,另一方面也需要社会各界的广泛参与[19]。”智能科学技术的发展,不再是传统意义的工程科学,而是推动新工科建设内在驱动力。智能时代的新工科建设与智能科学与技术的发展紧密相关,针对智能专业的课程开设应相适合,落实人才培养体系,促进学以致用的工程教育改革。中国要立足于世界之林并实现中国梦,需要在教育上狠下功夫,为培养跨界创新的新工科优秀人才提供基本保障。
人类的教育始终都是围绕着“人”展开,是从人的框架中探寻教育的本质;人工智能时代对人的素质教育培养提出了新的要求,传统的德智体美等素质理念需要重新审视,即传统知识通过数据算法等形式呈现,知识的认知获取方式发生了变化。人的全面发展利用人工智能技术的“嫁接”,未来人的教育培养以及人自身的整体能力水平等都会得到整体性提升。整体性人格教育不再是单纯的知识教育,还有情感、意志等多方面的教育,可以说智能教育为健全人格提供了多维度解决方案。未来教育借助通用人工智能,摆脱人的先天生物体约束,将传统人类教育融合机器教育,形塑“人-机”二元主体的教育学习模式[20]。
3 结论
人工智能科学研究作为自然科学领域的研究对象,近年来在其社会化应用的过程中逐步受到人文社会领域的关注。本文通过分析篇名含有“人工智能”的CNKI 数据库中的2 713 篇文献,进行了量化分析研究;基于关键词时区图谱,在时间维度上呈现了人工智能在过去二十多年间的研究主题演变情况;在研究内容上通过对关键词进行聚类分析得出当前人工智能研究的五大聚类,即人工智能技术及应用研究、人工智能与人类智能的关系研究、人工智能与人文社会科学的融合、人工智能涉及的法律问题研究、人工智能对教育的影响及应用研究五个部分,分析五大聚类主题为人工智能领域发展脉络提供了一些线索。换言之,人工智能研究正经历着从工程技术领域向人文社会领域的融合过程,打通学科边界进而建构交流平台,促进大人文学科发展战略落地,为提升整体科研水平贡献力量。
当前人工智能相关研究的主题演化、内容分支、跨学科融合等问题是本文可视化研究突出所在。但是本论文采用的检索式局限于篇名含有“人工智能”以及没有将国外数据库的人工智能研究进行呈现,未能全方位展示人工智能发展状况是本论文的缺憾。在人工智能领域的研究上,笔者初衷是借助小样本数据抛砖引玉,为以后研究提供一些线索与思考。