自然交互技术发展现状的知识图谱分析
2021-04-06汪颖,黄泽
汪 颖,黄 泽
(浙江理工大学,浙江 杭州 310018)
0 引 言
随着计算机与显示技术的发展,对于计算机的命令行接口功能变得日益丰富与强大,但对于绝大多数老年人而言这样复杂的人机交互形式难于使用。自然交互界面是一种新兴的用户界面,其目的是通过利用人的视觉、触觉、声音和动作等行为能力以及人的认知能力,基于自然的方式来实现人机交互[1]。回顾人机交互的历史进程,不难发现扮演适应角色的总是人类而非计算机,人类需要理解机器并按照其标准进行交互,这对于很多人尤其是老年人而言极不友好。基于此问题,越来越多的研究者致力于开发能够跨越人机交互障碍的新技术。
近二十年来的科学研究根据人格效应和媒体等式理论,通过在屏幕上描绘一个虚拟的交流伙伴,从而对人机交互产生了有益的影响[2]。在利用人类行为能力的交互方式中,手势由于其强大的表现力和速度优势,在人机交互系统中得到了最为广泛的应用。例如基于视觉的手势识别(hand gesture recognition,HGR)系统可以在无菌环境(如医院手术室)中实现非接触式交互,也可以简单地为娱乐和游戏应用提供参与式控制[3]。
然而,HGR并不像标准的基于键盘和鼠标的交互那么灵敏,在复杂背景和不同光照条件下的性能以及手势相位的可靠检测等问题限制了手势作为界面设计中可靠方式的使用。人类与世界的互动本质上是多模态的,为了使人机交互变得如人类之间交流那么自然,多样化的交互形式不可或缺,除手势以外,研究人员已经将自然交互形式拓展到了更多领域,如语言[4]、视觉[5]、身体动态[6],甚至是复杂的情绪和感受[7-8]。
鉴于人机自然交互研究的丰富成果以及老年人对于复杂人机交互环境的适应困境,该文试图直观地展现老龄化自然交互领域的全貌,并用文献计量方法深入探讨这一领域的研究现状和进展。具体来说,该研究对过去20年(2000~2019年)与情感计算相关的科学出版物进行了严格的文献计量分析,包括国家和期刊表现,以及领域内共引文献的可视化分析。研究结果有助于相关研究者掌握老龄化自然交互方面的知识结构和最新趋势,确立或改变后续的研究方向,为研究者更快速地了解老龄化自然交互领域提供便利。
1 研究方法
1.1 数据收集
为了收集到有代表性的老龄化自然交互相关文献,该文选择以Web of Science(WoS)作为来源数据库获取待分析的初始数据。WoS是全球最大、覆盖学科最多的综合性学术信息资源,利用其丰富而强大的检索功能,用户可以方便快速地找到有价值的科研信息[9]。该文旨在通过文献计量学的方法对老龄化自然交互相关文献进行定量、可视化分析,因此在WoS核心数据库中使用“主题”搜索以获取尽可能多的相关文献,使用“主题”作为搜索方式意味着只要文献的题名、摘要或关键词中任意一项包含搜索词,即会出现在结果队列中。
用于初始数据收集的关键词包含不同的表达式,分别是“elder”、“old people”、“human-computer nature interaction”或“natural human computer interaction”,将时间跨度设定为2000年至2019年。得到搜索结果后,为了尽可能涵盖更多的附加信息,将1 447篇初始文献以“txt”格式从WoS中导出“全纪录和引用的参考文献”。最终将结果导入CiteSpace(版本5.5.R2)中进行去除重复项操作,得到1 434篇老龄化自然交互相关文献用于后续分析。
1.2 研究工具
文献计量学是对文献或书籍等书面出版物的统计分析,可以追溯到二十世纪初,其通过复杂网络对大量文献样本进行数据组织和可视化分析。文献计量学比较研究学者和研究机构之间的时间尺度和学科引用效果,这两个因素与出版物的质量不相关,基于此可以对这些学术成果进行定量评估[10]。通过文献计量方法对某个领域内的研究热点和研究趋势等进行分析已经在学术界得到了广泛的应用。
从文献分析工具的选用上来看,目前被使用较多的软件工具包括BibExcel、CiteSpace、Pajek、VOSviewer、Histcite、Sci2等。BibExcel可以灵活地管理和转换不同格式的初始文献,并从中提取出每一篇文献的基本信息,包括作者、国家、发表年份、发表期刊等等。BibExcel提取的信息经过其自动归类后能够直观地展示不同国家和期刊之间的差异性,而后借助VOSviewer或Origin可以对直观数据进行文献计量网络的构建以及可视化。与VOSviewer类似,CiteSpace同样是可视化的文献分析软件,但其特点是可以用于特定学科中研究热点和新兴趋势的分析,它既可以显示某个领域在给定时期内的表现和趋势,也可以探索前沿研究的发展[11]。
2 计量可视化分析
2.1 国家贡献
为了了解老龄化自然交互研究领域的国家水平,在BibExcel中将初始数据转化为可识别的out文件格式,分别按国家和年份排序。由于2008年之前所有国家的相关文献数量均小于5篇,因此图1显示了2008年至2019年间出版物的总数量和贡献最多的国家。可以看到,老龄化自然交互的总文献量随着年份增长呈现波动上涨的趋势,推断正是由于21世纪初计算机科技的高速发展和人机交互的多样化导致了学术关注的提高。同时,观察各条折线的波动形态,可以发现美国和中国的文献发表量最高,且二者的折线形态与总文献量的折线形态几乎完全一致,这也在一定程度上凸显了美国和中国对老龄化自然交互相关研究领域的学术引导地位。
可以看到,尽管中国对于此研究领域的起步相较美国更晚,但在2015年之后相关文献的数量已然赶超美国,这表明美国学者虽然更早关注到了自然交互领域,但中国学者在投入高度关注的情况下也已经产出大量学术成果。然而,2018年及之后,各国和总体的文献量都出现了较明显的下滑,笔者认为这可能是因为统计信息的缺乏。学术研究内容输出到网上需要时间,在统计时会出现不可避免的延迟现象,因此这并不能表示2018年之后老龄化自然交互领域研究热度的下滑。
图1 不同国家老龄化自然交互年份趋势图
2.2 共引网络分析
文章共引,被定义为两篇文献同时被其他文献一起引用的频率。基于已发表文献来分析学者之间联系的研究已然持续了几十年,使用映射技术进行的作者引文分析最常用于根据学者著作的共同引用来研究两位作者在思想领域的紧密程度[12]。基于这一假设,文献计量领域研究者提出了利用文献共引网络的聚类分析来探索知识领域内容的方法[13]。
为了进一步呈现老龄化自然交互领域的研究进程,该文利用CiteSpace对初始数据引用的所有参考文献进行文献共引网络分析。1 434篇初始文献所引用的共计38 054篇参考文献被导入CiteSpace进行共引分析,共引分析的选择标准:引用阈值调整为前10%的项目被保留,其中最大选择项的数目不超过100。最后通过软件自行构建得到762个节点,1 797条边的参考文献共引网络(基于图片可读性,此处并未显示所有节点),对共引网络进行聚类,软件自动剔除其中含量过少的聚类标签后得到图2所示共引网络聚类视图,8个主要聚类的具体信息见表1,表1中8个聚类集群的轮廓大小都接近于1,说明聚类结果是可信的。
图2 老龄化自然交互的共引网络视图
CiteSpace使用基于原始网络Laplacian矩阵为特征向量的聚类算法,与传统算法相比具有更高的效率和灵活性[14]。聚类标签的词汇是由每个聚类的名词短语和参考文献的索引词通过筛选得出,通过查阅8个聚类标签中的主要文献,可以将主要聚类分为三组,分别是:手势交互(#1,#6,#8,#9)、模式识别与图像处理(#0,#4,#10)以及自然人机交互接口(#7)。
表1 共引网络中8个主要聚类的具体信息
显而易见,手势作为一种表达性、自然性和直觉性的交互方式,已经被大量运用在计算机和可视化设备的交互控制上[15]。手势识别研究的快速发展,使手势交互已经能够基本满足人机交互系统的两个基本要求,即高识别精度和快速响应时间。基于帧与帧之间比较的深度学习模型是一种有效且计算效率高的方法[16],但这种方法的缺点是需要进行图像的预处理和一个静态的背景。肤色在颜色空间中占据相当明确的区域,因此可用于准确分辨头部和手部[17],其限制在于易与背景中相似颜色物体的混淆以及姿势识别方面的不完全。
归根结底来说,手势交互实则属于模式识别的一部分。但尽管手势识别具备良好的准确度和普及性,但多模态的自然交互才更贴合人们与真实世界的交互形式[3]。关于模式识别和图像处理,除手势外,研究者基于人的多维感官以及情绪感受做了大量的探索。即便只是简单的语言对话交流,人与人之间的交流方式也与人机交流存在差异。人们对于计算机需要使用更简单且控制化的语言,而这样不自然的交互形式难以产生愉悦感[18]。情绪特征的提取虽然同样来自语言,但相较语言控制,其实现形式更为困难。为了更精确地获取各种语言风格中的情感内容,研究者利用卷积神经网络(convolutional neural network,CNN)和深度残差网络(residual network,ResNet)分别提取语音特征和视觉模态以识别人的自然情感[8]。
最后,自然人机交互接口作为自然交互的实际应用形式,其相关文献量较少,但能直观展现出自然交互的实用性。当前对于自然交互接口设备的使用多为医学领域,免触摸控制系统大幅提升医生在无菌环境中的操作效率,尽管目前的准确度较低,但其效用性不可忽视[19]。此外,结合医疗领域中非接触式交互方法来看,虽然已经产生了大量的解决方案,但只有少数几个在手术环境中得到了系统评估,自然人机交互的软件接口问题限制了进一步的研究,这应当是未来的主要挑战[20]。
除此之外,老龄化自然交互共引网络的时间轴视图导出如图3,从时间轴视图能够更清晰地了解过去数年间老龄化自然交互的进化足迹。
从图3可以看出,2007年之前的早期研究主要关注于手势识别,包括#1三维手势跟踪、#8空中手写汉字识别以及#9人机手势交互。早期识别方法主要通过从时空维度中提取三维手势特征,并通过时间轴上的图像帧比较来测定其相似性,在手势分析综述中这被定义为时空方法[21]。手写字符的识别,尤其是汉字,因其复杂性而使早期研究者们备受困扰。而随着各种手写字符数据库的建立,手写字符的识别问题得到较好的解决,其平均识别准确度达到90%以上[22]。
2007年之后,随着手势、字符以及各种人类活动识别方法的研究发展,以计算机视觉模拟人机交互成为一个重要的研究领域。研究者们意识到人机交流不应局限于触觉,语言和视觉同样重要,#4三维CAD(computer aided design,CAD)建模、#6基于视觉的手势识别、#7自然用户接口设备和#10计算机视觉四个集群相继产生。在类似博物馆这样的开放环境中,更有趣的互动和参与能改善来访者的体验,以身体为基础的人机交互形式有助于培养存在感和交流感。
图3 老龄化自然交互的共引网络视图(时间轴)
2.3 期刊贡献
对文献的来源期刊进行分析可以确定领域内的核心期刊,而期刊被引用频次则能够有效展现其受领域内研究者关注的程度。同时,高被引期刊也汇聚了该领域内核心学者的学术成果和高质量的前沿研究文献,能够为想要了解该领域的研究者提供指引。为了了解期刊绩效和引用情况,该文利用BibExcel提取初始数据中的期刊字段并按降序排列,得到表2所示老龄化自然交互相关文献中排名前十的来源出版期刊及其被引文献数量表格。
表2 排名前十的文献来源期刊
为了了解老龄化交互的期刊集中度,本研究查阅了表2所示十大文献来源期刊的重点研究内容和主要发表领域,排名前十的期刊共计刊登文献252篇,占据总文献量的17.57%。虽然这些期刊大多属于人机自然交互和模式识别领域,但需要注意的是,在计算机技术和人工智能领域的期刊上也发表了大量关于自然交互的论文,这说明人机自然交互需要以大量的计算机信息技术为基础,而人工智能则是自然人机交互的媒介,通常会通过关注和学习特定的用户行为以帮助计算机更好地了解人类意图[23]。
在CiteSpace中对所有文献进行期刊共引分析,得到了引用率排名前25的高被引期刊,并按起始时间升序排列得到图4,其中Begin和End分别代表期刊中高被引文献的集中起止年份,由于2008年之前老龄化自然交互相关文献不存在高引用率期刊,因此图片右侧时间分布段落的整体时间段为2008~2019年。时间段的灰色部分为期刊中高被引文献的集中时间,可以看到,其集中时间段与图3中的文献共引网络聚类集中时间存在较高的相似度。
某一领域内的学术动态在一定程度上可以通过相关期刊的高引用率来体现,这在知识可视化角度被称为突发引用[24]。
突发引用的出现表明学术界已经或正在高度关注此领域,而对比图3与图4的集中时间段不难看出,2008年到2013年间出现了类似突发引用的事件,熟悉这段时间内具有较高引用爆发力的期刊所发表的内容,将有助于研究者快速了解不同研究点的形成,以及老龄化自然交互领域的重点关注内容。
图4 排名前25的高引用率期刊(按起始时间排序)
3 结束语
以2000年至2019年从Web of Science收集到的1 434篇文献作为数据集,对老龄化自然交互领域内的研究进行了严格且深入的文献计量分析,并对国家、期刊以及共引网络进行了可视化研究。可视化图表显示,在过去的20年里,出版物总量随时间呈现明显的波动增长趋势,且增长率很高。值得注意的是,中美两国对出版物和国际合作的贡献最大,其次是德国和印度。除此之外,借助文献共引网络对不同阶段的主要研究内容和重点文献进行了调查,结果显示早期的自然交互研究主要集中于手势识别方面,手部行为因其灵活性和不易混淆的模态得到了研究者的高度关注。近十年来随着技术的发展,主流的研究已经转向利用多模态内容进行自然交互的尝试。多模态内容不仅指字符、语言、视觉的多模态领域,还包括情绪、感受等生物传感领域。随着人工智能技术的迅速发展,许多机器学习算法被应用于自然交互研究,卷积神经网络是其中应用最广的一种机器学习模型。
对于老龄化自然交互领域进行计量可视化研究具有重要意义。一方面,这有助于相关研究者快速获得具有影响力的相关作者和期刊,得到明确的领域内学术动态,找出关注或可投稿的期刊。作者具体信息也能提供实用性的指导,在国际合作的背景下,寻求相似研究人员或研究机构进行交流显得合理。另一方面,通过构建引文聚类网络,系统且有序地探析了老龄化自然交互的最新研究领域和前沿趋势,帮助学者把握老龄化自然交互领域的全貌。就数据来说,计量可视化的方法实现了对于以往模糊的专业评价的量化[25],而老龄化自然交互的可视化指标也表明其正在被更广泛的地区和知识领域所接受。
不可避免的是,尽管该文通过总结过去20年的研究得到了一些可用的结论,但方法仍存在一定的局限性。通过共引网络分析,共识别出11个聚类,其中许多小类因内容不足而被剔除,这可能导致重要信息的遗漏。另外,从知识可视化角度来看,有更多的方法可用于计量可视化分析,如果能在BibExcel和CiteSpace之外尝试运用更多的结合分析,或许可以得到更科学、更有说服力的结论。