中美数字孪生研究主题的比较分析*
——兼论基于结构话题模型的文献主题数据挖掘方法
2022-01-28李海峰
李海峰
(新疆师范大学教育科学学院 乌鲁木齐 830017)
数字孪生也称为“数字双胞胎”,用于模拟、预测和优化整个生命周期中的产品和生产系统[1],能够捕获物理实体产品及其生产过程信息,实现虚实孪生体之间的信息同步和共享[2]。数字孪生连续被美国高德纳咨询公司评为近年最具国际影响力的十项技术之一,未来将形成一个智能驱动的数字孪生世界[3]。数字孪生是工业4.0革命的前沿技术[4]。美国明确提出了数字孪生对工业4.0革命发展的重要价值。我国将数字孪生作为智慧城市的发展引擎和技术基础[5]以及数字经济战略实现的重要抓手[6]。
美国是当今数字孪生研究的重要国家,进行中美数字孪生研究主题的对比分析,不仅能够揭示两国数字孪生研究的差异,而且能够为我国数字孪生技术发展、政策制定以及工业技术发展等提供重要借鉴。但是国内关于数字孪生研究的9篇文献综述只从不同维度进行了评述,并未出现中美数字孪生比较的相关研究,这将使我国难以清晰地认清中美两国数字孪生研究的差异、差距和特点。为此,本文将采用结构话题模型分析方法,从中美两国数字孪生研究主题的数量、内容和研究发展等方面揭示他们之间的异同。
1 数据来源与分析框架
1.1数据来源Web of Science(WOS)核心合集数据库被公认为人文与自然科学研究领域的典型数据库,数据库中的数字孪生研究能够代表世界上最权威的、最重要的和最具价值的研究成果。文献检索以“digital twin”为主题词,时间跨度为所有年份,核心合集选择SSCI和SCI这两个引文索引数据库,检索日期为2021年4月18日。排除非研究性文章、非英语文献类型以及信息残缺的文献后,最终中国有144篇文献,美国有57篇文献。
1.2研究方法结构话题模型(Structural Topic Model,STM)是一个词语计数生成统计模型,模型为每个文档定义了一个数据生成过程,然后利用这些数据为模型中的参数寻找最可能的数值。中美数字孪生研究主题的比较分析将国别和时间作为协变量,文献摘要作为分析对象,利用结构话题模型估计“文档—主题”和“主题—词语”的概率分布,揭示中美两国数字孪生研究主题的偏好差异以及主题内容的时序变化差异。
1.3研究思路研究者遵循话题结构模型构建了中美数字孪生话题对比分析的研究思路,如图1所示。文献信息包括标题、摘要、作者、发表时间和关键词。摘要作为内容分析对象,因为《文摘编写规则》中明确指出摘要包含了目的、方法、结果和结论等文章的核心内容。研究者利用R语言的ST包建立语料库和元数据矩阵。利用R语言的STM包进行中美话题结构模型构建、模型评估以及模型选择,包括话题选择、模型选择、协变量估计以及元数据分析等。话题比较通过STM包中的标签话题(labelTopics)、寻找思想(findThougths)、话题共现(topicCorr)以及绘图等功能实现。
图1 中美数字孪生话题比较分析的研究思路
1.4结构话题模型评估话题数量选择可以利用逐步估计不同话题数量初始值的方式确定[7],也可以利用STM自带的算法自动完成[8],但是这些方法容易产生难以辨识的较小子主题。基于此,话题选择采用话题搜寻(searchK)方法对给定范围的话题进行评估。数据分析发现话题数量为15个时,模型的残差较低、语义凝聚度较高、模型排他性较高。研究者利用labelTopics、findThoughts、plot.STM等方法查询话题的主题词、代表性文档以及主题变化,能够快速地、清晰地呈现相关主题的重要关键词和文档内容。
2 研究结果
2.1话题内容通过话题搜寻方法最终确定了15个话题。主题词按照它们在这一话题中的比率大小依次排列,共同代表这一话题的主旨内容。每个主题词也以不同的比率分布在不同的主题中,其比率大小代表着它在不同话题中的意义程度。话题主题词选择采用FREX词语权重评分算法,有助于筛选出区别其它话题的关键词语。研究者邀请两位专家对话题所包含的词语进行了详细分析和阐释,通过多次协商确定了15个话题的名称,如表1所示。
表1 中美数字孪生的研究主题与内容
续表1 中美数字孪生的研究主题与内容
2.2话题模型评估国别(Country)和时间(Year)被设为话题变化的协变量,利用结构话题模型的效应估计方法(estimateEffect),对由15个话题构建的回归方程进行了模型估计,将不确定性参数(uncertainty)的类型设为“Global”,模型估计结果呈现了15个话题在国别与时间两个协变量影响下的估计值。从话题流行度的国别差异看,中美两国在话题2、话题4、话题6、话题9和话题13存在显著性差异。从话题的时间发展变化看,所有话题随着时间的发展并没有显著变化。
2.3话题偏好估计话题偏好估计旨在揭示中美对15个数字孪生研究主题的研究倾向及其程度,利用效应估计方法将国别设为元数据的因子来实现话题偏好区分。研究者利用绘图方法(plot)对话题模型进行可视化描述,设定国别为协变量,话题范围设为1至15,方法参数(method)设为“difference”,话题标签以具体的话题名称进行自定义,最终获得了中美数字孪生研究主题的偏好图谱,如图2所示。中美数字孪生研究主题偏好存在明显差异,中国主要涉及智能制造、装配过程管理、计划指导与活动评估等,美国主要关注模拟系统控制、系统结构与风险评估、系统效能与算法评价等。
图2 中美数字孪生的研究主题偏好
2.4话题内容对比话题内容对比旨在从微观层面揭示中美两国对同一数字孪生话题内容的研究偏好。同一话题内容对比分析通过设定STM中的内容参数(content)实现,将国家和时间设为协变量,初始类型设为“Spectral”,内容参数(content)设为元数据的国别,然后利用绘图函数逐一绘制每个话题的中美研究倾向词语图谱,最后按照词语在图谱中呈现的大小、距离远近以及颜色深浅整理成中美同一话题差异词汇表,如表2所示。以话题13“系统结构与风险评估”为例,话题词语距离分割虚线越远,表明中美在该话题中的研究内容差异越明显。中国研究者关注数字孪生在维修、预测、安全以及建议提出等方面,然而美国研究者主要聚焦数字孪生在模型、使用、组成和不确定性等方面。
表2 中美数字孪生同一话题的微观研究内容比较
2.5话题时序变化为了揭示同一数字孪生话题的中美研究发展差异,采用了话题时序变化分析方法。时序变化分析关键是对由国别和时间两个协变量交互形成的话题结构模型进行估计,将话题流行度(prevalence)设为国别和时间两个协变量的交乘项,然后利用效应估计方法逐一对数字孪生话题进行估计,最后利用绘图函数绘制每个话题的时序发展图谱。以话题14“机器参数优化”为例,中美两国对这一研究主题的起始时间均为2014年,最初中国明显优于美国,但是美国随后逐渐增强,在2018年以后逐渐超越了中国,如图3所示。
图3 话题14的中美数字孪生研究主题时序发展差异
3 分析与讨论
通过对中美数字孪生研究文献的话题分析,揭示了15个重要主题,涉及故障诊断、智能制造、物联网管理、装配过程管理、模拟系统控制以及传感器组合与检测等。利用话题偏好估计、话题内容对比以及话题时序变化估计,呈现了中美数字孪生研究主题的内容异同。
3.1中美数字孪生研究主题的共同研究旨趣中美数字孪生研究的共同旨趣不仅体现在由15个研究主题构成的宏观方向上,而且也管窥于他们之间的微观研究偏好。首先,由故障诊断、智能制造、物联网管理、装配过程管理以及模拟系统控制等15个话题形成了中美数字孪生研究的共同宏观研究旨趣。从数字孪生技术服务于生产制造视角看,他们的共同旨趣充分体现了数字孪生技术的关键特征和功能。数字孪生能够实现虚实精准映射、虚实高度仿真、深度洞见以及高效实时交互,虚拟现实的这些特征为机器故障诊断、智能生产制造、装配过程管理以及产品设计与监控等提供了有力支持。从数字孪生技术自身性能优化视角看,中美共同话题旨趣主要聚焦于网络深度动态感知、系统效能评价与算法优化、机器参数优化等。中美研究者主要聚焦于数字孪生系统的性能优化,通过改进算法、优化参数以及效能评估等方法实现数字孪生系统的高效运行。其次,中美数字孪生研究主题的微观共同旨趣主要聚焦于故障诊断和网络深度动态感知。通过图2的主题偏好可以发现,15个主题距离中间分割线最近的是故障诊断和网络深度动态感知,说明了它们是中美两国在微观层面上的共同研究话题。中美微观层面上的共同研究话题进一步体现了数字孪生的本质特征,故障诊断和网络深度动态感知充分运用了数字孪生的深度洞见、智能预测以及全生命周期监控与管理等功能。
3.2中美数字孪生研究主题的话题内容差异为了揭示中美数字孪生研究主题的话题内容差异,研究者从15个主题的数量和内容方面进行了宏观差异分析,也针对同一话题的高频词语概率分布进行了微观研究内容的差异探析。
3.2.1 中美数字孪生研究主题的内容总体差异 中美数字孪生研究主题的内容总体差异主要体现在研究主题的数量差异和研究范围差异。首先,主题数量差异。中国的数字孪生研究主题比美国略多,但是中美两国的话题总体数量并无显著差异。其次,从主题研究范围看,中国的数字孪生研究主题主要聚焦于智能制造和生产管理,诸如智能制造、装配过程管理、产品设计与智能监控、预测与维修等,然而美国的数字孪生研究主题主要聚焦于系统控制与优化,诸如模拟系统控制、系统结构与风险评估、系统效能评价与算法优化。
a.中国研究者的数字孪生研究焦点
与美国的数字孪生研究主题相比,中国研究者主要聚焦数字孪生在智能制造和生产管理中的作用。
第一,智能制造是数字孪生技术工业化应用的主要领域,是实现工业4.0的关键技术。数字孪生为制造业的网络化与物理集成提供了有力支持,大数据与数字孪生的融合能够实现它们之间的功能互补,为突破工业4.0智能制造瓶颈提供新的解决路径[7],诸如数字孪生增强的数据驱动智能定制化服务[8]、数字双驱动产品智能制造系统应用框架[9]、基于数字孪生和自动化的信息物理生产系统信息建模[10]、面向智能车间并行控制的数字化双驱动制造信息物理系统[11]、智能制造的数字孪生新车间[12]等。
第二,装配过程管理是数字孪生全生命周期技术特征的重要应用,发挥了数字孪生高保真、实时交互以及智能控制的技术优势。为了提高装配过程的管理效能和精确性,研究者采用了数字孪生驱动装配调试的理论框架来提高装配过程的精度以及多学科耦合[13],通过基于数字孪生的装配数据管理和跟踪复杂产品的生产过程[14]、基于数字孪生的智能生产管理与控制框架[15]、基于区块链的产品数字孪生数据管理[16]等进一步改进了装配过程管理。
第三,产品设计与智能监控。产品设计是一个复杂和持续改进的过程,产品设计和应用的分离使其变得更加困难。通过高保真的产品原型数字孪生化以及虚实孪生体之间的实时映射与设计改进[17],基于创新设计理论的数字孪生设计机制实现了产品设计的高效率和高质量。大数据驱动的产品设计时代增强了设计过程中对产品虚拟空间的聚敛需求,研究者于是提出并探索了数字双驱动产品设计框架[18]、数字孪生驱动的产品设计、制造和服务方法[19]、基于数字孪生的弹性优化设计[20]、可重构的数字孪生模块设计[21]等。
第四,预测与维修。数字孪生最大的特点之一是虚实孪生体全生命周期的过程化管理,能够利用人工智能技术对历时数据和实时数据进行大数据分析和智能预测。为了提高数字孪生预测的精度和质量,研究者从预测模型、预测算法以及预测范围等方面开展了若干探索,诸如数字孪生和多时间序列叠加物体性能预测[22]、数据超网络故障预测模型与维护策略[23]、数字孪生驱动的混合预测维护方法[24]、关键部件质量在线控制的数字双驱动方法[25]等。
b.美国研究者的数字孪生研究焦点
与中国数字孪生研究主题相比,美国研究者主要关注系统的控制与优化。
第一,模拟系统控制。数字孪生技术的最大优势是高保真和实时交互,能够实现虚实等体的模拟系统与系统管控。利用增强现实技术能够构建可重构的、累积性的数字孪生制造系统[26],基于状态估计的分布式优化可以实现有效的机器状态评估[27],使用数据驱动的混合建模和仿真方法的模块化生产系统,能够实现数字孪生仿真器,其可以支持决策设计、测试假设的系统配置、验证和确认整个系统离线的实际行为,测试能够真实地反映并提供系统性的统计数据[27]。通过开放式架构模型可以实现自动化制造系统的数字孪生驱动快速重构[28]。
第二,系统结构与风险评估。系统结构与风险评估主要利用数字孪生的高保真、虚实共生以及全生命周期的特征,探究物体的基本结构和预测事物运行过程中的风险。利用数字孪生的高保真和虚实实时交互功能,能够实现对物体结构及其运行状态的观察与检测。有研究者利用数字孪生的这些功能实现了对碳纤维微观结构的测量和观察,揭示了碳纤维晶体的微观尺度和压缩性能等[29]。风险评估是利用数字孪生全生命周期监控与人工智能技术进行风险管理的方法,诸如数字孪生辅助铁路道岔系统的生命周期管理[30]、机身数字孪生结构风险评估的概率方法[31]、智慧城市的防灾数字孪生管理系统[32]以及涡轮盘的生命周期分析[33]等。
第三,系统效能评价。系统效能评价利用了数字孪生的高度仿真、虚实共生以及实时交互等功能,研究者根据设计的系统模型和数据监测对系统运行效能进行评价。利用数字孪生技术进行系统效能评价的范围较为广泛,诸如基于数字双齿轮测量中心的测量软件误差识别[34]、基于数字孪生技术的2型糖尿病患者糖化血红蛋白降低方法[35]、基于数据融合的智能检测机器人可持续数字孪生系统[36]等。
3.2.2 中美数字孪生同一话题的内容比较 针对话题1“故障诊断”而言,美国研究者主要关注模型、方法、虚拟和空间等内容,然而中国研究者主要以数字孪生的动态、网络、评价、测验以及数据更新等为研究内容。中美研究者对话题2“智能制造”的研究偏好差异显著,这一主题的主题词分布范围较广、词语距离较远、词语大小差异显著。美国主要聚焦工业产品制造和数据,然而中国主要关注智能、智慧、物理实体和产品等。针对话题3“物联网管理”而言,话题词语呈现中间集中和两端分散的形状,中美两国对智慧、数字化、建议和模型这些关键词特别关注,但是中国研究者偏爱物联网、互联网以及安全等内容,而美国主要关注能源、建筑和效能等内容。中美研究者对话题4“装配过程管理”的研究存在较大差异。中国的主题词语字体较大,说明中国研究者在这一主题中的研究内容占据权重较大。中国主要关注装配、生产、数据和处理等内容,然而美国研究者主要关注预测、方法和模型等内容。针对话题5“模拟系统控制”而言,中美两国的主题词语分布差异显著。中国方面的主题词语偏大而少,美国方面的主题词语偏小且多,说明中国研究者特别偏爱系统和模拟两方面的内容,而美国涉及控制、力量和使用等诸多方面内容。中美两国共同关注数字孪生、技术开发以及物理实体等内容。
针对话题6“传感器组合与检测”而言,中国主题词语的分布区域明显大于美国,突出了对过程、知识和计划等方面的关注,然而美国主要针对制造、传感器以及模型等内容进行了深入研究。中美在话题7“网络深度动态感知”方面的研究存在显著的主题词语分布差异。大部分比例以美国的框架研究为主导,中国研究者主要关注网络、优化、主题和企业等多样化的研究内容,中美研究者共同关注的内容是选择、模型、环境以及数据等。中美研究者对话题8“决策支持”的研究具有明显的共同旨趣,主要包括系统、实时、云计算、操控和建议等,但是中国研究者倾向于生产、动态、控制和异步,美国研究者倾向于物理实体、网络与实体、决策等内容。中美研究者对话题9“计划指导与活动评估”的研究存在显著差异,中国研究者主要关注计划、云计算、系统、效率和过程等内容,然而美国研究者倾向于框架、工业、装备、模型等内容。针对话题10“预测与维修”而言,中国研究者对控制、质量和建议的研究较为关注,而美国研究者特别关注预测、绩效、模型以及错误识别等内容,数据、方法和精确性等是中美研究者共同关注的内容。
中美研究者对话题11“产品设计与过程监控”的研究存在明显差异,美国对生产、虚拟现实和物理实体的研究占据了这一话题的绝大部分比例,中国研究者仅对应用进行了较少的研究。针对话题12“工业支持与当前需求”而言,中国研究者对工业、数字化两方面的研究占据了这一话题的绝大部分比例,而美国则主要关注系统、过程、需求这些内容。在话题13“系统结构与风险评估”的研究中,中美两国在该话题中的研究内容差异明显,中国研究者主要关注维修、操控、预测和安全等内容,然而美国研究者主要关注模型、使用、不确定性和结构等内容。在话题14“机器参数优化”研究中,美国对机器、参数和优化等内容的研究占据了该主题的绝大部分比例,而中国研究者关注的内容主要是过程、方法和制造等内容。针对话题15“系统效能评价”研究而言,中国研究者对评价和效能的研究占据了话题的绝大部分比例,美国研究者主要关注了测量、评估和数据等内容,中美研究者共同关注算法和建议等内容。
3.3中美数字孪生研究主题的话题演进差异受国别调节变量的影响,大部分中美数字孪生研究主题的强度随着时间的发展呈现出了显著变化。话题1、话题2、话题3、话题4、 话题5、 话题6、话题8、话题9、 话题11、话题12、 话题13、话题14和话题15这些话题呈现了显著的时间演进发展变化。中美两国的数字孪生研究随着时间发展呈现了截然相反的发展趋势。
美国在话题1、话题4、话题8、话题14的起始阶段优于中国,但随后却被中国超越。以话题8“决策支持”为例,美国对该主题的研究在2014年明显高于中国,但是其随着时间的发展却呈现了显著的下降趋势。中国在2014年对该研究主题的数量明显低于美国,但是在2018年以后却逐渐强于美国。话题5“模拟系统控制”和话题12“工业支持与当前需求”这两个话题的发展趋势与上面的发展趋势恰恰相反,中国在2014年起始阶段明显优于美国,但是经过几年时间后却落后美国了。
与上述中美数字孪生研究主题发展趋势呈现显著“交叉性”变化不同,话题2“智能制造”、话题3“物联网管理”、话题5“模拟系统控制”、话题6“传感器组合与检测”、话题9“计划指导与活动评估”、话题11“产品设计与过程监控”、话题12“工业支持与当前需求”、 话题13“系统结构与风险评估”和话题15“系统效能评价”这些话题并没有呈现急剧变化的发展态势,它们虽然变化显著,但是依然没有被对方超越。小部分研究主题的强度随着时间的发展并未呈现显著变化,诸如话题7“网络深度动态感知”和 话题10“预测与维修”,这两个话题的研究强度随着时间的发展呈现出了平行状态,未出现拟合直线交叉抑或接近交叉的现象。
4 结论与建议
4.1研究结论利用结构话题模型分析方法获得了“故障诊断”、“智能制造”和“装配过程管理”等15个主题。通过协方差估计函数、内容差异分析以及时间与国别的交互分析,揭示了中美数字孪生研究主题的总体研究内容偏好、同一话题内容比较以及话题时序发展变化。
4.1.1 话题总体偏好差异 中美数字孪生研究主题的总体差异主要体现在主题数量和主题范围两个维度。中美数字孪生研究主题的数量存在一定差异,但是中国的话题总体数量并未显著优于美国。中国主要聚焦于智能制造和生产管理,然而美国主要以系统控制与系统优化作为研究重点。
4.1.2 同一话题内容差异 中美研究者对15个数字孪生研究主题的单一话题研究偏好存在显著性差异,从每一个话题的词语分布、中美词语所占比例以及主题词语大小等都存在显著差异。从15个话题词语在中美两部分的分布情况及其内容可以看出,中美两国研究者关注的内容特征鲜明。中国研究者主要关注动态监测、性能评价、智能管理、物联网、安全管理、数据处理、系统和模拟、云计算、质量提升、维修与预测等。美国研究者主要关注数字孪生模型、虚拟空间、工业产品制造、传感器网络与实体、决策支持、生产绩效、错误识别、测量与评估等。
4.1.3 话题时序发展差异 中美数字孪生研究主题的时序发展趋势表明,虽然数字孪生技术起源于美国,但是随着中国经济实力的增强、科研投入的增加以及相关科技人才的培养,使我国在话题1“故障诊断”、话题4“装配过程管理”、话题8“决策支持”以及话题14“机器参数优化”等方面逐渐超越了美国。然而,我们也需要清醒地认识到我国数字孪生技术在话题7“网络深度动态感知”和 话题10“预测与维修”这两个研究方向上一直与美国存在较大差异,而且没有呈现出超越甚至缩小差距的事态。
4.2研究建议
4.2.1 推动数字孪生关键技术的研发 尽管中国数字孪生技术近年发展较快,但是美国对数字孪生关键技术的掌握依然具有绝对优势,因此推动数字孪生关键技术的研发至关重要。首先,建立政府、企业和学校的数字孪生关键技术研发联盟。技术研发联盟需要在政府政策的引导和支持下,组建跨领域的技术攻关合作,充分发挥政府的引导作用、企业的主体研发作用以及学校的技术人才支持作用。其次,制定国际化数字孪生合作机制。美国是数字孪生研究起源的地方,其在数字孪生的关键技术方面具有卓越优势,故需要制定相应的国际化合作机制来提升我国的数字孪生研究水平。中美高校之间可以进一步加强数字孪生技术人才培养的国际合作,制定定期的人才交流培养协议,开展持续的师资培训合作。中美企业之间需要进一步加大研发合作,推动数字孪生技术的交流合作和协同研发。
4.2.2 建立健全数字孪生的研发机制 为了激发数字孪生技术人才的积极性,尽快攻克数字孪生研究的关键技术,需要建立健全数字孪生的研发机制。首先,制定绩效奖励机制来最大化激励人才。政府、企业和学校需要根据当前迫切需要解决的数字孪生关键技术重新制定相应的奖励机制,诸如住房、奖金以及社会福利等。其次,建立卓越人才培养计划。学校和企业可以通过卓越人才培养计划项目,实现对数字孪生关键技术人才的培养,企业则为人才的培养提供资金支持,以此实现数字孪生关键技术研发专项人才的持续供给和补充。第三,创建数字孪生技术创新的研发机制。数字孪生技术的创新研发需要组建跨学科的研究团队,将人工智能、虚拟现实、物联网以及大数据分析等领域的专业人才组建成新的研发团队。奖励机制需要倾向数字孪生技术的创新研发,增加对数字孪生创新的奖励程度。
4.2.3 加速推进数字孪生技术应用领域 美国的数字孪生应用领域比较广泛,在智慧城市、智能制造、航空航天等领域有了广泛应用。因此,我国需要从政府引导部署、企业转型改革以及现代化发展等方面扩大数字孪生技术应用领域。首先,政府引导部署数字孪生应用领域。政府需要根据经济社会的宏观发展引导和部署数字孪生的应用领域,可以利用数字孪生推动数字化经济深度发展,构筑数字孪生支持的智慧城市,创建城市治理现代化数字孪生系统。其次,利用数字孪生技术推动工业、农业、城市管理以及社会经济发展的变革。政府积极推进数字孪生工农业的应用范围和程度,鼓励数字孪生企业参与政府在工业、农业和社会领域的工作,通过招标、合作和共赢的方式利用数字孪生技术推动各行各业发展。