基于内容统计分析的数字孪生定义研究
2022-11-28孙明霞桓明姣梁春华潘若痴蔚夺魁
孙明霞,桓明姣,刘 超,梁春华,潘若痴,蔚夺魁
(中国航发沈阳发动机研究所,沈阳 110015)
0 引言
数字孪生(Digital Twin)也被称为数字双胞胎,是一种新兴事物。通过对国内外有关数字孪生文献[1-3]的研究发现,数字孪生[4-5]具有能够在产品研制的全生命周期提供工程分析和支撑决策的能力,实现对过去知识和经验的传承与重用、对当前状态的评估与诊断、对未来发展的特性预估与趋势预测,进而达到缩短周期与降低成本的目的,并将成为越来越重要的航空发动机辅助研制技术[6-7]。
2002年,美国密歇根大学Michael Grieves等[8]在Product Lifecycle Management课程上最早提出“与物理产品等价的虚拟数字化表达”的概念,这是数字孪生定义的萌芽;2010年,NASA在其技术路线图中采用了这一概念[9];2012年,数字孪生概念被提议用于NASA飞行器[10]和下一代战斗机[11];美国国家标准与技术研究院提出了MBD(基于模型的定义)和MBE(基于模型的企业)的概念;2015年之后,世界各国分别提出国家层面的制造业转型战略。随着对数字孪生的研究与认识的不断深化,美国的NASA、空军等政府机构、工业部门、大学以及咨询机构[12-14],先后提出了数字孪生的定义[15-17],但是该定义目前来看数量庞大但还未统一[18-20]。
通过对搜集到的64个典型数字孪生定义的文献发表规律的统计分析发现,文献发表数量随时间的推移呈现逐步收敛的态势;;通过对64个典型数字孪生定义内容要素的统计分析发现,定义内容要素基本一致。说明通过统计分析获得数字孪生定义的条件已经基本具备。本文通过对数字孪生定义要素进行统计分析和内容研究,确定其定义的共性要素和核心要素,并建立基于共性要素的通用数字孪生定义模型,针对模型的核心要素进行词汇和词频的统计分析与词汇聚类,得到较为全面和相对准确的数字孪生定义。
1 数字孪生定义的采样
在EI数据库中,输入检索式“TI=‘digital twin’OR‘digital twins’AND LA=English NOT CO=China”(题名包括“digital twin”或“digital twins”,语言为英语,国家排除中国),共检索到包括期刊论文和会议论文等文献载体的有关数字孪生的文献2360篇。在互联网搜索引擎以及中国知网、万方、重庆维普等数据库中,输入检索式“‘数字孪生’或‘数字孪生体’”,共检索到包括科技报告、企业白皮书、标准等文献载体的有关数字孪生的文献99篇。从这些文献中,提取出典型的数字孪生定义64个,其定义的具体内容和来源机构见表1。在64个定义中,虽然有一些定义是来自同一个机构,但是却代表了这一机构不同时期不同提出人对数字孪生的理解和认识。
表1 数字孪生定义采样汇总(续表)
表1 数字孪生定义采样汇总(续表)
表1 数字孪生定义采样汇总(续表)
表1 数字孪生定义采样汇总(续表)
表1 数字孪生定义采样汇总(续表)
1.1 采样统计的可行性
有关数字孪生文献按发表时间的分布如图1所示。从图中可见,数字孪生的概念和内涵研究目前可能已达到峰值,甚至有所回落。64个典型数字孪生定义采样按发表时间的分布如图2所示。从图中可见,关于数字孪生定义的公开发表时间主要集中于2017~2019年,2020年之后的文献数量明显减少。对64个典型数字孪生定义内容要素的统计分析发现,定义内容要素基本一致。从文献基本内容来看,数字孪生已经在航空航天、机械电子、城市运行等行业从概念讨论发展到应用探索阶段,大量文献的研究重心已经从概念阐释向应用实践方向转移。此外,随着数字孪生如火如荼的发展,在2020年之后美国和俄罗斯相继发布了国家标准和行业标准。因此,综合对数字孪生相关文献发表规律、数字孪生定义文献发表规律、数字孪生定义内容要素的统计分析与内容研究判断,有关数字孪生定义的争论和探索呈现收敛趋势。说明通过统计分析获得数字孪生定义的条件已经基本具备。
图1 数字孪生文献按发表时间的分布
图2 数字孪生定义按采样发表时间的分布
1.2 采样统计的全面性和典型性
数字孪生64个定义来自于不同文献类型和不同来源单位,其分布如图3所示。
图3 数字孪生定义文献类型和来源单位的分布
在数字孪生定义的文献载体中,论文占比46.9%,主要来自于政府实施数字孪生规划、军方引领行业发展和高校理论研究过程中关于数字孪生的总结;产品手册、白皮书占比20.3%,主要来自于企业或咨询机构对数字孪生实践过程中得到的实施数字孪生的经验以及对数字孪生定义的总结;科技报告、PPT和讲座占比12.5%,主要来自于学会和咨询机构基于不同目的对数字孪生定义进行梳理和统计。在数字孪生定义的发布单位中,高校占比43.8,包括美国国防采办大学、宾夕法尼亚大学、密歇根大学等;企业占比35.9%,包括西门子、GE和ANSYS等大型公司;学会和机构占比14.1%,包括AIAA、德勤和IEEE等知名学会和咨询机构;政府和军方占比6.3%,包括NASA、美国空军和美国国家标准与技术研究院等代表国家意愿的权威机构。
从以上统计和分析可见,定义采样样本具有全面性和典型性。
2 数字孪生定义模型构建
通过内容分析对64个数字孪生定义中的实词进行拆分、归类和词频统计,发现在64个定义中有些内容要素相对统一。这些内容要素可以被视作为共性要素,主要集中在实体、虚体、动作、数据、方法、技术和手段、模型特征、关键结果(KR)和目标(O)共8种。数字孪生定义共性要素的词频统计结果见表2。
表2 数字孪生定义共性要素的词频统计结果
从表中可见,定义中涉及实体、虚体、动作和数据的4种共性要素占比较高,可以被看作共性要素中的核心要素。尝试建立基于共性要素的通用数字孪生定义结构模型,如图4所示。
图4 数字孪生定义结构模型
3 数字孪生定义统计与分析
由于自然语言没有统一标准,在词义相同或类似的情况下可以相互替换使用,为便于统计分析,依据基于共性要素建立的通用定义模型,采用词汇聚类与文献计量相结合的方法,对64个采样定义中的8种要素——实体、虚体、动作、数据、方法、技术和手段、模型特征、关键结果和目标进行词频和词汇统计与分析。
3.1 实体部分
经过对采样数据统计,涉及实体的数字孪生定义共47条,通过对原始数据进行提炼,得到论述内容“物理实体、物理对象、物理系统、物理实例、产品实例、实体、实例、物体”等(共8项),数字孪生定义实体部分的统计结果见表3,表中序号为定义文献的编号。
表3 数字孪生定义实体部分的统计结果
对整理结果进行归纳,把“物理实体”、“物理实例”、“物理对象”归纳为“物理实体”;把“实体产品”、“实体”、“实例”、“物体”归纳为“实体”。数字孪生定义实体部分聚类统计结果如图5所示。根据各项内容的词频及来源文献的重要程度,把表达实体部分的词汇最终统称为“物理实体”。
图5 数字孪生定义实体部分聚类统计结果
3.2 虚体部分
经过对采样数据的统计,涉及虚体的数字孪生定义共33条,得到论述内容“虚拟产品、数字飞行器、虚拟表达、数字模型、数字化描述、飞机的数字孪生模型”。对原始数据进行提炼,得到论述内容“虚拟实体、虚拟模型、虚拟产品、虚拟表达、虚拟实例、虚拟系统、虚拟结构、虚拟事物、数字实体、数字模型、数字表达、数字副本、数字系统、数字实例”等(共15项),数字孪生虚体部分统计结果见表4。其中,把“虚拟实体”、“虚拟实例”、“虚拟事物”、“虚拟结构”、“虚拟产品”、“数字实体”、“数字实例”、“数字副本”归纳为“虚拟实体”;把“数字表达”、“数字表征”、“虚拟表达”、归纳为“数字表达”;把“虚拟模型”、“数字模型”、“虚拟系统”、“数字系统”归纳为“虚拟模型”。数字孪生虚体部分聚类结果如图6所示。根据各项内容的词频及来源文献的重要程度,把表达虚体部分的词汇最终统称为“虚拟实体”。
图6 数字孪生数据部分统计结果
表4 数字孪生虚体部分统计结果
3.3 动作部分
经过对采样数据的统计,涉及动作的数字孪生定义共28条,得到论述内容“映射、连接、数字化映射、双向映射、交互映射、交互与共融、超写实映射、数据交互、镜像”等(共8项)。经整理归纳,将论述内容提炼为“连接、映射、交互、镜像”,数字孪生动作部分统计结果见表5。根据各项内容的词频及来源文献的重要程度,把表达动作部分的词汇最终统称为“映射和镜像”。
表5 数字孪生动作部分统计结果
3.4 数据部分
经过对采样数据的统计,涉及数据的数字孪生定义共25条,得到论述内容“数据、实时数据、机队历史数据、数据源、数据和信息、机队历史、动态数据、实时监测数据、数据/视图、模拟数据、维护和健康状态数据、飞行器状态、环境和特定历史数据、知识、历史和当前行为、历史和当前行为的数字概要文件”等(共15项)。经过对原始数据进行提炼,把“数据”、“实时数据”、“机队历史”、“机队历史数据”、“数据和信息”、“历史和当前行为”、“历史和当前行为的数字概要文件”、“动态数据”、“实时监测数据”、“数据/视图”、“模拟数据”、“数据、信息”、“数据源”、“维护和健康状态数据”、“飞行器状态、环境和特定历史数据”提炼为“数据”,此外“知识”仅出现1次,数字孪生数据部分统计结果见表6。由于大多数的表述都可以提炼为“数据”,因此把表达数据部分的词汇最终统称为“数据”。
表6 数字孪生数据部分统计结果
3.5 方法、技术和手段
经过对采样数据的统计,涉及方法、技术和手段的数字孪生定义共17条,经过对原始数据进行提炼,得到论述内容“数据分析、数据挖掘、数字技术、大数据、云计算、信息技术、可视化、移动互联网网、人工智能、仿真、建模”等(共12项),数字孪生方法、技术和手段统计结果见表7。经过对各种手段的概念的理解,将“数据分析、数据挖掘、数字技术、大数据”归纳为“数据技术”;将“云计算、信息技术、可视化、移动互联、人工智能”归纳为“信息技术”;将“仿真、建模”归纳为建模与仿真技术。数字孪生定义方法、技术和手段部分的聚类结果如图7所示。根据各项内容的词频及来源文献的重要程度,方法、技术和手段部分归纳为“数据技术、信息技术和建模与仿真技术”。
图7 数字孪生定义方法、技术和手段部分的聚类结果
表7 数字孪生方法、技术和手段统计结果
3.6 模型特征
经过对采样数据的统计,涉及模型特征包括2方面内容,即模型复杂度和模型精度。涉及模型复杂度的数字孪生定义共14条,得到论述内容“多物理场、多尺度、多概率仿真”、“多物理场、多尺度、多学科”、“多维度、多尺度、多学科、多物理场”等(共3项),数字孪生模型复杂度部分统计结果见表8。根据模型复杂度部分归纳为“多学科、多尺度、多物理场”。
表8 数字孪生模型复杂度部分统计结果
对于模型精度部分,经过对采样数据的统计,涉及模型精度的数字孪生定义共6条,论述内容有“高保真、高保真度、完全和精确的”,经过对原始数据进行提炼,得到论述内容“高保真”和“精确”,数字孪生模型精度部分统计结果见表9。由于“精确”强调的也是保真度高,模型精度部分最终归纳为“高保真度”。
表9 数字孪生模型精度部分统计结果
3.7 关键结果
经过对采样数据的统计,涉及关键结果的数字孪生定义共10条。经过对原始数据进行提炼,得到论述内容“反映状况、模拟行为、预测状态、控制过程、指导实践、支撑决策”等(共6项),数字孪生关键结果部分统计结果见表10。根据各项内容的词频及来源文献的重要程度,关键结果部分归纳为“预测状态和支撑决策”。数字孪生关键结果部分聚类统计结果如图8所示。
图8 数字孪生关键结果部分聚类统计结果
表10 数字孪生关键结果部分统计结果
3.8 目标
经过对采样数据的统计,涉及目标的数字孪生定义共12条。经过对原始数据进行提炼,得到论述内容“加快进度、提升指标、降低成本、提高效益”等(共4项),数字孪生目标部分统计结果见表11。根据各项内容的词频及来源文献的重要程度,目标结果部分归纳为“加快进度、提升指标、降低成本”。
表11 数字孪生目标部分统计结果
4 结论
通过前文对64种定义的分析提炼,可以得出以下数字孪生定义。
由核心要素可以得到数字孪生宏观定义:数字孪生是通过对物理实体建模与仿真,建立物理实体与虚拟实体的数据交互映射,从而以虚拟实体反映物理实体的状态。
由所有要素可以得到数字孪生的微观定义:数字孪生是采用先进建模与信息技术对物理实体进行多学科、多物理场、多尺度、多概率、高保真度的仿真,采用先进数据技术和信息技术实现物理实体与虚拟实体全生命周期的数据交互映射,以预测物理实体状态并支撑优化决策,从而加快进度、提高指标、降低费用。