基于专利知识图谱的产品创新概念设计方法
2022-12-05祝德刚莫振冲朱明仁
祝德刚,宫 琳,2+,唐 圣,谢 剑,莫振冲,朱明仁
(1.北京理工大学 机械与车辆学院,北京 100081;2.北京理工大学长三角研究院(嘉兴),浙江 嘉兴 314011)
0 引言
产品概念设计是需求驱动的创造性工作,其核心是将需求转化为产品功能,是通过从功能到结构的映射实现求解功能对应结构的过程[1]。在产品生命周期中,概念设计阶段决定了70%~80%的成本、性能和质量[2],因而起着至关重要的作用[3]。传统的产品概念设计依赖人的知识和经验,而互联网环境中积累了巨量的个性化、多样化的需求数据,新产品的复杂度也随之提高,受限于设计者个人经验和知识的局限性,产品设计过程中难免出现设计方案客观性不足、质量参差不齐以及设计效率低等问题。为提高设计质量、缩短设计周期、控制研发成本,国内外学者在概念设计理论与方法方面开展了大量研究[4],主要包括基于过程的方法、基于类比的方法和基于知识的方法。
(1)基于过程的方法 是以建立标准的设计过程模型为核心,指导设计者完成产品方案的设计。PAHL等[5]提出了经典的功能—结构(Function-Structure, FS)模型。考虑到FS模型的方案评价困难、主观性强等问题,又有学者提出了FS模型的改进模型,如功能—结构反复映射模型[6]、功能—行为—结构模型(Function-Behavior-Structure, FBS)[7],以及FBS的几种演化模型[8,9]。基于过程的概念设计方法还融入了不同的工具以提升设计效果,例如考虑顾客需求偏好的概念设计方法[10],基于矩阵的产品概念方案求解方法[11],基于相似性的产品设计模型[12]等。基于过程的方法为设计活动提供了流程框架,让设计活动的规范性大大提升,设计人员可以专注于最依赖创造性的环节,从而提升了设计过程整体的效率,但设计方案的创新性仍然对设计者有着绝对的依赖,并没有从根本上解决设计者的主观性带来的问题,且缺乏量化评价其创新性的手段。
(2)基于类比的方法 其基本思想是找到类比对象,然后模仿设计。此类设计理论并不追求标准化的设计流程、也不追求结构化的设计知识,而着眼于寻找与目标产品功能最相似的已有产品或案例,如基于模型的类比设计创新方法[13]、自适应仿生结构优化设计方法[14]、仿生几何重构方法[15]等。基于类比的方法将已有案例应用到设计活动中,并产生了许多非常成功的方案,且具有很强的创造力,但该方法的应用具有局限性,适用于对产品局部结构的设计改进,并不能直接用于产品的整体设计,且此类方法对不同类别产品的普适性不强。
(3)基于知识的方法 主要基于设计师的经验总结及科技成果的描述[16]。现代概念设计理论和方法认为设计知识是创新和解决设计问题的基础,MA[17]将创新定义为带来新的、令人惊讶的和有价值的想法,设计创新很大一部分是对已有知识的组合或转移,从而实现组合和改进设计;文献[18]指出ALTSHULLER提出的发明问题解决理论(TRIZ)的核心思想是通过分析大量专利,获取能够解决设计过程中创新问题的知识,帮助设计师完成决策。随着信息技术的发展,基于知识的设计方法涌现出越来越多的研究成果,虽然其中权威且通用的方法仍然有待讨论,但这些方法都在不同程度上提高了设计过程的客观性,突破了设计者自身的知识经验的局限性。
专利作为丰富的设计知识载体,如何更有效地利用专利知识已成为设计领域重要的研究方向[19]。目前,专利挖掘的相关研究主要包括基于关键词的挖掘方法以及基于主体—动作—对象(Subject-Action-Object, SAO)三元组的挖掘方法两类。基于关键词的专利挖掘的相关研究中,基于遗传算法和决策树的GeneX算法[20]、自动提取关键短语的关键短语提取算法(Keyphase Extraction Algorithm,KEA)[21]、摘要关键词有监督提取算法[22]等都取得了不错的知识挖掘效果。SAO三元组结构是为了提取关键词之间的语义关系而出现的,该结构弥补了关键词挖掘方法的缺陷[23]。许多基于SAO结构的专利挖掘模型都取得了优于关键词挖掘的表现,如YOON等[24]提出的基于语义分析的SAO结构专利知识网络。此外,一些研究还利用SAO结构描述文档中实体之间的相互作用[25],用SAO结构结合技术路线图SAO结构结合技术路线图(Technology Road Map, TRM)分析未来科技的发展方向[26]、结合形态学矩阵来提高形态分析的性能[27]、结合TRIZ演化趋势模型分析专利的发展趋势[28]、结合分析树模型识别核心组件[29]。SAO结构的有效性已被广泛论证,因此本文将SAO结构作为基本组成单元与专利知识图谱相结合,发挥了二者在知识挖掘中各自的优势。
知识图谱用实体—关系—实体三元组结构表达知识,具有良好的关系表达和可视化效果[30]。2008年,STERNITZKE等[31]断定社会网络分析在专利分析中有重要的应用意义。借助图论的方法,知识图谱可以用于分析、挖掘、构建、展示知识以及不同知识之间的关系[32],因而已经广泛应用于数据和知识的存储、管理、检索和展示中[33]。本文构建的专利知识图谱中,每个SAO结构均对应知识图谱中实体—关系—实体的三元组基本单元[34]。产品设计知识与知识图谱的结合,利于设计知识自动提取,且保证了设计知识的完整性和准确性。
知识图谱的构建可分为命名实体识别和关系抽取两个步骤。为避免耗费过多的人工、避免规则构造者语言能力的局限性,机器学习越来越多地被应用到这两个步骤中。命名实体识别中典型的方法包括:K最近邻算法和条件随机场模型[35]、使用词库辅助的最大熵算法[36]、利用自适应感知机的算法[37]、基于本体的文献知识图谱自动建模方法[38]等。关系抽取步骤中主要包括基于最大熵模型的无规则硬编码的实体关系抽取方法[39]、基于bootstrap算法的半监督学习方法[40]等。本文将在各项自然语言处理任务中表现优异的双向长短期记忆网络(Bi-directional Long Short Term Memory, BiLSTM)应用到专利知识的抽取中,相比于已有抽取方法,该方法精度更高。此外,本文基于句法和语义信息的关系模板抽取方法、图谱补全方法,均使得构建的专利知识图谱在知识的准确性层面更有优势,用于辅助提高产品设计的可靠性。
上述研究从建立更有效的设计方法、提高设计知识重用率等角度取得了大量的研究成果。不难发现,基于知识的方法逐渐成为主流的概念设计方法,但指数级增长的设计知识也为基于知识的设计方法带来了挑战。为解决大规模设计知识重用效率低、自动生成的设计方案创新性不强等问题,本文提出一种基于专利知识图谱的产品创新概念设计方法。该方法包含面向概念设计的专利知识图谱构建技术,该技术利用命名实体识别技术提取专利文本中的实体,基于句法和语义信息抽取实体间关系,并基于图论和逻辑回归补全了知识图谱。此外,该方法还包含基于专利知识图谱的产品概念设计方案生成技术,该技术以产品初始功能拆解和功能表达模型为输入,用网络分析的方式来求解产品功能对应的结构。最后,以自动引导车(Automated Guided Vehicle,AGV)为例,验证了方法的有效性。
1 基于专利知识图谱的产品创新概念设计方法框架
基于专利知识图谱的产品创新概念设计方法主要框架如图1所示,主要分为专利知识图谱构建过程和产品概念设计方案生成过程两部分。
本文第2章主要介绍面向概念设计的专利知识图谱构建过程,该过程首先从专利数据库中收集专利文献,从专利文献中提取实体(2.1节),然后通过功能关系抽取建立专利知识图谱中实体之间的关系,形成主体—动作—对象三元组(2.2节)。在专利知识图谱的构建中,采用SAO结构描述设计知识,并将其作为专利知识图谱的基本组成单元。通过命名实体识别、关系抽取、图谱补全等步骤,对专利中大量的知识进行建模和集成,方便了专利的定量分析。此外,该过程还包含基于图论和逻辑回归的图谱补全(2.3节),来补全专利中存在但图谱中缺失的设计知识。
本文第3章介绍基于专利知识图谱的产品概念设计方案生成过程,该过程首先参考功能—行为—结构映射模型,进行产品功能拆解(3.1节),在此基础上,利用已构建的专利知识图谱求解现有的产品功能(3.2节和3.3节),从而形成最优的产品设计方案。
2 面向概念设计的专利知识图谱的构建
建立包含大量设计知识的知识库,是实现产品设计自动化的前提。面向概念设计的专利知识图谱(简称专利知识图谱),是对专利中的设计知识进行提取和加工后形成的知识图谱,实现了大规模设计知识的集成,为挖掘、分析、展现设计知识之间的关系提供了便利,可以支撑产品概念设计。该图谱的构建过程如图2所示。
具体构建流程如下:
(1)输入专利数据。输入应综合考虑专利数量、格式规范等因素。
(2)采集专利名称、摘要和权利要求。其中包含专利中最重要信息,是构建专利知识图谱的基本语料库。
(3)训练Word2Vec模型[41]生成词向量。Word2Vec模型能够学习词汇上下文语义信息,并将词汇映射到向量空间,为后续命名实体识别、关系提取、关系推理等任务提供支持。
(4)针对设计知识的命名实体识别。利用自然语言处理算法模型,从专利文本中提取出专利知识图谱中“主体”和“对象”对应的实体,提高了设计知识识别的精度和效率,详见2.1节。
(5)支持关系标准化的功能关系提取。功能关系指主体-动作-对象语义单位中的“动作”,通常是动词形式。提取实体间的功能关系后即可生成专利知识图谱的三元组,详见2.2节。模板泛化、关系标准化等操作减少了图谱构建过程的人工参与,且提高了图谱的可用性。
(6)构建初始专利知识图谱。在三元组的基础上,以v表示网络节点(即实体),代表产品的“结构”和功能的“对象”;以e表示实体之间的功能关系(即边),构建初始专利知识图谱G=
(7)专利知识图谱的补全。以上步骤构建的专利知识图谱还存在一些关系的缺失。本文基于图论和逻辑回归的关系推理方法在图谱补全任务中的表现好于经典的TransE推理算法,详见2.3节。
以上针对设计知识的命名实体识别解决了设计知识的识别精度和效率不高的问题、支持关系标准化的功能关系提取解决了图谱可用性不高的问题,图谱补全则保证了图谱中设计知识的完整性,下面进行详细介绍。
2.1 针对设计知识的命名实体识别
鉴于SAO结构表征的设计知识在完整性、准确性、简洁性等方面的优势,本文以SAO结构为基础构建专利知识图谱。此外,本文BiLSTM模型的使用改变了需要人工制定大量规则的现状,提高了命名实体识别过程的自动化程度。命名实体识别的目的是从专利文本中提取“主体—动作—对象”语义单元中的“主体”和“对象”(SAO结构中的“S”和“O”,即“Subject”和“Object”)。“主体”指产品功能的载体,对应产品的零部件等结构;“对象”表示产品功能作用的目标,同样可以表示“主体”,识别流程如图3所示。
具体流程如下:
(1)将专利名称、摘要和权利要求文本构造为语料库。本文的命名实体识别以HIRTZ等[42]构建的流词库以及KURTOGLU等[43]建立的组件词库为基础,与词库词汇相同或相似的词是标注和命名实体识别的对象。
(2)将语料库分划为训练集与测试集。以十折交叉验证的方式将部分语料作为BiLSTM模型的训练集,其余语料库作为测试集,以保证算法的有效性。
(3)数据标注。采用BIO标注规则,“B-SN”为实体中第一个单词的标注,“I-SN”表示实体中其他单词,“O”为不属于该实体的单词,标注后的数据即可作为训练和测试的基础。
(4)训练BiLSTM模型。利用Word2Vec将文本转换为词向量形式,为模型提供数值型数据输入。经模型参数调优后确定模型的最佳参数组合,得出最优模型。
(5)将训练后的模型用于处理全部语料。模型工作流程如图4所示,首先将词向量输入BiLSTM模型的前向和后向LSTM层,最终输出命名实体识别结果,即实体集合。
以上步骤中,相较于典型的条件随机场等模型,BiLSTM模型在设计知识实体识别中的应用使专利挖掘的准确性和效率大幅提升,在本文实验中,命名实体识别任务的F1值达到了90.63%,表明模型在的实体识别中的查准率和查全率优秀。经以上步骤可以得到专利知识图谱中的节点,专利知识图谱中的“主体”和“对象”元素得以从专利的题目、摘要以及权利要求中提取出来,要构建专利知识图谱,还需要实体间关系的组织。
2.2 支持关系标准化的功能关系提取
提取实体间关系是构建实体—关系—实体三元组并进一步生成专利知识图谱的必要步骤。本文提出的基于句法和语义信息的模板抽取技术,是一种弱监督实体关系抽取技术。该技术解决了文本中关系非标准化的问题,为专利知识图谱的进一步分析提供了便利。提取流程图如图5所示。
具体步骤如下:
(1)词性标注与依存句法分析。依存句法分析主要通过分析句子中词与词之间的依存关系来揭示句子的句法结构[39],即提取句子中的主谓宾、定状补等语法成分。
(2)候选三元组提取。在依存句法分析的基础上,提取句子的谓语(verb)、主语(subj)和宾语(obj)。
(3)种子模板选择。初始种子模板由人工决定,其数量较小。以少量的标注数据作为种子集,将语料库中所有匹配种子集的关系实例作为正例,从正样本中提取模板进行模板泛化,可以得到兼容性更强的抽取模板。
(4)模板泛化与匹配。在模板泛化过程中,关系通过字符串相等匹配,头部实体和尾部实体(“头部”和“尾部”实体分别对应三元组开头和结尾的实体)采用正则表达式的形式匹配。泛化种子模板的部分信息可以扩展三元组的解空间,进而找到更多的实体—关系—实体三元组。
(5)新的种子模板生成。利用泛化的种子模板匹配候选三元组,将这些三元组作为新的种子模板。同时,这些三元组被添加到实体—关系—实体三元组数据库中,为后续筛选过程提供数据。
(6)模板相似性计算。为减少种子模板数据库的冗余,当新增模板已存在或存在具有高度相似性的历史模板时,丢弃新模板并继续搜索种子模板。
(7)关系标准化。关系标准化可以避免同义词的影响,减少数据冗余。本文利用HURTZ等[42]建立的功能标准词库对提取的功能关系进行修正,使之更适合概念设计过程的表述形式。该过程主要计算关系词和标准词之间的相似度,以相似度最高的标准词取代原始关系词。
功能关系抽取实现了专利知识图谱中实体间连边的构建,将离散的实体元素由具有实际含义的关系关联起来。种子模板的使用减少了构建过程中的人工参与,功能关系的标准化使专利文本中的设计知识真正转化为可以定量分析的知识库,知识图谱的补全将进一步提升该知识库的完整性。
2.3 基于图论和逻辑回归的专利知识图谱补全
专利中往往省略常识性的知识,主体与对象之间的关系并不会全部显式地体现在文本中。因而从专利中挖掘到SAO结构的设计知识难免存在着“A”(即Action)的缺失,在专利知识图谱上体现为节点间连边的缺失,这对产品设计方案的可行性有严重的影响。因此,在构建初始专利知识图谱后,还需补全操作。
本文利用一种双重随机游走的方式预测网络中缺失的链路。第一重随机游走主要基于网络结构,利用结构信息预测网络中节点间的传播概率;第二重随机游走主要基于相似性,利用节点的传播概率和语义特性来获取存在链接的可能性。最后,利用逻辑回归模型将预测所得的未知关系分类,完成专利知识图谱的补全。基于图论和逻辑回归的专利知识图谱补全流程如图6所示。
2.3.1 基于网络结构的随机游走
随机游走是一个描述随机游走者访问节点序列的马尔可夫链,基于网络结构,为随机过程定义转移概率矩阵M=[mij]n×n,计算公式如下:
mij=aij·D(i),
(1)
D(i)=1/d(i)。
(2)
式中:aij为邻接矩阵的元;当节点i与节点j之间的边eij存在时,转移概率mij等于起始点vi的度d(i)的倒数,当eij不存在时,mij等于0。因此,从节点S出发,每一条出边都具有相同的概率,且所有出边的概率之和为1,符合随机过程。
(3)
每次随机游走后,都会得到一个概率分布,该分布又可作为下一次游走的输入,当t→∞或满足一定前提条件时,该分布将收敛到一个稳定值。随机游走的收敛条件如下:
k=1~N,Δpi<θ。
(4)
即认为当传播概率的变化值小于阈值θ时,随机游走过程收敛。以上基于网络结构的随机游走,可以将图谱中关系缺失的节点关联起来。传播概率从网络结构的角度反映了链路生成的概率,如果能将节点的语义信息也应用到链路预测过程中,则可以进一步提高网络链路预测的准确性。为此,进行了基于相似性的第二重随机游走。
2.3.2 基于链接相似性的随机游走
对于节点vi和vj,它们的邻域分别为L(vi)和L(vj),用Sij表示链接相似性,即两个节点连接同一个节点且产生链路的概率,如图7所示,构造随机游走过程,当Sij在整个网络上达到稳定状态,Sij即为最终节点链路强度的预测结果。vx和vi的传播概率为pxi,vy和vj之间传播概率为pyj,则vx和vy之间的Sxy可以通过传播概率pxi和pyj影响vi和vj之间的Sij。
因此,定义基于余弦相似性的随机游走规则如下:
∑vy∈L(vj)(pi+pj);
(5)
pi=∑vx∈L(vi)pxi,pj=∑vj∈L(vj)pyj。
(6)
随机游走的收敛条件如下:
vx∈L(vi),vj∈L(vj),ΔS<θ。
(7)
经过两重随机游走,可以认为当前的专利知识图谱中已经具有比较完备的实体与节点组合。随机游走依据概率推测出节点间存在关系的可能性,还需要对推测出的关系做进一步的分类,使关系具有实际意义。
2.3.3 基于逻辑回归的未知关系分类
完成随机游走后,可以得到节点间的链路强度Sij。当某节点连接到另一节点的链路强度大于与其连接的边的最大链路强度,则认为该链路是专利知识图谱中的隐藏边。然后,利用逻辑回归模型对这些边的分类进行预测,确定每条边的功能关系。
本文将二元逻辑回归模型推广到关系分类的多分类任务中,若x为训练样本,y为对应类别的真实值,在Logistic分布的基础上,二元逻辑回归模型满足x的线性函数。令K表示类别数量,β=[w,b],x=[x,1],推导得多元分类逻辑回归模型的形式如下:
(8)
通过与图谱关系推理任务中经典的TransE模型的对比实验(以公开的WN18为数据集、HITS@10指标为评价标准),在数据集中全部40 943个实体、13类节点中,TransE模型在HITS@10指标下的准确率为71.2%,而本文基于图论和逻辑回归的专利知识图谱补全可以达到77.4%的准确度,其有效性得到了支持。依照逻辑回归的方法对未知关系进行分类,将推测出的实体间关系补充到初始专利知识图谱中,得到一个完善的专利知识图谱,进而对概念设计提供支持。
3 基于专利知识图谱的产品概念设计方案生成
专利知识图谱的构建,为产品概念设计方案的生成提供了可靠的、可量化分析的设计知识库。本文采用一种基于功能—行为—结构映射模型(FBS)的产品功能拆解,以及融合功能流图和组件配置流图的产品功能表达模型作为方案生成的输入。专利知识图谱作为设计知识的载体,产品功能拆解及功能表达模型作为输入,在二者的基础上开展概念设计工作,不仅提升了效率,还使得设计方案的生成(即求解功能对应的结构)也变得有据可依。
此外,本文从网络拓扑结构的角度出发,定义了一种创新性定量指标。在基于专利知识图谱的产品概念设计方案生成过程中,首先将一种产品的功能拆解与功能表达模型作为产品初始设计方案,在此基础上利用专利知识图谱以相似性匹配的方式搜索功能对应的结构解集合,进一步以方案创新性为依据筛选结构解,实现新的设计方案的生成,即可对现有设计作出改进与创新。基本流程如图8所示。
3.1 融合功能流图与组件配置流图的产品功能表达模型构建
在基于专利知识图谱的产品概念设计方案生成技术中,首先需要根据已有产品建立产品功能拆解,并利用产品功能表达模型明确功能之间的联系,以此作为功能求解的输入。
3.1.1 基于FBS模型的产品功能拆解
功能—行为—结构映射模型可以帮助设计者构建产品功能拆解。在该模型中,功能表示设计的原因和产品的具体用途;结构是产品功能实现的基础,描述了设计对象的构成;行为描述了结构是如何实现功能的,是功能与结构之间的桥梁。产品功能拆解如图9所示,产品的结构可以再一次拆分为子结构。与设计者直接利用设计经验直接完成的功能细分相比,由“结构”和“行为”信息确定的“动作—对象”的功能表述更加简洁且准确。
3.1.2 产品功能表达模型
KURTOGLU等[43]提出设计方案最重要的信息是方案代表的功能和形式,并利用功能流图和组件配置流图分别反映方案的功能和形式,该方法通过图语言对设计方案进行建模。功能流图可以表达产品各功能点之间的联系,组件配置流图可以表达产品功能对应的结构解。本文融合功能流图和组件配置流图构建一种产品功能表达模型,如图10所示。该模型包含3个重要的信息类别:功能、结构和流信息。其中,功能是一组粒度相同的功能集,而产品功能拆解中所有以叶节点表示的功能都具有相同的粒度。以这些功能为产品方案表达模型的主体,采用黑箱法对各功能建模,并结合产品功能拆解确定各功能的结构。最后,根据物质、能量、信息流,设计人员将功能串联起来,形成最终的产品功能表达模型。
3.2 基于专利知识图谱的功能求解
产品功能求解是概念设计方案生成的关键环节,也是计算式设计方法中的核心步骤[44-45]。专利知识图谱的功能求解过程可以转化为搜索特定关系和尾部实体,并提取相应的头部实体(即三元组开头的实体)的过程。满足要求的头部实体集合即功能求解的候选方案,求解的具体过程如图11所示。
具体步骤如下:
(1)输入产品功能和专利知识图谱。产品所有功能描述记为F=[Verb,Noun],生成功能集合A={F1,F2,…,Fn}。其中,Verb表示功能的“动作”,以及Noun功能的“对象”。
(2)求解功能F=[Verb1,Noun1]。从专利知识图谱中搜索与Verb1含义相近的功能关系的边,提取这些边对应的三元组,生成候选三元组集合B。
(3)为B中的每个三元组“尾部实体”生成词向量,以及Noun1的词向量。用余弦相似度计算“尾部实体”和Noun1的相似度,如果相似性小于0.9,从B中剔除相应的三元组。
(4)从B中提取剩余三元组的“头部实体”,组成功能F1的候选解方案集合C1,如果C1是空集,则在C1中添加功能的结构解。
(5)重复步骤(2)~步骤(4),直至集合A中的所有功能完成功能求解过程。
3.3 基于网络分析的创新性评价与概念设计方案生成
得到产品功能对应的结构解集合后,在已建立的专利知识图谱的基础上,定义方案创新性评价指标,进而选择最优结构解。其中,创新性求解步骤采用网络分析方法完成。
3.3.1 设计方案创新性的定义
知识的融合指不同领域的知识跨越组织边界,在更广的范围内产生交叉与渗透融合,其本质仍然是一种技术创新[46-48]。一般地,网络中创新性较高的节点都是信息交互的中心,这些节点在网络传播信息时较为集中。相同领域或相同类型的点往往紧密相连,聚集为一个具有较强连通性的社团,信息交互中心通常位于每个社团的边缘,并与所有社团相关联。它源于不同领域的交叉,包含领域之间共通的信息。在图12中,节点H是信息交互的中心,与节点A、B、C区别在于与其他节点的连边数量(即节点度)。节点A、B和C连接社团中的大多数节点,而节点H只连接社团中的少数节点,起到桥梁的作用。观察所构建的专利知识图谱,可以认为在专利知识图谱的信息交互中心相关领域交叉专利多、包含的设计知识创新性高,且兼顾了方案的可行性。
假设专利知识图谱是一个无权异质网络,表示为G=
(9)
(10)
式中:网络G2为从原始网络G1中移除节点v及其连接的边后获得的新网络;dvt为v到t之间的最短路径长度;N为网络中的节点总数;edg(v)表示节点v的度,即节点的连接边数;EF(G)表示网络信息传播的效率;EF(G1)-EF(G2)计算删除特定节点后网络信息传播效率下降的程度。因此,节点创新性I与节点的度成反比,与删除节点后网络信息传播效率下降程度成正比。
3.3.2 创新性评价与设计方案输出
实际的生产活动中,并非任何结构解都可以实现组合和拼接,设计者需要依据产品的功能拆解和功能表达模型来筛选功能的结构解,剔除无法实现相应输入输出流的结构来保证最终产品设计方案的有效性。该过程如图13所示,包括以下步骤:
(1)将专利知识图谱G=
(2)对于每个功能Fi,计算其候选解集合Ci中每项结构解Sij的创新性,并基于创新性对结构解排序。
(3)从功能F1开始,确定C1最具创新性的结构解S1,max,判断S1,max是否能够实现原始产品功能表达中F1对应的输入输出物质、能量、信息流。若S1,max不满足要求,则从C1中删除S1,max,并重复此过程;若S1,max满足要求,则视其为F1的最终求解方案。
(4)重复步骤(3),直到所有功能确定最终求解方案。将初始产品功能的结构解替换为功能的最终求解方案,完成产品的概念设计与改进。
基于网络分析的设计方案创新性评价兼顾了设计方案的创新性与可行性,下面以AGV的设计改进为例,对基于专利知识图谱的产品创新概念设计方法进行验证。
4 实例验证:自动引导车的概念设计方案生成
本文开发了一个基于专利知识图谱的概念设计辅助系统以验证上述方法。该系统主要分为专利管理、实体—关系—实体三元组提取、功能求解与创新性计算3个功能模块。
4.1 AGV功能拆解与功能表达模型构建
AGV是一种具有安全防护和各种移动运输功能的运输车辆,其结构主要分为机械系统和电气系统两大类。其中,机械系统包括驾驶导航模块和载体模块,电气系统包括安全控制模块、通信模块、能量模块和辅助模块。为了完成现有AGV产品的设计改进,需要输入其初始功能拆解。由已有资料可知,AGV的功能拆解和功能表达模型分别如图14和图15所示。由于专利数据、功能标准词库、流词库以及组件词库均为英文,AGV的功能拆解和功能表达模型采用英文描述。
4.2 AGV专利知识图谱的构建
在已有AGV整体功能拆解以及功能表达模型的基础上,进一步构建AGV专利知识图谱,以支撑进一步的产品概念设计,具体步骤如下:
(1)获取专利文档。在USPTO数据库中检索与AGV相关的专利,检索得到相关专利83.3万项,选取2010年之后的约38万项专利作为原始数据。文本预处理后,共获得1 095万句,包含1.8亿词。
(2)训练Word2Vec模型。为获得更准确的词向量表示模型,在专利文献的基础上,添加维基百科的英文语料库,获得了包括981万种类型和2.7亿词的Word2Vec模型训练数据。模型训练Word2Vec模型,词向量维数设置为100。
(3)命名实体识别。从38万份专利文件中随机选取16万项专利作为训练数据,完成针对设计知识的命名实体识别任务。根据HURTZ等[42]构造的流词库,结合Kurtoglu构造的组件词库,选取与词库中的词具有相似意义的专利中的词作为命名实体,获得21万个实体。根据BIO标注规则来标注专利文档,用标注后的文档训练BiLSTM模型,再用模型自动完成剩余22万项专利的命名实体识别与标注。最后,获得了258万个专利知识图谱中的实体。
(4)提取实体—关系—实体三元组。通过依存关系分析和依存句法树修剪,获得466万个候选三元组。在候选三元组中,基于种子自搜索得到73万个实体—关系—实体三元组。基于功能标准词库,完成了实体—关系—实体三元组的功能关系标准化。最后,得到了646 622个实体—关系—实体三元组,其中包括184 388个实体。
(5)图谱补全。利用3.3节中的基于图论和逻辑回归的关系推理模型完成专利知识图谱的补全过程,其中多分类逻辑回归模型采用概率阈值为0.9,获得隐藏的实体—关系—实体三元组22 676个(即较补全前的图谱增加了22 676条边),增加的关系数量达到补全前的3.5%。补全后的专利知识图谱包含的三元组个数为669 298条。以单元控制“unit control”为例,专利知识图谱与单元控制相关的部分如图16所示。
4.3 产品功能求解及设计方案生成
基于初始产品功能表达,已知需要求解的目标功能为Provision rotary(提供旋转)、Move object(移动物品)、Regulate rotary(调节旋转)、Stop rotary(停止旋转)、Emit location(发射位置)、Transport object(运输物品)、Position object(定位对象)、Secure object(保护物品)、Regulate status(调节状态)、Transfer signal(传输信号)、Supply electricity(供电)、Transfer electricity(输电)、Indicate voice(指示声音)、Display electricity(显示电量)和Prevent collision(防止碰撞)。设定相似度阈值为0.9,依据本文3.2节中的功能求解步骤完成AGV的功能求解,部分解集如表1所示,每个目标功能可以求得很多对应的功能解,将这些功能解组合,可以得到大量产品概念设计方案。经3.3节中所述创新性评价步骤的选优,得到结果如表2所示。
表1 自动引导车功能解与创新性(部分)
表2 功能求解结果
最终,AGV的产品概念设计方案如图17所示,通过3D建模形象化表示AGV的设计方案,3D模型图如图18所示。
从功能求解结果来看,生成的概念设计方案在AGV共15个功能中的发射位置、运输物品、定位对象、保护物品、传输信号、供电、输电、显示电量等共8个功能对应的结构做出了创新性改进,改进的结构比例达到53.33%,且改进的结构创新性均有所提升,改进后的概念设计方案总体创新性由初始的248 638.949 9提升到了406 959.745 9,提升比例达到63.67%。需要说明的是,这些创新性结构的求解并未考虑产品的成本等因素,但生成的设计方案仍能在很大程度上对现有产品进行改进,突破产品新意不足的瓶颈。
5 结束语
本文在前人的研究基础上,提出一种基于专利知识图谱的产品创新概念设计方法。该方法包括专利知识图谱的构建和基于专利知识图谱的产品概念设计方案生成两个步骤。最后,以AGV为例,验证了该方法的可行性,且大幅提高了AGV概念设计方案的创新性。本文的主要结论如下:
(1)本文提出的面向概念设计的专利知识图谱构建过程,将设计知识以SAO结构的形式与知识图谱结合,兼容了SAO结构的完整性、简洁性和知识图谱便于知识管理和分析的特性。针对设计知识的命名实体识别、支持关系标准化的功能关系提取、基于图论和逻辑回归的图谱补全等技术,使得图谱所包含的专利知识更加准确且丰富,实体间关系相比于TransE等经典推理算法得到的结果更加完善,因而图谱的可用性更强。
(2)本文提出的基于专利知识图谱的产品概念设计方案生成过程,以网络分析方法定量评价了设计方案的创新性,其创新性计算结果可以为改进设计方案提供指导,从而大幅提升产品设计的创新性。相比于启发式设计及产品特定结构的改进,该方法对已有产品的整体创新提供了新的思路和定量评价的依据,很大程度上改善了设计方案创新性依赖主观定性评价的现状。
(3)本文提出的以专利知识图谱辅助概念设计的方法,不仅其专利知识图谱的构建过程、产品功能求解过程大大减少了人工参与,还包含以该图谱辅助概念设计可以克服设计者自身知识、经验、主观认知的局限性,同时提高了专利分析的效率。该方法不仅可以减少设计者的重复性劳动,还可为设计方案的创新性、可行性提供强有力的支撑。
虽然本文提出的方法在构建设计知识库的全面性、准确性和设计方案的创新性等方面改进了产品概念设计过程,但概念设计仍然是一个高度复杂的、综合的过程,在更多领域的产品设计中,该方法还有待验证。此外,虽然本文用到的NLP模型的性能优异,其准确性和时间复杂度已可以满足专利知识图谱构建的需要,但计算机领域的研究发展迅速,可以预见,如果将性能更好的自然语言处理(Natural Language Processing, NLP)模型应用于该方法,会使构建的准确性和效率更高。需要说明的是,该方法侧重对现有产品的功能结构的改进,对于未知产品的设计研发还有一定的局限性。在未来研究中,将考虑挖掘潜在的用户需求,重点关注用户可能存在但尚未提出的需求,生成全新的产品功能以及相应全新的功能结构解决方案。