一种三级技术机会识别方法及其应用
——基于SAO语义分析和多维技术创新地图
2021-10-18冯立杰曾小红王金凤
冯立杰,曾小红,王金凤,张 珂
(1.郑州大学 管理工程学院,河南 郑州 450001;2.上海海事大学 自贸区供应链研究院,上海 201306)
0 引言
新冠病毒疫情叠加的国内外环境使得市场竞争日趋复杂,企业需要精准识别技术机会,不断提升创新水平,抢占市场先机、夺取竞争优势[1-2]。然而,鉴于技术机会的隐蔽性,企业需要采用科学方法和工具加以挖掘[3]。作为技术创新的重要载体[4],专利可为技术机会识别提供丰富信息,但如何从专利中挖掘有效信息从而精准识别技术机会是学界关注的热点和难点。
作为专利分析的重要手段,关键词分析和SAO语义分析等文本挖掘技术为技术机会识别提供了重要支撑[5]。不同于统计分析视角下的专利计量研究[6-7],关键词分析方法虽然细化了挖掘技术信息的粒度[8-9],但难以反映技术系统中的关键内容及单词间的关系,导致企业在剖析技术现状和预测未来趋势时容易产生偏差[10-11]。而SAO语义分析法则可以挖掘专利文本中的SAO结构,在获取技术关键词的同时高效甄别语句要素间的语义关系[12],以弥补关键词分析的不足。如Wang等[13]将SAO语义分析纳入形态分析过程,用来挖掘相关技术组成、技术属性及其关联性,从而减少了技术机会识别对专家的过度依赖;Kim等[14]将SAO结构划分为要素或领域、目的或效果,拓宽了技术机会识别过程中技术信息挖掘范围;李乾瑞等[15]利用SAO语义分析挖掘技术问题和解决方案,结合技术路线图识别新兴技术创新机会;郭俊芳等[16]基于SAO语义分析获取SAO结构链,分析功能属性、产品部件、材料组成及技术性能之间的联系,有效提高了技术机会识别效率;黄鲁成等[17]通过计算SAO语义相似度判别论文或专利相似度,利用多维尺度分析聚类技术主题确定技术机会。
综上所述,现有基于SAO语义分析的技术机会识别研究存在以下不足:①对技术信息的挖掘多侧重于从SAO结构中提炼技术组成和要素、问题和对策、功能和效果等,较少考虑空间表征、环境特征、映射机理等,难以精准判断具象技术的整体特征;②多侧重于探讨提高专利相似性的计算精度或减少专家干预,较少考虑技术信息之间的内在联系,在一定程度上影响技术机会识别准确度;③利用SAO语义分析获取的技术机会只是对现有要素的直观呈现或组合,较少考虑技术要素迭代变换及如何生成具体技术创新方案,致使识别出的技术机会数量有限且概念性较强。基于此,本文提出一种融合SAO语义分析和多维技术创新地图的技术机会识别方法,以多维技术创新地图创新维度为导航,将SAO结构承载的技术形态划分为创新维度和创新子维,构建基于创新维度的三级语义知识库,从而系统挖掘技术信息,并清晰呈现技术信息之间的内在联系;在此基础上,利用多维技术创新地图创新法则和维法耦合原理,对三级语义知识库中的技术形态、创新子维、创新维度进行三级技术机会识别,以获取具有潜在开发价值的技术创新方案,为企业精准识别技术创新机会提供参考。
1 理论基础
1.1 SAO语义分析
SAO语义分析是一种事实导向型文本建模技术,起源于TRIZ(Theory of Inventive Problem Solving,发明问题解决理论),后衍生为识别句子中主语、谓语和宾语等语义要素及其关联关系的文本挖掘法。利用SAO语义分析法不仅可以获取句子中的关键词,还可以挖掘语义关系[18]。
对于某种具象技术而言,通过抽取SAO结构可获得多重系列相关信息。从技术系统视角看,主语和宾语表示技术要素或组件,而谓语则表示技术要素或组件间的关系[19];从问题与对策视角看,宾语表示创新问题,主语表示解决对策,而谓语则表示对策解决效果或影响[20-21];从技术和功能视角看,主语表示实现相应功能的技术,而谓宾结构则表示技术实现功能[22]。
综上所述,本文利用SAO语义分析,从主语、谓语及宾语等语义要素中挖掘目标领域专利中的技术信息和关联关系,为利用多维技术创新地图开展技术机会识别提供有效的数据支撑。
1.2 多维技术创新地图
在融合TRIZ、SIT、检核表法和专利功效矩阵等创新理论的基础上,多维技术创新地图将创新的本质解读为利用特定创造方法对创新对象进行重构[23],继而衍生出创新维度和创新法则两大要素,如表1和表2所示。
表1 创新维度
表2 创新法则
将创新维度和创新法则耦合的维法耦合原理是利用多维技术创新地图开展技术创新活动的基础,即利用创新法则作用于创新维度及其子维,通过对技术要素的迭代、变换与重构生成具体技术创新方案[24],如图1所示。从中可见,维法耦合的4种形式包括单维-单法、多维-单法、单维-多法和多维-多法[25],通过不同创新维度和创新法则的耦合变换,可以得到丰富多样的技术创新机会。
图1 维法耦合原理
综上所述,本文结合多维技术创新地图,从多个角度解构利用SAO语义分析获取的技术信息及其内在联系,进而识别具体技术机会。具体而言,以创新维度为导航,对SAO语义结构承载的技术形态进行创新维度和创新子维划分,在明确技术创新方向的基础上,利用创新法则和维法耦合原理对技术形态、创新子维及创新维度耦合进行变换,获取一系列技术创新方案,为准确识别技术机会提供参考。
2 技术机会识别方法框架
在融合SAO语义分析和多维技术创新地图的基础上,本文技术机会识别过程如图2所示。
图2 基于SAO语义分析和多维技术创新地图的技术机会识别过程
2.1 专利数据获取
专利数据获取过程包括:①确定技术领域,聚焦特定技术问题;②依据技术领域的特定表达方式和专家知识制定检索表达式;③从专利数据库中检索专利,获取形式简洁规范、蕴含丰富技术信息的专利摘要作为后续分析数据源;④通过人工筛选剔除无效专利后,保留与特定技术问题密切相关的专利数据。
2.2 SAO结构抽取
SAO结构抽取过程包括:①将文本切分为单个句子并分词;②标注词性、标记依存关系,将主语(S)和宾语(O)抽取为名词或名词短语以获取丰富的技术信息,将谓语(A)抽取为单个动词以提高抽取效率;③清洗结果包括去除无意义的停用词、去除无关语义结构、将缩写或简称转换为完整形式、词干提取和词形还原。在获取SAO结构后,通过人工筛选与技术主题密切相关的语义结构,将其作为技术形态的载体,为构建基于创新维度的三级语义知识库提供支撑。
2.3 基于创新维度的三级语义知识库构建
2.3.1 创新维度初始词典构建
对于特定技术问题,借助本体思想,可挖掘具有共享性、形式化和结构化特征的明晰知识结构[26];借助专家知识,可挖掘无法通过语义发现的维度属性关系,形成分析具象技术信息的基本范式。首先,根据专家访谈获取的技术问题特征及专利确定相关创新维度;其次,基于帕累托法则、专利知识累积效应[6],结合实践经验,选取包含丰富技术信息、近几年均匀分布的专利作为样本专利;再次,基于创新维度内涵、专家经验及样本专利SAO结构,按照词频较高、形式简洁、技术信息丰富及表述完整原则,从样本专利文本中获取创新维度特征词;最后,依据“存异并同”标准,即不同创新维度特征词不重复且存在显著差别、同一创新维度特征词具有相同维度属性,明确创新维度初始词典的结构特征。根据研究团队多年实践经验,本文总结出各创新维度的规范化表达形式,如表3所示。
表3 创新维度初始词典规范化表达形式
2.3.2 创新维度划分
根据SAO结构形式,空间、环境、结构、材料、动力体系和时序等创新维度可从S结构和O结构中获取;机理维可从S结构、A结构和O结构中获取;功能维可从AO结构中获取;人机关系维可从S结构、O结构和AO结构中获取。基于此,根据SAO结构与创新维度特征词的语义相似度划分创新维度。本文采用基于信息内容的相似度计算方法,计算单个词的相似度公式为[27]:
(1)
式(1)中,Sim(Wi,Wj)表示词Wi与词Wj之间基于Wordnet的语义相似度;IC(Lcs)表示两个词的共性;IC(Wi)、IC(Wj)分别表示词Wi和词Wj的信息内容含量。
对于代表S结构或O结构的两个名词词组N(a)={N(a_1),N(a_2),…,N(a_m)}和N(b)={N(b_1),N(b_2),…,N(b_n)}(m和n均为整数且m、n≥1),其语义相似度可用笛卡尔积的形式展开计算,相似度矩阵为[28]:
(2)
式(2)中,Sim(N(a_i),N(b_j))为两个名词词组中词N(a_i)与词N(b_j)的语义相似度,可用公式(1)计算。
在得到矩阵M中所有Sim(N(a_i),N(b_j))值后,即可计算词组Na、Nb之间的语义相似度。计算过程为:找出M中语义相似度最大的元素Sim(N(a_i),N(b_j)),将其添加至集合G中,删除该元素所在行与列的所有值;重复前述过程至矩阵M为空;最终有G={Sim1,Sim2,…,Siml},(l为集合G中的元素个数,其值为m和n中的较小值);在标准化处理集合G中的元素后,可得到S结构或O结构的语义相似度,计算公式为[28-29]:
(3)
对于AO结构,语义相似度计算公式为[23]:
(4)
式(4)中,Sim(AO(i),AO(j))表示AO(i)和AO(j)的语义相似度;Sim(A(i),A(j))表示谓语A(i)和谓语A(j)的语义相似度;Sim(O(i),O(j))表示宾语O(i)和宾语O(j)的语义相似度。
若某语义结构仅与某个创新维度特征词存在语义相似度,则判定其与该创新维度相匹配;否则,判定其与语义相似度最高的创新维度相匹配;若某语义结构与特征词均无语义相似度,则由专家判断该语义结构是否属于现有创新维度,属于现有创新维度时将该语义结构划分至对应创新维度,并更新特征词,否则新建创新维度和特征词。通过多次迭代,将所有技术形态划分至相应创新维度,从而确保基于创新维度的三级语义知识库完整。
2.3.3 创新子维划分
利用式(1)~(4)分别计算各创新维度下技术形态的语义相似度,形成技术形态语义相似度矩阵。在此基础上,将各技术形态的语义相似度矩阵分别输入Gephi软件,利用该软件的模块化功能对各创新维度的技术形态进行主题聚类。Gephi软件的模块化功能可通过连边稠密和稀疏对主题相似的词或词组进行聚类[29-30]。其中,连边稠密的主题词为同一类别,而连边稀疏的主题词为不同类别。因此,该模块化功能可将语义相似的技术形态划分至同一创新子维,并区分不同技术形态。
2.3.4 基于创新维度的三级语义知识库
基于创新维度的三级语义知识库包括创新维度、创新子维、技术形态3个层级,可从不同层面和不同粒度展示特定领域的技术信息及其内在联系。创新维度在宏观层面上描绘技术系统全貌,创新子维在中观层面上对技术系统特征进行阐释,而技术形态在微观层面上反映具体技术信息。基于创新维度三级语义知识库可为发现技术创新方向和识别具体技术机会提供清晰指导。
2.4 基于维法耦合的三级技术机会识别
根据技术问题特征,选择相应创新维度和创新法则,利用维法耦合原理对三级语义知识库中的相关技术形态、创新子维及创新维度耦合进行变换,以实现三级技术机会识别。一般而言,随着层级升高,可供选择的技术机会数量增多。由于层级越高的技术机会涉及的技术知识越广,因此识别难度增加,但创新性增强。
2.4.1 技术形态层级技术机会识别
根据技术问题特征,在某一创新维度的创新子维中选择一个或多个技术形态,再选择一个或多个创新法则耦合变换可得到技术形态层级技术机会,如图3所示。其中,Di表示任意创新维度(1≤i≤9),dij表示Di的第j个创新子维(1≤j≤p),Mijk表示dij的第k个技术形态(1≤k≤q),Vt表示第t个创新法则(1≤i≤9)。由图3可知,该层级技术机会数量有限,取值范围为T1≤(29-1)*(2q-1)。由于仅对单一技术形态进行耦合变换,该层级技术机会涉及的技术知识较少,因而容易识别,但创新性较弱。
图3 技术形态层级技术机会识别
2.4.2 创新子维层级技术机会识别
根据技术问题特征,在某一创新维度下选择两个或两个以上的创新子维及其相应技术形态,再选择一个或多个创新法则耦合变换得到创新子维层级技术机会,如图4所示。其中,di1和di2表示某创新维度Di的任意两个创新子维,Mi1k、Mi2k表示创新子维di1和di2的任意技术形态。由图4可知,较之技术形态层级,该层级技术机会数量有所增加,取值范围为(29-1)*(2q-1)≤T2≤(29-1)*(2p-1)*(2q-1)。由于是对一个创新维度下多个创新子维进行耦合变换,该层级技术机会涉及的技术知识更广,因而识别难度加大,但创新性有所增强。
图4 创新子维层级技术机会识别
2.4.3 创新维度层级技术机会识别
根据技术问题特征,选择两个或两个以上相关创新维度、相应创新子维及技术形态,再选择一个或多个创新法则耦合变换可得到创新维度层级技术机会,如图5所示。其中,D1、D2表示任意两个创新维度,d1j、d2j分别表示D1和D2的创新子维,M1jk、M2jk分别表示d1j和d2j的技术形态。由图5可知,较之创新子维层级,该层级技术机会数量有所增加,取值范围为(29-1)*(2p-1)*(2q-1)≤T3≤(29-1)2*(2p-1)*(2q-1)。由于跨越多个创新维度,该层级技术机会涉及的技术知识最广,因而识别难度最大,但创新性最强。
图5 创新维度层级技术机会识别
3 应用分析
作为简化产品制造程序、缩短研制周期、具有划时代工业革命意义的增材制造技术,3D打印近年来在智能制造领域发挥越来越重要的作用。然而,现有3D打印机大多存在打印质量低下的问题,因此3D打印机亟需技术创新以提高打印质量,进而推动3D打印技术快速发展。本文将基于SAO语义分析和多维技术创新地图的技术机会识别方法应用于3D打印机领域,可为解决3D打印机技术创新问题提供参考。
3.1 专利数据获取
鉴于美国是3D打印的全球领先者,且美国专利和商标局USPTO数据库提供了统一、规范的专利文本。因此,本文以USPTO数据库为检索平台,检索相关专利。检索时间为2021年1月3日,检索时间范围为1991-2020年,检索式为TTL/(((3D or 3-D or three-dimension$ or “three dimension$”) and (printer or “printing system”)) or (“additive manufacturing” and (system or apparatus or device or machine)))。共检索到812条专利,由专家筛选保留663条有效专利。
3.2 SAO结构抽取
本文采用自然语言处理工具Stanford Parser和Spacy工具包,利用Python语言编程,从专利摘要中抽取并清洗SAO结构,部分结果如表4所示。
表4 部分SAO结构抽取结果
3.3 基于创新维度的三级语义知识库构建
根据专家访谈结果,影响3D打印机打印质量的因素主要包括供料中断、喷头堵塞、打印机倾斜和打印材料性能等。其中,供料中断是指由于送料机构发生故障或打印材料耗尽造成打印中断,使得打印制品质量低下甚至报废;喷头堵塞是指由于打印材料堵塞在喷头处影响打印成型;打印机倾斜是指打印机未调平造成打印模型倾斜从而影响打印精度;打印材料性能是指由于打印材料性能较差导致打印制品质量较低。
由此可见,提高打印质量需要对3D打印机结构和材料进行优化,而结构和材料优化创新离不开功能分析。而功能维、结构维和材料维是提高3D打印机打印质量的关键创新维度。此外,包含功能维、结构维和材料维的专利在所有专利中占比分别为98.8%、97%和84%,进一步验证了3个创新维度的重要性。因此,本文从功能维、结构维和材料维着手开展3D打印机领域技术机会识别。
本文选取3D打印机领域近3年的135条专利作为样本专利。在参考功能维、结构维、材料维内涵以及专家知识和样本专利SAO结构的基础上,遵循创新维度特征词提取标准获取特征词。依照“存异并同”标准将特征词划分至创新维度,形成3D打印机创新维度初始词典。根据公式(1)~(4)计算AO结构与特征词语义相似度以划分功能维。根据公式(1)~(3),分别计算S结构、O结构与相应特征词的语义相似度以划分结构维和材料维。以功能维为例,部分语义相似度结果如表5所示。
表5 3D打印机功能维划分的语义相似度结果
在对技术形态划分创新维度后,利用公式(1)~(4)分别构建功能维、结构维和材料维技术形态语义相似度矩阵。以功能维为例,部分技术形态语义相似度矩阵如表6所示。
表6 3D打印机部分技术形态语义相似度矩阵
将上述技术形态语义相似度矩阵分别输入Gephi软件,利用模块化功能进行主题聚类,划分不同创新维度的创新子维,并采用ForceAtlas 2布局方式予以可视化呈现。以功能维为例,其可视化结果如图6所示。在图6中,各聚类类别内部联系较强,而聚类类别之间的联系较弱,表明聚类结果能够较为明晰地映射3D打印机创新子维。
图6 3D打印机功能维创新子维
基于可视化结果,构建3D打印机基于创新维度的三级语义知识库,部分结果如图7所示。
图7 3D打印机基于创新维度的三级语义知识库
3.4 三级技术机会识别
结合专家经验,从3D打印机基于创新维度的三级语义知识库中获取与打印质量相关的因素,如表7所示。根据专家经验和多次迭代发现,针对供料中断,可通过任一层级维法耦合变换提出具体技术机会,而针对其它影响因素则需要通过对创新子维层级和创新维度层级的维法耦合提出具体技术机会。
表7 与打印质量相关的影响因素
(1)技术形态层级技术机会识别。针对供料中断,可利用组合与集成法则对送料机构进行耦合变换,如表8所示。本层级技术机会涉及技术知识较少,较易识别,但数量和创新性有限。
表8 3D打印机技术形态层级技术机会
(2)创新子维层级技术机会识别。①针对供料中断,可利用智慧化法则对结构维下控制模块和供料模块进行变换;②针对打印机倾斜,可利用动态化法则对结构维下控制模块、辅助模块和打印机通用部件进行变换,如表9所示。较之技术形态的技术机会,该层级技术机会涉及技术知识增多,识别难度提高,但数量和创新性均有所提升。
表9 3D打印机结构维子维层级技术机会
(3)创新维度层级技术机会识别。①针对供料中断,可利用动态化法则对送料机构+供应材料进行变换;②针对喷头堵塞,可利用局部优化和动态化法则对喷头+移除粘合剂进行变换,也可利用动态化法则对调节温度+喷头+冷却液进行变换;③针对打印机倾斜,可利用智慧化和动态化法则对存储单元+控制单元+记录移动进行变换;④针对打印材料性能,可利用组合与集成法则对供料箱+金属粉末进行变换,如表10所示。较之创新子维的技术机会,该层级技术机会涉及的技术知识要素增多,识别难度提高,但数量和创新性均有所提升。
表10 3D打印机创新维度层级技术机会
4 结论与讨论
4.1 研究结论
本文将SAO语义分析和多维技术创新地图有机融合,提出一种三级技术机会识别方法,通过将其应用于3D打印机领域验证了该方法的可行性与有效性。具体过程包括:从专利文本中抽取SAO结构作为技术形态载体,以多维技术创新地图创新维度为导航构建创新维度初始词典,利用SAO语义相似度计算和主题聚类构建基于创新维度的三级语义知识库,进而运用多维技术创新地图中的创新法则和维法耦合原理对三级语义知识库进行迭代变换,以识别技术形态、创新子维、创新维度三级技术机会。本文提出的三级技术机会识别方法能够帮助企业在复杂多变的市场竞争环境下快速、精准地识别技术创新机会,准确把握研发方向,获取先发竞争优势。
4.2 理论贡献
本文理论贡献主要体现在以下几个方面:
(1)深度挖掘技术信息,提高了技术机会识别的可靠性。通过SAO语义分析获取的语义信息深化了技术形态提取结果,而多维技术创新地图创新维度为深入挖掘丰富的技术形态提供了多维度导航。相比于以往研究,SAO语义分析和多维技术创新地图相结合提供了一种便于深入描绘技术整体特征的技术信息挖掘方法,为识别技术机会提供了可靠支撑。
(2)厘清技术信息之间的内在联系,提高了技术机会识别的准确性。本文通过SAO语义相似度计算对技术形态进行主题聚类,进而对不同创新维度下的技术形态划分创新子维,从而形成基于创新维度的三级语义知识库,明晰了技术信息的关联关系和逻辑层次,有利于准确定位技术创新方向。
(3)提供一种三级技术机会识别方法,拓展了技术创新管理领域理论研究。本文利用多维技术创新地图创新法则对基于创新维度的三级语义知识库进行耦合变换,进而获取技术形态、创新子维、创新维度3个层级技术机会。一方面,从不同层级识别技术机会增加了技术机会数量,拓展了技术创新活动管理空间;另一方面,基于维法耦合原理,选择不同创新法则对技术形态、创新子维和创新维度进行迭代变换,可识别具体技术机会,便于对技术创新结果进行深入分析。
4.3 实践启示
针对上述研究结论,本文提出如下启示:
(1)企业应明确自身面临的技术问题,提高技术机会识别效率。面对复杂多变的市场竞争环境,企业应综合分析市场需求、竞争对手情况及自身技术水平,深入剖析企业当前面临的技术短板或发展瓶颈,聚焦具体技术创新问题,缩短研发周期、降低研发成本。
(2)企业应充分挖掘相关技术信息,准确把握技术创新方向。一方面,企业应结合语义分析法,从多个角度充分挖掘技术信息,并提取创新维度;另一方面,企业还应细分创新子维,厘清技术信息之间的内在联系和逻辑层次,打造和完善企业创新知识库,为明确技术发展现状、把握技术发展方向提供有力支撑。
(3)企业应合理评估自身资源约束和发展阶段,以便精准定位技术创新机会。资源匮乏的企业应侧重于技术机会的易识别性[31],而资源丰富的企业应侧重于技术机会的创新性[32]。例如,对于资源匮乏的初创期企业,应重视创新性弱但易识别性强的技术形态层级技术机会,利用有限资源立足市场;对于积累了一定资源的成长期企业,应重视创新性和易识别性中等的创新子维层级技术机会,从而实现市场份额稳健扩张;而对于资源丰富的成熟期企业,应重视易识别性弱但创新性强的创新维度层级技术机会,从而获取更强的市场竞争力。
4.4 不足与展望
本文存在如下不足:①SAO语义相似度及聚类结果精度有待提高,未来可引入领域知识库以提高结果精度;②基于创新维度的三级语义知识库内容及呈现形式有待优化,后续可结合知识图谱法和可视化工具予以完善;③本文未涉及技术机会评价筛选问题,未来可通过制定科学合理的评价指标体系,从众多技术机会中筛选出符合企业发展规划的技术创新机会。