基于产品生命周期的专利技术主题演化分析
2022-07-30马建红王晨曦
马建红,王晨曦,闫 林,姚 爽
(1. 河北工业大学人工智能与数据科学学院,天津 300401;2. 天津工创科技发展有限公司,天津 300000)
1 引 言
技术主题代表技术文献的主要内容,其演变遵循着特殊的内在规律。掌握技术主题的演化规律,对企业来说,能够把控技术研究现状、洞察发展趋势;对国家来说,能够把握技术演变的方向、引导相关产业占领技术高地,保护国家的战略利益。所以,研究产品技术文献的技术演变、分析技术主题的演化规律具有重要意义。专利作为极具代表性的技术文献,几乎承载了产品所有的技术信息,其内容准确,技术性强,伴随着每个产品的生命周期。如何利用科学有效的分析框架对数量庞大的专利进行准确高效的分析,对产品的技术主题演化分析有着重要的意义。
为刻画专利中的技术趋势,揭示技术演化的过程,不同的研究人员从不同的角度提出了很多研究方法。有学者尝试利用专利的分类属性作为其技术主题,例如,融合IPC 分类号、专利申请人等特征,分析某个产品相关专利的演化趋势[1]。但专利技术主题众多,而技术主题的识别度不高,势必会影响主题演化的精确性。为更准确地挖掘专利的技术主题,有学者使用共现网络[2]和图[3]等方式研究主题,但是这类方法会出现时滞,无法保证主题演化的延续性。为兼顾主题的多样性以及时间特征,使用SAO(subject-action-object) 结构语义相似度识别[4]、主题模型[5]或主题聚类[6-7]等方式从数据集中挖掘主题。但对于专利这种技术特点明显的语料,上述方法普遍效果较差。在专利技术主题演化分析方面,借助技术主题的时间信息,使用词对分析[8]、语义监督[9]、时间序列分析[10]等方法分析技术主题演化趋势。但随机性是技术创新过程中的普遍现象,这些分析方法容易忽视技术创新过程的随机性,以及产品发展过程中的动态主题。
现有的主题演化分析模型,基本上都是采用概率主题模型或者聚类模型分析主题的时间特征,得到技术主题演化趋势。对于专利文本,不同产品生命周期的专利主题信息所起到的作用不同,产品发展前期专利主题信息容易被大量数据所淹没,造成产品技术主题演化分析的结果不准确;现有主题提取算法大多同等对待每个特征词,而不同的词汇对主题产生的贡献是不同的,对于专利文本,这种问题尤为突出。
针对上述问题,本文在专利的基础上,利用产品生命周期和改进权值的W-LDA (weighted latent Dirichlet allocation)主题模型[11-12]以及基于相似度的阶段主题演化分析方法[13]构建一种基于产品生命周期的专利技术主题演化分析模型。该模型克服了主题提取结果的技术代表性差的问题,并通过产品生命周期得到隐含的主题信息,深度研究产品发展周期的主题语义信息,能够更加准确地分析产品的发展趋势。
2 产品生命周期与专利技术主题的关系
2.1 产品生命周期与专利数量的关系
产品的发展过程大致可以划分为婴儿期、成长期、成熟期、衰退期四个阶段[14]。本文根据专利数量的增长规律,对产品生命周期不同的阶段进行划分(图1)。
图1 产品生命周期与专利数量的关系
(1)婴儿期:专利新增数量较少,产品处于起步阶段,专利数量曲线斜率接近于零,但始终有该产品的专利出现,研究重点在于技术的产品化,表明该产品处于其生命周期的婴儿期。
(2)成长期:专利新增数量先是振荡上升,之后趋于稳定,专利数量曲线斜率大于零,新的研究主题不断涌现,核心技术不断迭代,后期出现部分弥补缺陷专利。
(3)成熟期:专利新增数量呈快速增长趋势,专利数量曲线斜率进一步增加,研究主题数量趋于稳定,但仍处于增长态势,专利新增数量维持在一个较高的水平,主题内容开始大量向成本和弥补缺陷方向发展。
(4)衰退期:专利新增数量呈递减趋势,专利数量曲线斜率小于零,基本没有新的研究主题出现,表明该产品正在衰退。
2.2 产品生命周期与专利技术主题演化分析的关系
生命周期可以结构性地描绘产品技术主题的演化[15]。专利的主题作为产品不同阶段发展的体现,其生命周期与产品的发展周期基本一致,都包括产生、发展、成熟和消失四个过程。由于主题以词语作为表现手段,词语的含义和其构成的多样性、复杂性就决定了主题在体现产品技术发展时的具体性和多样性。
随着产品生命周期的不断发展,产品的技术主题会不断发生变化,产品技术主题的语义信息会不断丰富,产品技术的演化速度也会不断加快。产品技术主题的构成由比较孤立的词汇逐渐向多个词汇组合演变,发生主题演化,在上一阶段主题的基础上发生复杂的分化和融合。
在主题演化分析的过程中,容易忽略细粒度的主题信息,难以把握产品技术主题的发展脉络。使用产品生命周期,能结构化地分析主题演化,了解产品不同发展阶段中技术主题的变化,以及阶段间的联系,为把握产品的发展提供合理有效的研究方法,从而得到产品生命周期的技术主题发展信息,而局部的主题演化信息又可以引导产品生命周期的划分。产品生命周期与主题演化分析密切相关,两者共同构建基于产品生命周期的专利技术主题演化模型。
3 基于产品生命周期的专利技术主题演化模型构建
基于产品生命周期的专利技术主题演化模型主要分为三个部分,产品生命周期划分、产品专利技术主题提取MW-LDA(multiple weighted latent Dirichlet allocation)模型构建以及产品专利技术主题演化分析方法。如图2 所示,利用专利文献增长规律以及局部主题信息进行专利产品生命周期的划分;构建产品专利技术主题提取MW-LDA 模型,得到各阶段主题语义信息;构建产品技术主题向量,通过阶段间技术向量的关联程度,分析产品专利技术主题的演化规律。
图2 基于产品生命周期的专利技术主题演化模型
3.1 产品生命周期划分方法
首先利用拟合算法生成专利发表量与年份的拟合曲线,根据产品生命周期以及专利数量增长规律划分产品的生命周期。但是仅根据专利数量增长规律来划分,不仅理论上难以完全契合,而且往往与实际情况不相符。细粒度的主题信息更能代表生命周期的变化,因此,本文融合这两种模式来刻画产品生命周期,基于局部语义信息,使用滑动窗口的方式,分析局部主题语义相似度,进行生命周期划分的调整,如图3 所示。
图3 产品生命周期划分机制
(1)利用文献信息统计方法统计产品的专利数量信息及其变化,分析产品专利数量信息的增长趋势,通过每年专利发表量,利用曲线拟合算法,得到专利发表量年代分布拟合曲线。
(2)根据产品生命周期,利用专利发表量年代分布拟合曲线,进行产品生命周期的初步划分,得到三个初始节点。
(3)以上一阶段得到的每个初始节点为中心,在阈值范围之内划分一个时间区间,作为节点调整的范围。
(4)以滑动窗口算法(sliding window algorithm)的方式在时间区间内划过,设定滑动窗口的大小为2,计算每个滑动窗口的主题间的平均相似度,相似度最小的即为调整后的阶段划分节点,公式为
3.2 产品专利技术主题提取MW-LDA模型
主题模型中LDA(latent Dirichlet allocation)算法是一种混合概率增长模型,通过最大化词语的共现概率寻找主题词聚类,利用Dirichlet 先验分布刻画文档生成过程,并限定文档的主题数量,避免其他概率过拟合以及参数过多问题,从而高效提取文档的隐含主题,并对文档进行聚类。
如图4 所示,M代表文档,N代表词,K代表主题,共同组成了LDA 主题模型的三层结构。θ代表文档中主题的概率,由参数α控制。φ代表主题中特征词的概率,由参数β控制。在文档数据集中,将所有文档划分为一系列特征词集合,LDA 主题模型采用吉布斯抽样方法把文档概率性地分配给各个主题,具体公式为
图4 MW-LDA模型
LDA 模型的特点是不关注特征词的语义区别,同等对待不同的特征词。然而,不同的特征词对主题的代表作用具有差异,在采用LDA 模型进行主题提取的过程中,得到的主题会向高频特征词倾斜,导致能够代表文档主题的核心特征词被代表性较差的特征词淹没,降低LDA 模型训练结果对文档主题的代表性。而仅借助停用词进行处理只能过滤掉部分表意能力极差的特征词,而且这种直接过滤的方式并不适用于表意能力较差的词汇。
进一步将LDA 模型用于主题提取时,发现不同的特征词对主题提取的影响是不同的。如果赋予区分能力比较强的以及语义信息比较重要的特征词较大的权重,同时,赋予区分能力比较差的以及语义信息比较不重要的特征词较小的权重,能简单高效地抑制噪声特征对主题提取结果产生的不利影响。
因此,W-LDA 应运而生,该模型认为特征词的生成不仅受概率影响,还与特征词对文档的重要性相关。为此,利用特征词权重W改进吉布斯采样公式,对不同的特征词在不同的主题下赋予不同的权重,改进LDA 模型生成特征词的概率,公式推导为
其中,W(ωi,d)权重公式的计算方式决定了结果的合理性。TF-IDF (term frequency-inverse document frequency)是目前被广泛采用的权值计算公式,该方法从特征词频的角度考虑,特征词在文档中出现次数越多,表示该特征项越可以更好地代表该类别的信息;从反特征词频的角度考虑,认为在少数文档中出现的特征词比在多数文档中出现的特征词能更好地区分类别。
但是,基于TF-IDF 的加权策略依然存在较大问题。首先,需要利用去除停用词等技术来解决TFIDF 向量过大,以及由词汇数量所导致的稀疏问题。停用词代表着常见却缺乏实际含义的词汇。对于加权工作影响比较大的便是TF-IDF 没有考虑词汇本身的特征,对于特殊文本数据来说缺陷明显。
因此,本文针对产品专利文本数据,根据专利文本的技术性强、体系结构严谨的特点,提出MWLDA 的专利技术主题提取方法,通过改进LDA 模型生成特征词的过程,监督吉布斯采样的过程,以提高LDA 模型所生成主题的技术代表性。
其中,最重要的就是本文提出的新的加权策略。对于产品专利文本,本文融合特征词的位置信息、语义信息、区分能力等,构建复合权值。本文将互信息引入原始的TF-IDF 计算公式,通过互信息衡量某个特征词和主题之间的关联关系,并融合位置与语义信息进行权重增益,权重公式为
其次,主题提取的效果不仅与主题提取的方法有关,而且与预设的主题数目K值的选取密切相关,不同的K值影响了后续的产品技术主题的演化分析。现有的主题模型,大多绘制困惑度(perplexity)曲线,根据曲线选取模型困惑度相对最小的K值作为主题数,并以此来衡量主题模型的好坏。而困惑度曲线往往是一条不断下降的曲线,如果选取的K值偏大,就会导致主题之间相似度较大,影响主题演化分析。所以,本文采用主题一致性(topic coherence)来确定最优主题数,并评价主题模型,公式为
3.3 产品专利技术主题演化分析方法
随着产品生命周期的进行,技术的分化与交叉融合不断加快,相对应地,生命周期阶段间的主题也发生了不同程度的分化与交叉融合,这种变化就是阶段间主题关联演化。产品专利技术主题演化指的是阶段主题间随着产品生命周期发生的变化,是分析产品专利技术主题演化的关键。阶段主题间的演化路径可以通过相邻阶段主题间的语义相似度来分析,不同的相似度代表不同阶段主题的相关程度,可以识别主题之间的演化路径,主要有继承、融合和分化三种主要演化方向,如图5 所示。
图5 主题演化分析方法
(1)继承:根据产品生命周期的先后,相邻阶段的主题之间有较高的相似度,代表了下一阶段的主题延续了上一阶段的语义信息,发生了主题继承。
(2)分化:根据产品生命周期的先后,上一阶段的主题与下一阶段的多个主题有较高的相似度,代表了下一阶段的多个主题由上一阶段的主题分化产生,这些主题之间发生了主题分化。
(3)融合:根据产品生命周期的先后,上一阶段的多个主题与下一阶段的主题有较高的相似度,代表了下一阶段的主题由上一阶段多个主题融合产生,这些主题之间发生了主题融合。
在实际案例中,分化和融合往往是同时存在且相辅相成的。在概率主题模型中,主题指在语义信息上与主题相关的一组词及其权重构成的向量组合,T=(p(ω1|T),p(ω2|T),…,p(ωi|T)),所以对于产品生命周期阶段间技术主题的演化分析,使用主题间带权重的余弦相似度来度量,对于主题T1和T2来说,
4 案例分析:电动车辆动力装置的专利技术主题演化分析
4.1 数据来源及预处理
为验证本文构建的基于产品生命周期的专利技术主题演化分析模型的有效性,选取电动车辆动力装置的相关专利,检索时间为1994—2017 年。经过去重、去除与主题无关的专利、去除无效专利等数据预处理,最终获得电动车辆动力装置专利语料27198 篇。再通过对原始语料库进行中文分词等自然语言处理,获得最终的实验用语料库。
4.2 电动车辆动力装置的生命周期划分
根据1994—2017 年每年的专利发表量,绘制年份和年专利发表量的拟合曲线,如图6 所示。从图6 可知,电动车辆动力装置的专利发表量呈现快速增长态势。为了更细致地刻画电动车辆动力装置的生命周期,基于专利发表量曲线,结合产品生命周期,将电动车辆动力装置的发展分为以下两个阶段。
图6 专利发表量拟合曲线
(1)婴儿期:1994—2004 年。这一阶段该产品的年专利发表量在500 篇以内,专利发表的年增长量较低,说明该产品只是刚刚起步,处于婴儿期。
(2)成长期:2005—2017 年。这一阶段该产品的年专利发表量在500 篇以上,专利发表的年增长量较高,甚至快速上升,发文量逐渐增长到了婴儿期的数倍。
根据以上分析,阶段的划分节点node 处于2003年和2004 年之间。但是,专利发表量只是刻画产品生命周期的一个方面,要想更细致、更精确地刻画电动车辆动力装置的生命周期,还需要利用局部主题语义信息。
以阶段划分节点node 为中心,选取一个长度为6 的时间区间。以滑动窗口算法的方式在时间区间内划过,设定滑动窗口的大小为2,计算每个滑动窗口的主题间的平均相似度(ESC),结果如表1 所示。
表1 各窗口的ESC值
由表1 可知,阶段划分节点应该移动到2004 年与2005 年之间。
4.3 电动车辆动力装置的专利技术主题提取
对不同周期的专利,使用本文提出的MW-LDA技术主题提取方法分别进行主题提取,并使用主题一致性分数曲线确定K值。主题一致性分数是融合了主题间相似度的评判指标,相比于困惑度,能更好地衡量LDA 的主题提取的结果。当主题一致性分数指标最大时,主题抽取的结果最合理。实验结果如图7、图8 所示,最优主题数分别为35 和80。
图7 婴儿期主题一致性分数
图8 成长期主题一致性分数
4.4 电动车辆动力装置的专利技术主题演化分析
相邻阶段主题间的相似度可以代表产品生命周期演化趋势,结合经验,阈值选取0.2,得到相似度大于阈值的主题组合,绘制图谱,分析阶段间产品技术主题演化趋势。电动车辆动力装置的技术主题部分语义演化现象如图9 所示,其中每个主题下面的主题词用最能代表该主题语义信息的5 个词组成。
从图9 可以看出,该产品主题在成长期产生了大量新的主题,并且很多婴儿期的主题发生了不同程度的融合、分化和继承。具体规律如下。
图9 主题演化分析
(1) 分化:燃料电池(燃料电池、能量、燃料、供给、消耗)分化为了燃料电池原材料(燃料电池、燃料、空气、气体、氢气)以及储能回收(能量、储能、回收、推进、吸收)两个方向。
(2)融合:在婴儿期和成长期的过渡当中,产品技术主题的融合不是单独发生的,往往伴随着产品技术主题的分化,两者相辅相成。电动汽车太阳能(电动汽车、电能、太阳能、转向、耦合)和蓄电装置(电压、蓄电池、温度、直流电、交流电)发生了分化与融合,演化为电能储备(电能、转换、能源、储存、用电)、太阳能电池板(蓄电池、太阳能、电池板、车体、车顶)、电动汽车电瓶(电动汽车、电瓶、二极管、输出、三极管)以及电路电压(电压、模式、低电压、切换、开路)等四个主题。
(3) 继承:机动车的控制电路(电路、电容器、机动车、控制电路、串联)演化为(电路、信号、控制电路、单片机、电平),出现了继承,并产生了技术更新,技术侧重点发生改变。
除此之外,还产生了许多与上一阶段无关的主题,如电路保护装置(保护、锂离子、安全性、电路板、保护装置)和成本优化(技术、节能、成本、燃油、设计)等。
4.5 模型对比分析
在以电动车辆动力装置的语料为实验对象的情况下,分别针对主题提取的效果以及演化分析的效果进行实验对比分析,从不同角度验证本文所提出的基于产品生命周期的专利技术主题演化分析模型的有效性。
首先,为了验证本文所提出MW-LDA 的有效性,我们选择与AD-LDA (approximate distributed LDA)[11]以及G-LDA(Gaussian LDA)[16]两种模型进行对比。在对比实验中,所有模型的Dirichlet 超参数α=50/K,β=0.1,主题数设为K=35, 80。如图10 所示,分别在不同的阶段、不同的主题数量K值下,得到不同模型的主题一致性分数,以对比不同模型的主题提取效果。主题一致性得分越高,主题提取效果越好,因此,本文所使用的主题提取算法均优于其他算法。
图10 三种模型主题提取效果对比
其次,为了评估本文基于产品生命周期的专利技术主题演化分析方法的有效性,利用4.1 节所获得的电动车辆动力装置的专利文献数据,同样运用本文所提出的划分方法以及实验参数,使用同样基于W-LDA 的AD-LDA 进行技术主题提取,得到部分主题数据,结果如表2 所示。
表2 AD-LDA生命周期各阶段的主题
由表2 可以看出,AD-LDA 在电动车辆动力装置的专利实验数据下产生了严重的不适用性,所提取的主题界限不明显,权重较高的主题词汇大多被技术特点不够明显的词汇代替,如信息、设备、系统、结构、安装等,这些词汇虽有一定的技术含义,但远不足以代表主题的主要信息,对比本文所提出的技术主题提取方法所提取的主题词,如燃料电池、电路、发动机等词汇,存在不小的差距。而且,直接导致了婴儿期和成长期的主题词关联程度偏低,不具备演化分析的基本条件,如果强行采用本文所提出的演化分析方法,会导致婴儿期和成长期主题关联度较低,无法形成有效的主题演化图谱。而本文所提出方法由于更适用于专利文本的融合了专利体例结构、特征词和主题之间的关联关系以及特征词的语意信息的复合加权策略,所得到的主题词更能代表主题类别的信息,并且主题之间界限明显,因此在演化分析时,如4.4 节所述,阶段主题之间的关联度更高,更能代表该产品的技术主题发展脉络。
5 结束语
本文针对专利文本,结合产品生命周期以及加权LDA,尝试提出一种新的技术主题演化分析模型。将专利按照时间特征和专利增长规律划分,并利用局部主题信息刻画产品的生命周期。同时,针对现有主题挖掘方法对专利的适用性差、主题技术特点不明显等问题,提出MW-LDA 的专利技术主题提取算法,从不同角度改进词汇权重并构造复合权值,改进LDA 模型生成特征词的过程。在此基础上,利用主题信息之间的相似度实现产品生命周期不同阶段、不同层次的主题演化分析。
技术主题演化在技术发展的过程中,历史的研究成果是新技术思想产生的基础,这一过程是不可观测的隐藏序列,之后的工作将致力于研究主题间隐含的转移方向,进而确定技术主题的未来演化趋势。