专利前沿技术主题识别及趋势预测方法
——以人工智能领域为例
2021-02-01朱彦君
宋 凯 朱彦君
(1.武汉大学信息管理学院 武汉 430072;2.山东建筑大学图书馆 济南 250101)
0 引 言
随着全球科技产业转型周期的快速演进,技术创新成为推动经济发展、变革产业格局、转换产业形态的重要驱动力,也是提升国家和企业技术竞争力的关键所在。当前,科技立国、创新兴国成为各国经济发展的基本战略,在此背景下,对前沿技术的探测与识别正逐渐成为影响政府决策和产业发展的一个重要的驱动因素[1]。目前,关于前沿技术尚无统一的定义,2006 年我国发布《国家中长期科学和技术发展规划纲要》,将前沿技术定义为高技术领域中具有前瞻性、先导性和探索性的重大技术,是未来高技术更新换代和新兴产业发展的重要基础[2];刘琦岩等人提出科技前沿是指在某一具体科技领域中具有继承性、未来性和探索性特征的研究或技术[3];周萌等人认为前沿技术为某一时间段内研究关注度增加较快,市场潜力已有所显现的技术领域[4]。结合已有定义,本文认为前沿技术是某个时间段内某个技术领域中正在兴起并引起研究人员高度关注的研究主题,能够指引技术领域发展方向,决定技术领域创新路径。而专利文献作为技术创新成果的重要表现形式,因其含有丰富的技术信息而被广泛应用于前沿技术识别的研究工作中[5]。因此,如何通过专利分析进行前沿技术主题识别,揭示技术领域发展趋势,成为学术界和产业界共同关注的研究热点。
本文的研究目标是:① 以Z分数表示技术主题创新度,以Sen's斜率表示技术主题授权趋势,二者融合形成技术主题前沿度指标,为识别技术领域前沿技术主题提供方法支撑。② 给出技术主题新颖度和技术主题关注度的计算公式,二者融合形成技术主题趋势度指标,并结合指数平滑法,对前沿技术主题未来发展趋势进行预测。③ 采用提出的专利前沿技术主题识别与趋势预测方法,对我国人工智能领域的授权发明专利进行实证,为研究人员揭示技术领域发展趋势,规划战略布局提供方法参考和决策支持。
1 相关研究
国内外学者们就如何利用专利文献数据高效、准确地进行技术主题识别和发展趋势预测展开了大量的研究工作,概括起来主要包括以下四种类型:
一是基于专家评价方法,通常采用同行评议、德尔菲法、层次分析等方法,在专家定性分析的基础上,以打分方式做出定量评价。如Tseng等提出将情景规划法、德尔菲法与技术替代模型相结合进行前沿技术识别[6];魏国平采用问卷调查和调研访谈等研究方法,对中国市场上出现或即将出现的新兴技术进行了识别[7];徐璐采用AHP方法与信息熵技术相融合技术,建立了土石坝危险源识别技术体系和方法[8];袁思达以“中国未来20年技术预见研究”能源技术领域为例,根据德尔菲法调查结果对共性技术课题识别进行了研究[9]。
二是基于文献计量方法,通过获取专利数据集的技术主题,根据时间变化等特征识别出前沿技术主题。如Bengisu结合时间特征对领域内的论文和专利进行分析,识别出了材料科学与工程的前沿技术领域[10];Daim等融合专利计量分析、产业情景分析和增长曲线分析,提出了一种前沿技术识别模型[11];王吉武等构建了新兴技术商业化潜力评价框架并进行了相应的实证研究[12];汪庆等人通过多维度专利指标分析的方法识别了创新主体的内部核心技术和优势技术领域[13]。
三是基于引用特征方法,通过对专利的引文网络进行聚类分析,利用文献之间的引用关系测度主题的演变路径和趋势。如Small等将专利直接引文网络和共被引网络结合,通过社区聚类算法识别出新颖性技术主题[14];Hsueh等以液晶显示屏技术领域为例,将专利引证时间与专利引用关系相结合,对该领域的前沿技术进行了预测[15];Kim等综合考虑了专利技术的相似性和专利共引特征,通过构建专利合作网络,实现了基于专利网络分析的前沿技术识别方法[16];李蓓等人建立了基于专利引用耦合聚类的新兴技术识别模型及其相关指标体系,并对纳米技术领域展开了实证分析[17]。
四是基于文本挖掘方法,随着数据挖掘和文本分析等计算机技术的发展,学者尝试采用这一类方法进行技术主题识别和技术发展趋势分析。如Choi等利用SAO结构分析,并结合社会网络分析进行了前沿技术主题识别[18];Xiao等以固体脂质纳米粒子领域为例,采用SAO结构分析,结合技术路线图和专家评价对创新技术进行了探测[19];伊惠芳等结合 LDA模型和战略坐标图识别出了石墨烯领域的技术主题及其结构特征[20];许学国等人提出了基于深度学习的技术预测方法,并以机器人领域为例进行了技术预测[21]。
分析发现,已有研究分别使用专家评价法、文献计量法、引用特征法和文本挖掘法,对技术领域的前沿技术识别及预测展开了研究。但专家评价法对专家判断依赖程度较高,判断结果主观性较强;文献计量法难以反映技术发展的动态变化;引用特征法存在引用动机判断及引文时滞性的不足;文本挖掘法在技术实现上还有诸多完善之处。因此,本文在参考已有研究的基础上,将技术主题前沿度和技术主题趋势度引入到前沿技术主题识别中,将文献计量法、引用特征法和文本挖掘法相结合,提出专利前沿技术主题识别与趋势预测方法,为技术管理部门和企业研究人员有效把握技术演进态势,准确定位技术发展方向,快速做出战略决策提供实践参考。
2 研究步骤与研究方法
2.1第一阶段:技术主题提取技术主题提取即提取一个技术领域涵盖的技术主题,在进行专利技术识别中,专利摘要被普遍作为实验数据进行分析。LDA模型采用高效的概率推断算法处理大规模数据,具有良好的文本潜在主题挖掘能力,因此,本文确定采用LDA模型,从专利摘要中提取技术领域涵盖的技术主题。同时,本文利用R语言中的LDAvis模型进行主题数量计算,LDAvis 模型能够基于多维尺度算法将主题识别结果映射到二维空间中,通过调整主题数目、Alpha值和Beta值,当主题之间相互独立、互不交叉,表示对应主题模型最优。在明确技术领域涵盖的主题后,本文采用聚类算法中的K-means实现对专利文本的划分,为了提高效率,本文将LDA模型和K-means算法融合实现专利文本聚类[22]。
2.2第二阶段:前沿技术主题识别
2.2.1 技术主题创新度计算 陈子凤等人指出,基于专利引用的外部知识获取对创新具有重要影响[23],反之,能够说明技术主题的被引用次数越高,体现了其在所属技术领域具有较高创新度,能够对专利引用者的技术创新提供支撑。为了保证创新度计算的合理性和科学性,本文采用Z分数来表征每个技术主题的创新度。技术主题创新度的计算过程如下:
第1步,某一时间段内,技术领域A授权发明专利数量为N件,每件专利的被引用次数集合记为C={c1,c2,c3…cN},则A领域的专利平均被引用次数为:
(1)
第2步,根据LDA模型及文本聚类得到的结果,假设A领域有S个技术主题,每个技术主题下授权的专利数量集合记为P= {p1,p2,p3…pS},每个技术主题下授权专利的被引用总量记为Y= {y1,y2,y3…yS},则每个技术主题的平均被引用次数为:
(2)
第3步,依据技术领域平均被引用次数及每个技术主题的平均被引用次数,得到A领域技术主题平均被引用次数标准差:
(3)
第4步, 得到每个技术主题的标准分数为:
(4)
2.2.2 技术主题授权趋势计算 技术主题授权趋势分析主要利用技术主题的逐年授权量,判断技术主题的发展走向。本文利用Sen's 斜率估计法计算技术主题的专利授权量斜率,估计技术主题的授权量趋势幅度。Sen's斜率法的主要计算过程如下:
第1步,A领域的技术主题B连续y年的专利授权量表示为L=(l1,l2,l3…ly),则该技术主题的斜率为:
(5)
第2步,斜率γ表示专利授权量的趋势,当γ>0时,B主题下的专利授权量呈逐年上升趋势;当γ=0时,专利授权量逐年变化趋势不明显;当γ<0时,专利授权量呈逐年下降趋势。
2.2.3 技术主题前沿度计算及前沿技术主题识别 通过以上过程,考虑将技术主题创新度和技术主题授权趋势融合形成技术主题前沿度(Technology Topic Frontier Index,TTFI)指标,并采用熵权法为二者客观分配权重Wz和Wγ,以综合反映技术领域的前沿技术主题。在此基础上,将技术创新度和技术主题授权趋势映射到二维空间,通过阈值设置,将技术主题类型划分为前沿技术主题、过热技术主题、冷点技术主题和潜在技术主题。技术主题前沿度的计算公式如下:
TTFIj=Zj*WZ+γj*Wγj∈(1,2,3…S)
(6)
2.3第三阶段:前沿技术主题趋势预测
2.3.1 技术主题新颖度计算 本文技术主题新颖度(Technology Topic Novelty Index,TTNI)计算参考Tu等人提出的主题新颖度计算方法[24],当一个技术主题开始出现后,随着时间的推移,专利授权量越来越多,其新颖性也逐年下降。TTNI计算公式为:
(7)
具体计算过程为,假设一个技术主题下的授权专利,授权时间周期为2011-2019年,FY(First Year)为2011,CY(Current Year)为计算当前年,则TTNI2011= 1/(2011-2011+1) = 1.000, TTNI2019= 1 / (2019-2011 + 1) =0.111。
2.3.2 技术主题关注度计算 李秀霞等人认为发文趋势反映了学科主题研究现状,引文趋势反映了研究主题被关注程度,二者结合,能从研究者和读者两个不同视角呈现学科领域研究主题被研究和被关注的程度[25]。将此思想引入到技术领域研究中,技术主题关注度(Technology Topic Attention Index,TTAI)是指领域内研究者和技术跟跑者对主题的关注程度,通过专利被引用次数和专利授权量体现。因此,TTAI的计算将综合考虑专利被引用次数和专利授权量,其计算公式为:
j∈(1,2,3…S)
(8)
具体计算过程为:假设一个技术主题下的授权专利,授权时间周期为2011-2019年,sum_grant(Sj)表示技术主题Sj从2011-2019年的专利授权量总和,sum_grant(CY)表示技术主题Sj从2011年到计算当前年的专利授权量之和;sum_cited(Sj)表示技术主题Sj从2011-2019年的专利被引用次数总和,sum_cited(CY)表示技术主题Sj从2011年到计算当前年的专利被引用次数之和;W1和W2是根据熵权法计算的指标权重。
2.3.3 技术主题趋势度计算 将TTNI和TTAI融合,形成技术主题趋势度指标(Technology Topic Trend Index,TTTI),为前沿技术主题的预测分析提供数据支撑。由于TTNI呈连续下降趋势,而TTAI呈上升趋势,考虑将TTNI和TTAI做乘积处理,以平衡二者之间的相反趋势,因此,TTTI的计算公式如下:
(9)
2.3.4 指数平滑预测 TTTI同时考虑了TTNI和TTAI,能够综合反映技术主题的发展趋势,为了能够对前沿技术主题的未来发展态势进行展示,本文选择指数平滑法进行趋势预测。指数平滑法的核心思想是时间序列的态势具有稳定性或规则性,时间序列可被合理的顺势推延,最近的过去态势,在某种程度上会持续到最近的未来[26]。指数平滑法包括一次指数、二次指数、三次指数,其中一次指数和二次指数对波动性较大的数据,预测会产生较大误差,而三次指数能够跟踪时序的非线性变化趋势,具有较强的实用性,被广泛应用于各个领域,因此,本文将使用三次指数平滑预测,对前沿技术主题的未来发展趋势进行预测。
3 实验过程及分析
3.1数据检索与技术主题提取本文数据来源于Incopat专利数据库,选择分析的技术领域为“人工智能”。在数据检索过程中,专利来源选择为中国发明授权专利,检索式设置为标题/摘要=(“人工智能” or “智能系统” or “物联网” or “人机交互” or “智能技术” or “智能机器人” or “深度学习” or “语义网络”),时间不限,共检索到44 893件专利。因为专利被引用次数是前沿技术主题识别过程中的重要指标,因此,去除被引用次数为0的专利,剩余5 655件专利作为实验数据。
根据技术主题的提取流程,当主题数目设置为14个,Alpha=0.1,Beta=0.2时,基于LDAvis模型呈现的主题可视化结果,主题数目最优。在确定最优模型的基础上,结合每个技术主题下的相关词对主题进行概括,并通过文本聚类将每一件专利划归到一个技术主题下。在专利文本聚类后,统计每个技术主题的专利授权时间周期,为了保证每个技术主题的时间周期一致性,便于之后的实验分析,将每个技术主题的专利授权周期统一设置为2011-2019年,经过筛选后,剩余5 619件专利用于人工智能领域前沿技术主题的识别。
3.2前沿技术主题识别依据给出的前沿技术主题识别流程,通过技术主题创新度(公式(1)→(4))与授权量趋势估计(公式(5))对每个技术主题进行计算。分析计算结果发现,人工智能领域涵盖的14个主题,其γ值均大于0,表明人工智能领域各个技术主题的专利授权量均成上升趋势,体现了学术界和产业界对人工智能领域的持续关注。综合Z分数和γ值计算技术主题前沿度,通过熵权法计算得到权重分别为0.65和0.35,利用公式(6)对人工智能领域下的技术主题进行排序,结果见表1。同时,将Z分数与γ值映射到二维空间进行可视化展示,依据主题位置分布对技术主题类型进行细粒度划分,结果见图1。
表1 基于熵权法的技术主题排序
分析表1发现,将技术主题前沿度的阈值设置为3时,“主题5→电动汽车”“主题1→智能家居”“主题12→自动化控制系统”可视为人工智能领域的前沿技术主题。为了对识别结果进行验证,将Z分数与γ值作为坐标形成技术主题空间分布图,为了让技术主题之间的划分界限明显,将γ值的阈值设置为8,Z分数的阈值设置为0。依据设置的阈值进行维度划分:
图1 人工智能领域技术主题空间分布图
① 第一维度→前沿技术主题,Z分数>0,γ值>8;② 第二维度→过热技术主题,Z分数<0,γ值>8;③ 第三维度→冷点技术主题,Z分数<0,γ值<8;④ 第四维度→潜在技术主题,Z分数>0,γ值<8。通过划分,处于第一维度的前沿技术主题分别是“主题1→智能家居”“主题5→电动汽车”“主题12→自动化控制系统”,这进一步验证了技术主题前沿度的计算结果,并在此基础上对其他主题的类型也进行了更细粒度的划分,为相关研究者、科技型企业把握人工智能领域发展新动向,捕捉技术发展趋势提供了参考指引。
3.3前沿技术主题趋势预测通过以上前沿技术主题的分析,得到人工智能领域的3个前沿技术主题,依据前沿技术主题趋势预测流程,对每个技术主题进行技术主题新颖度(公式(7))与技术主题关注度(公式(8))的计算,综合技术主题新颖度和技术主题关注度,利用熵权法计算得到权重分别为0.48和0.52。在此基础上,使用公式(9)计算每个前沿技术主题的逐年趋势度,最后利用三次指数平滑法对前沿技术主题在2020-2022年的发展趋势进行预测,以均方根误差(RMSE)和平均绝对误差(MAE)作为判断预测效果的指标。主题1、主题5和主题12的趋势预测结果见图2。
图2 “主题1”“主题5”“主题12”趋势预测图
依据三次指数平滑法对主题1、主题5和主题12的预测结果,RMSE和MAE均为0.01,表明预测效果较好。根据技术主题趋势度的预测结果,“主题1→智能家居”呈明显下降趋势,自2011年开始,我国智能家居行业进入融合演变期,在智能控制技术、智能家居平台系统等方面取得了快速发展。虽然智能家居行业技术上具有先进性,但实用性差,与市场需求脱节,这也打击了企业的持续创新热情,一定程度上造成了技术主题趋势度呈下降态势。但我国智能家居普及率仍有很大增长空间,这也为企业在智能家居上进行持续探索提供了动力支撑。“主题5→电动汽车”和“主题12→自动化控制系统”呈明显上升趋势,人工智能融入电动汽车实现无人驾驶,已经对未来出行方式进行了定义,也吸引了以蔚来、威马为代表的造车新势力进行持续投入研发;而人工智能在工业制造、基础设施建设的应用,对我国实现产业生态化、数字化、智能化具有重要意义。因此,通过以上分析,人工智能领域内的“电动汽车”和“自动化控制系统”两个前沿技术主题在未来3年仍呈上升态势,领域内的科技型创新企业应提高关注度,制定战略规划,而政策制定者和投资机构也应重视对这两个技术主题的科研投入和资源倾斜,推动实现技术突破与产业升级。
4 结 语
监测技术前沿变化,识别前沿技术主题,能够及时跟踪技术发展动态,尽早捕捉未来发展契机,对国家资源配置和科研投入以及科技型企业的未来发展至关重要。为了实现此目标,本文提出了专利前沿技术主题识别与趋势预测方法,以我国人工智能领域的发明授权专利进行了方法验证,主要内容总结如下:
a.在主题提取阶段,利用LDA模型提取了人工智能领域涵盖的14个技术主题,并结合K-means算法实现了专利文本聚类。
b.在前沿技术主题识别阶段,以Z分数表征技术主题创新度,以Sen's斜率估计法计算技术主题的专利授权趋势,采用熵权法将二者融合形成技术主题前沿度指标,实现对人工智能领域技术主题的排序;进一步将两个指标映射到二维空间,对主题类型进行细粒度的划分;通过以上过程,分析得到人工智能领域的3个前沿技术主题。
c.在前沿技术主题趋势预测阶段,分别对3个前沿技术主题的技术主题新颖度和技术主题关注度进行计算,并采用熵权法将二者融合,形成技术主题趋势度指标;在此基础上,借助3次指数平滑法对前沿技术主题未来3年的发展趋势进行预测。通过方法实证与结果展示,本文所提方法对政策制定者、科技创新型企业以及研究人员揭示技术领域发展趋势、制定技术研发战略、寻求技术发展机会具有一定的指导意义。
需要说明的是,专利被引用次数是本文的重要计算指标,但专利被引用需要经过大量时间积淀,存在滞后性,导致本文专利数据筛选过程存在不足;此外,学术论文也是揭示技术领域研究前沿的重要数据来源,因此本文在数据多源性上有待进一步扩充;这些都可能对本文的结果造成影响,我们将在后续的研究中加以改进。