基于组合概率的技术主题新颖性研究
2022-11-23孙晓玲陈娜丁堃
孙晓玲,陈娜,丁堃
(大连理工大学科学学与科技管理研究所,大连 116024)
1 引言
新型国际关系背景下的科技竞争对科技创新战略提出新的要求。突破性技术的竞争不断升级,而技术新颖性是突破性技术的重要驱动力,具备高新颖性能增加突破性技术产生的概率[1-4]。但高新颖性特征的技术由于具有更高的不确定性和风险性[5-6],往往需要经过较长的时间检验后才会显示其历史地位和价值。因此,技术新颖性的有效识别方法对于提高突破性技术预测的概率和早期识别核心专利具有重要意义[7]。
技术新颖性是一个抽象且复杂的概念,本文中的新颖性与专利审查中的新颖性概念具有一定的区别和联系。在申请发明或实用新型专利时,具备新颖性是授予其专利权的必要条件之一,而本文侧重在从主题内容层面测度技术的新颖程度,是指发明过程中现有技术或新技术以一种新颖的方式组合[8-10]。未来可以用于科技查新工作,避免人工检索的主观性和非全面性影响专利新颖性评判结果。
如何衡量技术新颖性备受国内外学者关注。衡量技术新颖性的方法通常从知识元组合视角,将知识元作为组成知识的结构要素[11],其组合过程通常反映了创新过程。利用专利主题词组合的共现次数来测度技术主题内容新颖性已得到实证研究[12-16]。然而,仅考虑主题词组合的共现次数可能会低估组合概率,高估技术的新颖度。比如,(w1,w2)和(w3,w4)两对主题词以前都没有共现过,但是(w1,w2)存在潜在语义关系,如存在间接关系或语义相关,(w3,w4)不存在语义关系,则(w3,w4)表现出的组合新颖性概率应更高。因此,本文以专利作为技术创新成果的载体,从其标题和摘要等内容抽取出主题词,提出一种综合衡量技术主题内容新颖性的方法。为了测量主题词潜在组合概率,引入复杂网络中的链接预测方法对间接关系进行量化,该方法根据两个主题词以往的关联关系来度量未来链接的概率。除间接链接关系外,进一步融合主题词之间的语义相似度。由于搜索相关领域的知识比搜索不熟悉的知识相对容易,因此语义相似度高的组合未来组合概率较高。
2 相关工作
许多学者从知识组合视角研究科学技术的新颖性,认为新知识和现有知识的相互组合是知识新颖性的主要来源。论文和专利分别被视为科学知识和技术知识的载体[17-18],本文侧重于技术新颖性的研究,但基于论文的科学知识组合新颖性研究也与此密切相关,因此本文将基于组合视角从科学新颖性和技术新颖性两个方面进行综述。
国内外学者们主要从科学论文的引用期刊组合或主题内容组合两个视角测度科学新颖性。一是从引用期刊组合视角。Uzzi等[19]使用引文中期刊组合的共现次数来衡量每篇论文的新颖性分数Zscore。Klavans等[20]在Uzzi等[19]的方法基础上,使用K50分数代替Zscore来测度期刊组合新颖性。Lee等[21]采用Uzzi等[19]提出的方法,进一步研究新颖性与团队规模的关系。Wang等[22]基于论文的引用期刊对是否首次组合,并考虑这种新组合的难度,构建基于引文中新期刊组合出现的次数作为衡量新颖性的方法。Veugelers等[23]在此方法基础上用新期刊组合间的余弦相似度进行加权来测度新颖性。二是从主题内容视角。沈阳[24]从关键词的频次、时间等维度评价论文新颖性。钱玲飞等[25]、杨建林等[26]使用关键词对逆文档频率方法量化主题新颖性,其研究表明主题新颖度高只是保证论文质量的前提之一。任海英等[27]采用论文标题、摘要和关键词来表征论文的主题内容,构建主题词共现频数网络,以此判定论文新颖性类型。
基于知识组合视角的技术新颖性测度方法同样得到了广泛的关注,主要是利用专利技术分类代码组合[28-31]和专利主题内容组合[12-16,32]来测度技术新颖性。任海英等[12]基于主题词频次构建专利的前向/后向知识网络来评估专利主题内容的新颖性,并采用负二项回归模型研究新颖性与被引次数等特征的关系,其研究表明内容新颖性会对突破性发明产生正向影响。刘玉琴等[13]使用文本挖掘技术计算专利相似度,以此构建技术新颖度测算指标,评价某段时间内专利群体的价值和技术新颖性的关系。Schilling等[14]运用主题模型识别特定专利数据集中新主题的产生,发现蕴含新颖主题的专利相较于其他专利会获得更高的被引频次。Lee等[15]使用文本挖掘技术和局部离群因子方法来衡量专利的新颖性程度,并以具备高新颖性的专利为焦点,构建专利识别图,发现新的技术机会。Kim等[16]研究了专利的主题内容新颖性和常规性与其影响力的关系,发现在常规技术组合中引入新颖技术组合的专利,会获得更高的被引频次。Arts等[32]将自然语言处理的方法与以往基于引文和专利分类的方法进行对比,发现基于关键词组合的方法更容易识别新颖的专利。
从上述研究中可以看到,大多数学者从知识元组合共现次数或主题相似度等单一角度来测度知识组合新颖性,这很可能会低估知识元组合概率,而高估技术的新颖度。在以往研究的基础上,本文提出了一种更加全面的衡量技术主题内容新颖性的方法。
3 研究方法
评估新颖性意味着与现有知识进行比较。本文认为若某项技术的知识元组合以往没有出现过且出现可能性较低,则认为该项技术具备新颖性。专利的标题和摘要作为技术的知识元,可从中抽取出主题词来代表专利的主题内容,通过测度主题词组合的新颖程度来评价技术主题新颖性。因此,某项技术的主题词组合出现的概率越低,主题内容新颖性越高。
3.1 主题内容新颖性测度指标
以往使用主题词共现频次可能会低估主题词组合概率。比如,若两个主题词并没有共现,但它们分别与其他相似的主题词共现,则它们之间具有间接关系。除主题词组合直接关系和间接关系外,主题词的语义层面相似性也是影响组合概率的一个因素,两个主题词语义越相似,发生组合的概率越高。基于此,本文提出了一种综合测度技术主题内容新颖性的方法,该方法融合了主题词对的共现关系、链接概率以及语义相似性。
主题词组合新颖性测度方法的具体流程如图1所示,采用线性加权模型,结合主题词组合直接共现概率poccur、间接链接概率plink和语义相似度psemantic三个指标来测度组合(w1,w2)的新颖性,
图1 主题内容新颖性测度方法
三种新颖性测度指标的计算都是根据专利申请年t之前的数据计算的。pcombinet(w1,w2)是测度主题词组合新颖性的三种指标线性加权的概率值,该概率值越低,表示主题词组合新颖性越高。λ和μ作为调节因子控制三种指标的权重。熵值法[33]能够根据各项指标观测值所提供的信息的大小来确定指标权重,这里采用熵值法确定调节因子λ和μ的值。
3.1.1 主题词组合直接共现概率
若一项专利包含以前没有共同出现或共现次数较少的主题词组合,则认为该专利在共现方面具备新颖性,即
其中,fw1w2表示在该专利申请年份t前的所有专利中主题词出现的频次。
3.1.2 主题词组合间接链接概率
若一项专利的主题词组合包含不太可能产生链接的主题词组合,则认为该专利具有新颖性。采用复杂网络中的链接预测方法,基于现有的知识网络结构来度量主题词组合的间接链接概率。链接分析中有一些代表性的方法,如共同邻居法、Adamic/Adar[34]、Katz[35]。根 据 先 前 的 研 究[36-37],Adamic/Adar被证明是一种相对简单有效的方法,通过加大稀有邻居的权重,对常见邻居的简单计数进行了改进。本文使用Adamic/Adar来测量两个主题词的未来链接概率,即
其中,Γ(j)表示知识网络中节点k的邻居集合。
3.1.3 主题词组合语义相似概率
利用表示学习word2vec算法[38]将专利主题词表示成低维稠密的向量,并采用余弦相似度衡量主题词组合的语义相似性程度。word2vec的skip-gram模型[38]如图2所示,具有输入层、隐藏层和输出层这三层结构的神经元网络,用文本序列{w1,w2,…,wn}中的每个词向量w→l预测该词上下文词的向量,使公式
图2 skip-gram模型结构图[38]
的损失函数概率最大化来学习词向量,利用该模型捕捉主题词之间隐含语义相似关系。
假设利用word2vec算法将主题词w1、w2表示为词 向 量,分 别 为w→1=(a1,a2,…,an)和w→2=(b1,b2,…,bn),则主题词组合(w1,w2)的语义相似度为
3.1.4 熵值赋权法
在构建主题内容新颖性综合指标pcombine时,三种指标的贡献不同。本文使用熵值法[39]来确定权重λ和μ的值。指标离散程度越大,熵值越小,指标对综合评价的影响越大,该指标所占的权重越大。基于熵值法计算权重的步骤如下:
Step1.假设t年所有专利有n个主题词组合,每个主题词组合有三个指标:共现概率poccur、链接概率plink和语义相似度psemantic;那么xij是第i个主题词组合第j个指标的值(i=1,2,3,…,n;j=1,2,3)。
Step2.指标标准化:对三种指标进行归一化处理来消除三种指标量纲的不同。由于正负向指标采用的归一化方法不同,而本文中的三种指标对pcombine的影响均为正向影响,例如,某对主题词组合以往出现概率越高,或间接链接的概率越大,或语义相似度程度越高,该组合出现的概率越大。故对指标进行归一化的公式为若j为正向指标,则
若j为负向指标,则
Step3.计算指标中第i个主题词组合在第j个指标下的占比,
Step4.计算第j个指标的熵,
其中,k=1/ln(n);ej≥0。
Step5.计算各指标权重,
Step6.计算每一对主题词组合的新颖性概率,
3.2 主题内容新颖性类型确定
借鉴Klavans等[20]扩大指标值的做法,对专利主题词组合概率pcombine采用公式
进行适当扩大化处理,得到主题词组合(w1,w2)概率值zscore。其中,ξexp为t年所有专利主题词组合pcombine的均值,σVar为t年所有专利主题词组合pcombine的方差。
专利由多对主题词组合组成,基于以上对主题词组合概率的定义,可得到专利的主题词组合概率值分布。借鉴Uzzi等[19]评价论文新颖性方法,评价一项专利常规性和新颖性的高低,需要明确两个指标的定义:若t年的一项专利主题词组合值分布的中位数高于t年所有专利主题词组合值分布的中位数,则该项专利具备高常规性;若该专利第10个百分位数小于零,则该项专利具备高新颖性。将专利分类分为四种类型:高常规性/高新颖性(high conven‐tionality/high novelty,C+N+)、高常规性/低新颖性(high conventionality/low novelty,C+N-)、低常规性/高 新颖性(low conventionality/high novelty,CN+)、低常规性/低新颖性(low conventionality/low novelty,C-N-)。
4 实证研究
4.1 数据来源与处理
为验证专利新颖性测度方法的可行性,利用涵盖全球范围内海量专利数据的incoPat专利数据库,检索人工智能领域相关专利。根据新兴技术行业研究公司Venture Scanner对人工智能的分类,借鉴张振刚等[39]、赵蓉英等[40]的检索策略,参考《人工智能标准化白皮书(2018版)》①http://www.cesi.cn/images/editor/20180124/20180124135528742.pdf,最终检索式构造为((TIAB=人工智能OR深度学习OR自然语言处理OR语音识别OR计算机视觉OR遥感控制OR智能机器人OR视频识别OR语音翻译OR图像识别OR机器学习)or(TIAB=("artificial intelligence*"OR" Depth learning*"OR" Natural language processing*"OR" Speech Recognition*"OR" Computer vision*"OR" Gesture control*"OR"smart robot*"OR"Video rec‐ognition*"OR"Voice translation*"OR" Image Recogni‐tion*"OR"Machine learning*")))NOT((IPC-SUB‐CLASS=("H04M"))OR(IPC-SUBCLASS=("A61B"))OR(IPC-SUBCLASS=("G08G"))OR(IPC-SUBCLASS=("G05B"))OR(IPC-SUBCLASS=("G09B"))OR(IPCSUBCLASS=("B60R")))。检索到人工智能领域发明专利总共292275条(检索时间为2020年1月14日)。中国、美国、日本和其他主要国家的专利申请量随时间变化趋势如图3所示。中国的专利数量增长最快,在2009年超过了美国专利数量。
图3 主要国家人工智能专利申请量变化趋势
本文采用专利的标题和摘要文本来表征专利的主题内容,数据预处理流程如图4所示。首先,in‐coPat数据库对每项专利的标题和摘要都分别有翻译字段,为后续工作的便利性,本文统一提取专利的中文标题和摘要;其次,将每项专利的中文标题和摘要合并为一个字段,此处简称为“TA”;最后,对专利的“TA”字段进行分词、去除停用词等操作,得到专利最终的主题词。为了保证专利主题词的可靠性,建立人工智能领域自定义词典,词典的构建基于人工智能领域专家及《人工智能技术手册》[41]等确定的人工智能技术主题和关键词作为自定义词典的内容,并搜集人工智能领域重要词汇表,总共建立了2552个关键词。词表的建立提高了分词的准确性,可通过不断更新为后续研究提供保障。
图4 专利主题内容数据处理流程图
4.2 主题内容新颖性测度指标的实证研究
4.2.1 案例分析
本文首先选择一项专利作为案例研究来说明技术新颖性度量指标的计算方法和有效性。该项专利于2014年11月由Facebook公司申请,标题为《用于控制照相机装置的控制装置和用于控制照相机装置的增强现实应用程序的方法》(“Control device for controlling a camera arrangement and a method for controlling an augmented reality application program of the camera arrangement”),专利申请号为US15038030。提取该专利的标题和摘要用于表征该专利的主题内容,对主题内容进行如图4所示的数据预处理工作得到该专利的组合词,如表1所示。
表1 示例专利主题词的提取
对该专利的组合词进行两两组合,得到如表2所示的主题词组合,通过计算主题词组合直接共现次数、间接链接概率及语义相似度,得到新颖性度量值zscore。“广角镜头-触摸屏”组合以往未出现过,间接链接及语义相似度都比较低,所以该组合的新颖性程度更高;“增强现实-照相机”组合以往出现了960次,未来链接的可能性也很高,加权求和后的概率值较高,故该组合的常规性程度更高。由于该专利主题词组合分布的中位数2.77小于该年所有专利主题词组合的中位数2.94,该专利主题词组合分布的第10个百分位数为-5.63<0,所以该专利的新颖性类型为低常规性/高新颖性(C-N+)。
表2 示例专利主题词组合的新颖性值
4.2.2 指标评价
新颖度测度方法的结果是输出一个按照新颖度概率排序的列表。由于没有基础数据来比较结果,所以邀请四位人工智能相关专业领域研究人员来对数据进行标注,以评估指标效果。为了减少主观因素对结果的影响,标注人员比较标注两项专利的相对新颖性程度,而不是标注一项专利的新颖性程度。比如,随机选择两项专利PA和PB来进行比较,研究人员需要结合自身经验并查阅资料判断同时期的两项人工智能专利的相对新颖性。若PA比PB更新颖,则(PA,PB)被标记为1;反之,标记为-1;若认为PA和PB同样新颖,标记为0。四位研究人员单独标注,若产生不一致,则以多数人标注结果为准。从2001—2019年每年随机抽取50对专利,在评价集中共产生950个样本,考察四位研究人员标注的结果,两两一致性均超过85%,因此本文认为人工标注结果具有可靠性。
若本文提出测度新颖性方法得出的(PA,PB)新颖性程度比较结果与人工标注结论相同,则认为该测度方法是正确的。采用准确率指标,其计算公式为n′/n,其中n′为新颖性测度指标预测正确的样本数,n为总样本数。三种单一指标与综合指标的Spearman两两相关性以及各指标的准确率结果如表3所示。综合指标与三个单项指标呈正相关,且显著性水平为0.01。从结果可以看出,本文提出的基于组合概率的指标相比于单一指标提高了准确率。
表3 指标间Spearman相关系数及准确率
4.3 主题新颖性与影响力的关系研究
专利的新颖性特征与其影响力是否存在关系?这里研究了新颖性特征与表征专利影响力的被引次数的关系。
4.3.1 新颖性与高被引
本节研究专利的高新颖性与高被引之间是否存在联系。先是时间段的选择。被引次数随时间累积,如图5所示,在各个时间段内成为高被引专利的阈值相差较大。在2001—2005年,被引次数排名前1%的阈值为100,排名前5%的阈值为53;而2016—2019年,被引次数排名前1%的阈值为6,排名前5%的阈值为3。采用2001—2005年和2006—2010年这两个较早的时间段,研究专利新颖性与被引次数的关系。
图5 不同时间段专利被引次数排名前x%的阈值(x=1,5,10)
表4和表5列出的是2001—2005年被引次数排名前10位和新颖性排名前10位的专利。初步可以看出两者之间的关系,被引次数排名前10位的专利中有9个都属于高新颖性类型的专利,仅有1项专利(US10740242)为低新颖性。新颖性值排名较高的专利其被引次数却不一定高,因为新颖性专利本身具有一定的风险性和不确定性,即高被引的专利一般都具有高新颖性,但是具备高新颖性不一定成为高被引专利。
表4 被引次数排名前10位的专利
表5 新颖性值排名前10位的专利
图6展示的是在2001—2005年和2006—2010年两个时间段内专利新颖性类型与高被引专利的关系。纵坐标表示的是四种不同类型的高被引专利占该时间段专利总数的比例,采用三种方法定义高被引专利,分别是被引次数排名前1%、5%和10%。不论采用哪种定义高被引专利的方法,也不论在哪个时间段,低常规性/高新颖性(C-N+,D)相比于其他类型是高被引专利的概率均最高。相比之下,高常规性/低新颖性(C+N-,A)、高常规性/高新颖性(C+N+,B)和低常规性/低新颖性(CN-,C)类型的专利成为高被引的概率要低得多。
图6 专利新颖性类型与高被引的关系A表示高常规性/低新颖性(C+N-),B表示高常规性/高新颖性(C+N+),C表示低常规性/低新颖性(C-N-),D表示低常规性/高新颖性(C-N+)。
4.3.2 新颖性与平均被引
图7展示的是不同主题内容组合新颖性类型专利在不同时间的平均被引次数。在2001—2019年时间段内,高常规性/高新颖性专利(C+N+,B)平均被引次数最高,有5.16次;低常规性/低新颖性专利(C-N-,C)平均被引次数最低,仅有1.62次。这说明在专利写作过程中,注重新颖性的同时,也需要结合传统常规知识的表述或传承,相对来说能够产生更高的影响力。
图7 不同主题新颖性类型专利的平均被引情况
5 总结与展望
本文提出了一种基于知识组合概率来衡量专利技术主题内容新颖性的方法,该方法综合考虑了知识元之间的直接共现概率、未来链接概率和语义相似概率,通过主题词组合值分布的第10个百分位数和中位数来衡量专利的新颖性与常规性。该方法通过人工智能领域的发明专利进行了验证,利用人工标注的数据来评价,准确率可以达到0.851,优于只使用单一指标来测度主题内容新颖性的方法。
从新颖性与影响力的关系来看,具备高新颖性特征的专利相比于其他类型更有可能成为高被引专利。高新颖性/高常规性专利(C+N+)平均被引次数最高。这对于专利发明人来说具有一定的启示作用,在进行选题及撰写专利文档时,要注重结合新颖性内容和常规性内容。此外,很多技术成果长期处在无人问津的状态,其影响往往需要很长的时间才能充分显现出来,仅用事后指标(如被引次数)并不适合识别新颖性专利。本文提出综合多种事前指标的测度方法可以及时监测潜在新颖性知识组合,尽早发现新颖性专利,降低高新颖性专利被延迟发现的风险。
本文评估指标的数据由于缺乏基准数据,利用人工标注来评价;未来的工作将精心设计更加严谨的评估方法和更加全面的测度指标,并将其应用于其他领域,以证明该方法的广泛可行性。综合评价技术新颖性,既要考虑评价事前指标,如本文提出的poccur、plink和psemantic这三个指标;也要考虑评价事后指标,如被引次数;还要考虑到技术新颖性可能来源于科学知识,如被引科技论文数及主题内容等。因此,在本文技术新颖性测度的基础上,未来工作需要进一步构建能够识别重大突破性技术的相关指标和算法,期望有效识别对科技发展有重大影响的新兴技术和颠覆性技术。