基于表示学习的专利科学关联度分析
2021-08-30孙晓玲陈娜
孙晓玲 陈娜
摘要:创新驱动发展战略下,科学知识与技术创新间关系愈发的多层面化和高复杂化。从引用科学知识的专利入手,利用表示学习从语义层面上分析专利科学关联关系,特别是高价值专利引用何种特征的科学知识,并比较中美两国专利科学引文主题的异同,从中美两国产学研合作网络中关键创新主体的演化情况来探索引发该现象的原因。以人工智能领域为例,研究表明,高价值专利的科学关联度更高,生物医学领域对高价值专利的支撑作用更为明显;中国在高价值专利数量上处于劣势,且在智能医学领域及基础硬件的技术创新能力较弱,但近年来在电力领域的优势越来越明显,这离不开国家电网在产学研合作网络的核心位置。此外,值得关注的是未来人工智能在地震监测等新兴领域的应用。
关键词:专利科学关联度;科学知识;表示学习;专利价值
中图分类号:G350文献标识码: ADOI:10.3969/j.issn.1003-8256.2021.03.002
开放科学(资源服务)标识码(OSID):
0引言
在知识经济时代下,全球创新知识基因加速流动,也促进着科学知识和技术知识之间相互影响、相互作用,越来越多的企业重视和依赖科学创新,科学知识对技术知识的遗传产生了一定的促进作用[1]、科学与技术网络间存在着相互影响关系[2]。因此,强大的基础科学研究是建设世界科技强国的基石,世界主要发达国家普遍强化基础研究战略部署,全球科技竞争不断向基础研究前移。经过多年的发展,我国基础科学研究取得长足进步,整体水平显著提高,支撑技术成果产出的作用不断增强,基础研究与技术创新之间的关系更加紧密,但与建设知识产权强国要求相比,我国基础科学研究短板依然突出,基础研究投入不足、结构不合理、重大原始创新成果缺乏。基于此环境背景下,探究科学与技术间的关联关系尤为必要,尤其是掌握基础科学研究对技术创新价值的影响规律,增强支撑引领创新驱动发展的源头供给能力,以此加快建设科技强国的步伐。
具備哪些特征的科学知识与技术创新联系更为紧密?何种领域、何种学科的科学知识更能产生高价值专利?已有研究没有涉及。而我国专利数量已领先美国,成为全球专利布局最多的国家[3]。要清醒认识到专利数量的快速增长与经济产业转型、从要素驱动向创新驱动转变的国情和各类激励政策有着紧密的联系[4]。我国大量专利申请集中在技术应用方面,缺少重大原创成果,一些关键技术与美国等发达国家仍存在差距[5],因此,探究中美两国不同等级价值专利在引用科学知识的差别及产生这种差别核心创新主体的演变情况具有重要意义。
基于上述问题,本文从引用科学知识的专利入手,基于文本内容表示学习方法研究促进技术知识流动的科学知识特征,并揭示高价值专利引用科学知识的特征,比较中美两国各等级专利科学引文主题内容的异同以及关键创新主体演化情况对专利科学引文主题内容不同的影响。
1相关研究
科学与技术间的关系犹如一对舞者交相呼应,两者呈现交叉融合的趋势[6]。目前科学与技术间关系的研究已成为科学计量学、情报学等领域的热点研究领域,对于科学与技术关系研究方法呈现百家争鸣的情景,主要有科学技术哲学法[7]、模型研究法[8]、基于论文和专利分析的文献计量法[9-15]等。
文献计量方法成为研究科学与技术关系的热点方法,而基于专利的论文引文分析法作为文献计量学研究科学与技术关系常用方法,主要目的是揭示基础研究对技术创新的推动作用。专利引用的论文作为非专利引文(Non-Patent References,NPR)的一种类型[9],不仅包含申请人引用的科学论文,还包括审查员审查过程中加入的科学文献,分析专利引用的论文常用来比较不同国家科学与技术间关系的异同,识别与科学知识关系较强的技术领域等[10],如有学者将论文和专利分别视作科学研究成果和技术创新成果的表现形式,采用基于论文和专利分析的文献计量方法研究科学与技术间的数量特征[11]和主题内容特征[12]。此外,通过对专利引用的科学文献进行深入研究,可发现科学与技术的关联关系呈现出学科导向性,生物技术、制药和有机化学等技术领域与科学知识的关联度更高[13],殷媛媛[14]研究了立体显示领域的专利引用论文时滞、科学关联度、专利引用论文国家、专利引用论文种类等。还有学者从纳米领域专利科学引文内容角度研究科学与技术主题关联度[15],但是,少有学者研究高价值专利科学引文与非高价值专利科学引文的主题内容及新颖性结构有何异同,是否也具备着学科导向性?
何为高价值专利?Innography专利数据库结合多种评价指标建立数学模型评估专利价值,并依次将专利划分为核心专利、重要专利和一般专利,国内外大多数学者认为核心专利即为高价值专利[16]。因此,本文依据大多数专利数据库对专利等级的划分,并结合知识表示学习中的Doc2vec模型将各等级专利科学引文的标题信息表示为低维稠密实值向量,在低维空间中计算各等级专利的科学关联度[17]。Doc2vec模型是在经典Word2vec模型[18]基础上进行改进,能从可变长度的文本(如文档、段落、句子)中学习固定长度的特征向量表示[19]。
2研究方法
本文从引用科学文献的专利入手,研究具有何种特征的科学知识更易被高价值专利所引用,中美两国专利科学引文主题内容有何异同以及从产学研合作网络演变视角阐释产生差异的原因,技术路线见图1。以人工智能领域为例:首先,进行提取专利及科学引文标题、去词干化、分词等数据预处理工作;其次,利用Doc2Vec表示学习方法对专利标题和科学引文标题语义信息进行向量表示,并基于主题聚类算法及向量相似度计算指标挖掘何种主题的科学知识更能支撑高质量专利的产生;最后,对比中美两国专利的科学引文主题异同,利用中美两国专利的产学研合作网络中关键创新主体的演化情况来阐释出现科学引文主题内容不同现象的缘由。
2.1基于表示学习的专利科学引文内容语义表示
本文采用Doc2vec中的PV-DM模型将专利标题及其科学引文标题分别表示为特定维度稠密的语义向量,其表示原理见图2。首先,从分词后的标题中滑动采样固定长度的词,取其中一个词(如单词on)作为预测词,其他的(如单词the、cat、sat)作为输入词,输入词被映射为向量,由矩阵W的某一列表示,该标题也被映射成唯一标识的向量,并由矩阵D的某一列表示;其次,对标题向量与单词向量求平均或者累加构成一个新的向量,进而使用该向量预测此次窗口内的预测词,即预测句子中的下一个单词;最后,迭代上述过程,滑动截取句子中另一小部分词来训练,更新矩阵D和W。该模型的优点在于训练过程中标题的ID保持不变,扮演着记忆向量的作用,融合了之前训练的每个词向量,同一个标题会有多次训练,更能明确表达出每个标题的主题。
3专利科学关联度的实证分析
3.1数据来源与处理
本文数据来源于incoPat科技创新情报平台,该平台是一个涵盖世界范围海量专利信息的检索系统。根据新兴技术行业研究公司Venture Scanner对人工智能的分类,借鉴张振刚等[21]、赵蓉英等[22]采用的检索策略,参考中国《人工智能领域标准化白皮书2018》,并结合专家意见,最终检索式为:((TIAB=人工智能OR深度学习OR自然语言处理OR语音识别OR计算机视觉OR遥感控制OR智能机器人OR视频识别OR语音翻译OR图像识别OR机器学习)OR(TIAB=("Artificial intelligence*" OR "Depth learning*" OR"Natural language processing*" OR "Speech Recognition*" OR "Computer vision*" OR "Gesture control* " OR "Smart robot*" OR "Video recognition*" OR "Voice translation*" OR "Image Recognition*" OR "Machine learning*")))NOT((IPC-SUBCLASS=("H04M"))OR(IPCSUBCLASS=("A61B"))OR(IPC-SUBCLASS=("G08G"))OR(IPC-SUBCLASS=("G05B"))OR(IPC-SUBCLASS=("G09B"))OR(IPCSUBCLASS=("B60R"))),共檢索到人工智能领域发明专利总共127246条(检索时间为2019年6月8日)。人工智能领域专利2000—2018年间的申请量和公开量如图3所示,本文将其发展阶段分为三个阶段来研究,分别是:2000—2008、2009—2013、2014—2018。
IncoPat数据库依托其自主研发的专利价值模型(该模型融合了技术稳定性、技术先进性、保护范围层面等20多个专利分析行业内最常见和重要的技术指标)对专利价值进行计算,将专利分为1~10分,分数越高代表专利价值越高,部分评价指标如图4所示。
本文依此将专利分为三个等级,分别是核心专利(9~10分)、重要专利(4~8分)、一般专利(1~3分)。各等级专利量如表1所示,一般专利、重要专利、核心专利占总专利量分别为8.73%、60.57%、30.71%,有引证科技文献的专利占比19.03%,其中核心专利引用的科技文献比例最高,这是否说明核心专利更易引用科技文献。从中美两国专利占比率可看出,中国专利量高于美国,但核心专利占比率不足美国的一半。
从中美两国专利价值度数量分布情况(图5),美国核心专利占美国专利总量的比例高达46.6%,其中专利价值度为10的比例为29%;而中国专利价值度为10的占中国专利总量的比例只有1.8%,仅有美国的1/ 16左右。可见,中国专利数量领先美国,但高价值专利数量落后于美国。
引证科技文献中包含论文、专利文献、科技报告、政府出版物和产品资料等,本文目的是为了研究专利的科学知识特征,故利用Python代码提取会议论文、期刊论文和学位论文等科学引文标题。此外,由于论文标题中包含不同语言,故本文统一翻译为中文语料,其处理流程见图6所示,对翻译后的标题进行词干化、分词等数据预处理后导入Doc2vec模型中进行句子向量表示。
3.2基于各等级价值的专利科学关联度分析
3.2.1各等级专利科学主题聚类分析
采用K-means++算法对各等级专利标题及其科学引文标题进行主题聚类,最终一般专利被划分为3类,重要专利和核心专利被划分为4类,统计每个类别频次排名前五的关键词(表2)。从表中可见各等级专利均涉及3类,分别是视觉类(关键词有图像识别、机器视觉等)、语音类(关键词有语音识别、语音采集等)和自然语言处理类(关键词有机器翻译、文本等),但重要专利和核心专利的科学引文包含蛋白质、基因、细胞、磷酸化等关键词,说明生物医学领域的科学知识对重要专利和核心专利的产生具有一定的促进作用,也体现了学科交叉性对于技术创新的促进作用。
3.2.2各等级专利的科学关联度分析
从表2可看出,各等级专利的主题类型与其科学引文主题类型大致对应。计算各等级专利的科学关联度见图7,重要专利的科学关联度均值最高,一般专利的相似度均值最低,仅有0.258。从误差线可看出,重要专利的标准差最高,达到了0.241,核心专利的科学关联度均值虽低于重要专利,但其误差最小。由此可见,核心专利和重要专利的科学关联度较高。
3.3基于中美两国专利的科学关联度分析
3.3.1不同等级价值专利的科学引文主题聚类分析
通过对中美两国各等级专利引用科学文献的主题进行聚类分析,依据CH指标评估分类效果,KMeans++算法最终将中美两国各等级专利科学引文分类(见表3)。从各等级专利科学引文的主题类别可看出,首先,除了中国的一般专利未出现生物医学领域的关键词,中美两国各等级专利均涉及生物医学、视觉类、语音类等热门领域关键词;其次,中国重要专利和核心专利均出现电力领域的关键词,人工智能应用于电力工程领域值得关注,此外,中国的重要专利还出现了岩石细观图像、表征分析等关键词,值得留意人工智能在地震检测新兴产业领域的应用;最后,美国核心专利涉及传感器、扬声器、芯片等关键词,说明美国在基础硬件方面占据一定的地位。
3.3.2基于社会网络分析的专利科学引文主题不同缘由分析
研究關键创新主体的革新情况,能够及时准确把握人工智能领域主题走向,对于科研人员及政府机构制定决策具有一定的参考作用。首先,基于中美两国专利申请人的共现关系构建产学研合作网络,其中节点代表申请机构,边是机构间的合作共现关系,研究产学研合作网络整体演化情况;其次,利用中介中心性[23]指标识别关键创新主体。从整体产学研合作网络看,2000—2008年,处于核心位置前列的均是美国巨头企业,如摩托罗拉、IBM等,见图8。而2009—2013年,国家电网人工智能领域的专利申请量明显增多,位于产学研合作网络的中介位置,除此之外,还有美国的英特尔和日本电气公司(NEC),见图9。2014—2018年出现了一个最大的中心节点——国家电网,见图10。因此,对比中美专利申请人分布情况,可看出2013年以前,美国的企业占据着产学研合作网络的中心位置,而2014—2018年国家电网人工智能专利数量可谓突飞猛进,逐步成为产学研合作网络中的核心节点。该现象阐明了为何中国重要专利和核心专利科学引文主题涉及电力领域的关键词,即专利科学引文主题与创新主体具有一定的联系。
4结论与建议
专利通过对人工智能领域各等级专利的科学引文主题及专利科学关联度进行对比分析,得到以下结论:首先,各等级专利主题及科学引文主题均涉及语音类、视觉类和自然语言类;其次,生物医学领域的科学知识更能支撑高价值专利的产生;最后,核心专利和重点专利的科学关联度远高于一般专利,说明核心专利和重点专利引用的科学文献更相关。
通过对中美两国人工智能领域专利数量、科学引文主题及关键创新主体的演化情况,得出以下结论:第一,中国专利数量领先美国,但中国高价值专利数量未达美国的一半,美国在高价值专利方面遥遥领先;第二,除中国一般专利科学引文未涉及生物医学领域,中美两国专利科学引文主题均涉及生物医学、语音类、视觉类;第三,人工智能在电力领域的应用逐渐成为我国的优势,从国家电网在产学研合作网络中逐渐占据中介位置亦能看出,但我国在基础硬件方面实力有待加强;最后,值得注意人工智能在地震检测等新兴产业的应用。
以上结论显示,语音识别、图像识别、自然语言处理是各等级专利的热点研究领域,生物医学领域的科学知识与技术知识之间的流动性较为频繁,更能支撑高价值专利的产生。我国人工智能虽在电力领域的应用处于优势地位,但在基础硬件领域还有待提高。未来工作将在更多领域中研究基础研究与技术创新的关联性,为国家制定相关科技政策提供决策依据。
参考文献:
[1]孙晓玲,李冰,杨阳,等.科学知识对技术知识遗传的影响研究——基于多引用代与语义内容视角[J].科学学与科学技术管理, 2019, 40(2): 3-15.
[2]朱桂龙,李兴耀. AI领域基础科学网络对技术创新网络影响研究[J].科学学研究, 2019, 37(3): 135-143.
[3]周伯柱, GUPTAA.基于论文和专利分析的人工智能发展态势研究[J].世界科技研究与发展, 2019, 41(4): 380-391.
[4]张涵.?中国人工智能发展报告2018?正式发布[J].中国国情国力, 2018(8): 80.
[5]黄辛.?中国新一代人工智能发展报告2019?发布[N].中国科学报,2019-05-30( 007).
[6]RIP A.Scienceandtechnologyasdancingpartnersin technological development and science in the industrial age[M]. Bakker: Kroes Press, 1992: 231-270.
[7]郭慧志,郭红燕,施凤丹.大脑与手:从工业革命论科学与技术的关系[J].科学学研究, 2007, 25(2): 178-183.
[8]ZHAO Q, GUAN J . Modeling the dynamic relation between science and technology in nanotechnology [J]. Scientometrics, 2012(2) : 561-579.
[9]陳凯,徐峰,程如烟.非专利引文分析研究进展[J].图书情报工作, 2015, 59(5): 137-144.
[10]刘小玲,谭宗颖,张超星.国内外"科学-技术关系"研究方法述评——聚焦文献计量方法[J].图书情报工作, 2015, 59(13): 142-148.
[11] NARINFN.Istechnologybecomingscience?[J]. Scientometrics, 2007, 7(3/6): 369-381.
[12]孙晓玲,丁堃.基于知识基因发现的科学与技术关系研究[J].情报理论与实践, 2017, 40(6): 17, 23-26.
[13] GUAN J, HE Y. Patent-bibliometric analysis on the Chinese science—technology linkages [J]. Scientometrics, 2007, 72(3): 403-425.
[14]殷媛媛.基于论文专利引证关系的科学技术互动研究——以立体显示为实证分析[J].图书情报工作, 2012, 56(16): 65-70, 74.
[15]张金柱,王玥,胡一鸣.基于专利科学引文内容表示学习的科学技术主题关联分析研究[J].数据分析与知识发现, 2019, 3(12): 52-60.
[16]陆萍,柯岚馨. Innography在学科核心专利挖掘中的应用研究[J].图书馆工作与研究, 2012(8): 122-125.
[17]刘知远,孙茂松,林衍凯,等.知识表示学习研究进展[J].计算机研究与发展, 2016, 53(2): 247-261.
[18] MIKOLOV T , CHEN K , CORRADO G , et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013: 1-12.
[19] LE Q V, MIKOLOV T. Distributed representations of sentences and documents [C]. // 31st International Conference on Machine Learning, ICML , 2014.
[20] ARTHUR D , VASSILVITSKII S . K-means++: the advantages of careful seeding[C].// In Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, New Orleans, SIAM, 2007: 1027-1035.
[21]张振刚,黄洁明,陈一华.基于专利计量的人工智能技术前沿识别及趋势分析[J].科技管理研究, 2018, 38(5): 36-42.
[22]赵蓉英,李新来,李丹阳.专利引证视角下的核心专利研究——以人工智能领域为例[J].情报理论与实践, 2019, 42(3): 78-84.
[23] FREEMAN L C.Centrality in social networks conceptual clarification [J]. Social Networks, 1979, 1(3): 215-239.
Analysis of Patent Science Relevance Based on Representation Learning
SUN Xiaoling,CHEN Na(Institute of Science of Science and S.&T. Management, Dalian University of Technology , Dalian 116024,China)
Abstract: Under the innovation-driven development strategy, the relationship between scientific knowledge and technological innovation has become increasingly multi-faceted and highly complex. Starting from patents that cite scientific knowledge, use representation learning to analyze the relationship of patent science from a semantic level, especially the scientific knowledge of which features are cited in high-value patents, and compare the similarities and differences in the subject matter of patent science citations between China and the United States. The evolution of key innovation entities in the domestic university-research cooperation network to explore the reasons for this phenomenon. Taking the field of artificial intelligence as an example, the result has shown that high-value patents are more scientifically related, and the biomedical field has a more obvious supporting role for high-value patents; China is at a disadvantage in the number of high-value patents, and it is in the field of intelligent medicine and the technological innovation capability of basic hardware is relatively weak, but in recent years, the advantages in the power field have become more and more obvious. This is inseparable from the core position of State Grid in the industry-university-research cooperation network. In addition, it is worth paying attention to the application of artificial intelligence in emerging fields such as earthquake monitoring in the future.
Keywords: patent science relevance;scientific knowledge;representation learning;patent value