基于专利文本挖掘的细粒度技术机会分析
2023-11-21吴柯烨孙建军谢紫悦
吴柯烨,孙建军,谢紫悦
(1. 南京大学信息管理学院,南京 210023;2. 南京大学数据智能与交叉创新实验室,南京 210023)
0 引 言
随着新一轮的科技革命与产业变革席卷全球,科技已逐渐成为评估国家综合实力、促进社会经济转型、提升企业竞争优势的关键变量。及时洞悉技术发展变化并快速识别潜在机会,不仅是各级科研单位实现自主创新,攻克核心技术壁垒,国家提升科技竞争力的必经之路;更是技术密集型企业高效管理生产活动,合理调配研发资源,提高科技成果转化率的先决条件。因此,技术机会分析对于技术创新活动的开展,具有重大的战略指导意义。
为清晰识别不同场景下的技术机会,满足企业的异质性需求,技术机会分析需要对于复杂技术创新系统进行细粒度拆解。鉴于此,现有研究通常以关键词形式细粒度地表征领域知识,并采用技术主题或SAO (subject-action-object) 语义结构表示技术机会[1]。然而,此类方法主要依赖于专家预先定义的领域专业词表来确定领域关键词[2],知识体系较为固化,难以匹配技术的动态发展;而技术机会又具备较强的时效性,应精准适配当下的环境变迁与技术发展。因此,技术机会分析的前提工作是实现自动化构建细粒度领域知识网络并探究其演化路径。只有在清晰掌握领域知识全貌、明确技术生命周期的基础上,才能精准且高效地开展技术机会识别和分析。
另外,在学科交叉与技术融合的大背景下,知识重组俨然成为了技术机会的核心特征[3]。通过整合来自不同领域的知识,可以有效解决复杂技术难题,推动技术发展。组合性和递归性作为技术的本质特征,使得技术需依赖于自身结构完成自循环式的进化[4],因此,现有研究通常从知识挖掘与组合的角度开展定量化技术机会分析[5]。链路预测法通过测算网络中每一对节点产生链接可能性的链路预测法,不仅能够最细粒度地直观体现知识元素间关联性,还可以灵活地应用于大规模的图结构数据,是技术机会分析的主流方法之一。然而,该类研究中所采用的链路预测指标较为传统,一方面对图结构信息的捕获能力有限,另一方面又依赖于固定的前提假设,只抽取片面的节点或图结构特征,难以整合技术机会分析所需要的多方面信息,预测精度已达瓶颈。
鉴于此,本文以专利文本为数据源,利用文本挖掘、网络分析、链路预测、深度学习等多种方法构建了一套细粒度技术机会分析框架。该分析框架的优势主要包括:①基于关键词的多维度文本特征构建了特定领域下的技术知识网络,克服领域知识表征不准确、不全面等问题。在此基础上开展的技术演化分析有助于把握技术发展脉络,为技术机会识别提供方向指引。②将BERT (bidirectional encoder representations from transformers) 预训练向量模型与图自编码器模型有机结合,充分捕获并融合了词语间共现关系特征及自身语义特征,显著提升知识网络链路预测精度,为技术机会分析产出高质量候选集。③基于产业链结构和链路预测结果,佐以多源技术发展报告,模块化产出并验证细粒度的技术机会。
1 研究综述
根据Lee[6]总结的技术预测研究框架,现有技术机会分析可大致划分为4 个步骤:数据收集、技术知识测度、技术机会挖掘以及技术机会评估。其中,专利作为技术研发的成果文件,最直接地反映了技术本身的发展现状和演化过程,是技术机会分析最主要的数据来源[7-8]。由于研究对象和研究场景的差异,各研究在技术知识测度、技术机会挖掘等环节存在异同,但也呈现一定的研究特点和趋势。
1.1 技术知识测度单元日趋细化
技术机会被认为是“技术进步可能性的集合”,而这种可能性往往蕴藏于细微的技术变化之中[9]。传统的技术机会分析方法通常采用粗粒度的IPC(international patent classification) 分类号或单篇专利表征技术知识,无法从微观层面对技术细节变化实施监测。譬如,Kim 等[10]基于异常值检测方法在专利引文网络中识别出离群专利,并从中析出未来技术创新方向。然而,离群专利所涵盖的技术知识十分广泛,难以表征确切的技术机会方向,可解释性较弱。
随着自然语言处理的进步和发展,基于专利文本内容的细粒度技术知识挖掘与技术测度受到大多数学者的青睐。以主题[11]、关键词[1]和关键词组[12]等作为技术知识的最基本表示单元,为技术机会分析提供语义特征,更精准地揭示技术内容和细节。Tshitoyan 等[12]基于领域关键词表利用word2vec 模型训练出材料科学领域的关键词向量,以达到超前预测材料功能性应用的目的;Feng 等[2]利用TF-IDF(term frequency-inverse document frequency) 指标并佐以专家知识识别特定领域下的技术创新元素。
然而,此类测度方式通常初始化于固化的领域知识,无法匹配技术的多维度、跨领域发展与应用,难以动态揭示领域全貌,且仅依据单一的词语特征,如词频或TF-IDF 指标,抽取的领域关键词较为片面,无法精准捕获新兴知识元素。鉴于此,本文集成了TF-IDF、RAKE (rapid automatic keyword extraction) 和BERT 这3 种关键词抽取算法,综合考量词语的词频、语法结构以及语义特征,从细粒度与自动化两个方面入手,实现对技术领域知识的抽取与知识网络的组织,有效避免了固有领域知识的参与。
1.2 技术机会挖掘注重知识关联性
现有研究中机会挖掘方法未形成统一范式,呈现百花齐放的态势,主要包含技术空白法、形态分析法、异常值检测法、科学与技术关联性法、链路预测法等主流机会挖掘方法[13-14]。根据分析方法的不同,各研究涉及的技术机会分析环节上存在较为明显的差异,如表1 所示。
表1 不同机会挖掘方法所涉及的知识测度与机会表示差异
虽然技术机会表征形式不一,但是其本质均是揭示技术知识之间的关联性。在针对技术空白的相关研究中,龚惠群等[16]、Lee 等[17]以领域关键词作为技术信息载体,采用主成分分析法降维并生成专利地图,将地图中的空白区域定义为所研究领域的技术机会。在探索科学与技术关联性的相关研究中,黄鲁成等[22]通过主题聚类和SAO 结构相似度从语义层面细粒度地揭示科学与技术间主题差异性,将此种差异性解释为可能出现的技术机会。由此可见,大多数学者是以知识元素间的组合关联或差异归纳来表达技术机会的主要特征[14],从知识挖掘和组合的角度开展技术机会分析[5]。
链接预测作为上述方法中最能直接体现知识之间关联性的技术机会挖掘方法,主要从特定领域的技术知识网络出发,通过链路预测指标计算网络中未来最有可能产生链接的“IPC 对”[25]或“关键词对”[12]。但是,此类研究中所采取的链路预测指标均需要具备较强的前提假设和应用场景。譬如,AA(Adamic-Adar)[26]指标在社交网络中具有很强的解释性,认为两个节点的共同领域中度小的节点贡献大于度大的节点,即若两位用户同时处在某一位小博主的朋友圈内,则可能产生较高的链接概率;反之,若两位用户同时是一位名人的粉丝,则其相互认识的概率较小。但知识元素间的共现关系可能并不会受到“明星”节点的影响,一切与研究热点相关的知识元素都可能在未来产生联动,促成相关技术的创新与发展,因此,该指标并不适用于技术知识网络。
图神经网络方法的兴起为解决上述问题提供了契机,该方法有效避免了预定义节点间相似度的计算方式,通过卷积操作学习图结构信息,并利用节点向量表征有效地融合了节点自身特征与图结构特征,为链路预测任务提供丰富信息。其中,图自编码器[27]作为该类方法的开篇之作,在各领域中有着广泛的应用。譬如,自编码器模型在生物领域中常被用于预测人类基因与疾病之间关联性,经验证其具备较高的准确性和鲁棒性[28-29]。在社交网络中,图自编码器也已经成为商品推荐、消息推送等任务的主流推荐算法[30]。另外,在交通领域,学者们基于图自编码器对交通流量[31]、交通事故[32]和交通需求等实现了智能化的时空预测[33]。类似地,本文将图自编码器模型应用于技术机会挖掘,在大规模的技术知识网络中识别出未来可能产生链接的知识元素对,为后续技术机会分析提供高质量的候选集。
2 研究框架及方法
结合现有研究特点和存在问题,本文设计了如图1 所示的基于专利文本挖掘的细粒度技术机会分析框架,以关键词或词组的形式细粒度表征技术知识,并采用关键词或词组的组合关系表征技术机会,凸显技术机会的知识关联特性。该分析框架主要包含知识网络构建及演化分析、知识元素链路预测以及技术机会评估与筛选3 个模块。下文将着重介绍技术知识网络构建方法和知识元素链路预测方法。
图1 基于专利文本挖掘的细粒度技术机会分析框架
2.1 技术知识网络构建及演化分析方法
在知识网络构建方面,本文秉持知识表征的细粒度原则,基于“关键词与词组是知识最基本的载体单位”这一假设[34],融合关键词的多维度特征,自动化抽取具有技术表征能力的知识元素并构建网络。如图2 所示,知识元素的具体抽取流程依赖于3 种不同的关键词抽取算法,分别捕获专利文本中词语的词频、语法和语义特征。
图2 知识元素抽取方法
首先,采用TF-IDF 算法抽取专利文本中的高频关键字,将其作为知识元素的必要组成部分。其次,通过RAKE 模型捕获词语之间的共现关系,识别出占据核心语法位置的n-gram 关键词组[35]。再其次,利用BERT 预训练模型和向量相似度,计算得出与文本内容最契合的关键短语[36]。需要注意的是,上述两组关键词中都必须包含TF-IDF 候选字,以保证领域专指性。最后,合并RAKE 与BERT 模型的抽取结果,即可得到同时具备高词频、动名词性以及核心语义等多个关键特征的技术知识元素。在构建网络连边方面,为避免知识元素间的语义重复性,将网络中连边由简单的共现关系改为仅关联非语义重复的知识元素对,即两个知识元素没有相同的TF-IDF 关键字才可以建立链接。例如,“training sample”和“training set”中都出现training,存在语义重复,即使两者出现在同一篇专利文献中彼此也不会建立链接。
另外,为确保技术机会分析的时效价值,本文利用复杂网络分析法对知识网络结构进行深层次剖析,结合时间序列窥探技术的演化历程,以此指引技术机会的分析方向。具体来说,先利用知识网络的节点数和连边数揭示目标技术的横纵向发展趋势,再利用网络密度、平均路径长度、聚类系数等网络结构指标,深度挖掘知识元素间的交融模式,探析领域内部知识讨论热度与成熟度,以此确定各历史时期目标技术的发展形态及其所处的生命周期。
2.2 技术机会挖掘与评估方法
在技术演化的指引下,本文采用图神经网络链路预测方法挖掘各生命周期下所蕴藏的细粒度技术机会,利用变分图自编码器[27](variational graph auto-encoder,VGAE)及其变体图自编码器(graph auto-encoder,GAE)模型开展知识网络的链路预测任务,将知识元素之间未来可能产生的链接关系作为技术机会。图3 描述了基于变分图自编码器的技术机会挖掘流程。
图3 基于变分图自编码器的知识元素链路预测流程
如图3 所示,VGAE 由两层图卷积神经网络编码器与解码器组成。编码器的工作思路是通过学习T时间下可观测到的知识网络结构,获取各节点向量分布的均值μ和方差σ,并据此从标准高斯分布中采样,生成新的节点向量Z。解码器则是利用节点向量Z内积得到节点间链路预测存在的可能性,通过sigmod 激活函数将链接可能性归一至0 和1 之间,以实现知识网络的重构和还原,生成预测的T+1 时间下知识网络。在此过程中,模型通过反向传播不断更新模型参数(均值μ和方差σ),将真实网络与预测网络之间的交叉熵和KL (Kullback-Leibler)散度损失值最小化。最终,预测所得的T+1 知识网络中链路增加的部分被认为是可能出现的技术机会。另外,GAE 相较于VGAE 简化了编码步骤,只用了一层图神经网络结构就得到节点的向量分布Z,提高了链路预测的计算效率。
为验证细粒度技术机会挖掘的可靠性,首先,本文基于历史真实数据采用AUC(area under curve)和平均准确率(average precision,AP)指标对链路预测结果进行直接的定量评估,与其他算法进行对比,验证图自编码器方法的稳定性与鲁棒性。其次,综合多源技术发展报告对所挖掘出来的技术机会进行二次识别和评估。在此过程中,本文将特定领域的技术机会按照产业链结构进行划分,针对链路预测值(连边可能性)排序靠前的多对知识元素及其组合关系在技术发展报告中进行循证,以确定特定领域在各产业链环节上的技术机会。
3 计算机视觉领域实证研究
为探究本文所提出分析框架的实际效用,选取典型交叉技术领域——计算机视觉作为研究对象,开展实证研究。其主要原因有两点:一是在融合发展范式的驱动下,交叉领域存在大量潜在的技术发展机遇,如人工智能、生物信息学等,是各国各企业技术竞争的焦点,对该类领域的技术机会分析具有实际意义;二是交叉领域的技术覆盖面广泛,本身存在多学科参与、多场景应用的特征,其技术机会出现的方向和维度具有不确定性,能够有效检验本文所提出的分析框架的鲁棒性。
3.1 知识网络构建及技术演化分析
3.1.1 知识网络构建
在数据收集方面,本文基于中国人工智能产业发展联盟(Artificial Intelligence Industry Alliance,AIIA)所制定的计算机视觉专利检索式[37],从德文特数据库中共抽取82535 条相关专利。鉴于专利的公开具有滞后期,与2020 年(10632 件) 相比,2021 年的专利数据量(1420 件)有断崖式下降,故下文只采用截至2020 年的专利数据开展技术机会挖掘。
根据2.1 节网络构建方法,知识元素抽取结果按照重要性排序,如表2 所示。可以看出,TF-IDF能够识别具有领域特征的单个关键字,如“image”“iris”“pixel”等大部分词语属于计算机视觉领域常用的专业词汇。RAKE 在抽取长短语上效果较为突出,但是普遍存在长度过长的情况,例如,长度为3 的关键词短语“fingerprint identification device”的重要性得分比“fingerprint identification”高,但其涵盖语义却是后者的子集。结合文献[38-39]与上述验证结果,本文将KeyBERT 模型中的n设置为2抽取关键词,将所得结果与前两种算法取交集,得到1457 个知识元素。最后,根据其间的229573 条链路关系构建知识网络。
表2 知识元素抽取结果
3.1.2 知识网络演化分析
为确保微观层面技术机会分析遵循宏观技术演化历程,本节基于全局网络指标详细探究计算机视觉技术的发展脉络。从网络节点增量来看,技术知识网络规模逐年增大,增长速率呈现由缓到急再逐步进入平缓的态势,如图4 所示。其中,1990 年以前,计算机视觉技术知识网络扩张速率处于较低的水平,证明该阶段技术处于萌芽期,受到的关注较少;自1990 年以来,计算机视觉领域的知识元素数量激增,且10 年内均保持较高的增长水平,这意味着自20 世纪90 年代起计算机视觉技术开始进入技术生长期。
图4 知识网络逐年新增节点数量
如图5 所示,从网络中连边增量来看,对于步入生长期的计算机视觉技术而言,虽然其知识网络中新链接与旧链接均呈现幂指数增长态势,但是新链接(灰色柱状)占所有新增链接(黑色柱状)的比例(图5 中曲线)逐渐变小,尤其从2016 年开始,该比例大幅减小。这表明计算机视觉领域在经历了1990—2015 年这数十载的飞速发展后,领域内创新水平逐步变缓,新兴技术知识受到较少关注,开发者主要聚焦于已形成的技术方向,计算机视觉技术开始进入成熟期。
图5 知识网络逐年新增连边数量
结合其他全局网络指标可以进一步明确计算机视觉所处的技术生命周期,如图6 所示。其中,1990—2000 年,网络聚类系数和平均最短距离指标浮动明显,图密度却保持在5%以下,这表明虽然该阶段知识网络规模急剧扩张,但节点间的共现关系没有被完全挖掘,领域内知识交融程度并不充分,仍存在诸多值得学者探索的可能性,可以将其视作技术生长初期。2000—2010 年,图密度指标开始呈现上升趋势,而聚类系数与平均最短距离的上升和下降态势逐步趋于稳定,这表明技术的纵向挖掘正逐步追赶上技术横向扩张的步伐,计算机视觉正处在横纵向齐头并进的关键阶段,可以将其视作技术生长中期。2010 年以后,随着深度学习助力计算机技术的二次腾飞,图密度指标呈现激增态势,尤其在2015 年以后更为明显,这表明计算机视觉技术的研发方向更集中于现有技术方向的纵向研究与细化,计算机视觉技术正由技术生长期逐步过渡到技术成熟期,可以将其视作技术生长后期。
图6 全局网络指标变化趋势
3.2 知识元素链路预测
3.2.1 数据集划分
为验证变分图自编码器(VGAE) 及其变体(GAE)对于不同历史形态下技术机会挖掘的鲁棒性,本文根据知识网络演化结论,将计算机视觉网络按照时间拆分为4 个动态子网络,并按照时间顺序切分各子网络的训练集、验证集和测试集,以此监督模型学习并验证预测结果,划分结果如表3 所示。具体来看,为体现技术机会所具备时间特性,将某个动态子网络中特定时间节点t年的网络快照作为模型训练集,将t+1 年网络快照中的新增链路作为测试集和验证集监督模型学习。例如,对于1980—1990 年的动态子网络而言,训练集由子网络中所有311 个元素在1980—1989 年产生的1206 条链接构成,验证集和测试集则是由1990 年网络中相较于1989 年网络中新建立的513 条链接随机平均分配得到。
表3 动态子网络的数据集划分
此种数据集划分方式,一方面,可以消除动态技术知识网络中频繁建立的旧链接所导致前后知识网络中链路的天然重复性,保证了模型的泛化能力;另一方面,技术知识网络中旧链接的反复出现只能表示现有方向的深入研发,而新链接的初次建立则意味着技术机会的产生。因此,此种划分方式更关注新链接产生,具有实际技术意义,有助于提升模型预测结果效用。
3.2.2 参数设置
图自编码器的链路预测性能在很大程度上取决于模型超参数的设置,需要通过反复实验加以确定。为节省计算资源,本文将学习率和随机丢弃率参照文献[40]分别固定为0.01 和0.05,只优化数据迭代轮次(Epoch,模型学习整个数据集的轮次),以使链路预测性能达到最佳。另外,鉴于本文所构建的训练集和验证集存在时间先后性,在训练集上具备较高的预测性能并不意味着在验证集上同样具有良好的泛化效果。因此选取训练集的Epoch-Loss曲线和验证集的Epoch-AUC 曲线共同确定数据迭代轮次Epoch,以1980—1990 年动态子网络为例,绘制上述两种曲线,如图7 和图8 所示。
图7 1980—1990年动态子网络训练集Epoch-Loss曲线
图8 1980—1990年动态子网络验证集Epoch-AUC曲线
由图7 和图8 可知,训练集的损失值在前10 个Epoch 内骤减后趋于缓慢减小,意味着模型已经学习到大部分训练集数据的特征;验证集则在近50个Epoch 左右趋于相对稳定状态,在250 个Epoch 后出现波动下降趋势,表明此时模型出现过拟合情况。此外,GAE 和VGAE 在拟合数据过程中Loss 曲线和AUC 曲线趋势几乎保持一致,因此,将1980—1990年中的GAE 和VGAE 的Epoch 均设置为50。同样地,对各动态子网络的GAE 和VGAE 模型均进行Epoch优化后,重新训练模型并进行后续的结果评估。
此外,为探究知识元素的语义属性是否会对技术机会挖掘能力产生影响。本文基于预训练向量模型BERT-Base①https://github.com/google-research/bert抽取各节点的语义特征,将节点特征矩阵作为模型输入参数X。
3.2.3 模型评估
确定模型超参数后,将图自编码器与其他链路预测算法进行对比分析,以验证不同历史时期图自编码器链路预测算法的优越性与鲁棒性。在评价指标方面,本文采用链路预测任务中两种最常见的AUC 和AP 指标,定量评估各模型预测性能的优略。其中,AUC 是模型的综合评价指标,其主要计算测试集链路得分值高于不存在链路得分值的概率,概率越高表示模型鲁棒性越好。准确率考量预测得分最高的L条边是否准确,计算前L条边存在于测试集中的占比,平均准确率(AP)则是将不同L取值下的精确率取均值而得。在基线方法方面,除了传统的链路预测指标,如CN(common neighborhood)、AA 和PA(preferential attachment)等,本文还选取了同属于图表示学习的node2vec 算法。最终预测结果如表4 所示。
表4 不同时期技术知识网络下各模型链接预测结果对比
结果显示,VGAE 及其变体GAE 在各历史时期的技术知识网络链路预测任务中都表现出卓越的性能,尤其是针对近20 年来的知识网络,图自编码器比最优的传统链路预测指标在AUC 和AP 两个指标上均有近10 个百分点的提升,可达到90%左右。这表明图自编码器能够高效捕获大规模、高密度网络下的链路信息。另外,GAE 模型和VGAE 模型比node2vec 具有明显优势,但变分操作并没有显著提升图自编码器的预测性能,这证明只采用简单的两层图卷积神经网络结构就可以达到精准预测链路的目的。在1980—2000 年,计算机视觉知识网络密度较低,可捕获的网络结构特征较少,此时节点语义特征的输入显著提高了GAE 模型和VGAE 模型的预测准确率,表明知识元素的语义特征同样也是识别技术机会的关键特征。
综上所述,本文所构建的图自编码器模型能够适应于不同历史形态下知识元素的关联预测,预测结果可以作为潜在的技术机会以备进一步筛选和分析。
3.3 技术机会评估与筛选
为进一步明确并细化未来计算机视觉领域潜在的技术机会,本节针对2010—2020 年的技术知识子网络中的链路预测结果进行二次验证,结合多源技术报告解读并筛选未来有发展前景的技术机会。根据中国移动研究院于2020 年发布的《计算机视觉研究报告》[41](以下简称《报告》),计算机视觉产业链可分为上游感知层、中游计算层和下游应用算法层。基于此,本节采用人工方式对细粒度的技术组合关系做进一步筛选,并映射至各产业链环节中。
3.3.1 上游感知层技术机会
上游感知层的主要任务是图像数据的采集,主要涉及硬件设备,如工业视觉中的工业摄像头、视觉传感器等。链路预测结果中与硬件设备相关的知识元素及其组合关系如图9 所示。可以看出,上游硬件设备主要围绕移动终端和智能设备进行技术研发,集成了多种传感器设备,具体包含红外传感器、光学传感器、触摸屏幕、数码相机和深度相机等。其中,“multiple cameras”一词较好地概括了上游设备的未来发展趋势,即能够捕获的信息日益增多,包含除图片特征外的指纹、虹膜等多种特征。房建武[42]认为,环境感知是计算机视觉发展的基础,他预测多传感信息鲁棒融合方向是环境感知未来的主要手段。由此可得出,计算机视觉的上游感知层技术机会主要聚焦于“多传感信息融合”方向。
3.3.2 中游计算层技术机会
位于计算机视觉产业链中游的计算层包含了芯片、深度学习框架和计算平台等相关技术,主要涉及图片传输、处理和识别等任务。基于此,抽取相关知识元素及其链路预测结果,如图10 所示。可以看出,中游计算层是以人工智能算法为核心,主要负责图像处理以及上下游数据的存储与传输任务。具体的技术机会可以总结为以下3 个方面。
图10 产业链中游知识元素及链路关系
(1)算法模型优化。神经网络、深度学习和机器学习等方法被广泛认为是计算机视觉技术突破的重要推动力。由图10 可知,“deep learning”“machine learning”和“neural network”等词语占据较为核心的位置,这预示着人工智能类算法在计算机视觉上的应用性能还可能进一步突破。卢湖川在RACV (Recent Advances on Computer Vision) 2019会议上也提到这一点,其认为虽然深度学习模型实现了特征抽取的自动化,但是压缩、裁剪和优化神经网络结构以更好地抽取特征、准确识别是未来技术发展的重点之一[43]。
(2)高质量传输。位于图10 边缘位置的知识元素多涉及图片传输任务,如“wireless transmission”“network communication” 和“wireless communication”等。这些知识元素与“mobile communication”“recognition module”的组合关系表明图片传输与处理技术正逐渐集成于移动硬件设备。由此可知,随着5G 技术的崛起,图片等音视频信息在智能设备端的高质量传输可以作为未来发展重点之一。
(3)云平台架构。图10 中还有部分知识元素与大数据计算能力相关。“big data”“cloud computing”和“cloud server”与“power supply”的组合关系预示着计算机视觉技术走向产业化需要强大的算力支撑,未来借助云端服务进行高效能的推理和计算是各计算机视觉企业的必争之地。这也与《报告》不谋而合,其中指出计算机视觉核心技术中包含计算平台技术,即用于企业生产的智能云平台架构技术。
3.3.3 下游应用层技术机会
下游应用层是计算机视觉技术产生实际价值的关键一环。根据3.1 节技术演化相关结论,计算机视觉技术正步入技术成熟期的前期,该层应是未来该领域技术的发展重点之一。具体如图11 所示,基于链路预测排序抽取相关知识元素及其链路关系,发现该网络中包含的应用场景较为多元化,表明计算机视觉技术已经成功落地于多种下游任务,初步印证了技术演化结论。主要的5 个技术方向阐述如下。
图11 产业链下游知识元素及链路关系
(1)生物特征识别。由图11 中的多个核心节点可知,计算机视觉由最初的人脸识别进一步扩展到了“motion recognition”“gesture recognition” 和“expression recognition”等多个细粒度的人体特征识别任务上,并且与先进的算法模型相组合形成该应用场景未来可能的技术突破点。《报告》中印证了这一点,人脸识别、姿态估计、行为识别、目标追踪等是热门的视觉算法技术。
(2)多模态视频理解。图11 中部分节点聚焦“video”一词,表明基于视频和音频的识别任务可能是未来计算机视觉技术的主要应用任务,其中还涉及“image understanding”“sign language”等具体的视频理解任务。中国计算机学会计算机视觉专委会专家在RACV 2019 会议上的讨论证实了这一点,他们认为视频中的多模态识别和理解任务是计算机视觉未来主要攻克的难关[43]。
(3) 3D 交互感知。“virtual reality”和“augment reality”在下游网络中也占据较核心的位置,与算法模型“neural network”和硬件设备“electronical device”等多个知识元素产生联动。这表明增强现实与神经网络的有机结合以及虚拟现实与电子设备的集成开发程度随着AIGC(artificial intelligence generated content)技术突破将会出现进一步加深。中国信息通信研究院等发布的《虚拟(增强)现实白皮书》中同样提及感知交互是计算机视觉技术的未来主要方向之一[44]。
(4) 智慧安防。图11 中还有部分节点涉及“alarm”一词,表明计算机视觉技术继续下沉可应用于安保层面,如“fingerprint identification”应用于“alarm device”等。《报告》中指出,“智慧城市”是计算机视觉技术面向的主要行业需求,其中就包含“智慧安防”方向。
(5) 自动驾驶。“vehicle information”“vehicle control”与“face recognition”的组合关系是典型的计算机视觉与智慧驾驶交叉产物,预示着汽车控制技术与人脸识别、动作识别技术是自动驾驶技术的未来研发重点。中国信息通信研究院发布的《全球自动驾驶战略与政策观察——自动驾驶开启商业化元年》中同样指出,2021 是自动驾驶的元年,未来计算机视觉技术在自动驾驶领域将持续输出动能[45]。
4 结 语
4.1 结论与讨论
本文以专利文本作为研究数据,提出了基于专利文本挖掘的细粒度技术机会分析框架,主要完成了知识网络构建及演化分析、知识元素链路预测以及技术机会评估与筛选3 个研究子任务。具体研究结论如下。
第一,集成多种关键抽取算法的知识网络构建方法,实现了自动化捕获词语的多维度特征,有效减少了专家知识介入,能够细粒度展示领域知识全貌,为机会挖掘提供数据基础。第二,基于全局网络指标的知识网络演化分析,能够从宏观层面把握技术发展态势,明确技术生命周期,指导技术机会分析。第三,将图自编码器模型与BERT 模型成功应用于技术机会挖掘中,显著提升了知识元素链路预测的准确性和可解释性。不仅论证了图神经网络方法的图结构特征抽取能力和特征融合能力能够有效突破传统链路预测指标的精度瓶颈,还验证了技术机会的产生不仅依托技术知识网络结构,还受到知识元素语义信息的影响。第四,结合链路预测结果与多源技术发展报告,根据产业链结构将计算机视觉技术机会进一步识别归纳为9 个主要的技术方向,如图12 所示。其中,下游技术应用机会是未来计算机视觉领域技术研发的重心,与演化分析中计算机视觉技术步入成熟初期的结论相互呼应。
图12 计算机视觉各产生链技术机会分布
4.2 贡献与展望
从理论层面来看,本文提出的分析框架基于微观视角拓宽了技术机会分析的研究思路。一方面,从核心词汇出发自动化挖掘领域知识并识别技术演化路径,强调技术机会分析应遵循技术发展趋势,并向精细化、语义化方向发展;另一方面,文本挖掘与图神经网络方法的有机结合,有效解决了过往研究对专家知识的过度依赖以及技术机会挖掘准确率低下等问题。从实践层面来看,技术管理部门有必要在深入理解技术内容并结合技术趋势前提下,及时发现潜在的细粒度技术机会,组织力量精准研发,实现技术自主创新。另外,本文还为计算机视觉技术相关的科研机构、企业及个人提供可靠的技术机会情报,有助于利益相关主体实现合理的资源布局和管理决策。
本文尚存在些许不足之处,需要进一步完善与细化。首先,在组织技术知识网络方面,本文只考虑了单一的共现关系作为网络链路,在一定程度上忽略了知识元素之间的语法与语用关系。未来需要挖掘多层级的知识网络链路关系,将技术机会分析维度进一步拆分细化。其次,在知识元素链路预测方面,节点语义特征是直接依赖于BERT 预训练向量模型自动生成,不具备领域专指性。未来可以利用语言模型基于领域文本自行训练知识元素词向量,以表征其在特定语境下的深层次内涵,这有可能进一步提升链路预测性能和技术机会分析准确性。