新兴技术概念辨析与识别方法研究进展
2023-03-29高楠周庆山
高楠 周庆山
关键词: 新兴技术; 识别方法; 演化方法; 概念属性
DOI:10.3969 / j.issn.1008-0821.2023.04.014
〔中图分类号〕G252.8 〔文献标识码〕A 〔文章编号〕1008-0821 (2023) 04-0150-15
随着新一轮科技革命和产业变革的加速演进,新兴技术识别成为影响一个国家和地区未来发展战略的重要议题。从欧盟“地平线2020” 计划到德国“工业4 0” 战略计划, 再到中国的“十四五”国家科技创新规划, 世界各国(地區)都在积极制定科技发展战略并加强科技创新部署。在这样的社会大背景下, 技术的增长和更新迭代的速度持续提升, 同时, 技术之间的组合性、交叉性、变化性和依赖性也在不断占据越来越重要的地位, 尤其是新兴技术可能会改变已有产业的发展形态, 创造出新兴行业, 并催生出一系列新的发展模式, 对加强科技战略规划、占领科技制高点、支撑科研前瞻布局等具有重要作用, 而如何快速、准确地识别出具有较大发展潜力的新兴技术成为各国(地区)关注的热点。从国家角度来讲, 新兴技术的预测与识别有助于国家技术的总体布局与发展规划; 从企业角度来讲, 发现并识别具有潜力的新兴技术有助于提前规划、快速研发、节约成本和降低风险, 更有助于确定研发重点和投资方向; 从研究人员个人的角度来讲, 识别新兴技术可以帮助研究人员了解领域新动向, 使得关键的早期投资能更好地获得回报, 促进产学研的结合。因此, 拓展新兴技术识别方法,提高新兴技术识别准确性, 缩短新兴技术预测周期, 深入把握技术领域适用性, 描绘技术演化路径, 对于新兴技术在未来的发展布局具有重要战略意义, 也是迫切的现实需要。
1“新兴技术”及相关概念
“新兴技术” 已经成为许多研究领域的核心术语之一, 尤其是在科学计量学、文献计量学和技术挖掘领域。尽管被频繁使用, 但目前仍然没有形成明确的定义和属性特征。
新兴技术有许多不同的表达方式, 如新兴研究主题、新兴趋势、新兴研究领域等[1] , 其常用的英文表达为“Emerging technology”, Rotolo D 等[2]提炼了新兴技术表达方式, 包括emerg? technolog?、tech? emergence、emergence of? technolog?、emerg?scien? technolog?、emerg? research、emerg? theme等, 并发现学者在开展新兴技术相关研究时, 标题中出现“emerging” 及“emergence” 的覆盖率高达57%, 且在表达“新兴技术” 的概念时, “Emer?ging technology” 与“technology emergence” 经常交替使用。因此, 要追溯新兴技术的起源, “emer?gence” 是核心关键词之一。Burmaoglu S 等[3] 以科学哲学、复杂性理论和经济学3 个学科中“emer?gence” 概念的演变为切入点, 揭示了新兴技术的理论背景。“emergence” 一词最早出现于19 世纪末, 并于20 世纪初在科学哲学领域流行起来; 20世纪30 年代, 该词出现在复杂系统的研究中; 20世纪50 年代, 经济学家从进化经济学的角度对“emergence” 进行研究。
国外关于新兴技术开创性的研究成果集中出现在由沃顿商学院的Day G S 等[4] 在2000 年出版的Wharton on Managing Emerging Technologies 著作中,提出“新兴技术是一种基于科学的创新, 其有潜力创造一个新的产业或改变现有产业, 既包括来自变革性创新的非连续创新, 以及基于各种前序研究而形成的渐进性创新”。全球结构和标准工作组将新兴技术定义为: 已具备一定的实现条件, 但尚未得到充分、成熟的应用的技术[5] 。国内学者亦对新兴技术展开积极研究, 华宏鸣等[6] 最早于1995年出版的《高新技术管理》中提出, “新兴技术是目前还未被商业化, 但在未来的3 到5 年有可能商业化, 或者是目前已经商业化, 但在未来可能产生显著变化的技术”。目前最受业界认可的是RotoloD 等[2] 给出新兴技术的定义: “新兴技术作为一种全新的、相对快速发展的技术, 其特点是具有一定程度的持续性, 并有可能对社会经济领域产生相当大的影响, 其最突出的影响在于未来, 因此在现阶段仍有些不确定和模糊性”。其他学者对于新兴技术的定义如表1 所示。
综上, 本文认为新兴技术是一种正在兴起或相对快速发展的、具有激进新颖性的技术, 经过持续性发展, 很可能对未来的经济结构或产业发展产生显著性影响。
与“新兴技术” 概念相近的有“热点技术”“研究前沿” “颠覆性技术” 等。①热点技术一般认为是被学科共同体广泛关注的具有重要影响力的研究内容[19] , 重点在于受到的“关注” 更多, “热度” 更高, 其学科影响力已经得到积累并显露。与新兴技术相比, 热点技术的范围更广, 但其对新颖性、创新性的要求没有新兴技术高。随着新兴技术的发展, 有可能成为下一个热点技术。但也有学者认为新兴技术与热点技术是同一个概念的不同称谓[20-21] ; ②研究前沿最早由Price D J[22] 于1965 年提出, 他认为研究前沿由领域的30~50 篇最新发表的高被引文献及其相关研究主题来反映, 具备成长性、影响力及新颖性的特征, 这3 个特征与新兴技术类似。与新兴技术相比, 研究前沿的市场潜力已有所显现, 而新兴技术能否成功还很难定论, 因此, 在不确定与模糊性上新兴技术更高一些[23] 。但Toivanen H[24] 、Chen C M[25] 、卢超[26] 等学者则认为“研究前沿” 与“新兴技术” 是不同时代的不同表述, 但所反映的内涵基本一致; ③颠覆性技术最早由Christensen C M[27] 于1997 年提出, 认为其能够对现有产业或市场格局带来破坏性、颠覆性的影响, 并具有取代现有主流技术、形成新价值体系的能力。与新兴技术相比, 颠覆性技术的不确定性与破坏性更强, 更加强调创新的突破性, 其颠覆性需被投入市场应用时才得以体现[28] 。
本文认为新兴技术与热点技术、研究前沿、颠覆性技术在理论上确实存在区别, 但在实际的技术识别过程中可以发现, 各类技术的识别方法区别度不大, 尤其是采用计量学方法进行技术识别时, 因此, 更为客观的技术识别方法应在通用的技术主题识别的基础上, 结合各类技术的属性特征进行筛选与甄别。
2新兴技术属性特征与测量指标
明晰新兴技术属性特征的意义在于使新兴技术识别有了可依据、可测量的标准, 而不是像前序相关研究那样对专家智慧的依赖性很强, 或缺乏可验证性。因此, 对于每种属性特征, 有必要将学者常采用的经典的测量指标进行梳理。Rotolo D 等[2] 通过对有关新兴技术的经典文献进行系统地回顾, 确定了新兴技术的5 个属性特征, 包括激进的新颖性、相对快速增长、连续性/ 一致性、显著性影响、不确定与模糊性, 受到学界的广泛认可。本文采用Rotolo D 归纳的新兴技术属性特征, 并提炼了各特征典型的测量指标。
2.1激进的新颖性
在创新性研究中, 新颖性是将现有知识以一种全新的、前所未有的方式结合起来的结果, 可以是一种渐进式的技术进步, 也可以是一种跃进性的技术革新[29] 。作为新兴技术属性特征的核心[2] , SmallH 等[15] 认为, 新兴技术的新颖性具备一种激进的不连续的创新性; Bai G Z 等[30] 提出, 如果一个新主题在连续两个时间窗口均被识别出, 则该主题可能代表一个新兴技术的萌芽, 可作为一个候选新兴主题。
评估新颖性最常用的方法有: ①比较候选新兴技术主题与前序主题时间上的新旧度, 最常用的指标有“被引文献的平均发表时间”“簇类论文的平均发表时间”[31-33] 。如Jaric' I等[34] 通过被引文献的平均年龄和近两年参考文献占比来反映主题新颖性。Huang L 等[35] 以主题词出现的最早年份来反映新颖性; ②比较候选新兴技术主题与前序主题内容上的相似性, 如Liu Y 等[36] 将专利文本向量化,通过计算向量距离来评估新颖性; Liu X 等[37] 认为, 新兴技术主题在总数据集中出现的比例不能高于15%, 以保证其内容上的新颖性。此外, 还有针对文献类型的特点提出的反映新颖性的指标, 如Zhou Y 等[38] 通过两个指标来反映专利的新颖性,一是技术原创性, 即覆盖的专利分类号数量越多,新颖性越高; 二是知识原创性, 即后向被引次数越高, 新颖度越低。
2.2相对快速增长
Cozzens S 等[12] 、Small H 等[15] 、Wang Q[16] 均提出新兴技术具有“在短时间内快速增长” 或至少是“增长” 的屬性特征, 增长性可以在多种维度上观测到, 如领域参与者数量、基金资助金额、学术产出数量等。Boyack K W 等[39] 总结了增长性的两种表现形式: 一种是萌芽期涨势不明显, 但后续会爆发式增长; 另一种是在萌芽期迅速发展为领域焦点, 随后稳步增长。因此, 新兴技术是相比于同领域其他技术而言, 发展得更快的技术, 采用“相对快速增长” 更为准确。Xu H 等[40] 通过论文、期刊、基金和作者数量的平均增长率来反映增长性。Huang L 等[35] 为避免数据库文献收录对结果测度的影响, 使用滑动词频平均增长率来反映该属性特征。Zhou Y 等[38] 通过被引专利年龄的中位数来反映技术增长速度。Liu X 等[37] 认为, 新兴技术主题的增长速度至少为所有主题增长速度的1 5倍。Poter A L 等[41] 认为, 技术术语出现在活跃期的数量是出现在基期的2 倍以上, 即满足了增长性。宋欣娜等[42] 结合增长因子与主题扩散性模型来衡量技术的增长性。此外, 还有研究通过基尼系数[43] 、前景因子[44] 、互信息[45] 来反映技术主题的增长性。
2.3连续性/ 一致性
与刚萌芽的技术主题不同, 新兴技术已经表现出了持续一段时间的一致性或连续性, 其中, 一致性强调技术主题内部结构特征的逻辑互联; 连续性强调新兴技术脱离始源技术, 能够以独立主题存续一段时间, Day G S 等[8] 将之称为“前序离散研究的汇集”。这个属性特征为新兴技术获得更高的经济和社会影响力奠定了基础, 使之脱离了纯粹的概念阶段[14] 。Xu H 等[40] 使用Jaccard 系数来衡量相邻时间窗内主题的关联性, 以是否具备连续的关联性来体现技术主题的连续性。Huang L 等[35] 认为,随着技术主题成熟性的提高, 其在网络社区中与其他节点间的联系会变得更紧密, 因此, 以网络密度比来衡量技术主题的一致性。Liu X 等[37] 通过设定的两个标准来衡量技术主题的连续性, 一是主题词至少出现在3 个时间窗口内; 二是主题词在单个时间窗内至少出现于7 份文档中。
2.4显著性影响
由于新兴技术往往起源于为解决复杂问题而创建的复杂创新系统[46] , 因此, 新兴技术有机会通过社会经济体系的多层次应用与传播, 从而产生广泛的影响, 如改变竞争基础[10] , 创造一个新产业或改变现有产业[47] , 产生更大的经济影响力等。Xu H 等[48] 使用被引频次反映主题的科学影响性。Huang L 等[35] 以PageRank 来计算网络中节点的影响性, 主题影响度等于属于该主题的节点的平均PageRank 值。Jang W 等[49] 使用特征向量中心性来计算网络节点的影响力。Xu S 等[50] 用DIM 模型中的线性回归法计算主题的科学影响力。唐恒等[51]通过赋权后的用户支持率与专利转化率的和, 来表达技术主题的发展前景。黄璐等[52] 考虑到单纯地依靠引用量测度技术主题的影响力会存在时间偏差, 因此, 将Time-rescaled 处理方法引入到Pag?eRank 中, 使节点得分能够与同一时间段出现的节点进行Z-score 标准化处理。
2.5不确定性与模糊性
新兴技术是一种具有自组织和自适应性的意外现象, 其不确定性是由产生时机的不可预测性和规模大小决定的[53] , 且由于技术涌现具有非线性和多因素性, 这使得新兴技术的发展总是伴随着不确定性与模糊性[54] 。由于这些技术仍然在开发中,其最终的影响还需要时间来检验, 况且技术的发展并不总伴随着成功, 也存在失败的风险, 尤其是在技术发展早期, 信息不足使得大部分预测分析方法均失效。因此, 不确定性与模糊性是一个很难评估的属性特征。目前, 对于该属性特征的研究还很少, Wei L 等[55] 提出可通过跨学科的弱联系或弱信号的捕捉, 来一定程度地反映新兴技术发展的不确定性与模糊性; 许海云等[56] 基于知识网络强弱关系变迁测度新兴主题的未来不确定性。
3新兴技术识别方法
通过文献总结与归纳, 将新兴技术识别方法分为定性分析法和定量分析法, 常见的定性分析法包括德尔菲法、情景分析法、头脑风暴法、技术路线图等; 定量分析法主要分为三大类: 科学计量分析法、文本挖掘分析法和机器学习方法, 本文将重点介绍定量分析方法。
3.1科学计量分析法
3.1.1引文网络
作为文献计量学领域最常用的分析方法之一,也是新兴技术识别最经典的识别方法之一, 引文网络分析法包括直接引文分析、共被引分析和耦合分析, 以及较少出现的作者引用网络等。该类方法首先是构建文献间的引用关系网络, 再通过各种聚类方法, 实现对直接引用网络、共被引网络及耦合网络的聚类与可视化分析, 从而对新兴技术进行识别。
1) 共被引分析, 如González-Alcaide G 等[31]在选定了大规模集群领域作为知识基础的278 篇核心文献后, 对涉及的7 149篇参考文献进行共被引聚类, 生成的共被引矩阵由165 899对不同的参考文献组成, 共形成5 个聚类簇, 再结合科学活动、研究群体规模与稳定性、参考文献年龄等指标, 对新兴技术进行遴选与识别。Hou J 等[57] 采用共被引分析对信息科学领域2009—2016 年的新兴研究主题进行揭示, 研究发现, 信息科学领域知识基础发生了很大变化。
2) 耦合分析, 如Song K 等[58] 采用耦合分析法筛选出在聚类群外的离群专利, 结合回顾性技术特征分析和前瞻性市场需求分析, 对候选新兴技术的技术特征和市场特征进行评价, 再根据这两种特征值将候选技术映射到二维空间, 将第一象限的候选技术定义为新兴技术, 并将该方法应用于汽车工业, 验证了方法的可行性和可用性。Li M 等[59] 提出了一种衡量论文与专利间耦合关系的计算模型,结合耦合强度和耦合速度, 来对人工智能领域的新兴技术和技术机会进行识别。Jarneving B[60] 结合耦合分析和完全连接聚类分析识别了严重呼吸道症候群领域的新興技术。
3) 直接引文分析, 如Kajikawa Y 等[61] 根据文献间是否存在直接引用关系, 对能源研究领域的文献数据进行相关性过滤, 基于剩余文献构建直接引文网络, 再进行拓扑聚类, 发现了每一个引文聚类簇都有其特色的研究主题, 不同引文聚类簇的增长趋势也不同, 研究表明, 通过直接引文网络分析,可以从一系列文献中有效地追踪新兴的研究领域,但研究也存在着因命名(根据集群中被引次数最多的20篇论文的标题和摘要来命名聚类簇)造成的对引用次数较少的文献的忽略问题。
4) 作者引用网络, 该方法用于新兴技术探测的基础共识是新兴前沿的技术研究是由活跃作者所开展的, 但这种网络聚类结果更适合于对领域的知识结构和研究团体进行揭示, 并不能直接反映领域的研究主题。如Zhao D 等[62] 结合作者共被引网络与作者耦合网络, 对信息科学领域的知识结构和新兴研究主题进行揭示, 认为出现在作者耦合网络,但未在作者共被引网络中出现的聚类簇的作者所研究的主题即新兴研究主题。Ma R[63] 采用作者耦合分析法对中国图书情报领域的知识结构进行揭示,并提出了简单法、最小法、组合法3 种耦合强度计算方法, 研究发现最小法是计算作者耦合强度最合适的方法, 与作者共被引分析法相比, 作者耦合分析法具有更全面、具体地发现某一学科知识结构的优势, 也能反映该学科的研究前沿与新兴研究。
引文网络分析存在的共同问题包括: ①引用行为偏好无法避免, 引用内容不同侧重点不同, 但在引文网络分析时无法区分; ②进行引文网络聚类的样本数据选择问题, 现有研究过多地关注于高被引文献, 使得低被引文献的研究内容被忽略; ③引文网络构建对高质量的引文数据库依赖性较大; ④构建的引文网络多为无向网络, 对有向网络的应用较少, 加权引文网络也要比非加权引文网络少; ⑤由于识别结果是引文聚类簇, 不能直接得出技术主题, 还需要借助内容分析法、文本挖掘技术或专家智慧等方式来对聚类簇进行命名, 且命名结果存在一定的信息偏差或信息遗漏。
3.1.2共现网络
共现网络以两两词汇/ 类别在同一文献中共同出现的次数为统计基础, 建立特定领域内词/ 类别的共现矩阵, 然后进行聚类以呈现这些词/ 类别间的亲疏关系, 进而反映出领域内研究的热点与新兴趋势, 常见的有词共现网络和类别共现网络。
1) 词共现网络, 如Katsurai M 等[64] 提出了一种优化的共词网络算法TrendNets, 其将共词网络矩阵分解为平滑部分和稀疏部分, 其中, 平滑部分表示平稳的研究主题, 稀疏部分表示新兴的研究主题, 以动态共词网络来反映新兴的研究趋势, 研究发现, 与传统共词分析相比, TrendNets 在发现特征不明显的新兴话题方面具有优势。Li M[65] 提出了一种基于关键词共现和突发词检测的改进的共词分析方法, 以共现次数与中间中心性来表示节点的权重, 以模块度与平均轮廓系数来反映聚类结果,对技术预见领域的相关研究进行分析, 发现词共现可以呈现新兴研究的基本面, 突发词频可以作为一种重要的补充。Besselaar P 等[66] 以主题词与参考文献的共现关系为基础构建共现矩阵并聚类, 将一组存在相似性的词—参考文献的聚类簇作为一个研究主题, 以两篇论文共有的词—参考文献组合的数量来计算相似度, 该方法的优点是结合了论文的两种属性, 来确定所研究领域的细粒度主题结构。
近年来, 共词分析法得到了持续改进, “共现词” 从索引词、关键词发展到自由词, 共现范围从一篇论文之内细化到一个段落之内, 乃至同一个句子之内, 切词方法也得到了丰富, 如KEA[67] 、TF-IDF[68] 、TF-ISF[69] 、TextRank[70] 、共现统计信息法[71] 、中心度量法[72] 、循环神经网络[73] 等。该方法的缺陷在于对前期数据清洗要求较高, 如对同义词、停用词、低价值词汇的筛选与处理等。此外, 受限于关键词间的关联关系, 如当新兴研究主题与其他传统领域的关联度不高时, 很难通过共词分析识别出来。还有学者认为, 共词分析会破坏知识结构的稳定性, 因为这种分析只是基于单个词[74] 。
2) 类别共现网络, 如李瑞茜等[75] 将授权发明专利的IPC 主、副分类号对照到WIPO 发布的35个技术领域上, 构建35×35 的非对称技术关联共类矩阵, 该矩阵的行代表主分类号的技术领域, 列表示副分类号的技术领域, 行列交叉处为对应的主分类号与副分类号共同出现在一个专利的次数, 结合中心度、结构洞和中间人的分析, 识别了技术关联网络中的核心技术、中介技术和新兴技术。
3.1.3异质网络
引文网络、共词网络一般都属于同质网络, 即网络中的节点均属于同一实体类型, 目前常见的混合不同网络用以技术识别的研究, 也多基于同质网络, 如混合共被引网络与耦合网络[76-77] 、混合直接引用网络与共被引网络。异质网络指网络中的节点属于不同的节点类型, 如Sebastian Y 等[78] 提出了一种新的异构书目信息网络模型(HBIN-LBD),旨在基于现有的各种书目元数据(包括作者、术语、出版商、被引文献和论文)之间的相互联系(包括词共现关系、作者合著关系、耦合关系、直接引用关系), 构建基于图的异构元路径, 包括4 种二级元路径、6 种三级元路径、6 种四级元路径, 并对不同類型实体间边权重的计算方式进行设计, 从而发现研究论文之间的潜在联系, 实现对自身联系较少的交叉领域新兴技术的识别。
3. 1.4混合分析
混合分析常见的有以下几种类型的研究:
1) 对不同的网络分析方法进行对比研究, 如Boyack K W 等[79] 、Shibata N 等[80] 、张嘉彬[81] 、Jarneving B[82] 、Fujita K 等[83] 通过对直接引文网络、共被引网络、耦合网络识别结果的对比研究发现: 在时间维度上, 直接引文网络与耦合网络的探测速度均要优于共被引网络; 在精确度上, 耦合网络要稍优于共被引网络, 直接引文网络是最不准确的方法; 不同的引文网络识别结果在数量与内容上均存在差异, 但内容方面也有一定的重叠; 加权引文网络在新兴主题探测方面比无加权引文网络显示出更多的优越性, 且以引用频次作为权重比以主题词相似性、文献相似性等作为权重的效果更好。
2) 对不同的网络类型进行融合/ 组合, 包括:①对不同的同质网络分析结果进行组合, 如SmallH 等[15] 将两个基于大规模科学文献的直接引用和共被引模型聚类结果进行结合, 通过差异函数来筛选技术主题, 该函数能有效识别新的、快速增长的主题集群, 最终识别出2007—2010 年每年的Top25新兴研究主题, 并按照驱动新兴技术主题出现的原因, 对其进行分类, 最后通过搜索与该主题相关的文献或其主要研究人员所获奖项来进行结果验证;②对不同的同质网络进行融合, 再基于融合后的实体关系形成新的融合网络。如苏娜等[84] 采用基于Z-score 的多关系融合方法, 对科学计量学领域文献集间的共现关系、文献耦合关系、共被引关系进行融合, 得到了比Janssens F 等[85] 所提的基于Fisher 的多关系融合方法更好的主题聚类结果。康宇航[86] 从异质网络视角出发, 构建“耦合—共被引” 混合网络分析模型, 并从网络整体、网络组群、网络个体3 个层面进行技术机会分析。
3) 混合引文网络与文本分析, 如Gl?nzel W等[87] 提出了一种基于耦合向量和文本相似性的线性组合算法来识别核心文档, 通过核心文档和不同时期聚类文档集之间的交叉引用, 结合混合聚类算法, 来检测新出现、增长异常, 或内容发生变化的新兴技术主题, 并以生命科学、应用科学和社会科学领域为例进行实证分析。
3.2文本挖掘分析法
3.2.1词频统计分析法
新兴技术出现时, 相关的主题词出现的频率也会越来越高, 甚至会突发性出现高集中性、高密度特性的新主题词, 词频统计分析法就是利用这一特性, 通过分析词频变化来识别新兴技术。KleinbergJ[88] 提出, 可通过词频密度变化来识别出词频突发性增长的一组词, 进而辅助新兴主题识别。ChenC[89] 将Kleinberg 词频突破算法应用于其开发的CiteSpace 系列软件, 使之成为基于词频统计识别领域热点及新兴主题最常用的工具之一。刘自强等[90] 基于N-Gram 模型抽取蕴含时间标签的多元词汇Bi-Gram 与Tri-Gram, 以提高主题词的语义表达能力, 然后构建多元词汇的词频时间序列, 利用分段线性回归模型(PWLR)结合新兴特征值, 进行新兴词汇识别。基于高频词或爆发词来识别新兴技术的优点是操作简单, 可直观地揭示研究领域的内容特征, 但缺陷在于识别结果碎片化, 缺乏语义关联, 能够揭示的内容有限。
3.2.2主题模型分析法
主题模型能够实现以非监督机器学习的方式,完成对文献中隐含的语义结构的揭示。在新兴技术识别中最常用的主题模型即LDA 及其各种衍化版模型, 如DTM、cDTM、DIM、PLDA 等。LDA 最早由Blei D M 等[91] 于2003 年提出, 该模型可基于统计概率层面表达词间的语义层次关系; 后于2006 年[92] , 在代表主题的多项分布的自然参数上使用状态空间模型, 推出DTM(Dynamic Topic Mod?el)模型; 后又陆续推出连续时间动态模型cDTM(Continuous Time Dynamic Topic)[93] 、动态影响模型DIM (Document Influence Model)[94] 。2009 年,Wang Y 等[95] 对cDTM 模型进行了改进, 提出PL?DA 模型。此外, 其他的主题模型还有MDTM(Mul?tiple Timescales DTM )[96] 、ToT ( Topic OverTime)[97] 、TDM(Trend Detection Model)[98] 等。
具体来看, Ranaei S 等[99] 以LED 和闪存技术为例, 对比分析了词频统计分析法(TF-IDF)、涌现评分法(Emergence Score, EScore) 和LDA 在识别新兴技术方面的效果, 研究显示, 词频统计分析法提供了新兴技术更细节的涌现模式, 但结果中通用术语占了很大比例, 需要专家辅助解读; EScore由于综合考虑了术语频率、规模和起源地, 能够提供更全面的新兴技术视角; LDA 能够揭示新兴技术主题间的联系, 对于主题中每个词的出现, 可以根据其相邻的关键词进行解释。Yan E[100] 采用LDA 模型结合主题流行性和主题影响力指标, 以及对LIS 领域的新兴技术主题进行识别。徐路路等[101] 采用PLDA 模型结合项目、论文、专利3 种科技文献数据源对石墨烯领域新兴主题进行探测,并通过文献调研结合专家智慧验证了该方法的可行性和有效性。
主题模型能高效地分析大规模非结构化文档集, 且在语义抽取与语义表达方面具有优势, 但由于其属于无监督学习算法, 结果的可控性不高, 且前期对于数据的预处理要求较高, 包括通用词删除、主题词规范、术语词典构建等, 否则会影响主题识别效果。
3.2.3结构语义分析法
最常见的基于结构语义进行新兴技术识别的方法, 即基于SAO(Subject-Action-Object)结构的语义分析法。该方法在提取文献中“主语—谓语—宾语” 结构的基础上, 通过分析Subject(S)、Ac?tion(A)、Object(O)间的语义关系, 来判断所提取的SAO 结构是表达了何种含义, 若AO 代表关键问题, S 代表解决方案, 则SAO 形成了“问题———解决方案” 模式; 若SO 代表系统组件, A 代表功能,则SAO 形成了“功能———系统组件” 模式[102] 。MaT 等[103] 提出了一种结合LDA 主题模型、SAO 结构语义模型、机器学习和专家判断的混合方法, 来识别染料敏化太阳能电池领域的新兴技术和潜在机会, 研究發现, 与摘要相比, 标题对专利技术主题识别准确度的影响更大; 专利IPC 分类越独特, 即与其他专利共通的IPC 分类越少, 技术主题识别的准确度越大。周海炜等[104] 构建了基于专利SAO 结构和多指标评价的新兴技术识别模型, 该算法首先将SAO 与TF-IDF 算法相结合来计算专利文本相似性, 采用谱聚类与Scikit-learn 算法划分手机芯片行业子技术领域, 再综合多维指标体系与专利量年度变化来判别新兴技术。Choi S 等[105] 采用NLP 与语义信息链接方法从专利全文中提取SAO 结构, 将Subject、Object 转换为名词、动词的形式, 基于名词—谓语矩阵构建SAO 网络, 最后结合度数、中心性等指标, 以及行动者网络理论来识别新兴技术。
SAO 可以在有效地表达词间语义关系的基础上, 清晰地反映技术的关键概念、属性、结构、功能、制备工艺等, 揭示技术是如何被使用或使用技术的目的, 以及如何与其他技术相互作用。但由于SAO 结构的复杂性, 很难准确地从文本信息中定位并提炼相应的S、A、O 部分, 且由于技术的复杂性, 即使在专家的辅助下, 有时也很难解读各部分间的语义关系。
3.3机器学习方法
为了提高新兴技术识别准确度, 机器学习方法被众多学者使用, 其核心是将新兴技术识别问题转化为分类问题。如Liang Z 等[106]首先采用深度神经网络中的LSTM 和NNAR, 结合9 种计量指标来对技术主题的热度分值进行预测, 该指标以时间序列的方式反映候选技术主题的影响力和增长性; 其次, 从高热度候选技术主题中筛选出新颖性高的新兴技术主题, 此外, Liang Z 等综合对比了分别在全局策略和局部策略下LSTM、NNAR、LightGBM、线性回归、多项式回归、EScore、Naive Method 7种方法在指标值预测准确性和最优排序方面的表现, 发现两种神经网络模型在大多数指标上表现均优于其他5 种模型, LSTM 的表现还要优于NNAR。Huang L 等[35] 提出了一种基于动态共词网络的新兴主题分析方法, 该方法首先构建多时间切片下的动态加权共词网络, 再引入链路预测方法来揭示共词网络的动态变化, 同时, 采用机器学习算法拟合3 种链路预测指标, 充分评估局部结构、路径和随机游走信息, 提高了链路预测方法的准确性, 最后结合新颖性、增长性、连续性和影响性4 种测量指标进行新兴技术主题识别, 并经专家验证确认了本文方法的可行性和可靠性。Xu S 等[50] 利用动态影响模型(DIM)识别技术主题, 并计算技术主题的增长性、连续性和影响力, 通过引文影响力模型(CIM)计算新颖性, 采用多任务最小二乘支持向量模型(MTLS-SVM)对未来两年的指标值进行预测, 并以基因编辑领域为例, 识别到了3 个新兴技术主题。孔德婧等[107] 使用BERT 预训练模型将专利文本向量化, 基于语义相似度构建专利相似度网络,识别离群专利, 然后基于DNN 模型构建离群专利指标与技术影响力之间的关系, 实现从海量离群专利中快速、准确地预测新兴技术, 识别出网络中的离群点作为备选新兴技术。
采用机器学习算法可以自动化、高通量地处理领域全量数据, 挖掘文献的语义信息, 从而提高技术识别的全面性和准确性。但基于监督的机器学习方法需要大量的人工标记训练样本, 且实验结果的可解释性差, 而无监督机器学习虽不需要人工标记训练集, 但准确性和可控性稍差。此外, 机器学习方法的学习门槛较高, 不利于方法的普及。
3.4新趋势与结果验证
随着对新兴技术识别研究的深入, 学者们开始关注新兴技术的内核, 即基于新兴技术的属性特征构建指标体系, 对基于上述各类识别方法所得的技术主题进行筛选与甄别, 从而识别出新兴技术主题, 并按照指标表现进行新兴技术类别划分。这一新趋势表明了新兴技术识别在不断减少结果的主观偏见性, 增加客观及可验证性。如Porter A L 等[108]提出了基于Escore(Emergence Score)的新兴技术主题探测方法, 该方法通过VantagePoint 提取文摘信息中的术语词, 基于新颖性、连续性、增长性和群体性的属性特征设置术语筛选标准, 再结合术语的Escore 值识别新兴技术主题词, 此外, 还以Escore指标为基础, 设计出多个二级指标, 分别用于探测前沿机构、国家和作者。Jang W 等[49] 以是否会在未来集中增长, 并会影响社会和技术发展作为新兴技术的筛选标准; Zhou Y 等[38] 通过新颖性、技术影响、社会影响特征来筛选新兴技术; Liu X 等[37]构建一个三维评估框架系统来反映新兴技术的持续性、区域性和增长性; Zhang Y Y 等[73] 认为新兴科学技术以巨大的不确定性和极高的潜力为最主要的特征; Zhang B 等[110] 认为新兴技术的典型特征包括爆发性、持续性、突破性和竞争优势。
该类方法的研究深度和识别精细度虽有提升,但仍存在着如下问题: ①部分研究的属性特征与测量指标之间缺乏联系, 指标选取的科学性和合理性存在质疑; ②指标权重确定、表征力判断与阈值选取, 以及模型构建等没有统一的标准, 难以界定;③指标计算的普适性、可解释性、可操作性难以协调与兼备。
对新兴技术识别有两种切入角度: 一种是对既定的新兴技术进行描述性分析[111] ; 另一种是对选定的领域进行新兴技术探测[15,112-113] , 目前多采用第二类研究的切入视角, 但出于严谨性考虑, 需要对识别结果进行验证。目前, 常用的验证方法有3种: 资料验证法、专家评估法、指标验证法。
1)资料验证法, 指通过已发表的学术成果或各类在业界具备影响力的奖励、项目等来对新兴技术识别结果的客观性、可靠性进行验证, 这是目前应用最多的验证方法。该方法的优势在于便捷、操作成本低且可靠性高, 但缺陷在于通过已经出版的资料进行结果验证, 在一定程度上降低了识别结果的时效性和价值性。如Small H 等[15] 通过诺贝尔奖和领域权威奖项进行结果验证; Kajikawa Y 等[61] 通过与日本机构绘制的领域专家路线图进行比对, 实现结果验证; Wang Q[16] 通过与现有领域相关出版成果中提及的新兴技术进行比对, 实现结果验证。
2) 专家评估法, 指通过专家对领域多年的知识与经验积累对识别结果进行评估, 优点是经过专家认可的识别结果权威性、可靠性都得到了保证,缺点是主观性强、时效性差。如Mu?oz -?cija T等[114] 通过专家访谈法、Chen C M[25] 通过调查问卷法, 周源等[115] 结合邮件、会议、问卷多种形式进行结果验证, 此外, Jang W 等[49] 、Cozzens S 等[116] 、Choi Y 等[117] 、Arora S K 等[118] 、Ma T 等[119] 、HuangL 等[35] 、Li X 等[120] 均借助了专家智慧进行结果验证。
3) 指标验证法, 指通过各类指标对实证分析所构建模型的有效性进行验证。该方法属于一种间接的验证方法, 即通过验证模型的可靠性来对识别结果的可靠性进行一定程度的保证, 不足之处在于只能证明识别的结果符合预设的各种标准, 但符合标准的是否一定就是新兴技术并不能得到证明。如Liang Z 等[106] 通过MAE、RMSE、NDCG@ k 3 种指标, 对LSTM、NNAR、LightGBM、LR、Na?ve 5 种模型进行效果评估。
4研究问题与展望
4.1概念不明确, 标准不统一
由于对新兴技术尚未形成统一的定义, 学者对属性特征的理解也各有不同, 因此, 新兴技术识别的方法流程、指标设计、验证标准均存在差异, 尤其是在特征指标设立方面存在许多问题, 如属性特征与测量指标之间缺乏联系, 指标选取的科学性和合理性存在质疑; 指标权重确定、表征力判断与阈值选取等没有统一的标准; 指标计算的普适性、可解释性、可操作性难以协调与兼备等。此外, 现有研究缺乏对新兴技术内涵、外延、本质特征及发展机制的探索, 多聚焦于引进新的技术与方法, 以期不断改进技术识别效果, 但由于缺乏统一的理论根基支撑, 方法多样性越来越强, 不同的方法得到的识别结果不同, 使得方法的选择与评价越来越困难。
4.2数据源类型选择不均衡, 偏向性明显
目前, 有关新兴技术识别研究的数据源类型选择偏向性明显, 主要存在以下3 种情况:
1) 多单一数据, 少多源数据。现有研究大多聚焦于论文或专利的单一数据, 较少采用多源数据进行新兴技术识别。部分研究引入了学位论文[121] 、会议论文[122] 、专著、Web 网络数据[123] 、社交媒体数据[120] 、基金项目[124] 等不同的数据源类型,但综合多种数据源类型进行新兴技术识别的研究仍然较少。如张维冲等[125] 、唐恒等[51] 尝试综合多源数据进行新兴技术识别, 二者的研究共同之处在于, 基于多种文献类型的文摘数据, 分别进行主题抽取与新兴技术主题识别, 然后再对不同文献类型的识别结果作主题关联分析, 若相似度高则合并为同一主题。但这种做法存在一个问题, 技术主题在不同文献类型中的表达方式会有差异, 若仅基于主题相似度计算进行同类主题合并, 会存在很大的误差, 且相似度算法的选择、阈值的设置均没有统一标准, 存在很强的主观差异性。
2) 多文摘數据, 少全文数据。现有研究绝大部分均是基于文献的文摘数据进行主题抽取, 很少有基于全文数据进行分析的。尤其是采用多种数据源进行分析时, 基于文本过载与处理效率的考虑,也是采用文摘数据进行分析。随着机器学习、文本挖掘技术应用程度的不断加深, 基于全文数据进行新兴技术识别将成为一种研究方向。
3) 多精选数据, 少全量数据。很多研究基于领域内特定期刊、高被引文献等精选数据集进行分析, 这样做主要是为了去除噪声影响, 提高识别精度与效率, 简化数据处理过程中的复杂度; 但根据“长尾理论”[126] , 这样做明显会遗漏许多重要信息。
4.3“渐进式” 回溯研究成主流, “跃进式” 预测研究仍待发展
现有关于新兴技术识别的研究大多基于“渐进式发展” 的理论, 采用回溯性方式进行研究, 即基于历史数据, 应用预定义的规则来识别已出现的技术主题, 并回顾其技术发展历程, 这类研究的通用方法流程为: 目标领域数据集构建、技术主题抽取、多维指标体系构建、新兴技术主题筛选、方法验证。这类研究加强了对新兴技术的理解, 并为后续的技术预测工作提供了有价值的参考, 但回溯性研究的成果是面向过去的未来, 因此, 无法满足决策者和科学家对技术未来发展及技术预见方面的需求。基于“跃进式发展” 理论技术演化研究及前瞻预测性的技术识别研究较少, 这类研究尝试将新兴技术主题预测转变为统计学问题, 将给定历史特征作为输入, 未来指标作为目标输出, 通过训练预测模型来预测新出现的技术主题[50,127,106] 。
针对新兴技术识别与演化研究中出现的问题,未来应从以下几个方面加强研究:
1) 加强对新兴技术内涵、属性特征、发生机制等的研究, 以求加强对新兴技术概念、属性特征的学术共识, 构建更加完善、可解释性强的特征指标体系, 增加新兴技术识别的客观性与可靠性。
2) 充分发挥多种数据源的特性, 加强多种文献类型在新兴技术识别中的应用, 以提高识别结果的全面性与准确性。此外, 加强多源信息融合的理论与方法研究, 以及全文数据和全量数据的应用,拓宽新兴技术识别乃至技术预测领域的切入视角。
3) 加强新兴技术从回溯性描述到预测性探索研究的转变, 以从未知的学科和领域中识别出未来极具价值和影响力的技术主题, 为未来的决策制定和战略布局提供数据支撑。