基于海量文本挖掘的新兴技术分析方法研究
2020-01-06
新兴技术(Emerging technologies)可以定义为“具有激进新颖性、相对成长较快的技术”。其特点是随着时间推移,有一定程度的相关性,而且有潜力对社会领域带来相当的冲击。其冲击可以用行动者、组织的组成及彼此互动的模式,以及其中相关的知识产生过程来观察。不过其对未来有最显著的影响,因此在这些技术刚刚浮现的阶段,仍然有一些不确定及模糊[1]。
传统的技术分析方法有德尔菲法、情境分析法、关键技术法、趋势外推法、层次分析法和决策树法等[2],但这些方法主要以定性分析为主,缺少定量分析。进入大数据时代后,面对海量的、可开源获得的数据信息,运用“技术挖掘”(Tech mining)剖析和分析大量有价值的信息,从而对新兴技术进行预测和选择[3]。
本文研究了一种基于自然语言处理技术对美国小企业创新研发计划(Small Business Innovation Researchand Development Program,SBIR)项目海量文本信息量化的分析挖掘方法,揭示美国军方在以军事智能技术为代表的新兴技术领域的战略布局情况。通过对美国军方SBIR计划项目信息进行新兴技术与战争类型、作战能力之间多维度关联关系的挖掘分析,可以发现隐含的、先前未知的并有潜在价值的信息决策支持过程,能帮助决策者调整策略、减少风险、制定正确的决策。
1 美国军方SBIR计划简介
美国小企业创新研发计划是美国扶持本国高技术中小企业创新,推动国家实验室、大学与中小企业合作的国家计划。自1982年以来,美国国防部作为军方参与SBIR计划,每年向中小企业资助10亿美元以上的研发经费,以获取国防部所需的前沿技术、新装备和新服务。
美国国防部通过实施SBIR计划,增强了美军全球科技竞争力。主要表现为:一是国防部以相对较低的经费投入获得较高的军事效益,其SBIR计划半数以上项目成功转化并应用到武器装备;二是一些高科技型中小企业受益明显,如微软、英特尔等知名企业在成长过程中都曾受过SBIR计划的资助;三是大型军工企业大量收购该计划的创新成果,如雷声、波音、洛克希德·马丁公司等大型军火承包商都非常关注国防部的SBIR计划,并积极采购中小企业创新成果;四是在前沿技术领域产生了大批高水平论文和发明专利,提升了军事科技创新能力[4]。
综上所述,美国国防部SBIR计划项目文书中蕴藏着大量的新兴技术信息,具有较高的分析研究价值。
2 国内外相关研究分析
关于SBIR项目价值分析研究,有的学者分析了中小企业科技创新对促进国防科技创新的必要性和总结了美国军方实施SBIR计划的经验做法[4],有的学者提出了美国军方实施SBIR计划的启示[5]。关于新兴技术挖掘方法研究,有的学者提出了基于技术关键词从专利文献文本中挖掘新兴技术的方法[6],有的学者研究了挖掘医疗健康领域新兴信息技术的方法[7],有的学者提出了一种在室内空气净化技术领域基于科技文献数据的技术识别与技术预测方法[8]。
当前国内外主要基于Web of Science数据库(SCI/SSCI论文库)、Derwent专利库等商业数据库开展大部分领域新兴技术挖掘工作,利用汤森路透公司提供的TDA软件等工具进行固定模式的分析。然而,此类工作方法存在3方面的限制,一是可分析的文档数量受限制(通常为千篇量级),二是文档类型限定在科技文献范围,三是分析维度限定在科技文献常见元数据字段(如作者、机构等)。
本文提出的分析方法可支持分析海量(百万篇以上)多类型(项目描述、新闻动态、科技文献)文本、支持面向特定任务需求灵活建模、支持基于文本分析技术抽取后的命名实体进行关联挖掘分析,较大程度地解除了前人分析工作的限制。
3 新兴技术挖掘分析方法框架
本文采用了如图1所示的新兴技术挖掘分析方法框架,主要分为3个阶段:一是通过扫描抽取权威信息源数据,建立技术高频词库;二是对技术关键词进行聚类分析和时序分析,判定技术种类、技术热度、新技术研究方向;三是通过对应用领域合理建模,从多维度分析评估技术功效。
图1 SBIR项目新兴技术挖掘分析方法框架
3.1 开源数据源的选定
技术挖掘应优先选择质量有保证的权威数据源,在确定核心数据源的同时配备一些辅助分析资源,结合各种信息资源的可用性特点,确定技术挖掘的优先次序。
本文选用SBIR项目数据库作为核心数据资源和全面分析对象,力图挖掘项目文本描述信息中的多维度关联关系。由于其数量有限导致的稀疏性问题,给技术发展趋势分析和热点判断造成一定困难。可借助海量科技文献和专利数据信息辅助开展新技术发现,利用广泛权威来源的相关新闻动态信息进行技术热度分析,提升技术挖掘分析结论的全面性和准确性。
本文选择的具体数据源情况如表1所示。
表1 选定的开源数据源
3.2 技术高频词库的建立
技术高频词是指在文档集中出现次数较多的技术术语,其难点在于对技术术语进行识别和发现。技术术语的来源主要包括文档关键词、主题词表/叙词表、文本中抽取的技术类名词短语。研究发现,自带关键词信息的科技文献和SBIR项目信息不到50%,新闻动态类信息基本不带关键词等标注信息。
为了全面分析各来源数据,对无结构自由文本是采用基于NP-Chunking[9]的名词短语识别方法,识别出的名词短语还需通过预先训练的SVM[10]分类器判定是否为技术类术语。对选定的军事智能领域的海量科技文献、发明专利和新闻动态自由文本进行技术术语识别后,依据出现频次进行统计并由高到低排序可得到军事智能领域技术高频词库。顶端部分样例数据如表2所示。
3.3 新兴技术术语的判定
在技术高频词库的基础上,可通过对技术术语年度出现频次序列进行对比分析,判定该术语是否为新兴技术术语。如根据某术语是否为近5年来首次出现的新词、高频出现的热词、出现词频和5年前出现词频排位提升最大等统计特征产生新兴技术术语候选词列表。以军事智能领域为例,通过3种不同的统计方法筛选出新兴技术术语2 466个。军事智能领域新兴技术术语候选词示例见表3。
3.4 新兴技术术语的聚类词簇生成
通过领域专家对新兴术语候选词进行综合研判,梳理出的军事智能新兴技术领域词簇见表4。
3.5 军事领域场景分析建模
本文从战争类型和作战能力两个维度进行军事实践场景建模,并结合新兴技术领域进行关联分析。通过对SBIR项目描述文本进行基于特征触发词规则的名词术语抽取,经高频词统计排序后由领域专家梳理,得到战争类型、作战能力维度特征词簇(表5、表6)。
表2 军事智能领域技术高频词库示例
表3 军事智能领域新兴技术术语候选词示例
表4 军事智能新兴技术领域词簇
表5 战争类型特征词簇
表6 作战能力特征词簇
4 实验分析
实验设计以近10年美国军方SBIR项目文本数据为核心依据,同时对广泛关联相关的科技文献、专利信息、新闻动态文本信息进行佐证分析,基于军事智能新兴技术命名实体、战争类型命名实体、作战能力命名实体在上述文本中语句级的共现关系,从多个角度量化分析军事智能领域的新兴技术词簇与战争类型、作战能力词簇之间的关联关系。通过对分析结果的可视化展示,直观揭示先前未知的潜在信息的价值,验证本方法的有效性和实用性。
4.1 军事智能领域SBIR项目的总体情况
分别从年度项目数量和年度项目经费的角度,对2009-2018年军事智能领域相关SBIR项目部署情况进行分析,发现军事智能领域年度项目绝对数量基本保持平稳,相比军事相关的全部领域(简称“全领域”)项目,军事智能领域年度占比加速提升,表现出良好的发展势头(图2,图3)。
图2 2009-2018年SBIR年度项目数对比
图3 2009-2018年SBIR年度项目经费对比
4.2 新闻动态中军事智能领域舆论热度
2012-2018年间有关军事智能的年度新闻动态数量,整体呈现明显的上升趋势,说明军事智能研究领域引起了全球范围内的广泛关注,具备较好的持续性和热度(图4)。
图4 2012-2018年军事智能相关新闻动态情况
4.3 军事智能领域研究主题在SBIR项目的比例
2014-2018年间SBIR项目中军事智能领域相关项目数相对占比见图5,发现大数据分析、无人技术、机器学习和模式识别研究领域占据主流位置,说明4个研究领域具备较好的军事应用转化需求和前景。
图5 2014-2018年SBIR项目中军事智能领域相关研究主题分布
4.4 军事智能领域十大研究主题和战争类型的共现分析
通过矩阵热力图的形式,直观展示了军事智能技术领域对特定战争类型的支撑作用(图6),为我军相关作战部门分析研究美军的未来发展趋势提供便利。从图6可以看出,军事智能技术目前多实际运用于空战、海战、无人战和电子战领域,大数据分析技术几乎可以全面支撑各种作战类型,无人技术领域在空战、海战等高技术作战领域发挥较为显著的作用。
图6 2014-2018年战争技术共现关联矩阵
4.5 军事智能领域技术功效分析
技术功效矩阵的形式直观展示了军事智能技术在具体战争类型中可以支撑的战争能力(图7)。
图7中横坐标为十大军事智能技术领域,纵坐标为各种可支撑的战争类型,坐标系交点饼状图表示可支撑的作战能力,通过饼状图中的百分比可体现对该作战能力的支撑程度。从图7可以看出,大数据技术可以普遍提升各种战争类型的信息感知能力和数据分析能力,无人技术可以提升电子战和新概念战争中的作战能力和生存能力。
5 结语
本文研究的基于海量文本挖掘的新兴技术分析方法,具备支持分析海量多类型文本数据、支持面向特定任务需求灵活建模、支持基于自由文本抽取的命名实体进行关联挖掘分析等优点。 通过该方法对SBIR项目相关的海量文本信息进行量化分析,可了解美国军方在以军事智能技术为代表的新兴技术领域的战略布局情况。通过可视化图表可直观展示新兴技术与战争类型、作战能力之间多维共现关系。未来工作中,可尝试进一步利用SBIR项目文本中的关联关系语义信息开展更深入的新兴技术分析挖掘工作。