APP下载

多源信息视角下的多指标新兴技术主题识别研究*
——以智能网联汽车领域为例

2021-04-07邱悦文

情报杂志 2021年3期
关键词:主题词智能网舆情

唐 恒 邱悦文

(1.江苏大学知识产权学院 镇江 212013;2. 江苏大学科技信息研究所 镇江 212013)

Emerging Technology Topic Identification Based on Multi-Source Information:Intelligent Connected Vehicle as an Example

Tang Heng1Qiu Yuewen2

(1.School of Intellectual Property Jiangsu University, Zhenjiang 212013;2.Institute of Science and Technology Information, Jiangsu University, Zhenjiang 212013)

Abstract:[Purpose/Significance]In order to improve the comprehensiveness and accuracy of the identification of emerging technology topics, it is necessary to enrich data source information. This research proposes a composite emerging technology topic identification method on the basis of patent, paper and public opinion information. It is expected to provide a reference for the research on the topic identification methods of emerging technologies at the micro level.[Method/Process]Firstly, using the LDA model to extract candidate emerging technology topics. Then, choosing the final emerging technology topics by theme screening indicators. Finally, the emerging technology topic is predicted by using CRITIC method.[Result/Conclusion]In the experiment, intelligent connected vehicle is taken as an example. The experiment successfully identifies one emerging technology: multi-sensor fusion information technology. The experimental results are consistent with the industry analysis, indicating that the multi-indicator emerging technology topic identification method from the multi-source information perspective can effectively target multiple sources.

Keywords:topic identification; emerging technology; LDA model; intelligent connected vehicle; EM;CRITIC

0 引 言

新兴技术 (Emerging Technology ) 是以交叉学科为特征,拥有足够大的发展潜力和优势,且存在对传统技术的改造趋势或者对国家经济结构产生深远影响的技术[1]。当今世界,技术飞速发展,技术发展的新领域与方向一定程度上影响着国家制定科技战略布局。论文记录绝大部分基础(理论)创新研究成果,专利则主要记录技术创新信息,二者皆可反映新理论、新技术的创新性,这与新兴技术最重要的特征(根本创新性)吻合,因此可以作为测度新兴技术的重要数据源。舆情数据(公众观点或意见)则是对技术专家观点(主要体现在科技论文和专利文献中)的有益补充[4]。因此,采用情报学的理论与方法,充分挖掘论文、专利、舆情信息背后的隐含信息,不仅能够为国家制定科技战略布局提供有力的情报支持,对指导企业研发新技术也同样意义非凡。

论文、专利、舆情背后的技术信息各有侧重。论文数据主要表现新兴技术的研究基础[2],专利数据主要反映新兴技术的创新性[3,5],而舆情数据主要反映大众对技术发展最直接的认知反馈[6]。对于已有的新兴技术的识别工作,有大量学者对其做过详细的综述[7-9]。表明现有研究对新兴技术主题识别的推进,仍存在以下局限:第一,不同数据类型反映的科技信息侧重点不同,如科技论文侧重基础科学研究产出,专利侧重技术创新。只有全面考虑多源信息,科学计量分析才能得到更客观的分析结果。第二,当前现有的新兴技术识别体系较少考虑测度未来前景的相应指标,而市场接受度对萌芽期的技术是否能真正成长为一项引领社会发展的技术具有重要影响。

基于上述问题,本文以智能网联汽车领域为例, 采集专利、论文、舆情数据,借助情感分析法、熵值法、CRITIC法、LDA模型法去综合识别新兴技术主题,融入舆情数据来反映新兴技术的未来场景,设计新兴技术的未来前景相应识别指标,实现对新兴技术主题的有效识别。

1 文献综述

本研究利用专利、论文、舆情数据开展新兴技术识别工作,首先,借助LDA模型提取论文与专利文本的主题词,并通过相似度计算,筛选出备选的新兴技术主题;然后,围绕新兴技术的特征构建新兴技术识别指标体系,对LDA模型识别出来的主题词是否具备新兴技术特征进行判别;最后,采用CRITIC法确定最终识别出来的新兴技术领域。因此,文献综述主要针对新兴技术的识别方法和新兴技术的特征及判别指标体系展开。

1.1新兴技术识别方法主要有基于引文关系的分析方法、基于知识单元的分析方法、基于主题模型的分析方法三类。基于知识单元的分析方法主要分为词频分析与共词分析。有学者[10]认为突现型突变词和发展型突变词能揭示该领域内的新兴趋势。基于主题模型的分析方法是近年来新兴的新兴技术探测方法,其中以主题概率模型法最具代表性。基于概率的主题模型通过对文本进行深入的语义分析,运用概率统计方法,从中抽取更具价值的潜在主题分布,从而实现新兴技术的识别[11]。

1.2新兴技术特征与识别指标目前被广泛接受的新兴技术具备的本质性特征如下:根本创新性、相对增长性、未来不确定性、社会影响性[12-13]。根本创新性:不是一般意义的创新性,而是旧技术在转变为新技术的过程中发生本质性变化,该变化是判断新旧技术的转折点。相对增长性:与同一领域的其他技术相比,新兴技术的发展速度明显更快。未来不确定性:新兴技术的技术与市场是未知的,技术研发周期和技术研发是否成功,新兴技术是否能满足市场需求,这些都是不确定因素。社会影响性:新兴技术可能会对未来社会生产方式与经营方式产生影响,这个性质不易被测度。在识别指标方面,Lee等[14]通过正向引用、先验知识、专利家族成员数、权利要求项数等多项识别指标来识别新兴技术;Kyebambe等[15]则加入技术成长周期等指标来预测新兴技术;黄鲁成等[16]利用高关注度、高成长潜力度以及高关联度指标对关键词进行精密单位定点技术有效识别和筛选;宋欣娜等[17]利用新颖性、持久性、社区性、增长性来跟踪新兴技术。

总体来看, 当前有关新兴技术识别的研究仍有需要完善的地方:

a.在识别方法上,引文关系的分析方法滞后性、主观性强;知识单元的分析方法容易切断文献之间及主题词之间的语义关联,缺少连贯性;主题模型法的结果对语料库依赖较强,需要进一步考虑方法之间组合来扬长避短。b.在指标设计方面,在新兴技术识别研究中, 较少考虑具有重要价值的舆情数据,通过大众对技术的态度来测度新兴技术未来的市场潜力。

2 新兴技术识别模型

2.1总体框架新兴技术主题识别框架如图1所示。①选取合适的专利数据库、文献数据库与舆情平台,国内外专业的专利数据库有智慧芽、合享、德温特数据库等,文献数据库一般选择Web of science、中国知网,舆情平台则需要根据具体领域选择,例如微信指数、微博指数等,获取实证数据;②数据预处理,预处理主要包括去除停用词,词形归并,形成语料库;③利用主题模型法与相似度计算,提取候选新兴技术主题;④通过新兴技术识别指标体系,最终确定新兴技术主题,并进行解读。关键环节为③,其研究重点是LDA模型主题数的确定和对数据进行处理。新兴技术主题识别主要过程如下:第一步,使用Python对采集来的专利、论文、舆情数据进行预处理,去除“的”“本文”等无实际意义的词,将意义相似的词语进行归并,生成语料库备用。第二步,安装并加载Python的Lda工具包,使用困惑度函数确定最佳主题数,将预处理文本导入,生成主题-词-概率分布,分别得到专利与论文的研究主题词,论文研究主题词对应基础研究,专利研究主题词对应应用研究。再进一步得到车联网研究历年在基础研究与应用层面突现的主题词,利用相似度计算论文与专利突现的主题词的相似程度,相似度较高的主题词归并成为一个备选新兴技术主题词,相似度较低的则分别为两个备选新兴技术主题词。在其基础上,筛选出现时间较晚,且无论在基础研究还是应用研究层面,都保持持续性研究的主题词作为备选的新兴技术主题词。第三步,运用情感分析法,计算各主题下的积极情感博客数占总博客数的比值作为用户支持率,将用户支持率与专利转化率作为发展潜力这一指标,二者的权重采用客观性较强的熵值法确定。发展潜力包括已有的市场价值以及未来可能产生的市场价值,如果大众对其技术持有乐观态度,那么他们很可能会为这项技术的实际产品买单。再结合前人的分析,构建新兴技术主题识别指标体系。第四步,对候选新兴技术主题各项指标进行排序,运用CRITIC法进行综合评价,确定最终的新兴技术主题。本文设计的新兴技术主题识别方法的优势在于将舆情数据处理之后作为衡量新兴技术的社会影响性的指标之一,同时,数据源的多样性能够克服单一数据源造成识别结果不够全面的弊端,借助LDA主题模型、情感分析等多种方法,充分利用方法的优势,全面提升识别效果。

图1 新兴技术主题识别框架

2.2主要研究方法

2.2.1 LDA主题模型 LDA常被用于大规模文档集合的建模。运用LDA模型开展文本挖掘提取文本主题词是一种较为惯常和科学的做法[18]。该方法有两大关键步骤,一是停用词表与用户自定义词典的确定,本研究的停用词表从Python的开源网站上获取,用户自定义词典则是在笔者阅读大量关于智能网联汽车领域的产业报告的基础上自行提炼补充形成。二是LDA主题模型的参数设置。主题数实际上是模型选择的问题。如果主题数目太小,会导致主题识别范围不够全面;如果主题数设置超过阈值,不仅无意义且浪费时间。

目前被广泛使用确定主题数的方法是困惑度[19],困惑度计算LDA最佳主题数。困惑度度量一个概率分布或概率模型预测样本的好坏程度,值越小,说明模型预估能力越强,反之越弱。困惑度曲线开始趋于平稳,函数值逐渐收敛到一个稳定的值,此时模型的效果最优。

本研究采用困惑度确定数据集的最佳主题数。

2.2.2 情感分析法 运用情感分析法,对CSDN博客进行情感极性计算,将文本情感进行分类,分为消极、积极、中立三类。再计算积极情感的博客占据某一新兴技术主题博客总数的比作为构建发展潜力这一新兴技术主题识别指标的一部分,帮助识别出新兴技术主题。步骤如下:爬取CSDN相关博客;数据清洗存入excel;安装python并安装snownlp、xlrd等库;调用snownlp已经训练好的情感分类模型进行文本情感分析得分;得到的分数在区间0-1间,趋近于1的为积极,趋近于0的为消极。

本研究选择BosonNLP情感词典。该词典是利用从微博、新闻、论坛等平台上获取的上百万篇情感标注数据自动构建的情感极性词典[20]。本研究需要处理的舆情数据为博客,情感表达用词习惯、风格与该情感词典中的情感词大多类似,因此选择其作为基础词典。

2.2.3 CRITIC法 考虑到本研究指标体系下各项指标权重较为模糊,因此参考党耀国[21]的做法利用改进的CRITIC法对备选新兴技术主题的各项指标进行综合评价。改进的CRITIC法在本文新兴技术主题识别中的具体操作是对本文指标体系下的6个指标进行客观赋权,为综合指数的计算奠定基础。根据综合指数排名,选出排名最高的备选新兴技术主题,其内容即为最终识别的新兴技术主题。

2.3新兴技术判别指标体系文献综述已根据新兴技术特征将已有指标进行了归纳整理。根据新兴技术本质特征及其概念,进行指标体系设计。首先是新兴技术主题的新颖性,新兴技术主题的新颖性指的是这项技术在发展初期的这个时间点,相关文献出现的时间越晚越新颖[22]。本研究采用论文平均发表年、专利平均授权年的早晚来表征新兴技术主题的新颖性,以平均出现时间更早的文献年份作为依据。这么做的原因是一项新兴技术的起点可能是从理论研究开始也可能是从应用研究出发,而论文是主要的理论研究成果,专利是主要的应用研究成果,因此需要考虑论文与专利的出现时间早晚,并进行比较。而采用平均出现时间的原因在于不同年份的论文数量或者专利数量不尽相同,不能单纯考虑时间变化而忽略数量。因此可以计算平均一件专利或者论文的产出时间来作为新兴技术主题的新颖性指标的测度。

新兴技术主题的根本创新性由其主题下的专利的权利要求平均数来表征[14]。一项新兴技术是否能够真正的发展取决于其根本创新性,即与已有技术相比是否具有突出的实质特点或显著进步。一般来说,权利要求数量越多,说明保护的内容越多,专利质量也就更高。如果一项新兴技术主题下的专利平均权利要求数量越多,专利质量普遍较高,那么主题代表的新兴技术的创新性也就越高。

新兴技术主题的相对增长性可以通过其主题下的专利年增长率来表征[1]。本研究认为新兴技术主题的相对增长性不应仅仅停留在专利层面,还应该考虑论文层面。原因是新兴技术的发展速度不仅仅体现在专利研发速度加快,其理论水平也在不断提高。分别计算数年的专利与论文较前一年的增长个数,若值均为正值,且处于不断上升的趋势,那么其新兴技术主题代表的新兴技术的相对增长性越强。

由于技术发展可能存在初期技术保密等原因,新兴技术的社会影响性很难被量化[22]。但可通过技术在新闻、科技评论、社交网络等热度上有所表征[13]。本研究认为一项新兴技术的社会影响性,一方面来自于其是否能够被转化,对社会产生经济效益,例如以往研究中,运用专利转化比率来测度新兴技术社会影响性[23];另一方面来自于大众对其的认知程度和支持程度,即前文所说的通过新闻、科技评论、社交网络等热度上有所表征。因此,本研究将热度与专利转化比率结合来测度新兴技术社会影响性的重要指标。基于博客数据情感表达习惯、风格与微博舆情情感词大多类似,借鉴前人构建用户话题情感强度展开微博舆情分析[24]的经验,探测用户的情感倾向[25],作为对新兴技术社会影响性的一部分考量。综上,本研究借助情感分析工具计算积极情感博客数占总数的比率作为用户支持率,借助专利数据库下载对应的专利转化数据,利用熵值法确定二者权重,再将二者乘以权重并进行相加构建发展潜力这个指标来表征新兴技术主题的社会影响性。

此外还应考虑新兴技术的规模与关注人数的情况,达到一定规模的基础上,关注人数越来越多的情况下,该技术越有可能成长为真正的新兴技术。

综上,新兴技术判别指标体系包括:根本创新性指标、相对增长性指标、规模指标、关注度指标、新颖性指标,社会影响性指标。指标的具体计算见表1。

表1 新兴技术主题识别指标

初步筛选出新兴技术主题之后,将根据主题下的论文专利,按照计算规则计算出上述6个指标,再根据CRITIC法,确定最终的新兴技术主题。

3 实验数据及结果分析

伴随信息、通信、AI、能源领域的技术迭代更新,汽车产业正迎来新的历史时期,智能网联汽车领域是我国重点发展的战略性新兴产业之一。因此,本文以该领域为例,验证新兴技术主题识别方法的有效性。

3.1数据获取与数据清洗专利数据来源于Incopat数据库,专利申请时间为2008年1月1日-2019年12月31日,检索方式为标题摘要检索,检索词为:智能网联汽车、车联网、智能汽车。为保证数据质量,选择发明申请与发明授权专利,申请人国别选择中国,简单同族合并之后,获得4 034条有效专利。

论文数据来源于CNKI文献数据库,论文发表时间为2008年1月1日-2019年12月31日,检索方式为主题检索,检索词为:智能网联汽车、智能汽车、车联网,经过数据清洗,共获得387篇核心期刊论文、1 412篇硕博论文、146篇会议论文。

舆情数据来源于CSDN博客,检索词为智能网联汽车、车联网、车载自组网络,搜索类型选择博客,通过Python爬取博文标题、博文正文、博文下方的评论。博客发表时间为2019年10月10日-2020年10月10日,共获得678条有效数据。

3.2实验结果及分析

3.2.1 新兴技术结果判别 本文设定LDA模型的参数设置为默认值,α=0.5/K,β=0.1,K为潜在主题数量。历年最佳主题数目的数值根据困惑度确定,当曲线趋于平缓时,我们即认为对应的为该年文档最佳主题数。智能网联汽车领域的历年主题得以显示。我们利用智能网联汽车领域2008-2019年的全文本数据集为例,生成图2,可以看出当主题数趋于16时,曲线开始趋于平缓,我们即认为16为智能网联汽车总文本集的最佳主题数。

图2 困惑度(智能网联汽车全文本数据集为例)

利用LDA对专利与论文的摘要分别进行文本挖掘,生成应用层面和理论层面的主题词。将数据导入Python,生成历年文本的词项 - 主题概率分布文件。根据词项 - 主题概率分布得到每个主题下分布的词汇,以及每个词属于它所对应的每个主题的概率,选取每个主题下概率排名前3位的词作为主题的命名词,以此得到每年的各主题的命名词,分布情况如表2、表3所示。

表2 专利主题挖掘结果

根据表2专利主题历年挖掘结果,可以发现在应用层,突现主题词整理如下:2008年应用研究与数据传输相关;2009年围绕手持终端、车联网终端展开;2010年围绕控制器、信息系统展开;2011年新出现的主题词为身份认证、电子锁;2012年新出现的词是辅助导航系统、通信监测、节点激励;2013年新出现主题词为智能终端、区块链、自动驾驶、雾计算;2014年新出现的主题词有无人驾驶、雷达、安全防护;2015年新出现的主题词为中继节点算法、隐私保护、云平台;2016年新出现的主题词有传感器、云通信;2017年新出现的主题词为多传感器融合;2018新出现主题词为北斗车联网、疲劳驾驶、边缘计算;2019年新出现的主题词为5G-V2X、智能车联网。

根据表3论文主题历年挖掘结果,可以发现研究在基础研究层,突现主题词整理如下:2008-2009年智能汽车研究刚起步,主要围绕图像处理、控制算法展开;2010年新出现主题词为智能汽车竞赛、车联网;2011年新出现的主题词为协助算法、雷达、智能汽车空间;2012新出现的主题词为:导航、保险、身份识别、路由、预警;2013年新出现主题词为仿真、广播、蠕虫、传感器;2014年新出现的自动驾驶、云安全;2015年新出现的主题词为4G车联网、语音通信技术;2016年新出现的主题词为异构车联网、车联网产业;2017年新出现的主题词为多传感器融合、群智感知、5G车联网;2018新出现的主题词为安全网关;2019年新出现的主题词为安全管理、云计算车联网。

表3 论文主题挖掘结果

如此便得到智能网联汽车领域历年在基础研究与应用层面突现的主题词。用 TF /IDF 余弦相似度算法计算论文主题与专利主题之间的相似度[26],部分见表4。

表4 论文-专利相似度测算部分结果

论文与专利突现主题词相似度比较大的,可以归为同主题,根据论文与专利突现主题词之间的相似度,将论文与专利突现主题词进行合并。且选择无论在基础研究还是应用研究层面,均保持持续性研究的突现主题词。得到以下主题词:多传感器融合技术、5G车联网、无人驾驶。

根据新兴技术判别指标体系,对新兴技术主题的新颖性、根本创新性、相对增长性、规模、关注度、发展潜力六方面展开综合评价,筛选出真正的新兴技术主题。

首先,分别用Excel统计出主题为多传感器融合技术相关的、5G车联网相关的、无人驾驶的专利、论文文献;然后,统计三项主题词下专利权利要求总数、论文关注总人数、专利发明人总人数、论文总数、专利总数、专利转化数、专利授权年总和、论文发表年总和、该主题下对应的博客总数、积极情感博客总数、消极情感博客总数,并汇总为表5;最后,利用表1计算规则分别计算出多传感器融合技术、5G车联网、无人驾驶主题对应的各项指标值,见表7。

表5 备选新兴技术主题数据情况

其中,根本创新性对应的是主题下所有专利的平均权利要求数量;相对增长性对应的是平均年增加的文献与专利数量之和;规模对应的是论文与专利之和;关注度是平均一篇专利/文献的作者人数;发展潜力对应的是主题下专利转化率和与之相关的积极情感博客总数占该主题总博客的比值,二者赋权相加所得,熵值法权重赋权见表6;新颖性是指与该主题相关文献,即论文平均发表年A 与专利平均授权年B,取更早的年份。

表6 熵值法权重计算结果

表7 新兴技术主题识别结果

根据表7所得的评估结果先采用CRITIC法对各项指标赋权,详见表8。赋权完成后,我们将多传感器融合技术、5G车联网、无人驾驶三项主题的指标分别乘以对应权重,生成综合指数,再进行排序,结果见表9。

表8 CRITIC法权重计算情况

表9 备选新兴主题综合指数排名

3.2.2 车联网新兴技术主题确定与解读 确定多传感器融合信息技术为智能网联汽车当前的新兴技术后,还需进一步分析。当前,高级辅助驾驶系统ADAS是智能网联汽车发展的重要方向,其重要手段就是通过多源传感器信息融合,为用户打造稳定、舒适、可靠、可依赖的辅助驾驶功能,如车道保持系统、前碰预警等。多源信息的融合,目的在于数据信息的冗余为数据信息的可靠分析提供依据,从而提高准确率,降低虚警率、漏检率,实现辅助驾驶系统的自检和自学习,最终实现智能驾驶的最终目标。

北京航空航天大学教授余贵珍博士指出智能驾驶关键是感知与融合。随着5G时代到来,世界将迈进万物互联时代,国内外的汽车产业都将开发ADAS作为智能网联汽车的重要任务。2019年12月中国信息通信研究院发布的《车联网白皮书》(C-V2X分册)指出汽车未来演进方向是高级自动驾驶服务,而高级自动驾驶服务关键就在于车内与车外数据信息的融合,这必将大力发展多传感器融合信息技术。2020年8月中国车联网大会暨第十五届中国卫星导航运营商大会成功召开,一些运营商、专家以及光通信厂商也指出多传感器融合信息技术在无人驾驶领域的的未来前景可期。5G 时代汽车的发展,关注内外部汽车信息的融合,来实现安全驾驶、智能驾驶等。业界的分析与本研究识别的新兴技术保持一致,说明多源信息视角下多指标新兴技术识别方法的有效性。

4 结 语

本文借助LDA模型、情感分析法、熵值法、CRITIC法,利用专利、论文、舆情数据开展新兴技术主题识别研究, 充分利用当前数据科学研究新趋势,围绕新兴技术概念及其本质特征,设计发展潜力这一指标有效测度新兴技术的社会影响性,利用方法组合,充分发挥各个方法的优势,也使得所提出的多源信息视角下多指标的新兴技术主题识别方法更加适应当前大数据时代下数据的繁杂丰富。

利用专利、论文、舆情信息开展的新兴技术主题识别方法可以有效识别出新兴技术主题,弥补单独利用论文数据或者专利数据导致识别不全面的短板。未来将考虑如何在指标融合前就对专利、论文、舆情数据进行内容上的统一,同时,由于专利与论文都存在一定的滞后性,对于二者之间的差异造成的指标权重差异需要更深层次的探讨,提升新兴技术主题的识别效果。

猜你喜欢

主题词智能网舆情
交通运输部:扩大新能源智能网联汽车应用
基于单片机的智能网控风扇设计
智能传感器的智慧战略,新技术创造新价值
智能网联硬实力趋强
迎战智能网联大爆发
数字舆情
数字舆情
消费舆情
取消公文主题词的真正原因是什么?
公文主题词消失的原因浅析