数据驱动的产业技术情报分析方法体系框架构建
2022-04-01霍朝光卢小宾杨冠灿霍帆帆
霍朝光 卢小宾 杨冠灿 霍帆帆
(中国人民大学信息资源管理学院,北京,100872)
1 引言
产业技术情报分析旨在围绕某个特定产业领域,利用情报学分析方法,对产业的相关技术进行类别识别和发展预见,揭示产业技术发展态势与竞争格局、产业技术热点与发展阶段、关键技术布局及演化情况等[1-2]。产业技术情报分析是推动产业技术创新发展的重要支撑,在产业技术研发需求明确、产业技术重点攻关、产业资源分配、产业政策制定等方面发挥着重要的作用,是预警专利威胁、规避企业陷阱、反技术制裁的重要情报手段[3-4]。
数据驱动的产业技术情报分析,是数据战略浪潮下的科技尖兵。2020年4月《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》提出土地、劳动力、资本、技术、数据市场配置五要素,首次明确数据成为五大生产要素之一。2020年10月8日,美国国防部发布《国防部数据战略》(DoD Data Strategy),宣布将国防部建设成为“以数据为中心的机构”[5]。数据可以是“石油”,也可以是“弹药”,数据是国家、机构和企业等单位的战略资产,是数字经济的关键资源[6]。在全球数据战略下,如何布局数据战略,释放结构化、半结构化和非结构化等产业技术数据红利,构建数据驱动的产业技术情报分析体系,是全面、实时、自动、智能产业技术预见的重中之重[7]。
数据驱动的产业技术情报分析,关键在于融合新兴算法,完善现有情报分析方法体系。美国国际战略研究中心(Center for Strategic and International Studies,CSIS)报告《保持情报优势:通过创新重塑情报》(Maintaining the Intelligence Edge: Reimagining and Reinventing Intelligence through Innovation)指出,新兴技术不仅会改变情报系统评估全球威胁的相关性质,还会改变情报系统准确检测和评估这些威胁的能力[8],并且该报告提出将科学技术情报分析提升为核心分析学科,意在监测他国新兴和颠覆性技术领域的动态。
鉴于此,本文梳理了目前产业技术情报分析中采用的方法,比较各种分析方法的研究机理和特点,提出塑造数据驱动的产业技术情报分析模式,在大数据环境下转变传统情报分析模式,面向各类型情报分析目标,构建数据驱动的产业技术情报分析方法体系框架,强调塑造文本数据、网络数据、图像数据驱动的文本挖掘、图挖掘、图像挖掘等产业技术情报分析方法体系。
2 研究现状
产业技术情报分析方法是产业技术情报分析与服务研究的科学方法论,是科技情报分析工作不可或缺的利器,也是智慧产业情报服务的核心[9]。归纳总结现有的产业技术情报分析方法,包括德尔菲法、技术路线图、情境分析法等定性视角的情报分析方法,指标预测法、技术属性预测法、专利分析法、科学文献分析法以及融合专家知识、基金信息、新闻报道等多种信息的定量视角的情报分析方法,各情报分析方法的研究机理、优缺点以及应用案例,如表1所示。
在定性的研究方法中,主要收集和利用专家对某一技术的态度、看法和知识。例如,通过问卷调查直接收集专家的意见,以多轮投票的形式让专家进行民主投票,在全面利用专家知识的同时,规避个别专家局限或极端的看法;通过构建技术路线图,邀请领域专家在此结构化、图形化分析基础上,进行研判和推理;通过未来场景构建,根据需求设想、牵引未来的技术发展。在以往定性研究方法中,往往缺乏大规模的客观数据支持,更多是一种非数据驱动的产业技术情报分析方法。
在定量的研究方法中,主要收集和利用专利、科学文献、新闻报道、基金项目以及专家知识等,探测某一项产业技术的萌发势头,评估其发展阶段,预判其发展潜力,强调利用客观数据,采用更加量化的科学方法,同时假以专家知识进行佐证。例如指标预测法、引文网络分析法、共词网络分析法、文本主题模型法等一系列方法。目前,定量研究方法虽然具有一定的数据支持,在数据利用和方法应用方面进行了大量的探索,并引入以及改进一系列较新的算法,但仍然缺乏数据驱动意识和系统的数据驱动思维,在应用层面仍然集中在某一领域的数据集,方法应用零散片段、缺乏体系,数据驱动的意识不够鲜明,面向产业技术的情报分析方法体系有待进一步整合。
3 数据驱动的产业技术情报分析模式和目标
3.1 产业技术情报分析模式转变
数据驱动是第四范式思想—数据密集型研究范式时代的典型代表,即数据是现实世界事物、现象和行为在数字空间的映射,数据蕴含着现实世界的运行规律,陈国青等学者将其称作数据驱动范式,强调利用数据进行关系模式发现[43]。如图1所示,数据驱动的产业技术情报分析方法体系强调融合第四范式思想,强调从方法论视角以数据驱动的方式,革新产业技术情报方法体系,从第三研究范式到第四研究范式,产业技术情报分析的模式已经完全不同,已经由原先的问题发现、假设提出、采集数据、分析检验等思路变为数据采集、数据挖掘、知识发现、知识验证的模式,即数据驱动的知识全面创新,由此迫切需要融合新的产业技术情报分析方法[44]。
此外,数据驱动的产业技术情报分析模式尤其强调主观、客观数据的融合。数据驱动的产业技术情报分析方法体系,不仅强调囊括客观的大数据,让数据说话,还注重融合专家知识、领域观点等主观数据,促进知识融合[45],例如基于专家知识等主观数据,构建知识图谱、知识库等,将专家的主观知识同客观数据融合,以知识赋能情报分析,防止单纯基于客观数据的机器智能脱离产业技术的本质规律,综合围绕数据中心、知识中心,构建多维异构数据融合的产业技术情报分析智慧体。
表1 ᅠ产业技术情报分析方法Table 1 Information Analysis Methods of Industrial Technology
图1 数据密集型研究范式下产业技术情报分析模式转变Fig.1 Transformation of Industrial Technology Information Analysis Mode in the Data-intensive Paradigm
3.2 产业技术情报分析目标
根据技术创新程度和影响差异,产业技术有类型之分,不同类型的产业技术形成不同的情报分析目标。目前,产业技术情报分析工作主要围绕持续性技术、突破性技术、颠覆性技术、新兴技术、共性技术、卡脖子技术等目标展开[23,46],根据这些情报分析目标的要求,需要围绕各个产业或领域,对当前产业技术发展态势进行评估,对初露头角但具有潜在发展前景的产业技术进行识别,对未来可能产生重大影响的产业技术进行预测等。不同产业技术情报分析目标,关乎不同形式的创新,其关系如表2所示。
其中,Ahsan和Musteen最早基于经典的创新理论,从创新强度视角将技术创新划分成突破性技术创新和持续性技术创新,持续性技术强调对现有技术渐进式、增量式的性能或功能改进,是渐进式创新(incremental innovation)的集中体现[47];突破性技术(radical technology)强调该技术对已有技术性能和功能有跳跃式突破,是一种非连续性、间接性技术创新,是突破式创新(radical innovation)的集中体现[48]。
表2 产业技术类型TTable2 Categories of Industrial Technology
颠覆性技术(disruptive technology)是Christensen于1995年在Disruptive Technologies: Catching the Wave中首次提及的一个概念,其强调颠覆性技术具有变革市场的潜力,例如原本一家经营良好、管理完善的大公司,可能因为忽略这方面的技术而在竞争中失利进而被淘汰[45]。颠覆性技术是颠覆式创新(disruptive innovation)的集中体现,其将完全颠覆现有技术、主流市场和在位的企业[49-50]。
新兴技术(emerging technology)是由沃顿商学院新兴技术管理研究小组提出,指一类基于科学的、可能创立一个新行业或改变一个现有行业的创新[51]。新兴技术是区别于已有技术的、对新出现技术的统称,强调技术的创新性、相对增值性、连续性、不确定性以及社会经济影响力等维度的特征[52],多从计量或演化视角进行识别和预测[53]。相对于新兴技术,共性技术则是在很多领域已经或未来可能被普遍应用,对整个产业或多个产业产生深度影响的一类技术,其往往具有较广的应用范围,并取得显著效益,其技术往往是互相关联的,因此从技术关联角度来看其是制约众多技术突破的关键[23]。
卡脖子技术则是由我国提出的本土概念,指短时期内不易自主研发、又暂时性无替代产品,且绝对性地依赖于一两个供应商或供应国的技术,该类技术尤其强调技术的垄断性等特征[54]。“中兴事件”“华为事件”“Matlab被禁事件”等一系列事件均说明了卡脖子技术对于企业生死存亡与国家经济命脉的重要性。2019年我国建立国家技术安全管理清单制度,致力解决卡脖子技术问题,从此带有极强政治因素的卡脖子技术成为情报分析的焦点。
在众多产业技术情报分析目标中,根据优先级划分,卡脖子技术最为迫切,颠覆性技术次之,然后是突破性技术。卡脖子技术可能是颠覆性技术,也可能不属颠覆性技术,颠覆性技术中也可能有卡脖子的,但是卡脖子技术、颠覆性技术均隶属于突破性技术,突破性技术必然也是新兴技术。不同产业技术情报分析目标不是并列的关系,而是你中有我、交叉嵌套的关系,随着优先级递增,情报分析深度越大,机密程度也越高。
4 数据驱动的产业技术情报分析方法框架
本文在数据密集型研究范式转变大环境下,基于数据驱动思维,强调革新产业技术情报分析方法论。根据数据表现形式的不同,目前产业技术数据主要有文本、音频、图像、视频、网络等半结构化和非结构化数据,分析数据特征及其处理模式,可以发现音频数据虽然具有独特的声纹特质,但对于产业技术情报分析而言这种声纹特质并无太大价值,通常将其转换为相应的文本,然后对文本内容进行挖掘,即其处理模式可借助文本挖掘实现;对于视频数据,视频的本质是动态的图像,虽然处理难度大于普通静态的图像,但其处理模式仍归属图像挖掘范畴。从数据来源来看,网络数据(network data)虽然可以从文本、图像等数据中析出,但是从计算方式来看,对网络数据的预处理、检索、挖掘以及存储操作与文本、图像等完全不同。因此,根据产业技术数据类型和数据计算方式,可以将产业技术目前所涉及到的数据处理模式归纳为文本、网络和图像三种核心数据处理模式。
鉴于此,本文构建融合文本挖掘、图挖掘和图像挖掘的产业技术情报分析方法体系,其方法框架如图2所示:
数据驱动的产业技术情报分析方法体系框架,主要针对持续性技术、突破性技术、颠覆性技术、新兴技术、共性技术和卡脖子技术六大产业技术情报分析目标,强调通过文本挖掘、图挖掘、图像挖掘等三大方法体系,实现识别、预测、评估和预警四大情报分析任务。在四大情报分析任务中,识别主要包括对产业技术类型、产业技术状态、产业技术脉络以及异常产业技术等进行一系列识别;预测主要包括对产业技术的发展趋势、创新扩散、影响力、关系等预测;评估主要包括对产业技术状态、影响、结构组成以及未来进行评估;预警主要包括对产业技术的异常状态、异常产业技术、技术差异、异常趋势等预警。
图2 ᅠ数据驱动的产业技术情报分析核心方法体系框架Fig. 2 The Core Method Framework of Data-driven Information Analysis of Industrial Technology
六大产业技术情报分析目标,可分别围绕四大情报分析任务展开,任何一类产业技术可能都需要涉及识别、预测、评估、预警等任务,每一种情报分析任务对六大产业技术同样也都适用。四大情报分析任务与三大方法体系之间是可以直接完全对接融合在一起的,不存在任何割裂关系,任何一种情报分析任务的开展可能都需要三大方法体系的支持。三大方法体系同时也可以用于任何一种情报分析任务和任何一类产业技术的情报分析。六大产业技术在应用三大方法体系时,主要体现在形形色色的数据中,一类数据对应一类方法,多源异构数据则对应多种方法。总而言之,数据驱动范式下的产业技术情报分析中,文本数据、网络数据、图像数据三类核心数据是力量之源,文本挖掘、图挖掘、图像挖掘三大核心方法体系是方法之剑,识别、预测、评估、预警是情报分析的四大任务,而实现对六大产业技术的情报分析是终极目标。
4.1 文本数据驱动的产业技术情报分析方法
文本数据(text data)是产业技术最广泛的载体,如科学文献、专利文本、政策文本、新闻报道以及专家与学者对技术的评价与观点信息等,如何从文本大数据中识别出相关产业技术,并根据文本特征对产业技术进行分类和预测,是文本数据驱动产业技术情报分析模式研究的关键[55]。如图3所示,将产业技术文本数据转化为情报,其核心在于文本挖掘(text mining)等情报分析方法的融合。
文本挖掘是一种从文本数据中抽取隐含的、未知的、潜在有用的模式、关联、规律和知识发现的过程[56],需要依据自然语言处理(Natural Language Processing,NLP)等模式进行文本预处理,进而进行文本解码(text encoding)、文本相似度计算(text similarity)、文本分类(text categorization)、文本聚类(text clustering)、文本自动摘要(text summarization)、文本自动管理(automatic text management)等处理。面向产业技术的文本挖掘情报分析方法,强调在广泛收集产业技术文本数据的基础上,有效清洗、处理文本数据,结合具体的产业技术识别、预测任务,从海量文本数据中识别、提取文本特征,即在文本表示学习的基础上辅以机器学习/深度学习等方法,以实现产业技术情报分析目标。其关键在于,针对海量的文本数据,如何提取文本中相关产业技术的特征,相比Bert动则上亿个参数,如何借鉴Sentence-BERT、SBERT-WK等轻量级算法[57],改进并融合到产业技术文本挖掘方法体系中,是文本数据驱动情报分析研究的重点。
4.2 网络数据驱动的产业技术情报分析方法
网络数据是产业技术实体和关系最有力的表达方式之一,其以节点(node)代表相关产业技术及属性,以边(relation)代表产业技术之间的复杂关系,如产业技术相关知识网络、合作网络、引证网络、价值链、集群网络以及相关产业技术知识图谱等,网络数据又统称为图数据(graph data),因此如图4所示,将产业技术网络数据转化为情报的核心在于图挖掘(graph mining)等情报分析方法的融合。
图3 ᅠ文本数据驱动的产业技术情报分析方法Fig.3 Industrial Technology Information Analysis Driven by Text Data
图挖掘是一种对图(graph)或网络数据中潜在的、未知的结构、模式、规律等识别和预测的过程,其复杂程度超远单一的图计算(graph computation)[58]。面向产业技术的图挖掘情报分析方法,强调在合理识别和抽取节点与关系的基础上,完成同构、异构等不同类型图构建,运用图聚类、路径计算、子图识别、影响力计算等方法对图中的节点和关系进行计算[59],根据节点影响力识别不同类型的产业技术,计算和揭示产业技术之间的直接与间接关系,根据子图特征对产业技术集群进行识别,并对相关产业技术之间未来的关系进行预测。例如Common Neighbors、Admic Adar、Jaccard Coefficient等节点相似度计算模型,Shortest Path、Katz、FriendLink、Random Walk等关系相似度计算模型,Deepwalk、Node2vec、Edge2vec、SDNE等同构网络无监督特征自学习模型,以及Metapath2vec、W-Metapath2vec[60]、TransPath[61]等异构网络特征自学习模型。
目前在图挖掘方面比较受关注的当属广度学习(broading learning)和 图 神 经 网 络(Graph Neural Network,GNN)等算法模型。其中,广度学习主要针对异构网络,强调如何在异构网络中进行图挖掘,比较适用于产业技术多源异构网络数据,可进行识别、预测、预警等多种情报分析任务,例如CCMF(Crossnetwork Collaborative Matrix Factorization)、HUMOR (HeterogeneoUs Multi-sOurce ClusteRing)、ILSTM(Improved Long Short-Term Memory)等算法模型[62]。图神经网络则适用于任何一种网络数据,例如LGNN(Layered Graph Neural Network)、GGS-NN(Gated Graph Sequence Neural Network)、GPNN(Graph Parsing Neural Network)等算法模型[63]。随着GNN的创新应用和企业级应用开放,上千亿级关系的大型图可在14小时内完成训练,在1.2个小时内完成后续推理预测工作[64]。随着图机器学习(Graph Machine Learning,GML)的发展和逐渐成熟,基于图挖掘的产业技术情报分析,将成为科技尖兵开展情报工作必不可少的利器。
图4 ᅠ网络数据驱动的产业技术情报分析方法Fig.4 Industrial Technology Information Analysis Driven by Network Data
4.3 图像数据驱动的产业技术情报分析方法
图像数据也是产业技术重要的载体,如产业技术相关专利图纸、设计图纸、实验图像以及竞争产品图像等,无论是动态的视频,亦或实时监控的录像与拍照,都是情报分析重要的图像数据。如图5所示,将产业技术图像数据转化为产业技术情报,需要根据情报分析需求,对相关图像进行切割、模式识别、特征提取等,根据图像所包含的内容进行产业技术识别和预测,图像挖掘(image mining)等情报分析方法是实施的关键。
图像挖掘是一种利用计算机视觉(computer version)技术从图像、视频等数据中抽取信息和进行知识发现的过程[65-66]。面向产业技术的图像挖掘情报分析方法,强调融合计算机视觉、图像处理、图像检索、统计学等多种技术为一体,在对图像处理的基础上,根据情报任务对图像进行分类、聚类以及匹配等,并结合专家主观数据对从图像中识别和预见的产业技术进行修正,完成情报任务。例如,在进行产业技术情报分析时,往往会遇到大量PDF格式的数据无法直接被机器阅读,此时解析PDF就势必需要借助图像挖掘技术[67]。
面向产业技术情报分析的图像挖掘,其关键在于提高机器对产业技术相关图像的理解以及提高图像数据中产业技术类别识别的准确率,例如移植和改进R-CNN(Regions with CNN features)、Fast R-CNN、Faster RCNN、YOLOv1(You Only Look Once)、SSD、RetinaNet等图像挖掘算法,从人脸支付、自动驾驶、广告检测等领域,迁移到产业技术图像情报分析中来。相对于其他领域比较广泛和容易获取的图像数据而言,产业技术相关图像数据却常常难以获取,获取的完整度也大打折扣,而具有成熟标注的产业技术图像数据库则更为稀少。产业技术情报分析作为科技尖兵,不应对海量而丰富的图像数据“熟视无睹”,不能成为“睁眼瞎”,科技情报领域的学者应当积极推进图像挖掘算法在产业技术情报分析方面的创新应用,进而形成面向科技情报分析的图像挖掘方法研究体系。
5 结语
新时期我国产业技术的发展面临着更多的挑战和阻碍,为了更好地服务产业技术发展、赋能产业技术决策,我国更应该创新情报分析理念,摒除落后的情报分析手段以及固有的情报文化障碍,积极融合新兴技术,创新我国产业技术情报分析方法体系,重塑数据战略浪潮下的科技“尖兵”,服务国家创新发展战略。
本文梳理了目前产业技术情报分析中采用的方法,简述了各种分析方法的研究机理和特点,论证了大数据环境下的情报分析模式及对应的情报分析目标,整合并构建数据驱动的产业技术情报分析方法体系框架,着力塑造与文本数据、网络数据、图像数据等相对应的文本挖掘、图挖掘、图像挖掘方法体系,针对产业技术不同的情报分析目标,打造与之相匹配的情报分析模式。
图5 图像数据驱动的产业技术情报分析方法Fig. 5 Industrial Technology Information Analysis Driven by Image Data
数据驱动的产业技术情报分析方法体系,绝不仅仅是单一维度方面的数据,文本挖掘、图挖掘、图像挖掘等产业技术分析模式,虽然自成一体,各有其适用的场景和独特要求,但也互补互成,无论是方法层面的核心思想,还是应用层面的灵活改进,均可相互借鉴,例如借鉴文本表示学习思想形成的网络表示学习,借鉴文本预训练模型Bert形成的图网络的预训练Graph-Bert[68],以及将图像数据当作一种特殊的图数据,利用图神经网络(GNN)进行图像挖掘创新应用等。数据驱动强调多维数据整合、多源异构数据融合,从特征层面、模型层面、决策层面形成一体的融合机制,面向产业技术情报分析中的识别、预测、决策、预警等任务,全面搜集数据、充分利用数据,凝练形成新的产业技术情报分析方法体系。
作者贡献说明
霍朝光:研究设计,论文撰写;
卢小宾:研究设计,论文撰写;
杨冠灿:论文修改;
霍帆帆:资料收集,参与修订;