APP下载

企业战略性知识轮廓:化工专利数据挖掘与分析*

2021-08-30郭鑫彬

情报杂志 2021年8期
关键词:文档集群专利

王 江 郭鑫彬

(北京化工大学 经济管理学院 北京 100029)

0 引 言

近年来,随着科学技术的不断更新和发展,知识爆炸式增长已经成为不可逆转的趋势。大数据时代下,种类繁多且数量庞大的数据库数不胜数,企业也越来越难以管理由各种系统、过程和事务所生成的海量数据[1],对企业最困难也最重要的问题是:如何充分利用拥有的知识数据库,并对其进行管理和分析,挖掘出对企业有价值、有意义的模式和洞见。

企业战略分析中,专利数据分析是最重要的分析手段之一。世界上最大的技术知识源就是专利信息,据WIPO的报告,专利信息包含了R&D产出的90%以上,剩下的5%~10%表现在科学文献中,所以企业申请专利的目的不仅仅是为了保护核心技术,同时也设置了技术进入的门槛[2]。事实上,专利信息是相关技术竞争者之间不得不向公众透露的,而在其他情况下都不会透露的技术领域关键信息的唯一方式,同时这也意味着企业的专利保护实际上是以核心技术的公开为代价的,因此专利文献就成为获取最新技术的主要来源。

根据以往研究经验,分析专利最好的方法是专利分类[3],其能量化分析嵌入企业中的知识资源。但现有的基于信息检索的分类系统(如IPC分类)在此方面的价值和专业性有限,并且传统分类过程的高劳动强度和主观性因素也限制了专利数据价值利用过程,再考虑到传统知识数据库管理方法的频繁更新所带来的高收集和高维护成本,同时新兴技术的复杂性要求企业改进对创新过程中跨学科活动的性质和影响的理解,因此,其必须拓宽涵盖不同技术领域的知识基础,而这增加了技术和创新管理的难度[4]。

事实上,企业可以通过使用超越传统人工专利分类的方法(机器学习算法)创造出对于企业战略性知识轮廓更加动态的视图,来完成企业资源的良好配置。机器学习方法所固有的优势是分析的灵活性、多功能性和稳定性,这为企业的战略预见和技术管理提供了更具价值的方法。本文认为企业可以通过使用大数据方法来管理技术智能,在创新和战略方面培育更具交互式和可适应性的学习形式,并开发了大数据预测方法支持战略规划的前景。

1 文献回顾

本研究涉及到知识管理领域的两个方面,一是有关于企业知识分类、知识战略和知识轮廓的基础理论研究。知识分类是企业进行知识管理所必须的基础研究[5],不同的学者从不同的角度提出了相应的知识分类方法。对企业而言, 最具影响力和实践意义的是Polanyi[6]从可转移性角度提出的将知识划分为言传知识(articulated knowledge)和意会知识(tacit knowledge),前者是指可用书面文字、图表或数学公式表达出来的知识,后者是指不能用语言文字所阐述的知识,并且其认为人类的大部分知识是以意会的方式存在的;经济合作与发展组织 (OECD) 在1996年发表的《以知识为基础的经济》报告中, 以Polanyi的知识分类理论为基础, 进而把人类的知识分为四大类: 关于事实和现实的知识、关于自然规律和原理方面的知识、关于技能和诀窍方面的知识和关于人力资源方面的知识,其中前两类为可编码的显性知识, 后两类为不能明言的隐性知识[7]。所以说,对隐性知识的研究是企业知识管理的重点,并且专利也是企业隐性知识显性化过程中最具法律效力的产出研究对象。知识战略是应知识时代的要求,所提出的将传统的战略管理与新兴的知识管理思想结合起来的新概念,越来越多的企业意识到知识在企业经营中的重要性, 以产品为焦点的竞争正被以知识为基础的竞争所取代。Zack[8]、Drew[9]和Teece[10]分别从知识的视角提出:知识战略是基于知识作为最重要的资源和首要生产要素基础上的发展战略,是面对知识经济兴起的基本发展战略,提高获取知识、运用知识和创造新知识的能力是知识战略的核心。知识战略过程的最终产出即为战略性知识,其能为如何利用知识获得和保持竞争优势,如何分析和评价企业的现有知识并发展具有战略价值的知识和如何有效配置企业知识,使之形成独特的资产和能力, 从而保证企业在市场上的竞争地位等相关问题提供了战略指导,并且战略性知识也是属于企业隐性知识中重要的一种。知识轮廓源于企业知识基础理论,其理论将知识视为企业最大的资源,强调了企业间拥有的不同的知识库是其相互区别的根本原因,也是企业竞争优势的来源。Jaffe[11]指出,知识基础是企业内各类知识元素(包括信息、科技、关键技术和技巧)或者是企业内个体所拥有知识的集合,是企业技术创新活动的起点。以往的研究主要在广度、深度、一致性和分解性等维度对企业知识基础的结构特征进行分析和论证[12],而知识轮廓是以知识深度和广度维度为主,对企业知识基础开展的相关研究。其中知识广度定义为一个企业拥有的所有知识元素,反映了企业可以利用的知识领域的数量,而知识深度则定义为企业某一特定技术领域内的专业知识水平[13]。企业技术知识基础越宽,企业知识多样化程度就越高,反之,就越单一;而企业知识基础越深,说明企业对某一技术领域的知识越熟悉,其知识就越复杂,反之,对知识越不熟悉,企业知识就越简单。进一步讲,知识的广度和深度实际上是解释企业绩效的更重要的变量,而不是知识的存量[14]。企业被要求在特定领域拥有一定的知识深度和广度,这使得企业才能够快速应对技术变革,并且在企业层面对这两个变量的评估能使我们清晰地掌握企业战略的发展焦点。

结合上述基础理论研究,提炼出企业战略性知识轮廓的概念:企业所拥有的核心技术知识元素在深度和广度维度上的动态战略特征。其中专利分析是分析企业战略性知识轮廓的可行方法,专利数据提供了洞察企业知识组成的能力,通过专利数据的定量分析和识别企业战略性知识轮廓,能揭示出隐藏在企业信息库中有规律性的知识,为企业实施多元化战略提供参考,并促进企业挖掘交叉领域的商机,有利于成为新产业的开发者和领导者。

二是在专利数据基础上的无监督学习和主题建模的方法研究。大数据时代下,机器学习是专利数据定量分析方法的重要选择,无监督学习作为机器学习中的一种,其产生一种基于输入的结果,且不受任何来自环境的反馈的影响。作为一种自动分类学习方法,无监督学习不同于有监督学习之处在于,其依赖于一个正式的框架使算法能够发现相应的模式,并且大多数无监督方法为依赖于输入数据的概率模型。主题模型就是一种重要的无监督学习方法,其中隐含狄利克雷分布(Latent Dirichlet Allocation)是一种从文本中提取潜在模式的主题模型,基本逻辑为语料库中的每个文档都是潜在主题的随机混合物,每个潜在主题以单词分布为特征[15]。LDA允许我们根据文档中使用的语义文本揭示这些潜在的概率分布,从而根据文档中潜在的模式对文档进行分类。早在2007年,Blei等[16]研究展示了主题模型在建模语义文本结构方面的可用性,并且发现主题模型能在不需要对语言有明确理解的情况下,提取出具有令人惊讶的可解释性和有用的结构。近年来主题建模被应用于专利数据的实践研究,如Venugopalan等[3]以基于主题的方法分析专利数据的结构,使用专利摘要和权利要求作为基础,对太阳能光伏专利的数据集进行准确性和实用性测试;王博等[17]将LDA主题模型引入专利内容分析领域,实现专利主题的划分,解决以往专利主题分类不精确的相关问题;Huang等[18]进一步将专利挖掘扩展到生物医学领域,研究专利文件中的疾病覆盖范围和潜在主题,对专利疾病管理技术创新的重点和趋势有了更深入的了解。

2 研究过程、方法和模型

本文提出基于LDA主题模型的企业专利知识库战略挖掘系统的整体框架,实现对专利数据的提取、处理、分析和可视化的主题挖掘全过程,如图1所示。

图1 知识挖掘过程

2.1专利数据收集及预处理样本企业专利数据来源于德温特专利索引数据库。以8个国际著名化工企业的专利权人的代码为检索条件,检索专利公开时间为1963-2018年,提取出总量为187 446的专利数据库。经过对初始数据库进行专利缺失、重复和无效短文本的剔除操作后,可用于文本挖掘的专利数据为183 306条,如表1所示。

表1 企业专利拥有数量情况

进而对专利数据集的专利摘要进行文本预处理,经过文本清洗、切分、去特殊字符、去停用词、拼写检查、词形还原和特征提取等[19]预处理步骤后,将高度非结构化的初始专利文本数据转化为可被计算机识别和处理的词向量数据。

2.2企业知识主题模型的构建LDA模型是一种文档主题概率生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构,每层均有相应的随机变量或参数控制[20],其中假定每个文档具有类似于概率隐含语义索引模型的主题组合,且隐含主题包含相应的Dirichlet先验分布,满足文档到主题服从多项式分布,主题到词服从多项式分布。LDA模型可以用来识别大规模文档集或语料库中潜藏的主题信息,且其算法核心思想为降维。

LDA概率主题模型生成文档过程[21]如下:

a.从狄利克雷分布α中取样生成文档m的主题分布θm;

b.从主题的多项式分布θm中取样生成文档m第n个词的主题Zm,n;

c.从狄利克雷分布β中取样生成主题Zm,n对应的词语分布φk;

d.从词语的多项式分布φk中采样最终生成词语Wm,n。

在算法流程图2中,阴影圆为可观测变量,空心圆为潜在变量,箭头的方向指明了前后变量间的条件依赖,方框及其右下角数字分别代表了重复抽样及其迭代次数,其中参数α和β对LDA主题模型的文档集层进行了定义,α是每篇文档下主题的多项分布的Dirichlet先验参数,β是每个主题下特征词的多项分布的Dirichlet先验参数,经过学习训练得到参数θ和φ,从而确定LDA主题模型。其中K为样本中隐含的待挖掘的主题数量,M为样本文档总数,Nm是第m篇文档的单词总数,Zm,n是第m篇文档中第n个词的主题,Wm,n是m篇文档中的第n个词。剩下来的两个隐含变量θm和φk分别表示第m篇文档下的主题分布和第k个主题下特征词的分布,前者是K维向量,后者是V维向量(V为词典中词总数)。

图2 LDA模型盘子表示法

其中LDA主题模型的生成概率公式为:

(1)

2.3最优主题数目K值的确定在概率语言模型中, 困惑度是用来评估语言模型优劣的指标, 其基本思想是给测试集赋予较高概率值的语言模型,较好且较小的困惑度意味着模型对文本集有较好的预测作用, 且困惑度一般随着潜在主题数量的增加呈现递减的规律。LDA算法依赖于用户输入专利文档分类的主题数量,不同参数K值的输入使得模型有着不同的困惑度,所以最优主题数目的确定是构建LDA模型的重难点。本文借鉴Blei等[15]提出的一种以样本集中每篇文本的角度来计算困惑度的方法:

(2)

p(wd)=∑p(z|d)*p(wd|z)

(3)

公式中D表示为样本语料库,共有M篇文档,Nd表示每片样本文档总单词数,而p(wd)代表样本文档d中的词wd产生的概率,p(z|d)表示为一篇样本中每个潜在主题出现的概率,p(wd|z)表示经预处理形成的词典中每一个单词在相应每个潜在主题下出现的概率。

由于模型的稳定性与困惑度呈现反比的规律,本文采用试错法对预处理的数据库进行不同主题数(K值)的测试以及困惑度值的计算,在考虑LDA存在的随机性不良因素影响后,加入随机时间种子,得出的不同主题对应的困惑度关系折线图及模拟曲线如图3所示,当主题数为53时,困惑值达到了最低点,此时对于样本数据的有效信息度拟合值达到最佳。

图3 困惑度折线图和模拟曲线曲线图

2.4企业专利数据挖掘及结果展示本研究通过Python语言实现LDA主题算法整个过程,完成了对化工专利数据的主题挖掘,算法参数的最优输入采用K值为53,超参数α和β采用Python中算法经验的默认值,同时为保证模型的收敛,在LDA算法参数中的Gibbs抽样[21]的迭代次数设置为1 000以上,经过重复迭代,最终结果形成了188 306×53规模的文档—主题矩阵(θm)和具有53行的主题—关键词矩阵(φk),其中θm和φk分别给出了第m篇样本文档中的主题z的分布和主题z下关键词的概率分布。

主题分布θm和关键词分布φk是本研究接下来分析和研究的重点,文档—主题概率分布见表2,表中每行对应一篇样本文档,每列对应相应的隐含主题,表中的值对应着样本文档在特定主题下的概率值;主题—关键词分布见表3,其每行代表对应主题,表中展示排名靠前的关键词及其在相应主题下的概率分布值。

表2 文档—主题分布表(部分)

表3 主题—关键词分布表(部分)

3 结果分析

3.1企业战略性知识轮廓分析第四次工业革命以来,技术的复杂性不断影响着创新的动力,行业内对跨学科活动的需求有了明显增加。研究表明,技术多样化的知识体系是企业的一个重要特征[23],因为在创新过程中,多个领域的知识被交叉、结合在一起。为了更好分析知识资源的变化,我们必须了解一个行业的多维知识库,以企业知识深度和知识广度作为基本维度,挖掘样本企业间技术创新和多样化的异同点。所以从知识深度和广度上操作一个企业的知识库,以更好接近未来企业战略发展的知识轮廓尤为重要。

通常来说,广度与专利分类的多样性有关,深度与企业专利组合中专利分类的集中程度有关[24],而对于分析企业知识库的重大挑战是:如何以量化的手段分析企业知识的广度与深度。显然我们需要一种更具适应性的方法来分析专利数据,为此本研究进一步利用LDA算法得出的文档—主题概率分布矩阵,通过技术多元化指数(TD)和主题聚类相结合的分析方法以更好的显示知识库的实际广度和深度。

3.1.1 企业知识广度分析 为了更好地定量研究企业知识广度,将赫芬达尔指数(HHI)与专利多元化相结合,对赫尔芬达指数进行形式转换,形成可以定量分析企业拥有的知识元素和领域的技术多元化指数(TD)[25]。其中赫芬达尔指数最常应用于经济领域,是一种测量产业集中度的综合指数,指一个行业中各市场竞争主体所占行业总收入或总资产百分比的平方和,用于计量市场份额的变化,即市场中厂商规模的离散度,而技术多元化指数应用于专利组合衡量多样化。进一步利用文档—主题概率计算样本企业的技术多元化指数,其计算公式为:

(4)

定义中,Ni表示i样本企业专利在所有潜在主题上的概率之和,Nij为i企业专利在相应潜在主题j上的概率之和,K为主题数量。同时可以看出,TD值越高,说明企业的投资组合越广,而TD值越小,说明企业的技术重点相对较窄。通过对文档—主题概率矩阵数据处理,得出的相应样本企业专利组合规模与技术多元化指数的散点图如图4所示。

从图4中可以清晰观察到:大多数企业(旭日成、巴斯夫、三菱化学和陶氏)都拥有高度多元化的投资组合,但从数量上看,这些企业明显落后于相对最大的知识产权持有者(中石化和住友化学),而LG和拜耳的技术投资组合相对集中,说明其更注重技术深度,从而降低了TD的数值。与LG、拜耳以及拥有更广泛技术组合的其他四家企业相比之下,中石化和住友拥有着大量专利。总之,该图突出显示出了样本企业间的知识特性的差异,说明LG和拜耳现有知识库集中某些技术领域,这可以从相对较低的多样性指数以及接下来的深度研究结果中明显看出;而对于住友和中石化具有的高技术组合,这很大程度上是由于业务范围远远延伸出了化工行业,使得其比竞争对手拥有更大的知识广度。图4突出了样本企业在专利数量和密度之间的位置差异,展现了样本企业各自知识空间焦点的异同。进而仔细观察还发现每个企业的TD值都高于0.92,从整个化工行业的角度来看,这些优秀标杆企业都有着复杂的专利组合和较高的知识广度,这意味着知识广度对企业技术创新和核心竞争力发展有显著正向影响。

图4 样本企业专利组合规模与技术多元化指数的散点图

由此可以明确根据TD值和专利数目的组合将具体行业内的企业分成四类:第一类企业同时具有较多的专利数量和技术组合,如中石化和住友化学;第二类则是具有较多专利数量但技术相对较集中的企业,如LG化学和拜耳;第三类则为具有较多技术组合但相对较少的专利数量的企业,如旭日成、巴斯夫、三菱化学和陶氏;而第四类有着较少的专利数量和技术组合的企业,由于其不具较强代表性和分析价值,且本研究选取样本企业为全球化工行业内标杆企业,第四类企业未出现于样本集和图4中。同时,图4中无第四类样本企业的细节也从侧面角度证明我们正确选取了具有目标期望的样本企业,这说明对于任何企业来说,专利技术集中且数量少的知识特征不利于企业创新,不符合企业发展的规律,其直接影响着企业核心竞争力。

3.1.2 企业知识深度分析 主题聚类为量化分析企业知识深度提供了很好的启发,研究充分利用LDA算法得出的文档—主题和主题—关键词概率分布矩阵,对样本企业i在潜在主题j中获得专利的概率进行聚类,将样本企业的主题概率的和重新调整为0到1之间的数值,通过python语言进行数据预处理,使用基于行和列的层次聚类对数据处理的矩阵进行聚类,为了更好地展示结果和进一步分析,将聚类结果以热图的形式进行可视化处理,如图5所示。

图5 基于行和列的层次聚类热图(黑色框架显示了聚集主题)

图5采用层次聚类方法分别对潜在主题和样本企业两个维度进行了聚类,从中可以清晰观察到LDA算法挖掘出的53个隐含主题由行树状图按相似性进一步聚类成9个集群类别,经整理得到的集群结果如表4所示。

表4 主题聚类表

对表4的聚类结果进一步分析,并基于对主题中出现概率高的单词的定性评估,以及对9个集群进行人工评价和标记,结果如表5所示。

图5中热图颜色的深浅清晰显示了单个企业的知识焦点,结合表5生动展示出了样本企业各自知识库的知识组成和结构特征。横向来看,中石化、拜耳和LG化学分别在石油化工、农业化学、化学电池技术领域中处于完全领先地位,知识基础之深使得其他竞争对手望尘莫及,而在其他技术领域中,每个样本企业的核心竞争力都各有千秋,但是具体知识领域内企业间知识深度的差异还是在热图中被清晰展示出来。

表5 聚类定性评估

更重要的是从纵向角度看,企业间的聚类结果又进一步以知识深度解释了企业知识焦点存在着明显的质的差异,并在投资组合的相似性和多样性基础上进一步区分了样本企业。从企业聚类结果中可以观察到,中石化是明显区别于其他7个样本企业的,中石化有着较多的技术领域和投资组合以及更深的知识深度,这也是其区别于住友化学的内在因素。整体而言,中石化、拜耳和住友企业有着更深的知识深度,相反,LG、旭日成、三菱化学、巴斯夫和陶氏5个样本企业具有相对较低的知识深度。

表5的集群结果基本代表了整个化工行业技术领域的核心,集群把互相关联或相似主题聚集在一起,使得集群间的关联性大大降低,所以说其聚类结果能更好体现出企业战略核心,有利于进一步挖掘和推断出整个化工行业发展知识轮廓。同时展示出与传统IPC分类的统一化、标准化特点不同的是,LDA产生的主题分布更加有利于专利信息管理、分析和挖掘,从而能应对不同背景的问题,给予相应的知识分析方案。

3.2行业内企业战略性知识轮廓趋势预测为了进一步分析化工行业知识库并对其发展进行展望,将文档—主题矩阵中专利概率数据与年份联系起来,结合主题聚类的结果,推断出化工行业的战略性知识轮廓的动态,创建一个按年份对潜在主题的专利文件进行分配的矩阵,其显示样本企业每年每个主题的文档概率的总和,用此矩阵来评估化工行业中不断增长的知识领域和可视化分析,引用Hyndman[26-27]提出的分层时间序列模型进行趋势预测,将基于软分类的聚合主题的时间序列扩展到未来,创建一个面向未来的技术管理中心。

分组预测方法可以利用数据中的结构,对于分组数据来说,每组数据的预测必须等同于组成该组的各个序列的预测,即预测时从系统角度出发,考虑各个分组之间的关联性,这种预测方法保证了分析结果在各个聚合级别如单个主题、主题集群或整个企业样本之间保持一致性,这使我们能够预测个别企业的知识轨迹,并与样本中的其他企业进行比较,创建不同主题领域动态发展的管理视图。

由于专利数据样本来自于1963—2018年间,时间跨度较长,为了更好分析化工行业知识库的时间动态,本研究以2000年为时间节点,将专利数据库一分为二进行相应的预测分析。还需注意的是,本研究对于专利时间的定义为专利权人在各个国家最早申请时间,考虑到专利从申请到授权的整个周期有着较长的等待时间,产生了知识信息的时滞性,对于专利的最早申请时间的分析能更好的体现出企业的战略性知识轮廓的动态;观察和试验发现2018年的数据也存在着较大的时滞性,不能作为基础数据进行时间序列的预测,但这并不影响之前的企业知识分析。

3.2.1 二十世纪行业内企业战略性知识轮廓概况 本研究对LDA算法得出的文档—主题概率矩阵进行时间标记,提取出2000年以前的专利数据概率矩阵并对其数据处理,从企业和技术集群两个角度对数据进行统计分析,得到的二十世纪化工行业企业知识战略分布如图6、图7所示。

图6 企业知识占比图

图7 技术集群占比图

通过图6可以清晰观察到,旭日成、拜耳、陶氏和住友是此时期内行业中专利数据知识占比最多的四个企业,且这些企业知识库的数量占比总和超过了90%,进而我们推断这4个企业是老牌化工企业的典型代表,结合图4得到的这些企业都具有较大的技术多元化指数的结论,不难推断出这些老牌化工企业在二十世纪必然有着巨大的企业核心竞争力和技术创新能力,同时也有着强有力的技术垄断能力。

进一步结合图7和表5挖掘化工行业技术集群战略,清晰观察到集群5(有机材料技术)是当时化工行业的最热门成熟的技术焦点;同时集群2(石油化工)、集群4(化学药剂)、集群7(塑料制品)和集群8(农业化学)相关技术也是行业内的重心和支撑技术,处于技术生命周期的成熟期;而像集群3(电子化工)和集群9(纤维、染色剂)等技术则处于蓬勃发展的阶段,属于技术生命周期的发展期;相反,像集群1(化学电池技术)和集群6(光敏技术)则处于萌芽期,在行业内刚刚有一片立足之地。

3.2.2 行业内企业战略性知识轮廓与技术集群预测 通过逐年聚合2000—2017年期间的专利文档主题概率,分析行业内战略性知识轮廓和技术集群的时间动态,结果如图8所示。

图8 行业内各技术集群相对重要性的时间动态图

图8显示了图5中各集群的相关性,可以看出:集群2(石油化工)和集群7(塑料制品)的相对重要性处于不断波动的状态,但重要性总体一直处于较高的数值,说明以石油原料为基础或衍生的化工技术一直都是化工行业技术发展的核心,是化工行业的支撑产业;而集群4(化学药剂)、集群5(有机材料技术)和集群9(纤维、染色剂)等技术则一直处于相对重要性总体降低的趋势,考虑到这些技术大多具有高污染和高危害特点,与世界各国所提倡的绿色可再生理念相悖,这些化工技术的重要性降低也理所当然,进而我们可得出绿色化工是实现化工行业可持续发展的必然趋势。与此同时,作为知识领域新兴技术群组集群3(电子化工)和集群1(化学电池技术)的相对重要性处于逐年升高的趋势;而集群9(纤维、染色剂)的相对重要性则一直处于较低状态水平,猜测原因可能为领域内存在着技术困难等,其有着较大的开发空间;最后集群6所代表的新兴光化学技术,虽然整体重要性偏低,但在08年之前一直处于上升趋势,热度很高,之后时间里发生了下降转折,但整体处于上升状态,也说明了此项技术潜力巨大。

近年来行业知识领域这种明显的时间变化大致可以归因于,化工行业所受内部技术创新和外部政策环境影响,产生了从高污染技术到绿色安全技术日益增长的重要性的明确转变,而且专利文本挖掘的结果显示了此种化工行业战略性知识轮廓的转变,企业也逐步将技术重点转向更具价值的化工技术新领域。

从潜在主题时间动态变化来看,图9显示了两个专利增长率增长最快的潜在主题(图9(a)和图9(b))和减少最多的两个主题(图9(c)和图9(d))的词云,其中专利增长率是根据2015-2016年和2016-2017年的平均增长率计算的,以此来获得近期稳定的增长模式。其中增长最快的主题是化学电解质,平均增长率为24.9%;增长第二高的领域是水溶剂技术,平均增长率为20.2%;而两个下降的主题分别是生物遗传化学和聚乙烯纤维材料领域,每年下降超过10%。

图9 最近三年中专利申请增长最快和减少最快的部分主题词云

为了更好地获得并验证企业知识水平的未来发展动态,添加一个可以描述企业当前是否正在某个领域建立一个不断增长的,或者在某些领域正在减少存在投资组合的预测维度,将分层时间序列预测模型和差分整合移动平均自回归模型(ARIMA)相结合,对行业知识库中的专利数量的总体趋势和聚类集群趋势进行了7年的动态预测,结果如图10和图11所示:

图10 专利数量预测图

图10和图11分别预测和显示了层次结构顶端和中间的集群层次的时间序列行为,其中图10预测到未来专利数量总量必然呈直线上升趋势;而图11预测低污染新兴技术集群1和6的专利数量和重要性有着明显的增加,高污染传统技术集群4和5的专利数量和相对重要性明显下降,而其他支柱性行业技术集群的专利数量则接近于零或零增长。结合图8的分析结论,证明了此预测结果与预期效果和现实环境政策发展基本一致。同时也说明:从企业和行业层面上,研究挖掘的成果可以将当前和预测的知识概况与竞争对手进行比较,产生用于未来知识投资的管理决策的见解。

图11 技术集群趋势预测图

4 结论与启示

本文提出了大数据机器学习绘制企业战略性知识轮廓的知识学习方法,以化工行业为实例,研究了行业内企业和技术的发展现状及趋势预测,证明了其对企业战略和知识管理的重要性,得出以下主要结论:

a.优秀企业的知识库都具有良好的知识深度和知识广度,这对于企业技术创新和核心竞争力发展有显著正向作用,无论是老牌企业还是新兴企业,都注重技术领域的多元化和组合的多样性。

b.LDA算法训练出的主题能很好的提炼出包含整个化工行业的技术焦点,结合主题聚类和时间动态,能充分将行业技术集群聚合在一起,清晰的展现出企业“有意识”隐藏的战略性知识,为决策者提供良好可靠的指导见解。

c.二十世纪化工行业的技术焦点和战略核心基本都是以石油原料为基础或衍生的相关化工技术,并结合十九世纪化工技术革命在化肥合成、人工合成燃料和制药工业产生的巨大突破的历史事实,说明了此阶段化工技术普遍具有高污染、高破坏和环境不友好性等特点。

d.二十一世纪以来,世界各国都意识到化工行业技术发展在提供给人们生活便利的同时,也带来相应的潜在污染威胁;化工行业顺应绿色安全可持续理念的趋势符合技术创新和时代发展的浪潮。同时研究结果也清晰展示:未来企业必然秉承绿色工业理念为核心的技术发展战略,微电子化学、电池化学和化工新材料技术领域将是未来化工行业发展的热门。

同时这种方法也有利于管理者洞悉企业战略性知识轮廓和核心技术发展趋势,给予管理者如何利用和挖掘专利知识的方法启示:第一,专利数据包含着许多重要的隐性知识和信息,今后应加强对专利数据的深度挖掘技术的重视;第二,在大数据时代,要充分利用各种数据和应用机器学习方法,来更好的节省企业的资源,帮助决策者更好的制定决策;第三,专利知识是企业核心竞争力和技术创新的体现,企业管理者应能将专利信息与产业联系起来,着眼于行业战略远见和企业动态发展能力。

猜你喜欢

文档集群专利
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
海上小型无人机集群的反制装备需求与应对之策研究
培育世界级汽车产业集群
一种无人机集群发射回收装置的控制系统设计
Word文档 高效分合有高招
勤快又呆萌的集群机器人
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
2007年上半年专利授权状况统计