APP下载

新一代信息技术产业专利数据挖掘与分析

2022-10-18刘连政

合作经济与科技 2022年22期
关键词:专利申请数据挖掘专利

□文/笪 伟 夏 丽 刘连政

(南京市知识产权保护中心 江苏·南京)

[提要]本文剖析新一代信息技术产业领域的创新特点以及专利信息挖掘过程,通过专利申请数据挖掘实例,构建数据模型,分析数据预处理、挖掘手段或方法选取、模型构建、优化与应用等方面的主要关注点。通过在实例中采用聚类分析算法,阐述所构建的模型优化以及模型评价等因素与输出分析结果的影响,以便为研究人员在相关领域内对于海量数据信息的挖掘、分析与利用提供思路,尤其是在专利信息的挖掘模式、维度以及趋势分析等方面提供参考。

一、新一代信息技术产业领域创新特点

近几年,在国家层面以及地方层面对于战略性新兴产业发展与深耕拓展的形势下,我国的新一代信息技术产业得到了较快的发展,包含下一代信息网络产业、电子核心产业、新兴软件和新型信息技术服务、互联网与云计算、大数据服务、人工智能五部分,产业链的上下游生态也得到稳步推进,逐步形成政府与政策引导、产业融合、创新成果产出与落地的发展新格局。发展至今,新一代信息技术产业领域的多个层面基本具有以下几点共性,这也是与其他领域存在明显区别的特点:

(一)技术更新或升级的节奏较快。新一代信息技术发展具有技术更新或者升级的节奏较快等特点,而且如今各行业的信息化发展已趋向规模化、系统化,使得新一代信息技术领域的相关技术推进与其他众多行业发展发生交叉,产生较为紧密的联系,因而在面向新一代信息技术产业领域的专利信息数据挖掘时,可着重关注专利申请趋势、技术生命周期以及趋势预测这几个方面对于细粒度挖掘与分析的要求。

(二)应用场景或者用户需求的变化所产生的直接影响。综合近些年新一代信息技术产业的发展情况,较多的是应用场景的变化或者用户需求的变化催化了创新成果或者创新模式的生成。例如,下一代信息网络部分的新一代移动通信技术,从4G-LTE通信技术至5G通信技术,再到后续的6G通信技术研究等,直接使得应用的场景发生较大的变化,更为高速、稳定的数据流交互改变了人们日常工作与生活的沟通联系方式以及市场与行业的进一步细分和相关技术演进。因而,在面向该领域的专利信息数据挖掘时,应用场景或用户需求的变化趋势等成为数据挖掘与分析的一个参考维度。

(三)下一步发展的不确定性。目前来看,我们只能初步看到技术发展的整体趋势,而对于具体在何种细分领域、何种应用或场景得到显著的发展与探索并不是很清楚,也就是新一代信息技术产业的后续发展存在不确定性。例如,区块链相关技术的发展,早期从20世纪90年代开始就有相关研究,并且早期是“区块+链”的初始形态,但在近些年演进成区块链的形态,才成为研究与风险投资的一个热点,虽然现在很多人在这方面看到了潜力与潜在利益,但从目前的发展来看,其还是缺乏较为成熟的、整体的实践。因而在面向该领域的专利信息的数据挖掘时,如何进行后续发展的趋势分析与预测、相关决策支撑等也成为研究关注点。

二、面向新一代信息技术产业领域的专利数据挖掘

(一)数据挖掘特点剖析。数据挖掘是指从大量的数据中通过算法搜索隐藏于其中的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

发展至今,各个行业的信息化之类的系统已经具有了众多的数据信息,特别是在新一代信息技术产业领域,本身就是在构建众多基础信息数据流的基础上进行各个细分场景层面的相关处理、分析、拓展与延伸等工作,面对这些海量的数据信息,如何进行更为有效的处理与使用已然成为现今的一个热门研究点。这里的处理与使用所采取的手段主要包括:海量数据信息的统计、分析、利用以及决策。当然,在数据挖掘过程中,也是存在目的性的,构建较为明确的数据挖掘目标,使得人们从海量的数据信息中进行数据信息的提取、分拣、归类,挖掘出隐含的有用数据信息,为支撑相关决策提供研究与处理的方向。对于数据挖掘技术的研究与应用则成为一个重要的抓手。数据挖掘主要有以下几个特点:

一是隐含性。数据挖掘就是要从海量的、存在噪声的数据信息中提取隐含的知识信息,发现或者挖掘存在于其中的、人们事先并不具体了解的、潜在的有用信息以及知识,而不是常规的处理,如从数据表象层面通过一些BI工具即可获得一些信息的过程。

二是交叉性。数据挖掘是一门交叉学科,其与人工智能、机器学习、模式识别、神经网络计算和数理统计等学科领域交叉,它将对数据信息的应用从简单的查询、统计等基本处理操作直接转变为从海量数据信息中挖掘、搜索、发现隐藏于其中的有着特殊关联的知识信息。当然,所发现的知识信息也是相对的,在不同领域、不同前提以及不同约束条件的场景中所获取的知识信息也存在一定的差异,能够发现潜在的有效知识信息或者挖掘出内在的联系,有助于提供或者辅助更深层次的决策支持。

三是价值性。在早期,由于计算能力以及不同行业或领域的业务数据的运行、生成与互联电子化的局限性,对于海量的数据信息,人们并没有进行深入的数据挖掘研究,大多数的数据处理止步于海量数据信息的深层次分析与挖掘。现在,通过数据挖掘为企业提供有价值的知识信息,进而获取直接或者间接利益、业界优势,为商业决策或部署提供支撑,已然成为一个重要的手段。对海量的数据信息进行深层次的分析,有助于挖掘、发现商业发展以及市场竞争优势等方面的有用的知识信息。

(二)专利信息的挖掘。通过专利信息的挖掘,能够帮助人们对专利文献、相关的技术特征信息、法律信息、潜在的技术价值信息以及市场价值信息进行更深层次的、显性化的信息提取与研究,不管是专利技术层面上对于技术创新发展以及相关领域技术演进趋势,还是专利价值层面上对于市场价值与技术价值的权衡以及后续发展决策的支撑,能够在创新主体的创新成果研发、专利布局、专利风险规避以及创新或发展决策过程中发挥重要作用。

一般来说,有关专利信息的挖掘存在两种诠释。第一种诠释主要是指对贯穿检索、分析、专利数据与文本挖掘等过程进行挖掘与研究,目的就是挖掘、发现并处理有用的专利信息,进而在这些有用信息的基础上进行更深层次的应用研究、辅助决策或趋势预测等工作。第二种诠释主要对专利数据以及专利文本两个方面进行挖掘与研究,其中专利数据挖掘主要是对专利基础数据进行处理,通过数据挖掘方法获取专利共现、共引或共类、时间序列和网络拓扑结构等方面的研究成果;专利文本挖掘则是对专利文件的字段进行分析与研究,例如权利要求中涉及技术特征的字段,通过文本挖掘的方法获取专利分类、聚类等方面的研究成果。

结合前述新一代信息技术产业领域的特点以及专利信息挖掘的主要内容,本文面向新一代信息技术产业领域,进行相关专利申请案件信息的数据挖掘与分析。

(三)专利信息挖掘的驱动分析。现今,常见的专利信息挖掘方向主要由目标驱动以及技术驱动两个层面初步确立,具体分析如下。

1、目标驱动层面。一是以现有技术与主要竞争对手的专利布局为基础进行专利信息的挖掘。得益于知识产权的相关法规与制度的发展和完善,以及市场不断向前发展乃至创新的特性,本领域的技术人员能够获取并研究本领域相关的、较为先进的公开技术以及主要竞争对手的专利布局情况,从而进行相关技术的改进与创新,挖掘出有价值的潜在技术点或创新点,逐步构建具有法律保护意义的专利内容,以明确后续发展、风险防范与技术创新的决策路线。二是以变化的需求为基础进行专利信息的挖掘,这里的需求主要有市场需求、用户需求、场景或引用需求以及其他相关领域技术或发展模式的变化产生关联性驱动,催化对专利信息的更深层次的挖掘。三是以本身开展的项目研究为基础进行专利信息的挖掘。综合前述两个方面的内容,主动开展项目研究以及专利信息的挖掘,这两部分工作同时开展,在本身开展的各个项目研发的节点同步进行相关信息的挖掘,也就是说,挖掘的工作研发项目的生命周期息息相关,在项目验收之后,也需综合本身的专利布局体系进行各阶段的专利申请或布局体系的完善,以实现对自身创新成果的保护,稳固或提升市场优势地位以及风险防范力。

2、技术驱动层面。这一层面直接体现了数据挖掘的交叉性,如人工智能、机器学习、模式识别、神经网络、数理统计等多个学科的发展,直接驱动了研究人员在专利信息的挖掘方法、手段或技术上产生了较大的变化。如,信息抽取、自然语言处理、特征构建、数据建模、数据清洗、构建模型与优化等方面技术或算法的改进与突破,对专利信息的挖掘深度、挖掘维度以及模式等均有实质性的推动,与其伴随的数据分析、应用以及决策支持、趋势预测等方面也取得较大的进展。

(四)面向新一代信息技术产业领域的数据挖掘实例分析。本文以南京市知识产权保护中心业务系统受理的专利申请数据以及备案主体作为基础数据来源,专利申请案件的领域范围为新一代信息技术产业领域。其中,选取的专利申请数据时间跨度为一年,即从2021年1月31日至2021年12月31日,在此基础上进行相关的数据挖掘与分析。对专利申请相关数据的深入挖掘与分析,能够在一定程度上反映在设定的时间维度、产业领域内,南京市知识产权保护中心业务系统的申请主体的行为以及趋势走向情况,可以为后续更深层次的分析与应用提供一种参考。

数据挖掘总体流程如图1所示,主要涉及三个阶段:数据集抽取阶段、数据挖掘与清洗阶段、模型构建与分析阶段。(图1)

图1 数据挖掘总体流程图

1、数据集抽取。在这一阶段涉及两方面的基础数据库,一个是保护中心业务系统的专利申请数据库,另一个是保护中心业务系统的备案主体数据库。保护中心现有的业务系统中已有大量的专利申请数据,根据预设条件从基础数据库中进行各项数据的抽取。本实例的专利申请数据抽取预设条件即是按照前述的领域、时间段设定,备案主体数据抽取预设条件为备案审核通过的申请主体信息数据。

2、数据挖掘与清洗。在这一阶段涉及数据的预处理、特征提取与构建以及后续建模数据的标准化处理,其中数据的预处理包括对系统的专利申请数据集的相关异常数值进行处理,如申请案件编号乱码、提交案件数量的数值为0等异常数据记录的处理。针对本实例,特征的提取与构建主要从申请主体在预设条件下的最近一次专利申请案件提交情况、累计案件数量、审查总周期、备案审核通过至预设时间的时间长度、平均预审周期系数这五个方面进行考量,这里的审查总周期包括通过保护中心预审的周期以及提交至专利电子申请系统后的授权周期。后续建模数据的标准化处理还包括根据程序开发语言以及相应的函数对数据进行格式或数值的转化等处理,以符合后续运行的数据条件。

3、模型构建与分析。结合上述五个方面的特征,基于RFM模型进行改进,通过增加备案审核通过至预设时间的时间长度,进一步分析申请主体与保护中心的业务关系黏度,通过增加平均预审周期系数,以进一步反映申请主体的案件质量,构建专利申请主体行为模型。本实例采用Python语言,采用kmeans算法进行聚类分析。图2为申请主体特征分布图,通过模型分析,对专利申请主体进行分类,如图2所示,并对不同类别的专利申请主体进行前述五个方面的特征分析,以比较不同类别的专利申请主体在保护中心的行为趋势,并生成申请主体行为画像。(图2)

图2 申请主体特征分布图

本实例通过k-means算法进行分析时,选取的k值为3。由于k-means算法的计算过程属于无监督学习,因而我们在如何确定较好的k值,也就是簇的数值时,需要进行相关分析与考量,以保证簇类的数据具有较大的相似性,并且簇之间的数据存在较为明显的差异。因此,本实例在k值的选取方面,采取了三个维度:簇内误方差(SSE)、轮廓系数(silhouette coefficient)、CH指标(Calinski-Harabaz),综合这三个维度情况,进行聚类结果的测试评价,进而确定具有更优聚类效果时所对应的k值,即确定簇数值,将申请主体分成了三类。本实例选取的基础数据集共有2,528条记录,即在预设的条件下,共有2,528条申请主体提交至保护中心的专利申请数据,此时基础数据集存在同一申请主体提交的多个不同的专利申请记录。经数据处理之后,得到760条数据记录,即符合模型分析的数据记录有760条,此时的数据集中已经按照一个申请主体只有一个数据记录的设定完成处理,并剔除异常数值,这其中就增加了特征标签,以符合所构建模型进行分析时的数据要求。如表1所示,可知各类之间的相似度较小,类内部的相似度较大,进而实现了申请主体群体的进一步划分,最后输出各类数据,以进行后续决策的支撑。(表1)

表1 聚类分析结果一览表

总而言之,专利信息的数据挖掘与分析是密不可分的,最终形成能够被人们所认识、利用或参考的知识信息。通过上述的专利数据挖掘实例过程,确定了在进行数据挖掘时需考虑数据预处理,挖掘手段或方法,模型构建、优化与应用等主要节点的工作。在对数据处理时,不仅要考虑基础数据集的准确性、适用性、全面性,还要考虑各类数据之间的内在联系、异常数据的处理以及模型训练测试所需的数据要求,如对数据进行降维处理,或者在本实例模型分析时需对数据进行无量纲化处理,以实现模型数据的标准化。选择较为合适的数据挖掘手段或方法则是确定后续模型构建、分析与优化效果的一个方向。模型的构建与优化则需关注特征抽取、迭代分析、模型如何评价以及应用这几个方面,进一步明确更优的模型输出结果与更好的分析效果。

猜你喜欢

专利申请数据挖掘专利
专利
发明与专利
基于并行计算的大数据挖掘在电网中的应用
专利申请审批流程图
专利申请三步曲
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
专利
国外专利申请如何尽快被授权
China handles 467,000 patent app lications in H 1,up 9.6%on year