APP下载

基于BP神经网络的专利价值评估方法及其应用研究*

2022-01-21雷秋原鲍新中

情报杂志 2021年12期
关键词:发明人约简指标体系

刘 澄 雷秋原 张 楠 鲍新中

(1.北京科技大学经济管理学院 北京 100083; 2.北京联合大学管理学院 北京 100101)

0 引 言

伴随着经济全球化进程的加快,科学技术水平已经成为各国核心竞争力的重要体现,人类社会已经步入了知识时代。作为知识时代最重要的知识产权,专利的重要性受到了越来越多的认可。对于专利权人而言,专利是其智力成果的凝聚;对于企业而言,专利成为其挖掘发展潜力、快速占领市场、获得经济利益的载体;而对于国家而言,专利可以增强其科技实力,无惧竞争者的抗衡。在专利的运营和实施过程中,价值评估是一个十分重要的环节,因此引起了学者们和业界相关人士的关注。

相较于有形资产在市场上具有明确的市场价格,专利由于其唯一性特征,并且缺少可供参考的公开交易,其评估难度明显更大。同时,专利的价值评估还面临更多的技术因素、市场因素和法律因素等不确定性影响,也给专利价值评估实践带来了更多的复杂性,这也是学者们长期以来进行相关研究所要解决的问题。早期的专利价值评估实践借鉴了有形资产价值评估的经验,采用了现行市价法、重置成本法和收益现值法等市场基准的价值评估方法。按照我国《资产评估执业准则——无形资产》第二十一条规定:“确定无形价值的评估方法包括市场法、收益法和成本法三种基本方法及其衍生方法”。由于三种基本方法在应用中对风险因素的考虑不够,学者们提出了基于实物期权模型的专利价值评估方法[1-4]。

以市场为基准的专利价值评估方法通过获取较为完善的市场信息来进行价值确定,但是由于市场信息的不完备,造成这些方法耗时耗力,且主观性较强。近些年来,非市场基准的专利价值评估方法也被广泛的应用在理论和实践当中。非市场基准的专利价值评估方法的基本思路是,基于公共专利数据库中相关信息,应用实证研究方法来分析不同信息与专利价值之间的关系,在此基础上,以专利价值影响因素为变量来构建专利价值评估模型[5]。在运用非市场基准的专利价值评估方法时,首先要解决的是寻找影响专利价值的因素,在确定专利价值影响因素的前提下,建立价值评估模型。根据建立专利价值评估模型的不同方法,非市场基准的专利价值评估方法分为模糊综合评价法、计量经济学模型法、机器学习与仿真模拟法三类。在应用模糊综合评价法进行专利价值评估时,学者们从不同视角建立专利价值评估综合指标体系,再应用各种方法给被评价专利的每一个因素赋值,最后得到专利价值的综合评价结果[6-10]。2002 年,德国慕尼黑大学的Harhoff教授提出了一种基于计量经济模型的专利价值评估方法并进行了实证研究[11]。该方法以专利价值估计值作为因变量,以选取的专利价值影响因素作为自变量,选取与待评估专利同质的样本,运用历史数据进行多元回归分析,在此基础上建立专利价值的评估模型。国内学者也运用该类方法进行了一些探索性研究[12-13]。

近年来随着人工智能技术的发展,有学者提出了运用一些基于机器学习的专利价值评估方法。这种方法的基本思路是:首先同样是分析和选择专利价值的评估指标,然后利用机器学习的方法对样本进行训练并测试,从而得到专利价值评估结果。学者们尝试运用分类回归树算法[14]、支持向量机[15]、系统动力学模拟[16]等算法进行了一些实证研究。当前专利价值评估领域,主要应用机器学习解决分类问题。 通过一些表现专利价值的指标标注专利价值,使用相关分类算法构建分类模型, 经过训练和学习, 获取专利价值评估模型。这种基于机器学习与模拟仿真的专利价值评估方法在理论上存在一定的可行性,但是实际应用中还需要对相关指标、算法等进行进一步的完善。因此, 如何科学合理地选择价值指标, 如何选取合适的算法对于构建专利价值评估模型有重要影响。因此,本文以探究更加可行、准确度更高的专利价值评估模型为目标,应用BP神经网络构建专利价值评估模型。

BP神经网络作为人工智能领域中的重要组成部分,在各项经济社会生活中得到较为广泛的应用[17-19]。 本文将BP神经网络原理应用到专利价值评估中,同时考虑到专利价值影响因素的多元性,在确定输入层神经元时采用粗糙集理论对专利价值影响因素进行指标约简,建立一个粗糙集和BP神经网络相结合的专利价值评估模型,并运用336条专利转让数据对模型进行训练和测试。本文可能的创新点为:(1)指标体系创新。在对现有专利价值评估指标体系分析基础上,新增发明人相关指标,构建了包含专利文本特征、专利法律度特征、专利市场关注度特征、发明人特征的指标体系。(2)研究方法创新。将BP神经网络引入专利价值评估领域,构建新的专利价值评估模型。考虑到专利价值影响因素的多元性,在确定输入层神经元时采用粗糙集理论对专利价值指标体系进行知识约简。

1 专利价值评估指标初选

运用BP神经网络对专利价值进行评估,首先需要确定影响专利价值的主要因素,建立合理科学适用的专利价值评估指标体系。在初期构建指标体系可以尽可能全面考虑影响因素,进一步对全部影响因素进行分析,将冗余重复类因素进行初选后再细致优选,尽量得到既精简又全面的影响因素。现行指标初选方法多为文献法、理论挖掘法、专家打分法等。此三类指标筛选方法均有其优缺点,因而采用单一方法进行此初选指标存在一定局限,而多种方法结合可以规避单方法的缺点,进而建立更为科学完善的指标体系。对此,本文通过使用文献法和理论分析方法进行初选指标。

国内外众多学者对专利价值评估模型指标体系建立有不同做法。在专利价值成为研究重点以来,学者们对影响专利价值的因素已经有一定研究成果,多数学者将与专利相关的要素分成三类,分别是:法律因素、技术因素和经济因素[20-22]。在单个影响因素基础上,众多学者也突破单个因素的分析,结合多种因素对专利价值进行研究[23]。20世纪80年代,美国CHI-Resarch公司构建CHI评估指标体系,美国联邦法院确立佐治亚太平洋指标体系。张黎等将影响因素划分成专利技术水平、市场价值、权利保护三个方面建立指标体系[24];杨思思等参考《专利价值分析指标体系》并结合行业特点选取指标,构建适用性高的专利价值通用指标体系[25]。

众多国内外学者、机构对专利价值影响因素的研究也逐渐完善,结合众多专门专利相关数据库的成立与投入使用,现在国内外已经存在一些现有的针对专利价值评估的指标体系,包括CHI评估指标体系、佐治亚太平洋指标体系、OECD专利指标体系及国家知识产权局专利指标体系等。基于这些文献资料,延续已有的专利文本特征、专利法律度特征、专利市场关注度特征,并在此基础上,考虑到当前我国进入交易或运营环节、需要进行价值评估的专利大都来源于高校或科研院所的特征,且本文的研究样本也均是来源于高校和科研院所的专利,从而第一发明人的职称、职务以及其他相关特征可能会影响到专利的价值,因此,本文在初选专利价值评估指标时增加了发明人特征的相关指标,从而构成了由发明人特征、专利文本特征、专利法律度特征和市场关注度组成的专利价值评估初选指标体系,如表1所示。

表1 专利价值评估指标体系

发明人是专利的直接关联者,发明人能力越强则其创造的专利在显示市场中可能更具有价值。如果第一发明人职务、职称高,参与申请的专利数量可能表明第一发明人能力强,其所研究的专利更具有价值[26];专利权发明人人数多,可能表明此项专利复杂程度高、更具创新[23,26];第一发明人所在单位作为外界环境也可能对发明人创造专利有一定影响,如可以提供的材料、场地等支持;发明人并不是孤军奋战,除了会与其他发明人合作,可能与其他机构或组织合作[27],除具体实物专利等合作产物的体现,还有论文等形式。

专利文本特征中专利度表示主权项数量,即界定此项专利受法律保护的边界。由此可见,专利度对专利而言是极其重要的核心。在现实市场中,专利价值在一定程度上会受到专利度数量的影响。专利通过国际专利分类号(IPC)分类,因而不同专利都会有相应的专利分类号,分类号数量越多则表明该项专利涉及领域宽,本文称之为技术宽度,亦称专利保护范围[12,28]。

专利法律度特征中专利的法律状态一般有公开、授权、实质审查,还可能存在终止现象。一般情况下,专利价值可能伴随专利的法律状态的公开度变化,公开越多,价值越小。专利在仅部分授权情形下,会有一定稀缺获得其他关注,并产生增值[12]。专利在专利申请时按照不同类型有不同寿命期限,自申请日起,发明专利权寿命为20年,实用新型和外观设计专利权寿命为10年。专利权需要后续缴纳费用维护,否则可能因未缴纳年费提前终止专利权。一般而言专利的法律寿命与经济寿命不能划等号,一项专利可能因为技术等的更新换代而提前失去意义。在法律专利寿命期限内,专利存在时间或剩余寿命可能对专利价值也有一定影响,毕竟当法律寿命结束后,专利权所拥有的法律保护就消失,如:越接近法律寿命最后期限,专利价值可能并不会太高[12,28]。专利存在即可能会出现法律诉讼等问题,因而在实际交易过程中被交易方可能会对该项专利是否诉讼有一定考量[28]。

专利市场关注度中指标包含有专利对其他专利的引用数量和专利申请成功后被其他专利引用的数量,通过引用数量表明对引用专利的认可,通过被引次数表明本项专利的重要度和影响力,这些会对专利价值产生一定影响[12,29]。专利在市场内的转移,包含有申请权转移、专利权转移,有过转移经历的专利可能更为市场所接受与需要,受让单位、转让方式、转让时间可能都对专利价值有影响。专利权同族数是专利权持有者在不同国家申请专利,以达到保护专利权的目的[28]。专利价值越高,则其持有者才会付出更多成本以寻求更多国家的保护。

2 基于粗糙集原理的指标约简

考虑到专利价值评估初选指标可能存在一定的信息冗余,所以这里采用粗糙集理论对指标体系进行约简。粗糙集(Rough Set)理论是波兰学者Pawlak于1982年提出的一种可以定量分析解决含有不确定、不一致、不完整数据的数据挖掘工具。通过对数据进行深度挖掘,发现内在隐含信息,找出数据间潜在联系,在属性约简方面得到了广泛的应用[30-31]。Rosetta软件是由挪威科技大学计算机与信息科学系与波兰华沙大学数学研究所合作共同开发的一款致力于采用粗糙集进行数据分析的专用数学分析工具。本文采用Rosetta软件对专利价值评估初选指标进行约简。

2.1原始数据的来源本文数据主要涉及两部分:是在现行专利市场中已经成功转让并能准确获取转让价格的专利申请号及专利转让价值;依据指标体系搜集专利指标数据。本文通过专利交易市场获取专利的最后一次转让价格信息,这里以最后一次转让价格代替专利价值作为粗糙集专利价值评估模型分析的决策属性。一共收集到336条专利转让价值的数据,通过文献总结及专家意见,这里将专利转让价值进行价值分级,具体分级对应见表2。

表2 专利转让价格分级对应表

在搜集到336条专利转让价值基础上,通过现有专利数据库:国家知识产权局官网(http://www.cnipa.gov.cn)及合享新创官网(https://www.incopat.com)逐个对具体数据指标信息进行检索收集,官网内收录专利信息全面且详细获得专利指标数据集合。由于指标中含有一些文本指标数据,在提炼规律并对其进行分层,以达到对获取的众多非数值数据进行数值转化,如发明人职称按照1-在读学生、2-初级职称、3-中级职称、4-副高级职称、5-高级职称进行数值转化。

本文所使用的专利价值评估指标体系一共23个指标,其中需要进行数值转化的指标一共7个,分别是:第一发明人职称、第一发明人职务、第一发明人所在单位、技术宽度、专利法律状态、专利权受让单位、专利转让方式。其中发明人职称按照在读学生、初级职称、中级职称、副高级职称、高级职称进行数值转化;第一发明人职务按照有无职务数值转化;技术宽度数值转化是指专利的IPC分类号前4位的个数;专利法律状态是对未缴年费专利权终止、实质审查、授权三种状态的数值转化;专利转让方式有两种分别是专利权转让与专利申请权转让。

本文选取数据共336条,将全部样本数据分为训练集和测试集,将全部336条数据进行随机采样,分为272+64,本文选用272条样本数据作为训练集,剩余64条数据作为测试集。训练集论域为Utrain={X1,X2,…,X272},其中X1,X2,…,X272分别表示272条专利数据,测试集Utest={X273,X332,…,X336},X273,X332,…,X336表示64条训练集数据。所在行所有数值为各指标数据。C={C1,C2,…,C23}是条件属性集,D={D}是决策属性集,则初始决策表为A={C,D}。

2.2原始数据的补齐及离散化将272条训练集数据放置在同一Excel工作表中,通过Rosetta软件机器数据源读入训练集,构建决策表。因为本文数据缺失项在进行软件训练前已经做了剔除,则并不含有缺失值,因而无需通过软件进行数据预处理,也就是数据补齐,对此通过现有训练决策表进行离散化。通过Rosetta中Boolean、MDL、Equal Frequency、Naïve、Semi-naïve算法分别进行离散化,得出断点数,并选取断点数最少算法作为本文离散化算法。将训练决策表采用五种算法计算分别离散化断点数,结果见表3。

表3 五种算法离散化断点结果

由表3中五种离散化算法得出的断点数明显Boolean算法断点数少,断点以简便为佳,对此本文选择Boolean算法进行离散化,得到离散化条件属性量化参数见表4。

表4 条件属性量化参数表

2.3决策表属性约简依据上述采用Boolean算法进行离散化后的决策表进行下一步属性约简。属性约简是粗糙集算法核心内容,本文采用遗传算法进行属性约简,主要约简方法有:Genetic algorithm、Johnson's algorithm及Holte's 1R三种约简算法。将通过离散化后的决策表进行Rosetta软件三种算法约简,具体约简个数及包含属性个数结果见表5。

表5 三种算法属性约简结果

通过表5可以看出Holte's 1R算法并没有约简,条件属性保持仍在23个,因而排除Holte's 1R算法。比对三种算法对指标约简,支持度均为100条件下,Johnson's算法约简个数最少。本文选择Johnson's算法约简后的专利价值评估指标体系,见表6。

表6 基于Johnson's算法生成的约简指标对照

3 基于BP神经网络的专利价值评估模型及其实证研究

3.1 BP神经网络的基本原理BP神经网络,又称误差反向传播神经网络,是神经网络中学者研究最多、使用范围最大的一种。BP神经网络是通过输入后所得出的输出值与实际值差额平方和,不断调解隐含层数值使其最小的学习型算法[18-19]。BP神经基本结构与神经网络基本结构一致,均包含有输入层、隐含层与输出层,其中隐含层并不一定唯一,可能存在一个或多个隐含层。各层与相邻层各个神经元均连接,但同一层神经元间不连接[18]。

BP神经网络的操作步骤较为固定,主要有两种操作,其一:为正向传播,主要是通过输入层进入隐含层计算,在经过输出层进行数值输出;其二:为反向调节,在经过正向操作后最后的输出值没有达到预判,差额数值过大,可以通过反向操作,依据实际输出值与预判值间的差额以调节指标属性的权重与阈值,再次传到输入值,直至差额减小至误差范围内以结束最终学习[18-19]。正向传播过程中各层神经元只会受到上一层神经元影响。经过已有数据进行不断学习训练,以找到输入值与输出值间联系,使得实际中众多问题得到解决。

3.2数据预处理BP神经网络可以做非线性输入输出,因而可以直接对现有数据进行训练学习,但通过适当的数据处理能够提升运行效率及精确度。因而对现有数据进行预处理——归一化,顾名思义归一化就是通过标准化将数据呈现0-1正态分布,以达到避免数据大的变动范围对结果影响。

本文使用Z-Score标准化方法对训练集与测试集数据进行归一化。Z-Score标准化方法的计算公式为:

z=(x-μ)/σ

(1)

公式中z表示归一化的最终结果,x表示数据值,μ是均值,σ是标准差。z的具体量表示原数值与均值间差值,可能为负值。

对数据进行预处理有以下优点:能够减弱或消除量纲对结果的影响,使运行速度增加,避免过于拟合。

3.3模型构建与训练本文采用Python软件进行神经网络专利价值评估模型构建。对参数设定:

总之,德国双元制高等职业教育模式内涵丰富、特点突出,其中有许多值得我们借鉴的经验,我们应该有针对性的学习,以便能够提高我国高等职业教育的水平,为“中国制造2025”培养更多的高素质应用技术人才,助力中国从制造业大国向制造业强国的转变。

(1)神经网络层数确定。BP神经网络结构包含有输入层、隐含层与输出层,隐含层数量可能不唯一。在通过Python进行多次测试,隐含层数量在3个,模型准确率高。因而本文采用五层神经网络结构进行训练学习,即包含有三个隐含层。

(2)输入层神经元个数确定。在上文对指标筛选选择中粗糙集的指标筛选具有一定优势,因而本文在基于BP神经网络构建专利价值评估模型操作过程中,使用经过粗糙集采用Johnson's算法知识约简后的12个指标进行操作,因而BP神经网络结构中输入层神经元个数有12个。

(3)输出层神经元个数确定。本文是对专利价值进行评估,因而输出层神经元仅有一个输出值就是专利价值。故输出层神经元个数有且仅有一个。

(4)隐含层神经元个数确定。通过不断修改各隐含层神经元个数进行测试,对比不同个数条件下模型的准确率,保留相对较好且较为稳定的参数,最终得到3个隐含层的神经元个数分别为16、32、16。

(5)选择误差目标值。在实际利用神经网络进行模型构建过程中,实际值与输出值可能是存在一定差额的,而且利用神经网络也是允许误差存在的。一般在实际操作过程中的误差目标值要根据问题是否有较高的规律性,如果规律性较强则误差目标值精度较高,一般在10-4到10-6间;如果规律性较低,误差目标值精度就会有所降低,一般在10-2。仔细考虑多方因素,为保证精度较高、运算效率在同准确度条件下达到最高,这里选用10-4作为模型误差目标值。

(6)选择激活函数。目前神经网络选用激活函数多为Sigmoid函数,Sigmoid函数又具体分为Log-Sigmoid函数与Tan-Sigmoid函数。本文选择Tan-Sigmoid函数作为输入层与隐含层的激活函数。

(7)最大训练次数确定。通过软件对训练集训练可能训练时间过长,才达到设定的误差目标值,也可能存在达不到设定值,因而需要提前设定最大训练次数以避免时间过长或达不到情况出现,本文设定最大训练次数为2 000。

本次通过BP神经网络构建的专利价值评估模型,依据上述参数设定具体为:神经网络层数5层、输入层神经元23个、输出神经元1个、隐含层神经元分别为16、32、16个;误差目标值10-4、激活函数Tan-Sigmoid函数、最大训练次数2 000。

在上述参数设定下,通过Python软件进行训练,神经网络系统在内部进行训练学习,调整权重或阈值,构建评估模型及价值输出。本文所用BP神经网络模型如图1所示。

图1 基于BP神经网络专利价值评估模型

输入层神经元特征重要度列示情况见图2,图中柱形长度代表特征重要度。特征重要度从大到小列示见表7。

图2 输入层神经元特征重要度列示情况

表7 特征重要度从大到小列示

针对训练集通过训练学习所得到的模型,在对训练集本身进行预测,所得准确率为81.39%。

3.4模型测试利用以上所得出的专利价值评估模型对64条测试集数据进行测试,预测结果与实际值比对情况如表8所示。

通过表8的测试集检验,表明通过BP神经网络构建的专利价值评估模型对专利价值预测有较高的可信度,预测专利价值等级在64条测试集中有12条实际与预测不符,预测准确52例,准确率为81.25%。

表8 专利预测值与实际值对照表

BP神经网络的应用较为成熟,且具有自适应性、非线性、容错性及计算并行性特点。通过对同样336条数据进行训练集与测试集划分后,对数据预处理归一化消除量纲对结果的影响。接着通过Python软件设置参数结果为:神经网络层数5层、输入层神经元23个、输出神经元1个、隐含层神经元分别为16、32、16个;误差目标值10-4、激活函数Tan-Sigmoid函数、最大训练次数2000。再对训练集进行学习训练,输入层神经元特征重要度从大到小排列为:第一发明人合作机构数、专利发明人人数、专利权转让时间、第一发明人合作论文次数、技术宽度、专利转让方式、专利度、第一发明人职称、引用次数、专利存在时间、第一发明人职务、第一发明人参与申请的专利数量。针对训练集搜寻训练所得的模型,对训练集本身预测准确率为81.39%。用训练所得模型对测试集数据进行检验,预测准确率81.25%。

4 结 论

不论是传统方法下的市场法、成本法、收益法以及实物期权法,还是非市场基准评估方法中的模糊综合评价法、计量经济模型方法,在专利价值评估中都存在一定的缺陷,而人工智能技术的运用尚需要不断对指标选择和算法进行完善。本文依据现有336条专利转让数据样本,结合众多影响因素构建指标体系,采用粗糙集理论进行属性约简,并采用BP神经网络理论,构建基于粗糙集和BP神经网络专利价值评估模型,并对专利样本数据进行了训练集与测试集划分,进行实证研究。研究结果表明:

(1)专利文本特征、法律度特征、市场关注度特征是专利价值的重要影响因素。对于高校、科研院所的专利成果来说,其专利的价值与发明人的特征也有一定的相关性,包括第一发明人的职称、职务、参与申请的专利数量、合作机构数、合作论文次数以及专利发明人的数量等。

(2)粗糙集理论相对于其他评估方法具有不需要先验知识来定量分析解决含有不确定、不一致、不完整数据的数据挖掘问题,因而可以很好地适应专利价值不确定性因素多的特点,运用粗糙集理论可以对专利价值评估指标体系进行约简。在实际应用过程中,Boolean算法与Johnson's算法可以较好解决决策表中离散化与属性约简问题。

(3)基于约简后的专利价值评估指标体系,运用BP神经网络原理构建专利价值评估模型,通过自我学习训练和检验测试,发现模型运用相对简单,对测试集进行检验测试所得的预测准确率81.25%,表明通过BP神经网络构建的专利价值评估模型在实际市场条件中较为适用可靠。

本文主要是粗糙集与BP神经网络两种方法结合,由于多方面的制约,还存在有不足之处,在各方面研究深度和广度比较有限,有待于在以后的学习中不断改进完善:①样本问题:由于专利转让价值的数据获取较难,搜集到的336条数据涉及领域太广,可能影响专利价值评估模型实际操作;②指标问题:受限于我国专利信息公开市场有限,有一些相关影响因素不能直观找到具体数据,还有些指标不能量化,因而在指标选取方面有一定制约。

猜你喜欢

发明人约简指标体系
2022城市商业魅力指标体系
知识组合新颖性、网络特征与核心发明人关系研究*
基于0-1规划的最小属性约简算法
职务发明人权益受限原因
浅析专利发明人错填漏填变更手续的审查依据
网络空间攻防对联合作战体系支援度评估指标体系构建
面向特定类的三支概率属性约简算法
建筑工程造价指标体系构建与应用探究
直觉模糊序决策系统的部分一致约简*
近似边界精度信息熵的属性约简