USPTO专利发明人重名辨识方法综述
2018-03-03于永胜韩红旗
于永胜,董 诚,韩红旗,李 仲
(中国科学技术信息研究所 北京100038)
0 引 言
专利数据具有重要的科研应用价值。专利数据集技术情报、法律情报和经济情报于一体[1],是一种重要的竞争情报信息分析来源,它还可以用于发明人迁移[2]、创新经济[3]和创新合作网络影响力分析[4]等研究领域。
严重的专利发明人重名现象影响着专利数据的科研应用。美国专利商标局(USPTO)一直没给专利发明人或专利权人分配一个独一无二的身份识别号,随着专利文献数量越来越多,具有同名或近似名的专利发明人重名现象因为姓名缩写、中间名缺失、拼写错误等原因更加严重,该现象给专利数据在技术应用和科学研究等领域的应用造成很大阻碍[5]。
本研究将造成专利发明人重名辨识越来越困难的原因归纳为 4类:①专利数据规模庞大,现有专利发明人重名辨识方法计算成本太高。USPTO在2013年就拥有超过800万件专利和3,200万亿对记录,这使得人工处理方法不再可行,现有专利发明人重名辨识方法计算成本太高[6]。②专利发明人姓名存在缩写、后缀、拼写错误、中间名缺失等情况,增加了发明人重名辨识难度。在美国专利中,专利发明人中间名缺失率为 51.10%,[7]。③USPTO专利发明人大量使用常用名,如:John Smith。根据统计,美国约有16.4%,的人口使用常用名,数量约为5,271万人[8]。④学科领域信息不能有效区分重名专利发明人。USPTO专利大多为合作发明且跨学科领域,这使得学科领域不能作为区分重名发明人的主要依据,增加了专利发明人重名辨识的难度[9]。
专利发明人重名辨识方法是为解决上述现象而提出的,其目的是促进专利数据在科研和情报分析领域的应用[10]。这类方法根据专利发明人记录的成对比较结果,区分专利数据库中具有相同或相近姓名的发明人,并将每个发明人与其专利对应起来。
现有的专利发明人重名辨识方法主要包括:基于规则的方法、基于机器学习生物方法。基于规则的方法稳定性差,不能有效适应不同的专利发明人重名辨识环境;基于机器学习的方法能够较好适应不同的专利发明人重名辨识环境,并具有较好的重名辨识效果,但该方法在大规模专利数据集上运行时间成本较高[11]。
1 姓名歧义性
姓名歧义性是指不同来源的实体对象共用同一个姓名,尤其是在整合不同的网页和数据库时,姓名歧义现象会因姓名缩写或假名等更加严重,造成数据库检索结果不准确[9]。专利发明人姓名歧义是指当数据库查询或关联某个发明人的专利时,往往会将所有同名发明人的专利返回或将某个发明人与其他发明人的专利相连接,使得基于专利发明人的科研技术研究结果出现偏差。
USPTO专利发明人重名辨识方法研究,来源于国家科技支撑计划课题“面向科技情报分析的信息服务系统研发与应用示范”项目研究计划。该项目通过构建专利发明人科研合作网络,进行创新团队竞争与合作关系挖掘,而专利发明人重名辨识是该项目中的一项基础研究。
2 重名辨识方法研究现状
本研究主要介绍专利发明人重名辨识方法研究现状,对现有的研究方法进行分析,主要包括:基于规则的方法、基于机器学习的方法、基于语义指纹的方法和基于唯一标识的方法。
2.1 专利发明人重名辨识方法分类
专利发明人重名辨识方法是记录连接方法(Record Linkage)在专利领域中的子应用[10]。1969年,Fellegi和 Sunter[12]基于单一数据源中记录属于单一个体的假设,提出了第一个用于记录连接的数学统计模型。而发明人重名辨识方法主要用于区分专利数据库中同名而不同发明的人的专利。
本研究具体方法分类如图1所示。
图1 专利发明人重名辨识方法分类Fig.1 Classification of name disambiguation methods for patent inventors
2.2 基于规则的专利发明人重名辨识方法
基于规则的专利发明人重名辨识方法包括基于规则和阈值的重名辨识方法、基于相似度打分表的重名辨识方法,主要依据人为设置的规则、阈值或相似度分值,来进行专利发明人记录的成对比较,判断两个同名专利发明人是否属于同一个人。
2.2.1 基于规则和阈值的重名辨识方法
Singh[13]根据从专利数据中抽取发明人姓和地区字段,利用if-else判定规则和字符串精确匹配来判定专利发明人记录对是否正确匹配。Fleming[4]通过专利发明人的专利权人和地区合并字段,利用“if-elsethen”匹配规则和字符串精确匹配进行发明人重名辨识,然后通过一个预设的阈值,判断两条专利发明人记录是否属于同一个人。Milojevi[14]在模拟的题录数据库中,利用专利发明人姓(last name)和名的首字母(initial of last name)代替其他字段进行专利发明人重名辨识,获得的专利发明人姓名识别结果更加准确。Morrison[15]提出了一套基于高分辨率地理位置的专利权人和专利发明人重名辨识方法,该方法主要针对欧洲专利数据,将欧洲专利数据中的地理街道位置转化成经纬度进行相似发明人或专利权人姓名聚类,然后通过制定规则和编辑距离阈值进行专利发明人重名辨识。
2.2.2 基于相似度打分表的重名辨识方法
基于相似度打分表的专利发明人重名辨识方法是介于规则方法和无监督学习方法之间的一种方法,该方法通过人为制定专利发明人比较字段的相似度打分表,计算两条专利发明人记录的相似度分值,然后通过一个预设的阈值判断这两条发明人记录是否属于同一个人。Miguelez[3]通过桑迪克斯编码系统(Soundex-code)对专利发明人姓名进行重新编码以聚集相似的发明人姓名,然后用相似度打分表计算每对专利发明人的相似度分值并判断其是否匹配。Pezzoni等[16]采用基于编辑距离的词牌方法将专利发明人相似姓名分组,然后根据相似度打分表计算发明人记录对的相似度分值,并进行阈值判断。
2.3 基于机器学习的专利发明人重名辨识方法
机器学习是指利用统计学原理,让计算机模拟人类思维,根据对以往数据或经验的学习,达到替人进行数据处理和分析的目的[17]。
目前,基于机器学习的专利发明人重名辨识方法主要包括 3个阶段:数据处理阶段、匹配阶段和过滤阶段[3,16,18]。数据处理阶段,主要包括停用词过滤、字母小写转化、专利发明人字段拆分、噪音数据删除等,为专利发明人重名辨识准备好结构化数据;匹配阶段是专利发明人重名辨识方法的核心,是指通过机器学习方法判断专利发明人记录对是否属于同一个人或者计算专利发明人记录对的相似度分值,为过滤阶段的相似发明人聚类做准备;过滤阶段,通常根据参数估计获得的阈值,利用聚类算法区分存在姓名歧义的专利发明人。
2.3.1 基于无监督学习的重名辨识方法
基于无监督学习的专利发明人重名辨识方法根据相似度计算方法在无标签训练数据集中进行聚类,将低于相似度阈值或距离的专利发明人记录对作为相似发明人,根据相似度计算方法不同,聚类算法可以分为距离聚类、原型聚类、密度聚类和层次聚类。Nicolas[19]使用无监督贝叶斯方法在欧洲专利数据集上识别独特发明人,该方法创新之处在于,它将专利发明人重名辨识表示为一个相似度概率模型,即用相似度概率表征每对专利发明人记录间的相似程度。朱亮亮[20]利用改进的 k-means算法进行文献著者姓名消歧,根据最大最小原则选取初始聚类中心,克服了传统 k-means聚类算法随机选择初始聚类中心可能会导致局部收敛的问题。
2.3.2 基于半监督学习的重名辨识方法
基于半监督学习的专利发明人重名辨识方法通常使用小数据量标签数据集和大数据量无标签数据集来训练模型,用于判断专利发明人记录对是否属于相同实体。Torvik和 Smalheiser[21]通过将数学统计概念引入到MEDLINE数据库作者姓名消歧中,获得了一批准确度较高的人造标签数据,可以用于训练分类模型,然后在贝叶斯框架下使用逻辑回归预测MEDLINE作者记录对是否正确匹配。其意义在于可以通过统计获得准确度较高的人造标签数据集,解决了监督学习方法中分类器训练数据不足的问题,但是人造标签数据集中任何误差或错误假设都会影响到分类模型准确性。Swapnil[10]根据 Torvik和Smalheiser[12]的方法获得人造标签数据集,分别生成专利发明人姓名、地址和技术类的相似度分值,然后通过支持向量机和逻辑回归方法证明简单的机器学习方法可以用于代替较复杂的专利发明人重名辨识方法。Li等[22]也是借助于 Torvik和 Smalheiser[21]的方法,通过统计产生准确度较高的人造标签数据集,并在贝叶斯框架下使用逻辑回归方法判断专利发明人记录对的匹配情况。
2.3.3 基于监督学习的重名辨识方法
基于监督学习的专利发明人重名辨识方法通过标签数据集训练分类器,用于判断专利数据库中发明人记录对是否匹配。Ventura[23]提出了性能更优的基于随机森林的条件森林(Conditional Forest of Random Forest,CFoRF)算法用于专利发明人重名辨识,针对专利发明人数据中间名缺失等情况构建不同的条件子集,并在这些条件子集上分别训练不同的随机模型,最后通过集成这些模型的分类结果预测专利发明人记录对的匹配概率。为了降低计算成本,Ventura[5]之后提出了基于随机森林的森林(Forest of Random Forest,FoRF)和层次聚类算法用于重名辨识专利发明人,并将该方法应用于数据密集型专利发明人重名辨识,通过在 50,000条美国专利数据上进行实验,证明了该方法具有良好性能。类似的,Ventura[11]采用基于随机森林和层次聚类的方法进行发明人重名辨识,结果显示该方法的误分率(spliting error rate)和误合率(lumping error rate)均低于规则方法和半监督方法;Yang等[18]提出了基于混合分类器和图聚类的方法进行专利发明人重名辨识,并取得了USPTO专利发明人姓名消歧竞赛第二名的好成绩,其中混合分类器是由 Bootstrap监督学习方法、概率记录连接和规则方法融合而成;Kim 等[8]采用基于随机森林和 DBSCAN聚类的方法,在 USPTO专利发明人姓名消歧竞赛训练数据上进行测试,其实验结果不仅优于2015年USPTO专利发明人姓名消歧竞赛结果,而且其方法运行时间也比竞赛方法运行时间节省半小时,证明了该方法能够更好地进行专利发明人重名辨识。
2.4 基于语义指纹的重名辨识方法
语义指纹具有不同的定义:吴军[24]将语义指纹(也称为信息指纹)定义为将一段信息(文字、图片、音频、视频等)随机地映射到一个多维二进制空间中的一个点(一段二进制数字);Webber[25]将语义指纹定义为基于语义折叠理论编码明确、包含意义和语境信息的数据表示,即用一段数字表征隐藏在自然语言背后的含义;Ibriyamova[26]认为语义指纹是一种在大量文本内容上进行训练,并能够表征文本中词与词之间关联关系的概念。综上所述,本文将语义指纹定义为基于文本摘要技术,能够表示文本特征和差异,并且将文本内容映射为二进制哈希值的一种算法。语义指纹算法根据文本特征权重对这些哈希值进行加权求和、压缩,生成能够表征大量文本内容特征和差异的一段 64位或 128位二进制数字串,比较有代表性的指纹算法有shingling指纹算法[27]、Simhash语义指纹算法[28]。其中,文本摘要技术,即哈希函数,是指将文本内容通过一个散列函数或哈希表映射为固定长度的数字串,比较有代表性的哈希函数有Minhash 函数[29]、Rabin 哈希[30]、SDBM 哈希[31]、MD5 哈希[32]、SHA-1 哈希[33]。
Han[34]通过 Simhash语义指纹算法,将论文文本特征映射为一段 64位二进制语义指纹,并结合文献合著者、机构、邮箱等信息,进行论文著者姓名消歧,结果证明语义指纹方法性能要优于传统 K-means聚类消歧方法。在专利数据中,专利发明人一直存在特征稀疏等问题[35],现有的专利发明人重名辨识方法一直基于专利元数据特征进行分析,占专利内容比例较高的文本数据却一直没有用于发明人重名辨识研究,而语义指纹算法却可以将文本特征归并到语义指纹中,用于专利发明人相似度判断。
2.5 基于唯一标识的重名辨识方法
基于唯一标识的重名辨识方法是指通过给每一位科研人员分配一个独特且唯一的身份标识号,并将其与科研人员的科研产出相关联,进而消除科研人员姓名歧义现象。早在 2009年,汤森路透公司就推出了 ResearcherID[36]用户注册平台,每位科研人员可以通过用户注册获得一个独特且唯一的身份标识号,每当个人科研成果需要出版发表时,每位科研人员需要同时提供自己的身份标识号,以便在ResearcherID有效范围内规避科研人员姓名歧义现象。ORCID[37](Open Researcher and Contributor ID,科研人员与投稿身份识别开放项目)是由汤森路透公司和自然出版集团等多家单位在 2009年联合发起的项目,与科技文献 DOI类似,ORCID可以给全球每位科研人员分配一个独立唯一性的国际学术标识符,该标识符是由一套免费、全球唯一的 16位身份识别码构成。在2014年,中国科学院文献情报中心[38]与ORCID签署合作协议,推出中国科学家在线(iAuthor)平台作为ORCID的中国服务平台,将更加方便地服务中国科研人员使用ORCID,管理个人科研成果。
基于唯一标识的重名辨识方法非常简单有效、省时省力,因此国内外许多出版机构都在制定和推出一套独特的身份标识系统,用于科研人员身份识别。但是,在实际执行过程中,基于唯一标识的专利发明人重名辨识系统会遇到以下几个困难:①Smalhesier[9]提到,国外价值观念中非常重视个人隐私信息,例如身份证号、社保号、唯一性身份识别号等能够唯一标识个人身份的信息经常被反对公开,这也是 USPTO没有给专利发明人分配唯一性身份识别号的原因之一;②唯一性身份标识系统由科研出版机构等联合推行,系统维护及资金来源难以保证长期稳定有效;③ORCID、ResearcherID、百度ScholarID等都是面向大范围各个行业领域的身份标识系统,难以在行业内部形成统一规范的行业体系和执行标准,而且每个科研人员可能拥有多个唯一性身份标识符,或者在同一个标识系统中拥有多个 ID,造成另一种意义上的“歧义”现象;④对于已有专利文献的重名辨识,唯一标识系统无法解决这个问题,而现有文献资料具有重要的研究价值和参考意义,所以其他重名辨识方法有一定的研究意义。
3 总 结
本研究以机器学习方法缺点作为研究出发点,为在较短时间内有效完成发明人重名辨识,对专利发明人重名辨识方法进行展望:①本文建议将深度学习算法融入到重名辨识方法中,以便更加准确地进行发明人重名辨识。②本文建议将语义指纹算法融入到重名辨识方法中,以便更加高效地进行发明人重名辨识。■
[1]邓要武. 科技报告、专利文献和标准文献资源检索与利用[J]. 图书馆工作与研究,2008(7):71-74.
[2]Doherr T. Inventor mobility index:A method to disambiguate inventor careers [J]. New Discussion Papers,2008(5):251-262.
[3]Miguelez E,Gomez-miguelez I. Singling out individual inventors from patent data [J]. Ssrn Electronic Journal,2011(23):69-74.
[4]Fleming L,King C,Juda A I. Small worlds and re-gional innovation [J]. Social Science Electronic Publishing,2007,18(6):938-954.
[5]Ventura S L,Nugent R. Hierarchical Linkage Clustering with Distributions of Distances for Large-Scale Record Linkage[M]. Switzerland:Springer International Publishing,2014.
[6]Ventura S L,Nugent R,Fuchs E R. Methods matter:Rethinking inventor disambiguation with classification &labeled inventor records [J]. Academy of Management Annual Meeting Proceedings,2013,2013(1):14537-14537.
[7]Akinsanmi E O,Fuchs E,Reagans R E. Economic downturns,technology trajectories and the careers of scientists [J]. Georgia Institute of Technology,2011(9):52-74.
[8]Kim K,Khabsa M,Giles C L. Random forest DBSCAN for USPTO inventor name disambiguation [J].arXiv:1602. 01792v2,2016(2):37-49.
[9]Smalheiser N R,Torvik V I. Author name disambiguation [J]. Annual Review of Information Science & Technology,2015,43(1):1-43.
[10]Swapnil M U. Inventor disambiguation for patents filed at USPTO [J]. CiteSeerX,2013(5):83-102.
[11]Ventura S L,Nugent R,Fuchs E R H. Seeing the nonstars:(Some)sources of bias in past disambiguation approaches and a new public tool leveraging labeled records[J]. Research Policy,2015,44(9):1672-1701.
[12]Fellegi I P,Sunter A B. A theory for record linkage [J].Journal of the American Statistical Association,1969,64(328):1183-1210.
[13]Singh J. Collaborative networks as determinants of knowledge diffusion patterns [J]. Management Science,2005,51(5):756-770.
[14]Milojevi S. Accuracy of simple,initials-based methods for author name disambiguation [J]. Journal of Informetrics,2013,7(4):767-773.
[15]Morrison G,Riccaboni M,Pammolli F. Disambiguation of patent inventors and assignees using highresolution geolocation data [J]. Social Science Electronic Publishing,2015(12):46-71.
[16]Pezzoni M,Lissoni F,Tarasconi G,. How to kill inventors:Testing the Massacrator algorithm for inventor disambiguation [J]. Scientometrics,2014,101(1):477-504.
[17]周志华. 机器学习:Machine Learning [M]. 北京:清华大学出版社,2016:1-2.
[18]Yang G C,Liang C,Jing Z,et al. A mixture record linkage approach for US patent inventor disambiguation[C]. 2017. Advanced Multimedia and Ubiquitous Engineering,MUE/FutureTech,2017:331-338.
[19]Nicolas C,Lorenzo C. Who’s Who in Patents. A Bayesian approach [J]. Working Papers,2009(7):104-121.
[20]朱亮亮. 利用改进的 K-means算法实现文献著者人名消歧[J]. 软件导刊,2013,12(5):63-66.
[21]Torvik V I,Smalheiser N R. Author name disambiguation in MEDLINE. [J]. Acm Transactions on Knowledge Discovery from Data,2009,3(3):1-29.
[22]Li G C,Lai R,D’Amour A,et al. Disambiguation and co-authorship networks of the U. S. patent inventor database(1975—2010)[J]. Research Policy,2014,43(6):941-955.
[23]Ventura S L,Nugent R,Fuchs E R H. Methods matter:Revamping inventor disambiguation algorithms with classification models and labeled inventor records[J]. Academy of Management Annual Meeting Proceedings,2013(1):14537-14537.
[24]吴军. 数学之美[M]. 2版. 北京:人民邮电出版社,2014:142-152.
[25]Webber F D S. Semantic folding theory and its application in semantic fingerprinting[J]. Computer Science,2015(11):51-110.
[26]Ibriyamova F,Kogan S,Salganikshoshan G,et al.Using semantic fingerprinting in finance[J]. Social Science Electronic Publishing,2016(5):10-38.
[27]Broder A Z,Glassman S C,Manasse M S,et al. Syntactic clustering of the Web[J]. Computer Networks &Isdn Systems,1997,29(8-13):1157-1166.
[28]Charikar M S. Similarity estimation techniques from rounding algorithms[C]. Thiry-Fourth ACM Symposium on Theory of Computing. New Jersey,2002:380-388.
[29]Broder A Z. On the resemblance and containment of documents[C]. Compression and Complexity of Sequences 1997. Proceedings,2002:21-29.
[30]Rabin M O. Fingerprinting by Random Polynomials[EB/OL]. https://www. docketalarm.com/cases/PTAB/IPR2013-00086/Inter_Partes_Review_of_U.S._Pat._794 9662/12-16-2012-Petitioner/Exhibit-1015-Rabin%2C_Fingerprinting_by_Random_Polynomials%,2C_Center_for_Research_in_Computing_Technology%,2C_Harvard_University%,2C_Report_TR_15_81/.
[31]Jain S,Pandey M. Hash table based word searching algorithm[J]. International Journal of Computer Science& Information Technologies,2012(3):4385-4388.
[32]Rivest R. The MD5 Message-Digest Algorithm[M].United States:RFC Editor,1992:492.
[33]Stallings W. Secure hash algorithm[J]. Cryptography &Network Security Principles & Practice,2007:1116.
[34]Han H,Yao C,Fu Y,et al. Semantic fingerprintsbased author name disambiguation in Chinese documents[J]. Scientometrics,2017,111(3):1879-1896.
[35]蔡云雷. 基于潜在语义分析的专利文本分类技术研究[D]. 沈阳:沈阳航空航天大学,2011:3-4.
[36]Manjunath A. ResearcherID:An unique identifier[EB/OL]. http://dspace.rri.res.in/bitstream/2289/5582/1/ResearcherID.pdf.
[37]Haak L L,Fenner M,Paglione L,et al. ORCID:a system to uniquely identify researchers[J]. Learned Publishing,2012,25(4):259-264.
[38]中国科学院文献情报中心中国科学引文数据库. iAuthor:国际研究者辨识系统[J]. 中华普外科手术学杂志电子版,2015(3):255.