APP下载

人工智能热点算法之协同过滤相关申请专利保护现状及审查规则

2022-08-11赵伟华

专利代理 2022年2期
关键词:客体专利申请专利

赵伟华

一、引言

大数据(Big Data),也就是海量数据,是传统数据处理应用软件不足以处理的复杂数据集,这些数据集的数据规模通常在PB 级以上,需要特殊的数据处理技术进行存储和处理。纷繁复杂的大数据并不能直接被我们利用,只有通过特定的算法挖掘出数据之间的内在关联关系,才能够利用这些数据呈现出来的规律,进行分析和预测。因此,大数据分析挖掘技术逐渐成为了热点,聚类、分类、回归分析、异常挖掘和趋势分析、关联规则、依赖规则、序列模式等大数据分析算法被应用到各类场景中,大数据技术与人工智能技术互动频繁、相互交织,促进了大数据处理技术进一步发展。

在“大数据时代”的背景下,推荐系统能通过分析提取出用户的历史偏好数据,并结合用户之间的偏好关系以及项目与项目的相似程度,推测出目标用户可能喜欢的物品并将其推荐给用户。

图1 展示的是推荐平台的基本构成,整个系统主要分为四个部分,即数据层、业务层、基础设施层、推荐终端等,具体如下:

图1 推荐平台的基本构成

协同过滤(collaborative filtering)算法就是其中一种经典且常用的推荐算法,它基于对用户历史行为数据的挖掘,发现用户的喜好偏向,并预测用户可能喜好的产品进行推荐。目前应用比较广泛的协同过滤算法包括基于用户的协同过滤算法(即,给用户推荐和他兴趣相似的其他用户喜欢的产品)和基于物品的协同过滤算法(即,给用户推荐和他之前喜欢的物品相似的物品)。

协同过滤推荐算法产生时间较早,在发展中技术趋于成熟,具有很强的适用性,因此被广泛用于搜索领域,并且取得了显著成效。协同过滤算法的具体应用有智能推荐、商品推荐、新闻推荐、搜索引擎智能推荐等。显然,协同过滤算法是底层大数据到个人化推荐应用过程中的中间产物。

本文通过梳理协同过滤领域的发明专利申请和保护现状,依托实际案例,对比他局审查方式,来解析审查政策调整对专利申请和产业发展的影响,明晰大数据、人工智能领域相关发明专利申请的客体审查标准,并为引导大数据、人工智能领域的技术创新提供助推。

二、专利申请及保护现状概述

(一)数据来源

本文检索数据来源于HimmPat 数据库,对2021年12 月31 日前的全球专利进行检索分析,对标题、摘要或权利要求包含“推荐”、“建议”、“兴趣”、“偏好”、“喜好”等关键词及其英文表达,以及说明书中包含“协同过滤”或“协调过滤”等关键词及其英文表达的专利文献进行检索,获得全球专利2,356 件。由于专利语言不同,以及公司存在分公司和子公司的情况,使得一个公司存在多种名称,本文在做数据统计时,将存在上述情况的申请人进行合并,并在下文中使用了常见的中文名称进行表示。

(二)技术发展分析

1.全球专利申请趋势

协同过滤领域专利申请量发展趋势如图2 所示。

图2 协同过滤领域专利申请量发展趋势(单位:件)

结合图中数据可以看出,该领域专利的萌芽期开始于2011 年,当年的全球申请量不足两百件,这与当时的AI 技术处于起步阶段、推荐系统初步成型等原因密不可分,经过缓慢的发展,尤其随着计算机技术和通信技术的快速发展和更新,协同过滤领域专利申请量迎来了第一次飞跃,体现在2016 年到2019年实现了全球申请量翻一番,于2019 年突破了四百件的申请量。

这次飞跃与AI 技术快速发展、计算机视觉、语音识别技术突飞猛进,尤其国内形势此时受国家政策大力支持,市场规模不断扩大,产业链趋于完善等原因息息相关。虽然这个增长趋势在2019-2020 年有短暂的减缓,推测可能与全球爆发新型冠状病毒疫情相关,但很快又于2021 年再次大幅度上升,并呈现继续攀升的趋势,这样的向好趋势充分说明该领域无论在产业发展还是专利申请方面目前都处于新的爆发期。

从协同过滤的产生背景来看图2 的数据,可以得到,大数据、人工智能早期形成的基础算法并不能直接用来分析现在的海量数据,也无法直接在任何具体应用场景中使用,需要根据应用层的不同适用场景进行优化、调参,甚至重新构建新的算法来服务于大数据、人工智能产业落地。而协同过滤算法解决方案能够改进硬件与算法之间的适配、优化技术层算法在自然语言处理、计算机视觉、语音识别、预测分析、知识表示和推理等方面的处理效果。

通过上述分析可以得到如下结论,协同过滤领域专利申请不仅与技术储备、社会热点有着较大的关系,并且与政策支持、政府导向也有着密切关联。随着社会发展、公众需要,以及行业完善、技术迭代,预计未来很长一段时间该领域的专利申请量会保持快速增长的趋势。

2.主要技术热点分布

图3 是协同过滤领域的主要技术热点分布图,在同时包括协同过滤相关的算法应用及基础算法的专利申请中,基础算法的研究相关的专利申请量占到了较大比重,具体表现为,主要集中在数据结构及存储结构方面的改进、对数据结构的各种分析处理方面的改进等方面;而针对协同过滤算法应用的研究,其主要集中在协同过滤在各类特定商业领域的应用、在电子商务过程中的应用、以及在管理过程中的应用等方面。除此之外,热点技术还涉及到了协同过滤算法与其它技术的融合(例如神经网络算法、遗传算法等),以及协同过滤过程中的数据传输等相关技术。

图3 协同过滤领域主要技术热点分布图(单位:项)

形成这种现象的原因是,协同算法的改进动机是为了让人工智能更广泛地应用于多个领域,因此,形成专利申请时,申请人不愿意将数据处理仅限定到少数应用场景中,认为会限制其方案在后续的应用,导致请求保护的方案与具体应用场景并不属于“紧耦合”的情形,进而被认为不属于专利保护的客体。例如,对神经网络的压缩或量化,申请人不愿意将其限定为处理图像或语音的神经网络,也难以在每个处理步骤中体现出与其应用场景相关的改进。

因此,在协同过滤技术当前发展阶段,创新主体将研发焦点主要聚焦在协同过滤基础算法的改进上,希望这样的改进型技术能够适用于更多场合,能够实现更广泛的应用,预计在未来一段时间,这样的热点分布特点仍会持续,协同过滤领域将迎来多方面齐头并进的发展态势。

3.全球重点申请人

从图4 呈现的协同过滤领域的全球排名前十的申请人及其专利申请量来看,该领域主要申请人的专利申请量总体都不高,并且数量上呈现比较平均的现象。从国内外申请人分布来看,国内申请人占据了主要地位,该领域的全球十大申请人中,国内申请人占到了一半以上,说明该领域的专利权目前主要被国内申请人掌握。从国内申请人分布看,国内各大高校占据的比重较大,说明高校在协同过滤领域投入的研发较多,研发的专利产出较多,但目前各大高校及技术公司在该领域的专利申请量总体分布均匀,还未形成明显的技术垄断。

图4 协同过滤领域全球重点申请人

同时,上图也说明了当前我国的高校和互联网头部企业已经具备了一定的“领跑”能力,对于具体应用场景中的特定算法开发已经较为成熟,业界开始谋求从更高层次上改进算法效率。很多高校和企业已经开发出多模态神经网络模型,也就是说,一个神经网络模型可以集成各种分类器来识别不同模态的数据(文本、图像、音视频、时序数据)等,并经由一定变换和优化即可适用于各种场景;也有一些企业重点研发通用模型的优化(如减枝、量化)以及模型的自动调优等。

可以体会到,随着高校和企业在大数据、人工智能领域的研发不断深入,对通用模型的改进越来越多,场景应用中通用性要求也越来越高,协同过滤算法的改进必将越来越多,发挥的作用也必将越来越大。

4.五局申请量对比

按申请局统计协同过滤领域的专利申请(如图5所示),可以看到,中国在该领域的申请量遥遥领先,超过美、韩、日、欧四局的申请量总和,充分说明中国在该领域的专利市场占据主要地位,目前已经形成了一定的专利储备。

图5 协同过滤领域五局申请量对比图

形成上述数据呈现的主要原因可能是,我国近十年来非常重视和鼓励电子商务、大数据、人工智能等技术的发展、应用以及与其它领域和行业的深度融合,采取了多项多种鼓励政策及支持手段,并且多次强调加强相关技术的知识产权保护,而美局近年来对客体判断标准处于较为震荡的状态,欧局近年来在大数据、人工智能领域缺少政策扶持,从而在一定程度上影响了各创新主体在本领域的专利布局。

5.国内审查结论统计分析

从图6 协同过滤领域的国内审查结论统计分析可以看出,涉及协同过滤技术的相关申请在国内复审程序的法律适用中,一半为创造性条款,另一半为涉及专利保护客体的条款,说明该领域中相当数量的申请是因为主题涉及专利保护客体问题而不能得到专利权。

图6 协同过滤领域国内审查结论统计图

综上所述,通过对协同过滤领域的全球专利数据统计分析可以发现,该领域在近五年的发展非常迅速,专利申请量逐年攀升,而这些专利申请中,中国申请量是美日欧的总和,且国内申请人占据主导地位。但协同过滤和数据清洗领域的专利授权率不高,明显低于其他人工智能热点领域,可见,中国对该领域的审查尺度偏严。

造成这种现象的主要原因可能是,由于中间层算法的解决方案,不像基础层那样,算法改进与硬件结合的较为紧密,也不像应用层那样,算法特征与具体应用场景紧耦合,因此,大量涉及中间层算法的专利申请被拒之客体高墙之外。

三、客体审查规则解析与典型案例

(一)客体审查规则解析

在2021 年8 月公布的《专利审查指南修改草案(征求意见)》第二部分第九章第6.1.2 中新增的涉及人工智能、大数据领域的客体审查规定为:

如果权利要求的解决方案涉及深度学习、分类、聚类等人工智能、大数据算法的改进,该算法与计算机系统的内部结构存在特定技术关联,能够解决如何提升硬件运算效率或执行效果的技术问题,包括减少数据存储量、减少数据传输量、提高硬件处理速度等,从而获得了符合自然规律的计算机系统内部性能改进的技术效果,则该权利要求限定的解决方案属于专利法第二条第二款所述的技术方案。

如果权利要求的解决方案处理的是具体应用领域的大数据,利用分类、聚类、回归分析、神经网络等挖掘数据中符合自然规律的内在关联关系,据此解决如何提升具体应用大数据分析可靠性或精确性的技术问题,并获得相应的技术效果,则该权利要求限定的解决方案属于专利法第二条第二款所述的技术方案。

从上述规定可以看出,涉及分类、聚类、回归分析等数据挖掘算法,作为方案的实现手段,其本身并不构成技术手段,只有通过这些算法挖掘大数据中符合自然规律的内在关联关系,据此解决技术问题并获得相应的技术效果时,这些挖掘算法才有可能构成技术手段。

因此,虽然上述规定中记载了提升大数据分析可靠性或精确性有可能构成技术问题,但是,需要结合权利要求记载的方案,具体判断上述可靠性或精确性的提升是算法本身优化带来的,还是利用这些算法挖掘大数据中符合自然规律的内在关联关系而产生的。

下面通过两个典型案例来进一步解析如何适用上述审查规则。

(二)典型案例

1.案例一:动态离群值偏倚减少系统和方法

【案情概述】

该申请涉及对数据的分析,其中离群元素被从分析开发中去除(或过滤掉)。分析可能与简单统计量的计算或者在其开发中涉及使用数据的数学模型的更复杂操作有关。离群数据过滤的目的可以是执行数据质量和数据验证操作,或者计算能够应用于后续分析、回归分析、时间序列分析中的代表性标准、统计量、数据群组或者用于数学模型开发的合格数据。

【权利要求】

1.一种计算机实现的方法,包括以下步骤:

由被专门编程的计算系统以电子方式接收至少一个误差阈值标准以及数据集合;

由所述被专门编程的计算系统使用包括至少一个系数的模型执行离群值偏倚减少的第一迭代,其中执行离群值偏倚减少的第一迭代包括以下步骤:

通过将所述模型应用于所述数据集合,确定预测值的集合;

比较所述预测值的集合与所述数据集合,以产生至少一个误差值的集合;

从所述数据集合中去除作为数据离群值的一个或多个数据值以形成离群值过滤数据集合,其中该数据离群值是根据所述至少一个误差值的集合以及所述至少一个误差阈值标准确定的;以及

使用所述离群值过滤数据集合构建包括至少一个经更新的系数的经更新的模型;以及

当至少一个终止标准未得到满足时,由所述被专门编程的计算系统执行离群值偏倚减少的第二迭代,其中执行离群值偏倚减少的第二迭代包括通过将所述经更新的模型应用于所述数据集合来确定第二预测值的集合。

【各局审查意见对比】

欧洲专利局(以下简称欧局)审查意见认为:该申请未限定“其中所述目标标量是用于工业设施的度量,所述度量与所述工业设施的生产、金融性能或排放有关”,权利要求1 的方法针对减少离群偏差,是统计领域的抽象数学问题,在计算机上指定的非技术方法的实现,该方法是被认为是显而易见的,从而不具备创造性。

美国专利局(以下简称美局)审查意见认为:该申请未限定“其中所述目标标量是用于工业设施的度量,所述度量与所述工业设施的生产、金融性能或排放有关”,减少离群偏差的方法是抽象思想,“收集信息,分析信息并显示某些信息”的计算机功能不会对抽象概念增加有意义的限制。

日本特许厅(以下简称日局)审查意见认为:具备创造性,并授予了专利权。

可以看到,欧局和日局并没有质疑该申请存在专利保护客体问题,直接进行了创造性的审查,而美局则是针对本申请不属于保护客体提出了审查意见,并作出了驳回结论。

中国国家知识产权局审查意见认为:从该申请权利要求1 的解决方案来看,是一种依据自定义的模型来对数据集合中的数据进行迭代处理的方法,其要解决的问题是如何提高数据集合的数据质量,以及如何进行数据验证操作。但是该申请的方案并没有具体到某个应用领域,其所限定的步骤/执行步骤依然只是对数据进行分析处理,并获得相应的结果;上述分析处理方式实质上是一个没有具体应用领域的抽象的数学处理过程,所针对的数据也是无具体领域、无特定物理含义的抽象数据。从当前采用的手段(基于模型进行的抽象的数据处理)与以上要解决的问题(提高数据质量、进行数据验证操作)的关联性来看,不受自然规律约束,由此也不会获得符合自然规律的技术效果。

尽管申请人在权利要求1 中限定了目标变量是用于工业设施的度量,所述度量与所述工业设施的生产、金融性能或排放有关,但这个限定仍然不能使“目标变量”成为具有具体物理含义的、构成技术领域中具有确切技术含义的数据。综上,当前权利要求不属于专利法第二条第二款所述的技术方案,不属于专利保护的客体。

2.案例二:基于随机森林修正的大数据下改进协同过滤推荐方法

【案情概述】

该申请涉及数据挖掘领域,主要涉及电子商务中个性化推荐,具体是一种基于随机森林修正的大数据下改进协同过滤推荐方法,例如:商品推荐、音乐电影产品推荐等领域,可用于网上商城等电子商务领域。

目前的协同过滤算法存在很多缺点:如,数据稀疏推荐精确度会受到很大影响,用户活跃度、热门物品对推荐质量存在负面影响,造成精确度不高、多样性不强等,特别是在大数据的情况下,数据的稀疏度会极大地放大这些缺陷。为此,该申请提供了一种基于随机森林修正的大数据下改进协同过滤推荐方法,通过用户对每个物品的评分,提取用户评分信息,根据用户评分信息构建用户偏好随机森林分类模型,根据分类结果,结合改进协同过滤推荐得到的用户的初步推荐列表,对评分进行对应的修正调整,对列表中的物品按评分降序进行重新排序,形成最终的推荐列表,完成全部用户的推荐。

【权利要求】

1.一种基于随机森林修正的大数据下改进协同过滤推荐方法,其特征在于,包括有如下步骤:

步骤1 数据录入及参数设定:根据电子商务网站的记录,提取用户对每个物品的评分,设定用户为ua,其中a 为当前待推荐用户标记,协同过滤参数近邻数k,k 为常数,取值区间为2-20,随机森林可调参数δ,δ 为固定常数,提取用户评分信息,评分信息标记为ratings;

步骤2 建立当前用户特征向量集合:根据评分信息标记ratings,得到当前用户ua 的特征向量集合Ti ={(xi,yi)},i ∈N+,特征向量Xi={Xi1,Xi2...Xim},yi ∈{0,1}是类标签;Xim 是用户m 对物品i 的评分,i 为用户ua 评分过的物品标记,N+为物品总数量,m 为用户总数量;

步骤3 构建随机森林分类模型:利用特征向量集合,为用户ua 构造用户喜好随机森林分类模型,得到用户ua 喜好随机森林分类模型;

步骤4 计算用户间相似度并寻找用户的k 个最近邻居:对于用户ua ∈U 且a ≠b,其中U 为用户集合,b 为非当前待推荐用户的任一用户标签,根据改进后的相似度公式计算用户间相似度sim(a,b),找到与用户ua 相似度最高的k 个最近邻居;

步骤5 计算改进协同过滤算法预测评分:利用用户间相似度及相似度最高的k 个最近邻居,根据改进协同过滤预测评分公式计算用户ua 对于所有未评分物品p 的初步预测评分roq;

步骤6 得到初步推荐列表:找到所有预测评分中最高的Nitem 个项目,Nitem 为需要推荐商品的个数,通常取常数10,依照评分进行降序排序,构成对用户ua 的推荐列表l;

步骤7 使用随机森林分类模型对初步推荐列表分类:使用随机森林分类模型对得到的推荐列表l 中的物品进行分类;

步骤8 结合两种方法进行修正得到最终推荐列表:根据分类结果,结合改进协同过滤推荐得到的用户ua 的初步推荐列表l,对评分进行对应的修正调整,对列表l 中的物品按评分降序进行重排序,形成最终的推荐列表l′;

步骤9 进行最终推荐:取最终推荐列表l′中的前Nitem 个,对用户ua 进行推荐;

步骤10 判断是否结束:检测是否是最后一个用户,即a 是否等于m;若不是,返回步骤2,对下一个用户进行推荐;若是,则完成全部用户的推荐,推荐结束。

【疑惑与分歧】

对于该案是否构成专利保护客体存在两种截然不同的观点:

观点1:该申请只提到了获取电子商务网站的记录,没有明确体现出和具体的应用领域的紧密结合,其考虑的是协同过滤推荐算法本身存在的问题,仅仅是停留在人的思维层面的对某个算法问题的认识。评分数据为用户的主观数据,通过评分数据信息推荐物品,实质上是对物品推送准则进行了人为限定,根据人为制定的特定推送规则进行推送,其并未采用遵循自然规律的技术手段。即,该观点认为该案不属于专利保护的客体。

观点2:某一用户的评分值为主观数据,但多个用户的评分值即为客观数据,且项目推荐本身即为一个领域,不需要进行更具体的限定,由于用户的特征向量集合由其他用户对该用户打过分的物品的评分值构成,利用上述多个用户的评分值进行计算从而协同推荐,是采用客观规律,给定条件得到既定结果,采用了符合自然规律的技术手段。即,该观点认为该案属于专利保护的客体。

【案例分析】

该申请请求保护一种基于随机森林修正的大数据下改进协同过滤推荐方法,利用随机森林算法来改进协同过滤算法。

如前所述,如果一项解决方案仅仅是利用某个算法来优化另一个算法,没有应用到具体领域以解决技术问题,那么这样的解决方案仍属于抽象算法本身,并非专利保护的客体。但是,该申请在利用随机森林方法改进协同过滤算法的过程中,要解决的问题是改进数据稀疏度对推荐精确度的不良影响。

为解决上述问题,该申请权利要求记载的方案中,从电子商务网站的记录提取用户对每个物品的评分,根据评分信息获取用户特征向量,根据用户特征构建用户喜好随机森林模型,结合改进协同过滤推荐得到的用户初步推荐列表,对评分进行对应的修正调整,对列表中的物品按评分进行降序重排序形成最终的推荐列表。可见,该申请的解决方案体现了随机森林算法和协同过滤算法在购物网站通过用户评分提取用户偏好以进行产品推荐的具体应用场景,通过对评分进行修正并通过对推荐重新排序,解决了数据稀疏影响推荐精度的技术问题,采用了遵循自然规律的技术手段,并获得了相应的技术效果。因此,该申请符合专利法第二条第二款的规定,属于专利保护的客体。

该申请中,用户个体的评分标准虽然是主观评定的,但从电子商务网站的记录中提取出的用户评分是基于大数据规模下的群体行为数据。对大规模数据进行采集,并挖掘出其中符合自然规律的内在关联关系,从而利用大数据反映出的用户行为规律进行个性化推荐,并非是对物品推送准则进行的人为限定。

但是,仍需注意的是,个性化推荐并非是技术领域,同时,并非方案中处理的数据对象是客观数据就可以使方案构成技术方案,同理,处理客观数据的手段并非就构成技术手段。在判断涉及协同过滤算法的相关发明专利申请是否构成技术方案时,应把判断的重点放在利用该协同过滤算法对某领域的大数据进行分类时,是否挖掘出数据之间符合自然规律的内在关联关系。

四、结论与建议

从协同过滤领域的专利申请数据统计分析可以发现,该领域在近五年的发展非常迅速,专利申请量大幅度攀升,这些专利申请中,国内申请人占据主导地位,申请覆盖的领域主要集中在特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法、信息检索,数据库结构或文件系统结构的算法相关的领域以及新商业模式相关的应用领域。

目前,对于改进仅在于协同过滤算法本身的发明专利申请,由于其不涉及具体应用领域,或者与改进计算机系统内部性能无关,因而有可能被排除在专利保护客体的范畴外。但是,协同过滤算法与一般大数据、人工智能的基础算法不同,它是为了更好地利用大数据进行推荐而产生并不断改进的,所处理的数据是海量的,必须利用相应的AI 算法才能完成数据清洗、相似度计算、评分估计、推荐排序、推荐效果评估等过程,并且,对这些算法的改进能够提高大数据分析的效率和精度。在此基础上,笔者认为,协同过滤算法的改进方案解决了在用户/物品推荐过程中推荐精度或效率不高的问题,该算法基于对兴趣类似的用户群体的行为分析找到用户本身属性和被推荐物品之间的匹配程度,能够反映用户行为和商品属性之间固有的关联关系,能够达到提高推荐准确性的效果。

有鉴于此,笔者建议,可以尝试以定向放开的方式,将大数据、人工智能涉及的中间层算法改进的解决方案纳入客体保护范畴,例如,进一步明确:对于大数据、人工智能算法改进的解决方案,如果该算法与海量数据的固有特征存在特定技术关联,通过构建知识图谱、划分社区、协同过滤,能够解决提升大数据清洗效率和利用效果的技术问题,例如包括提升数据特征的抽取能力、提高数据标引的准确性、提升特定数据结构组织构建的效率、提升数据模型仿真和评估效果、保证数据隐私和数据安全等,从而获得相应的技术效果,则该解决方案属于专利法第二条第二款所述的技术方案,属于专利保护的客体。

专家点评

个性化推荐目前是大数据的主要应用场景之一。本文围绕协同过滤推荐算法,通过梳理专利申请态势,对比各局审查结论的异同,结合该领域的典型案例,对协同过滤等人工智能、大数据热点算法的创新成果如何能够成为专利保护的客体,给出了当前审查规则适用方式。此外,本文还结合大数据、人工智能领域中间层算法产生的原因、改进的目的及特点,给出了进一步放开涉及协同过滤等中间层算法的客体保护的审查政策建议,有独到见解。

猜你喜欢

客体专利申请专利
社会公正分配客体维度与道德情绪的双向互动
从一件无效宣告请求案谈专利申请过程中的几点启示和建议
唑啉草酯中国专利申请分析
浅议犯罪客体
韩国AI内容专利申请数5年激增10倍
专利申请三步曲
概述奥地利普通术语学中的对象客体
2007年上半年专利授权状况统计