APP下载

大数据分析技术在多媒体信息处理中的应用
——以专利信息视角为例

2022-11-16符川川

经济与管理 2022年6期
关键词:专利技术信息处理专利申请

符川川

(南京大学 信息管理学院,江苏 南京 210023)

一、引言

近年来,全球化进程加速,新一轮科技革命竞争日益激烈,专利申请成为展现国家科技创新能力的重要手段。不少国家和地区及时洞察到这一发展态势,并加大专利申请投入,以便形成系统的专利布局。我国为占领科技创新驱动产业变革的战略制高点,明确把数字创意产业作为战略性新兴产业的发展任务,并实施了一系列激励政策促进数字产业的专利申请,以提高在该领域的国际竞争力。大数据分析技术是一种建立在海量数据基础上的新兴数据分析方法,其利用数据挖掘和机器学习从结构化、半结构化以及非结构化的数据中挖掘隐含的文本、语音、图像等信息,从而实现大规模数据的处理分析、规则挖掘和模型预测,对加速数字创意产业的跨越式发展大有裨益。多媒体信息处理的快速普及和飞速发展使得数字声音、数字图像、数字视频等成为大数据分析技术的主要作用对象,并将数据标注和语义分析再翻译成人类理解的信息,为不断优化多种深度神经网络模型处理指数级增长的文本、声音、图像等信息提供增强算力。透过专利信息视角研究大数据分析技术在多媒体信息处理中的应用对于洞察专利分布、合理布局数字产业具有重要意义。

大数据分析技术在多媒体信息处理中的应用进入快速发展时期,其逐渐成为学界和工业界的研究热点,国内外有关大数据分析技术在多媒体信息处理中应用的研究主要集中在以下三方面。第一,文本信息处理技术在多媒体信息处理中的应用,大多基于文本信息处理技术抽取多媒体信息特征并挖掘本质信息。在信息检索领域,提出了有监督的词袋模型以提高多媒体信息检索的精确度并减少检索耗时[1];在自动摘要领域,构建了文本自动综述系统模型以抽取多媒体信息中的关键内容并合成摘要[2];在多媒体信息要素抽取领域,提出了Golay Code 算法从多媒体数据集中的元知识提取元特征来研究数据点之间的关系模式[3];在新媒体交互式监管领域,利用大数据分析技术将新媒体内容进行过滤、排重、分类,从而形成监控信息树[4]。第二,语音信息处理技术在多媒体信息处理中的应用,大多基于语音信息处理技术对多媒体信息特征进行分类。在语音声调识别领域,提出K-means 初始化EM 算法进行语音声调识别仿真[5];在语音情感识别领域,构建LDA-kernel-KNNFLC 模型用于学习语音情感数据库的特征空间以实现识别语音情感[6],探究了中间匹配内核(IMK)的分类器性能以进行语音情感识别[7],优化了支持向量机(SVM)对特征向量集的长时语音的变化长度模式以进行语音情感分类[8]。第三,图像信息处理技术在多媒体信息处理中的应用,大多基于图像信息处理技术对多媒体信息内容进行特征抽取。在图片聚类领域,借鉴超图非负矩阵分解模型对无标签图片进行预处理以提高聚类精确度[9];在图像加密领域,提出LSIC 模型进行灰度和彩色图像加密[10],优化了安全图像密码系统并进行深入的安全分析[11];在视频场景检测领域,改进频谱聚类方法以有效地总结每个镜头的内容并准确地检测大多数场景边界[12];在图像的人机交互领域,以多分辨率纹理图像信息(MRTII)的新特征抽取算法表征和分类人眼对频谱图像的不同情感[13]。

通过文献梳理发现,专利信息视角下的大数据分析技术发展及演进颇受关注,研究内容包括:基于专利地图探索大数据技术在各国的发展现状[14],基于专利分析我国大数据产业在国内和国外的竞争态势[15],基于专利可视化和产业动态探究大数据领域技术创新的演进[16],基于专利视角预见大数据产业技术路线图[17]等。基于专利信息视角从宏观层面探析大数据分析技术的演进研究比较丰富,但探索微观层面的研究有进一步提升的空间。因此,分析专利申请时间、地区、技术内容等微观内容有助于更全面细致地了解大数据分析技术在多媒体信息处理中的应用,并把握未来技术发展趋势。本研究采集大数据分析技术在多媒体信息处理应用中的相关专利,针对专利现状、专利技术主题、专利申请人、重点专利等微观内容进行分析,以期明晰该领域专利分布情况,为我国数字产业的专利布局建言献策。

二、数据来源与检索

从汤森路透专利数据库(Thomson Reuters Integrity)下载得到1 085 件大数据分析技术在多媒体信息处理应用中的专利,包括全球收录专利的116 个国家和地区。在获取初始专利后对其进行检索设置,并进行相应的去重处理。本研究经过筛选得到956 件同族专利,检索方式如表1 所示。

表1 检索方式

三、专利现状分析

(一)发展阶段分析

利用专利申请量随时间的推移而变化来分析当前技术领域发展所处阶段。由图1 可知,1995—2005 年,全球的大数据分析技术在多媒体信息处理应用中的专利申请量缓慢增长,个别年份没有专利申请,年平均申请量不足2 件,处于萌芽期。2006—2017 年专利申请量快速增长,尤其在2013—2015年专利申请量成倍增长,处于成长期。2017—2018年专利申请量增幅有所放缓,处于成熟期。2018—2020 年专利申请量降幅明显,处于衰退期,本领域的技术在该阶段竞争激烈,需要提前进行预警,避免不必要的研发投入。

图1 全球专利申请量

(二) 专利申请量地域分布分析

1.专利技术来源国/地区排名分析。分析大数据分析技术在多媒体信息处理应用中的专利技术优先权国家/地区(即技术来源国/地区),可以挖掘该领域特定技术的创新潜质和落地可能,同时也可以追踪持有特定技术的研发部门的聚集区。图2 显示世界知识产权五局以及中国台湾地区的专利申请情况。由图2 可知,中国、韩国、美国、日本、中国台湾、法国排名前六位,其中中国的专利申请量占据绝对的数量优势,该优势得益于中国早期的专利布局,这也反映了中国大数据分析技术在多媒体信息处理中的应用已经进入“中国创造”阶段。中国在该领域可以抓住专利提前布局的时机,将一些核心技术落地并形成产业化以抢占国际竞争制高点。

图2 专利技术来源国/地区专利申请数量

2.专利技术在世界知识产权五局的流向。通过分析该领域的授权专利在中国、美国、欧洲、日本、韩国世界知识产权五局的流向可以获取五局的专利优先权情况以及专利布局情况。由图3 可知中国的专利优先权最多,远高于其他四个专利局,但是中国的专利大部分布局在国内,很少布局在国外。美国、韩国、日本虽然专利优先权较少,但是大部分布局在中国。上述现状的原因在于,中国市场相对开放,对国内和国外专利权限的地域性限制较少;中国的专利申请时间相对短于国外并且申请难度也低于国外。此外,中国的部分专利申请人重数量,轻质量。因此,该领域中国的专利质量同国外相比有一定差距。为打开该领域专利的国际市场并提高竞争力,需要国内专利申请人提前进行专利布局并提高申请专利的质量。

图3 专利技术的五局流向

3.我国各省的专利申请量。进一步缩小检索范围可获知我国各省市在该领域的专利申请情况,从而洞悉各省市的科技创新能力以及对科技的重视程度。检索后统计分析可知,该领域专利申请量排名全国前十位的省市分别为北京、广东、江苏、上海、山东、四川、安徽、浙江、湖北以及天津。这些省市表现出活跃的科技创新能力,其中大部分位于长三角、珠三角、京津冀三大经济带上;这些省市的当地政府足够重视该领域专利的申请,表现为对专利申请费、审查费、年费、复审费等费用的减缴;降低专利申请人准入门槛,施行专利申请的揭榜挂帅制度;对向国外申请该领域专利的组织或个人等,给予优惠政策以激励高质量专利的申请。

四、专利技术主题分析

(一) 专利技术构成分析

对大数据分析技术在多媒体信息处理应用的专利技术构成进行分析,其重点在于分析该领域主要技术分支的覆盖情况并深化对特定技术创新程度的了解,从而挖掘隐含的专利技术空白点以提前作好专利布局。图4 表征各分类号对应特定技术的专利情况。排名前十位的分别为G06F17、H04L29、G06Q50、G06Q10、G06K9、G06F16、G06Q30、H04L12、H04N21、H04N7,对应着特定功能的数字计算设备或数据处理设备或数据处理方法、特定商业领域的系统或方法、阅读或识别印刷或书写字符或者用于识别图形、信息检索、数据交换网络、交互式电视等。由此可知,特定功能的数字计算设备或数据处理设备或数据处理方法引领着多媒体信息处理,该技术蕴含着巨大的经济利益,可以为投资者提供一定的决策参考。

图4 技术构成

(二)专利重要技术地域分布

基于对大数据分析技术在多媒体信息处理应用中专利技术构成的分析,本研究对重要技术在主要国家的分布进行分析。由图5 可知,气泡越大表明该国拥有的专利技术越多。根据气泡大小可知,上述全球排名前十的技术专利大部分分布在中国、美国、韩国;中国在该领域的关键技术的专利数量大于美国和韩国,在该领域有着较强的竞争力,也反映中国的科技战略在该领域已初见成效。

图5 重要技术分支地域分布

五、专利申请人分析

(一)专利主要申请人分析

根据特定公司拥有大数据分析技术在多媒体信息处理应用中的专利数量可以研判该领域的竞争对手,并进行风险规避。由图6 可知,专利优先权排名前十位的分别为国家电网公司、腾讯科技(深圳)有限公司、联想(北京)有限公司、上海市电力公司、北京易游华成科技有限公司、北京字节跳动网络技术有限公司、南方电网深圳数字电网研究院有限公司、中国移动通信集团公司、北京派瑞根科技开发有限公司、深圳供电局有限公司。进一步分析发现,该技术领域的竞争不在国外,主要集中在国内,主要专利权拥有者的积极竞争有利于该领域技术在国内的发展。因此,为了提升在该领域的竞争力,有必要提前在国外进行专利布局。

图6 专利主要申请人

(二)专利合作申请分析

当上述专利竞争达到一定强度时会阻碍创新技术的发展,不断设置专利围栏会给后进者带来极高的成本,反而不利于专利的申请。合作申请专利则可以减少专利申请的代价,因此,有必要合作申请专利。分析专利申请人的合作网络可以发现潜在的合作对象。由图7 知,国家电网公司与其他公司合作申请的该领域专利较多,较多的合作专利有利于其向国外布局该领域专利。

图7 专利合作申请

六、重点专利分析

(一)被引用专利分析

一般情况下,专利被引用的次数越多则该专利的质量和经济价值越高,其影响力也就越大,进而成为核心专利。由表2 可知,被引专利最多的专利号分别为 CN101262494A、US20170235848A1、CN105187771A、CN104573619A、CN102945027A、CN104796485A、CN101025737A、CN103838617A、CN105678398A、CN104917669A。这些专利是大数据分析技术在多媒体信息处理应用中的核心专利,其中华为技术有限公司被引用次数最多,表明该公司是本领域的领军者,能为后续专利申请人指明方向。

表2 专利被引次数

(二)专利权利要求数量分析

大数据分析技术在多媒体信息处理应用中的专利权利要求数量越多则其技术范围越广,专利家族越大,其他新申请的专利难以绕过,那么专利质量就越高。由图8 可知,专利权利要求数量排名前十的专利号分别为CN110073301A、CN1294812A、CN1183841A、CN103339913A、CN104254863A、CN105229687A、CN109219801A、CN1672178B、CN1568466A、CN1049 51077A,对应的权利要求数量(项)分别为1 442、352、292、260、190、94、60、59、58、42,其中强力物联网投资组合2016 有限公司的专利权利要求数量最多,其拥有的专利技术范围较广,同行难以绕过,因此该公司具备较强的科技竞争力。

图8 专利权利要求数量

(三)专利创新词云分析

借助对该领域重点专利的创新词云分析可以抽取该领域的技术主题词,并逐步探索该领域的研发重点以及未来的风向。本研究进行中文分词、英文切词等预处理,并清洗一些噪音数据。基于此,本研究应用机器学习算法对该领域的专利文本进行聚类,并可视化专利的关键词。由图9 可知基于多媒体、服务器、数据库、多媒体信息、数据采集、互联网、大数据分析技术、管理系统、分布式、数据存储等关键词的专利数量最多,表明基于这些关键词的专利属于该领域的核心专利。

图9 创新词云

(四)专利地图分析

通过专利地图可视化探析该领域的重点专利技术布局,专利地图①由国际专利分类号聚类生成地形,在此基础上,对重点专利进行文本分析并抽取标签词。其中,专利地图的高峰表示重点专利技术聚集的区域,低谷反映该领域属于空白,可以提前进行专利布局。专利地图可表征该领域的高价值专利,经过聚类抽取的主要标签分别为客户、全景、决策、评估、广告,电视、机器人、广播、日志、重现,图书馆、多媒体系统、云端、黄页、走失,遥控、节点、卫士、消息、网关,通信、无线、智能家居、功能、接口,模型、构建、数据挖掘、一体化、二维码,舆情、航空、评价、临床、存储。基于这些标签专利属于该领域的热点专利,具有客观经济和技术价值。

七、结论和建议

本研究基于专利信息视角探索大数据分析技术在多媒体信息处理中的应用。从专利现状分析、专利技术主题分析、专利申请人分析、重点专利分析四个角度进行有关技术应用的解析,得出的结论和相应政策建议如下:

第一,分析该领域专利的现状可知,全球在该领域的专利申请量降幅比较明显,但是我国在该领域专利申请量占据较大份额。该领域在我国已经进入“中国创造”阶段。我国在该领域的专利申请量主要集中在三大经济带上。我国在该领域的专利大部分布局在国内。基于此,我国需要加大对该领域关键性技术的研发投入,提高专利审查员和专利申请人的业务素质以提升授权专利的质量,从而在国外布局该领域的专利中抢占市场先机。

第二,对该领域的专利技术主题进行分析可知,该领域主要对应着特定功能的数字计算设备或数据处理设备或数据处理方法、特定商业领域的系统或方法、阅读或识别印刷或书写字符或者用于识别图形、信息检索、数据交换网络、交互式电视等。未来的技术空白点可能是上述某一技术的深化或者若干技术的组合。为提高该领域专利授权率,需要分析上述技术构成并挖掘上述技术以外的空白点,而挖掘技术空白点可以催生出一些新兴产业。因此,需要培养交叉型复合人才以洞悉该领域的空白点。此外,重要技术主要集中在中国、美国和韩国,但是中国的这些重要技术在国外专利授权率较低,需要加强原始创新以提高专利质量。

第三,对专利申请人进行分析可知,该领域的主要专利申请人集中在我国的企业,我国企业在全球具有较强的竞争力;国内在该领域的专利合作者主要集中在国家电网公司。为提高我国在该领域的技术竞争力和话语权,需要转变“重数量轻质量”的专利申请模式,并积极同国外专利申请者合作,促进我国从专利大国迈向专利强国。

第四,对重点专利进行分析可知,基于多媒体、服务器、数据库、多媒体信息、数据采集、互联网、大数据分析技术、管理系统、分布式、数据存储等关键词的专利属于该领域的核心专利。基于此,需要敏锐地洞察一些专利的分项技术是否属于上述关键词所涉及的技术,从而研判这些专利是否为重点专利,并进行技术生命周期分析以决定是否值得进入。

注释:

①因版面所限,专利地图未标出。

猜你喜欢

专利技术信息处理专利申请
公民作为专利申请人的创造性自我初评
防爆电机专利技术发展综述
东营市智能信息处理实验室
全新充电专利技术实现车队充电
基于Revit和Dynamo的施工BIM信息处理
唑啉草酯中国专利申请分析
低压差线性稳压器专利技术综述
地震烈度信息处理平台研究
CTCS-3级列控系统RBC与ATP结合部异常信息处理
曲面显示器的专利技术分析