APP下载

中美日韩德图像理解技术发展比较*——基于DII数据库的实证分析

2021-09-07钟书华

世界科技研究与发展 2021年4期
关键词:图像匹配专利申请专利

陈 玮 钟书华

(华中科技大学公共管理学院,武汉430074)

图像理解技术可用于军事目标识别、自然灾害监测、土地资源管理、医学图像辅助诊断、无人自动驾驶等场景中,涉及国防安全、社会治理、医疗民生、工业互联网等多个核心领域,代表着未来科技发展方向,是当下各国争夺技术制高点的重要战场。2018年,美国商务部发布对国家安全至关重要的特定新兴技术清单,图像理解技术作为人工智能与机器学习领域的核心技术被纳入在内,是美国对中国封锁的重要出口管制技术之一[1]。

中国政府十分重视图像理解技术的发展。2017年,国务院印发《新一代人工智能发展规划》,进一步明确加快以图像理解为代表的计算机视觉为重点智能技术发展;2018年,发改委发文《我国将加快打造一批人工智能产业集群》;2020年3月,工信部办公厅印发《中小企业数字化赋能专项行动方案》;2020年7月,网信办等五部门印发《国家新一代人工智能标准体系建设指南》,为人工智能应用提供领域技术支撑。

对相关文献进行整理与概括,发现目前全球图像理解技术发展很快,并已取得较多高水平的研究成果。其中,中国、美国、日本、韩国、德国在图像理解技术领域发展水平较高,五国的图像理解专利申请量位居全球前五,合计占全球总量的87%,代表着图像理解技术的研究方向。

1 数据来源与研究方法

本文数据来源于德温特全球专利数据库(DerwentWorld Patents Index,DII)。清华大学章毓晋教授在其系列综述《中国图像工程》中将图像理解技术划分为五个子技术——图像匹配与融合技术、时空技术、场景恢复技术、图像感知和解释技术、基于内容的图像和视频检索技术[2]。这里以图像理解技术及其五种子技术为关键词,以“image understanding”“imagematching and fusion”“space-time technology”“scene recovery”“image perception and interpretation”“content-based image and visual information retrieval”等作为关键词在DII数据库内综合检索,检索期限为1963—2019年。经过数据清洗与整理,发现专利共7686条。其中,中国、美国、日本、韩国、德国专利数量共计6664条,超过总量的80%,表明这些国家是图像理解技术的研究中心。

专利文献中包含大量的科技、经济、法律和战略信息,是科技创新的重要推动力。本文采取专利计量学方法,以专利数量、被引频次、高被引专利为主要衡量指标,分析各国在该领域的专利技术整体特征。进一步采用技术竞争力模型,从技术影响指数、专利分享指数与技术强度三个指标评估中美日韩德技术竞争力,得出中国在图像理解领域的国际发展水平及其发展瓶颈,为中国图像理解技术的发展提供战略支持。

2 图像理解技术专利计量分析

作为图像理解技术的发源地,美国掌握着图像理解领域的核心技术。1963年麻省理工学院Roberts成功识别多面体[3],被认为是图像理解技术的里程碑。1974年哈佛大学PaulWerbos提出反向传播算法,后经进一步发展,现已成为该研究领域的主要算法[4]。1980年美国库尔特电子公司率先开展图像感知和解释技术研究,设计了计算机化图像解释系统,以识别图像中各种对象的延续、创建、终止和合并条件。1986年麻省理工学院John Canny提出边缘检测算法,准确地定位了边缘的位置[5]。1993年,IBM公司开发了全球第一个基于内容的图像检索系统QBIC,按颜色、纹理和形状,实现通过内容查询图像,这是基于内容的图像和视频检索技术最早期应用[6]。2006年麻省理工学院Geoffrey E等人提出的卷积神经网络已成为图像理解、机器学习等领域的主流算法[7]。2012年,在斯坦福大学主办的代表着图像领域最高水平的ILSVRC竞赛上,使用AlexNet模型的Hinton团队显著降低了物品分类错误率,比以往降低8个百分点,引发学术界与产业界的巨大关注。2014年,Facebook公司基于Deepface的项目达到了97%的人脸识别准确率,降低状态误差27%以上,接近人类辨识水平[8]。2016年,Google公司基于深度学习的工作原理开发了AlphaGo,在围棋类游戏中以4:1击败世界围棋冠军李世石,成为第一个战胜围棋世界冠军的人工智能机器人。2019年美国高通公司在场景恢复技术研究领域取得突破,申请了虚拟现实系统的渲染技术相关专利,该技术基于二维或三维模型创建图像,从而在显示屏上准确高效地生成对象和角色,可在虚拟现实系统的渲染设备中执行频率同步和相位校正。由美国图像理解技术发展脉络可知,几乎每次重大的技术突破均发生于美国,美国引领着图像理解技术的发展方向。

日本紧随美国步伐,是全球较早发展图像理解技术的国家之一。1979年,Nobuyuki Otsu提出有名的大津算法,该算法基于直方图实现简单图像的分割,这是最早期的图像分割技术[9]。1980年K Fukushima类比生物视觉皮层原理提出具有网络深度学习算法的“neocognitron”,这一研究被认为是深度学习的先驱[10]。1996年,松下电器产业株式会社开展图像匹配与融合技术研究,申请了“立体图像匹配方法”专利,用立体摄像机检测图像拾取空间位置信息。1998年,冈山大学N Kondo将图像理解视觉理论应用到农场采摘机器人中,使用图像采集卡组成的视觉系统来识别农场果实,顺利绕过障碍物完成了采摘任务[11]。2002年,弘前大学T Takahashi基于凝视和清晰的概念合成图像,类似于人类视觉系统,建立了一种双目立体视觉三维测量方法[12]。2009年,富士胶片公司根据图像匹配与融合技术设计了诊断阅读支持设备,可在较低处理能力的廉价便携式终端中实现平滑显示医学图像[13]。2012年,日本电气股份有限公司开发了图像匹配系统,以识别和搜索图像信息中包含的对象。2019年,SECOM公司研制人脸图像匹配设备,通过计算检测对象的相似度以检测特定人员。通过在学术界和产业界的双向发力,日本现已培育一批以三菱电机、松下电器、富士、佳能为代表的掌握图像理解核心技术的企业,在世界范围内具有较高影响力。

相比于美日两国在图像理解技术理论及产业应用的协同发展,韩国则更关注图像理解技术在各行业的应用。2005年,韩国农机学会将计算机与机器人互联,进行了采收实验,基于图像理解技术原理成功研制了农业采摘机器人[14]。2007年,PARK S等人利用图像感知技术发明火力发电厂火灾传感器,用于检测火灾事故中产生的火焰和紫外线,并提示灭火。2012年,KIM K S将图像判读装置与车辆号码识别系统连接,开发了停车控制系统。2016年,首尔大学YOO B C发明医用扫描器,可提高X射线图像的判读精度,从而减少X射线的重拍次数,避免检查员的疲劳,提高医疗服务质量。2018年,SRD KOREA设计了基于图像传感的液体型除雪剂喷洒系统,适用于冬季各种场所。通过深度挖掘图像理解技术在各个场景中的应用,韩国企业在该领域占据全球重要市场份额,具有较强竞争力。

德国在图像理解技术领域的发展较为成熟。早在1997年,西门子公司即发明了使用计算机执行图像处理和图像解释的装置。2002年,Gerber R等人在基于内容的视频检索技术上取得突破,使用自然语言量词生成全面的行为概念描述,主要应用于交通和运动领域[15]。2005年,西门子公司将在计算机输入侧接收的2D数据集分配给N维数据集,以简单安全的方式将体内检测到的2D检测结果与手术前检测的3D检测结果进行图像融合,拓展了图像理解技术在医疗领域的应用。2008年,Fraunhofer Institute引入情感语义分析图像场景及内容中的情感,按照人的认知形式理解图像高层语义[16]。2010年,杜伊斯堡-埃森大学A Aker提出新的方法建立自然语言标注生成系统,可将静态图像描述与自然文本语言结合[17]。2017年,FotoFinder公司发明了用于评估人体皮肤的全身图像采集和图像处理系统,可用于早日发现人体皮肤病变。总体上看,经过多年的技术积累,德国在图像理解技术上取得较多突破,尤其是在医疗和交通领域。

中国在图像理解技术上虽起步较晚,但发展迅猛,近年来逐渐迈入图像理解研究的第一梯队。2007年,南京大学周志华团队提出著名的MLKNN算法,并在2009年进一步发展提出BP-MLL算法[18]。2010年,北京邮电大学 Benjamin Z Yao提出了一个图像解析到文本描述(I2T)框架,该框架基于图像理解的原理生成图像和视频内容的文本描述[19]。2015年,中国科学院自动化研究所提出了MLML学习框架,明确区分了噪声标签和缺失标签,用于图像标注和人脸面部动作单元识别[20]。2016年,公安部第三研究所选派的“搜神”(Trimps-Soushen)在ILSVRC大赛CLS-LOC项目中获得冠军,首次将目标定位的错误率降至8%以内。2018年,西安理工大学王伟斌提供了一种通过不同照片特征匹配来测量距离信息的方案,完成了复杂环境中目标轮廓的识别与定位实验。2019年,北京天达智能科技有限公司申请了“基于图像感应定位车辆方法”的专利,通过获取车辆所在道路的图像并对其进行特征识别,实现了车辆在自动驾驶导航电子地图中根据目标位置重新定位的功能。同年,腾讯科技(深圳)有限公司开发了智能模糊群组照片图像的技术,有效提高了图像合成速度,提升了图像融合效果。虽然近些年来中国在图像理解技术领域取得较多进展,但其研究主体大多集中在高校和科研院所,与产业脱节情况较为普遍,能够充分利用好国内图像理解技术发展的企业较少。

2.1 总体趋势分析

在DII数据库综合检索图像理解及其子技术,对图像理解技术专利申请趋势进行统计分析,绘制了图像理解技术专利申请数量趋势图(图1),中美日韩德图像理解专利数量对比图(图2),中美日韩德图像理解技术专利平均被引频次图(图3)。因2000年前图像理解各技术分支专利申请量较少,且与计算机视觉下图像理解技术内涵有所区别,故在图表中省略,不影响分析结果。

如图1所示,除基于内容的图像和视频检索技术发展较为缓慢外,其余四个子技术均随着年份呈现波动上升趋势,说明图像理解技术整体处于快速发展期。其中,图像匹配与融合技术发展态势最好,在所有年份中均处于绝对领先地位。一方面是因为图像匹配与融合技术与图像技术的低层、中层操作——图像处理和图像分析关系密切[21],另一方面是由于产业界对图像匹配与融合技术的需求量大,在产业界的广泛应用反向促进了图像匹配与融合技术的研发。

图1 图像理解技术专利申请数量趋势Fig.1 Trend of Patent Applications for Image Understanding Technology

基于内容的图像和视频检索技术专利申请量明显相对较少,其于2005年、2010年出现了专利申请的小高峰,主要得益于数字图像存档自动索引技术的深入发展以及在医学领域——炎症性肠病诊断上的重要进展。图像感知和解释、场景恢复、时空技术发展趋势大致保持一致,早期发展不够完善,专利申请量较少,近年来逐渐受到研究者的关注,专利申请量逐年增多。从发展趋势来看,以上四个子技术均处于起步阶段,随着技术的不断进步及应用场景的不断深化,可预见在未来将得到爆发式增长。

图2为中国、美国、日本、韩国、德国图像理解技术专利申请数量对比图。中国的图像理解技术专利申请数量排名第一,超过了美国、日本、韩国、德国的专利数量总和。这主要是因为中国在图像匹配与融合技术领域专利申请量巨大,带动了图像理解技术的总体申请量提升。除去图像匹配与融合技术,中国在其余四个子技术的申请总量落后于美国,但强于日韩德三国。

图2 中美日韩德图像理解技术专利数量对比Fig.2 Comparison of Patent Number of Image Understanding Technology among China,the United states,Japan,South Korea and Germany

图3为五国图像理解技术专利平均被引频次对比图。总体上看,美国在图像理解技术领域的专利平均被引次数为7.47,反映出美国的图像理解技术专利影响力较高;日本的专利平均被引次数为4.17,位居第二,德国与中国的专利平均被引次数相近,分别为2.49和2.14,韩国在五国中排名最后,每篇专利仅有1.55次引用。中国的专利平均被引次数与技术发达的美国、日本还有较大距离,说明中国图像理解技术整体层次较低,技术影响力较弱。进一步分析各个国家的强势技术,美国图像理解各子技术平均被引频次均排名靠前,其中时空技术、图像感知和解释技术排名第一,基于内容的图像和视频检索技术也排名靠前,仅落后于日本。值得注意的是,虽然日本、韩国在基于内容的图像和视频检索技术上的专利平均被引次数较高,但这主要是因为两国的技术申请基数小。同样地,德国在图像匹配与融合技术的平均被引上占据优势,但美国在该技术的专利申请量远超德国,且平均被引次数不低,美国实际上占据该技术龙头地位。中国缺乏强势技术,在其申请量最高的图像匹配与融合技术方面也落后于美日德三国,进一步说明了中国图像理解技术发展质量不高。

图3 中美日韩德图像理解技术专利平均被引频次Fig.3 Average Citation Frequency of China,the United States,Japan,South Korea and Germany Image Understanding Technology Patents

2.2 高被引专利分析

高被引专利是指某时间内研究区域中被引频次靠前的专利,专利的被引频次越高,对于该技术领域的影响力越大[22]。表1为图像理解各技术分支被引频次排名前5的专利,通过高被引专利分析,可以识别出普通专利和关键专利,为进一步研发提供理论和实践参考。

由表1可知,图像理解各技术分支的高被引专利绝大部分来自美国,这些专利技术被广泛借鉴,更具有影响力,代表着该技术领域的核心创新技术。在图像匹配与融合技术领域,斯坦福大学研究的“移动场景的实时结构化光范围扫描”提出了范围扫描方法,可在机器人或车辆上实现导航功能,已经成为实现人工智能的重要依托技术。在时空技术领域,三菱电机实验室公司研究的“静态和动态手势识别系统”,使用出现频率与空间方位角的一维或二维直方图来检测动态和静态手势,可用于电话会议、监视、基于内容的多媒体数据库访问等场景。场景恢复技术中,美国卫生及公共服务部申请的“分析医学图像和检测解剖结构表面异常的方法”中,利用计算机模型分析解剖曲面异常,可用于纠正实操中可能出现的问题。图像感知和解释技术中,马尔茨格雷戈里研制出一种“单一、视觉控制、无线眼镜收发器”的独立设备,该设备可允许用户在不显眼的情况下发送和接收无线信息(通常是短文本消息)并传输静态图像和视频,利用眼睛跟踪系统跟踪用户眼睛的运动和凝视,在一些特殊的场所有重要作用。基于内容的图像和视频检索技术中,宾州研究基金会提出了一种抗攻击、用户友好的图像验证码系统——基于映像的CAPTCHA生成系统,便于用户安全地输入验证码,该项技术已经进入市场,在用户信息安全领域发挥重要作用。

表1 图像理解各技术分支被引频次排名前5的专利1)Tab.1 Top 5 Patents Cited by Image Understanding Technology Branches1)

高被引专利的分析可以反映技术竞争格局,也可以反映当下图像理解技术的研究热点。从以上分析可以看出,美国掌握着图像理解领域的核心技术,且美国的技术研究与人们日常生活联系紧密,有很多专利已经转化为市场技术。中国作为后起之秀,需要在巩固已有规模优势的同时,提升技术质量,增强整体实力。

3 中美日韩德技术竞争力评价

中国、美国、日本、韩国、德国的技术规模不同,技术质量也有差异,不能单以专利申请数量或专利平均被引频次来评估其技术竞争力。因此需要综合考虑专利申请数量以及专利被引数量的双重影响,根据竞争力评价模型,分析不同国家的技术影响指数、专利分享指数与技术强度。

3.1 技术竞争力评价模型

引用 Dora Marinova和 Michael McAleer在2002年建立的技术竞争力评价模型[23],该模型包含以下指标体系:

1)当前影响指数 CII(Current Impact Index):

2)专利分享指数 PS(Patent Share):

该指标用于测算某国家/地区在某技术上的全球影响力。

3)技术强度 TS(Technological Strength):

该指标由CII引申而来,该指标可用于评估国家/地区专利组合的实力。

3.2 结果与分析

根据基础数据可以测算中国、美国、日本、韩国、德国的当前影响指数CII指标、专利分享指数PS指标与技术强度TS指标,以此进行技术竞争力分析。

表2显示中国、美国、日本、韩国、德国的CII、PS及TS值,可以看出在图像匹配与融合技术领域,中国、美国、日本、韩国、德国技术强度依次递减,中国技术强度排名第一,但这主要得益于中国专利申请量大,Pij指数高,同时中国的PS指数大幅领先于其他四国;但在CII指数上,中国仅有0.75,排在德国(2.73)、美国(1.91)、日本(0.87)后,反映出中国图像匹配与融合专利技术多而不强的特征。此外,德国在该技术领域专利申请量较少,但技术影响指数较高,其影响力不可忽视。

表2 中美日韩德的CII、PS及TS值1)Tab.2 CII,PS and TS values of China,the United States,Japan,South Korea and Germany1)

除图像匹配与融合技术外的四个子技术,美国的技术强度均以压倒性优势排名第一,比其他国家的技术强度高了一个数量级。在图像感知和解释技术中,中国与美国的专利申请量接近,专利分享指数PS值相差不大,但中国影响力指标CII与美国差距较大,与之相对应,技术强度仅为美国的八分之一。这一问题在时空技术领域的中美比较中体现更为明显,中国在该领域的专利分享指数PS值为0.33,专利申请量大幅领先于德美日韩。但与此同时,技术影响力指标仅有0.4,而美国技术影响力指数则有5.34,使得美国在该领域依旧取得压倒性优势。此外,虽然日韩德三国在以上四个技术领域的技术强度落后于美国,但也发展各自的特色。譬如,日本在场景恢复技术领域CII大于期待值1.00,远超中韩德三国;韩国的图像感知和解释技术PS值为0.21,相比其他子技术份额较大;德国在时空技术上独树一帜,CII与PS值均在上游水平,在五国中具有较强竞争力。

在整个图像理解技术领域,中国技术强度以微弱优势超过美国,排名第一,且中美两国以较大优势领先于日韩德三国。但中国的优势主要体现在专利申请数量上,其专利分享指数PS值已经大于0.5,说明中国在图像理解技术领域贡献了50%以上的专利量。从技术影响指数CII值上来看,仅美国、日本CII指数大于期望值1.00,而中韩德三国CII指数均低于期望值,中国的CII指数仅为0.63,反映了中国图像理解技术对现行专利的影响不足,专利质量有待提高。

4 结论与政策启示

研究表明,中国在专利申请数量上遥遥领先,但在专利平均被引频次上仅有2.14,远低于美国和日本的7.47与4.17;各子技术的高被引专利几乎全部来源于美国。从技术强度TS看,中国以微弱优势领先于美国成为第一,其专利分享指数PS值超过0.5,贡献了超过50%的专利量;但其技术影响指数CII值仅为0.63,低于期待值1.00,远低于美国、日本的2.19和1.22。以上结果体现了中国的图像理解技术专利多而不强的特征,在专利质量上与美国、日本等强国仍存在较大差距。此外,日韩德三国虽然在整体技术强度上落后于中美,但也在图像理解某一子技术上占据优势地位。日本在场景恢复技术领域CII值大于期待值1.00,远超中韩德三国;韩国的图像感知和解释技术PS值为0.21,相比其他子技术份额较大;德国在时空技术上独树一帜,CII与PS值均在上游水平,在五国中具有较强竞争力。

可从四个方面推动中国图像理解技术的发展,提升国际竞争力。

1)推进图像理解技术研究向纵深发展。积极培育本土的图像理解技术领域人才,高校应适当调整学科配置,开设图像理解技术系列课程,为我国提供更多的图像理解技术人才储备,同时大力支持从事图像理解研究的相关科研工作者,鼓励其加强底层基础理论研究。进一步推进图像理解领域的“产-学-研”合作,由高校或研究院所提供人才及高新技术,企业提供技术推广及场景应用,同时发挥高校及企业的特长,以社会需求为导向强化图像理解技术在现实生活的应用,推动中国图像理解技术朝高水平、高质量领域迈进。

2)推动图像理解技术领域各子技术的均衡发展。一方面,科技部或基金委等相关部门应有意识地引导高校或研究院所往其余四个图像理解子技术方向进行课题研究,提升其资助比例,鼓励科研工作者发表高水平文章或申请有应用前景的发明专利;另一方面,需深入挖掘各子技术在市场中的应用场景,通过市场的积极反馈不断敦促技术进步,形成一个新技术与新市场互为补充相互提升的正循环。

3)加强图像理解技术领域国际合作。密切关注国内外图像理解技术领域的发展态势,追踪该领域重要团队的研究进展,重视关键技术的突破,鼓励国内科研工作者与国外团队同台竞技。同时,与技术发达的美国、日本、韩国、德国开展广泛交流合作,譬如定期举办线上或线下的国际学术会议,与国外相关研究机构达成长期合作关系,鼓励国内学生公派到海外进行交流等。通过广泛的国际合作缩短与发达国家的技术差距,进而提升中国图像理解技术国际竞争力。

4)创新政府服务体系,营造技术发展良好环境。创新政府服务体系,为图像理解领域科技型企业发展提供有针对性的高企培育与辅导,积极培育壮大图像技术全产业链的龙头企业,包括上游的图像识别与分析、下游的互联网公司等,精准扶持引导重点企业的发展。

致谢 中国图像图形学学会理事、华中科技大学电子信息与通信学院刘文予教授对本文进行了专业技术审定,谨此致谢!

猜你喜欢

图像匹配专利申请专利
从一件无效宣告请求案谈专利申请过程中的几点启示和建议
专利
基于多特征融合的图像匹配研究
图像匹配及其应用
唑啉草酯中国专利申请分析
专利文摘
专利申请三步曲
药品专利申请和保护策略简介
相似性测度函数分析及其在图像匹配中的应用研究
基于降落图像匹配的嫦娥三号着陆点位置评估