手写识别专利技术综述
2018-10-25王佩文
王佩文
(国家知识产权局专利局专利审查协作四川中心,成都 610213)
0 引言
计算机领域的手写识别技术,最早源于上个世纪的中期。随着计算机技术的发展,手写识别技术也随着手写板硬件技术的不断革新、计算机技术的不断自动化、智能化发展以及计算机的识别模式、识别领域理论和方法的不断深入和完善,这项技术也出现了飞跃。本文选择手写识别技术作为主要研究内容,结合手写识别技术的演进路线与专利申请情况,对手写识别技术的重点技术分支、重要专利申请人以及重要技术方案进行分析,并结合专利审查实践探讨针对具体专利审查工作的思路与方法。
1 手写识别技术概览
手写识别,简单地说就是用计算机对符号进行自动识别,将其对应成字母、数字、汉字或其他语言中字符的过程。
根据识别对象不同,手写识别可以分为英文识别、汉字识别和数字识别等。根据采用的输入设备不同,手写识别还可以分为在线识别和离线识别。另外,根据对手写输入者的要求来分,手写识别又可分为限制性和非限制性(自由手写体)的手写体文字识别。
本文主要研究按照识别对象划分的技术分支,如图1所示。
图1 手写识别技术分支
(1)汉字识别:汉字识别的方法基本上分为统计识别[1]、结构识别[2]以及神经网络识别方法等几大类。大量的联机手写识别系统采用的都是结构识别方法。
汉字识别的典型结构框图如图2所示。
图2 汉字手写识别的典型结构框图
(2)英文识别:如果从识别的内容来看,手写识别技术可以分为两种类型:单字识别与字符串识别[3]。在英文手写识别当中,单字指的就是一个独立的字母,而字符串指是一个单词甚至是一整句话。
(3)数字识别:手写数字识别是光学字符识别技术的一个分支,它研究的对象是:如何利用电子计算机自动辨认人手写在纸上的阿拉伯数字。
2 手写识别技术发展分析
2.1 专利技术发展演进
手写识别,作为计算机模拟人类智能的一种形式,其发展历史可以分为五个阶段:
(1)早期发展从上世纪50年代至1980年;
(2)发展中期从1980年至1992年;
(3)高速发展阶段始于1992年;
(4)平稳发展阶段始于1998年,从这时开始,手写识别进入了逐渐成熟并广泛应用的阶段,有很多完善性的创新,也有某些重大突破,例如多点触控技术的出现;
(5)第二次高速发展阶段始于2010年,随着触控技术的高速发展以及中国对汉字识别的大力研究,手写识别进入了第二次高速发展期,这一阶段对汉字识别有很多创新性研究,例如多字符连续输入以及非完整性识别技术等。
多年来,手写识别技术经过不断的发展,各技术分支都有了长足的发展和进步。通过对各技术分支下的专利文献进行统计、分析及梳理,可以得到如下图3所示的技术发展演进路线图。
图3 手写识别技术演进路线
2.2 手写识别技术功效分析
手写识别技术各功效的专利申请量如图4所示。
图4 手写识别技术各功效的专利申请量
3 手写识别技术专利分析
3.1 全球专利申请趋势分析
图5是手写识别技术全球专利申请量随年份变化的趋势图,从图中可以看出,手写识别技术的专利申请量,在1992年之前较少,处于起步阶段;在1992年开始进入了高速发展期,一直持续到1997年,这主要是因为在此期间,日本在手写识别方面取得了突破性进展,美国也产生了很多核心专利;之后专利申请量有所下降,但继续保持了平稳发展;而2010年之后,手写识别技术迎来了第二次高速发展期,这其中有触摸技术高速发展的原因,更重要的是中国在汉字识别方面所取得的进展。
图5手写识别技术全球专利申请量随年份变化趋势
3.2 技术原创国分析
图6 是手写识别技术原创国申请量对比,从图中可以看出主要的技术原创国依次为日本、中国、美国、韩国、台湾、欧洲等,其中日本、中国、美国是申请量最大的几个国家,分别超过了900件、700件、500件。
图6手写识别技术原创国申请量对比
3.3 主要技术原创国专利申请趋势分析
图7 是手写识别主要技术原创国申请趋势图,从图中可以看出从1992-1997年,日本在手写识别技术领域有着飞速发展,而从1992年开始,美国在手写识别技术领域也进入了稳步发展期。相比之下,我国手写识别技术发展较晚,主要从2010年开始进入了高速发展期。
图7手写识别主要技术原创国申请趋势
3.4 技术目标国分析
图8 是手写识别技术目标国申请量对比,从图中可以看出手写识别技术主要布局在日本、中国、美国、欧洲、韩国、德国、台湾等国家和地区,这也与这些国家的经济发展状况以及科研能力相符,其中日本、中国、美国是作为目标国申请量最大的几个国家,分别达到了 1000、900、800 件。
图8手写识别技术目标国申请量对比
3.5 全球重要申请人分布
图9 展示了手写识别技术全球重要申请人及申请量,从图中可以看出,日本的多家大型企业占据了大量的申请份额,这于日本在手写识别技术领域处于世界一流水平相符。同时,美国的微软公司和IBM公司申请量均居全球前三,这也与其在业界的龙头地位相符合。此外,手写识别技术领域的重要申请人均为大型企业,这体现了这些企业雄厚的研发实力。而在全球前十的申请人中并未出现中国的企业,这也与中国在手写识别技术领域起步相对较晚、缺乏龙头企业、技术分布较为松散不够集中有关。
图9手写识别技术全球重要申请人及申请量
3.6 国内重要申请人分布
图10 展示了手写识别技术国内重要申请人及申请量,从图中可以看出,上海华精、宇龙科技、汉王科技是国内手写识别技术领域的领军企业,并且与全球主要申请人的差距在逐步缩小,这与近几年来我国在汉字手写识别方面高速发展相符。排在之后的还有华南理工大学、苏州大学,并且申请量也较为可观,这说明了我国的手写识别技术在产学研并重发展路线的指导下,已经逐步走出了实验室研究阶段,开始进入产业链下游的企业研发阶段,为本领域下一步的技术成果转化打下了坚实的基础。
图10 手写识别技术国内重要申请人及申请量
4 典型技术方案分析
4.1 汉字手写识别典型技术方案
CN102314616是国内重要申请人汉王科技股份有限公司的一篇专利申请,公开于2012年1月11日。目前的手写识别方法按照先对字符进行过切分,然后根据几何、识别和语义的信息进行合并,查找最优的合并路径进行识别,这样用于分析判断的几何模型相对固化,体现不出用户的书写习惯,降低了识别效果。
本发明是为了解决这一问题所提出的。技术方案提供了一种自适应脱机手写识别方法,包括如下步骤:
步骤1:识别并过切分文本中的样本文字,得到过切分块,计算过切分块中的最优合并路径,并得到各文本行中最优合并路径上字块的字块评价。字块评价包括:字块对应的几何评价、语义评价和识别评价。从整篇文档中选取一行或者多行文字作为样本文字进行识别,对样本文字进行过切分,对得到的过切分块中前k条最优合并路径,并且记录各路径上每个字块对应的几何评价、语义评价和识别评价。字块的几何评价表示某个字块符合几何模型的程度,通过对字块的各种几何特征加权得到。几何模型表示将字块判断为字符在几何上应该具备的特点,由一组脱机手写文字的几何特征组成,通常包括过切分块中字块的宽、字块的宽高比、字块的内间距、字块的外间距,等等,每组几何特征包含一个阈值Thr和几何特征对应的权重W。
步骤2:根据样本文字中各文本行中字块的字块评价分别评估文本行对应的几何-识别语义背离度和几何模型的离散程度,进而对文本行对应的几何模型进行调整,根据调整后的几何模型对步骤1识别出的字符进行调整。
本发明自适应脱机手写识别方法和装置的优点在于:根据样本文字的字块评价,逐步调整文字对应几何模型,使对应的几何特征得到不断地改善,达到充分表达书写人的书写习惯,经过调整后的几何模型降低了几何特征的影响,保证了几何模型能够实时的调整,符合图像中字符的书写特点,从而达到提高识别效果的目的。
4.2 英文手写识别典型技术方案
US005600735是摩托罗拉公司的专利申请,公开于1997年2月4日,是一篇核心专利。
技术方案提供了一种识别手写输入的方法,图11是本发明的优选实施例的显示器的示例图,图12是本发明的优选实施例的操作流程图。
图11 本发明的优选实施例的显示器的示例图
4.3 数字识别典型技术方案
CN106502390是国内重要申请人华南理工大学的一篇专利申请,公开于2017年3月15日。随着社会的不断发展和电子设备的不断普及,人机之间的交互变得越来越频繁。人们也一直在不断努力创造一种更加自然、人性化的交互系统。在对机器的输入方面,传统的交互设备如:鼠标、键盘、手柄等,又或者是比较新型的交互设备如:数据手套、全身运动捕捉系统等穿戴设备,都会给人的行为附加上一些物理条件的限制,一定程度上束缚了人的自由,增加人的负担,而且这些交互方式均不是人们日常活动中以语言、动作为主的交互方式。在机器对人的反馈方面,比较传统的方式如:在软件交互界面弹出一些图片、对话框,播放一段音乐或人声,也就仅能通过视觉、听觉与人进行交互,类人型机器人和智能语音助理,它们与人的交互也只是通过识别一些比较僵硬的静态肢体动作或简单的语言来进行,由此可见,目前智能体的外形及交互方式比较呆板单一,还没有达到能像人与人交互同时具有动作和语音的程度。
图12 本发明的优选实施例的操作流程图
本发明的目的是针对上述现有技术的不足,提供了一种基于动态3D手写数字识别的虚拟人交互系统,包括手势与数字识别模块、中央服务器模块与虚拟人控制模块,所述手势与数字识别模块用于提取手部区间,识别手势及手写轨迹;所述中央服务器模块用于连接手势与数字识别模块和虚拟人控制模块,实现数据的采集,传输和命令发送;所述虚拟人控制模块为在实际中与人进行互动的载体,展示出虚拟人,根据从中央服务器模块接受来的命令,对虚拟人进行动作、语言、表情等操控,实现与人的交互。
图13为本发明的整体系统框图,图14为本发明的交互示意图,本发明与现有技术相比,具有如下优点和有益效果:
(1)现有技术大多数只将Kinect运用于人体静态单一姿势和动作的捕捉与识别中,本发明运用Kinect捕捉人体手部连续的手写动作,可识别动态3D手写的数字及手势,达到生动灵活有趣的人机交互效果;
(2)本发明提取手部区域图像,采用的是人在空中书写时手为身体与Kinect距离值最小部分的原理,相比于普遍的基于简单肤色及分辨轮廓大小的提取方法,精度更高,鲁棒性更好;
(3)本发明采用手部外轮廓线距离手心峰值点数目原理,可实现实时的手部手势检测,达到迅速开始及结束手写的效果;
(4)本发明对手写轨迹的处理,采用基于轨迹点集区域面积调整笔画粗细的方法,实现手写轨迹大小归一化,提高手写轨迹的识别率;
(5)本发明采用DWKNN算法进行手写轨迹的识别,相比传统的KNN,识别准确率有所提高;
(6)本发明基于RPC-Thrift架构,搭建了中央服务器模块,实现了不同程序模块间的通信;
(7)本发明以虚拟人智能体作为与人的交互媒介,通过对虚拟人的动作、语言、表情等操控,实现堪比人与人交互的人机交互过程。
图13 本发明的整体系统框图
图14 本发明的交互示意图
5 结语
本文通过对手写识别领域的技术原理、技术演进、专利申请情况以及典型技术方案进行了介绍及分析,经过几十年的发展,手写识别的技术已经日趋成熟,日本、美国作为本领域起步较早的专利大国,拥有着大量关键的专利技术,并已成功进行商用,而在经济飞速发展的背景下,我国在手写识别领域也逐渐开始加大技术研发及专利布局技术,从数量上看,我国在手写识别领域的专利保有量已跃居世界第二,也产生了一定的经济效益,但距离手写识别的技术强国还有一段路要走。