文字识别技术在人事档案工作中应用的前景研究
2020-10-15胡晋宜
胡晋宜
【摘 要】论文通过对文字识别技术,特别是中文手写识别技术的分析和文字识别技术的应用研究,及档案工作的回顾分析,探索并提出文字识别技术在档案工作中的应用场景,为数字化时代的档案工作提供思路。
【Abstract】Through the analysis of character recognition technology, especially the Chinese handwriting recognition technology, the research of the application of character recognition technology, and the retrospective analysis of archives work, this paper explores and puts forward the application scenarios of character recognition technology in the archives work, and provides ideas for the archives work in the digital era.
【关键词】文字识别;档案管理;应用场景
【Keywords】character recognition; archives management; application scenarios
【中图分类号】G270.7 【文献标志码】A 【文章编号】1673-1069(2020)09-0180-02
1 引言
数据采集是所有工作的起点,并决定了解决效果的上限。利用文字识别技术,目前大量的文档采集从专有设备转向了普通手机,数据采集者也从专业办公人员转向普通用户。
2 文字识别技术现状分析
计算机文字识别,又名光学字符识别、OCR识别,是利用光学技术和电子信息技术把印在或写在纸上的文字提取出来,并转换成一种计算机能够接受、人又可以理解的形式。OCR技术是实现文字高速输入的一项核心技术。
2.1 文字识别技术的发展
2.1.1 西文识别技术的发展
在OCR技术中,印刷体文字识别是开展最早、技术上最为成熟的一个。早在20世纪20年代末期德国科学家最早取得了光学字符识别的专利。西方国家为了将大量报章杂志、文件材料和票据表格等纸质材料输入计算机进行信息处理,从20世纪50年代就开始了西文文字识别技术的研究。随着信息技术的飞速发展与研究人员的不断探索和完善,西文文字识别技术现已逐渐渗透于各行各业。
2.1.2 中文识别技术的发展
第一,中文印刷体识别技术的发展。
与印刷体西文文字识别相比,汉字的印刷体识别技术的研究是在字母和数字的印刷体识别基础上发展起来的,发源于20世纪60年代。60年代中期,BIM公司的工作人员发表了首篇关于印刷体汉字识别的论文,在这篇论文中他们利用简单的模板匹配法,识别了一千个印刷体汉字。从70年代以来,日本研究人员在汉字识别方面做了许多探索和发明,其中比较著名的系统有70年代东芝综合研究所研制的可以识别两千个独立印刷体汉字的识别系统;80年代早期,日本武藏野电气研究所研制的可以识别两千三百个連续汉字的识别系统,代表了当时汉文OCR识别的最高水平。此外,日本的松下、富士等公司也有其研制的印刷体汉字识别系统。这些系统在方法上,大都采用基于K-L数字转换的计算方法,使用了大量专用设备,甚至有的相当于大型机,价格不菲,所以并没有得到普及和推广。
印刷体的中文识别自20世纪80年代中期规模发展以来,清华大学、中科院、沈阳自动化研究所等一众单位分别研制并开发出了可以量产的印刷体中文OCR识别系统。尤其是由清华电子工程系研制的清华文字识别产品和由汉王开发的尚书文字识别产品,它们占据着OCR技术的领先地位,并拥有最多的OCR客户,代表着印刷体中文OCR技术的未来发展趋势。目前,印刷体中文识别技术已经从简单的文字识别逐渐发展到了表格的自动识别、自动输入的研究阶段,图片文字混合、各种语言混合下的内容提取、语义理解,各种卡片、票据的识别和历史文献的识别等都逐渐开展起来。多种相关的识别系统如雨后春笋般应运而生,如紫光文通推出的名片识别系统和慧视屏幕文字图像识别系统等。这些新的识别系统的出现,标志着印刷体中文识别技术的应用领域得到了扩展。
第二,中文手写识别技术的发展。
中文手写识别由于信息的获取形式不同,可以划分为非在线中文手写识别和在线中文手写识别两种。在线中文手写识别所处理的手写体汉字是书写者通过物理设备在线输入获取的文字信号,笔画的顺序通过计时器采样实时输入计算机中。非在线中文手写识别所处理的手写汉字是通过扫描设备或手机摄像头等图片抓取设备采集到的手写汉字图片。
近年来,百度OCR技术在检测、识别和端到端三个核心技术领域多次取得并保持了世界第一的排名,具备较明显的领先优势。腾讯集团的数平精准推荐团队研发了一种适用于各个角度汉字的点对点提取方法,能够有效解决文字尺度不一、形态万千和检测器对标准过于敏感等问题,大幅提高了测试步骤的准确度。
2.2 文字识别技术的应用
目前,印刷体文字识别技术已经达到完全实用的程度,即使对像素不高的印刷体汉字识别率也达到90%以上,使用场景更加广泛,能达到各种不同用户的操作需求,包括:①证件OCR识别:证件OCR识别最开始是基于PC的,近几年开始向手机端发展,主要有安卓、苹果平台的SDK,目前成熟的有驾驶证识别、行驶证识别、身份证识别、护照识别等。②文档OCR识别:这类技术主要是在扫描仪的基础上,目前识别率也非常高。手机端的文档OCR识别,近几年也有不少成功的应用案例。③票据类OCR识别:这项技术也称要素识别的文字识别技术,最初运用于金融业,主要在银行的后台中有非常成功的应用案例。
3 人事档案工作现状分析
目前,市场上有各种可计算的智能化人事信息系统[1],然而这些系统推广起来难度都很大,这其中一个原因是各个单位工作人手不足无法将庞大的信息数字化,所以初始化的工作大多数仍然依托于各个软件开发公司,大多数单位的人事和业务工作本身就是分开设科、分开办公,在互不了解工作流程的情况下很容易将重要信息遗漏。没有将图像识别技术与信息系统融合的信息系统只能是个伪信息系统,人们只不过把原本在Excel里的工作移到了信息系統里,不但没有减少反而增加了工作量。
将文字识别技术融入人事档案领域,将带来一次智能化的飞跃。当目标系统识别了足够完整的档案数据时,根据一定的算法,机器完全可以替代人工。
4 文字识别技术的应用场景初探
4.1 电子档案自动排序
根据最新的《干部人事档案工作条例》及中共组织部工作规划[2,3],干部人事档案分为十大类,其中,又可以分为各个次级类目,档案根据所属类目和时间顺序依次排列。应用了文字识别技术的系统识别到标题中的关键词时,系统可以自动判断该页内容的所属类目,并根据生成时间将电子档案依照顺序排列起来。工作人员将未经整理的档案内容通过扫描或拍照输入系统内部,一份排列完整、自带目录的电子档案随即生成,并且随时可供打印成档案副本。
4.2 干部任免、职称晋升自动更新
干部任免工作是各单位人事组织部门的重要工作,应用了文字识别技术的系统识别到任免文号、时间和任职情况后,自动更新干部的职务、单位、任职时间等信息。在职称晋升时,也可以自动识别并更新职称级别和专业技术职务。
4.3 名册报表自动输出
根据文字识别技术输入的电子档案内容,存储在系统内部的数据库中,该系统除了存储档案并实现一系列人事信息的抓取工作外,还可以根据档案内容生成名册、统计人员情况并形成各种统计报表,供决策者和人力资源工作者研究和使用。这类功能在以往的人事系统内非常常见,但基于文字识别技术的系统有效地解决了输入端的问题,大大减少了必要工作的时间和降低了工作的难度。
4.4 工资核定自动对接
除此之外,该数据库还可以内置事业单位工资算法,根据学历、任免和职称等内容计算出劳动者工资,减少计算的差错率,并减少手动查档的步骤,大大提升工作效率。与财务系统对接后,工资核定及发放将完全流程化、机械化、制度化[4]。
本文认为未来工作人员只需要拍一张照片,系统就能迅速把有效信息自动更新到数据库里,根据系统就能够迅速地将准确又全面的个人信息展现出来,为单位和学校提供更加精准定位的人才。
【参考文献】
【1】畅育超.人事档案管理系统的设计与实现[J].电脑编程技巧与维护,2013(3):43-49.
【2】组通字〔2012〕4号.2011-2015年全国组织系统信息化工作规划[Z].
【3】中组发〔2014〕9号.关于进一步从严管理干部档案的通知[Z].
【4】李红菊.论高校人事档案信息化的必要性——以事业单位养老保险业务为例[J].长江丛刊,2018(23):221.