OCR技术在中央银行会计核算数据集中系统应用初探
2014-04-16李洋
一、ACS业务处理与OCR技术简介
(一)ACS业务处理简介
ACS(中央银行会计核算数据集中系统)在中央银行会计集中核算系统(ABS)的基础上,对央行会计核算业务处理进行了流程再造,采取“分散受理、集中处理”的模式,处理流程整体上是“凭证扫描切片,集中并发处理,流程授权监控,后台实时记账”。ACS柜台发起业务是由各级营业部门生成影像信息,全国两个业务处理中心集中业务录入,系统完成账务记载的处理流程,提高业务处理集中度和效率。但由于业务处理中心集中人工录入,无法实现凭证影像输入系统后完全意义上的自动化处理,既耗费大量的人力物力,也不利于ACS业务处理效率提升。
(二)OCR技术简介
OCR(光学字符识别技术)技术通俗讲就是让计算机“认字”,其原理是将影像信息输入计算机,通过OCR系统影像前处理,包括影响正规化、去除噪声、影像矫正等,将含有文字的图像按字切割成可独立识别的单元,然后运用各种算法分析每个图像单元中文字的形态特征,通过比对标准特征数据库,判断识别出相应字符,按通用格式输出保存在文本文件中。
在ACS系统中引入OCR技术,可实现“无干预”交易驱动并发处理一站到底,具备较好的应用前景。
二、OCR银行系统的应用实践
近年来,工商银行、建设银行、交通银行、华夏银行以及某些农村商业银行等均将OCR引入业务处理系统,并根据银行系统的业务处理特点进行流程改进,在提高自动化程度的同时,也扩展了业务范围,完善了管理机制。以国内较早应用OCR的银行——中国工商银行哈尔滨分行为例,该行的会计、储蓄综合业务影像缩微系统,通过OCR技术实现了自动识别凭证影像,并根据凭证的类型进行自动处理。系统投产后,减轻了操作员的劳动强度,提高了工作效率。
三、ACS引入OCR技术的必要性
(一)OCR技术将大幅提高“录入”效率
根据目前ACS人工录入模式,网点扫描上传的凭证影像经过切片拆分(部分影像无需拆分)后由专业录入人员录入,每一项要素至少经过两人录入,两人录入要素比对一致后方进入系统校验等自动处理环节。这种人工录入模式因节点多、影像申领慢、易受人为延误影响而效率较低。根据ACS日常业务凭证,假定一张凭证可拆分为10个切片,每个切片6个字,按照国际打字速度评级标准,专业人员每分钟仅能输入150—240个字,按照240个字/分钟,一个人录完一张凭证需要15秒;OCR每分钟识别6000个字,一张凭证转换需要0.01秒。两者的处理效率高低显而易见。OCR技术与ACS业务的有机结合,将大幅提升ACS系统的处理效率和精确度,增强ACS的业务承载能力和自动化水平。
(二)OCR技术将大幅降低经济成本
OCR技术代替人工录入能够大幅节约人工成本,减轻内控管理的压力,规避一定程度的道德风险。一是录入人员报酬和机器设备投入较大。ACS在全国推广上线后,业务处理中心将会有近200名录入人员需求,按照每人月均2000元投入,每年仅人工费用投入为480万元;同时还应配备相应规模的录入设备。二是为保证录入人员的最优配置,并且考虑到录入工作机械重复、人员流动性较大的因素,业务处理中心将要承担较高的内部管理成本。三是人工录入情况下,基本消除了串谋作案的隐患,但仍存在一定的道德风险。OCR技术与ACS整合以后,将会避免以上问题的存在。
(三)优化ACS业务流程,提高处理时效
目前,ACS业务处理流程包括影像扫描上传、影像拆分、影像切片录入、业务撮合校验、账务处理等。若OCR技术在ACS中应用,将改进ACS处理流程为影像扫描上传、OCR影像识别、要素信息输入、业务撮合校验以及账务处理等,不需“影像拆分”环节,业务处理环节减少,处理时效大为提高。尽管OCR识别需要“人工校正”辅助处理,但基本实现了柜台扫描发起后,系统的全自动化业务处理。
(四)推进ACS真正实现档案管理电子化
目前鉴于技术原因,ACS档案子系统对凭证影像的归档作用仅仅局限于“存储”,未能真正实现对影像的分类检索,导致电子档案的调阅、查询仅限于“逐张翻阅”。引入OCR技术后,ACS档案子系统可借助特殊技术实现原始图像与识别结果共同存储的功能。
四、OCR应用于ACS的实施方案
鉴于OCR技术在ACS中应用的诸多优势,建议在ACS系统中引入OCR技术识别模块。对于央行营业网点扫描上传的会计凭证影像信息,推送至系统的OCR识别模块,经计算机自动提取会计凭证影像信息,进行影像信息识别、输入识别结果等过程,将会计凭证的要素信息提交系统进行账务处理。其核心工作是保证自动识别效率、正确率以及完整性。
(一)提高识别影像的规范度
影像预处理包含两个方面:一是在影像导入ACS系统前进行控制或处理。相比商业银行凭证由社会大众填写,ACS作为中央银行会计核算数据集中系统,其凭证填写人员为人民银行内部人员或者开户单位专业人员,凭证填写相对专业和规范。二是影像导入系统后,进行字符识别前处理,包括影像校正、去除噪声,比如对加盖印章的凭证进行识别时,通过去除噪声技术去除印章对凭证要素识别的干扰。三是按照凭证和业务种类设计识别模板,排除无关字符,对凭证中相应要素进行选择性识别。
(二)集成双OCR串行识别校对技术
由于人工填写的凭证影像千差万别,难免会出现识别错误的情况,为减小影像识别出错率,建议使用两套不同厂家的OCR软件,保证选购软件的差异度,设计双OCR串行识别校对方式,起到相互校正、优益互补的效果。只有两套程序识别均认为正确的情况,才能视为正确识别的字符。即使可能会降低识别通过率,但确保了影像识别质量。
(三)设计人工校正平台
人工校正是弥补系统识别错误的有效环节,也是影像识别的最后关卡。一般来说,OCR对于不能完全确定或识别认为有误的字符,会对字符进行差异化显示,转人工处理。通过字符识别校正平台,人工判断或补充识别结果。但是值得注意的是,在没有提示出错的地方也可能有错误,故应辅助提供人工监测平台,使用者尽力找寻发现OCR出错的地方,及时予以人工校正。
(四)实现档案电子化存储
整合OCR技术与ACS档案子系统,采用“双层PDF技术”即实现一个图像包含两层,上层是扫描所得到原始图像,下层是OCR识别的文字结果,实现凭证影像档案的分类检索,提高电子档案的查阅或调阅效率。OCR技术与档案子系统的有效整合,将大幅改善目前档案系统“半电子化”存储的现状。