APP下载

手写满文字母采集系统的设计与实现

2016-09-27丁纪峰郑蕊蕊

大连民族大学学报 2016年5期
关键词:满文手写触摸屏

王 帆,李 敏,丁纪峰,许 爽,郑蕊蕊

(大连民族大学 a.计算机科学与工程学院;b.信息与通信工程学院,辽宁 大连 116605)



手写满文字母采集系统的设计与实现

王帆a,李敏b,丁纪峰b,许爽b,郑蕊蕊b

(大连民族大学 a.计算机科学与工程学院;b.信息与通信工程学院,辽宁 大连 116605)

鉴于目前没有完整的手写满文字母库,在分析当前手写满文字母库的建立方式后,提出了嵌入式搭载触摸屏的手写满文采集方案,设计了基于STM32F4处理器的手写满文字母采集系统。该系统以Keil 5软件为开发平台,利用C语言开发了触摸屏、SRAM模块、SD卡和通信模块驱动,编写了手写输入采集、优化后的预处理和特征提取算法,并通过串口实现了与PC机的数据传输。系统整体电路采用 Altium Designer 9软件设计。经测试,系统能够较好地完成所需功能,且界面友好、操作方便、成本低廉、实时性强。

满文字母采集;手写满文字母;嵌入式;预处理

在清代近300年的统治中,留下了大量涉及政治、文化、经济、军事、外交、天文等各个方面的满文档案,这些满文档案是研究清代通史和各种专史的第一手资料,也是研究满文取之不尽的宝库,具有重要的利用和研究价值[1]。然而自清朝毁灭至今,满文严重流失,懂得满文、能使用满文的凤毛麟角,因此研究满文识别方法对保护和传承清代文化遗产来说显得尤为重要[2]。

识别处理满文需要大量的基础工作。而建立手写满文字母库[3]是重要的基础工作之一。目前建立手写满文字母库主要是通过研究人员将各种手写满文文献扫描到计算机中,通过对图片的预处理,包括倾斜校正、行列切分,再将预处理后满文单词进行切分,得到满文字母集合,经整理后得到手写满文字母库[4-5]。该方案受文献质量和数量的影响,当文献量不足时,得到的满文字母样本量很少,满文库的规模就受到限制。另外这种方案需要大量工作人员来将满文书写在纸上,即需要大量的预处理和整理工作。

鉴于目前还没有一个完整的手写满文字母库,根据对当前满文库建立方案的分析,本文设计了一个可以完整采集满文字母并且直接数字化的手写满文字母采集系统,为后期识别处理满语文字提供了基础。

1 系统组成

系统由外壳结构部分和硬件部分组成。外壳的各部分结构图采用SOLID-WORKS软件设计,通过3D打印机打印后与电路部分拼装[6]。

系统硬件部分主要由触摸屏模块、输入控制模块和通信模块组成,整体电路采用 Altium Designer 9软件设计,如图1。其中输入控制模块包括电源供电模块、ARM控制模块、SRAM存储模块和SD卡。触摸屏模块用于系统界面和满文字母手写的输入显示;输入控制模块用于对手写数据的采集、触摸屏同步显示以及数据的转换处理;通信模块主要用于将字母图像处理后的特征值发送到上位机保存。

图1 系统硬件组成结构示意图

1.1触摸屏

选用ATK-7’TFTLCD V2定制电容触摸屏,通过FT5206驱动;LCD屏使用群创AT070TN92,采用SSD1963驱动。屏幕分辨率为800×480,16位真彩显示,通过34(2×17)个引脚同外部连接。LCD接口连接在STM32F407ZGT6的FSMC总线上面,可以显著提高LCD的刷屏速度。为避免撕裂现象,撕裂效应信号通过LCD控制器反馈给MCU用于指示LCD控制器的显示状态,在非显示周期内,撕裂效应信号为高。

1.2输入控制模块

以STM32F407ZGT6为核心的输入控制模块包括连接触摸屏电路、电源电路、连接外扩SRAM电路、SD卡接口电路及最小系统的外围电路。MCU最小系统电路主要包括STM32F407ZGT6及其基本外围电路。STM32F407ZGT6处理器是由ARM专门开发的最新嵌入式处理器,可以满足控制和信号处理功能混合的数字信号处理市场[7]。其最小系统主要包括复位电路、外部时钟电路、启动模式设置电路及JTAG下载电路;系统的电源供电电路采用AMS1117-5.0芯片,将电源电压降到5 V供外围芯片使用,通过AMS1117-3.3将5 V降到3.3 V为系统供电。

容量为1 M字节的IS62WV51216芯片挂在STM32F407ZGT6的FSMC上,作为系统MCU外扩的SRAM。MCU芯片本身有192K字节内存,通过外扩的SRAM芯片可以充分扩展系统内存。系统使用SD卡作为数据库保存介质,采用4位SDIO方式驱动。STM32F4自带的SDIO接口驱动,4位模式,最高通信速度可达48 MHz(分频器旁路时),最大速度可以达到24 MB·s-1[8],满足设计需求。

1.3通信模块

通信模块采用CH340G芯片作为USB转串口芯片。STM32F407ZET6利用其全双工串行USRT接口,连接CH340G异步传输总线,将满文字符特征序列发送到上位机。采用USB接口作为CH340G和上位机通信的接口。串口是计算机上一种非常通用的设备通信协议,同时也是仪器仪表设备通用的通信协议,使用这种通信方式可以为数据的采集提供极大的方便。

2 系统程序设计

2.1TFT触摸屏部分设计

系统界面分为控制显示、手写输入实时显示、字母图像处理显示三个区域。控制显示区域显示满文字母的选择信息、按键及存储路径信息;手写输入实时显示区域采集并显示满文字母的手写输入轨迹;字母图像处理显示部分主要显示字母图像的处理过程,包括预处理和特征提取,可以对字母图像的处理过程直观地进行分析。

2.1.1手写输入信号实时采集与显示

手写输入数据的采集主要由输入控制模块完成,其程序流程如图2。当书写笔或手指在手写输入区域划动的时候,输入控制模块从TFT触摸屏读取相应的值,并对这些值进行滤波,去除干扰较大的值,得到触摸点的位置坐标并保存到两个16位无符号整形数组中。两个轨迹数组分别记录触摸点对应的X坐标和Y坐标集合,完成手写输入信号的采集。

图2 TFT触摸屏数据读取程序流程图

手写输入实时显示位于系统界面右侧,大小为385×385。书写时,系统会记录当前的触摸点坐标和上一个触摸点坐标,然后在这两个坐标间画一条黑色粗线。在画线过程中,首先要分析这两个点在X轴或者在Y轴上的增量是否小于线的宽度,如果小于线的宽度,可以视为直线处理,取这两点在单轴上的平均值作为这个轴的坐标,对应另一个轴的长度画一条直线;如果在X轴和Y轴上的增量都大于线的宽度,则对这组坐标不做处理,直接对这两点画粗线。通过这种方法,可以在书写过程中实时显示手写输入轨迹,同时可以使显示的手写字母横平竖直,笔画明显,显示效果好。

2.1.2控制显示区域

控制显示区域位于界面左侧,大小为360×430,该区域用于显示满文字母的选择框、控制按键和存储路径,在每次触摸到选择框或按键时,系统会刷新一次控制区域的显示。存储路径显示区域用来显示存储路径字符串,每一次控制区域显示刷新的时候会先将字符串数组更新一遍。

控制区域包含两部分,满文字母选择区域和手写输入控制区域。满文字母选择区域一共分为三级,第一级为“字母类别”,由6个选择框组成;第二级为“字母样式”,由4个选择框组成;第三级和第一级相关联,当第一级“字母类别”改变,对应第三级“字母”也会改变。第三级由24个选择框组成,当触摸到相应选择框,该选择框会变为蓝色,系统记录选择信息。当用户点击分类选择框时,系统会经过信息编码、匹配,最终得到路径字符串,利用文件管理系统将截取到的字母图片保存到相应的路径中,完成满文字母的采集。

手写输入控制区域设置了“清屏”和“确认采集”两个控制功能。清屏功能会使右侧手写输入区域和图像处理显示区域变为白色,并重新等待书写;确认采集功能通过截屏算法将右侧手写区域图像进行采集,并利用字母分类保存算法存储字母图像,同时对图像进行处理和特征提取。处理后的图像显示在图像处理显示区域,提取的特征值通过通信模块发送。截屏算法利用BMP图片编码将LCD显存保存为BMP格式的图片文件,算法实现步骤如图3。

图3 截屏算法流程图

2.1.3字母图像处理显示区域

字母图像处理显示部分由5个64×64的方框组成,位于系统界面右上部分。当书写完成后,系统会将触摸输入的有序轨迹进行一些预处理,主要包括平滑、直线生成、重采样、归一化。平滑用于消除噪声并且为直线生成做准备;直线生成可以对手写满文字母加入虚拟笔处理;重采样主要是为了减少点的间距的变异以及笔画上点的数目的变异;由于不同的书写风格会导致字体大小不同,因此需要对输入轨迹进行归一化处理,本系统采用线性缩放的方法将样本归一化为64×64像素。前4个方框显示预处理后的图像,第5个方框显示8方向特征提取[9]时的动态切割图。

2.2串行通信程序设计

系统串行通信采用中断的方式。由于系统要等待对手写输入字母进行特征提取后再发送数据,所以通信模块在系统不采集的时候是不工作的,只有当特征提取结束后进入中断,通过中断处理程序将采集的特征序列发送,从而提高了系统的显示质量和运行效率。其通信流程图如图4。

图4 串口通信程序流程图

3 系统测试

在硬件整体测试中,系统运行界面如图5,随意选择字母进行采集,图中选择“辅音字母”“独立式”字母“b”,选择后可以发现下端的存储路径发生变化。在右侧书写满文字母后点击采集按键,按键会显示“正在采集”,等待1 s后完成采集。点击清屏按键后右侧屏幕内所有字母被擦除,可以继续采集。测试过程中系统各个模块运行正常,实时性良好。

图5 系统运行界面

利用串口助手软件测试系统的通信模块,包括通讯是否连接、下位机发来特征数据是否正确。测试时,将串口助手波特率设置为115200、数据位设置为8位,利用通信模块接收下位机发送的数据并显示。经测试,上位机数据接收正常,所有特征数据均符合实际检测值,串口助手软件测试情况如图6。

图6 串口助手软件测试情况

4 结 语

满文识别技术必须以大量的字母样本为基础,因此建立手写满文字母库是研究满文识别方法的必要条件。本文在分析了手写满文字母库建立的方式后,设计了一个脱机手写满文字母采集系统。系统测试结果显示,通过本系统可以方便地建立一个多样本完整的满文手写字母库,同时对采集后的字母图像进行特征提取并通过通信模块发送到上位机用于训练。对比传统的利用上位机建立满文手写字母库的方式,该系统以手写输入满文字母的方式,利用嵌入式搭载触摸屏便捷地进行采集并数字化,构成简单,操作便捷,成本低廉,能够准确、实时显示手写输入的满文字母并进行保存。

[1] 许爽, 李敏, 朱满琼, 等. 满文识别技术研究与分析[J].大连民族学院学报, 2014,16(5):546-551.

[2] 吴敏. 从满文发展的历史与现状谈保护与发展满文的意义[J]. 满族研究,2010(99):62-65.

[3] 郑蕊蕊, 李敏, 吴宝春. 基于MATLAB GUI的少数民族文字手写体采集系统[J].大连民族学院学报, 2014,16(3):306-309.

[4] 周兴华, 李敏, 郑蕊蕊, 等. 印刷体满文文字数据库的构建与实现[J]. 大连民族学院学报,2015,17(3):270-273.

[5] 张广渊, 李晶皎, 王爱侠. 脱机手写满文笔画基元的提取和识别[J]. 计算机工程, 2007,33(22):200-202.

[6] PETTIS Bre. Anna Kaziumas France and Jay Shergill. Getting Started with MakerBot [M]. Beijing: Post & Telecom Press, 2013.

[7] 张勇强, 阳泳, 于建坤. 基于STM32的图像采集与显示系统的设计与实现[J]. 电子世界, 2016(2):34-36.

[8] 卢有亮. 基于STM32的嵌入式系统原理与设计[M]. 北京:机械工业出版社, 2014.

[9] BAI Zhenlong, HUO Qiang. A Study on the Use of 8-directional Features for Online Handwritten Chinese Character Recognition[C]//Proc. of ICDAR’05. Seoul. Korea: IEEE Computer Society, 2005.

(责任编辑王楠楠)

Design and Implementation of Handwritten Manchu Alphabet Acquisition System

WANG Fana, LI Minb, DING Ji-fengb, XU Shuangb, ZHENG Rui-ruib

(a. School of Computer Science and Engineering; b. School of Information and Communication Engineering,Dalian Minzu University, Dalian Liaoning 116605, China)

In view of the fact that there is no complete handwritten Manchu alphabet database currently, after analyzing the organization methods of the existing handwritten Manchu character alphabet database, a novel acquisition method based on the embedded system is proposed with a touch screen as the acquisition device, then a handwritten Manchu character acquisition system based on an STM32F4 microprocessor is designed. Using Keil 5 as developing platform and C as the programming language, driver programs of the touch screen, SRAM module, SD card module and communication module are developed, algorithms of the handwritten input acquisition, the optimized pre-processing and the feature extraction are designed. The data transmission between this system and computer is implemented by the RS-232 serial port. The overall PCB layout of the system is designed by Altium Designer 9. Tests show that the system can accomplish the required functions with friendly interface, convenient operation, low cost and strong real-time performance.

Manchu alphabet acquisition; handwritten Manchu alphabet; embedded system; pre-processing

2096-1383(2016)05-0513-04

2016-05-19;最后

2016-06-02

国家民委科研项目(14DLZ007);辽宁省自然科学基金项目(2015020084);辽宁省教育厅科学技术研究项目(L2015127,L2014548);中央高校基本科研业务费专项资金资助项目(DC201502060202,DC201502060407,DC201502060301)。

王帆(1993-),男,满族,辽宁丹东人,大连民族大学计算机科学与工程学院硕士研究生,主要从事嵌入式图形图像处理研究。

李敏(1962-),辽宁开原人,教授,学校优秀教学带头人,主要从事智能信息处理研究。

TP391

A

猜你喜欢

满文手写触摸屏
我手写我心
抓住身边事吾手写吾心
PLC和触摸屏在卫生间控制系统的应用
浅析投射式多点触控电容触摸屏
基于集成学习的MINIST手写数字识别
皮肤“长”出触摸屏
深度学习在手写汉字识别中的应用综述
满文本《金刚般若波罗密经》翻译方式探析——以《发愿文》、《普回向真言》为例
三田渡汉文满文蒙古文碑文对比研究
触摸屏项目移植在自动化系统升级中的应用