基于神经网络的纸笔手写规范汉字量化评价研究
2023-12-14史善飞舒江波卢帅成
王 敏, 马 万, 祝 闯, 史善飞, 舒江波*, 卢帅成
(1.江苏省现代企业信息化应用支撑软件工程技术研发中心, 江苏 苏州 215104;2.华中师范大学教育大数据应用技术国家工程研究中心, 武汉 430079)
汉字是中华传统文化的重要载体,提升学生规范汉字书写能力对加强学生全面发展、提高学生人文素养、传承中华传统文化有着至关重要的作用.早在1990年国家教委办公厅就发布了《关于加强义务教育阶段中小学生写字教学的通知》,明确提出要加强写字教学,并将其作为义务教育阶段的基本训练之一,以提高学生的汉字书写能力;2002年教育部发布的《关于在中小学加强写字教学的若干意见》再次强调写字教学的重要性,意见中提到:“规范、端正、整洁地书写汉字是有效进行书面交流的基本保证,是学生学习语文和其他课程,形成终身学习能力的基础”;2016年教育部国家语委发布的《国家语言文字事业“十三五”发展规划》也提出了强化学校语言文字教育的目标,包括加强中小学规范汉字书写等方面的教育教学.从上述文件可以看出,国家一直都在积极推动中小学规范汉字书写教育.
但就目前中小学生的汉字书写情况而言,汉字书写教育仍面临着一些需要解决的问题.由于中小学生群体人口基数大,而书写指导教师非常缺乏,导致我国各省市中小学生规范汉字书写水平参差不齐.大多数学校的书写习字教学由语文、美术等学科教师兼任,这些教师没有接受过专业的规范字书写教学培训和认证,因此难以对学生书写的汉字提供科学的书写指导和评价信息,导致学生可能会不断地重复错误的汉字书写练习.近年国家颁布的“双减”政策中提出要有效减轻义务教育阶段学生过重的学习负担,这种重复的错误书写练习只会加重学生的学习负担,降低学生学习汉字书写的积极性.
精准的汉字书写评价是汉字书写教育的基础.学界在汉字书写评价方面开展了很多有意义的工作.手写汉字的特征一直以来都是评价手写汉字的关键所在,利用特征相似度对手写汉字进行评价也是近年来最常采用的方式[1].靳天飞[2]、常庆贺[3]利用细化算法提取汉字的骨架信息,通过分析汉字的骨架点序列得到笔段、端点、拐点、分叉点等特征.Liu等[4]提出利用细化法获取汉字笔段,该方法以细化骨架上的特征点为依据,如交叉点、拐点等,通过这些特征点对笔画进行拆分或合并得到笔段信息.韩睿方等[5]利用笔画的拓扑结构、关键点等宏观特征,笔画路径上各笔段的倾斜角、弯曲度等微观特征,建立模板汉字库、笔画评判规则库、汉字评判索引库三个信息库.王建平等[6]通过深度学习的方法提取笔段特征,李镇宇等[7]利用卷积神经网络模型对汉字图像进行特征提取,实现了汉字九种整体结构(半包围结构、全包围结构、嵌套结构、独体字结构、品字形结构、上下结构、上中下结构、左右结构、左中右结构)的自动分类.刘晨明等[8]提出部分精确可定量的笔画属性能够决定汉字的结构,而精确定量要求来源于汉字结构本身的规定性,即汉字的书写规则.Sun等[9]从艺术的角度提出了一套全局和组件布局的美学特征,基于该特征训练BP神经网络模型,以定量的方式评估手写汉字的美学质量.
本文以纸张上的手写规范汉字作为研究对象,提出一种更符合中小学实际汉字书写练习场景的智能评价方法,将规范汉字的书写规则作为评价衡量标准,得出更准确、更科学的量化评价反馈信息.
1 研究框架
汉字的书写规则是社会使用汉字的人在熟练书写中摸索出的汉字规律,从而形成相应的写字习惯,又由习惯上升为规则.汉字书写需要遵循汉字的书写规则,满足笔画准确、笔顺正确、符合字形规范等基本要求,评价汉字的第一层次标准,应当是当前书写汉字所具有的基本书写规则[10].
纸笔手写规范汉字量化评价框架如图1所示.评价主要包含三个部分:基于手写汉字书写规则的规范性分类评价、基于手写汉字笔段数据的量化评价以及基于手写汉字书写规则的整体书写质量评价.评价主要是以纸张上的手写汉字作为研究对象,通过手写汉字的结构特征分析该汉字在各项书写规则下是否书写规范,通过分析手写汉字笔段数据与规范性评价的联系,并对比手写汉字样本与标准规范手写汉字的笔段属性值之间的差异,实现手写汉字的规范性评分以及改进建议,通过分析汉字在不同书写规则下书写的好坏对汉字整体书写评价的影响权重,实现手写汉字整体书写评分.
图1 纸笔手写规范汉字量化评价框架图
2 主要算法
2.1 基于书写规则的规范性分类评价
基于书写规则的规范性分类评价是对手写汉字在各项书写规则下的书写规范性进行评价.书写规则一般是从微观或宏观角度描述汉字的结构要求,可以通过分析手写汉字的结构特征是否符合相应的要求,从而判断该手写汉字在各项书写规则下是否书写规范.但在手写汉字原始图像中,图像中包含的信息过于繁杂,并不利于寻找其中的汉字结构特征,而汉字骨架能够较好的展现汉字整体的拓扑结构,突出汉字的形态结构特征,也能去除汉字图像中的冗余信息.本文基于卷积神经网络(convolutional neural network, CNN)建立规范性分类评价模型,通过该模型分析手写汉字骨架图像中与书写规则相关的汉字结构特征,再基于该特征对各项书写规则下书写规范与书写不规范的汉字骨架图像进行分类,从而实现对手写汉字的规范性分类评价.
该模型包含1个输入层、4个卷积层、3个池化层、3个全连接层,最后一个全连接层也是Softmax输出层.模型的输入为200×200×1的单通道汉字骨架图像,输出的类别个数则由当前汉字拥有的书写规则个数决定,设手写汉字C有N项书写规则,则模型对汉字C规范性分类评价的最多分类类别个数为:
n=2N,
(1)
其中,每一种类别代表汉字在其所有书写规则下可能出现的规范性评价结果,2表示汉字在某一项书写规则下可能出现的规范性评价结果个数,分为规范和不规范两种.例如“二”字有3项书写规则,则所有可能出现的规范性分类评价结果如表1所示.
表1 “二”字所有的规范性分类评价结果
其中,每个评价结果的第i位数代表当前汉字在其第i项书写规则下是否书写规范,0表示书写不规范,1表示书写规范.
模型训练时,采用交叉熵损失函数LOSS预测概率与真实标签之间的偏离程度,交叉熵损失函数LOSS的定义为:
(2)
其中,N表示训练样本的数量,M表示类别的数量,yic表示第i个样本的第c个类别的真实标签,pic表示第i个样本被预测为第c个类别的概率值.
本文的CNN模型如图2所示.
图2 CNN模型结构
2.2 基于笔段数据的量化评价
在某一书写规则下,同一汉字的不同手写汉字样本可能会得到相同的规范性评价结果,但它们的书写规范程度仍存在差异,书写的规范程度可以通过专家对其评价分数的高低来衡量.此外,汉字书写得是否规范并不能让学生清楚了解自己书写过程中存在的问题,同时也难以把握各问题笔画所需要修改的程度.学生需要更清晰、可量化的评价反馈信息,从而更好地进行书写练习.手写汉字的量化评价包括对手写汉字在各项书写规则下的书写规范性进行评分以及对手写汉字存在的书写问题提供改进建议.
部分精确可定量的笔画属性能够决定汉字的结构,而精确定量要求来源于汉字结构本身的规定性,即汉字的书写规则[8].也就是说,部分笔画属性的取值能够决定手写汉字是否符合某项书写规则的要求.但笔画种类多种多样,某些笔画过于复杂,不仅难以用数据刻画,其有效的可以作为评价的特征信息也可能只存在于笔画的某一特定部分, 故而需要对笔画进行分段研究,将复杂笔画按照一定的规律进行切割,得到当前笔画的多个笔段信息,再从笔段上寻找影响汉字在某一书写规则下书写规范性的属性信息.
笔段是指没有拐点的一个笔画,只包含唯一的起始点和终止点.本文通过手写汉字的笔段属性数据建立多项式回归模型,实现手写汉字在各项书写规则下的规范性评分.
笔段属性数据的刻画是以手写汉字图像的左上角作为图像坐标系的原点,水平右方向为横轴的正方向,垂直向下的方向为纵轴的正方向,且横纵轴坐标的最大值设为10.将笔段属性分为:起始坐标点、终止坐标点、长度、宽度、高度、与水平的夹角,则笔段可以表示为:
Ei(Sx,Sy,Ex,Ey,Leni,Widi,Heii,θi),
(3)
其中,Sx、Sy代表笔段i起点的横纵坐标,Ex、Ey代表笔段i终点的横纵坐标,这些坐标的大小关系可以刻画出笔段在整字中的具体位置,以及判断各笔段之间的对齐交接关系;Leni代表笔段i的长度,可以刻画汉字各笔段的长短比例关系,具体计算公式为:
(4)
Widi代表笔段i起点与终点的水平距离,计算公式为:
Widi=|Sx-Ex|.
(5)
Heii代表笔段i起点到终点的垂直高度,计算公式为:
Heii=|Sy-Ey|.
(6)
θi代表当前笔段与X轴的夹角,能够刻画出笔段从起笔到收笔时的空间指向,代表书写规则对该笔段方向走势的要求,如“横平竖直”要求横笔段与X轴的夹角趋近于0度,竖笔段与X轴的夹角趋近于90度,其计算公式为:
(7)
若Ex=Sx,则斜率不存在,意味着当前笔画垂直于X轴.
在使用多项式回归进行分析时,对于稍复杂的汉字,其笔画、笔段属性较多,会导致建立模型时模型的维度增大,高维度的模型在训练时容易导致模型的泛化能力降低,出现过拟合以及计算量大等问题.通常解决该类问题的方法是人工筛选较重要的特征值进行保留,降低数据集的维度[2],这一做法也较为符合实际,因为影响汉字在某一书写规则下是否符合书写规范的只是汉字的部分笔段.本文通过专家提前筛选出影响汉字在某一书写规则下规范性评分的笔段属性,再基于这些笔段属性数据建立多项式回归模型.
设有m个手写汉字C的样本,专家筛选出影响汉字C在第k项书写规则下规范性评分的n个笔段属性,xij表示第i个样本中影响汉字C在第k项书写规则下规范性评分的第j个笔段属性的值,si表示专家对第i个手写汉字样本在第k项书写规则下的规范性评分.由于本文样本中笔段各属性取值与规范性评分一般都符合二次函数关系,即散点图所表现曲线趋势的峰数与谷数之和为1,所以将回归模型的最大次数设为2.将影响汉字C在第k项书写规则下规范性评分的n个笔段属性的值作为模型的输入,专家对汉字C在第k项书写规则下的规范性评分作为模型的输出,则手写汉字C在第k项书写规则下的规范性评分预测模型可表示为:
si=θ0+θ1xi1+…+θnxin+…+
(8)
(9)
利用最小二乘法求解多元线性回归方程中的θ,使得预测值yθ(x)与实际值yi的误差平方和Q最小,表示为:
(10)
最终得到:
(11)
将影响汉字C在该项书写规则下的笔段属性的取值代入式(11)中即可得到汉字C在该项书写规则下的规范性评分.
书写改进建议则是通过比对手写汉字样本与标准规范手写汉字的笔段属性值之间的差异,从而对当前手写汉字提供相应的调整建议.如样本某笔段的Len与标准规范手写汉字该笔段的Len存在差异,则可以根据该差异值给出加长或缩短笔段书写长度的书写调整建议.
2.3 基于书写规则的整体书写质量评价
整体书写质量评价是对手写汉字的整体书写情况进行评分,可以反映学生的汉字书写水平.在某些书写规则下,手写汉字的表现可能很规范,但并不一定代表该汉字的整体书写质量就高,因为汉字在不同书写规则下所表现出的规范性对整体书写质量评价的结果影响不同.因此,需要分析汉字在不同书写规则下书写的好坏对汉字整体书写评价的影响权重,最后结合这些影响权重以及手写汉字在各项书写规则下的规范性评分实现对汉字整体书写的评分,从而实现对手写汉字整体书写质量的评价.这些权重也能体现学生汉字书写练习时需要注意的要点.
本文基于多元线性回归模型研究手写汉字在各项书写规则下书写的好坏对汉字整体书写评价的影响,并构建整体书写评分模型,实现对手写汉字整体书写情况的评分.
设有m个手写汉字C的样本,汉字C包含n项书写规则,xmn代表专家对第m个样本在第n项书写规则下的规范性评分,sm代表专家对第m个样本的整体书写评分,将专家对每个手写汉字样本在各项书写规则下的规范性评分作为模型的输入,对该手写汉字样本的整体书写评分作为模型的输出,则手写汉字C的整体书写评分预测模型为:
(12)
同样基于最小二乘法求解回归方程中的β,使得预测值与实际值的误差平方和最小.回归方程中的β即为当前手写汉字在不同书写规则下书写的好坏对汉字整体书写评价的影响权重.
(13)
该方程即为当前汉字的整体书写评分模型,将手写汉字在各项书写规则下的规范性评分代入式(13)中即可得到手写汉字的整体书写评分.
3 实验结果
对6 934张具有实验意义的手写汉字样本图像进行了测试,包含表2中七种结构类型的汉字.各类型汉字分布如表2所示.
表2 手写汉字样本的数据分布
为了训练实验模型,每个样本图像需要专家进行评价标注.以“品”字为例,专家对其在各项书写规则下的规范性评分以及整字书写情况的预评价结果如表3所示.
表3 “品”字样本图像的评价标注示意表
为了训练规范性分类评价模型,还需要将标注结果转换为不同的规范性评价类别,以“日”字为例,它包含六项书写规则,对应的书写规范性评价类别如图3.
图3 “日”字对应的书写规范性评价类别示例图
在图3中,规范性评价类别的六位数,每一位数与“日”字的一个书写规则对应,表示当前手写汉字样本在该项书写规则下是否书写规范,0表示不规范,1表示规范.
3.1 规范性分类评价结果
为了使模型有更好的拟合效果,按照8∶1∶1的比例将各汉字的数据集随机划分为训练集、验证集与测试集,对模型进行训练和测试.部分汉字测试集在模型上的分类准确率如表4所示.
表4 模型分类结果
需要说明的是,理想情况下,模型的类别个数n与书写规则个数N的关系应满足式(1).
但由于数据集的原因,不一定收集到了包含所有书写情况的汉字,因此上述表格中有的类别个数与汉字书写规则个数不满足该关系.
3.2 量化评价以及整体书写质量评价结果
以“日”字为例,它包含横笔平行、横笔等距、左短右长、竖向略斜平行、上宽下窄、中横长度适中六项书写规则,包含如图4所示的5个笔段.
图4 “日”字笔段示意图
图4中的“日”字样本对应的笔段数据如表5所示.
表5 “日”字样本对应的笔段数据
图4、表5中,左短右长规则被其0号笔段的起点横纵坐标、高度以及2号笔段的起点横纵坐标、高度所影响,将“日”字各样本中的上述笔段属性数据作为规范性评分模型的输入,专家对其在当前书写规则下的规范性预评分作为规范性评分模型的输出,按照8∶2的比例将各汉字的数据集随机划分为训练集和测试集,对模型进行训练和测试.最终该项书写规则对应的评分预测模型如下:
s1=-169.372+77.896x1-63.695x2-
4.2098x3+77.4848x4-0.0971x5+
12.2220x1x3-15.6131x1x4+12.7371x1x5-
19.1568x2x4+0.6155x2x5+16.3655x2x6-
其中,x1、x2分别代表 “日”字0号笔段起点的横纵坐标,即代表“日”字该笔段的起笔位置;x3、x4分别代表2号笔段起点的横纵坐标,即代表“日”字该笔段的起笔位置;x5、x6分别代表0号和2号笔段的高度.
将专家对“日”字各样本在各项书写规则下的规范性预评分作为整体书写评分模型的输入,对其整体书写预评分作为整体书写评分模型的输出,同样按照8∶2的比例将各汉字的评分集随机划分为训练集和测试集,对模型进行训练和测试.“日”字最终的整体书写评分预测模型为:
0.167D+0.119E+0.042F,
其中,A、B、C、D、E、F分别代表“日”字“左短右长”、“竖向略斜平行”、“上宽下窄”、“中横长度适中”、“横笔等距”、“横笔平行”六项书写规则的评分.
利用上述模型实现对“日”字在各项书写规则下的规范性以及整体书写情况的自动评分,效果如图5至图7所示.
图5 “日”字在各项书写规则下的规范性评分以及整体书写评分结果图(a)
根据上述样本的笔段属性与标准手写汉字各笔段属性取值之间的差异,可以得出量化的改进建议,图6与图7中“日”字的部分细节评价效果如图8和图9所示.
图6 “日”字在各项书写规则下的规范性评分以及整体书写评分结果图(b)
图7 “日”字在各项书写规则下的规范性评分以及整体书写评分结果图(c)
图8 “日”字改进建议示意图(a)
图9 “日”字改进建议示意图(b)
4 结论
在新技术和新范式的簇拥下,教育研究踏上了由定性转向定量研究方法的路途[11].本文的研究不仅考虑了纸笔手写汉字书写练习的真实场景,还结合了汉字书写的长期规律,并融合机器学习方法对现有的手写汉字书写评价方法进行了改进,从而更好地解决评价不及时、评价不够准确、评价难以量化等难题.
纸笔手写规范汉字量化评价技术的研究,具有很好的应用前景.第一,可以开发学生书写练习智能辅助工具,帮助学生准确定位汉字的书写错误,辅助学生进行汉字书写练习,避免重复进行错误的练习,减少学习成本和学习负担,提高学生的学习效率和整体书写水平;第二,可以研制书写质量监测平台,辅助教师、学校和教育主管部门监测学生对汉字的掌握情况,了解学生汉字书写水平,帮助教师调整教学方案,从而更好地开展汉字书写教学.
笔者希望通过人工智能技术赋能汉字书写教育,有效缓解当前我国汉字书写指导老师匮乏的局面,实现真正的“因材施教”.