基于统计的汉字字形视觉重心计算
2015-04-21邓晓健张俊松
邓晓健,李 彬,张俊松
(厦门大学 智能科学与技术系 艺术认知与计算实验室,福建 厦门 361005)
基于统计的汉字字形视觉重心计算
邓晓健,李 彬,张俊松
(厦门大学 智能科学与技术系 艺术认知与计算实验室,福建 厦门 361005)
该文提出了一种汉字字形视觉重心的计算方法。首先收集常用汉字图像样本,通过图像预处理,提取出样本汉字的连通区域视觉平衡中心;然后招集被试对样本汉字进行视觉重心标注;再利用统计建模的方法,构建出连通区域视觉平衡中心和汉字整体视觉重心之间的关系模型。与相关方法比较,文中方法考虑了汉字视觉重心依赖于人的主观体验这一因素。该方法能广泛应用于汉字特征提取、汉字结构设计与优化等应用领域。
书法汉字;连通区域;视觉重心;回归分析
1 引言
在汉字的结体中,“重心平稳”是最基本的要求。所谓“重心”是从物理学上借用过来的术语,指重力在物体上的作用点。重心是汉字字形结构的关键,它处于字的心脏部位——中宫,构成了视觉重心,字的构成笔画和部首只有以它为中心,其结构才具有稳定性和均衡感,而又不失板滞[1-3]。在字体设计时,视觉重心是字体设计师关注的一个重要方面。因为只有汉字的视觉重心保持一致,读者阅读时才能确保阅读的流畅性和舒适性[1-3]。因此汉字字形视觉重心的计算方法,在印刷体汉字自动生成,字形美化、字体排版等方面都具有重要的应用价值。
以往大量的书法著作都对汉字重心进行了描述。如张强[4]基于力学上的平衡性原理,从视觉力度适应角度对重心做出了说明,指出汉字视觉重心是保证视觉平衡性适应的关键所在。李天马[5]对不同结构的汉字的重心,如独体、左右型、上下型等汉字进行了概括性的说明。黄向东[6]指出人们在寻找一个图形中的重心点时,其位置往往会高于几何中心。启功[7]提出真书结字黄金律,其通过延长楷书比画获取交叉点,归纳总结出楷书结体的四个关键位置,确定了重心所在区域。
同时,在一些汉字字形处理的工作中,已经有部分工作涉及汉字视觉重心计算。Kai等[8-10]通过计算汉字笔画区域黑色像素点坐标的平均值来表示汉字重心。Tao等[11]通过中心投影射线的焦点来刻画汉字重心。Arai等[12]首先计算出汉字图像上每一列行黑色像素点个数,然后统计出具有最多黑色像素点的行列,把其交叉点作为汉字重心。范琳伟[13]总结了国外现有光带中心提取算法的特点,并结合视觉特征与力矩平衡理论,提出了一种新的基于汉字图像的视觉重心提取算法,通过分析色彩、方向、边缘等特征,将汉字图像分为多个子块并利用力矩平衡理论计算汉字图像的视觉重心点。该方法能获得较好的视觉效果,但在一定程度上忽略了汉字结体以及笔画骨架线对人视觉关注位置的影响。
以上这些汉字重心计算方法,大多是基于汉字图像像素点坐标位置进行全局运算,并没有深入考虑汉字字形结构的影响,同时忽略了汉字视觉重心依赖于人的主观体验这一重要因素。总体来说,汉字视觉重心是字形设计的一个重要因素,但目前还有待深入研究。
计算汉字视觉重心存在以下挑战: 1)汉字视觉重心是阅读者的主观体验,难以建立客观准确的度量与计算方法;2)汉字重心与字形的许多因素有关,如基本笔画、间架结构、字体形态等,目前基于模式识别和图像处理的方法,还不能自动高效地提取出这些汉字特征。基于这些挑战,本文使用笔画连通区域表示影响汉字视觉重心的特征,笔画连通区域几何中心部分包含了基本笔画位置、大小、笔画间架结构等特征信息。另外,虽然个体主观体验没有统一标准,但可以通过人工标注的汉字视觉重心样本,采用统计分析的方法,归纳出符合大众视角的汉字视觉重心计算的一般性规律。
本文基于统计分析,提出了一种汉字视觉重心的计算方法,算法总体流程如图1所示。
图1 总体流程图
基于力矩平衡特性,本文首先结合汉字笔画的骨架线和距离场特征计算作用力矩,预测汉字笔画各连通区域的视觉平衡中心;然后通过统计回归的方法探索多连通区域平衡中心与视觉重心之间的关系;最后针对不同的字体结构建立数据模型集合,从而实现了模拟视觉重心定位。实验结果与汉字视觉重心的主观认知基本一致。同时本文方法可以进一步推广,针对不同的字体类别实现视觉重心的预测。
2 多连通区域的视觉重心预测
日常生活中,手写体汉字或者带有特定风格的计算机生成汉字常常为阅读带来挑战,汉字视觉重心的合理定位能为文本的布局带来很大便利。在阅读单个汉字时,视觉关注的位置往往聚集在图像的中心位置,同时容易受汉字本身局部特征影响,如笔画的轮廓、面积、笔画间相对位置等。萧皖龙[9]提出汉字的笔画重心与偏旁部首重心共同构成整个汉字的平面几何重心,该几何重心作为人脑的规范映射,与汉字的视觉重心密切相关。
从视觉观察角度,根据汉字笔画的衔接与分离关系,单个汉字图像可以分解为多个连通区域的组合,每个连通区域的细节反映了汉字笔画的风格以及汉字的局部视觉特征。张积家等[15-16]提出,汉字认知中存在着自下而上、由部分到整体的加工,汉字笔画和部件是汉字识别的基本单元。因此,汉字的视觉重心可以理解为由各个连通区域特征共同确定。多连通区域组合情况下的视觉重心往往与人对视觉对象的整体知觉经验联系紧密,单纯从几何计算的角度很难准确预测,因此,本文尝试使用统计回归的方法模拟人眼对于不同区域组合的视觉重心定位机制,由局部到整体可将工作展开为两部分: 1)考虑单个笔画连通区域的视觉平衡中心估算;2)多个笔画所构成的连通区域组合的视觉重心定位,预测多个局部连通区域视觉平衡中心与汉字整体视觉重心的关系。
针对不同汉字集合,通过收集被试者的视觉重心感知数据,构建同类集合情况下的视觉预测模型。整个模型的设计过程可分为三个部分: 1)视觉重心样本数据收集与分析,即样本汉字视觉重心标注以及汉字图像各连通区域的视觉平衡中心计算;2)回归模型集合参数训练,采用多元线性回归分析各连通区域视觉平衡中心的关系模型集合;3)测试用例分类与视觉重心预测,即根据待测汉字的连通区域数量,采用对应的关系模型预测汉字视觉重心。接下来,本文将以一组简化的样本汉字集合作为讨论对象,说明整个模型的搭建与使用过程。
2.1 样本汉字视觉重心标注
给定一组汉字图片集合S,为了获取视觉重心样本,需要邀请被试者参与样本汉字视觉重心的标注。对于S中任一张图片,每一个参与视觉重心标注的被试者都能指出感知中最重要的位置。其中对于第i张图片(宽为W,高为H),以图片左上角为原点,第n个被试标注重心的相对位置可计算得式(1)。
(1)
2.2 单连通区域的视觉平衡
针对单连通区域的视觉平衡中心预测问题,考虑单个笔画的视觉重心的平衡特性,以汉字笔画的骨架线为基础,引入轮廓距离场作为重力约束,利用力矩平衡理论计算视觉平衡中心。为了简化讨论,本文假设输入为一组汉字图片集合S,并且集合S中的图片都预先裁定为恰好包含汉字,即汉字的外包矩形大小为所在图片大小。
2.2.1 图像特征提取
(2)
笔画的粗细对比对于视觉影响很大,骨架线上任一点Pi的延伸范围影响了笔画的视觉效果,因此,考虑骨架线的延伸情况,需将骨架与轮廓之间的距离作为另一个特征。对于连通区域a∈A,计算该区域内的距离场为式(3)。
(3)
图2 单连通区域样本汉字视觉平衡中心计算。(a)原图,(b)骨架线,(c)距离场,(d)单连通视觉平衡中心
2.2.2 基于力矩平衡的视觉平衡预测
(4)
(5)
以单连通区域样本汉字“王(华文行楷体)”字为例,其视觉平衡中心如图2(d)。
2.3 采集模型训练输入数据
对于任一张汉字图片A∈S,通过图像处理的方法可获得连通区域的轮廓线并进行分割,然后使用2.2中单连通区域的视觉平衡预估方法分别计算各连通区域的视觉平衡中心。结合每一个被试者感知的视觉重心标注位置,可得输入数据的集合,以连通区域样本汉字“治(宋体)”如图3所示,各连通区域处理后所得数据如表1所示。
图3 治“宋体”
方向/位置视觉平衡中心相对位置预估(图3中序号1-5)视觉重心标注位置(图中点O)横向X0.6574070.1018520.2006170.2098770.6759260.487912纵向Y0.7544910.3952100.6886230.1317370.3053890.549356
2.3.1 数据去噪
考虑到个体差异,在标注数据中会存在一些离群点,这些点不具有统计意义为数据中的噪声点,其余为有效标注点。本文根据启功先生所提出的结字黄金律[7]来确定有效标注点的取值范围。
图4 启功结体黄金律
(6)
2.4 基于多元线性回归的数据建模
在获得有效数据集合之后,需要解决的问题是如何从大量数据集合中寻找规律,用以解析各连通区域视觉平衡中心和汉字整体视觉重心之间的关系。解决大数据统计拟合的方法很多,为了简化实验数据分析过程,本文采用多元线性回归的方法建立分析模型。
2.4.1 多元线性回归
多元线性回归是学习多元输入到输出映射关系的重要方法,其模型的通用数学表达式可定义为:
(7)
其中,w0,w1,…,wn称为回归系数,是n+1个待估参数,ε是随机变量(剩余参数)。
多元线性回归分析的主要问题是根据x1,x2,…,xn,r的N组观测数据(xk1,xk2,…,xki,rk),k=1,2,…,N,求解各回归系数wi的估计值 ,使得样本平方误差之和最小。
E(x|w0,w1,…wn)=
(8)
(9)
定义式(10)中的向量与矩阵:
(10)
于是,方程组等价为式(11)。
(11)
显然XTX是对称矩阵,故有式(12)。
(12)
2.4.2 多元线性回归构建关系模型
(13)
根据2.4.1所述计算过程,求解参数w0,w2,…,wn,即可得到连通区域几何中心与汉字统计视觉重心在x方向和y方向上的n-连通关系模型。以四连通区域为例,通过本文方法,利用字体为“黑体”的汉字样本集所计算出的模型参数如表2所示。
表2 四连通区域回归模型参数
3 实验结果
为了验证多元线性回归模型的有效性,本文实验中采用基于连通区域个数选取300个常用“黑体”汉字样本,同时为了简化运算,该样本集合中每个汉字的连通区域数目不超过七个。在视觉重心标注中共有十名被试参与标注。不同连通区域样本汉字分布情况如表3所示。
为了解释和比较超声波预处理和随后的热风干燥可能导致的结构变化[5]。干燥后的茎瘤芥在25℃的水浴中进行复水。将脱水的茎瘤芥样品(约3 g)置于80 mL蒸馏水中。一定时间后,将样品从水中取出,用吸水纸吸去表面水分后称量。在前30 min,每5 min称量1次,然后在接下来的30 min,每10 min称量1次。
为了检验模型的有效性,本文由两个角度检验模型的有效性: 1)利用样本集汉字测试模型拟合程度;2)使用非样本集汉字测试模型的拓展性。
表3 样本汉字连通区域个数分布情况
3.1 样本汉字测试
首先对样本汉字进行测试,部分样本汉字测试结果如图5所示,第一行为上下结构样本汉字,第二行为左右结构样本汉字,第三行为半包围结构样本汉字。白色圆点为标注点,共有十个,部分重叠,从图中可以看出不同被试所标注视觉重心虽有差别,但比较集中。黑色圆点是通过回归模型计算得到的视觉重心,从空间位置上观察可得,此视觉重心与样本标注重心基本一致。
另外,本文对多元线性回归分析结果进行了检验。在多元线性回归分析中,可以用R2作为评价模型拟合程度的一项指标如式(13)所示。
(13)
以四连通区域回归模型为例,其在x方向上的R2=0.739 2,在y方向上的R2=0.806 5。由此可见,模型具有较好的拟合程度。
图5 样本汉字测试结果。灰色圆点为视觉重心标注点,黑色圆点为模型计算所得视觉重心点。
3.2 非样本汉字视觉重心计算
本文随机选取连通区域为2~7的非样本汉字计算结果如图6所示,其中第一行为上下型结构汉字,第二行左右型结构汉字,第三行为半包围型结构汉字。
图6 非样本汉字视觉重心计算结果。汉字中心附近黑点大点为计算所得视觉重心点。
从实验结果来看,文中方法通过统计模型计算出汉字视觉重心,较好地拟合了标注样本视觉重心。另外,计算出的视觉重心点位于整个汉字图像几何中心偏上位置,与黄向东等[6]所提出的经验知识相吻合。本文方法可以通过收集更多连通区域数目的样本,对多连通区域回归模型集合进行训练,可以对任意连通区域数目的汉字进行视觉重心预测。在构建回归模型时,本文仅仅考虑了比较通用的多元线性回归模型,从大量数据样本提取人眼阅读时的视觉重心关注规律,虽然从统计意义上获得了一定的成功,但或许还可以使用更为细致的回归模型对数据规律进行拟合。在以后的工作中,我们将考虑更加复杂的多元回归模型,如支持向量机、神经网络等。
4 结论
本文提出一种基于统计的汉字视觉重心计算方法。该方法首先通过人工标注视觉重心获取训练数据,然后借助回归分析方法,建立汉字字形连通区域的视觉平衡中心和汉字整体视觉重心之间的关系模型。文中方法很好地拟合了标注者的真实视觉感受,同时也提出了一种汉字字形视觉重心定位和计算的研究思路,能广泛应用于汉字字形的设计和美化。
[1] 徐学成. 探究印刷活字的易读因素[J]. 山东工艺美术学院学报, 2013,4: 6-9.
[2] 喻蓉杰. 汉字字体设计造型及其情感分析研究[D]. 武汉理工大学, 2012.
[3] 刘纲纪. 书法美学简论[M]. 武汉:湖北人民出版社,1979:34.
[4] 张强. 书法文化-形态描述与经典图释[M]. 重庆:重庆出版社,2006:84-89.
[5] 李天马. 楷书行书的技法[M]. 上海:华东师范大学出版社,1989:25-32.
[6] 黄向东. 设计基础之基础字体[M]. 西安:陕西人民美术出版社,2004:75-79.
[7] 启功. 启功给你讲书法[M]. 北京:中华书局,2007:85-89.
[8]LaiPK,YeungDY,PongMC.AheuristicsearchapproachtoChineseglyphgenerationusinghierarchicalcharactercomposition[J].ComputerProcessingofOrientalLanguages, 1997, 10(3): 281-297.
[9]GuYX,WangQR,SuenCY.ApplicationofamultilayerdecisiontreeincomputerrecognitionofChinesecharacters[J].PatternAnalysisandMachineIntelligence,IEEETransactionson, 1983 (1): 83-89.
[10]KaiW,YangYY,SuenCY.Multi-layerprojectionsfortheclassificationofsimilarChinesecharacters[C]//Proceedingsofthe9thInternationalConferenceon.IEEE, 1988: 842-844.
[11]TaoY,TangYY.ThefeatureextractionofChinesecharacterbasedoncontourinformation[C]//ProceedingsoftheFifthInternationalConferenceon.IEEE, 1999: 637-640.
[12]AraiY,KataokaH.Charactershapingdevice:U.S.Patent4,440,513[P]. 1984-4-3.
[13] 范琳伟. 汉字图像的视觉重心点提取算法研究[J]. 计算机应用与软件, 2013, 30(9): 44-46.
[14] 萧皖龙. 汉字规范书写的全重心理论[J]. 合肥教育学院学报, 2005, 20(4): 28-31.
[15] 张积家, 张厚粲. 汉字认知过程中整体与部分关系论[J]. 应用心理学, 2001, 7(3):57-62.
[16]TreismanAM,GeladeG.Afeature-integrationtheoryofattention[J].Cognitivepsychology, 1980, 12(1): 97-136.
[17]ShihFY,PuCC.AskeletonizationalgorithmbymaximatrackingonEuclideandistancetransform[J].PatternRecognition, 1995, 28(3): 331-341.
[18]KimmelR,KiryatiN,BrucksteinAM.Sub-pixeldistancemapsandweighteddistancetransforms[J].JournalofMathematicalImagingandVision, 1996, 6(2-3): 223-233.
Detection of Visual Center of Gravity from Chinese Characters Based on Statistics
DENG Xiaojian, LI Bin, ZHANG Junsong
(Group of Mind, Art & Computation, Department of Cognitive Science, Xiamen University, Xiamen, Fujian361005, China)
A method of finding the visual center of gravity from a Chinese character is presented in this paper. Firstly we collect some Chinese character samples, and further extract visual balance center of each Chinese character. Then we mark visual center of gravity of the sample characters; ultimately construct a relationship model between the connected region’s visual balance center and visual center of gravity of Chinese characters based on statistics. The proposed method has many potential applications, such as feature extraction, designation and optimization of Chinese characters.
calligraphic characters; connected region; visual center of gravity; regression analysis
邓晓健(1988—),硕士,主要研究领域为可视化与图形图像处理。E-mail:dengxiaojian2015@gmail.com李彬(1989—),硕士,主要研究领域为图形图像处理,计算机认知与艺术。E-mail:libin543@gmail.com张俊松(1978—),通讯作者,博士,副教授,主要研究领域为计算机图形学,中文信息处理,脑与认知科学。E-mail:zhangjs@xmu.edu.cn
1003-0077(2015)04-0159-07
2014-12-29 定稿日期: 2015-03-10
国家自然科学基金(60903129);中国计算机学会中文信息技术开放课题基金(CCF2011-01-03)
TP391
A