基于GRNN和PNN的西部青年女性乳房形态识别
2020-08-20毛倩,周捷,王琪
毛 倩,周 捷,王 琪
(西安工程大学 服装与艺术设计学院,陕西 西安 710048)
0 引 言
女性胸部形态的复杂性导致文胸号型与个体乳房之间的匹配性较差[1]。近年来,随着网购文胸的盛行,提升文胸选购满意度成为电商需要解决的一个问题[2]。为了提高文胸的合体性,相关学者主要就乳房形态分类[3-5]、文胸结构优化[6-7]、文胸与人体特征的关系[8-10]等方面进行研究,但是关于乳房形态识别的研究相对较少。乳房识别能够为文胸号型推荐提供参考,增加网购文胸与消费者乳房的匹配性,从而提高文胸的合体性与舒适性。
广义回归神经网络(GRNN)和概率神经网络(PNN)皆有较强的非线性映射能力及高度容错性,对于非线性问题的研究具有高效性,故而广泛应用于各种领域的分类问题[11-12]。基于此,本文采集西部地区108名青年女性的乳房信息,使用密度峰值聚类算法(CFSFDP)对乳房形态进行分类,再使用GRNN及PNN算法对10组乳房特征集样本进行乳房形态识别,比较不同乳房特征集及神经网络模型下,乳房形态的识别精确率和识别时间,从而确定最佳乳房识别模型。
1 实 验
1.1 测量方法与对象
基于马丁人体测量仪,采用接触式手工测量方法对西部地区108位年龄19~27岁,身高(160.07±5.89) cm,身体质量指数(body mass index, BMI)值17~25 kg/m2,乳房基本发育成熟的女性进行乳房特征数据采集。按照FZ/T 73012—2017《文胸》的型号分类方法对测量对象进行乳房信息统计,得到样本分布,如图1所示。
图 1 样本的乳房号型分布
由图1可知,样本的号型分布范围较广,共有22个,保证了实验结果的普适性。其中,样本主要集中于A、B杯型和75、70号,代表了青年女性群体的主要乳房形态。
1.2 测量要求
在环境温度(25±1) ℃,相对湿度65%±2%,安静无风的室内,对被测者裸体状态下的乳房进行数据采集。要求被测者足跟并拢,身体挺直站立在水平地面上,目视前方,双臂自然下垂,由专业测量人员参照GB/T 5703—2010《用于技术设计的人体测量基础项目》,采集被测者的乳房数据。
1.3 测量项目
根据乳房形态分类的相关研究[13-15],最终选定乳平围、乳间距、胸宽、胸厚、颈窝点至乳头点长、胸围至下胸围高、乳间距/胸宽、胸厚/胸宽、颈窝点至乳头点长/胸围至下胸围高等9个乳房测量项目,如图2所示。其定义见表1,其中乳平围与颈窝点至乳头点长,取右侧乳房测量数据。
(a) 乳房侧视图 (b) 胸围切面图
表 1 乳房测量项目
测量项目中, 乳间距/胸宽、胸厚/胸宽、 颈窝点至乳头点长/胸围至下胸围高为派生变量。其中:乳间距/胸宽描述了乳房的外扩程度, 值越大乳房的外扩程度越大; 胸厚/胸宽反映了乳房的丰挺程度, 值越大乳房越丰满; 颈窝点至乳头点长/胸围至下胸围高是乳房下垂程度指标, 值越大乳房的下垂程度越大。
1.4 研究方法
根据文献[15-16],选取g、h、i等3个派生乳房特征为研究对象,这3个变量分别描述了乳房在人体坐标系3个轴向上的形状,能够较好地反映乳房的立体特征。考虑到乳平围在文胸结构制作及乳房分类中的重要性[1],最终确定c、g、h、i等4个乳房特征为研究对象。
客观准确的乳房分类是提高乳房识别精确率的关键因素,因此,先采用CFSFDP算法,根据c、g、h、i等4个乳房特征对乳房形态进行聚类分析。然后以c、c-g、c-g-h、c-g-h-i、g、g-h、g-h-i、h、h-i、i等10种排列组合作为特征集,分别建立GRNN及PNN模型(模型编号分别为1~10号),并对乳房形态进行识别。最后,通过式(1)计算GRNN及PNN模型对乳房形态的识别精确率R,对比2种神经网络的乳房识别精确率及运行时间,获取最优乳房识别模型。
(1)
式中:P表示形态识别正确的样本数;N表示测试集总样本数。
2 乳房分类
由于乳房特征数据的形状未知,而常用的K-means聚类算法对于非球面数据的检测较弱。为了提高乳房形态聚类的可描述性及准确性,本文采用CFSFDP聚类算法对其进行分类。该算法适用于各种形状的数据集且比K-means算法更加简单[17],能够自动识别噪音点,并直观得到聚类中心数。
2.1 CFSFDP算法基本原理
CFSFDP是一种基于密度的聚类算法,假设聚类中心的密度最大,同时聚类中心与其周围的点之间的距离最近[18]。基于此假设的聚类中心在任何形状及任意维度中都能被识别出来,算法流程为:
1) 计算数据点m及n之间的欧氏距离dmn,式中的i为乳房特征。
n=1, 2, … 108,m≠n
(2)
2) 计算数据点m的局部密度ρm。
(3)
3) 计算数据点m与其他密度高于ρm的数据点之间的距离最小值δm。
对于非局部密度最大点,δm的计算公式为
(4)
对于局部密度最大点,δm的计算公式为
δm=max(dmn)
(5)
4) 确定聚类中心:根据数据点的ρm及δm画出决策图,选取局部密度ρ、距离δ相对较大的点作为类簇中心。
5) 指派剩余数据点的类别并确定类别边界。先将剩余的数据点归属到密度比它们高的最近邻所属类簇,得到聚类结果。再为每个类簇定义一个边界区域,即该类簇中与其他类簇点的距离小于dc的点集,最后为每个类簇找到其边界区域中密度最高的点,并以该点的密度作为阈值来筛选类簇中的噪音点。
2.2 CFSFDP乳房分类
采用Matlab 2017b对CFSFDP算法进行编程,并得到决策图,如图3所示。选取局部密度ρ与距离δ相对较大的数据点作为类簇中心,共得到4个类簇中心点。
图 3 CFSFDP聚类决策图
由图3可知,类簇中心1的ρ与δ值均最大,说明该类簇中心的代表性最强。就类簇中心4而言,ρ与δ值相对较大,故该点的代表性相对较好。虽然类簇中心2和3的ρ值偏小,但δ值较大,因此也可以作为类簇中心点,其代表性可能有偏差。4类类簇中心的乳房特征信息见表2。将剩余的每个样本点归属到密度比它高的最近邻所属类簇中,并将样本数据映射到X-Y二维空间中,得到4类乳房形态的样本数据集分布形状,如图4所示。
表 2 4类类簇中心的特征
由表2可知,对于g,类簇1和4的值最小,类簇2的值最大,类簇3偏小于类簇2,说明类簇1、4和2、3的乳房分别呈内敛和外扩状态。就c及h而言,这2个特征共同描述了乳房的丰挺程度。4类类簇中心之间的c相差较大,其中类簇2的最大,类簇1次之,类簇3的最小;类簇1、3、4之间的h相差较小且数值均偏小,说明这3类类簇的乳房呈扁平状,但类簇1相对丰满,类簇3相对瘦小,类簇4则相对适中,类簇2的乳房既丰满又高耸。关于i,类簇2的值最大,类簇1略小于类簇2,类簇4的值最小,类簇3的值则大约等于类簇2和4的均值,这表明类簇2的乳房下垂程度最大,类簇1其次,类簇4的乳房则偏高,类簇3的乳房相对适中。
基于以上分析,类簇1的类簇中心代表性最强,其乳房形态呈相对内敛、扁平、略丰满、略下垂,即乳房底座大,但胸部隆起偏低,类似于一个突出的圆盘,中国女性大多属于此类型,定义该类簇为标准型乳房(B′型)。类簇2的类簇中心代表性偏差,其乳房呈相对外扩、丰满高耸、下垂形态,由于乳房丰满容易发生下垂,因此定义为丰满型(D′型)。类簇3的类簇中心代表性也偏差,该类乳房呈相对外扩、扁平瘦小形态,可将其定义为扁瘦型(A′型)。类簇4的类簇中心代表性较好,其乳房特征与类簇1相似,呈相对内敛、扁平适中、高挺形态,故将其定义为高挺型(C′型),本文中的乳房形态代号为自定义,与FZ/T 73012—2017《文胸》标准无相关性。
由图4可知,虽然4类乳房样本数据集均存在离群点,但CFSFDP算法未检测出噪音点,说明这些离群点均在可接受范围内。标准型的乳房样本数最多,高挺型次之,丰满型最少,表明西部地区女性的乳房特征多为标准型和与标准型类似的高挺型,较少人拥有丰满型乳房。丰满型与扁瘦型的乳房样本数据点离散程度较大,标准型样本数据点相对较为集中,高挺型次之,这表明丰满型、扁瘦型样本数据集的乳房特征内在差异性较大,而标准型及高挺型的内在差异则较小。因此,为了提高文胸的合体性,其结构设计要注重细节尺寸的变化。
图 4 样本数据二维分布图
3 乳房识别
GRNN与PNN均是有导前向传播网络,由于这2种神经网络皆以径向基神经网络为基础,因此拓扑结构较为相似,均为4层网络结构,包括输入层、模式层、求和层及输出层[12,19],如图5所示。基于10组排列组合特征集,分别建立GRNN及PNN神经网络乳房识别模型,通过分析对比2种模型的运行时间和乳房识别精确率,得到最优乳房识别模型。
图 5 GRNN及PNN神经网络拓扑结构
3.1 建立GRNN神经网络模型
采用Matlab 2017b中的newgrnn函数建立GRNN神经网络乳房识别模型,为了分析乳房特征对乳房识别精确率的影响,以每组乳房特征排列组合的特征集作为GRNN神经网络的输入层x,以CFSFDP乳房聚类结果作为GRNN神经网络的输出层y,分别建立10个GRNN网络模型。同时,调用cputime函数获取该模型的运行时间,具体流程分为以下4步:
1) 划分GRNN神经网络的训练集及测试集。随机选取90个乳房数据点作为该模型的训练集,其余18个数据点(样本编号分别为P1~P18号)则进入测试集。
2) 创建GRNN神经网络乳房识别模型。先调用cputime函数,再将乳房特征集以90×i,i=1、2、3、4的形式送入网络输入层。以乳房聚类结果作为网络输出层神经元,调用newgrnn函数并设置网络参数spread的值为1,训练该模型。
3) 仿真测试。调用Matlab工具箱中的sim函数,基于训练的GRNN神经网络模型,对测试集样本的类别进行仿真预测输出。由于仿真预测值为小数,而乳房类别为整数,因此调用round函数对仿真值进行取整。
4) 仿真效果验证。对比乳房形态分类真实值与仿真预测值,评价该模型的识别有效性。
3.2 建立PNN神经网络模型
分析不同神经网络模型对乳房识别的影响,从而提高乳房识别精确率,为文胸号型的推荐提供依据。为减少样本划分对GRNN及PNN神经网络模型的识别精确率影响,PNN神经网络模型中训练集、测试集的输入层及输出层与GRNN保持一致,但两者的内部函数与建立流程有所不同。利用Matlab 2017b中newpnn函数建立PNN神经网络乳房识别模型,过程如下:
1) 划分该模型的训练集及测试集。该步骤与GRNN中的第一步相同。
2) 创建PNN神经网络乳房识别模型。先调用cputime函数计算模型运行时间,再调用ind2vec函数将训练数据集转化为稀疏矩阵形式,确定该模型中神经网络的输入值及输出值,最后调用newpnn函数并设置网络参数spread的值为1,训练该模型。
3) 仿真测试。先调用ind2vec函数将测试集样本转化为稀疏矩阵形式,再调用sim函数对测试集样本进行类别预测,最后调用vec2ind函数将仿真预测值还原。
4) 仿真效果验证。该模型同样采用乳房识别精确率作为模型仿真效果的评价指标。
3.3 乳房识别分析
运行GRNN和PNN神经网络模型,得到10组排列组合特征集的乳房识别精确率与模型运行时间,如图6、7所示。
图 6 10组特征组合的乳房形态识别精确率
图 7 GRNN及PNN模型运行时间
由图6可知,对于GRNN神经网络模型,当乳房特征集为乳平围、乳间距/胸宽、胸厚/胸宽、颈窝点至乳头点长/胸围至下胸围高时,其乳房识别精确率达到最高,即88.89%,单独使用乳平围作为神经网络的输入层时,其乳房识别精确率也相对较高,为83.33%。除此之外,包含乳平围的其他特征集的乳房识别精确率均达到83.33%,当特征集中去除乳平围后,该模型的乳房识别精确率急剧下降并达到稳定状态,说明乳平围对该模型的识别精确率影响较大,也从侧面说明了乳平围是乳房形态的代表性特征。就PNN神经网络的乳房识别精确率而言,其规律与GRNN模型相似,皆是特征集中包含乳平围时达到最高,为100%,其余特征组合的乳房识别精确率均偏低。再次验证了乳平围对乳房识别的重要性。建议在文胸号型分类中增加乳平围作为参考指标,以提高文胸的合体性及推荐准确性。PNN模型的乳房识别精确率始终高于GRNN模型,这表明PNN模型比GRNN模型更加适合乳房识别,在以后的文胸号型推荐应用中,可以优先考虑PNN神经网络模型。
由图7可知,由于第1次神经网络模型运行时,Matlab需要读取内存等占用资源较多,因此运行时间最长,在第4次后趋于稳定;PNN模型的运行速度偏快。当特征排列集为乳平围、乳间距/胸宽、胸厚/胸宽、颈窝点至乳头点长/胸围至下胸围高时,2种算法的运行时间最快。
输入乳房特征集为乳平围、乳间距/胸宽、胸厚/胸宽、颈窝点至乳头点长/胸围至下胸围高时,2种神经网络的乳房形态仿真预测结果如图8所示。
图 8 测试集仿真预测
由图8可知,该测试集样本中包含了4类乳房形态,样本分布均匀,因此GRNN及PNN神经网络模型对乳房形态的识别结果具有全面性。PNN模型的乳房分类仿真预测结果与真实类别一致,GRNN模型误判2个乳房分类结果,将C′型、B′型分别误判为A′型、D′型。这表明GRNN模型对乳房的识别精确率偏差,可能是因为该模型的仿真预测值为小数,取整影响了其识别精度。
4 结 论
1) 采用乳平围、乳间距/胸宽、胸厚/胸宽、颈窝点至乳头点长/胸围至下胸围高等4个乳房特征对乳房进行分类,共得到标准型、丰满型、扁瘦型、高挺型4种乳房形态。
2) 乳平围对乳房识别精确率的影响最大,当神经网络的输入层特征集为乳平围、乳间距/胸宽、胸厚/胸宽、颈窝点至乳头点长/胸围至下胸围高时,乳房识别精确率达到最高,同时模型运行速度最快。
3) GRNN及PNN神经网络对乳房形态的识别精确率均较高,其中GRNN模型能够达到88.89%,PNN模型能够达到100%,PNN模型的识别精确率及运行速度皆优于GRNN模型。