基于多元线性回归与BP神经网络分析南疆巴旦木结构物理特性
2019-08-21李健王海明李勇
李健 王海明 李勇
摘要:运用多元线性回归与BP神经网络等多种数理统计手段对南疆巴旦木结构物理特性进行研究。基于多元线性回归及方差分析方法,对南疆巴旦木结构外形进行定义和物理参数测定,运用MATLAB软件得出,巴旦木长、宽、缝三者之间不是简单线性关系,其外形近似为关于横、竖、纵3椭圆截面对称的扁壳体;在测定对应的巴旦木果仁质量后,运用3层BP神经网络结构寻找巴旦木结构外形与果仁质量间的关系,建立相应质量预测模型。可在不破坏巴旦木外壳的情况下,通过长、宽、缝来预测巴旦木果仁的质量,从而为巴旦木无损品质分级及破壳装置设计提供理论基础。
关键词:MATLAB;多元线性回归; BP神经网络;巴旦木;结构物理特性
中图分类号: O4-34;TB303 文献标志码: A 文章编号:1002-1302(2019)12-0260-05
巴旦木,蔷薇科,其果仁富含蛋白质、脂肪、淀粉、单糖、维生素等,营养价值极高,为世界著名干果,国际市场销量很大[1-2]。我国巴旦木的主栽区在南疆喀什地区,此外,和田、阿克苏等地也有栽培[2-3]。目前,我国巴旦木年产量偏少,每年仍需从美国大量进口。消费缺口的存在促进了国内巴旦木种植和加工业的发展,潜在经济效益较为显著[3-4]。
我国巴旦木加工一直以人工为主,效率低且品质难以保证。食品安全以及人们对巴旦木果仁产品多样的要求,正强力推动着巴旦木深加工的机械化进程,然而目前国际上尚无成熟的巴旦木破壳、分级装备应用于生产[5-7]。目前国内坚果破壳、分级设备的设计主要依靠经验与试验来进行,缺乏对结构物理特性及破壳力学机制的系统性研究[8-9]。因此,分析研究巴旦木的结构物理特性,为巴旦木分级、破壳设备的优化设计提供理论依据与关键参数,就显得尤为重要与迫切。
本研究运用MATLAB软件与数理统计原理对南疆巴旦木壳体的结构外形及物理参数进行深入细致的分析。在采集大样本的基础上,对巴旦木的结构物理特性进行测量,研究巴旦木长、缝、宽彼此间存在的非线性关系,构建壳体几何模型,并探寻巴旦木果仁质量与巴旦木壳体外形间的关系,运用BP神经网络建立相应质量预测模型,以期在巴旦木加工产业化过程中,为相关机械结构的参数设计与校正提供参考。
1 材料与方法
1.1 材料与仪器
南疆巴旦木,由于土壤、气候、混种等原因,其品种非常复杂,主要品种有鹰嘴、纸皮、克西、双果、米森等,大小、形状、壳厚不一(图1),无法通过植物学分类进行甄别,也无任何标准可查。因其主产地在南疆喀什,这里选取喀什地区市场销巴旦木作为研究对象。
主要仪器设备包括游标卡尺:0~150 mm,测量精度为 0.01 mm,上海安亭科学仪器厂生产;面包體积测定仪:JMTY 型,测量范围为0~1 000 mL,重复性误差≤1.0%,重现性≤08%,河北省虹宇仪器设备有限公司生产;万能材料试验机:WD-D3-7型,上海卓技仪器设备有限公司生产;电子天平:FA1104型,测量精度为0.001 g,上海安亭科学仪器厂。
1.2 试验方法
1.2.1 巴旦木结构特征测量 依据大数定律和中心极限定理,当样本数据足够大时,其分布形式必为正态分布。这里随机选取2 000个巴旦木进行筛选, 剔除有病害、 畸形、已破壳的巴旦木,将剩余的1 412个作为试验样品。使用游标卡尺按图2所示分别测量各个试验样品的横向、缝向、纵向尺寸,同时使用面包体积测定仪测量其体积。
1.2.2 巴旦木果仁质量测量 利用万能材料试验机对巴旦木破壳取仁,试验机加载速度为240 mm/min,预加载量30 mm/min,之后使用电子天平称取巴旦木果仁质量。
1.2.3 数据处理 试验数据处理使用Excel与MATLAB2015b软件。
2 基于MATLAB多元线性回归与方差分析构建南疆巴旦木几何模型2.1 巴旦木结构物理特性的回归分析这里选取南疆巴旦木的几何外形为研究对象,长、缝、宽各自的样本容量分别为1 412个。调用MATLAB中的H=kstest(X)函数分别对长、缝、宽各自的数据(表1)进行正态分布检验,测试水平alpha为5%,其中H为正态分布检验值。将长、缝、宽各自的数据分别代入X中,在MATLAB中的运行kstest(X)函数得H=0,因此认为长、缝、宽各自均服从正态分布。
对所研究对象的三维尺寸数据进行比较发现,巴旦木彼此间的长、缝、宽数据存在相互交错的现象,但对单个巴旦木而言, 依然存在着长>缝>宽的规律。为更进一步明确巴旦
木三维尺寸间的关系,对长、缝、宽各数据间的相关性进行深入研究,并作回归分析。首先对长、 缝、宽数据两两间的关系进行回归分析,从图3可以看出,长、缝、宽三者彼此间存在一定的正相关关系,其相关系数分别为r1=0.994 8(长-缝)、r2=0.971 2(长-宽)、r3=0.962 2(缝-宽),相关系数均大于0.95,表明长、缝、宽数据两两间的线性关系相当高。这一点与标准椭球体长、缝、宽间的分布关系极为相符,因此可认为南疆巴旦木外形与标准椭球壳有相似之处。
然后,进一步考虑长与缝、宽间,缝与长、宽间的关系,宽与长、缝间。对上述三者间的关系进行回归分析,求解出线性回归方程,分析结果见表2,长与缝、宽间,缝与长、宽间,宽与长、缝间3个回归方程各自的拟合优度R都约等于1,3个回归方程各自的概率P都远小于显著性水平005,说明预测的结论很准确,符合预期,长、缝、宽数据三者间的关系是高度线性化的。长与缝、宽间,缝与长、宽间,宽与长、缝间,各自的检验值F都不相同、逐步递减,且均方差(S)为0,表明巴旦木壳体的不同截面间存在着差异,与标准椭球体长、缝、宽三者间的分布关系不相符,因此可认为南疆巴旦木的外形结构与标准椭球壳相似,但不能如标准椭球壳般视为回转壳体处理。
2.2 巴旦木结构物理特性的方差分析
表1数据中,第5列为南疆巴旦木实测体积,由JMTY 型面包体积测定仪测得,第6列为由长、缝、宽数据依据标准椭球壳计算出的体积,此2列样本各自独立,由kstest(X)函数检验,都为正态分布。用MATLAB软件计算第5列、第6列数据的方差,分别为4.251 3×107、4.059 7×107,二者差距小于5%,因此可认为二者方差近似相等。对第5列、第6列数据进行方差分析,即分析南疆巴旦木外形结构与标准椭球壳间的差别,结果见表3。从表3可以看出,P=0<0.05,因此可认为南疆巴旦木实测体积与按照标准椭球壳计算出的体积间差距明显;二者间的差别即为F统计量770.534 6。
2.3 巴旦木几何模型的建立
综上可知, 南疆巴旦木虽为壳体但并非如椭球壳一样是轴对称回转壳体,其外形可近似如图4所示。巴旦木外形可近似为关于横、竖、纵3椭圆截面对称的壳体,设长、缝、宽分别为a、b、c。从图4可以看出,XOZ截面称为横椭圆截面,截面椭圆离心率为e1;XOY截面称为竖椭圆截面,截面椭圆离心率为e2;YOZ截面称为纵椭圆截面,截面椭圆离心率为e3。分别计算所研究的1 412个巴旦木样本的e1、e2、e3,之后进行数据统计处理,结果见表4。
从表4可以看出,巴旦木3截面离心率的变异系数均小于13%,说明利用离心率均值来探讨巴旦木截面形状具有很高的可靠性;且0 3 基于BP神经网络构建巴旦木果仁质量预测模型调用MATLAB中的H=kstest(X,[ X,p],alpha)函数对表1中巴旦木果仁质量的数据进行正态分布检验,测试水平alpha为5%。其中,p代表各种分布形态的累计分布函数,这里引入的不同种分布类型有normcdf正态分布、gamcdf伽马分布、poisscdf泊松分布、expcdf指数分布、raylcdf瑞利分布。将各种不同分布形态下的累计分布函数分别代入kstest(X,[X,p],alpha)函数中,在MATLAB中运行,最后得H=1(图5),即巴旦木果仁质量的数据不服从以上任何类型的分布形态。此时, 若要寻找巴旦木果仁质量与巴旦木壳体外形间的内在联系,由于长、缝、宽服从正态分布,而果仁质量不是任一种常见的分布形态,就不能简单利用多元线性回归来进行分析。
本研究采用3层 BP 神经网络结构来进行分析。在 1 412 组数据中,随机抽取出1 332组数据作为BP神经网络的训练样本,其余80组数据为BP神经网络的测试样本。经MATLAB多次试验,确定输入层结点数目为3个,隐含层节点数目为8个,输出层节点数目为1个,训练函数为trainlm,传递函数为tansig, 输出函数选用purelin, 最大训练次数为300次,学习速率为0.001,训练目标最小误差为0.000 02,最大确认失败次数为10次。
从图6可知,训练样本数据、验证样本数据与测试样本数据之间在训练过1次之后基本没有差异,接近于设定的训练目标误差值,为0.213 6。而在训练过3次以后,训练样本、验证样本、测试样本三者形成的曲线完全重合,且三者均与目标值曲线重叠,达到训练预期。
在BP神经网络的运行过程中,训练状态的优劣取决于几个关键参数的变化(图7)。由于设定的最大确认失败次数为10次,从图7可以看出,确认失败次数达最大值时,训练次数为13次,在此时训练误差已不再减小,训练效果最佳,将停止训练。此时,训练过程中的误差梯度由1减小到0.003 2,不再变化;整体训练精度在训练过1次后趋于稳定,而后在第8次下降,在第9次达最小值,之后逐渐恢复并不再变化,保持为10-4。
用训练好的BP神经网络进行预测函数输出,预测结果如图8所示。由图5与图8可知, 期望输出即巴旦木果仁的实测质量分布在1.00~1.35 g之间,但分布杂乱,规律性较差;用BP神经网络预测的输出值主要分布在1.1~1.3 g之间,分布规律与实测值较为吻合,但彼此间仍有一定的误差存在,误差在0~0.15 g之间。
BP神经网络预测输出和期望输出的误差如图9所示。从图8、图9可以看出,虽然BP神经网络具有较高的拟合能力,但是BP神经网络预测结果仍有一定误差,预测误差在13%以内,某些样本点的预测误差较大,整体准确率在87%以上。在实际生产中,机械化作业效率高,1次处理的量很大,87%以上的准确率足以满足生产与经济需求。
4 结论
本研究基于多元线性回归BP神经网络对南疆巴旦木结构物理特性进行研究,结论如下:
(1)对南疆巴旦木长、缝、宽数据进行回归分析与方差分析发现,长、缝、宽数据两两间高度线性相关,相关系数均大于0.95,与标准椭球体长、缝、宽间的分布关系相符;长与缝、宽间,缝与长、宽间,宽与长、缝间的回归方程也都存在高度线性关系,但都含有常数项,因此巴旦木外形不是标准椭球壳。(2)通过构建南疆巴旦木几何模型,巴旦木的外形可近似為一异形椭球薄壳,且从横截面到纵截面椭圆离心率逐步减小,横截面椭圆最扁。(3)建立基于南疆巴旦木长、缝、宽数据和巴旦木果仁质量测定参数的BP神经网络模型,预测准确率在87%以上。
参考文献:
[1]殷继英,张 强,田 嘉,等. 新疆地区扁桃坚果品质分析[J]. 经济林研究,2015,33(4):58-64.
[2]邵丽珊,李 鹏,朱秋萍,等. 新疆野扁桃生物学特性研究[J]. 新疆农业科学,2016,53(7):1237-1244.
[3]Fadhil A B,Aziz A M,Altamer M H. Potassium acetate supported on activated carbon for transesterification of new non-edible oil,bitter almond oil[J]. Fuel,2016,170:130-140.
[4]Kostic M D,Velickovic A V,Jokovic N M,et al. Optimization and kinetic modeling of esterification of the oil obtained from waste plum stones as a pretreatment step in biodiesel production[J]. Waste Management,2016,48:619-629.
[5]吐鲁洪·吐尔迪,刘小龙,刘旋峰,等. 新疆巴旦木加工机械现状及解决的技术问题[J]. 农机化研究,2015(1):254-257.
[6]Sharifian F,Derafshi M H. Mechanical behavior of walnut under cracking conditions[J]. Journal of Applied Sciences,2008,8(5):886-890.
[7]Shahbzi F. Effects of moisture content,impact direction and impact energy onthe cracking characteristics of apricot pit[J]. World Applied Sciences Journal,2012,20(11):1520-1528.
[8]吐鲁洪·吐尔迪,阿依木妮莎·拜克热. 巴旦木破壳机的试验研究[J]. 农机化研究,2011,33(3):166-169.
[9]范修文,曾 勇,兰海鹏,等. 圆锥式巴旦木破壳分离机的设计[J]. 塔里木大学学报,2015,27(2):86-89.