基于Elastic Net特征变量选择的黄山毛峰茶等级评价
潘天红,李鱼强,陈 琦,陈 山
潘天红1,2,李鱼强2,陈 琦3,陈 山2
(1. 安徽大学电气工程与自动化学院,合肥 230061;2. 江苏大学电气信息工程学院,镇江 212013;3.黄山海关茶叶质量安全研究中心,黄山 245000)
为简化茶叶化学检测分析过程,实现茶叶高精度等级评价,该研究以黄山毛峰茶为研究对象,结合茶叶中茶多酚、儿茶素、咖啡碱、没食子酸及氨基酸成分检测,提出基于Elastic Net特征变量选择的茶叶等级评价方法,建立基于特征成分的黄山毛峰茶等级评价模型。试验选取6个不同等级共96个黄山毛峰茶叶样品,并分析了全部样品的19个成分,通过Elastic Net选取了9个特征成分(没食子酸、表儿茶素没食子酸酯、儿茶素、表儿茶素、没食子酸儿茶素没食子酸酯、表没食子儿茶素、谷氨酸、精氨酸和儿茶素苦涩味指数)建立等级评价模型,并与主成分分析(Principal Components Analysis, PCA)进行对比。100次蒙特卡罗试验结果表明,相比于PCA预测集准确率平均值为70.79%,基于Elastic Net特征变量选择的黄山毛峰茶等级评价准确率更高为78.72%。在此基础上,构建Elastic Net特征变量雷达图,实现黄山毛峰茶等级多变量综合评价可视化。研究结果表明所提方法可有效选择茶叶特征成分,提高黄山毛峰茶等级评价准确率,为茶叶高精度等级评价提供参考。
模型;品质控制;Elastic Net;特征变量选择;黄山毛峰茶;等级评价
0 引 言
本文以黄山毛峰茶为研究对象,利用Elastic Net分析方法进行茶叶中特征成分分析选择,建立基于特征成分的茶叶等级评价模型,并采用蒙特卡罗法进行等级评价建模稳定性分析,为黄山毛峰茶实际等级评价提供理论依据。
1 材料与方法
1.1 材料
分批在黄山市代表性产区徽州区富溪村、杨村和新田村3个产地采摘茶鲜叶样品,并使用手工制作工艺制备黄山毛峰茶样品。工艺主要包括杀青、揉捻和烘焙[21],其中:1)杀青:每批将500 g左右的鲜叶均匀摊放在铜锅底部,在150 ℃下闷杀2 min;然后在130℃锅温下翻炒杀青,翻炒至叶质可揉捻成团、嫩梗不易折断。2)揉捻:杀青起锅后,将杀青叶均匀摊放,待热气散失后,反复揉捻杀青叶1~2 min,使青叶卷曲成条状。3)烘焙:将青叶按0.5~1.5 cm厚度均匀摊放在烘笼顶部,反复检测干燥程度,烘干到茶叶含水率为4%~6%。
邀请7名评茶员对制备样品进行感官评审,共选取了96个黄山毛峰茶标准样品,每个标准样采集1 000 g,不同等级标准样品数量如表1所示,不同等级按照采摘时间划分。
表1 不同等级标准样品数量
Note: the AD 1stgrade, AD 2ndgrade and AD 3rdgrade in table 1 represent the tea’s grade are advanced first grade, advanced second grade and advanced third grade, respectively, the same below.
1.2 试验仪器
液相色谱四极杆静电场轨道阱高分辨质谱仪(美国Thermo Fisher公司)、ACQUITY UPLC I-Class超高效液相色谱仪(美国Waters公司)、S-433D氨基酸分析仪(德国SYKAM公司)、CEM MARS 5微波萃取仪(德国LCTech公司)、Mettler-AL204-IC电子天平(瑞士METTLER TOLEDO公司)、HH-6数显恒温水浴锅(上海浦光公司)、Hettich Universal 320R台式离心机(德国Hettich公司)、UV2550分光光度计(日本岛津公司)、S40 Seven Multi型pH仪(德国Mettler公司)、Vottex-Genie 2漩涡混合器(美国SI仪器公司)、KQ200DE超声波清洗机(昆山市超声仪器有限公司)、Milli-Qgradient超纯水仪(美国密理博公司)、1095样品磨机(瑞典FOSS公司)。
1.3 试验方法
茶多酚总量按照《GB/T 8313-2018 茶叶中茶多酚和儿茶素类含量的检测方法》第4部分“茶叶中茶多酚的检测”进行测定。氨基酸总量按照《GB/T 8314-2013茶游离氨基酸总量的测定》进行。利用氨基酸分析仪测定茶叶中26种氨基酸,利用微波辅助萃取结合超高效液相色谱-四极杆静电场轨道阱组合高分辨质谱联用同时测定茶叶中的儿茶素、没食子酸和咖啡碱。
1.3.1 茶叶中儿茶素、没食子酸和咖啡碱测定
样品处理:称取0.2 g磨碎试样于50 mL试管中,加入10 mL在70 ℃预热过的体积分数为70%甲醇溶液,放入70 ℃水浴锅中提取10 min(5 min时震荡一次)。取出后于3 000 r/min离心10 min,吸取上清液于50 mL容量瓶中。重复提取2次,合并上清液,用5 mL的70%甲醇洗涤枪头,用水定容至刻度。
样品净化:取250L的样品提取液用水稀释4倍,经0.22m水系滤膜过滤至进样瓶中,供超高效液相色谱(Ultra Performance Liquid Chromatography, UPLC)分析。
色谱柱,Waters ACQUITY UPLC BEH C18(2.1 mm× 100 mm,1.7m);柱温,35 ℃;进样量,5L;检测器,紫外检测器;检测波长,278 nm。根据GB/T 8312-2013中测定儿茶素的流动相作为依据,流动相A:2.5%乙酸水溶液,流动相B:乙腈,洗脱程序:0~0.8 min,5%~10% B;0.8~2.4 min,10% B;2.4~3.2 min,10%~20% B;3.2~4.0 min,20% B;4.0~4.8 min,20%~10% B,4.8~5.0 min,10%~5% B。
1.3.2 茶叶中26种氨基酸含量测定
样品处理:称取2.0 g茶叶磨碎样品,放入250 mL具塞锥形瓶内,加入预先煮沸的沸水100 mL,盖好盖子,沸水浴加热30 min(每5 min震荡一次)。取出,待茶叶静置到底部,取上清液5 mL于50 mL离心管中,加入质量分数为4%的磺基水杨酸溶液15 mL,涡旋30 s后静置10 min,5 000 r/min离心5 min(使溶液中的蛋白质完全被除去),取上清液1 mL于另一离心管中,用1 mL样品稀释液稀释,涡旋使之混匀,过0.22m水系膜至进样小瓶,待进样。
仪器条件:样量,50L;色谱柱,锂离子型磺酸基强酸性阳离子交换柱;流动相A:pH 值2.90,流动相B:pH值4.20,流动相C:pH值8.00;试剂,茚三酮溶液;洗脱泵流速,0.45 mL/min;衍生泵流速,0.25 mL/min;双通道光度计检测波长,570 nm和440 nm;反应器温度,130 ℃。
1.4 特征选择方法
当=1时,式(3)为最小绝对收敛和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO),LASSO方法以1(1范数)作为惩罚项实现回归系数压缩,使绝对值较小的系数为0,从而实现特征变量选择和稀疏系数估计,其表达式为[23-25]:
可知,当=0和=1时,Elastic Net分别为岭回归和LASSO回归分析[24,26]。可通过变换将其转换为LASSO的形式进行求解,对于给定数据(*,*)和参数(1,2),定义数据集(,),满足[27]:
经过数据变换后样本维度变成了+而*秩为,故Elastic Net可实现全变量选择,克服了LASSO的特征变量维度和共线性限制。
1.5 模型评价指标
2 结果与分析
2.1 成分分析
表2 黄山毛峰茶成分分析表
表3 黄山毛峰茶成分相关性分析表
2.2 Elastic Net变量选择
由式(6)可知,Elastic net的优化函数()包含系数(0<<1)和正则化系数(0<)。为确定模型参数,本试验首先通过10次交叉验证确定系数,然后基于最小均方误差(Mean Squared Error, MSE)准则确定正则化系数[26]。当交叉验证确定参数=0.2时,不同正则化系数MSE变化曲线如图1所示,图中箭头所指为最小MSE点。由图可知,基于MSE准则的最佳正则化系数为=0.6。
图1 不同正则化系数均方误差变化曲线(α=0.2)
基于所选最佳系数(=0.2,=0.6),Elastic Net方法通过最小角回归算法(Least Angle Regression, LAR)迭代计算19个成分变量稀疏系数[26],非零稀疏系数对应成分变量即为特征成分变量。根据所得稀疏系数,本文共选择了9个特征成分变量(GA、ECG、C、EC、GCG、EGC、谷氨酸、精氨酸和儿茶素苦涩味指数),根据各变量贡献率大小最终所选特征成分如图2所示,可知选择特征成分按贡献率大小依次是ECG、GA、EC、精氨酸、EGC、儿茶素苦涩味指数、C、谷氨酸和GCG。
图2 特征成分贡献率
为验证Elastic Net变量选择的有效性,对不同等级之间特征成分分布进行可视化分析(图3)。由图可知不同等级之间选择特征成分含量存在明显差异。总体上样品等级越高,ECG、GA、谷氨酸、精氨酸和儿茶素苦涩味指数含量平均值越高,但是EC、EGC、GCG含量平均值越低。按照贡献率大小选择的前三特征成分ECG、GA、EC呈现出明显的等级差异,但其他变量之间存在交叉现象,由此可知,Elastic Net能够有效选择具有等级差异化分布的特征成分。
2.3 建模分析
将黄山毛峰茶等级特一(#1)、特二(#2)、特三(#3)、一级(#4)、二级(#5)和三级(#6)依次进行标记,以GA、ECG、C、EC、GCG、EGC、谷氨酸、精氨酸和儿茶素苦涩味指数作为输入变量,相应等级属性作为输出,并将全部样本随机分为训练集(67, 70%)和预测集(29, 30%)进行建模分析。预测结果分布如图4所示,可知基于Elastic Net选择特征成分所建模型的预测准确率为79.31%,能够实现较高精度等级评价,其中6个预测错误样本主要分布在相邻等级属性之间,其原因可能是不同等级茶叶样品采集于同一产地,相同或相似的地理环境条件导致成分含量基本相同。
2.4 模型对比
为验证Elastic Net特征变量选择的有效性,以原始数据为基准,采用相同的训练集和预测集样本,分别对PCA(2个主成分,累计贡献率99.42%)和Elastic Net回归模型进行100次蒙特卡罗试验[28]。为确保模型对比有效性,仅选择前8个特征变量(累计贡献率99.35%)进行蒙特卡罗试验。所建模型的训练集和测试集预测准确率结果如表4所示,测试结果表明,相比于基于原始数据的预测集准确率平均值(69.55%),PCA未能有效提高模型预测准确率(70.79%),而基于Elastic Net的模型预测性能得到明显提高,其模型训练集和预测集预测准确率平均值分别从70.92%、69.55%提高到77.48%、78.72%。此外,由预测集精度标准差可知,基于Elastic Net选择变量所建模型稳定性更高,能够实现较高精度的黄山毛峰茶等级评价。
表4 蒙特卡罗试验结果对比
3 结 论
本研究基于茶叶品质化学检测分析过程,结合Elastic Net特征选择方法,提出基于Elastic Net特征变量选择的黄山毛峰茶等级评价方法,在6个不同等级共96个样品数据集上进行等级测试,试验结果表明:
2)Elastic Net算法作为一种特征选择方法,能够更好地选择特征变量。相比于实际化学检测成分变量有19种,Elastic Net能够有效选择黄山毛峰茶等级评价特征成分减少至9种。
3)相比于原始数据准确率(69.55%)和PCA降维数据(70.79%),基于Elastic Net选择特征的黄山毛峰茶等级评价模型准确率更高(78.72%)、稳定性更好,在减少化学分析指标的同时有效地提高了模型分析性能。
4)基于Elastic Net选择的特征变量,易于构建黄山毛峰茶的特征成分雷达图,实现黄山毛峰茶等级多变量综合评价的可视化。
Evaluation of Huangshan Maofeng tea grades based on feature variable selection using Elastic Net
Pan Tianhong1,2, Li Yuqiang2, Chen Qi3, Chen Shan2
Huangshan Maofeng tea has become one of the most famous Chinese tea due to its amazing orchid fragrance and fresh, sweet taste. However, different quality grades of Huangshan Maofeng tea vary greatly in price. The quality evaluation of tea has posed a great challenge in the tea market. The quality grades of variant tea are also related to the different microelements and concentrations. Traditional sensory evaluation methods cannot achieve fast and accurate discrimination, particularly depending on the manual experience. Alternatively, the chemical analysis can serve as an essential method for the quality evaluation of tea. But the chemical analysis for all microelements was confined to its complexity and time-consuming in a large-scale production under gradually refined detection standards with the fast expansion of tea market. Previous studies reveal that the samples collected from the same production or origin places have the similar microelement compositions and concentrations, indicating that the variation of tea grades depends only on a few types of microelements. Therefore, it is reasonable to select the typical microelements for the distinguishing performance, thereby to optimize the traditional chemical analysis. In this work, a new method was proposed based on the feature extraction using the Elastic Net, in order to simplify the procedure of conventional chemical analysis, while to improve the grade evaluation. First, 96 samples of Huangshan Maofeng tea were collected from three original places (Fuxi, Yangcun, and Xintian village) with 6 quality grades (advance 1-3 grades, and 1-3 grades) using the traditional manual process. The chemical analysis was used to analyze the types and contents of 19 microelements. Second, a cross-validation method was used to determine the optimal parameters in the Elastic Net, and 9 feature microelements (Gallic Acid, Epicatechin Gallate, Catechin, Epicatechin, Gallocatechin Gallate, Epigallocatechin, Glutamate, Arginine and catechins bitterness index) were selected when the cost function was minimized. Third, the radar chart was used to visualize the selected 9 microelements, indicating the tea grade evaluation. To quantify the classification, a quality grade evaluation model of Huangshan Maofeng tea was established on the selected feature microelements using partial least squares regression. Monte-Carlo method with 100 times was chosen to evaluate the stability and robustness of the presented model. The proposed method can reduce the number of microelements from 19 to 9, and thereby to improve the identification accuracy of quality grade evaluation from 69.55% to 79.31%, compared with the traditional chemical analysis. A principal component analysis (PCA) was also taken for comparison. The recognition accuracies of PCA and the proposed method for validation set were 70.79% and 78.72% respectively in the Monte-Carlo experiment. The experimental results demonstrated that the selection of feature microelements was feasible to simply the traditional chemical analysis, and improve the prediction performance. The analysis model based on the typical microelements can simplify the current chemical process, and thereby provide a flexible selection to the quality identification of tea.
models; quality control; Elastic Net; feature variables selection; Huangshan Maofeng tea; grade evaluation
