香茶品质因子的多变量分析及判别
2024-04-08马军辉冯海强罗列万王校常
马军辉,仝 晨,冯海强,李 倩,王 羽,罗列万,王校常,*,林 杰,*
(1.丽水市经济作物总站,浙江 丽水 323000;2.浙江农林大学茶学与茶文化学院,浙江 杭州 311300;3.浙江省农业技术推广中心,浙江 杭州 311103;4.浙江大学茶叶研究所,浙江 杭州 311300)
香茶起源于浙江,其选取中小叶种茶树新梢,采用循环滚炒等特定工艺加工而成,属于具有高香特征的炒青绿茶;其质优价平,是最典型的大众消费绿茶之一[1]。2018年浙江省香茶产量即达3.25万 t,占全省茶叶总产量17.52%,全省至少有22 个县生产香茶[2]。近年来,针对名优茶品质形成的研究较多,如对安吉白茶[2]、苏州碧螺春[2]、西湖龙井[2]、黄山毛峰[3]、太平猴魁[4]的品质成分分析,而对日常消费量更大的大众茶品质形成、品质关键因子的针对性研究则较少。浙江香茶作为生产、消费量较大的大宗绿茶,对其产地溯源、品种判别以及市场价格的判定进行研究非常必要。张悦等[5]对不同产地的香茶化学成分含量进行了分析,发现氨基酸组分中的天冬酰胺、脯氨酸和异亮氨酸在不同产地香茶中的质量分数存在显著差异。夏小欢等[6]对不同揉捻压力下香茶的感官品质和生化成分进行分析,发现香茶感官品质随着揉捻压力的增加整体呈现上升趋势。蔺志远等[7]研究了提香温度对香茶感官品质的影响,发现不同干燥条件下茶叶样品香气存在差异。然而,目前对构成香茶特有品质并起主要作用的化学成分组成和含量方面的研究尚不系统[8],香茶品质因子间的关联性研究不足,且鲜见其产地、品种的判别研究,这不利于其产地精准鉴别、品种判定及市场价格的预测。
本研究采集香茶产地交易市场同期购入的3 个代表性产区和4 个主产品种的50 个香茶样品,测定其常规理化成分、感官因子和儿茶素组分等19 个指标,采用相关性分析、线性判别分析(linear discriminant analysis,LDA)和随机森林回归(random forest regression,RF-R)分析等多变量分析方法探索香茶各指标间的关联性及其产地、品种的可判别性,并尝试构建单一品类茶叶(香茶)的批发交易参考价模型。旨在为大众绿茶的品质因子关联特征、县域产地判别和交易参考价预测等相关研究提供借鉴。
1 材料与方法
1.1 材料与试剂
茶叶样品:2017年6月于浙南茶叶市场收集香茶样品共50 个,样品产区来源覆盖松阳(16 个)、武义(19 个)、遂昌(16 个)3 个香茶主要产区,品种来源覆盖迎霜(12 个)、龙井43(13 个)、鸠坑(13 个)、乌牛早(12 个)4 个种植面积最大的香茶品种。按照DB3311/T 19—2020《丽水香茶生产技术规范》[9]将茶样分级,其中一级香茶样品9 个,二级香茶样品16 个,三级香茶样品25 个,分布在4 个价格区间:10 元/斤≤批发交易价<40 元/斤(25 个)、40 元/斤≤批发交易价<70 元/斤(15 个)、70 元/斤≤批发交易价<100 元/斤(7 个)、100 元/斤≤批发交易价<130 元/斤(3 个)。
8 种儿茶素单体、咖啡碱标准品 上海阿拉丁生化科技股份有限公司;甲醇(分析纯)、福林-酚、碳酸钠、水合茚三酮、磷酸二氢钾、谷氨酸、磷酸氢二钠上海Macklin试剂公司;乙腈、甲醇(均为色谱纯)美国Tedia公司。
1.2 仪器与设备
BSA124S-CW型电子天平 天津赛多利斯科学仪器有限公司;FW100高速万能粉碎机 天津市泰斯特仪器有限公司;HWS28恒温水浴锅 上海一恒仪器有限公司;HH-2数显恒温水浴锅 常州国华电器有限公司;3K15离心机 德国Sigma实验室离心机股份有限公司;LC-20A型高效液相色谱仪 日本岛津公司;2802S紫外分光光度计 日本尤尼柯公司。
1.3 方法
1.3.1 样品处理
所有样品置于干燥、无异味容器保存,温度4 ℃。收集样品均符合浙江省地方标准DB33/T 967—2015《香茶加工技术规程》[10]的适制香茶原料及加工方式要求,采用色泽鲜绿、新鲜匀净、无劣变或异味、无夹杂物的中小叶种茶树新梢通过摊放→杀青→摊凉回潮→揉捻→第1次循环滚炒→第2次循环滚炒→提香工艺制成的香茶。
1.3.2 感官审评与理化检测
按GB/T 23776—2018《茶叶感官审评方法》[11]对所取茶样进行感官评审,由3 位浙江大学茶学系审评专家对香茶品质进行评价,取3 g茶样于150 mL沸水,冲泡5 min后开汤审评外形、汤色、香气、滋味、叶底5 个因子。每项满分100 分并单独计分。按照集体评分方法,参加审评的人员组成一个审评小组,推荐其中一人为主评。审评过程中由主评先对感官审评5 个因子进行打分并作出感官评价。其他人员根据品质标准对主评出具的分数进行修改与确认,对观点差异较大的茶进行讨论,最后共同确定分数[11]。
茶叶中茶多酚含量以及儿茶素类化合物(儿茶素(catechin,C)、表儿茶素(epicatechin,EC)、没食子儿茶素(gallocatechin,GC)、儿茶素没食子酸(catechin gallate,CG)、表没食子儿茶素(epigallocatechin,EGC)、表儿茶素没食子酸酯(epicatechin gallate,ECG)、没食子儿茶素没食子酸酯(gallocatechin gallate,GCG)、表没食子儿茶素没食子酸酯(epigallocatechin gallate,EGCG))的检测参照GB/T 8313—2008《茶叶中茶多酚和儿茶素类含量的检测方法》[12];茶叶中游离氨基酸总量的检测参照GB/T 8314—2013《茶 游离氨基酸总量的测定》[13];茶叶含水量的检测参照GB/T 8304—2013《茶 水分测定》[14];茶叶水浸出物总量的检测参照GB/T 8305—2013《茶 水浸出物测定》[15]。每个样品检测指标均设3 次重复。
1.4 数据处理与分析
采用SPSS Statistics 25.0软件进行多变量分析,包括方差分析、线性回归分析和Pearson’s相关性分析,同时采用Tukey法进行差异显著性比较;采用SIMCA-P 14.1软件进行主成分分析和数据可视化处理,使用PyCharm Community Edition 2020.1.4软件进行LDA。基于Scikit-sklearn机器学习库实现RF-R分析,采用Python 3.27编程语言实现香茶批发交易参考价预测模型构建,建模脚本可在github网站(https://github.com)上找到。采用Scikit-sklearn库中的模型调参器Grid Search CV进行网格搜索参数调优。采用5折交叉验证法进行重复交叉验证,模型评价指标包含:均方误差(mean squared error,MSE)、平均绝对误差(mean absolute error,MAE)、决定系数(R2)、解释方差得分(explained variance score,EVS)。
2 结果与分析
2.1 香茶品质因子的相关性分析
首先对50 个香茶样品的常规理化指标、儿茶素组分、感官因子、产地交易市场批发价格因子进行相关性分析,以期找到香茶品质因子间的相关性特征。从图1可以看出,咖啡碱与氨基酸呈较弱的显著正相关(r=0.29*),与水浸出物呈较弱的显著负相关(r=-0.32*);而茶多酚与氨基酸、水浸出物、咖啡碱均无显著相关性。理化成分与感官因子之间也存在一定相关关系,例如,酚氨比与审评总分呈显著负相关性(r=-0.36*),与香气、滋味呈极显著负相关。氨基酸与产地交易市场批发价格也呈极显著正相关(r=0.38*);同时,酚氨比与产地交易市场批发价格达到显著负相关(r=-0.31*),咖啡碱与产地交易市场批发价格呈显著正相关(r=0.32*)。此外,5 项感官因子及审评总分与产地交易市场批发价格都达到了极显著相关水平(P<0.01);其中,外形与产地交易市场批发价格的相关性最高(r=0.90),超过了审评总分与产地交易市场批发价格的相关系数(r=0.88),其余感官因子与产地交易市场批发价格的相关系数都达到0.73以上。总体而言,咖啡碱与氨基酸、水浸出物间存在显著相关性;而产地交易市场批发价格与氨基酸、酚氨比、咖啡碱3 项理化因子及5 项感官因子均有较强相关性,研究结果可为后续进行香茶产地、品种的多变量判别分析、香茶产地交易市场价的特征品质因子分析及多变量预测模型构建提供一定的数据支持。
2.2 香茶的产地、品种特征品质因子分析
在品质因子相关性分析基础上,进一步对不同产地、不同采制品种香茶的各品质因子进行比较分析。如表1所示,就常规理化指标而言,不同产地所产茶样的游离氨基酸含量存在显著差异,松阳县所产的茶样氨基酸含量最高,且显著高于武义县;不同产地所产茶样的酚氨比、C含量存在极显著差异(P<0.01),武义县所产香茶酚氨比显著高于松阳县,C含量显著高于遂昌县;但不同采制品种所制香茶的理化成分含量并未达到显著差异水平(表2)。就审评总分而言,产地效应未达显著水平(P=0.087),而品种效应则达到极显著水平(P=0.001),迎霜的审评总分最高,且显著高于龙井43、鸠坑。就感官因子而言,不同产地香茶样品无显著差异,不同采制品种的香茶其外形、滋味均有极显著差异,香气和叶底存在显著差异。就产地交易市场批发价格因子而言,不同产地间差异达到显著水平(P=0.039),松阳县所产的香茶交易市场批发价格最高,且显著高于武义县,这与两地香茶氨基酸含量差异规律相符;不同品种间的产地交易市场批发价格差异达到极显著水平(P=0.003),迎霜品种所制香茶产地交易市场批发价格最高,且显著高于鸠坑,与审评总分的方差分析结果一致。综上,不同产地所产香茶的氨基酸、酚氨比、C含量及交易市场批发价格存在差异,可作为特征品质因子参与县域产地判别;不同采制品种的香茶审评总分及感官因子(外形、滋味、香气、叶底)存在差异,也可作为特征品质因子参与品种判别。
表1 不同产地香茶理化成分与感官因子比较分析()Table 1 Comparative analysis of physicochemical and sensory factors of Xiangcha tea from different geographical origins ()
表1 不同产地香茶理化成分与感官因子比较分析()Table 1 Comparative analysis of physicochemical and sensory factors of Xiangcha tea from different geographical origins ()
注:各成分质量分数均以干基计;*.差异显著(P<0.05);**.差异极显著(P<0.01);同行不同小写字母表示差异显著(P<0.05)。表2同。
表2 不同品种香茶理化成分与感官因子比较分析()Table 2 Comparative analysis of physicochemical and sensory factors of Xiangcha tea from different varieties ()
表2 不同品种香茶理化成分与感官因子比较分析()Table 2 Comparative analysis of physicochemical and sensory factors of Xiangcha tea from different varieties ()
2.3 香茶产地、品种的多变量判别分析
在香茶品质因子相关性分析、产地特征因子分析及品种特征因子分析的基础上,进一步探索了香茶产地、品种多变量判别分析的可行性。基于香茶样品的理化成分含量、感官审评评分、产地交易市场批发价格相关数据,采用LDA法对香茶产地、品种进行判别分析。分析发现,不同产地香茶形成各自的聚类群,松阳香茶、遂昌香茶、武义香茶虽有交叉但总体可区分,在感官因子和理化成分上三者存在一定差异,武义香茶主要分布于第1、4象限,遂昌香茶主要分布于第2象限,松阳香茶主要分布于第3象限(图2A),说明虽然3 个产茶县地域相邻,但彼此间仍然有一定的地域聚类和区分特征,可以此进行产地溯源。但基于常规理化成分、儿茶素成分、感官因子进行不同茶树品种采制的香茶LDA判别时,各品种茶叶明显混淆,聚类特征不足,进行品种判别的可行性不足(图2B)。
图2 香茶的LDA得分图Fig.2 LDA score plots of Xiangcha tea
2.4 香茶产地交易市场价的特征品质因子分析及多变量预测模型构建
在探索香茶产地、品种的可判别性之外,本实验也考虑了产地交易市场价格是否可由各品质因子进行预测,从而为制定香茶产地交易市场参考价格提供基础。为了探寻较优的香茶产地交易市场参考价格模型构建效果,采用RF-R分析进行建模测试。考虑到50 个原始数据集的样本并不丰富(n=50),为了充分利用数据集的信息来训练模型,选择了k折交叉验证进行模型的训练与测试(k=5)。由图3可知,预测模型在训练集的MAE、R2和EVS分别为2.980、0.969和0.962;测试集的MAE、R2和EVS分别为7.792、0.868和0.833。由此可知,基于香茶理化成分、感官因子构建随机森林预测模型的整体拟合性能较高。
图3 RF-R训练的香茶产地交易市场参考价格模型评价指标及PairplotFig.3 Evaluation indicator and pairplot of Xiangcha tea price prediction model trained by RF-R
为进一步分析各输入特征对香茶产地交易市场参考价格预测的影响,应用随机森林对输入特征的重要性进行计算并排序,结果如图4所示,随机RF-R模型中外形重要性最高,审评总分其次,然后是香气、汤色、叶底、滋味、氨基酸、水浸出物、酚氨比、咖啡碱、茶多酚(R2=0.867、MAE=7.907、MSE=86.124)。理化成分中咖啡碱、酚氨比、水浸出物3 个指标同产地交易市场批发价格的相关系数(依次为0.32、0.31、0.28)和感官审评因子中汤色、叶底、滋味3 项因子同产地交易市场批发价格的相关系数(依次为0.73、0.75、0.75)接近,因此重要性排序与相关性分析结果顺序略有不同。
图4 RF-R训练模型的特征因子相对重要性对比Fig.4 Relative importance of feature factors of the model trained by RF-R
3 讨论
本实验对典型的大宗绿茶——浙江香茶进行了研究,分析其品质因子间的相关性。一般来说,常规理化指标中咖啡因和氨基酸都和嫩度呈正相关[16],在本研究中,香茶咖啡碱和氨基酸之间呈现较弱的显著性相关,其结果与名优绿茶的研究结果[17]一致,但茶多酚与其他理化成分(除EGCG)之间没有显著正相关性,推测可能是因为香茶的原料采制嫩度相对于一般名优绿茶低;本研究中香茶样的茶多酚平均质量分数仅有17.78%,也侧面说明了这一点。低采制嫩度可能造成茶叶主要生化成分含量间的相关性规律不够明显,这也可能是大宗绿茶品质因子相关性规律与名优绿茶不同之处。在名优绿茶中,茶多酚与水浸出物通常呈极显著正相关[18-19]。因此,大宗绿茶理化成分含量之间的相关性与名优绿茶不一致,大宗绿茶理化成分含量的相关性值得进一步探究,为指导大宗绿茶的生产加工和品质提升提供更多科学的理论依据。氨基酸是茶汤中的主要呈味物质,茶叶中氨基酸的组成及含量与茶叶品质密切相关。在本研究中,氨基酸与审评总分、外形、香气、滋味均呈极显著相关。大量研究均显示,氨基酸是茶叶中鲜爽滋味的主要贡献物质,氨基酸大多具有鲜、爽、甜的特点,其中鲜味强度占70%,其含量与茶叶品质呈极显著的线性正相关[20-25],这与本研究结果相符。
当前的茶叶产地判别研究更多是针对国家、省域层面,对县域小产地判别研究不多,本研究基于常规理化指标、感官因子和产地交易市场批发价,采用LDA对香茶产地进行判别,结果显示,香茶存在明显的县域产地聚类,武义县所产的香茶酚氨比显著高于松阳县,C含量显著高于遂昌县,松阳县所产的茶样氨基酸含量最高,推测是由于松阳香茶在采摘方式上与武义和遂昌两县相比手采比率更高,采摘的鲜叶嫩度更高,这也使得松阳香茶的交易市场批发价格显著高于武义县,这个结论与实际生产情况相符。近年来,研究人员基于理化成分对绿茶产地的判别已进行了较多研究,咖啡碱、EGCG、茶氨酸和EGC/儿茶素总量(total catechins,TC)可准确判别中国绿茶和其他国家的绿茶,EGC、EGCG、TC和EGC/TC可较好地判别西南茶区、江南茶区、江北茶区和华南茶区四大茶区的绿茶[26];ECG、GCG、咖啡碱、游离氨基酸对湖北、浙江、安徽、贵州和四川的扁形绿茶主要品质特征有较好的判别效果[27];通过氨基酸组分的测定分析可将原产浙江的龙井茶与其他省份绿茶区分开[28]。上述几类方法可以通过理化成分含量测定实现准确的产地判别,推测是由于不同国家、不同省份各茶区地理位置相距较远,但松阳、武义、遂昌3 个县地理位置接近,基于当前常规理化成分分析的产地判别方法仍显不足,需要进一步寻找更多产地理化成分标记物用于提高模型判别力。
本研究发现香茶产地交易市场价格具有较高的可拟合性,基于香茶理化成分、感官审评因子构建的参考价模型具有较高可行性。RF-R分析在茶叶产量预测及特征因子重要性分析上得到应用[29],对绿茶饮用过程的代谢分析中也能得到关键预测因子[30],还可基于铁观音茶叶数据集建立茶叶价格评定模型[31],本研究运用RF-R分析给出了香茶特征因子的相对重要性,揭示了外形在香茶产地交易市场价格预测中具有较为重要的影响,外形品质是茶叶感官质量评价的主要因子,可以直观地反映茶叶品质的优劣。
本研究对大宗绿茶——香茶的常规理化指标、感官因子和产地交易市场批发价格进行多变量分析、产地与品种的判别分析和批发交易参考价模型的构建。相关性分析中游离氨基酸、咖啡碱含量均与多项感官因子呈显著相关;游离氨基酸、儿茶素含量及酚氨比为产地关联因子,可作为产地溯源的关键因子。LDA结果显示香茶存在明显的县域产地聚类,其县域产地判别存在一定可行性,而采制品种的可判别性仍不充分,这一结果可为大众茶产地溯源提供客观量化的参考依据。RF-R分析构建了拟合度较好的香茶批发交易参考价模型(R2=0.867,MAE=7.907,MSE=86.124),在价格拟合相对重要性特征因子得分中,外形最高,其次为审评总分,香茶的市场价格评估现状更倾向于“以外形取胜”,本研究可为大众茶交易参考价制定提供参考。