APP下载

HPLC结合多元化学计量学鉴别水洗和日晒咖啡

2022-10-24杨浩澜包亮英刘实琪刘亦菲朱炎贞

中国食品学报 2022年9期
关键词:日晒图谱色谱

杨浩澜,包亮英,刘实琪,刘亦菲,朱炎贞,刘 芳,3*

(1 湖南中医药大学药学院 长沙 410208 2 湖南中医药大学中西结合学院 长沙 410208 3 湖南省中药饮片标准化及功能工程技术研究中心 长沙 410208)

咖啡是茜草科咖啡属的一种灌木[1],广泛种植于热带地区,我国的主要分布地区为海南省和云南省[2]。研究发现,定期喝咖啡可预防心血管疾病、2 型糖尿病、肥胖症和某些类型的癌症,并降低中风的风险[3]。此外,因其独特的口感及提神醒脑的效果而受到世界各地消费者的追捧。据统计,全球每天约消费22.5 亿杯咖啡[4]。随着咖啡热度的不断增加,咖啡品质相关的负面报道使得人们越来越重视咖啡的质量[5]。

水洗和日晒是咖啡最常见的两种加工方式[6]。两类咖啡在口感上存在较明显的区别,然而,其化学成分种类及含量的差异较小,凭借常规方法较难实现差异成分的筛选及对加工方式的预测。高效液相色谱(HPLC)指纹图谱能够较全面反映物质的成分和含量信息,在药物和食品的质量监测中发挥着重要作用[7-8]。面对HPLC 图谱中蕴藏的繁杂数据,如何进行有效分析成为一大研究热点,因化学计量学可同时控制大量变量并最大限度地提取不同类别间的差异信息[9],故越来越被认为是对实现HPLC 图谱价值的有力补充[10]。化学计量学与HPLC 图谱相结合的分析方法在产品类别及相应差异成分的预测方面具有独特优势,逐渐被应用于药物和食品的质量控制,现有研究思路大致可分为两类,一类采用主要化合物色谱峰面积信息建立主成分分析(PCA)或偏最小二乘判别分析(PLS-DA)模型,以探究化合物含量与质量间的关系[11-13],然而常忽略图谱中微弱波动可能具有的重要作用,模型预测效果一般,且难以全面挖掘潜在质量标志物;另一类通过HPLC 全谱数据信息建立产品类别的预测模型[14-16],然而现有文献报道仅获得HPLC 图谱对产品质量的预测模型,尚未深入探究化合物成分与类别间的潜在关联。本研究旨在建立多元化学计量学结合HPLC 全谱原始信号寻找差异成分的方法,并与共有峰峰面积信息建立的模型进行对比分析。以水洗咖啡和日晒咖啡为例,建立两类咖啡的鉴别模型,分别探究通过全谱信息和共有峰峰面积建立的PLS-DA 模型的效果差异,以及多元算法对HPLC 鉴别模型的贡献,为药品、食品特征差异成分的确认和相关质量标准的建立提供一个更为精确、全面的新方法,以弥补传统方法的缺陷。

1 材料与方法

1.1 材料与试剂

供试的40 批咖啡来源于淘宝(豆兽咖啡)和当地咖啡厅,其产地分别为巴拿马、肯尼亚、埃塞俄比亚、哥伦比亚、巴西、牙买加、卢旺达、危地马拉和洪都拉斯,每批25 g,粒径和色泽均匀,密封包装。

甲醇(色谱纯),德国Merck 公司;磷酸(分析纯),国药集团化学试剂有限公司;绿原酸(色谱纯),成都克洛玛生物科技有限公司;试验用水为来自Direct-QR 8 UV Remote 纯水系统(ZRQSVR 800,美国密理博)的超纯水。

1.2 仪器与设备

Waters Alliance e2695 型高效液相色谱仪(四元梯度洗脱系统、配2998 PDA Detector 紫外检测器、Empower 3 操作软件),美国Waters 公司;LE204E/02 分析天平,梅特勒-托利多仪器上海有限公司;KM-500DE 型超声波清洗器,昆山美美超声仪器有限公司。

1.3 软件

使用 “中药色谱指纹图谱相似度评价系统(2004A 版)” 分析各样本指纹图谱间的相似度;The Unscrambler X 10.4(64-bit)划分校正集与测试集;SPSS 26 用于进行斯皮尔曼相关系数分析;SIMCA 14.1 建立PLS-DA 模型和实现重要投影变量(VIP)值的评价;Matlab 用于反向区间偏最小二乘法(BiPLS)、连续投影算法(SPA)、无信息变量消除法-偏最小二乘法(UVE-PLS)、竞争性自适应重加权算法-偏最小二乘法(CARS-PLS)分析;数据结果图均由Origin2020 生成。

1.4 HPLC 分析

1.4.1 样品及标准品溶液的配制 精密称取1.0000 g 咖啡样品,置于具塞锥形瓶中,加入甲醇-0.1%磷酸水溶液(1∶1)50.0 mL,超声提取20 min,静置冷却后过0.45 μm 滤膜,备用。

精密称取(0.0200±0.0002)mg 绿原酸标准品,以0.4%磷酸甲醇溶液溶解并稀释,制得质量浓度为(0.20±0.002)g/L 的绿原酸标准溶液。

1.4.2 色谱条件 HPLC 分析采用Waters Alliance 高效液相色谱仪 (Waters2695 分离模块,Waters2998PDA 检测器),Waters Symmetry C18色谱柱 (250 mm×4.6 mm,5 μm);流动相A 为甲醇,流动相B 为0.1%磷酸水溶液。梯度洗脱程序:0.0~1.78 min,11%~20% A;1.78~3.18 min,20%~26% A;3.18 ~8.09 min,26%~38% A;8.09 ~10.01 min,38% A;10.01~11.67 min,38%~60% A;11.67~20 min,60%~60% A。流速:1.0 mL/min;检测波长:210,254,320 nm;柱温:30 ℃;进样体积:10 μL。

1.5 多元数据分析

1.5.1 数据预处理 为考察咖啡产地差异是否可作为与其加工方式无关的随机干扰,采用SPSS 26 计算咖啡产地与加工方式的斯皮尔曼相关系数,采用Kennard-Stone 算法分别将40 批样本的全谱信息和共有峰峰面积数据按7∶3 的比例划分为校正集和测试集,以保证校正集与测试集样本划分的合理性[17]。通过“中药色谱指纹图谱相似度评价系统(2004A 版)”进行分析,时间窗宽度设为0.10,以平均数生成对照指纹图谱,各样本指纹图谱与对照指纹图谱间相似度的平均数为0.992 提示各样本指纹图谱间无显著性差异,为尽可能地保留与峰形、化合物自身性质及化合物间相互影响等相关的原始信息,保证分析所得PLS-DA 模型中各变量的相关系数能准确、真实地反映指纹图谱原始信息与各类别间的联系,故未对原始图谱信息进行其它处理。

1.5.2 PLS-DA 模型的建立 PLS-DA 模型可提取与样本类别相关度最高的数据信息,即最大限度地提取不同类别数据之间的差异[16],从而判别咖啡的加工方式。分别以HPLC 全谱和两类咖啡共有峰为数据源建立PLS-DA 模型,采用7 折交叉验证和置换检验(置换次数为200 次) 检查模型,并通过模型的预测能力(Q2)、校正集均方根误差(RMSEE)、交叉验证均方根误差(RMSEcv),以及测试集的准确度、敏感度、特异度对模型质量进行评价。其中Q2 值用于衡量模型的预测能力,其值大于0.5 提示模型具备良好的预测能力[18]。RMSEE 与RMSEcv 值越小,则表明模型与数据的偏差越小、模型交叉验证结果越准确。准确度(Accuracy)、敏感度(Sensitivity)、特异度(Specificity) 用于评价模型对测试集中各样本所属类别的预测能力[19]。计算公式如下:

式中:Yip和Yi分别表示校正集或交叉验证中的第i 个样本类型的预测值和实测值 (日晒及水洗判别式中的实测Y 值均默认为1);A 为因子数;n 为样本集数;TP 和FN 分别为测试集中日晒类别的真阳性或假阳性数目;TN 和FP 则分别为测试集中水洗类别的真阳性或假阳性数目。

1.5.3 模型优化及差异成分的确定 数据中存在的噪音变量不但干扰样品类别的判定,而且影响模型质量,故应适当筛选变量以消除噪音干扰,提高模型的准确性。通过筛选VIP 值大于1 的变量以及BiPLS、SPA、UVE-PLS、CARS-PLS 等变量优选算法分别对两类数据建立的PLS-DA 模型进行优化[20-21],其中BiPLS 算法的区间数设为10,20,30,40,50,60,70,80,90,100,CARS 算法的迭代采样次数设置为100 次。由于BiPLS 算法是基于区间进行模型优化的,最佳区间组合中可能仍存在干扰变量,因而采用SPA、UVE、CARS 等算法对效果最佳的BiPLS 模型继续进行优化,以消除可能残余的干扰变量。为进一步探寻优选变量与咖啡类别间的关系,将最佳模型判别函数中X 变量的相关系数×100-1标记于色谱图上,生成相关系数标记图,充分挖掘两类咖啡的差异成分及其与加工方式之间的关联。

2 结果与分析

2.1 HPLC 分析

综合比较了210,254,320 nm 波长下40 批咖啡样品的HPLC 全谱,选择信息量最大的254 nm波长下的数据进行化学计量学分析,结果如图1所示。从中发现,日晒咖啡中各主要峰的峰面积均相对较大,提示日晒咖啡中主要成分的含量可能高于水洗咖啡,但仅凭峰面积值的大小不能科学、合理地判断两类咖啡间的差异。为筛选出反映咖啡加工方式的差异成分,分别导出全谱数据及共有峰数据进行多元化学计量学分析,其中,共有峰数据选择信号值较强且峰形较好的17 个峰 (图1)[28]。由表1可知,斯皮尔曼相关系数分析所得Sig.(双尾)值为0.496,提示本研究咖啡样本的产地虽存在差异,但该差异属于随机干扰,与其加工方式间并无显著关联。

表1 咖啡产地与加工方式的斯皮尔曼相关系数分析Table 1 Analysis of Spearman correlation coefficient between the producing area and processing mode of coffee

图1 咖啡样品的HPLC 全谱及两类咖啡的共有峰Fig.1 HPLC full chromatograms and common peaks between the two types of coffee

2.2 模型优化及差异成分的确定

2.2.1 基于多元算法的模型优化 采用BiPLS、VIP、SPA、CARS、UVE 等算法处理后的共有峰峰面积数据仍无法建立有效的PLS-DA 模型,而处理后的全谱数据建立的PLS-DA 模型却发生了极大改善,结果见表2,与原始模型相比,经过变量优选后的模型均获得了较好的效果,其中采用90个区间建立的BiPLS 模型准确度最高、RMSEcv 值最小,以及远远大于0.5 的Q2 值,分别为83.33%,0.217,0.813,提示此模型具有较好的预测能力,为变量优选后的最优模型。由优化后的模型得分图(图2)可知,水洗与日晒两类加工方式的咖啡样本在独立贡献度最高的3 个主成分上区分较好,该模型中日晒咖啡类别的实际值与预测值拟合图则清晰地展现了模型预测效果(图3),各样本坐标分布越集中于曲线X=Y 附近,则模型效果越好。采用算法优选后的变量分布情况见图4,从中可见经BiPLS 算法优选后的残余变量数目较多,连续性好且主要分布于化合物峰上,能较好的保留化合物信息,而经其它算法优选后的残余变量数目较少,分布零散,经SPA、UVE 算法优选后仅极少变量分布于化合物峰上,由此可见,采用Bi-PLS 算法进行变量优选的意义大于其它算法。

表2 基于多元算法的全谱变量优选结果Table 2 Full graphs variable optimization results based on multivariate algorithm

图2 PLS-DA 模型得分图Fig.2 The score of PLS-DA model

图3 日晒类别的实际值与预测值拟合图Fig.3 Matching diagram of actual values and predicted values of sun exposure category

图4 经BiPLS (a)、UVE (b)、SPA (c)及CARS (d)算法优选后的变量分布图Fig.4 Variable distribution maps optimized by BIPLS (a),UVE (b),SPA (c) and CARS (d) algorithm

2.2.2 基于组合算法的变量优选 采用VIP、SPA、UVE、CARS 等算法对效果最佳的BiPLS 模型进行再次优化,结果见表3,经各类组合算法优化后建模效果反而降低,其中通过SPA 算法处理后的模型Q2 值下降最为显著,相较处理前最佳的BiPLS 模型,其Q2 值由0.813 降为0.0812,推测可能由于过度优选变量破坏了BiPLS 算法建立的区间连续性,从而使模型失去了对色谱峰信息的描述能力。综合比较后选择模型效果最好且信息保留较多的90 个区间下的BiPLS 模型作为两类咖啡样本的鉴别模型。

表3 基于组合算法的变量优选结果Table 3 Variable optimization results based on combination algorithm

2.2.3 差异成分的确定 最佳模型中优选变量的相关系数标记图见图5,该图详细反映了每个差异变量与两类咖啡间的关系,其中系数为正的变量值越高,样品为日晒咖啡的可能性则越高。若单个峰中的大部分变量值为正,则提示该峰对应的化合物能在日晒咖啡样品中检测出较大含量,为日晒咖啡的特征成分;反之,色谱峰包含的变量相关系数为负数,则提示该峰为水洗咖啡的特征成分,以此有效区分水洗和日晒两类咖啡,由此可判断1~3 号波动依次为水洗、日晒、水洗加工方式的潜在特征成分(图5a~5c 中的5b、5c)。在本试验选定的色谱洗脱梯度和210 nm 或254 nm 检测波长下,1~3 号相应信号仅仅为较小的细微波动,但变量优选及建模结果提示这些波动对咖啡类别的区分具有重要意义,故图中1~3 号信号为可反映两类咖啡内在特性的差异成分。从图5c 可见,320 nm 下的3 处波动信号值较254 nm 及210 nm 均出现明显提升,且峰形改善,提示通过优化色谱条件可改善最佳模型中仅为细微波动的差异成分的响应值及峰形,为后续对该峰进行定性定量分析提供途径,最终全面准确地挖掘样品中可能存在的内在差异成分,体现样品的特征性。综合分析相关系数标记图,结合标准品定性分析,确认最佳模型中优选变量较多且含量最高的化合物为绿原酸(图6),绿原酸含量对咖啡加工方式的影响为其峰上原始数据的综合反应,而非单纯正负相关(图7a~7c 中的7a),这正是在积分过程中舍去单个数据点与类别间关系的共有峰数据无法实现对两类样本进行鉴别预测的主要原因。

图5 210nm(a)、254nm(b)及320nm(c)各变量的相关系数及局部放大图(a-c)Fig.5 Correlation coefficients and partial enlarged of drawing (a-c) in 210 nm(a),254 nm(b)and 320 nm(c)

图6 咖啡样品(a)和绿原酸标准品(b)的HPLC 色谱图Fig.6 HPLC chromatogram of coffee sample (a)and chlorogenic acid standard (b)

3 结论

通过联立HPLC 全谱与多元化学计量学,构建一个全面准确鉴别水洗咖啡和日晒咖啡内在特征差异成分的方法。研究结果表明,共有峰的数据在积分过程中失去单个数据点与加工方式之间独立的相关性,故而难以区分两类咖啡,而HPLC 全谱中丰富的信息不仅包含反映化合物含量的峰面积积分信息,还包含了各种含量较低的化学成分信息以及每个峰的峰形信息,可全面反映各个化合物的内在特征及各化合物之间可能存在的相互作用,最终有效识别两类样本,故相较于以单个或多个共有峰评判产品质量的传统方法,采用HPLC全谱结合多元化学计量学的方法建立的鉴别模型准确度更高、描述能力更强且优化空间更大。通过多元化学计量学分析方法比较发现,BiPLS 算法能建立良好的预测模型并保留丰富的连续信息,使用组合算法反而破坏了BiPLS 算法的预测效果。本研究最终通过相关系数标记图确认了多个水洗咖啡与日晒咖啡的特征差异成分,经标准品定性确认含量最高的重要差异成分为绿原酸。

本文构建的方法全面体现了样品内在的丰富信息,最终全面挖掘所有可能的特征差异成分,该法具有极高的应用性和适用性,通过将Y 值替换为药品质量等级、炮制程度或药理学参数等其它数据,可在质量控制领域发挥作用,从而更好地监管药品食品质量,维护消费者的健康与权益。

猜你喜欢

日晒图谱色谱
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
张卫国
宫里的世界
丁硫克百威的液相色谱研究
塔树
固相萃取—离子色谱测定大气颗粒物的甲胺类及其氧化产物
图表
窄内径多孔层开管柱的制备及在液相色谱中的应用
守望