基于电子感官和机器学习模型的混合金银花区分鉴别方法研究
2021-06-25杨天歌倪诗婷高旭华潘福璐陶欧
杨天歌,倪诗婷,高旭华,潘福璐,陶欧
(北京中医药大学中药学院,北京 102488)
金银花为忍冬科植物忍冬(Lonicera japonica Thunb)的干燥花蕾或初开的花[1],含精油、酚酸、黄酮类、三萜皂苷类、环烯醚萜类、挥发油以及微量元素等成分[2,3],味甘,性寒,具有清热解毒、疏散风热的功效[1]。
金银花是一种常用的药食两用药材,被广泛用于临床和保健产品的开发,如金银花茶、饮料等[4]。然而,刘安成、章晓骅等[5,6]在研究中发现完全开放的金银花,其绿原酸含量低于花蕾的含量,即花蕾质量优于完全开放的花朵,而且韩赟、郑国成等[7,8]研究也发现不同采收时间、不同花期的金银花中活性成分含量也存在较大差异,这就容易造成在生产过程中将不同采收时间或者不同花期的金银花混合后使用,从而影响产品质量[9-14],如何能及时控制原料的质量,是自动化生产中必须解决的关键问题之一。目前以金银花为原料的制剂研究主要集中于利用薄层法和高效液相指纹图谱鉴别粉碎前后成分和功能的变化[15-18],尚不能满足生产过程中快速、灵活、便捷的检测要求。随着信息技术的快速发展,仿生设备电子眼和电子舌被越来越多地应用于药品、食品生产过程中的质量控制[19-21],仿生设备具有分析迅速、操作简单和结果量化等特点,因此,研究如何建立一套借助仿生设备来模拟人感官功能,从外观、气和味等直观、快速、准确地评价混合后的金银花质量的方法,将是提高生产过程中金银花原料质量控制的有效途径。
Astree II电子舌是一种新型味觉分析仪器,使用味觉传感器阵列模拟生物味觉系统中的味蕾实现对不同味道的测量[22]被广泛用于中药产地、不同炮制品和中药粉中掺伪品的鉴别[23-26]中,但多停留在主成分分析后以散点图的形式展示,没有探索其他模型或形成量化结果。机器学习是人工智能技术的一种,利用计算机对数据的计算拟合实现对数据的分类。为实现对混合金银花的区分鉴别,本研究利用扫描仪及电子舌来获取视觉和味觉感官特征,将人的主观因素与特征结果分离,并考察机器学习模型对数据的区分效能,尝试将人工智能技术与中药区分鉴别活动相结合,使结果客观化,同时也为中药产地、真伪辨识等研究提供新的思路。
1 材料
金银花样品来自山东临沂,经北京中医药大学刘勇教授鉴定为忍冬科植物忍冬(L.japonica)的干燥未完全开花和干燥完全开花。
仪器:Astree II电子舌(Alpha MOS公司),自动进样器(Alpha MOS公司),HP Scanjet G4050扫描仪(中国惠普有限公司)。
电子舌包括7根传感器阵列,每根传感器有不同的专属敏感味觉,其对应关系,见表1。
表1 电子舌传感器敏感味觉对应表Table 1 Electronic tongue sensors for sensitive tastes
2 方法
2.1 供试品制备
金银花完全开花与未开花按不同比例混合出11组样品,粉碎后,过4号筛,各组样品,见表2。
表2 金银花待测混合样品Table 2 Honeysuckle mixed samples to be tested
电子舌供试品制备:参照药典规定测量有效成分的方法,称取粉末样品各0.5 g,置于具塞锥形瓶中,加入50%的甲醇50 mL,称定重量,超声处理(功率250 W,频率35 kHz)30 min,放冷,再称定重量,用50%的甲醇补足减失的重量,摇匀,离心,因甲醇浓度较高,为防止电子舌传感器损坏,取上清液5 mL,置于50 mL棕色容量瓶中,加入超纯水至刻度,摇匀,即得电子舌待测液。
2.2 数据采集
2.2.1 混合金银花的视觉数据采集 使用扫描仪获取每个组别样品的图像。扫描分辨率为1 200 dpi,观察可发现组0至组10的颜色逐渐加深且具有一定的规律性,见图1。将图像裁剪成400像素400像素大小的正方形。提取每个像素点的红、绿、蓝三通道数值,计算平均值作为视觉特征集。
图1 不同组金银花粉碎后图像Fig.1 Pictures with different levels
2.2.2 电子舌数据采集 将不同组别样品的电子舌待测液分别倒入专用烧杯中(25 mL),放入自动进样器,每个样品之间放置1杯超纯水用于清洗传感器,以免造成交叉污染。每个样品检测10次,取后6次的数据作为味觉特征集用于后续分析。电子舌的测量参数,见表3。
表3 电子舌测量参数Table 3 Parameters of electronic tongue
3 结果与讨论
3.1 混合金银花的视觉、味觉特征及主成分分析结果
混合金银花每11组不同配比为一个批次,采集视觉、味觉特征,实验重复3次。进行主成分分析,其中视觉特征为(红,绿,蓝)三维特征向量,前3主成分贡献率为100%,味觉特征为7个传感器的七维特征向量,前3个主成分贡献率均>90%;视觉特征与味觉特征合并,组成共10个特征的十维特征向量,并进行主成分分析,前3个主成分贡献率>90%。
味觉特征、视觉特征和视觉-味觉特征的主成分分析结果,见图2。
图2 主成分分析结果Fig.2 Principal component analysis results
由图2可知,味觉特征的主成分分析结果仅可以区分几组样品;视觉特征并不能有效区分各组样品,且样品分布离散;视觉-味觉融合特征保留了味觉特征的区分能力,同时也继承了视觉特征的特点,使样品分布趋于离散,因此味觉特征区分效果优于视觉-味觉融合特征结果,优于视觉特征结果。电子舌有7根传感器,因此味觉特征有7个属性用于区分混合金银花,而视觉特征只有红、绿、蓝3个属性,因此造成混合金银花区分性效果不佳。而视觉-味觉融合特征主成分分析结果并未优于味觉特征,可能是视觉特征干优造成,由此可知数据本身的可区分性以及数据融合的方式都会对区分鉴别结果造成影响。
3.2 混合金银花的区分鉴别模型
本研究考察了k-最近邻分析(k-nearest neighbor analysis,knn)、决策树(Decision tree,dt)、支持向量机(Support Vector Machine,svm)、随机森林(Random-Forest,rfc)和梯度提升树(Gradient Boosting,gbdt)等5种机器学习模型对视觉特征、味觉特征和视觉-味觉融合特征的混合金银花区分鉴别效能。
为了确定各模型的最佳参数,本研究采用网格搜索的方法进行参数筛选。网格搜索方法可将待训练模型的所有合理候选参数进行逐一测试,以选出其中的最佳参数。同时,为提高数据的利用率并减小随机性带来的误差,采用3折交叉验证方法对所选参数的效能进行评价,从而最终确定参数的最优取值。
从采集得到的11个组别数据中随机选出4/5作为训练集并平均分成3份,其余1/5作为测试集,见图3。
图3 数据分割方法Fig.3 Data segmentation methods
对视觉特征、味觉特征和视觉-味觉融合特征的数据进行归一化处理,以消除视觉特征值与味觉特征值数量级不同的影响。5种机器学习模型在不同特征集的验证集数据上的正确率均值,见图4。
图4 5种机器学习模型的正确率Fig.4 The correct rate of five machine learning models
图4 中ET组为味觉特征集,COLOR组为视觉特征集,ET&COLOR为视觉-味觉融合特征集。由图4可知,在每个特征集上5个机器学习模型的正确率均为svm>dt>=rfc>knn>gbdt。svm模型展现了良好的区分效能,svm在不同特征集上的正确率分别是味觉特征集>视觉-味觉融合特征集>视觉特征集,最高为88%。视觉特征集的不同机器学习模型正确率均处于最低,可能与其属性数量较少且各属性值比较接近,本身缺乏区分度有关,而融合特征受视觉特征干扰,未能得出比味觉特征更优秀的结果。rfc和gbdt模型为集成学习模型,受限于本次实验数据集规模较小,未能展现出更优秀的结果,且模型区分效能受参数影响较大,而调参是一个十分复杂且耗时的过程,因此参数的调谐也是影响模型正确率的一个原因。
3.3 讨论
随着信息技术的发展,感官仿生仪器逐渐应用于药品、食品生产过程中的质量控制,将人体感官仿真仪器用于中药的区分鉴别可以提高结果的客观性和准确性。本研究以不同混合比例的开花与未开花金银花为例,验证了基于扫描仪采集的视觉特征、电子舌采集的味觉特征及视觉-味觉融合特征的区分鉴别可能性。结果表明,主成分分析不能区分混合金银花,效果不佳。采用knn、dt、svm、rfc和gbdt等机器学习模型区分鉴别混合金银花具有可行性,其中svm方法在3种特征集上正确率最高。本研究未将电子舌传感器与人口尝味对应,而是作为描述样品特征的属性值直接使用,构成味觉向量,省去了数值与味道对应过程中的人为口尝过程与潜在的主观因素的影响。综上所述,扫描仪和电子舌的使用使得中药感官特征表述客观化,机器学习模型的应用使判断结果客观化,两者相结合使鉴别结果更加客观、准确和快速,验证了机器学习模型用于区分鉴别中药的可行性,为其他需要分类鉴别的如中药道地性研究、中药真伪优劣判断提供了新思路。但本研究存在实验样本小,难以形成大数据分析和条件有限不能考察更多其他机器学习模型鉴别效能的不足,需要在后续的实验中改进。