基于拉曼光谱的中药甘味辨识方法研究
2022-09-13沙晗刘淑明王慧田雪梅王耘北京中医药大学中药学院中药信息工程研究中心北京02488北京中医药大学生命科学学院北京02488
沙晗,刘淑明,王慧,田雪梅,2,王耘*(.北京中医药大学 中药学院 中药信息工程研究中心,北京 02488;2.北京中医药大学 生命科学学院,北京 02488)
“五味”是中药药性理论的重要组成部分,具体是指“酸”“苦”“甘”“辛”“咸”[1-2]。相较于药性中的“四气”和“归经”,其重要程度虽略有不足,但依然对于临床遣方用药、功效比类归属、药性学术研究等具有重要意义。
目前,研究者以“五味”为研究目标,进行了大量的探索,积累了宝贵的经验。汤学军等[3]探索了中药稀土元素含量分别与“五味”之“辛”“甘”“苦”的关联性,结果发现“辛”味中药的稀土元素含量明显高于“苦”“甘”味中药,以镧系元素最为显著。另有学者认为“五味”的根源在于物质成分,得出“酸”味中药含有更多鞣质、有机酸等成分[4-5];此外,研究者从味觉受体的角度发现,味觉第一受体家族(T1Rs家族)的T1R2/T1R3以异源二聚体的形式作为甘味受体,可与许多甘味物质相结合[6];而苦味受体家族(TAS2Rs)家族能与多味“苦”性中药成分作用等[7]。
上述相关研究均在一定程度上丰富了“五味”学说,为揭示其科学内涵提供了依据。但不可忽视的是依然存在着些许局限:① 研究往往是基于单味、几十味中药的小样本量分析,缺乏说服力,不具有普适性;② 中药作为分子集合体系,是一个复杂系统,而仅以元素、单一或少数物质成分及其靶点效应作为整个中药的表征尚有待考证,部分代替整体,忽视中药的宏观整体性,易产生以偏概全的结论。基于以上思考,本研究以药性是中药的固有属性为基本出发点,秉承宏观整体论的观念,以“五味”之“甘”为研究对象,结合大样本量的中药拉曼检测对其进行统计分析,并建立识别模型并进行评价筛选,以期得到甘味的整体量化表征和识别模型,丰富“五味”学说,促进中医药理论现代化发展。
1 材料
1.1 仪器
SEED 3000近红外拉曼光谱仪(上海如海光电公司);220V不锈钢压片模具(天津中世沃克有限公司);RS-FS1801中药材超微粉碎机(广州荣事达有限公司);DZF-6020真空干燥箱(上海一恒有限公司)。
1.2 试药
纯水(屈臣氏有限公司)。巴戟天、大枣、当归、甘草、防风、黄芪、山药、鹿茸、金银花、麦冬、艾叶、大黄、防己、枸骨叶、麻黄、羌活、益母草等中药共计330种(甘味中药139种,非甘味中药191种)均由安国市桓荣中药材有限公司提供,且所有药材经鉴定均符合2020年版《中国药典》规定,并出具鉴定报告。
2 方法与结果
2.1 样品预处理
330种中药材采用超纯水洗净,去除表面灰尘等杂质。然后放置于真空干燥箱中26℃恒温干燥1 h后,利用超微粉碎机打成粉末[8],再利用220 V不锈钢压片模具进行压片以备检测。
2.2 检测条件
激光器:Seabreeze Laser;激光器类型:板载激光器;中心波长:785 nm;功率:120 mW;光谱仪:XS11639-B40090157;积分时间:7000 ms;平均采集次数:3次;平均模式:硬件平均;拉曼位移200~3000 cm-1;基线处理lamdba:10 000,order:2;平滑滤镜lamdba:20,order:2。
2.3 数据收集方法
中药材经样品预处理后,将压片放置于样品台进行检测,采用连续扫描收集、激光自动模式,共计采集10次[9]。计算每味中药10次拉曼谱图的平均谱图[10],作为该中药最终拉曼谱图,并将其以1 cm-1为单位进行数字量化处理。
2.4 方法学考察
2.4.1 专属性考察 以当归、冰片、枸杞子、山药、天花粉等为例进行专属性考察。此外,将功率调至0 mW,采集得到空白谱图。专属性结果见图1,表明不同中药因性质的差异表现出各异的拉曼谱图,且峰形良好,对中药进行拉曼检测无明显荧光干扰。
图1 中药拉曼谱图专属性考察Fig 1 Raman spectra specificity of TCM
2.4.2 精密度考察 以部分中药如川牛膝、艾叶、杜仲、党参等开展拉曼光谱仪精密度考察。经样品预处理后,先后放置于样品台进行6次拉曼光谱平行检测,记录中药拉曼谱图的特征拉曼位移点(cm-1)及其所对应的峰强(I),并计算RSD值。同时,对拉曼谱图进行逆峰位匹配检索,计算谱图相似度。结果RSD值均小于3.0%,相似性大于89.25%,表明拉曼光谱仪精密度良好。
2.4.3 重复性考察 以不同地区(河南、河北、宁夏、山东、安徽)生产的山药、枸杞、茯苓等进行重复性考察。先后进行拉曼检测,记录中药拉曼谱图的特征拉曼位移点(cm-1)及其所对应的峰强(I),并计算RSD值。同时进行逆峰位匹配检索,计算谱图相似度。RSD值均小于3.3%,相似度大于87.35%,结果表明重复性良好。
2.5 拉曼光谱比较及特征筛选
基于“2.3”项下数据收集方法,得到139种甘味中药与191种非甘味中药的最终拉曼谱图数据,并对甘味与非甘味中药的拉曼谱图进行统计比较。结果发现甘味中药组在拉曼位移200~3000 cm-1内的拉曼散射强度普遍低于非甘味中药组,且具有显著性差异。以上结果表明,中药的拉曼谱图在一定程度上与“五味”中的“甘”具有密切的相关性。因此,量化后的中药拉曼谱图可作为甘味的整体量化表征。
通过平均基尼系数降低度(MDG)对谱图数据进行特征筛选,筛选得到MDG>0.033的前1000的拉曼位移及其峰强数据如I2833、I2810、I2557、I2835、I2142、I2187等,部分结果见图2。MDG值越高,说明该数据对于甘味中药组与非甘味中药组分类越重要,而特征筛选结果表明对于区分中药甘味与非甘味的重要拉曼数据主要集中在谱图的后半段1600~3000 cm-1。
图2 基于MDG的特征筛选Fig 2 Feature selection based on MDG
2.6 识别模型的建立与评价
甘味中药组与非甘味中药组的拉曼谱图表现出显著性差异,本文基于这种差异建立甘味的辨识模型。为得到良好的识别模型,在软件Orange 3.29.4中以“2.5”项下筛选出的与甘味密切相关的前100~1000特征拉曼数据为基准用于辨识模型的构建:分别利用MDG前100、200 … 900、1000的拉曼数据,结合人工神经网络(ANN)、随机森林(RF)、支持向量机(SVM)、贝叶斯网络(NN)算法,经参数自动寻优法建立针对中药甘味的识别模型,并基于十折交叉验证的准确率(CA)、AUC和精确度等进行模型评价筛选。
评价结果表明MDG前100至前1000的拉曼数据所建模型中,均以RF模型表现出最佳的识别效果,其准确率和精确度大于0.803,AUC均大于0.865,普遍优于支持向量机(SVM)模型,后者的准确率普遍在79.1%~79.4%,AUC在83.1%~85.0%。其中,NN模型的准确率与RF模型准确率和精确度基本一致,但从AUC而言,RF模型普遍高于贝叶斯模型,后者AUC在0.833~0.847。ANN模型效果较差,准确率和精确度在73.0%~76.7%,低于其他模型。综上,RF模型展现出最佳的识别效果。
与此同时,以RF模型为最优模型,经纵向比对发现利用MDG前300拉曼数据所建RF模型的综合效果最佳(具体参数见表1)。随着模型中拉曼数据的增加,模型的准确率和AUC整体呈下降趋势,随机森林模型AUC和准确率趋势图分别见图3和图4。
图3 RF模型准确率趋势图Fig 3 Accuracy of RF models
图4 RF模型的AUC趋势图Fig 4 AUC trend chart of RF model
表1 MDG排名前300拉曼数据各模型的评价参数Tab 1 Evaluation parameters of models for top 300 Raman data of MDG
当以MDG前600的拉曼数据建立模型时,RF模型准确率最高为81.8%,但其所对应的AUC相对较低为0.873;当以MDG前300的拉曼数据建立模型时,AUC为最高值0.883,具有最好的识别效果,且其对应的准确率为81.5%,与最高准确率81.8%仅相差3%,既保证了良好的识别效果,又具有较高的准确率。基于MDG前300拉曼数据的RF模型,可实现对甘味与非甘味中药的高效、准确辨识。
3 讨论
本研究是以甘味为中药的固有属性为基本出发点,扩大分析样本量以得到更加准确可靠、普遍适用的结论。在研究中按2020年版《中国药典》所记录的“五味”为准,凡记录有“甘”“微甘”(兼有亦包括在内)统一记作甘味中药组。拉曼光谱是为分子振动散射光谱,而绝大多数的中药可看作是由分子所构成的集合体系,因此,中药拉曼谱图是在分子层面对中药分子集合的整体反映,与传统中医药的整体观念相契合,能够在分子水平作为中药的整体性表征[11-12]。
相较于其他光谱而言,拉曼光谱易受荧光效应的干扰[13],致使噪声较大,在研究中,为最大程度避免荧光效应的干扰,采取如下做法:① 在样品预处理时,将药材洗净,去除表面灰尘、沾染物等杂质;② 由于中药的荧光波长一般大多产生在紫外区域,选定近红外中心波长785 nm可在一定程度上有效减少荧光效应的干扰[13-14];③采取连续采集模式,延长激光对样品的照射时间,利用“光致漂白”效应最大程度降低荧光干扰[13,15]。同时后继的数据分析中,特征筛选是在多样品测试结果基础上总结、筛选得到具有规律性的信号,而噪声大多无规律可循。因此,通过特征筛选亦可有效降低噪声数据的干扰。
本文在对大批量甘味与非甘味中药进行拉曼检测前,分别选取不同的中药进行了专属性试验、精密度和重复性试验,以确保试验条件并非仅适用于特定的某一味中药,而是对330味中药具有普适性。
由于中药拉曼光谱数据高维、非线性、非正态等特点,合适的数据分析方法十分关键。相较于特征提取方法——线性判别(LDA)和主成分分析(PCA)[16-17],基于MDG的特征筛选同样可将高维数据转变为低维数据,快速筛选得到与甘味最为相关的拉曼数据,此外,其不受数据分布限制,在去除冗杂数据的同时保留原有属性,不易产生过拟合结果[18]。综上考虑选择MDG进行特征筛选。
根据量子电动力学理论,斯托克斯(STKS)拉曼谱峰的强度(I)计算公式[15]进行计算。由于中药是一个复杂的分子体系,其散射强度是每味中药所有分子相互叠加、影响后的整体表现。甘味中药与非甘味中药的物质基础不同,其相互影响、叠加后的分子振动-转动能级有所差异,以及甘味中药整体分子体系极化率和偶极矩变化小,致使极化率张量分量αij随简正坐标的变化率βαij/βQk较低,从而产生低强度的拉曼谱图,是甘味中药与非甘味中药拉曼谱图具有显著性差异的根本原因。在此基础上,甘味中药与非甘味中药的拉曼谱图差异表明了中药拉曼光谱与五味之“甘”的相关联系,亦是利用拉曼光谱辨识甘味中药的基本依据。
本研究以“五味”之“甘”为研究对象,在中药拉曼光谱检测、量化表征以及特征筛选的基础上所建立的RF模型表现出较好的识别效果,尤以MDG前300拉曼数据所建RF模型最佳。通过大批量中药拉曼光谱检测,其结果更具说服力。
4 结论
本研究通过大批量中药拉曼光谱的检测,对甘味与非甘味中药的拉曼光谱进行比较分析和识别模型的构建、评价。相较于非甘味中药,甘味中药呈现出低强度的拉曼散射,具有显著性差异;中药拉曼谱图与药性甘味具有显著相关性,可作为甘味整体量化表征,结合RF算法高效、准确地进行辨识分析。