基于中药拉曼谱图的寒热药性判别研究
2023-06-23梁浩纪徐维晟王献瑞王耘
梁浩 纪徐维晟 王献瑞 王耘
摘要 从中药的整体性出发,开展中药拉曼谱图与其寒热药性的相关性分析,并对中药寒热药性进行统计判别研究。本研究选取寒凉性中药109种、温热性中药128种,共计237种中药;经样品前处理后,利用如海光电SEED 3000近红外拉曼光谱仪进行检测,得到每味中药的拉曼谱图;并对量化后的中药拉曼数据进行特征筛选和统计检验,筛选出与寒热药性密切相关的特征拉曼位移及其峰强,然后基于5种算法进行寒热药性的判别建模。经比较分析发现,相较于其他模型,随机森林(RF)模型展现出最佳的效果,对测试集判别的正确率高于90%,曲线下面积(AUC)和精确度大于0.90。本研究基于大样本量中药的分析,中药的拉曼数据与其寒热药性之间具有显著的相关性,可作为药性表征指标,结合RF算法进行寒热药性的判别分析。
关键词 中药;拉曼光谱;药性;寒热;随机森林;判别分析;特征筛选
Discrimination of Cold and Heat Medicinal Properties Based on Raman Spectroscopy of TCM Drugs
LIANG Hao1,JI Xuweisheng1,2,WANG Xianrui1,WANG Yun1
(1 Research Center of TCM-Information Engineering,School of Chinese Materia Medica,Beijing University of Chinese Medicine,Beijing 102488,China; 2 School of Life Sciences,Beijing University of Chinese Medicine,Beijing 102488,China)
Abstract From the holistic view of traditional Chinese medicine(TCM),this study carried out a correlation analysis between the Raman spectra of TCM drugs and cold-heat medicinal properties and conducted a statistical discrimination analysis of the cold-heat medicinal properties of TCM drugs.A total of 237 TCM drugs were selected,including 109 cold and 128 heat ones.After sample pre-treatment,Raman spectra of TCM drugs were obtained by using SEED 3000 near-infrared Raman spectrometer(Oceanhood,China),and the characteristic Raman shifts and peak intensities closely related to the cold-heat medicinal properties were screened out by the characteristics screening and statistical test of the quantified Raman data of TCM drugs.The discriminant modeling of cold-heat medicinal properties was carried out based on five algorithms.Compared with other models,the random forest(RF) model showed the optimal results,with the correct rate of the test set higher than 90% and an AUC and precision greater than 0.90.Based on the analysis of a large sample size of TCM drugs,the findings of this study suggest that there is a significant correlation between the Raman data of TCM drugs and their cold-heat medicinal properties,which can be used as the characterization index of medicinal properties and facilitate the discriminant analysis of cold-heat medicinal properties combined with RF algorithm.
Keywords TCM drugs; Raman spectroscopy; Medicinal properties; Cold-heat; Random forest; Discriminant analysis; Characteristics screening
中圖分类号:R282文献标识码:Adoi:10.3969/j.issn.1673-7202.2023.01.011
中药四气是中药药性理论的重中之重,是阐释中药作用疗效和指导临床用药的首要纲领[1-2]。其主要包括寒、热、温、凉4种药性,其中寒为凉之甚,而热为温之极[3]。寒与凉或温与热仅在强弱程度上具有差异而没有本质上的区别。因此,从四性的属性本质而言,四气又常以寒热二性概之。本研究所指寒性中药包括寒性、凉性,所指热性中药包括热性、温性。
由于对中药寒热药性的现代化认知尚未完全、成熟[4-6],利用现代的科学知识体系和技术方法对寒热药性进行分析以揭示其科学内涵依然是必要的,更是创新寒热药性,丰富药性理论,实现中医药理论现代化的现实需要。为此,相关研究学者结合自身所长,从多角度、多方面对寒热药性进行分析且取得了一定的成果。有研究从物质基础的角度,探讨寒热药性与其所含蛋白质、多糖及单糖等初生物质的相关性,以进行寒热药性的物质基础研究[7-9]。基于生物效应,有研究通过大鼠灌胃中药水煎液以及检测53项生物效应指标来分析寒热药性,结果表明肝琥珀酸脱氢酶(Succinate Dehydrogenase,SDH)为寒热药性判别的重要生物指标,且寒热药性与能量代谢有密切关联[10-11]。有研究基于多种溶剂中药提取液的紫外图谱进行中药成分的相似性分析,进而预测中药的寒热药性,结果发现石油醚溶剂提取液的紫外图谱数据识别效果最好,准确率为0.77[12-13]。樊凤杰等[14]基于23味中药提取液的荧光光谱数据构建了局部线性嵌入算法-随机森林(Random Forest,RF)判别模型,正确率高达96%。此外,还有从分子能量状态、化合物分子描述符等其他角度进行寒热药性的研究[15-16]。
上述研究均在一定程度上丰富了寒热药性内容,为揭示其科学内涵做出了重大贡献,但依然具有局限性。首先,寒热药性的研究是基于小样本量的分析,并不具有普适性;其次,以中药的不同溶剂提取液开展寒热药性研究,忽视了中药的宏观整体性,易产生以偏概全的结论。本研究从中药的宏观整体性出发,秉承整体论的观念,结合大样本量的中药拉曼检测对寒热药性开展研究,以追求更加准确、可靠的分析。
拉曼光谱为分子振动散射光谱,与分子振动—转动能级有关,是在分子层面对中药的整体反映,与传统中医药的整体观念相契合,能够在分子水平作为中药的整体性表征[17-18]。因此,本研究選用拉曼谱图作为中药的整体性表征,并在此基础上,通过特征筛选及统计检验开展中药拉曼谱图数据及其寒热药性的相关性分析,并结合多种算法对中药寒热药性进行统计判别研究。
1 仪器与试药
1.1 仪器与试剂 SEED近红外拉曼光谱仪(上海如海光电公司,型号:SEED);YP-2TS型压片机(天津中世沃克有限公司,型号:YP-2TS);RS-FS1801中药材超微粉碎机(广州荣事达有限公司,型号:RS-FS1801);DZF-6020真空干燥箱(上海一恒有限公司,型号:DZF-6020)。
1.2 试剂 纯水(屈臣氏有限公司,货号:hs6303);色谱级甲醇(Fisher公司,美国,货号:j2009001);
1.3 分析样品 白芍、百合、车前子、防己、虎杖、女贞子、功劳木、番泻叶、白扁豆、干姜、月季花、白附子等共计237种中药(寒性109种,热性128种)全部由安国市桓荣中药材有限公司提供,且所有药材均符合2015版《中华人民共和国药典》的规定,并出具鉴定报告。
2 方法
2.1 样品预处理 所有中药材采用屈臣氏超纯水洗净,去除表面灰尘等杂质。然后放置于真空干燥箱中26 ℃恒温干燥1 h。对于根茎、果实类等形状规则的中药材,垂直于自然生长方向横切,得到新露平坦的切面以备检测,而叶、花类以及全草等形状不规则的中药材利用荣事达粉碎机打粉[19];利用220 V不锈钢压片模具进行压片处理;女贞子等颗粒类中药材则采用配套敞口器皿盛放并利用压片模具压实以备检测。
2.2 检测条件 激光器:Seabreeze Laser;激光器类型:板载激光器;中心波长:785 nm;功率:120 mW;光谱仪:XS11639-B40090157;积分时间:7 000 ms;平均采集次数:3次;平均模式:硬件平均;拉曼位移200~3 200 cm-1;基线处理lambda:10 000,order:2;平滑滤镜lambda:20,order:2。
2.3 数据采集 中药材经样品预处理后,将压片或器皿放置于样品台,随机选取10个不同的部分依次进行检测,采用连续扫描收集、激光自动模式,共计采集10次[20]。计算每味中药10次拉曼谱图数据的平均值[21],作为该中药的最终谱图,并将其进行数字化处理。
2.4 专属性实验 以刺五加、白附子、白芍等为例进行专属性考察。此外,将功率调至0 mW,采集得到“空白”谱图。结果表明不同中药因性质的差异进而得到各异的拉曼谱图,峰形良好,对中药进行拉曼检测无明显荧光干扰。见图1。
2.5 精密度实验 以中药土木香、苦木、桑叶、垂盆草进行精密度考察。经样品预处理后,同日内先后放置于样品台上,于中药压片或器皿的同一部位进行6次拉曼光谱平行检测,记录中药拉曼谱图的特征拉曼位移点(cm-1)及其所对应的峰强(I),并计算相对标准偏差(Relative Standard Deviation,RSD)。同时,对拉曼谱图进行逆峰位匹配检索,计算其相似度。结果表明RSD值小于3.00%,相似度大于86%。拉曼光谱仪用于中药检测精密度良好。
2.6 重现性实验 以不同地区(河南、河北、安徽、江苏、湖南)的中药冰片、杏仁、当归等进行重现性考察。5份不同产地的杏仁,编号为X1-X5;当归切片,编号为D1-D5;另取5块冰片,编号为B1-B5;先后进行拉曼检测,记录中药拉曼谱图的特征拉曼位移点(cm-1)及其所对应的峰强(I),并计算RSD值。同时进行逆峰位匹配检索,计算其相似度。结果表明重复性RSD值小于4.5%,相似性大于85%,重现性良好。见图2。
2.7 数据预处理及模型构建 按“2.3”项下数据采集方式,得到237味中药的拉曼谱图,并以1 cm-1为单位进行谱图数据量化处理,每味中药得到3 000个拉曼位移数据,建立237味中药的拉曼位移数据集,然后基于平均基尼指数降低度(Mean Decrease Gini,MDG)进行初步特征筛选,得到与寒热药性密切相关的特征拉曼位移及其峰强,并通过SPSS 18.0非参数统计检验的二次筛选得到寒热药组具有显著性差异的拉曼位移及其峰强。进一步结合RF、支持向量机(Support Vector Machine,SVM)、逻辑回归(Logistic Regression,LR)、贝叶斯网络(Bayesian Network,NB)、人工神经网络(Artificial Neural Network,ANN)算法对寒热药性进行建模判别研究。
3 结果
3.1 特征筛选 通过MDG-RF模型对中药拉曼数据进行初步特征筛选,选取重要性排名靠前的700个拉曼位移及其峰强数据,如I2157、I2483、I1029、I1031、I1196等。见图3。然后通过SPSS 18.0对上述700个特征拉曼位移及其峰强进行统计检验,结果表明寒、热药性组在693个拉曼位移处的拉曼峰强差异均有统计学意义(均P<0.05),仅1%差异无统计学意义。见表1。经初步筛选后的拉曼位移主要集中在800~2 500 cm-1,在此范围内,寒性中药相比于热性中药,表现出更强的拉曼散射。
3.2 判别模型的建立与评价 在数据分析软件Orange 3.29.3中,基于“2.1”特征筛选和非参数秩和检验得到的结果,分别以MDG排名前200、300、600、700的中药拉曼数据(剔除寒热药性无显著性差异的拉曼位移及峰强),结合RF、SVM等多种算法建立寒热药性的判别模型。此外,经参数自动寻优在十折交叉验证基础上,通过准确率、F1值、曲线下面积(Area Under the Curve,AUC)、召回率和精确度等进行模型评价。见表2~5。
4 讨论
拉曼图谱包含大量数据信息,具有高维度、非正态、非线性、整体统计分布不明确等特点[22]。因此在中药拉曼谱图数据分析中,线性判别分析(Linear Discriminant Analysis,LDA)和主成分分析(Principal Component Analysis,PCA)受限于数据的高斯分布,会掩盖原有数据信息,难以实现研究目的[23-24]。而基于MDG的RF特征筛选不受高斯分布影响,可有效、大幅度降低数据维度,筛选得到与寒热药性密切相关的特征拉曼数据,并能去除冗杂数据,保留数据的原有信息,不易产生过拟合的结果。综上考虑选择该方法进行初步特征筛选。另外,MDG反映的是某一特征對样本分类的重要程度,其值越高,贡献度越大[25]。在本研究中,以MDG的大小排序,作者拟选取前20%(前600个,MDG>0.037)的拉曼位移及其对应的峰强。然而,从统计分析的角度,选取出的特征拉曼数据不一定在寒热药性组中存在差异。为此,作者基于中药拉曼数据非正态、方差非齐性的特点,采用非参数秩和检验分析初步筛选得到的拉曼数据是否在寒热药性组间存在显著差异,以进一步佐证中药寒热药性与其拉曼谱图的相关性研究。结果表明中药的寒热药性与其拉曼谱图存在显著的相关性。
拉曼光谱检测中,经常会受到荧光效应的干扰[26]。在对中药进行拉曼检测时,为抑制荧光效应,作者采取了如下做法:1)选定激发光中心波长785 nm。中药荧光检测的激发光波长大多位于紫外区如山药330 nm、沙苑子410 nm、熟地黄470 nm等[27],而中心波长785 nm的激发光为近红外激光(760~830 nm)可在一定程度上抑制样品的荧光效应;2)中药采用屈臣氏纯水清洗,去除表面灰尘等杂质,避免表面杂质荧光效应的干扰;3)采取连续扫描采集的模式,延长照射时间,以达到抑制荧光干扰的效果[26,28]。
本研究从中药的整体性出发,以中药拉曼谱图作为中药在分子层面上的整体性表征。从哲学思想整体与部分的角度考虑,认为并非所有拉曼数据均与寒热药性存在显著的相关性,正如在DNA序列结构中存在编码区与非编码区[29],仅编码区进行转录、翻译。为此,本研究对中药拉曼谱图数据进行特征筛选,以期得到与寒热药性最为相关的拉曼信息,并采用非参数秩和检验对初步筛选到的非正态拉曼数据进行二次筛选以保证所得中药拉曼数据与寒热药性具有显著相关性。与此同时,剔除寒热药性组间无显著性差异的拉曼位移及峰强。在此基础上开展寒热药性建模评价。
在本研究中,AUC值越高,代表该模型对寒热药性的分类效果越显著,准确率越大表示预测结果与真实情况越接近,精确度表示测试集中实际为寒性的中药被预测为寒性的概率。基于表2~5中各模型参数的比较,可知LR模型效果最差,准确率和精确度在73.0%~74.3%,且AUC均小于其他4种模型;SVM、NN、NB模型效果相似,能够有效判别寒热药性,AUC均大于0.80,准确率和精密度均高于80.0%;相较于上述模型,RF模型对于寒热药性判别具有最佳效果,准确率和精密度高达90%,AUC大于0.90,故在本研究中选择RF模型对数据建模。纵向比较发现,分别以特征筛选得到重要性排名前200、300、600、700的拉曼数据进行建模,其RF模型效果虽没有显著性差异,但以重要性排名前600(无显著性差异剔除)的拉曼数据所建模型各参数最佳。
结果表明相较于其他模型,RF模型表现出最佳的效果,且纵向比较来看,以特征筛选的前200、300、600、700拉曼数据进行建模,其模型效果虽没有显著性差异,但前600数据所建模型的AUC、准确率或精确度等均较佳。且考虑到为降低单一拉曼数据的测定误差对模型造成不稳定的影响,可以降低其在拉曼数据中的权重比例,因此,以特征筛选前600的拉曼数据进行寒热药性判别分析是一个不错的选择。
此外,本研究所建立的最优RF模型,相较于已报道的相关模型依然具有明显的优势[7-9,12-14]。首先,从样本量来讲,本研究是在大批量中药拉曼光谱检测基础上进行的,其结果更具有说服力;其次,从分子层面作为中药的整体性表征以及筛选与寒热药性密切相关的拉曼参数更符合实际情况,契合中医药的整体观念。最后,本研究基于特征筛选前600的拉曼数据所建立的RF模型,其AUC、准确率、精确度均大于0.90,优于绝大多数已报道的寒热药性判别模型。
5 结论
本研究秉承中医药的整体观念,通过大样本量中药的拉曼光谱检测,以中药拉曼谱图作为中药在分子层面上的整体性表征,筛选与寒热药性密切相关的中药拉曼数据,从而进行建模评价。研究结果证明中药拉曼数据与其寒热药性之间具有显著的相关性,可以作为寒热药性表征指标,并结合最优模型RF进行寒热药性的判别分析。
利益冲突声明:无。
参考文献
[1]李丰衣,李筠,赵艳玲,等.中药药性的现代研究概况[J].中医杂志,2009,50(6):562.
[2]王伽伯,金城,肖小河,等.中药药性研究回顾与思考[J].中华中医药杂志,2008,23(7):573.
[3]郭永胜,黄书婷,李良松.中药四气理论的起源与形成探析[J].中医杂志,2020,61(16):1405-1409.
[4]周炜炜,隋峰,张淼,等.寒热性中药成分调节棕色脂肪细胞中UCP1的药性分子机制研究[J].时珍国医国药,2020,31(12):2858-2860.
[5]金李,谷帮杰,李传芝,等.中药寒热药性与其现代药理作用关联研究[J].亚太传统医药,2020,16(6):161-163.
[6]王跃溪,吕诚.中药寒热药性研究进展概述[J].世界中西医结合杂志,2019,14(7):889-893.
[7]陈永新,李峰,黄爱云.40种中药脂类含量与中药寒热性相关性研究[J].中医药信息,2011,28(1):10-11.
[8]王薇,周正礼,李健,等.20种中药初生物质含量与药性相关性分析[J].山东中医药大学学报,2010,34(2):99-102.
[9]周正礼,李峰,李静文.20种中药糖含量与寒热药性关系的Fisher判别分析[J].世界科学技术-中医药现代化,2010,12(4):558-561.
[10]黄丽萍,彭淑红,蒙晓芳,等.6种寒性中药对大鼠肝脏能量代谢的影响[J].中国中药杂志,2009,34(24):3255-3258.
[11]黄丽萍,彭淑红,胡强,等.6味热性中药对大鼠骨骼肌能量代谢相关因子的影响[J].中华中医药杂志,2010,25(2):228-230.
[12]魏国辉,张丰聪,付先军,等.中药成分相似性量化建模及寒热药性预测分析[J].数据分析与知识发现,2020,4(5):75-83.
[13]WEI G,FU X,WANG Z.Multisolvent Similarity Measure of Chinese Herbal Medicine Ingredients for Cold-Hot Nature Identification[J].J Chem Inf Model,2019,59(12):5065-5073.
[14]樊凤杰,轩凤来,白洋,等.基于三维荧光光谱特征的中药药性模式识别研究[J].光谱学与光谱分析,2020,40(6):1763-1768.
[15]陶欣,李冰冰,吴高松,等.6种寒热属性中药短期及长期干预对小鼠机体脂质及能量代谢影响的对比研究[J].中国中药杂志,2022,47(7):1904-1912.
[16]谢欢欢,陈晨,王鹏.基于科属分类下的中药物象-药性相关性研究概述[J].中华中医药杂志,2017,32(8):3620-3622.
[17]曹露,朱嘉森,管艳艳,等.拉曼光谱技术在药物分析领域的研究进展[J].光散射学报,2019,31(2):101-111.
[18]ESMONDE-WHITE KA,CUELLAR M,UERPMANN C,et al.Raman spectroscopy as a process analytical technology for pharmaceutical manufacturing and bioprocessing[J].Anal Bioanal Chem,2017,409(3):637-649.
[19]史芳芳,周孟焦,崔仕远,等.涪城麦冬的拉曼光谱分析[J].中医药导报,2020,26(9):34-36,48.
[20]刘影,汪晓娟,刘龙.拉曼光谱在三七中药识别中应用[J].海峡药学,2020,32(8):60-62.
[21]邓家刚,刘进,覃洁萍,等.20种活血化瘀中药提取物的红外光谱分析及其与药性相关性的初步探讨[J].光谱实验室,2010,27(2):741-744.
[22]Saletnik A,Saletnik B,Puchalski C.Overview of Popular Techniques of Raman Spectroscopy and Their Potential in the Study of Plant Tissues[J].Molecules,2021,26(6):1537.
[23]Gurian E,Di Silvestre A,Mitri E,et al.Repeated double cross-validation applied to the PCA-LDA classification of SERS spectra:a case study with serum samples from hepatocellular carcinoma patients[J].Anal Bioanal Chem,2021,413(5):1303-1312.
[24]杜晶,赵黎明.主成分分析应用于综合评价的局限性[J].内蒙古农业大学学报:社会科学版,2007,9(6):125-127,130.
[25]Raschka S.Python Machine Learning [M].Birmingham:Packt Publishing,2015:109-143.
[26]王歡,王永志,赵瑜,等.拉曼光谱中荧光抑制技术的研究新进展综述[J].光谱学与光谱分析,2017,37(7):2050-2056.
[27]林文硕.麻黄汤红外光谱与若干单味中药拉曼光谱研究[D].福州:福建师范大学,2008:123.
[28]朱自莹,顾仁傲,陆天虹,等.拉曼光谱在化学中的应用[M].沈阳:东北大学出版社,1997:31-38.
[29]GYRFFY B,PONGOR L,BOTTAI G,et al.An integrative bioinformatics approach reveals coding and non-coding gene variants associated with gene expression profiles and outcome in breast cancer molecular subtypes[J].Br J Cancer,2018,118(8):1107-1114.
(2021-10-19收稿 本文编辑:吴珊)
基金项目:国家自然科学基金项目(81973495)——基于吸引子的中药有效成分群辨识与作用机理解析方法研究作者简介:梁浩(1998.01—),男,硕士研究生在读,研究方向:中药信息融合,E-mail:20200935108@bucm.edu.cn通信作者:王耘(1973.02—),男,博士,教授,博士研究生导师,研究方向:中药信息融合和系统中药学,E-mail:wangyun@bucm.edu.cn