基于拉曼光谱的平性中药辨识研究△
2022-02-18纪徐维晟梁浩刘淑明王献瑞王耘
纪徐维晟,梁浩,刘淑明,王献瑞,王耘*
1.北京中医药大学 中药学院 中药信息工程研究中心,北京 102488;
2.北京中医药大学 生命科学学院,北京 102488
在传统中药中,平性药是极其重要的一类,数量占比为20%~33%,功效甚多,有广泛的应用。对于中药平性的认识自古以来颇有争议,有人认为平性是相对而言的,表现在寒、热偏向不明显但并未超出四性范围,不过历代大多数医家是肯定平性药的独立存在的[1]。然而由于寒热偏性不显著、作用相对和缓且周期过长,以及作用的双向性和复平性[2],针对平性中药的生物、药理、药效等研究难以证实平性的客观、实际及实现中药平性的准确辨识。因此,为证明平性的客观存在、可入性味,并解决中药平性辨识问题,研究学者从多角度开展研究,如有研究基于“平性自古以来便存在”“历代医家承认平性存在”及“平性药临床上的广泛应用”3 点论据,论证了平性的客观性[2-3]。在此基础上,张亚超等[4]基于模式识别和定量构效关系开展了平性药有效成分与平性的关联分析,为“平性可入性味”在物质基础方面提供了理论依据。刘进等[5]则基于36 味平性药的红外光谱检测探讨了平性与中药红外光谱的相关性,其所建支持向量机(SVM)模型对平性识别正确率高达83.3%,为平性的客观存在、可入性味提供了实验证明。
上述研究均为平性的客观存在、可入性味提供了一定的依据,丰富了药性内涵,但依然存在局限性:首先,研究分析的样本量偏小;其次,以中药不同溶剂提取成分的红外光谱或有效成分开展平性研究,在一定程度上忽视了中医药的整体观念。本研究从中药的宏观整体性出发,秉承整体论的观念,结合大样本量的中药拉曼谱图对平性开展研究,以达到更加准确、可靠的平性辨识分析,为平性的客观存在、可入性味之说提供更为充分的依据。
拉曼光谱作为分子振动散射光谱,与分子极化率和能级相关,可呈现分子结构或化学基团信息。而绝大多数的中药可看作是由分子所构成的集合体系,因此,中药拉曼谱图是在分子层面对中药的整体反映,与中医药整体观念相契合,能够在分子水平作为中药的整体表征[6-7]。基于中药拉曼谱图的整体性表征,对平性的药性基础进行探讨将为平性的客观存在、平性可入性味之说提供更为充分的依据,且建立高效精准的平性辨识模型,有利于丰富药性理论的内涵。为此,从中药的拉曼检测、特征拉曼数据的筛选到模型预测的应用,本研究基于拉曼谱图将中药与《中华人民共和国药典》(以下简称《中国药典》)2020 年版[8]所记载药性的属性对应关系转变为整体性表征下可量化的中药拉曼谱图与药性的相关关系,证明平性的客观存在,并利用模型解决平性辨识问题。
1 材料
1.1 仪器
SEED 型近红外拉曼光谱仪(Seabreeze Laser 型激光器,XS11639-B40090157 型光谱仪系统,上海如海光电公司);YP-2TS 型压片机(天津中世沃克有限公司);RS-FS1801 型中药材超微粉碎机(广州荣事达有限公司)。
1.2 试药
阿胶、赤小豆、白果、茯苓、合欢皮、灵芝、苏木、太子参、毛冬青、莪术、藿香、华山参等中药共计150 种(平性75 种、寒凉药性42 种、温热药性33 种)由安国市桓荣中药材有限公司提供,经北京中医药大学中药学院王耘团队鉴定,所有药材均符合《中国药典》2020 年版规定,并出具鉴定报告;超纯水(屈臣氏有限公司,货号:hs6303)。
2 方法
2.1 样品预处理
所有中药材采用屈臣氏超纯水洗净,去除表面灰尘等杂质,放置于真空干燥箱中26 ℃恒温干燥1 h。所有中药材利用超微粉碎机打成粉末[9],再利用小型不锈钢压片模具压片得到待测样品以备检测。
2.2 检测条件
激光器类型为板载激光器;中心波长785 nm;功率120 mW;积分时间7000 ms;平均采集3次;平均模式为硬件平均;拉曼位移200~3200 cm-1;基线处理条件为lambda:10 000,order:2;平滑滤镜lambda:20,order:2。
2.3 数据采集
中药材待测样品放置于样品台依次进行检测,采用连续扫描收集、激光自动模式,共计采集10次[10]。以每味中药10 次检测的平均拉曼谱图作为该中药最终表征谱图[11],并以1 cm-1为单位进行数字量化处理。
2.4 专属性试验
以山药、苏合香、合欢花、茯苓、枸杞子为例进行专属性考察,功率调至0 mW 采集特征拉曼位移(cm-1)及其所对应的峰强(I)得到空白谱图(图1),表明不同中药因性质的差异表现出各异的拉曼谱图,峰形良好,对中药进行拉曼检测无明显荧光干扰。
图1 中药拉曼谱图专属性考察
2.5 精密度试验
以部分中药如柏子仁、赤小豆、桃仁、苏合香进行仪器精密度考察。经样品预处理后,每味中药分别制备6 份待测样品,先后放置于样品台上进行拉曼光谱检测,记录中药拉曼谱图的特征拉曼位移(cm-1)及其所对应的I,并计算RSD。同时,对拉曼谱图进行逆峰位匹配检索,计算谱图相似度。RSD 均小于2.90%,相似度均大于90.1%,结果表明仪器精密度良好。
2.6 重复性试验
以取自山东、河北、宁夏、江苏、湖南的桃仁、山药、枸杞及薏苡仁进行重现性考察。经样品预处理后,每味中药待测样品先后进行5 次拉曼检测(图2),记录中药拉曼谱图的特征拉曼位移(cm-1)及其所对应的I,并计算RSD。同时进行逆峰位匹配检索,计算谱图相似度。RSD 均小于3.00%,相似性均大于87.3%,结果表明重复性良好,且不同产地的同种中药拉曼谱图整体上基本一致。
图2 中药拉曼重复性考察谱图
2.7 数据预处理及模型构建
按2.3项下数据采集方式,得到平性与非平性中药的拉曼谱图,并以1 cm-1为单位进行谱图量化处理。首先,基于平均基尼指数降低度(MDG)进行特征筛选,得到对于平性与非平性分类辨识重要性排名靠前1000 的拉曼特征数据;然后,利用非参统计检验对平性与非平性中药经筛选后排名前1000的拉曼特征数据进行统计分析;最后,为了提高分类模型的性能,对基于MDG特征筛选得到的重要性排名前1000 的拉曼数据进一步筛选,分别筛选排名前100、200、300、400、500、600、700、800、900、1000 的特征拉曼数据,基于筛选得到与平性密切相关的特征拉曼数据,进一步结合随机森林(RF)、SVM、逻辑回归(LR)、人工神经网络(ANN)、贝叶斯网络(NN)算法对平性进行建模判别以开展相关性研究。
3 结果
3.1 特征筛选
通过MDG 对中药拉曼数据进行初步特征筛选,选取重要性排名靠前1000 的拉曼位移及其峰强数据如2623、2553、2210、2818、2212 cm-1的I等,重要性排名前30 的结果见图3。经特征筛选出的拉曼位移主要集中在2000~3000 cm-1,在此范围内,非平性中药相较于平性中药,表现出更强的拉曼散射。
图3 基尼指数的特征筛选部分结果
为证实平性与筛选得到中药拉曼数据的相关性,基于拉曼数据非正态、非齐性、非连续等特点,利用SPSS 18.0 对特征筛选得到的前1000 的拉曼数据进行非参数统计检验,平性药组与非平性药组均表现出显著性差异,部分结果见表1。结果表明在拉曼位移2000~3000 cm-1范围内,非平性中药与平性中药的拉曼散射差异有统计学意义。
表1 特征拉曼位移处峰强的非参数检验结果
为进一步提高分类模型的性能,以RF模型为框架,分别以特征筛选得到MDG 排名前100~1000 的拉曼数据分别进行建模。经纵向比较发现,随着建模拉曼数据的增加,模型的准确性整体呈下降趋势(图4)。当以MDG 前100 拉曼数据建立RF 模型时,其准确度最高(表2)。基于此,可实现对平性与非平性的高效、准确评判。
图4 RF模型准确性趋势
表2 MDG排名前100拉曼数据所建模型的评价参数
中药可量化的拉曼谱图可看作是在分子层面对中药的整体性表征。另外,从哲学的认知来讲,药性之于中药,正如人之脾气秉性,是整体与部分的关系,而药性的量化表征与中药整体性表征亦是部分与整体的范畴。并非所有拉曼数据均与平性表现出显著相关性,这也不切实际。正如在DNA 序列结构中存在编码区与非编码区[12],仅编码区进行转录、翻译。因此,我们在中药可量化整体性表征的前提下,结合平性与非平性的分类整理,利用信息学特征筛选技术,从中筛选出与平性具有强相关性的数据信息,以此建立评判模型。
3.2 评判模型的建立与评价
在数据分析软件Orange 3.29.3 中,基于3.1项下特征筛选得到的拉曼数据,以MDG 排名前100 的拉曼数据,结合RF、SVM、LR、ANN、NN算法建立针对平性与非平性的评判模型开展相关性分析,为平性的客观存在、可入性味提供可靠依据。此外,经参数自动寻优在十折交叉验证基础上绘制受试者工作特征曲线(ROC),通过准确率、受试者工作特征曲线下面积(AUC)和精确度等进行模型评价,结果发现以MDG 排名前100 拉曼数据所建各模型均表现出良好的判别效果(图5,表2)。
图5 RF、SVM、ANN、LR、NN模型的ROC曲线
以AUC、准确度、精确度为首要评价标准,其值越高,代表该模型对平性分类效果越显著,准确率和精确度越高。由表1 可知各模型的AUC 均大于0.91,表明基于筛选出的中药拉曼数据,各模型均可高效区分平性与非平性;RF 模型准确率和精确度均大于0.93,优于其他模型的准确度和精确度,对于平性判别表现出最佳效果,为最优模型。
因此,在以中药可量化的拉曼谱图作为中药整体性表征的研究体系下,本研究经特征筛选出的拉曼数据可高效、准确地实现平性与非平性的辨识分析,说明平性中药与其拉曼谱图具有显著相关性。
4 讨论
中药拉曼光谱检测是基于光量子与分子的非弹性碰撞,是多个分子振动和转动能级反映的叠加,能够在分子层面反映样品的整体效应[7,13]。因此,可以作为中药在分子层面上的整体性表征,与中医药的整体观念十分契合。但在进行拉曼光谱检测过程中,会受到荧光效应的干扰[14]。为避免荧光干扰,样品处理时,采用屈臣氏纯水清洗,去除表面灰尘等杂质,以避免表面杂质荧光效应的干扰;检测条件选定中心波长785 nm 和连续扫描采集模式。荧光波长一般大多产生在紫外区域,采用近红外785 nm,可在一定程度上减少荧光干扰。延长对样品的照射时间,利用光致漂白效应最大程度降低荧光干扰[14-15]。
量化的中药拉曼图谱包含大量数据信息,具有高维度、非正态、非线性、整体统计分布不明确等特点[16]。而流行的特征提取方法——线性判别(LDA)和主成分分析(PCA)受限于分析数据的正态分布,掩盖原有的数据信息,是对得到的全新指标进行探索分析,难以实现本研究的目标[17-18]。MDG 指标可以识别重要变量,其描述的是一个变量对分类树上每个节点分类效果的贡献,值越大表示该变量的分类效果越好[19]。而且基于MDG的特征筛选不受高斯分布影响,可有效、大幅度降低数据维度,筛选得到与平性密切相关的特征拉曼数据,同时去除冗杂数据,保留数据的原有信息,不易产生过拟合的结果[20]。综上,考虑选择该方法进行特征筛选。
本研究在中药整体性表征和特征筛选的基础上所建立的相关模型均表现出良好的评判效果,尤以MDG 前100 拉曼数据所建随机森林模型最佳,优于已报道平性与非平性的评判模型[4-5,11],且研究是在大批量中药拉曼光谱检测基础上进行的,其结果更具有说服力。此外,基于平性与非平性的评判模型和非参数检验均表明平性和非平性与中药拉曼谱图具有显著的相关性,而中药拉曼谱图则是中药的真实、客观反映。以上均可为平性的客观存在、可入性味之说提供有力依据。