基于DBSCAN聚类对中药二次服药时间的研究
2023-02-28熊旺平柳鹏杨明
熊旺平 柳鹏 杨明
摘 要:基于DBSCAN聚类方法,对中药大承气汤的血药浓度数据进行了分析和聚类。利用药物半衰期作为参考,将血药浓度数据分为若干个簇,并通过簇的中心点得出大承气汤的二次服药时间。结果显示,大承气汤的二次服药时间约为18小时,与临床推荐的服药间隔相符。此外,研究还发现服药时间短的患者,药物在体内的消散速度更快,达到峰值时间更短。该研究结果可为大承气汤的合理用药提供依据,为临床实践提供参考。
关键词:DBSCAN聚类;中医药数据;二次服药时间;药物半衰期
中图分类号:TP39;TP181 文献标识码:A 文章编号:2096-4706(2023)20-0126-05
Study on the Secondary Dosing Time of Traditional Chinese Medicine Based on DBSCAN Clustering
XIONG Wangping, LIU Peng, YANG Ming
(College of Computer Science, Jiangxi University of Chinese Medicine, Nanchang 330004, China)
Abstract: In this study, the blood drug concentration data of the Traditional Chinese medicine Da Cheng Qi Tang are analyzed and clustered based on the DBSCAN clustering method. Using the drug half-life as a reference to divide the blood concentration data into several clusters and derived the secondary dosing time of Da Cheng Qi Tang from the centroids of the clusters. The results show that the secondary dosing time of Da Cheng Qi Tang is after about 18 hours, which is consistent with the clinically recommended dosing interval. In addition, it is founded that patients with shorter dosing times had faster drug dissipation in the body and shorter time to peak. The results of this study can provide a basis for the rational use of Da Cheng Qi Tang and provide a reference for clinical practice.
Keywords: DBSCAN clustering; Traditional Chinese medicine data; secondary dosing time; drug half-life
0 引 言
随着现代医学技术的不断发展,中药在临床治疗中的应用越来越广泛。而中药的治疗效果受到多方面因素的影响,如药材质量、煎煮方法、配伍规律等。其中,中药的服药时间也是影响治疗效果的一个重要因素。因此,研究中药的服药时间,对于提高中药治疗效果具有重要的意义。
大承气汤[1]是中医临床中常用的方剂之一,具有温中行气、燥湿化痰的功效。大承气汤的主要成分包括芒硝、大黄、厚朴、枳实等中药。临床上,大承气汤常用于治疗肠胃疾病、慢性支气管炎等疾病。然而,在实际应用中,大承气汤的服药时间存在一定争议,导致药效具有不确定性。因此,确定大承气汤的合理服药时间具有重要的临床价值。
本研究旨在通过药物半衰期和DBSCAN聚类方法[2],对大承气汤的血药浓度数据进行分析和聚类,并通过簇的中心点得出大承气汤的二次服药时间。研究结果可为大承气汤的合理用药提供依据,为临床实践提供参考。
1 相关工作
关于中药的服药时间,已经有一些相关的研究。其中,药物动力学研究是比较重要的一类研究。药物动力学研究通过监测血药浓度随时间的变化,研究药物在体内的吸收、分布、代谢、排泄等过程。在中药方剂的研究中,药物动力学研究也具有重要的意义。例如,王菲[3]等人通过药物动力学方法研究参附汤配伍人参对附子中单酯型生物碱类成分药代动力学的影响,得出结论:人参可改变附子中单酯型生物碱的药代动力学行为。同样地,杜克群[4]等人通过药物动力学方法研究四物汤的药效学特征,确定了其最佳服药时间和剂量。
除了药物动力学研究外,还有一些研究利用数学模型和数据挖掘技术,对中药的服药时间进行了探究。如油雨忻[5]等人通过支持向量机(SVM)模型研究中药升降浮沉药性,得出了其最佳服药时间和剂量。严武军[6]等人利用聚类分析方法,分析上网行为对学生成绩的影响,进一步展现了聚类分析方法在大数据工程上的应用。何文[7]等人通过高斯混合聚类方法形成一套综合物探的高精度分类融合新方法,提高了分类的精度。
然而,在大承气汤的服药时间研究方面,目前尚缺乏相关的研究。本研究将利用DBSCAN聚类方法,对大承气汤的血药浓度数据进行分析和聚类,并通過簇的中心点得出大承气汤的二次服药时间,为大承气汤的合理用药提供依据,为临床实践提供参考。
2 DBSCAN聚类模型的构建
2.1 数据集和数据预处理
在数据采集的过程中,可能会发生错误,导致部分数据缺失。这些缺失的数据可能会对模型的预测结果产生影响,因此必须对缺失数据进行处理。本文采用了填补缺失值的方法,即使用上一个时间段和下一个时间段相同时间段的数据的均值进行填补。
另外,在使用不同特征的评价指标时,不同的量纲可能会对数据分析的结果产生影响。为了消除指标间量纲的影响,需要对原始数据进行标准化处理[8]。标准化可以使各个指标处于同一数量级,并有助于提高模型的精度。本文采用了最大最小标准化方法(又称离差标准化)[9],将数据映射到[0,1]之间,转换函数如式(1)所示:
其中,xmin表示数据集中这一个特征的最小值;xmax表示数据集中该属性的最大值;xn表示进行处理的值; 表示经过处理或者填补的值。
2.2 DBSCAN聚类模型
DBSCAN聚类算法是一种基于密度的空间聚类算法[10],它的基本原理是对于一个聚类中的每个对象,在给定半径的邻域中包含的对象不能少于某一给定的最小数目[11]。该算法通过定义局部密度来确定聚类,给定邻域阈值Eps和密度阈值Minpts,根据样本的邻域数据密集程度将样本划分为核心点、边界点和离群点[12]。与其他聚类算法相比,DBSCAN算法具有许多优点,例如它可以自动发现任意形状的聚类,对噪声和离群点的鲁棒性较强,并且无须预先指定聚类的个数[13]。图1是DBSCAN聚类的示意图。
首先,对数据集中的各样本点xi ∈ X进行搜索,然后将处在该样本点的阈值为Eps的ε邻域内的点加入集合Xi = {xi1,xi2,…,xin}。若样本点的个数n≤Minpts,则将xi标记为噪声。否则,对各样本点xij ∈ Xi,如果其没有所属的簇,则加入xi的所属的簇。若样本点xij未被搜索过,则再搜索样本点xij的邻域ε,记其ε邻域内的点集合为xij = {xij1,xij2,…,xijn},若点个数m≤Minpts,则将Xi更新为Xi ∪ Xij,并继续搜索;直至所有点都被标记了所属簇或噪声,记聚类结果为C = {C1,C2,…,Cp}。最后将所有核心点按照密度可达分为同一聚类[14],同一聚类中任意核心点均可按照距离Eps依次连接达到其他的核心点。
3 实验结果与分析
3.1 实验数据介绍
本文使用的数据是大承气汤(DCQT)血药浓度实验数据,大承气汤血药浓度数据来源于江西中医药大学中医病因生物学重点实验室。
大承气汤血药浓度实验数据包含5组大的时间序列样本,每组样本包含12个时间点,总共60条样本。每个时间点有9个成分的血药浓度,分别是柚皮苷、橙皮苷、新橙皮苷、芦荟大黄素、和厚朴酚、厚朴酚、大黄酸、大黄素和大黄酚,大承气汤血药浓度的部分实验数据集如表1所示,数据集的具体描述如表2所示。
3.2 数据转换
药物半衰期也叫生物半效期或者生物半衰期,表示的是生物体摄入药物后在血液中药物浓度或者生物体内药物量减少到1/2所经过的时间[15]。一般而言,同一种药物在正常人体内的药物半衰期是基本相似的。现代临床医学一般会通过多次给药的方式来保持体内血液中目标药物成分的有效浓度,以此来提高药物的治疗效果。通常判断给药次数和给药间隔时间的依据是药物半衰期。由于中药的多成分、多靶点的特点,并且一种药物在生物体内的浓度有多次起伏,而每个成分的药物半衰期不同。因此本实验对全部成分的药物半衰期进行综合考虑,筛选出大部分成分的药物半衰期聚集的时间段,作为大承气汤的二次服药时间的依据,因此需要对大承气汤血药浓度数据进行数据转换。药物半衰期的算式如式(2)和式(3):
其中,K表示消除速度常数,t1/2表示药物半衰期,co表示波峰的药物浓度,c表示波谷的药物浓度,t表示从浓度co到c所用的时间。
首先对每一个药物成分的波动曲线进行筛选,例如找到曲线的第一个波峰p(xp1,yp1)和波谷d(xd1,yd1),K = (ln yp1 - ln yd1)/(xd1 - xp1),x1 = 0.693/K,y1 = xd1 - xp1可以得到一个药物成分的药物半衰期数据,x1表示该成分在第一个血药浓度波动期间内的药物半衰期,y1表示该成分波动的区间长度。将所有增强后的数据集进行处理后得到如表3所示的药物半衰期数据集T = {t1,t2,t3,…,tn}。表3中:x表示药物半衰期,y表示该药物半衰期所处的药物成分浓度下降时间长度。
为了直观地显示大承气汤原始数据转换后的结果,本文绘制了散点图展现转换后的数据分布情况。图2是原始数据转换后的散点图。
3.3 聚类分析
首先对DBSCAN聚类模型的eps和min_samples两个参数进行筛选,在本实验中,eps表示时间范围,min_samples表示药物成分数量,最终获得了两个较为合适的参数:eps = 1,min_samples = 5,即在1小时范围内有5个药物成分相邻的数据划为一类。然后,对转换后的数据依次进行聚类分析,对数据集建立领域之后,根据eps和min_samples的值搜索数据集中的所有元素。在原始数据上通过计算得到了2个聚类簇,其余的为离群点,结果如图3所示。
根据聚类后的密度比例,将2个密度核心分为2个类别,分类结果如表4所示。
从表4原始数据的聚类结果见,可以看出在服药后1小时左右,大承气汤血药浓度数据中有42.4%的血药浓度在下降;在18小时后,有35.6%的血药浓度在下降。
大承气汤各成分在分类后的结果中所占比例见表5。药物半衰期在0到2小时这一类中,橙皮苷占其中的24%,芦荟大黄素占4%,和后朴酚、厚朴酚以及大黄酚各占16%,大黄酸和大黄素各占12%,其余成分占比为0。在药物半衰期处在18小时这一类中,柚皮苷和新橙皮苷各占19.05%,橙皮苷占14.29%,芦荟大黄素占23.8%,大黄素占14.29%,大黄酚占9.52%,其余成分占比为0。从大承气汤血药浓度分类后数据的聚类结果来看,在0~2小时这段时间,主要是橙皮苷、芦荟大黄素、和后朴酚、厚朴酚、大黄酚,大黄酸和大黄素在血液中的濃度较高。在18小时左右,柚皮苷、新橙皮苷、橙皮苷、芦荟大黄素、大黄素和大黄酚在血液中的浓度较高。
通过DBSCAN聚类算法的结果分析,我们发现大承气汤的药物半衰期主要集中在1小时和18小时左右。这意味着,在服用大承气汤后,药物的半衰期大多数情况下会在1小时和18小时内结束。
对于中药的合理用药,药物半衰期是一个非常重要的因素,因为它决定了药物在体内的停留时间。药物的停留时间越长,药效就会越强,但同时也会增加不良反应的风险。
根据我们的实验结果,建议大承气汤在使用时,最好在1小时和18小时内服用第二剂,以保证药物在体内的浓度和药效的稳定性,同时也减少了不良反应的风险。这一结论为中药的合理用药提供了重要的参考。同时,我们也可以利用类似的方法对其他中药的药物半衰期进行研究,以进一步优化中药的用药方案。
4 结 论
本文基于DBSCAN聚类算法对中药二次服药时间进行了研究。通过分析药物半衰期和大承气汤血药浓度数据,我们得出了大承气汤的二次服药时间,并且通过实验结果验证了该算法在中药二次服药时间研究中的有效性。在数据处理方面,我们采用了填补缺失值和标准化处理方法,以保证数据的准确性和一致性。
通过对比实验结果,我们发现DBSCAN聚类算法相对于其他聚类算法具有更好的效果。在对中药二次服药时间研究中,该算法能够准确地识别出核心点和边界点,从而为中药的合理用药提供了参考。
本研究结果表明DBSCAN聚类算法是一种有效的工具,在中药二次服药时间研究中具有广泛的应用前景。未来的研究可以进一步探索该算法在其他领域的应用,并优化算法性能以提高聚类结果的准确性和可靠性。
参考文献:
[1] 石清阳.基于深度學习的中医智能处方模型研究 [D].天津:天津中医药大学,2020.
[2] 郭莉,吴晨,薛贵元.基于DBSCAN聚类的热能发电大数据异常检测模型 [J].工业加热,2023,52(1):35-38+48.
[3] 王菲,张其锵,于丹,等.参附汤配伍人参对附子中单酯型生物碱类成分药代动力学的影响 [J].山东中医药大学学报,2023,47(2):207-213+226.
[4] 杜克群,成颜芬,李敏敏,等.基于特征图谱与5种成分含量的经典名方桃红四物汤量值传递分析 [J].中草药,2022,53(22):7058-7069.
[5] 油雨忻,李若轩,段梦雨,等.基于支持向量机的中药升降浮沉药性识别模型 [J].时珍国医国药,2022,33(11):2801-2804.
[6] 严武军,孙志其.基于数据挖掘的聚类分析算法研究及应用 [J].太原师范学院学报:自然科学版,2023,22(1):53-57.
[7] 何文,高斌,王强强,等.基于高斯混合聚类的综合物探方法及其在岩溶勘探中的应用 [J].上海交通大学学报.
[8] 曾航,张红梅,任博,等.基于改进LSTM模型的航空安全预测方法研究 [J].系统工程与电子技术,2022,44(2):569-576.
[9] ALI P J M,FARAJ R H. Data Normalization and Standardization: A Technical Report [J].Machine Learning Technical Reports,2014,1(1):1-6.
[10] 张强,白征东,辛浩浩,等.基于共享单车时空大数据的细粒度聚类[J].测绘通报,2021(5):15-19+29.
[11] 李东博,黄铝文,赵旭博.基于介电特征的苹果霉心病检测方法 [J].智慧农业:中英文,2021,3(4):66-76.
[12] 王海滨,关欣,衣晓.基于区间数聚类的目标分群算法 [J].系统工程与电子技术,2022,44(2):577-583.
[13] 王军,高建杰.基于DBSCAN算法的城市交通小区划分 [J].智能城市,2023,9(2):80-82.
[14] 陈砚桥,孙彤,张侨禹.基于DBSCAN的智能机舱多源数据异常检测方法 [J].舰船科学技术,2021,43(17):156-160.
[15] 于爽,张营,许祺珺,等.XTEN修饰延长多肽药物半衰期研究进展 [J].中国兽医学报,2021,41(8):1651-1657.
作者简介:熊旺平(1982—),男,汉族,江西丰城人,教授,博士,研究方向:数据挖掘;柳鹏(1995—),男,汉族,江西宜春人,硕士研究生在读,研究方向:医药数据挖掘;杨明(1962—),男,汉族,四川成都人,教授,博士生导师,博士,研究方向:中药学。
收稿日期:2023-03-09
基金项目:国家自然科学基金课题(61762051);国家自然科学基金课题(82160955);国家自然科学基金课题(82274680)