基于蒙特卡洛算法的中医药特性研究及应用△
2018-11-02李雅洁杨雨晴
李雅洁 朱 畅 杨雨晴 魏 杰
(安徽蚌埠医学院影像学系 蚌埠 233000)
21世纪国家振兴中医药规划的出台和医改政策的推进为中医药产业发展提供了加速力量,但很多中药研究者还不能明确的了解中药具体能够带给我们哪些更好的疗效以及中药本身的各种差异性与属性间的相关性。所以本研究通过大数据挖掘得到中药材的缺失信息,利用聚类分析研究这些中药间的相关性,从而更好地为病人提供更有效的治疗方案。同时,现在社会中存在越来越多的呼吸道感染病人,由于抗生素的滥用导致病人耐药,进一步加重病情,引发咳嗽等一系列的疾病。如何为呼吸道感染病人提供一个采集新鲜中药止咳的方案是时代发展的需求。
1 模型的选取
(1)数据挖掘模型:蒙特卡洛模型;
(2)聚类分析模型:基于层次的Q型聚类分析法。
2 表格材料量化处理
2.1 原始材料信息
将445味中药的性、味、生长地、植物形态、类别等信息进行分类并量化,用1代表无,2代表有。
采用蒙特卡洛算法模型,利用R软件计算编程得出结果如图1~3。
2.2 各药材特性之间相关性分析
设量化的中医药数据库中共有M个样品,记中药功能共有N种类型,将M个样品看成为N维空间RN的M个点,即X={X1,X2,X3······XM}
则两样本间的欧式距离[2]:
3 结果分析
3.1 资料的补齐
通过导出拟合曲线的分析可以看出曲线拟合程度较高,变量之间相关性显著,差别具有统计学意义。根据分析得到并补全缺失信息。
3.2 相似度聚类
3.2.1资料的再量化
为了使现有信息更方便的适用于模型当中,本文对信息进行进一步的量化处理。在功能列的分类中将药物分为行气燥湿化痰类、活血化瘀通经类、补益滋养安神类、清热祛湿泄浊类、泻水利尿类[1]。
在植物类别一列,1代表全草类,2代表根茎类,3代表根类,4代表果实类,5代表花类,6代表茎藤类,7代表木类,8代表皮类,9代表其它类,10代表叶类,11代表种子类;
在性味一列,1代表性温、微温,2代表凉、微凉,3代表微寒、寒、大寒,4代表热、大热,5代表平;
在生产地一列,1代表盐碱砂质地,2代表闲散地,3代表庇荫潮湿地,4代表干燥荒芜地,5代表肥沃地;
在其它列中,1代表有,0代表无。
3.2.2系谱图分析
根据欧式距离定义可以得到,两样品间距离越小,相似度越高,将相似度极高的一些样品聚类,可以得到药品的分布情况:以中药采制季节的分布情况为例,最终得到聚类系谱图如图4。
由图4,利用基于分裂的层次聚类方法,选择合适的聚类集合为2,再次使用SPSS软件,通过与基于划分的聚类方法相结合,通过K均值的快速聚类,最终得出最合适的聚类分法图,如下列表格所示:
根据表1~2得出,可以将采制季节大致分为两类:第一类即近夏季采摘,可定义为上半年采摘共有326例;第二类聚类中心在秋季可定义为下半年采制,共计118例。
同理可得出中药味、中药产地和中药功能的聚类分析结果,在此不做赘述。
同时对量化的数据通过绘制饼状图可清晰的表示其分布情况,445味中药类别分布图如图5所示。
根据图形可看出类别的分布情况,同理可得出中药性味以及生长地的分布情况。
图2 导出拟合曲线2
图3 导出拟合曲线3
图4 采制季节分类系谱图
图5 中药类别分布图
表1 最终聚类中心
聚类12春00夏01秋10冬00
表2 每个聚类中的案例数
聚类1326.0002118.000有效444.000缺失0.000
4 结果的讨论
4.1 各模型的评价
4.1.1运用蒙特卡洛算法的优势
蒙特卡洛算法简单快速,省却了繁复的数学推导和演算过程,同时具有很强的适应性,问题的几何形状的复杂性对它的影响不大。
4.1.2基于层次的Q型聚类分析法的优缺点
(1)模型的优点:图形的形式展现结果,直观明了;系统量化的分析方法,简单明确;灵活性大。
(2)模型的缺点:得出结果后不能重新分配;定量信息少,定性成分多,结果不宜让人信服;主观性太强。
4.2 聚类后实例分析
根据上述聚类的结果可以找出适合止咳的药物,通过相关的条件的限定即能得到合适的中药材。
4.2.1不同季节和地区推荐的新鲜中药
患者出现咳嗽以及咳痰的症状时,见表3。
表3 不同季节和地区推荐使用的药物
季节地区春夏秋冬华北前胡旋覆花、千日红前胡前胡华东紫菀半夏、千日红紫菀土人参华南-旋覆花、千日红-土人参华中桔梗半夏、千日红桔梗土人参西南前胡半夏、千日红前胡前胡西北前胡旋覆花、千日红前胡-东北紫苑旋覆花、千日红紫苑
无论什么时间段出现症状,全国各地的患者都可以选择十大功劳-阔叶十大功劳;华东、华中、西北的患者可以选择枇杷叶。
4.2.2药物配伍
除了单种药物的疗效,中药材搭配服用不仅能够很好的抑制病症的蔓延,同时能够达到很好的养生效果,使机体免疫力增强。