APP下载

基于文本挖掘技术析甲氨蝶呤与中医治疗联合应用的规律❋

2014-02-09孟庆良展俊平郭会卿郭洪涛吕爱平

中国中医基础医学杂志 2014年12期
关键词:网络图频数甲氨蝶呤

孟庆良,展俊平,郭会卿,郭洪涛,郑 光,吕爱平,姜 淼△

(1.河南省中医院,郑州 450002;2.河南中医学院第一附属医院,郑州 450002; 3.兰州大学数学院,兰州 730000;4.中国中医科学院中医临床基础医学研究所,北京 100700)

甲氨蝶呤(MTX)是抗代谢类药物及叶酸拮抗剂,可阻止DNA合成,亦干扰RNA、蛋白质合成,属细胞周期特异性药物,临床上主要用于恶性肿瘤诸如儿童急性白血病和绒毛膜上皮癌等治疗[1]。近年来亦广泛用于治疗类风湿关节炎、强直性脊柱炎、异位妊娠、银屑病等非恶性肿瘤疾病,均取得较为显著的疗效[2]。甲氨蝶呤在全国各中医院均有应用,从中西医结合治疗角度,在临床疾病治疗的疗效评价研究中已经取得了丰硕成果[3]。然而查阅资料发现,大量的文献报道侧重于甲氨蝶呤在西医学中的应用,与中医的联合治疗报道甚少或者缺乏总结。本文利用课题组的文本挖掘技术,对甲氨蝶呤和中医的联合应用规律进行浅析,以期更好地指导和服务于临床。

1 材料与方法

文本挖掘是从非结构化的文本数据中抽取有意义的数据[4],具体说一般包括数据收集整理、选择性挖掘、结构化分析、可视化以及评价[5]5个过程。

1.1 数据收集

登录中国生物医学文献数据库(Chinese BioMedical Literature Data,CBM),在主题检索下分别检索关键词“甲氨蝶呤”。经过检索出现款目词、主题词、命中文献数,合并检索主题词得到文献7681篇(检索日期:2013年9月15日)。为能看到每篇文献的流水号、标题、摘要、主题词等信息,在显示格式中选择“详细”和“显示全部”。

1.2 数据处理

将收集来的数据按照下载的先后顺序整合到一个平面文件(后缀txt)中,以ANSI编码格式保存。利用专有的文本提取工具(软件著作权,软著登字第0261882号,登记号2010SR073409),对下载的非结构化txt文本数据进行信息提取,保存成格式化的、便于大型关系型数据库(Microsoft SQL Server, SQL)处理的格式,随后导入SQL中进行下一步的挖掘分析。假设每篇文献的贡献度是相同的,1篇文献中重复出现的关键词只需要计算1次,据此构建算法进行数据清洗工作[6]。

1.3 数据选取以及可视化方法

清洗完毕后的数据分别得到挖掘对象的一维和二维频次数据,即相关挖掘要素在数据集中出现的文献总的频数以及两两之间的频数关系,因为数据较多,为了网络图更直观的展示,我们对数据采取切片分层的形式,统一只选取频数的前15来进行图形构建,用Cytoscape 2.8软件进行可视化处理。

本文中形成可视化的网络图,笔者采用图形大小和连线的宽度两种方式同时进行客观展示,图形内为要素名称,连线代表要素两两之间的关联。图形的面积越大,代表该要素与其他要素关联的越多,越处于核心的位置;连线越宽,代表该要素与甲氨蝶呤的关系越密切;在文献中出现的频次越高,其权重越大。然后结合专业知识进行解析,一旦发现不合理的结果,即回溯原文献数据集,如果是噪音,仍按算法进行噪音清洗,直至噪音降到满意为止。最后的结果可视化成图,结合专业知识进行解析。人工阅读评价使得结果更加客观,通过这种优化的文本挖掘组合,能够比较客观地总结各方面的规律。

2 结果

2.1 相关疾病和症状文本挖掘结果

图1显示,文本挖掘一维数据共提取到62个疾病58个症状。按照1.3中所述,数据切片选择频数前5的疾病(括号内为文献篇数,以下同)分别为肿瘤(230)、类风湿关节炎(183)、白血病(147)、淋巴瘤(101)、异位妊娠(97);频数前5的症状分别为肿胀(102)、晨僵(67)、腹痛(57)、压痛(50)、强直(50),二维数据切片选择频次排前15组合构建网络图。

图1 甲氨蝶呤相关疾病和症状网络图

图2 甲氨蝶呤与中药以及汤药的联合应用网络图

二维数据中,共提取到症状组合165项疾病668项。由图可知,肿瘤、淋巴瘤、类风湿关节炎、异位妊娠这4种疾病与甲氨蝶呤的相关度较高,肿瘤与甲氨蝶呤的连线最宽,说明相关度最高,而淋巴瘤的图形最大,表示与其他疾病的关联最多。上图右侧症状结果中,黑色虚线方框内,如压痛、晨僵、关节肿胀、疼痛等多属于关节症状,这可能与甲氨蝶呤在类风湿关节炎中的治疗应用有密切关联。

2.2 中药和汤药文本挖掘结果

图2显示,一维数据共提取到86项中药33项方剂。频数前5的方剂分别为独活寄生汤(60)、蠲痹汤(55)、桂枝芍药知母汤(46)、四物汤(41)、乌头汤(36);频数前5的中药分别为雷公藤(76)、当归(30)、白芍(26)、川芎(24)、甘草(19);二维数据切片选择频次排前15组合构建网络图。

中药以及汤药的组合分别为421项和28项。由图可知,雷公藤、独活、桃仁、川芎等与甲氨蝶呤的相关度较高,且从左侧方框内可以看出,牛膝、防风、白芍、当归、细辛等正是中医方剂独活寄生汤的组成,而方剂中独活寄生汤相关度最高(图形最大),其次是蠲痹汤。

2.3 中成药文本挖掘结果

中成药一维数据62项,雷公藤多苷(34)、丹参注射液(5)、川芎嗪注射液(3)、姜黄素(2)、三七总皂苷(2)依次为频数前5。

图3显示,二维数据组合357项,雷公藤多甙与甲氨蝶呤关系最密切。作为临床风湿免疫科的常用药,雷公藤多甙片在类风湿关节炎、白塞病、自身免疫性肝炎等疾病的治疗中,常为首选中成药,而鳖甲煎丸和甘草甜素的广泛联用,则可能是针对自身免疫性肝炎的治疗;同时,由椭圆标注的川芎嗪注射液、当归针、丹参注射液、三七总皂苷可以看出,甲氨蝶呤与活血化瘀之品的联合较为广泛。

图3 甲氨蝶呤与中成药的联合应用网络图

2.4 甲氨蝶呤相关文本挖掘结果二次呈现

图4 甲氨蝶呤与中医联合治疗应用网络图

图4显示,为进一步明晰甲氨蝶呤与中医临床的联合应用规律,我们对所有数据结果进行了二次筛选综合分析整理,仍然采用切片形式,各选二维结果中频数前5的数据整合于一个文件中,通过Cytoscape软件进行网络图的构建,选择“疾病—症状—中药—方剂—中成药”的思路,以便更清晰地整体反映中西医结合运用甲氨蝶呤时的临床规律。

3 讨论

甲氨蝶呤作为临床一线用药,在相关疾病的中医联合治疗策略中,一直被广泛应用,而中医学是祖国宝贵的传统医学,其疗效确切。王永炎院士指出,中医学的发展远远超越了学科和领域,呈现出多学科交叉融合的特点,必须革新技术,解释新的规律[7],利用中医药科学思维,结合生物医学朝向和新技术,当能推动生物医学的创新性发展[8],以实效研究为准,最终提高临床疗效[9]。因此,本文采用课题组的文本挖掘技术,以临床为出发点,总结浅析甲氨蝶呤联合中医治疗的基本规律,为临床医生提供参考。

以“疾病—症状—中药—方剂—中成药”为基本思路,在同一个维度上,通过大量的文献数据,总结其临床规律。从图4可以看出,甲氨蝶呤主要用于肿瘤、类风湿关节炎、白血病以及淋巴瘤的治疗,相当于中医学“癌”、“痹症”、“血证”、“恶核”等;临床症状包括压痛、肿胀、晨僵以及强直等,主要为关节系统病变引发,这与风湿免疫科常见疾病如类风湿关节炎、强直性脊柱炎、银屑病关节炎等较为吻合;与中药联合应用较多的是当归、白芍、川芎等补血活血养阴之品,以及雷公藤、独活、秦艽等祛风湿止痹痛药,符合临床上肿瘤和类风湿关节炎多虚多瘀多湿的疾病特性;中药汤剂独活寄生汤、桂枝芍药知母汤、蠲痹汤则是中医院风湿骨病科常用药;中成药中的雷公藤多苷片,更是甲氨蝶呤的常用联合药物之一。需要注意的是,我们挖掘的文献数据,甲氨蝶呤与活血化瘀类中成药的联合亦较为广泛,如丹参注射液、川芎嗪注射液等,考虑和疾病本身相关。

我们尝试利用现有的数据库平台,通过在大量文献中进行的信息抽取、语词识别、发现知识间的关联[10],有效地找到所需信息[11]进行整合分析,获得的结果更具有代表性。本文以甲氨蝶呤为关键词,对与其联合应用的中医中药、汤药、中成药等分布规律的结果进行提炼,找出其要素与要素的基本组合,采用切片分层和多维度分析,结果更加客观,可重复性强[12]。为广大中医医务工作者提供更为直观的参考,亦为中医进一步临床研究提供可能有益的基础。

[1] 何泽民,王资媛,蔡晓虹.甲氨蝶呤的临床应用[J].海峡药学,2005,17(3):119-121.

[2] 刁永红,刘英,马华. 非恶性肿瘤的治疗进展[J].山东医药,2010,50(50):118-120.

[3] 吕爱平,刘孟宇,张弛,等. 中西医结合医学研究30年回顾[J].中国中西医结合杂志,2011,31(11):1445-1451.

[4] Zheng Guang, Guo Hongtao,Lu Aiping et al. Two dimensions data slicing algorithm, a new approach in mining rules of literature in traditional Chinese medicine. Communications in Computer and Information Science, v 237 CCIS, 161-174,

[5] Zheng Guang, Jiang Miao, Lu Aiping, Exploring the biological basis of deficiency pattern in rheumatoid arthritis through text mining. 2011 IEEE International Conference on Bioinfor matics and Biomedicine Workshops[J]. BIBMW, 2011,811-816.

[6] Guang Zheng, Miao Jiang, Aiping Lu. Discrete derivative: a data slicing algorithm for explo ration of sharing biological networks between rheumatoid arthritis and coronary heart disease. BioData Mining 2011,4:18. http://www.biodatamining.org/content/4/1/18.

[7] 王永炎.大科学时代中医研究思路[J].中国中医基础医学杂志,2012,18(8):813-817.

[8] 姜淼,查青林,吕爱平,等.基于中医药科学思维的生物医学创新研究思路与方法[J].中国中医基础医学杂志, 2010,16(5): 354-357.

[9] 谢雁鸣,魏戌,王永炎. 非恶性肿瘤的治疗进展[J].中国中医基础医学杂志,2013,19(2):139-142.

[10] JC Lamirels, Al Shehabi, C Francois, et al. Intelligent Patent Analysis Through the Use of a Neural Network:Experiment of Multi-viewpoint Analysis with the Multi SOM Model[C].Japan:The ACL 2003Workshop on Patent Corpus Processing,Sapporo,2003.

[11] Fayyad UM Piatetsky-Shapiro G Smith P. From data mining to knowledge discovery: an overview [A ]. In: Advances in knowledge discovery and data mining[C]. Cambridge :AAAT/MIT Press, 1996:1-34.

[12] Li, S., et al., Understanding ZHENG in traditional Chinese medicine in the context of neuro-endocrine-immune network[J]. IET Syst Biol, 2007,1(1):51-60.

猜你喜欢

网络图频数甲氨蝶呤
雷公藤多苷片联合甲氨蝶呤治疗类风湿性关节炎的疗效
网络图在汽修业中应用
中考频数分布直方图题型展示
学习制作频数分布直方图三部曲
频数和频率
试论控制算法理论和网络图计算机算法显示
米非司酮联合甲氨蝶呤治疗异位妊娠的效果观察
甲氨蝶呤治疗异位妊娠的效果观察
米非司酮联合甲氨蝶呤治疗宫外孕随机对照研究
盗汗病治疗药物性味归经频数分析