近5年上市心血管新药适应证的关联分析
2013-12-23赵鸿萍蒋宏民武小川中国药科大学理学院信息管理与信息系统教研室江苏南京210009
赵鸿萍,蒋宏民,武小川 (中国药科大学理学院信息管理与信息系统教研室,江苏 南京210009)
《医药工业“十二五”发展规划》明确指出:我国医药工业在2011-2015 年间发展的首要任务是增强新药创制能力[1]。桑国卫院士在题为“我国生物医药产业和创新药物发展战略”的报告中,指出现在重磅炸弹的药物已经不是引领新药创制的唯一途径了,药物再定位已成为当前新药研发的一个热点方向和重要趋势。药物再定位即开发已有化合物新适应证的研发策略,包括现有候选药物的新适应证,上市药物的新适应证,搁置药物的适应证,在发展中市场上市但未在发达国家上市等方向[2]。
鉴于此,论文以SQL Server 2008 R2为平台,对检索汤森路透Pharma获取的近5年间上市的心血管新药的适应证信息进行关联分析,期望挖掘出心血管药物再定位的一些规律和出发点,为新药创制提供借鉴与参考。
1 关联分析
关联分析即关联规则挖掘,是数据挖掘中最活跃的研究方法之一,它从大量的数据中挖掘出有价值的、描述数据项之间相互联系的有关知识。
1.1 关联分析的概念 设I={i1,i2,…,im}为所有项目的集合,D 为事务数据库。
若X⊆I是由若干项目构成的集合,则称X 为项集。如果项集X 中包含k 个项目,则称为k-项集。如果事务数据库D 中有s%的事务包含项集X,称项集X 的支持度为s%,记为support(X)=s%。如果项集X 的支持度大于用户给定的最小支持度阈值min_sup,则称X 为频繁项集,或称大项集。
设X⊆I,Y⊆I是2个项集,且X∩Y=Φ。如果事务数据库D 中有t%的事务包含X∪Y,则称关联规则X⇒Y 的支持度为t%,记为support(X⇒Y)=t%。事务数据库D 中包含X∪Y 的事务数与仅包含X 的事务数的比值称为关联规则X⇒Y 的信任度,也称置信度或可信度,记为confidence(X⇒Y),即:
支持度是对关联规则重要性(或适用范围)的衡量。可信度是对关联规则的准确度的衡量。
1.2 SQL Server2008 R2 关 联 分 析 的 算 法 SQL Server2008 R2关联分析采用的是Microsoft的关联规则算法,实质是著名的Apriori算法的实现。Apriori算法的核心思想是采用逐层递推的方法,首先扫描事务数据库,产生1-频繁项集L1;然后由aproiri_gen函数利用Lk-1中的成员连接、剪枝后,产生候选频繁项集Ck,通过扫描事务数据库计算每个候选频繁项集的支持度,并与用户给定的最小支持度阈值min_sup比较,大于min_sup 的项集并入频繁项集Lk中,……如此循环往复,直到再也不能产生新的候选频繁项集时结束,最后合并全部频繁项集。
Apriori算法伪代码如下:
输入:事务数据库D;最小支持度阈值min_sup。输出:D 中的频繁项集L。
2 近5年上市心血管新药适应证的关联分析
关联分析主要包括3个步骤,分别是数据采集、数据的清理转换、建模及结果分析。
2.1 数据采集 为了保证结果的高可信度,论文主要通过检索全球最大的专业信息服务提供商-汤森路透集团的Pharma数据库采集信息,获得了2008年1月1日-2012年3月20日近5年间研究的心血管药物共计3 723个,导出后保存为RESULTS.XLS,如图1所示。
图1 检索结果Fig 1 Results of search
2.2 数据清理转换 数据的清理转换主要通过Excel和编程完成,主要做了以下工作:(1)由于收集到的数据出现字段混乱、缺失值较多等问题,论文首先对数据进行了整理,将内容按字段条理化,并进行了聚集分桶处理,得到结果见图2:
图2 整理后的数据Fig 2 The reorganized data
(2)从以上结果中筛选出已上市药物,共计556个;
(3)对已上市药物提取Drug name和Therapy Areas 2列数据;
(4)将含有多个适应证的记录拆分,如将“Drug name1→适应证B1,适应证B2”拆分成“Drug name1→适应证B1”和“Drug name1→适应证B2”;
(5)Drug name字段内容转化为t1,t2,…,t556,分别表示第1 个药物的研发事务、第2 个药物的研发事务,…,第556个药物的研发事务,得到事务记录共计2 346条;
(6)使用Office 2007数据挖掘外接程序中的“清除数据”功能清除数据中的离群值。
清理转换后的数据见图3。
图3 清理转换后的数据Fig 3 The cleaned and converted data
2.3 建模及结果分析 将事务数据表导入SQL Server 2008 R2建立数据库,然后利用SQL Server 2008 R2 Analysis Service建立关联模型,设定最低支持事务数为10,得到频繁项集见表1。
表1 适应证频繁项集Tab 1 Frequent item sets of indications
以上共计获得8个2-项频繁项集,由项集的内容显示:(心绞痛,高血压)、(心力衰竭,高血压)、(水肿,高血压)、(充血性心力衰竭,高血压)、(心肌梗死,心绞痛)、(心肌梗死,高血压)、(细菌感染,细菌性皮肤感染)和(深部静脉血栓,血栓栓塞)共计8项适应证联合开发是当前心血管新药研发的重要方向。由于模型的最低支持事务数设为10,因此每一个频繁项集中的适应证,至少都有10个已上市新药同时包括,例如第一个频繁项集(心绞痛,高血压),近5年新上市的药物中至少10个药同时用于心绞痛和高血压的治疗。由此可以得出结论:对于一些研发终止的新药,特别是临床Ⅱ期或Ⅲ期终止研发的药物,如果是因为上述适应证中的某一个适应证药效不济的原因,后续研发可考虑对应频繁项集中的另一个适应证进行药物再定位研发,这样有助于降低药物研发的成本,缩短新药研发的进程。同时,对于其他一些已上市或上市多年的药物,再定位研发应优先考虑相应频繁项集中的另一项适应证。
进一步挖掘关联规则的推荐模式,设定置信度阈值为40%,得到结果见表2。
以上共计获得7个关联规则,按置信度高低排序,依次是:细菌性皮肤感染⇒细菌感染、细菌感染⇒细菌性皮肤感染、深部静脉血栓⇒血栓栓塞、水肿⇒高血压、心绞痛⇒高血压、心力衰竭⇒高血压和充血性心力衰竭⇒高血压。
以上7个关联规则是置信度较高的7个推荐模式,在每个模式里,前项推荐后项,意思是治疗前项疾病的药物推荐用于治疗后项疾病。由于模型的置信度阈值为40%,意味着治疗前项疾病的新药中,超过40%的新药同时还适用于后项的疾病。如最后一个关联规则:充血性心力衰竭⇒高血压,其意义是在近5年新上市的治疗充血性心力衰竭的新药中,超过40%的药物同时还用于高血压的治疗。因此,这些高置信度模式除对临床用药有一定借鉴价值外,主要为心血管药物的再定位研发提供了参考,即用于前项疾病治疗的药物推荐用于后项疾病的再定位研发。
表2 关联规则Tab 2 Association rules
3 结语
论 文 基 于2008年1 月1 日-2012 年3 月20 日 共 计5年间研究的心血管药物3 723个,提取出556条已上市药物数据;通过数据清理及转换,产生出2 346个事务;在此基础上建立关联模型,共挖掘出频繁项集8个,关联规则7条,共计15条药物再定位参考信息。文中频繁项集和关联规则的数量均可以通过调节阈值参数增加或减少,论文为了保证结果的高可信度,设定了较高阈值。
鉴于文中数据来源于权威的汤森路透的Pharma,而且基于已上市药物信息进行挖掘,同时使用业界著名的数据挖掘工具SQL Server 2008 R2进行关联分析,研究工作同时兼具数据权威、技术先进、可靠、结论可信度高的优点,可以作为心血管药物再定位研发的出发点或重要参考。
[1] 中华人民共和国工业和信息化部.医药工业“十二五”发展规划.Available from:http://www.miit.gov.cn/n11293472/n11293832/n11293907/n11368223/n14439892.files/n14439806.pdf[Last accessed July 10,2013].
[2] 桑国卫.我国生物医药产业和创新药物发展战略.Available from:http://zt.cast.org.cn/n435777/n435799/n14383669/n14673797/14736866.html[Last accessed July 10,2013].