喹诺酮类药品不良反应领域本体构建探讨*
2020-05-09林鑫李晓瑛郭进京张化冰赵嘉玮任慧玲
林鑫 李晓瑛 郭进京 张化冰 赵嘉玮 任慧玲
(1.中国医学科学院/北京协和医学院医学信息研究所,北京 100020;2.中国医学科学院/北京协和医学院北京协和医院内分泌科,北京 100073)
药品在产生治疗作用的同时,可能会伴随产生对患者生命健康带来严重风险的不良反应。药品不良反应(Adverse Drug Reaction,ADR)是指合格药品在正常用法用量下出现的与用药目的无关的有害反应[1],不仅能够给患者生命健康带来严重风险,也会增加患者的住院时间及死亡率,带来极大的经济负担。其中,喹诺酮类药品因具有抗菌作用强、口服吸收好等特点,在临床上应用广泛;与此同时,其ADR发生率明显增加[2-4],有关的ADR报道日益增多,由此带来的危害日益突出,因此喹诺酮类药品的用药问题应引起极大关注。
药品说明书作为一种法律文书,包含安全有效使用该药品的全部信息,收录了药品除尚未发现的、特殊的不良反应外的其他全部ADR,目前已成为医生处方和患者安全有效用药最基本且最重要的信息来源[5],是指导临床合理用药的重要依据。尽管药品说明书在一定程度上可起到安全警戒的作用,但每种药品的ADR仅在其相应的说明书中出现。临床中为确保合理用药,医生要同时兼顾疗效与ADR的平衡,对于具有相同药理作用的药品,仅通过查找每个药品的说明书来对其ADR及ADR发生频率、严重程度等信息进行对比,难以快速且准确地作出最优决策,耽误患者救治时间。
因此,将文本形式的非结构化药品说明书转化成计算机可识别的结构化知识,将药品及所致ADR的相关信息进行结构化组织,并对其之间的语义关系进行定义与描述,将在很大程度上推动ADR信息的提取与利用,提高临床分析的效率和准确度。而本体作为对特定领域之中概念及其相互之间关系的规范表达,是共享概念模型的明确的形式化规范说明[6],具有支持信息交流以及不同系统之间互操作的作用[7],能够为信息共享和知识表达提供基础[8]。
基于此,本研究选择喹诺酮药品,参照药品说明书分析药品与所致不良反应等内容之间的关系,建立具有丰富语义关系的喹诺酮类药品不良反应领域本体。通过对该本体进行有效利用,将有助于药品不良反应的系统分析,辅助临床医师快速准确地作出最优用药决策,确保临床合理用药。
1 喹诺酮类药品不良反应本体的构建过程
类和属性作为本体的重要组成元素,是本研究的不良反应本体构建过程的关键步骤。对于该本体的构建,将参考药品说明书,按照确定本体框架、定义类及类的层次关系、构建本体属性这3个步骤进行,具体的流程及每个过程的数据来源见图1。
图1 不良反应本体构建过程
1.1 确定本体框架
本研究构建的本体面向的对象为喹诺酮类药品的不良反应信息。分析药品说明书中的“不良反应”相关内容可发现,说明书中除了记录药品可发生的不良反应症状外,还记录了不良反应的发生频率、发生人群等,如诺氟沙星片的说明书中有关胃肠道的不良反应描述为“胃肠道反应:较为常见,可表现为腹部不适或疼痛、腹泻、恶心或呕吐”。因此,本体中除了要包含喹诺酮类药品、不良反应症状这两类基本内容外,为了能够精准表达药品及不良反应领域知识,还需包括不良反应发生率、不良反应发生人群等与不良反应相关的内容,以及药品禁忌人群、给药途径等与药品相关的内容。通过分析这些领域内的主要概念及概念间的关系,即可构造概念之间的层次结构,从而建立本体的框架。
经过分析,本研究构建的药品不良反应本体将分为9个大类,分别为喹诺酮类药品、不良反应症状、不良反应严重程度、不良反应发生人群、不良反应发生频率、不良反应缓解方式、给药途径、药品剂型以及药品禁忌人群。这9个大类中,喹诺酮类药品及不良反应症状为2个主要类。
1.2 定义类及类的层次关系
由于本体构建的最终目的是实现对领域知识的重用和共享[9],因此领域本体在构建之前应充分考虑复用已有的本体。鉴于目前领域内较为成熟的不良事件本体(the Ontology of Adverse Events,OAE)及其衍生的相关本体[10-14]中涵盖的ADR术语均为英文,且这部分术语并未在我国进行推广使用,国内外不良事件与不良反应的概念并不完全相同[15],这些本体尚且难以直接应用于我国的药品不良反应研究。因此,对于已有本体的复用,本研究仅考虑复用相关本体中的属性,而不再进行类的复用。此外,由于目前不良反应领域已有较成熟、权威的规范化词表,本研究在构建本体时将会参考利用这些词表来减少重复性工作,简化本体构建的过程。
现今,喹诺酮类药品已发展至第四代,且相应的子类分别按照这四代药品进行划分。参考《抗菌药物治疗学》《中国医师药师临床用药指南》《国家基本药物目录》等,汇总整理得到四代喹诺酮类药品共164种,类的最底层(叶子节点)为药品通用名。
对于不良反应症状类,WHO不良反应术语集(WHO Adverse Reactions Terminology,WHOART)结构简洁易懂,术语集中主要记录了ADR名称,使用时较便利;同时,在我国已应用多年,不良反应报告者和监测人员对其相对比较熟悉[16],其中包含的术语是世界上最受认可的ADR术语[17]。因此,不良反应症状这一类,考虑到本体的可扩展性,将以WHOART(2015年中文更新版)中收录的术语为基础,并参照药品说明书中的实际记录情况,及结合如监管活动医学词典(Medical Dictionary for Regulatory Activities,MedDRA)等其他的不良反应词表对其进行不断地调整与补充。
WHOART的层级结构较为细致,共分为4级,分别是系统器官分类(System Organ Classes,SOC)、高位语(High Level Terms,HLT)、首选术语(Preferred Terms,PT)以及收录术语(Included Terms,IT),SOC为最高层级,其下位类分别为HLT、PT和IT。在WHOART中,PT是对单一医学概念进行独特表达的专用术语,可用于对不良反应术语进行表征和区分,IT是PT的同义描述。在本研究中,拟构建的本体不良反应症状类采用WHOART中从SOC至PT的层级结构,IT不作为单独的层级,而作为其对应PT的同义词出现。
对于不良反应严重程度类,美国卫生及公共服务部于2017年发布了常见不良事件评价标准(Common Terminology Criteria for Adverse Events,CTCAE)5.0中英文版本[18],包含836个不良事件术语,这些术语均源自MedDRA的低位语,同时也针对每个不良事件进行了严重程度(1~5级)的划分。本研究将以这5级严重程度的划分为基础建立不良反应严重程度类,并将不良反应症状与其对应的严重程度之间建立关系。
对于不良反应发生频率类,国际医学科学组织委员会(Council for International Organization of Medical Science,CIMOS)推荐使用下述5个术语和百分率表示药物不良反应发生频率[19]:十分常见(≥10%)、常见(≥1%,<10%)、偶见(≥0.1%,<1%)、罕见(≥0.01%,<0.1%)、十分罕见(<0.01%)。本研究将参考这种划分方式,同时在构建过程中对各个术语在药品说明书中的同义描述进行不断总结,并纳入本体。
对于药品剂型类及给药途径类,参考中华人民共和国国家卫生健康委员会(以下简称“卫健委”)发布的《国家基本药物目录(2018年版)》及《药物制剂学》等相关材料进行整理归纳,其中药品剂型类下分为口服剂型、注射剂型、外用剂型和其他剂型4个子类,这4个子类共包含56种剂型。
对于不良反应发生人群、不良反应缓解方式、药品禁忌人群3个大类中包含的子类,需要依据药品说明书中“不良反应”“禁忌”“注意事项”3个字段的实际记录情况进行整理,并将其归类后纳入至本体。
1.3 构建本体的属性
在明确不良反应本体的框架和基本层次结构后需定义类的属性关系,本体中类的属性包括对象属性(object property)和数值属性(datatype property)。其中对象属性描述的是类之间的关系,数值属性描述的是类的固有属性,描述了概念的本质特征,数值属性对于理解领域内概念的内涵,揭示领域知识具有不可替代的作用[9]。此外,本体中的注释属性(annotation property)属于元数据,即用于描述数据的数据,可用来解释本体中的类、属性等。
对于对象属性,在分析本体中这9个类之间的联系,以及参考已有OAE本体、RxNorm等知识组织系统的基础上,本研究构建了8个对象属性,各属性的定义域、值域及复用情况见表1。
表1 喹诺酮类药品不良反应本体的对象属性
对于数值属性,通过对不良反应领域知识进行分析,除了包括概念同义词以外,还可依据本研究复用的规范化词表中的实际记录情况来进行补充。例如,对于不良反应严重程度类,CTCAE 5.0英文版中同时收录了不良事件术语对应的NCIt Code、NCIt PT、NCIt Definition、MedDRA TermType等数据项,但涵盖的术语量仅为MedDRA中很少的一部分。为了最大程度地促进本体或术语集的交互,本研究将利用相同的方法分别实现WHOART与MedDRA 22.0版本及CTCAE 5.0版本的术语映射;对于映射成功的WHOART中的PT术语,将这些术语对应的MedDRA Code及NCIt Code作为不良反应症状类术语的数值属性,对应的NCIt Definition则作为注释纳入本体。本研究共构建15个数值属性,各数值属性的含义及赋值类别见表2。
表2 喹诺酮类药品不良反应本体的数值属性
2 不良反应本体构建结果
喹诺酮类药品种类十分丰富,相应地本体所涉及的药品种类繁多,工作量巨大。卫健委发布的《国家基本药物目录》作为政府举办的基层医疗卫生机构和其他各类医疗机构配备与使用药物的依据,参考我国疾病谱变化、药品不良反应监测评价等因素每3年调整一次,其中涵盖的药物不仅能够适应基本医疗卫生需求,而且是临床首选、优先使用的一线药物[20]。因此,本研究将以《国家基本药物目录(2018年版)》中收录的喹诺酮类药品为例,从国家药监局网站、药智网等获取相关药品的说明书,据此完成本体中相关属性的建立。
此外,国际化资源标识符(Internationalized Resource Identifiers,IRI)作为本体在世界范围内的唯一标识符[21],促进了本体间的交互及复用。本研究在本体构建之初便对本体中概念的IRI进行设定,统一采用“ADR+六位数字”的形式进行表示,且六位数字从000001开始依次递增。
2.1 不良反应本体中类的构建情况
依据前文介绍的本体框架及整理归纳后的各个类涉及的概念,参照药品说明书的实际记录情况,在Protégé中可逐层创建子类,本体类的树状结构如图2所示。
图2 不良反应本体类的树状结构
其中,对于不良反应症状类中概念的命名,由于WHOART中SOC术语的命名不能体现描述的是药品不良反应,所以在本体中,SOC术语后统一加“-ADR”;考虑到WHOART中PT术语中会包含HLT术语,为了便于区分和构建属性,本体中HLT术语后统一加“[HLT]”,PT术语的命名则保持不变。除此之外,在WHOART中,部分PT术语无对应的HLT术语,而直接与SOC术语对应;在本体中,针对此类术语在每个SOC下新建一个类,其命名为“SOC名称-ADR[无HLT]”,该类的子类术语为该SOC层级下无HLT术语的PT术语。以“丙酮酸降低”为例,其各上位类在本体中的命名情况如图3所示。
图3 “丙酮酸降低”各上位类的命名情况
2.2 不良反应本体中属性的构建情况
在利用药品说明书分析药品与不良反应之间的关系时,为缩短本体构建周期,本研究使用Python的Jieba分词来对说明书中的“不良反应”字段进行切分,同时参考WHOART构建自定义词典导入Jieba以提高分词准确率;考虑到药品说明书中某些症状词可能不被WHOART收录,因此在经过Jieba分词后还须结合人工对分词结果审核,并将未被收录的术语参考相关术语集纳入本体。
对于不良反应症状类,前期通过将WHOART与MedDRA及CTCAE进行映射,共建立2 020个症状类术语的数值属性MedDRA Code;将256个症状类术语与不良反应严重程度类建立对象属性,并建立了256个术语的数值属性NCIt Code。以“发热”为例,在Protégé上可对构建完成的属性进行修改、浏览,如图4所示。其中,发热的英文翻译为fever,在MedDRA中对应术语的编码为10037660,在NCIt中对应术语的编码为C143485,在WHOART中的编码为725;同义词包括体温升高、发烧、发热反应等;当发热作为不良事件时,可表现为1~5级的严重程度。此外,对于药品说明书中并未在本体中出现的症状词如纳差等,参考其英文翻译及MedDRA等相关词表,结合专家意见,将其补充至不良反应症状类相关术语的同义描述中。本体中新纳入58个症状类术语的同义描述。
对于药品类,依据药品说明书的实际记录情况即可在本体中将喹诺酮类药品和对应的不良反应症状建立对象属性。需要注意的是,有的药品说明书中还会记录不良反应的发生频率,对于此类同时描述“药品-不良反应症状-不良反应发生频率”2个以上实体之间的关系,本研究参考Hong等[14]在构建ODAE(Ontology of Drug Adverse Events)时的经验,将多个对象属性连接来描述这些实体间的关系。以“腹泻”这一症状为例,其在本体中构建的对象属性如图5所示。
图4 症状类术语—发热的属性示例
图5 盐酸左氧氟沙星片与腹泻之间的对象属性
以第三代喹诺酮类药品盐酸左氧氟沙星片为例,其对象属性及数值属性构建情况如图6所示。其中,注释部分的Reference表示药品说明书的来源,点击网址即可链接到相应药品的药品说明书界面;同时本研究所构建的本体在将药品与不良反应症状进行关联的基础上,还描述了药品说明书中记录的药品发生此不良反应时的发生频率、缓解方式、不良反应的严重程度等,对实体间语义关系的描述较为细致。此外,通过选择图6中属性右侧的“@”来添加注释描述不良反应的发现途径,如图6(a)中的厌食是通过临床试验患者对左氧氟沙星的综合暴露发现的不良反应,图6(b)中的肝衰竭是通过上市后的使用发现的不良反应。
对于不良反应发生频率类,将频率的百分比作为数值属性进行描述,同时在本体构建过程中将药品说明书中出现的同义描述纳入本体;以“十分罕见”为例,其表示的发生频率百分比为“<0.01%”,药品说明书中的同义描述包括极少数患者、非常罕见等,详见图7。
图6 盐酸左氧氟沙星片的对象属性及数值属性(部分)
图7 不良反应发生频率类术语—十分罕见的属性示例
2.3 不良反应本体的可视化展示
Protégé中提供的OntoGraf可视化插件可实现本体语义关系的图形化展示,图8为本研究所构建的不良反应本体的OntoGraf图。其中,不同类型的线条代表了不同类型的语义关系,实线指向该类的子类,如不良反应症状包含胃肠疾病类不良反应、神经系统疾病类不良反应等多个下位类;虚线表示类与类之间存在语义关系,箭头由定义域指向值域,如喹诺酮类药品与不良反应症状之间具有语义关系,该语义关系的定义域为药品,值域为不良反应症状。
3 讨论
本研究构建了同时包含喹诺酮类药品和不良反应的本体,并对它们之间的逻辑关系进行定义与描述,克服了以往不良反应词表缺乏明确的逻辑推理与分类结构,难以进行自动检索、计算分析与聚合的缺点[22]。该本体同时还将药品不良反应的发生频率、严重程度等引入关系中,语义关系揭示的较为细致,有助于促进药品不良反应的系统查询,并为进一步药品不良反应知识的采集、梳理、表示和利用奠定基础。
图8 不良反应本体关系展示的OntoGraf图
当然本研究还存在一定的局限性。如本体构建过程中概念及属性的提取大多由手工创建,费时费力,可能会出现因主观判断造成的一些错误结论,同时也并未对构建完成的本体的性能和质量进行客观有效的评价。未来本研究将细化WHOART中收录的ADR术语,并将中国本地术语与其进行融合,同时也将进行更加深入的研究和扩展,如利用该本体进行不良反应的知识发现;此外,考虑将真实世界中药品不良反应数据纳入该本体,扩展本体的覆盖范围。
4 结论
本文构建了同时包含喹诺酮类药品和不良反应症状的喹诺酮类药品不良反应领域本体,通过系统收集相关药品的药品说明书,将其中的知识概念进行语义关联,知识表达精准完整,语义关系揭示细致,以期能够够为大规模药品不良反应本体及其他领域本体的构建提供借鉴;此外,该本体也将面向医师与患者,为临床中该类药品的合理使用提供参考。