APP下载

克服引文滞后的科技演化主路径测绘*

2021-05-28马俊红张文凤袁红梅

情报杂志 2021年5期
关键词:专利论文肿瘤

马俊红 张文凤 冯 鑫 袁红梅

(沈阳药科大学工商管理学院 沈阳 110016)

0 引 言

近年来,伴随着科技和大数据的迅猛发展,生物技术、人工智能、信息技术和纳米技术等具有颠覆性特征的新兴技术迅速涌现,相关的专利和期刊论文数量也呈现激增现象[1],面对错综复杂的技术信息网,科研人员显然已经不能通过主观判断准确地对技术趋势进行准确、快速分析[2]。因此,运用大数据分析方法对特定领域庞杂的科技信息进行高效整合尤为重要。

随着技术迭代和机器算法的发展,提纲挈领地对某一领域的发展演变进行精练地描述,逐渐成为绘制技术演化脉络的普适性方法。通过追踪引文网络中重要节点的连通,可以挖掘网络中的核心技术,但从复杂的引文网络中观察技术的发展脉络和路径非常困难[3-4]。主路径分析凭借能够从数以万计的引文网络中抽象出重要的技术路径而被许多学者青睐。将主路径分析方法应用到发现技术演化脉络上发端于期刊论文引文网络,以往的研究也集中将主路径分析方法运用在科学论文中进行某一领域技术演化脉络测绘,例如:Fontana[5]、Fu[6]、Arianna M等[7]将基于论文的主路径应用到局域网、物联网以及电信制造业等领域。此外,祝清松[8]、颜端武等[9]运用论文数据并纳入共被引和时序主题等在主路径方法改进方面做出贡献。然而,仅对科学论文的演化分析不足以洞察某一领域技术发展动态,作为世界上最大的技术信息源,专利文献包含丰富的技术信息[10],专利的引用关系体现了技术之间的继承与发展,基于专利引用网络的主路径分析可用于研究技术演化脉络,对技术趋势做出快速分析[11]。Verspagen[12]于2007年首次对专利引用网络应用主路径分析法来绘制电池领域的技术演化轨迹。经过对专利引文网络不断的探索,Karvonen等[13]在2011年提出,专利数据能够揭示各种企业和研究机构的R&D利益,专利引用信息通过引用关系结合了创新技术,并提供了对某一领域内技术发展过程的洞察,对于公司而言,专利比科学论文更有研究意义[14]。基于专利引文网络的主路径分析方法由此发展。诸多学者从不同视角对基于专利引文网络的主路径进行改进并进行不同领域的实证分析,均取得一定成效。例如:陈亮等[15]将专利文本挖掘和动态规划方法应用于专利引文网络对硬盘驱动器磁头领域进行技术路径测绘;马瑞敏等[16]从节点重要性出发对OLED领域的专利主路径进行全新探索;戚筠等[17]通过局部前向搜索、局部后向搜索、全局搜索以及关键路径四种不同的专利主路径方法以识别引证网络中的核心技术;王婷[18]、Wang等[19]也从不同角度对基于专利的主路径进行改进。最近的研究试图使用基于专利的主路径分析来预测未来的技术变革,发现新兴技术[20-21]。

随着学者们持续深入的研究,主路径分析已成为技术轨迹测绘及技术预测的重要手段,但是,随着主路经分析方法的广泛运用,其存在的弊端也日益凸显,引文滞后就是其中较为严重的弊端。本研究旨在探究克服引文滞后的科技演化主路径测绘方法,以期帮助研究人员清晰、准确、全面地了解技术动态,及时调整研发策略,避免社会资源的浪费。

1 研究设计

引文滞后的产生主要由于主路径分析方法所采用的路径搜索算法(SPC/SPNP/SPLC/ NPPC)的实现依赖于专利引文网络[11],而专利自公布到被引用往往存在一定的时间间隔,专利的引用量存在随时间累积的情况,即近期的专利引用量少于先前专利的引用量[22],即引文滞后[23]。Christian等[24]通过实证研究发现中国专利引用滞后期为31.9个月;Kim Junmo等[25]也指出,使用专利引文网络存在引文滞后的截断偏差问题等。这就导致近期公布的新兴技术由于引用量少而无法表征在主路径上,但这些新兴技术往往代表最新的技术趋势。引文滞后的存在,致使研发人员无法真正了解到最新的技术变革,不能对研发活动作出及时调整,进而导致社会资源浪费。

为了克服主路径分析方法的引文滞后问题,本研究提出了一种可行性方法,该方法尝试将近期的专利和论文与专利主路径相关联,在提取目标社区主路径之后,利用LDA主题模型对专利和论文数据进行主题提取并生成“主题-文档”分布概率矩阵,通过设定阈值筛选出近期重要的且与主路径高度相关的专利和论文,将其衔接到主路径上[26],最终形成延伸和扩展的主路径。本研究提出的方法不仅解决了引文滞后导致的主路径上近期重要技术的缺失问题,而且弥补了以往研究只关注专利或论文的单一性问题。

1.1研究框架本研究旨在进一步完善运用主路径分析方法表征技术演化的脉络,设计了一种克服主路径中引文滞后性的方法。首先,从IncoPat数据库调取所需专利数据,借助Girvan-Newman算法提取社区排名前三的引文网络,针对三个网络运用SPC算法分别提取主路径,以每条主路径末端节点专利的申请时间为起点,从Web of Science中以相同的关键词检索论文数据,最后运用LDA主题模型得到每篇专利和论文与所属主题的概率值,这样属于同一个主题下的专利和论文通过设定阈值进行筛选并与主路径衔接。经过上述过程,主路径末端节点后所衔接的专利作为主路径的延伸,所衔接的论文作为主路径的扩展,最终得到三条延伸和扩展的主路径,整体框架见图1。

1.2 研究方法

1.2.1 构建引文网络并划分社区 采用Pajek进行主路径测绘依赖于引文网络,随着专利文献的增加,网络结构逐渐变得复杂[27],划分网络结构,从社区的角度出发可以更好的去挖掘网络的功能和价值[28]。基于此,本文首先构建专利引用矩阵并可视化引文网络;其次,引入复杂网络中用于社区发现的Girvan-Newman分裂算法对引文网络进行社区划分,并借助Python加以实现。为了定量描述社区划分的优劣,本文引入Newman[29]提出的模块度Q的概念,对社区进行模块化描述,函数表征如下:

图1 研究框架

Q=∑i(eii-ai2)

(1)

其中,i代表的是第i个社区,eii表示社区i的边占原始网络所有边的比例,ai表示所有连接了社区i中的顶点的边占总边数的比例,Q的取值范围为[0,1],其值越接近1,表示网络划分出的社区结构的强度越强,因此可以通过最大化模块度Q来获得最优的网络社区划分。通过上述步骤可以将引文网络划分不同的社区,为主路径的提取做铺垫。

1.2.2 提取专利主路径 选取自然排序前三的社区,首先将每个社区的引文网络转换为加权网络。目前已有的链路加权算法有NPPC/SPNP/SPLC以及SPC。按照Batagelj(2003)[30]的建议,本文选取SPC算法,对引文网络进行链路加权,链接的SPC值定义为从引用源到引用网络中的所有接收器遍历该链接的次数,链接的值越大,则越重要。其次,通过运用SPC搜索算法来提取加权网络中的全局主路径,即搜索SPC总数最大的路径。如图2所示,其中数字代表SPC值,字母代表节点,实线代表运用SPC搜索算法提取的全局主路径,即路径A→C→E→D→F。

图2 SPC算法下的全局主路径

1.2.3 近期专利和论文与主路径的衔接 本研究的最终目标是将近期的专利和论文与专利主路径进行关联,进而克服主路径分析方法中存在的引文滞后问题,最终形成延伸和扩展的主路径。论文和专利数据可以通过所属同一主题的概率值而将彼此联系起来[31]。通过Python针对专利和论文数据应用LDA主题模型,得到每篇专利和论文与所属主题的概率值,这样属于同一个主题下的专利和论文通过设定阈值进行筛选并与主路径衔接。为确保结果的准确性,咨询了领域专家意见来辅助衔接。

LDA主题模型凭借能高效地处理海量文本数据逐步被应用在主题发现及演化研究中[32],在进行文本语义分析时,LDA主题模型不仅能够抽取出高价值的潜在主题[33],所形成的“主题-文档”分布概率更能够将引文分析聚焦于文档与主题之间的链接,这在很大程度上弥补了专利引文分析的不足[26]。LDA是由Blei等[34]于2003年提出的三层贝叶斯主题模型,该模型通过无监督的学习方法发现文本中隐含的主题信息,从而标引文本所属主题。该模型假设一篇文档是由多个主题组成的,且每篇文档的生成服从泊松分布NPoission(β),然后取样生成该文档在主题上的狄利克雷分布θDir(α),整个模型的联合分布公式为:

(2)

其中,β是每个主题下词的多项分布的Dirichlet先验参数,α是每个文档下主题的多项分布的Dirichlet先验参数,zm,n是第m个文档中第n个词的主题,wm,n是m个文档中的第n个词,θm是第m个文档下的主题分布,φk是第k个主题下词的分布。

通过上述步骤,可得到“主题-文档”分布矩阵。此外,鉴于LDA主题模型属于机器学习算法,缺少理解辨别某一专业领域研究重点主题的经验,因此在运用LDA主题模型进行数据集训练时需要结合专家意见不断调整训练结果以确保得出的主题具备合理性[35]。

2 实证分析

随着免疫学、肿瘤学以及精准医疗的发展,肿瘤免疫治疗在技术进步与学科交叉渗透的双向驱动下将迎来发展的黄金时期。肿瘤免疫治疗作为2013年美国《Science》杂志年度十大科学突破之首,在短短几年时间里成为了全球生物医药界最受瞩目的领域。肿瘤免疫疗法已成为肿瘤领域的热点和重要的研究课题。因此,对该领域的科技演化脉络的研究至关重要,故本研究选取肿瘤免疫治疗技术进行实证研究。

2.1数据的收集与处理本研究专利数据来自Incopat数据库,通过阅读肿瘤免疫技术相关的科学文献并结合专家意见,将检索式确定为:TIAB=(肿瘤 OR 癌症 OR 癌 OR 转移) AND (免疫疗法 OR 过继性T细胞疗法 OR 过继性细胞OR 免疫检查点 OR 细胞毒性T淋巴细胞抗原4 OR CTLA-4 OR PD-L1 OR 程序化死亡分子配体1 OR 程序性死亡蛋白1 OR PD-1 OR T细胞受体 OR 嵌合抗原受体 OR 单克隆抗体 OR 疫苗 OR 免疫刺激物 OR 免疫调节 OR 组合免疫疗法OR小分子抑制剂OR细胞过继免疫治疗OR免疫系统调节剂),论文数据通过Web of Science以同样的检索词进行检索,截至2020年8月31日,经过数据清洗共获取中国发明申请专利文献7 348篇,论文1 079篇。

2.2判断技术生命周期根据所收集到的发明专利申请数据,图3给出了肿瘤免疫治疗技术的线性、Logistic分配以及指数模式[36]的拟合曲线。对时间序列数据的非线性模拟显示,增长模式非常接近Logistic或指数函数。根据Harvey M[37]与Khalil T M等[38]的理论并结合拟合曲线,专利数量成指数上升,表明肿瘤免疫治疗技术目前正处于高速发展的成长期,增长速度不断加快。随着科技的不断创新,该领域将迎来更为迅猛的发展,因此本文的分析研究具有重要的意义。

图3 肿瘤免疫治疗技术专利技术生命周期拟合曲线

2.3构建并提取引文网络首先,基于专利文献间的引用关系构建10955×10955矩阵,可视化引文网络;接着通过Python运用Girvan-Newman算法对已构建的专利引文网络进行社区划分;最后得到1454个社区,其模块度Q的值为0.965,表明网络划分出社区结构的强度较强。每个社区对应的节点数如表1所示,选取节点数自然排序前三的社区进行主路径分析。

表1 专利引文网络社区划分结果

2.4专利主路径分析借助Pajek软件基于SPC算法分别对三个目标社区提取主路径,如图4所示。表2显示了主路径节点专利的信息,通过阅读专利文献的标题、摘要及说明书可知,第一条路径代表与嵌合抗原受体(CAR)-T细胞(以下简称“CAR-T细胞”)有关技术的演变,第二条路径代表与程序性死亡因子-1(PD-1)单克隆抗体有关技术的演变,第三条路径代表与DC-CIK细胞免疫疗法有关技术的演变路径。三条主路径末端节点专利的申请时间分别为2018年、2016年和2017年,由此可见,专利文献存在一定的引文滞后性,其导致的偏差问题使最新的技术无法表征在主路径上。

图4 SPC算法提取的主路径

表2 主路径节点相关专利信息

2.5近期专利和论文与主路径的衔接选取主路径末端节点专利所对应时间节点之后的专利和论文数据,借助概率值进行近期专利和论文与主路径的衔接。本研究首先对专利数据应用LDA主题模型结合专家意见经过多次词库训练与调整,最终得到“主题-文档”分布矩阵。通过阅读每个主题下专利和论文的标题和摘要并咨询领域专家,最终将阈值确定为0.700。依据阈值筛选近期专利和论文并链接到基于专利的主路径上,得到三条延伸和扩展的主路径如图5、6、7所示,衔接部分符号含义及所属主题概率值详情见表3、4、5。

图5 CAR-T细胞技术延伸&扩展的主路径

图6 PD-1单克隆抗体延伸&扩展的主路径

图7 DC-CIK细胞免疫疗法延伸&扩展的主路径

表3 CAR-T细胞技术的专利和论文与主路径衔接

表4 PD-1单克隆抗体的专利和论文与主路径衔接

表5 DC-CIK细胞免疫疗法的专利和论文与主路径衔接

第一条主路径主要表征CAR-T细胞相关技术发展,该技术最早在1989年被提出。起初,CAR与CD3复合体的ζ链融合,形成CAR-T细胞受体,但由于无共刺激分子,在体内存活时间较短。为克服缺陷,研究者在CD3等胞内结构域上融合协同刺激因子(如CD27、CD28、4-1BB等),使得CAR-T细胞活化、分泌细胞因子和细胞毒素的作用增强。该方法在治疗血液肿瘤中已取得一定的成效,但在晚期结直肠癌、恶性胶质瘤等实体瘤治疗上还没有实质性的突破,针对实体瘤治疗的改善主要着眼于寻找合适的靶点来增强其疗效,如磷脂酰肌醇蛋白聚糖3(GPC-3)[39]。即便如此,该疗法仍存在靶位缺失效应和细胞因子释放综合征等不良反应,随着精准医学的发展,临床上主要采用靶向治疗、与化学药物联合治疗、双特异性结合等方法减少脱靶等副作用以提高对实体肿瘤的治疗作用。

第二条主路径主要表征PD-1单克隆抗体相关技术的发展,PD-1是一种对T细胞炎性活动的细胞表面受体有抑制作用的B7-CD28受体家族成员。从技术演化的脉络看,其最初以高亲和力与PD-1特异性结合的人源抗体为主要研究方向,逐步走向工业化的实现,与此同时,PD-1单抗的研究重点逐渐转向对其自身编码基因序列的改造,并不断发明新的单克隆抗体作为PD-1通路的阻断剂,以提高对肿瘤细胞的治疗效果。在PD-1单抗发挥显著作用的同时,不免存在诸如免疫相关的内分泌失调等问题[40],为减轻副作用、进一步提高治疗效率,从与近期专利和论文的衔接看,该技术正朝靶向PD-1/PD-L1抗体、与阿帕替尼等化学药物联合疗法以及PD-1通路的阻断剂方向发展,以寻找低毒与高效相平衡的治疗方案。

第三条主路径主要表征DC-CIK细胞免疫疗法相关技术的发展,该疗法被誉为21世纪治疗肿瘤的“绿色生物疗法”[41]。DC-CIK细胞免疫治疗技术是继手术、放疗、化疗后衍生的一种新疗法,其在发展中先后经历了DC和CIK单独作用、DC-CIK制备方法及改进、与PD-1联合免疫等过程,是主动特异性免疫治疗和过继免疫治疗相结合的典范。在与专利和论文的衔接中发现,目前DC-CIK细胞免疫疗法正朝着针对DC-CIK细胞修饰技术、个性化肿瘤疫苗、联合免疫检查点抑制剂以及化学药物联合肿瘤疫苗治疗方向发展。毫无疑问,联合免疫治疗在临床中将发挥举足轻重的作用。

综上所述,通过将近期专利和论文与基于专利的主路径的衔接,不仅清晰地表征了肿瘤免疫治疗技术三个子领域的技术演化脉络和技术前沿,还克服了由主路径算法本身引起的引文滞后性问题。通过该方法识别出的延伸和扩展主路径,为科研人员研究课题的确定以及企业战略规划调整提供了一定借鉴意义,最终形成以发展为导向、以科研为动力的良性循环。

3 结束语

由于引文滞后的存在,一条主路径的终点并不代表技术进步的最前沿,本研究通过提出将近期的专利和论文与主路径进行衔接来解决这一问题。将研究方法应用到肿瘤免疫治疗领域,所识别出的肿瘤免疫治疗技术的延伸和扩展主路径所表征的科技演化脉络及研究前沿较为符合该领域目前发展的热点与需求点,具备一定的参考性。本研究有以下贡献:a.提出了一种新方法,克服主路径分析方法的引文滞后问题,将主路径延伸和扩展到最新的技术变革,科学客观地表征前沿技术;b.使用肿瘤免疫治疗技术的专利信息,并将其与临床研究热点相关联,使得探测出的前沿信息具有可操作性,有助于研究人员对前沿技术的发展趋势进行解读与判断;c.借助LDA主题模型结合领域专家的意见进行文本关联匹配,具备一定的合理性。鉴于本研究只从科学和技术两个层面对主路径进行改善,未来研究可以引入市场层面的数据进行补充完善,综合科学、技术、市场三方面进行技术演化分析,同时可以纳入不同技术领域进行对比研究,深入挖掘不同领域的技术发展特征。

猜你喜欢

专利论文肿瘤
与肿瘤“和平相处”——带瘤生存
廖美琳:肿瘤治疗没有百分百
北京肿瘤防治联盟(BJCA)
滚蛋吧!肿瘤君
本期论文英文摘要
本期论文英文摘要
本期论文英文摘要
2013年5—12月最佳论文
2007年上半年专利授权状况统计