“人工智能+医疗”新兴技术识别研究*
——以医疗机器人为例
2022-01-21任佳妮
任佳妮 张 薇 杨 阳 龚 娟 钱 虹
(陕西省科学技术情报研究院 西安 710054)
0 引 言
新兴技术作为技术创新的重要部分,其识别、跟踪、预测和管理一直受到广泛的关注。“人工智能+医疗”作为现代社会最为关注的话题,两者的结合是人工智能与行业深度融合的重要体现。目前,人工智能被广泛试点应用于医学影像、疾病辅助诊断及治疗、新药研发、便携式机器人、康复辅助机器人以及生物医学研究等[1]。其中,以机器人科技为代表的智能产业蓬勃兴起,医疗机器人作为全球机器人的新兴发展方向,掀起了一股群雄逐鹿的新浪潮。
因此,识别“人工智能+医疗”新兴技术,尤其是医疗机器人的新兴技术,不仅能够帮助医生在流行病(如“新型冠状病毒肺炎”)疫情中对患者进行无接触式诊疗及其他一系列的辅助治疗,有效缓解医疗资源紧张,降低医务人员感染风险,推动医疗产业信息化发展;同时,还有助于跟踪技术最新发展动态, 具有较高的理论借鉴价值及实践指导意义。
1 国内外研究现状
论文与专利是基础研究成果和技术创新成果的两种不同的表现形式[2]。二者在结构和文字表达上虽属于异构文献,但如从内容上将二者有效整合,形成新的文献信息,并合并采用定量预见方法(如文献计量、专利分析法、趋势外推法等),那么,此类分析结果不仅在全面性和准确性上比单一文献源分析更有优势,同时还能提高技术预见的信度和效度。
近年来,很多学者均利用论文和专利数据进行新兴技术主题识别的研究。Sheikh NJ等基于文献计量学和专利分析技术,建立基于Fisher-Pry模型的技术成熟度模型,对生物传感器在护理和医疗物联网应用中的新兴点进行了技术预见[3]。宋欣娜等以专利数据为基础,采用文献计量学和文本挖掘方法对纳米载药系统领域进行了新兴技术识别[4]。邱悦文以低热度专利与论文为研究对象,运用LDA模型识别新兴技术,并以无人驾驶技术为例做有效性验证[4]。周源等基于论文和专利,运用LDA模型识别机器人领域的新兴技术[5]。以上新兴技术(主题)识别研究主要围绕热点论文、专利高频关键词或语义关键词进行分析。基于高频关键词识别新兴技术,由于高频关键词不能深入反映技术主体之间的关联关系,同时可能会忽视某个领域中突现的动态概念和潜在研究问题,就会存在分析不全面情况。基于语义关键词识别新兴技术,虽然比基于高频关键词的识别更加具体和细化,但由于是无监督式机器学习,在数据处理过程中可能存在无法获取具有显著特征的主题,导致最终识别结果可控性较低。
基于以上研究,本文拟将科技论文和专利数据相结合,基于高频关键词和语义关键词双重分析,辅以专家决策,开展新兴技术识别研究。并以“医疗机器人技术”进行实证研究,来确定方法的可行性。这样不仅能够理顺未来情景变化导致的技术路径变化甚至跃迁,还能对不确定环境下的新兴技术做到真正的识别[5]。对基础研究、应用研究与专家智慧的深度结合具有很强的现实意义。
2 研究方法与过程
2.1基于高频关键词的技术主题识别基于Web of Science论文数据和Derwent Innovation专利数据,利用Derwent Data Analyzerr(DDA)、Uncinet等软件工具,通过高频关键词共词聚类分析,对比科技论文和专利的研究主题,识别技术主题。
2.2基于语义关键词的热点主题识别将所有论文专利的摘要作为一个样本,基于论文专利摘要特征提取法(TF-IDF),将文本特征进行向量化处理;采用Topic Model的主题建模算法(LDA)和专家咨询法,提取其语义关键词及其相关的高频词组;重复LDA建模过程,直到专家小组判断已生成的聚类主题得到收敛时,建模过程结束。最后,通过专家咨询法,对已提取的语义关键词识别热点主题,并将每个主题中的高频关键词组(最多选择3个)作为该主题的二级方向。
2.3关键核心技术识别采用德尔菲调查法将已识别的技术领域热点主题(技术主题)以问卷形式发送给专家,由专家对每项关键核心技术及其二级方向进行“认同”或“不认同”的判断,从而得到最终技术领域关键核心技术。
2.4新兴技术识别对比同一个技术领域的论文和专利引用率(引用率=引用量/发表篇数)高低,可判断基础研究和技术应用二者的领先水平。若论文引用率较高,则说明理论研究正处于上升阶段,原始创新性较强,反之理论研究创新性较低;若专利引用率较低,则说明该技术领域新颖性较强,反之则说明技术突破性较低。计算已识别的关键核心技术年度论文和专利引用率,对比年度变化趋势,识别可能的新兴模式,再结合专家意见,判定该领域的新兴技术是否正确。
3 实证研究
3.1数据采集及清洗本文分别选择Web of Science(WOS)和Derwent Innovation(DI)专利数据库作为数据源,构建以“医疗机器人”为主题的检索式,具体为TAB/TI=(medical* or medicine or surgery or simulation or recovery or medical service or health service or assist or capsule or nano-targeting or nurs* or diagnosis) and (robot * or manipulat *) not TAB/TI = industrial*,检索年限为2011-2020年(按申请年检索)。
其中,论文数据选取article文献,再结合WOS学科的Robotics、Surgery、Nursing、Computer Science、Mechanics等学科分类进行数据精炼,最终论文检索结果为14 852篇。专利数据首先进行同族合并,再结合德温特手工代码P33、P41、P42、P43、P61以及P62等,辅以IPC分类号A61、B25以及G05等,最终检索到13 373篇。
3.2基于高频关键词的技术主题识别
3.2.1 论文主题识别 医疗机器人论文高频主题词共词聚类分析结果主要包含3个研究热点主题[6]:主题1#—主要采用医疗机器人辅助外科手术,包括前列腺切除术、胆囊切除术、肾切除术、子宫切除术以及膀胱切除术等;主题2#—属于新一代医疗机器人的细分类,具体有穿戴式机器人、蛇形机器人以及康复机器人等;主题3#—医疗机器人动力学研究,包括路径规划、轨迹追踪、运动建模以及导航等。
3.2.2 专利主题识别 基于专利文献的高频关键词进行可视化聚类分析,绘制医疗机器人专利地图,呈现出3个医疗机器人的技术研发热点主题[2]。主题1#—医疗机器人技术应用研究,主要内容包括肢外骨骼机器人、辅助康复机器人、医用导向机器人、自动煎药机器人等;主题2#—医用机器人基础理论研究,其主要内容为X光、医疗成像系统、环境不稳定下的手术操作系统、位置方法调整等;主题3#—医疗机器人的动力学研究,主要内容包括机械臂、运动辅助、动力控制、手术控制系统等。
3.2.3 技术主题识别 通过对论文和专利研究主题的对比分析,可以发现二者仅有一个对应的主题:即论文主题3#与专利主题3#对应,均为医疗机器人动力学研究,不过两者的具体侧重点略有不同。这也说明,医疗机器人动力学下一阶段的发展重点可能是运动机制、力反馈以及操作驱动等。同时,也存在4个技术机会。
1)第一类技术机会:包括:a. 医疗机器人辅助外科手术,含前列腺切除术、胆囊切除术、肾切除术、子宫切除术以及膀胱切除术等(论文主题1#);b.新一代医疗机器人(穿戴式机器人、蛇形机器人以及康复机器人等)研究(论文主题2#)。
2)第二类技术机会:包括:a. 医疗机器人基础技术研究,包括X射线、超声波影像融合、轨迹模型以及云端通讯等(专利主题1#);b. 医疗机器人在辅助步行、关节置换以及康复训练等中的应用(专利主题2#)。
3.3基于语义关键词的热点主题识别
3.3.1 特征提取与分类 医疗机器人领域的基础技术类别划分通过德尔菲调查法、文献分析法,并结合专家小组意见[5、7-10],最终确定6大类,28小类,如表1所示。
表1 医疗机器人领域基础技术类别
3.3.2 基于LDA的语义主题提取 将上述28个类别中的所有论文专利的摘要作为一个样本,基于LDA 主题模型算法进行语义主题提取。将之前处理好的“标题最佳自然语言处理词组”作为测试集,设置四折交叉验证,α=0.005,β=0.1,为了保证K值的科学性,我们让K的取值范围为1~30,设置最大循环次数为300次,得到困惑度随K的变化趋势图(见图1)。
图1 LDA主题模型困惑度K值变化趋势
由图1所示,当K=4,7,9时,困惑度平均值相对较低,为了更准确区分论文和专利的研究方向,我们选择K=9,即当topic聚类数量选取等于9,最符合医疗机器人领域研究实际情况;然后在每个topic下提取100个关键词,由专家结合关键词对topic进行命名,并划分成为一个类别,该类别即为医疗机器人的热点主题的一级方向[9-10]。部分结果如表2所示。
表2 基于LDA算法识别的医疗机器人热点主题提取结果
3.3.3 热点主题识别 热点主题的一级方向确定后,再在每个主题下选择10个主题词作为其关键词;然后,在对应一级方向的论文专利数据中检索并提取词频大于5的词组(包含主题词的词组);最后,由专家小组选择出不少于3个高频词组作为该主题的二级方向。表3为最终确定的医疗机器人热点主题清单。
表3 基于LDA算法识别的医疗机器人热点主题
3.4关键核心技术识别将本文识别出医疗机器人的5个技术主题和9个热点主题,以问卷形式发送给专家,由专家对每项关键核心技术及其二级方向进行“认同”或“不认同”的判断,从而得到最终7项医疗机器人关键技术及其二级方向(见表4)。
表4 医疗机器人关键核心技术
3.5新兴技术识别计算上述已识别的医疗机器人7项关键核心技术的论文和专利引用率,分析其年度变化趋势(见图2),可识别出该领域三类新兴模式[5]:
图2 医疗机器人关键技术论文专利引用率年度趋势
a.业态创新模式。即论文引用率始终高于专利引用率,说明基础研究积累充分,技术突破性强,具有较强的新颖性,属于潜在的全新技术驱动的新兴模式。如关键核心技术1#、2#、3#、4#、5#、6#等均表现为业态创新模式。
b.协同创新模式。即论文引用率与专利引用率涨跌交替,说明基础研究与技术开发相互促进,是潜在的多种已有技术聚合而成的新兴模式。如关键核心技术7#——基于人工智能的机器人学习模型;自21世纪以来,机器人辅助医疗技术就是国际医疗机器人领域研究热点前沿之一,该技术与现有人工智能、云计算等技术相结合,日益不断完善。
c.非新兴创新模式。即论文引用率峰值始终低于专利引用率峰值,说明尽管技术开发与应用在日益进步,但科学研究基础薄弱,技术新颖性不足,可能通过后续的研究和开发提升或推动该技术的发展,属于渐进式技术,而非新兴技术。该类模式在医疗机器人领域并未出现。
最终,通过专家小组讨论,认为识别出的新兴模式基本正确。因此,医疗机器人新兴技术最终确定为7项。其中护理机器人技术、医疗机器人辅助外科手术、康复机器人技术等属于业态创新模式;基于人工智能的机器人学习模型属于协同创新模式。
3.6有效性分析从结果上看,本文基于2011-2020年医疗机器人技术领域的论文和专利数据,识别了 7项新兴技术主题21个新兴技术主题二级方向。从最终识别的主题结果中可看出“智能生物材料”“深度学习”“不确定问题”等新兴热点突现词并没有出现在基于高频关键词的技术主题识别结果中,具有一定的合理性;将子宫、前列腺、胆囊以及膀胱等切除术统一归纳形成“医疗机器人辅助外科手术”也补充了基于语义关键词的主题识别不能获取“具有显著特征的主题”的短板。在专家小组全程参与下,医疗机器人新兴技术主题和二级方向相互支持,能够更好地解读其技术未来发展方向,克服了由传统的德尔菲调查法的主观偏误性和专家依赖性带来的知识固化。最后的结果表明,基于高频关键词和语义关键词双重分析提升了识别的精准度,验证了方法的有效性。
3.7新兴技术主题解读医疗机器人是一个具有交叉特性的领域,作为新兴科技代表,正在成为各国竞相投入和角逐的新战略高地[11]。外科手术和康复是医疗机器人最为典型的应用场景,由于需要与医患紧密配合,且作用于人体,医疗机器人需要具备较强的感知和认知能力;5G通信技术、虚拟现实、力反馈技术等大力发展,为医疗机器人远程操作提供了更好的支撑[11]。2020年,国际顶级学术期刊《Nature》将医疗机器人结构的灵活性、人机交互技术的高效性以及远程操作技术列为未来产业发展重点[11]。上海交通大学医疗机器人研究院院长杨广中认为:推动中国机器人研究发展的主要因素包括医学影像、人工智能以及新的机器人制造材料[13]。加州斯坦福人工智能机器人实验室李耀博士称医疗机器人在护理、身体康复以及辅助外科手术应用拥有特别优先权[14]。由此可见,业界的分析与本研究识别的医疗机器人新兴技术基本保持一致,说明基于高频关键词和语义关键词双重分析的新兴技术识别方法的有效性。
4 结 论
为避免单纯基于高频关键词忽视突现的动态概念和潜在研究问题,或单纯基于语义关键词可能无法获取具有显著特征主题的问题,本文提出一种基于高频关键词和语义关键词双重分析与专家小组决策相结合的方法,识别“人工智能+医疗”领域的关键核心技术;再通过引入论文专利引用率,识别关键核心技术可能的新兴模式,结合专家意见,判定该领域的新兴技术。作为实证研究,医疗机器人新兴技术的识别证明了该识别方法的可行性和有效性。
据国际机器人联盟(IFR)统计数据,预计到2025年,我国智能医疗机器人市场规模将突破百亿元[15]。面对这一片“蓝海”,尤其是5G时代的到来,无疑是给“人工智能+医疗”打了一剂强心针,医疗机器人商业化、市场化的步伐将不断加快,随之而来的将是一场新的医疗技术革命!本文在对医疗机器人技术领域的论文和专利等进行数据挖掘的同时,还识别出多项医疗机器人领域未来技术机会和热点主题,能够为我国医疗机器人企业技术研发及政府产业政策的制定提供借鉴。我们应抓住这一大好机遇,加强产业规划部署,补齐关键技术短板,最终掀开我国“人工智能+医疗”的新篇章!