基于文本相似度的康复量表ICF映射研究

2022-04-24厐絪郑建立

软件导刊 2022年4期

厐絪，郑建立

（上海理工大学医疗器械与食品学院，上海 200093）

0 引言

随着我国人口老龄化进程的不断加速，社会对老年康复医疗的需求持续增长。然而我国康复产业起步较晚，康复资源十分紧缺，且存在康复信息化不足的问题。康复量表是康复信息的重要部分，是目前评估患者功能状况的主要手段，但数据种类繁杂。2001年5月22日，世界卫生组织（World Health Organization，WHO）在第54届世界卫生大会上颁布了国际功能、残疾和健康分类（International Classification of Functioning，Disability and Health，ICF），其是用于人类健康功能分类的标准化框架，可与康复量表联合应用。2017年，WHO在“康复2030”国际大会上呼吁各国运用ICF收集康复服务信息，加强健康信息系统建设。2020年，我国康复领域专家提出构建ICF的康复大数据平台，利用平台记录、存储、统计和呈现被评定者的功能数据。可见，康复信息管理正在得到重视，利用ICF构建康复信息平台是未来趋势。

目前，关于ICF的应用已有许多相关研究。例如，Cieza等首次提出将康复量表与ICF进行链接，并提出基于量表概念提取的手动链接方法；Prodinger等将健康功能信息转化为ICF编码的标准化报告，运用Cieza提出的链接方法实现概念等价，运用Rasch模型实现评分等价；Tuechler等利用448个研究样本，开发了基于机器学习的随机森林学习模型的翻译工具，旨在由患者报告结局测量工具（Patient-Reported Outcome Measures，PROM）中收集的健康信息自动链接到ICF分类；林枫等以ICF为框架，运用ASP.NET、JavaScript、CSS和HTML等技术开发了基于康复科业务流程的康复信息化管理平台。此外，为解决ICF因类目繁多（1 495条类目）而应用困难的问题，WHO、国际物理医学与康复医学学会（International Society of Physical and Rehabilitation Medicine，ISPRM）、德国慕尼黑大学健康与康复科学研究所的ICF研究分中心等共同开发了ICF核心分类组合（ICFCore Sets）。

目前多数研究是基于一定规则在信息平台应用ICF，鲜有根据康复量表的文本语义将其自动映射为ICF分类的研究。因此，本文以康复量表与标准ICF分类联合应用为思路，运用文本相似度算法—词移距离算法（Word Mover’s Distance，WMD），将脑卒中相关的康复量表映射为相应的ICF编码组合，并以ICF核心分类组合中的脑卒中综合版作为标准进行评价，以期为康复师使用康复量表时推荐合适的ICF编码。

1 ICF分类简介

ICF提供了有关人类健康功能及其受限情况的描述，其将健康功能分为6个类别：身体功能（Body Functions）、身体结构（Body Structures）、活动和参与（Activities and Participation）、环境因素（Environment Factors）以及个人因素（Personal Factors）。ICF描述了类别之间的联系与鉴别要素，使得人类健康功能之间的关系得以清晰表达。

ICF运用字母、数字编码系统表示各类目（Categories），字母b、s、d、e分别代表身体功能、身体结构、活动和参与、环境因素。字母之后的数字从左到右分别代表一级（1位数字）、二级（3位数字）、三级（4位数字）和四级水平类目（5位数字），具体示例如表1所示。此外，ICF需要限定值才算完整，限定值类似于量表评分，表示健康水平或出现问题的严重程度，如b7302.1表示单侧身体肌肉力量轻度损伤。本文不考虑限定值，仅考虑编码。

ICF共有1 495条类目，分类详尽，应用起来十分繁琐。ICF核心分类组合在一定程度上改善了上述问题，其运用严格的多维科学方法，按照人在不同时期（急性期、亚急性期以及慢性期）的特定健康状况（如脑卒中、孤独症）对ICF进行分组。ICF核心分类组合共计86个，包括3个基本ICF组合：通用组合、功能障碍组合、环境因素的最小组合，以及4类疾病分组：肌肉骨骼系统疾病、心肺疾病、神经系统疾病、其他疾病，每类疾病分组下包括具体疾病的综合版和简要版ICF核心分类组合。

Table 1 Examples of ICF category codes at different levels表1 不同水平ICF分类编码示例

2 WMD算法

WMD是Kusner等于2015年提出的基于词向量计算文本文档之间距离的算法，是搬土距离（Earth Mover’s Distance，EMD）的一个应用实例。EMD是Rubner等于1998年提出的解决线性规划中运输问题的算法，被广泛应用于图像和语音信号处理领域。EMD反映了通过移动分布质量将一个分布转换为另一个分布所必须进行的最小工作量。相应的，WMD计算的即为一个词转换为另一个词所必需的最小代价。

WMD的思想是求解两个文本文档之间的最短距离。在两个文本文档去除停用词后，将其表示为加权词向量的点云，其中权是通过最优化算法得出。文本文档A与B之间的距离为文档A中所有词与文档B中所有词完全匹配所需要移动的最小累积距离，即加权词向量点云之间的最小距离。图1为WMD算法的示意图，粗体字为去除停用词后剩下的词。

Fig.1 Illustration of WMD图1 WMD示意图

WMD算法具有以下几个特性：①没有超参数，易于理解和使用；②具有高度可解释性，两个文档之间的距离可以分解并解释为几个单词之间的稀疏距离；③包括Word2vec空间的词向量编码，具有较高的检索准确性；④是一种基于文档之间的非监督算法。

WMD算法采用归一化词袋模型（Normalized Bag-ofwords，nBOW）的向量d∈R描述文档。其中，词

在文档中出现的次数表示为

，删除与类别无关的停用词后，则向量d中的元素

可表示为：

WMD算法的目标是将词间距离的计算扩展为文档间距离的计算。在词向量中，通常采用欧式距离表达词间距离。因此，WMD也采用欧式距离表达词间距离，即词

与词

的欧式距离为：

Fig.2 WMD algorithm diagram图2 WMD算法示意图

3 实验方法与结果分析

3.1 康复量表ICF映射研究思路

在中文环境下选取康复量表中的描述性文字以及ICF类目的相关中文文本，对这两部分文本分别进行预处理，运用WMD算法进行量表条目文本与ICF类目文本之间的匹配，其中量表文本为被匹配对象，ICF编码为匹配结果。进行文本匹配时，选取WMD距离最小的ICF类目文本对应的编码作为单项量表条目的匹配项，并以ICF核心分类组合中的脑卒中综合版为标准，对匹配结果进行评估。康复量表映射为ICF的流程如图3所示。

Fig.3 Process of mapping rehabilitation scales to ICF图3 康复量表的ICF映射流程

3.2 实验数据

ICF文本数据来自WHO发布的ICF浏览器中文版、Bioportal上的ICF本体文件。ICF核心分类组合的脑卒中综合版编码数据来自ICF Research Branch。康复量表文本数据来自《康复医学》《康复评定常用量表》中关于脑卒中的6个康复量表，分别为格拉斯哥昏迷量表、美国国立卫生研究院卒中量表（NIHSS量表）、Brunnstrom运动功能评定量表、简化Fugl-Meyer评定量表、Berg平衡量表以及改良Barthel指数评分量表。停用词表来自于GitHub上的公开项目。中文词向量来自于Li等训练的SGNS（Skip-Gram with Negative Sampling）中文词向量。

3.3 数据处理

（1）文本获取。ICF文本以及ICF核心分类组合编码数据来自网页，存在不需要的HTML标签。采用网络爬虫技术，使用Python语言编写的Requests请求库、Beautiful Soup、Pyquery解析库提取文本和编码数据。

（2）构建扩展词、停用词表。向扩展词表中加入康复医学领域的专业词汇，如“脑白质”“腘绳肌”等。向停用词表中加入不影响文本匹配任务的词语，如“确实”“缺少”“原因”等。

（3）中文分词。在中文环境下，词与词之间没有显式分隔符，而WMD算法运用词向量计算词间距离，因此需要对文本进行中文分词。支持Python语言的分词工具包括HanLP、结巴（jieba）分词、LTP等，本文选用jieba分词。

（4）去停用词。停用词是自然语言中最常见的词，但这些词可能不会为文本含义增加太多价值。停用词一般是标点符号、连词或代词等，本文采用“3.2”项提及的停用词表去停用词。

（5）词向量L范数正则化（L-Normalization）。Wilson等认为词嵌入的应用本质是得到词嵌入之间的关系，如词嵌入之间的余弦值或距离。词嵌入的大多数应用是以探索词嵌入之间关系的方式解决词与词之间相似度计算和其他关系的问题，而使用正则化的词向量可以提高算法解决这些问题的性能。因此，本文对中文词向量进行L范数正则化。

3.4 实验环境与评价指标

采用Python 3.6编写实验代码，使用Gensim模块实现WMD算法；硬件环境为Intel Xeon Gold 6132，操作系统为Red Hat 4.8.5-16。

运用准确率（Accuracy）评估方法性能，计算公式为：

式中，

为准确率；

为匹配正确的量表条目数量，表示量表中有

个条目映射的ICF编码是脑卒中综合版编码组合的成员；

为该量表的条目总数。

脑卒中综合版的类目数量为130，精确匹配难度较大，因此分别进行top-1与top-5的准确率评价。其中，top-1准确率为距离最小候选答案为正确答案的比率，top-5准确率为距离最小的前5个候选答案包含正确答案的条目所占的比率。为更直观地体现top-5的评价性能，增加top-5的平均准确数这一指标，用于检验量表中平均每个条目的正确答案数量，表示为：

此外，文本匹配时需忽略定义过于宽泛的一级类目，只匹配ICF二级及以上类目，并将二级以上类目归为对应的二级类目，如b1100归为b110。在实际应用中，二级水平的精度已经足够。

3.5 实验结果分析

采用WMD算法对康复量表条目和ICF类目中的中文文本进行匹配，检验匹配的ICF类目编码是否为脑卒中综合版编码组合的成员。映射结果如表2所示，实验性能参数如表3所示。

Table2 Experimental results of rehabilitation scales mapping to ICF表2 康复量表ICF映射的实验结果

由表2-表3可以看出，各个量表top-1准确率均大于0.6，平均值为0.9；top-5准确率均为1，平均准确数均≥3，即前5个候选编码中，平均有3个为正确答案。实验结果表明，top-1需要精准匹配，top-5范围较top-1广，更符合本文推荐ICF编码的需求。

Table3 Experimental performance表3 实验性能

表4展示了top-5文本匹配的示例，即1个量表条目对应5个候选ICF编码。从语义来看，该条目评估的是患者能否在一定时间内自主持续站立。词移距离在前3位的b740、b730和b735描述的是肌肉耐力、肌肉力量、肌张力等内容，与该条目的语义和主旨相关，说明本文方法在top-5模式下具有较好的语义相关性。

Table 4 Examples of top-5 text matching表4 top-5文本匹配示例

4 结语

本文提出运用非监督的文本相似度算法WMD，以公开的6个脑卒中康复量表和ICF中文文本数据为研究对象，结合词向量对康复量表条目和ICF类目进行文本匹配。在匹配结果中选取词移距离最小的top-1和top-5编码，并以ICF核心分类组合的脑卒中综合版为标准，进行准确率与准确数的评价。实验结果显示，脑卒中综合版的top-5准确率较高，表明利用文本相似度推荐编码的方法能够有效运用于ICF编码的映射问题中。该方法为康复师在临床上便捷高效地利用ICF编码提供了新思路。然而，本研究存在一定的局限性，由于缺乏ICF实际应用数据，该方法仅适用于辅助筛选ICF编码，尚不能精准运用于实际临床。在后续研究中，可以尝试引入专业人士的标注数据作为参考依据，以提高ICF映射的准确性。