文本相似度计算方法提高诊断名称数据标准化过程中人工判断效率的影响

2022-07-21郑景文

中国卫生产业 2022年9期

郑景文

广东省农垦中心医院病案室，广东湛江 524002

国家卫健委曾指出，各医疗单位应设置统一的疾病与手术编码，其中疾病诊断名称属于主要的医疗数据，保证疾病与手术编码相对应，能够为后续科研工作提供更多准确的信息[1-2]。以往，诊断名称数据标准化期间，主要是对数据进行纠正，若未能按照标准化进行书写，将成为人工搜索的问题诊断名称，从而难以在名称库内寻找到对应的名称，进一步增加消耗时长[3-4]。若能够通过相关措施予以帮助，能明显减少人工搜索的时长，达到提升工作效率的目的[5]。随着研究持续深入，临床发现文本相似度计算方法效果显著，在增强诊断名称数据标准化期间的人工判断效率上效果突出。但相关文献较少，该研究选择2020 年3 月—2021 年8 月使用的23 681条诊断名称文本数据，探讨文本相似度计算方法在提高诊断名称数据标准化过程中人工判断效率的价值，现报道如下。

1 资料与方法

1.1 一般资料

按照国家标准的疾病分类与代码上存在编码的诊断名称，按疾病名称进行排序，并对其ID 进行标记，选择使用的23 681 条诊断名称文本数据。将其中标点符号及英文字母均定义成汉字等同的字符，但应区分全半角及大小写，获得诊断名称特点，字符长度均值（8.58±2.36）个，统计与诊断名称字符长度相同的字符个数，针对少于6 个字符长度者计算其最大值。

1.2 方法

（1）余弦相似度：计算向量夹角的余弦值，可评价个体之间的差别，若余弦值越邻近1，夹角度数越趋于0，提示向量相似。在标准化工作上，通过编辑距离预测文本的相似程度，利用ICD 的三位及四位码实施诊断类别的文本分类计算，应采用余弦相似度计算，诊断类别分类计算时可继续使用，从而降低编程工程量。

（2）文本向量生成：①汉语短文本的文本向量以单字与单字组合、词嵌入、分词等，该次试验挑选单字与单字组合的方式；②逆文本频率指数加权：逆文本频率指数在数据搜索期间，文本向量通过该方式表达，计算名称拆分后的单字与字组的逆文本频率指数，最后将逆文本频率指数乘频数，成为第二类文本向量的计算值。

1.3 观察指标

观察诊断名称的字组长度与数量，并分析文本相似度计算结果，最后计算字组组合模式的文本向量的相似度及字组组合模式下文本向量的相似度。

2 结果

2.1 诊断名称的字组长度与数量

诊断名称长度为8.58 个字符，获得9 字组长度，经观察发现3 字组后，字组暂停增长，但5 字组逐渐减低，从而得知9 字组长度未达50 万维，选择计算机进行处理，见表1。

表1 诊断名称的字组长度与数量

2.2 文本相似度计算结果分析

通过余弦相似度的计算，选择频数向量成为非标准数据，而标准数据选择频数逆文本频率指数加权的向量，最终将数据标准化。利用疾病诊断名称相似的文本，发现文本向量存在较大差别，其自身即为相似度最大值。通过字组组合的方式，测定不同文本向量，选择高血压进行举例，见表2。

表2 文本相似度计算结果分析

2.3 字组组合模式的文本向量的相似度

字组组合模式的文本向量相似度最大值，见表3。

表3 字组组合模式的文本向量的相似度

2.4 字组组合模式下文本向量的相似度

各类字组组合模式下存在356 条名称，其中390 次相似度最大值并不是其本身。对于不同的情况实施分析，字组组合模式Ⅰ不一致，Ⅱ~Ⅸ模式一致，记成0、1、1、1、1、1、1、1、1，见表4。

表4 字组组合模式下文本向量的相似度

3 讨论

针对规范诊断名称而言，多采取文本相似度方式进行计算，同时对比临床诊断与数据库中名称，最后得到标准化的诊断名称，有助于减少人工搜索时长，明显改善工作效率[6-8]。对此该文进行分析，利用余弦相似度计算文本相似度，并通过单字与单字组合的穷举分词及频数、逆文本频率指数加权形成文本向量，模仿数据标准化过程，选择余弦相似度测定多个文本向量的计算结果，结果发现相似诊断名称文本的向量相似度的一致率呈现升高趋势。其中2、3 字组的标准化工作需引起重视，经过标准库与待校对数据将其转换为罗马数字；而4 字组的诊断名称出现差异的次数较少，可能与诊断名称上字符空格有关，使得计算期间非标准诊断名称无法与标准名称相匹配，针对此可在Excel 中采取TRIM 函数清除[9-11]。最后选入5~9 长度字组表征文本向量的效果与1~4 字组差别明显。

由于相似度计算作为常见的统计方式，其结果的准确性存在一定上限，修改规则的方式具有重要意义，特别是关于伴与不伴文字，其实际诊断名称还存在前后左右上下等问题，因此，精准表达可明显提升效率[12-15]。此前关于医疗数据的标准化对专业知识的要求极高，对此应积极开展培训，并鼓励专业人员参与，另外高效率的数据计算需要文本计算的帮助，尤其是特殊场合中修改算法也应得到医护人员的积极配合。由此可见，为医护人员选择操作简便的计算方式至关重要，此时选择以字组拆分频数逆文本频率指数加权的计算方式[16-17]。另外医疗数据的信息质量对科研成果质量可能存在一定干扰，但诊断名称数据的标准化较为复杂，同时作为人机交互，并表现成螺旋上升的过程，因此，将医疗专业知识与计算机算法相融合，并不断调整，才可保证科研质量的准确性[18-19]。

综上所述，文本相似度计算方法能够提升诊断名称数据标准化，并促进人工判断效率改善。