APP下载

5G 技术应用于医疗领域发展趋势的研究*

2023-05-16黄冠维潘伟东

科技与创新 2023年9期
关键词:分词文档词语

黄冠维,潘伟东

(1.岭南师范学院商学院,广东 湛江524048;2.广州京诺知识产权代理有限公司,广东 广州 510030)

1 研究背景

5G 技术走进生活并快速促进生活的发展。信息技术在医疗行业中的引入不断提高了该行业的发展水平。5G 技术的超高速、超大型连接和超低延时可以极大地提高医疗服务的效率,同时,医疗行业5G 技术的发展将促进医疗服务的智能化。5G 技术的发展将导致整个网络生态系统的变化,人工智能、虚拟现实、云计算、物联网、大视频等与网络速度相关的领域将发生根本性的链式变化,从而使医疗技术领域的发展更加实用。

由于人口众多和老龄化加剧,中国一直面临着医疗费用高、看病困难的医疗问题。中国人口在世界人口中占比大,但与之相反的是,医疗卫生资源却占世界的很小一部分,这说明了有限的医疗资源分布不均。解决当前医疗行业问题的有效方法是,在借助5G 高速互联网的基础下,大力发展医疗服务技术。通过5G 技术的普及,“互联网+医疗”的发展空间得到巨大提升。因此,第五代通讯技术(简称“5G”)将在医疗领域有更为突出的发展与应用,如何从大量“5G+医疗”学术文献中找出发展趋势是本研究所探究的问题。本研究通过文本挖掘,通过对学术文章进行文本分析,从知网上下载近3 年发表的学术文本做分词处理并使用 词 频-逆 文本 频 率 指 数(Tеrm Frеquеnсy-Invеrsе Dосumеnt Frеquеnсy,TF-IDF)算法计算词权重;再利用支持向量机(Suрроrt Vесtоr Mасhinе,SVM)对词频构建模型,对“5G+医疗”的相关研究提取出关键词组并进行分类与预测,找出未来的“5G+医疗”的趋势脉络,以期待未来在医疗领域与相关产业中得到可持续性发展。

2 文献综述

2.1 文本挖掘的研究现状

在文本挖掘中,词频度挖掘技术是一个重要的研发方向。近年来,国内外研究人员在这一领域进行了大量研究,并致力于从海量的文本数据中发现更多有价值的信息,并利用这些信息创造更多的社会价值。国外的文本挖掘研究在早期就已得到了快速发展,且应用化的挖掘技术有了成熟的技术手段。BARKER等[1]提出了一种基于文本词性的关键词提取的文本挖掘方法。该方法首先对文档进行句法分析和词性标注,并计算文档中每个关键词的出现频率。通过计算其TF-IDF 权重数值,然后输出权重排名优先级最高的词语作为模型分类结果。

有别于国外研究,受限于中文具有歧义以及语法的特殊性且较英语来说相对复杂,故研究中文的文本挖掘相对晚于国外。中国的中科院计算机技术研究所率先自主开发和研制推出了ICTCLAS 中文文本分词系统,并于2004 年又推出了具有词性标注等多种功能的改进版NLPIR 中文分词系统[2],使得这个处理系统不但具有简单的现代汉语中文分词处理功能,而且还具有多种不同词性的拼音标注等多种实用功能。同时,国内学者开发了基于Pythоn 的Jiеbа 分词包[3],该分词包已实现将中文准确分词的系统,使中文分词工具更具简易性。何洋[4]将文本挖掘技术用于处理大型学术文档集,大大减少了人工阅读的工作量。陈旭[5]以京东商城网站中笔记本电脑用户评论数据文本为基础,运用网络爬虫技术进行文本挖掘,然后用LDA 算法进行文本主题的提取,并通过模型评估,发现LDA 模型能够有限实现文本主题的挖掘。

目前,国内许多学者已经在相关领域进行了研究。王东波等[6]以医学期刊作为基础,对其R7 分类下的文本,利用SVM 技术进行自动文本分类研究。刘敏[7]以文本挖掘为重点,以煤矿监测数据为研究对象,利用煤矿监测数据作为文本数据集,实现煤矿事故案例的自动分类。李锋刚等[8]为了解决传统分类问题中相似度和主题统一性的问题,将SVM 分类模型和LDA 主题模型相结合,该方法能够极大地解决分类问题的相似性度量和主题单一性。何梦娇等[9]在对城市交通管理舆情相关文本的自动数据分析进行自动预处理后,运用了SVM 模型成功完成了对城市交通管理舆情相关文本的自动分析归类。

2.2 自然语言处理技术

目前,在英文文本处理方面已经有了大量的研究成果,但由于汉语表达的复杂性和多样性,其研究成果还没有英文文本那么多。文本数据基本是指以短语、句子等方式呈现的。一般而言,文本数据中可能包含了许多毫无意义的符号。对于这些毫无实际意义的符号,需要进行预处理,否则可能会影响到文本分析结果的准确性[10]。而文本挖掘的预处理可以分为文本数据库的清洗、去除字或停用词、词性信息标注以及特征词提取[11]。

2.2.1 文本分词

中文分词的方法有3 种[12-13],分别是词汇匹配、文本统计以及文本语义。

基于词汇匹配的分词方法:具体分词细分步骤是将原始语句中的每个词汇与构建好的语料库进行匹配,如果在构建好的语料库中匹配了相应的词汇,则识别该词,并把这个词从句子中分割,否则继续匹配其他词汇,直到完成整个句子的分割为止。按照语料库匹配、句子分割的计算方式不同,可以把基于语料库匹配的分词归为3 类:第一类为最大匹配法,第二类是逆向最大匹配法,第三类则是双向匹配法。

基于文本统计的分词方法:若一个词与相连接起来的两个字数次出现在不同的语境中,则会有一定概率地认为这些字与相连接起来的一个词组成了某个词语。对于这种分词算法,首先要选取一定的统计模型对单个的句子进行分词处理,然后据此划分的结果计算其概率,使其得到最大概率的分词方法,常用的算法有隐形马尔可夫模型和条件随机场等算法模型[14]。

基于文本语义的分词方法:通过语句的语义来进行分词处理,对拆分句子的语义进行分析,实现中文文本分词。

比较3 种分词方法,能够发现基于统计的分词方法比另外两种分词方法更具实用性。

2.2.2 词性标注

词性标注技术[15]已经是现代科学自然语言处理的一项重要基础知识技术,词性标注是在分词过程中,对划分的词语并结合句子的语境进行的工作。通过机器对词语进行词性标注,区分文本数据句子中词语的词性,可以为后续文本分类工作提供更高准确率的计算。例如,代表地点、物体和人的词语都是名词类别,代表动作或描述某种状态变化的词语都是动词,用于描述、概括或描述人或事物的词都是形容词。

2.2.3 去除停用词

文本数据在经过了使用中文进行分词、词性标记后,得到的数据存在噪音,需要对处理后的数据集进行降噪处理,也就是去除停用词。根据研究需求,在处理文本分词过程中设定停用词,以此过滤掉一些对研究无意义的词,如此可能提高分词后的语料数据集的质量与挖掘文本信息的价值[16]。

2.2.4 特征提取

文本数据在经过用中文分词、词性标注、去除停用词后,剩余许多文本词汇。如果将预处理的词汇直接用作文本的特征,将导致特征向量的维数巨大。利用特征选择的方法来减少文本词汇的特征维度来提高模型的性能。目前流行使用的特征词提取技术是TF-IDF 算法[17]。

TF 是指以词频计算为基础的算法。这种算法首先确定一个范围,保留词频大于设定范围的词语,并删除词频小于设定范围的词语。但是,这种方法忽略了与文本词汇相比词频较低的特征词。如果删除了这些重要的单词,则造成文本特征提取不准确,并且后续的文本分析结果具有较大的误差。TF 值表示某个词语在本文档中出现的频数大小。TF 值越大,则说明该词语在本文档的频数大。另一方面,它也表明该词对整个文档非常重要。在某种意义上,可以说该词语反映了本文档的主题词。TF 值的具体计算公式如下:

式(1)中:X(TF)ij为词语j在k文档中的频数;nij为在k文档中此词语j出现的频数;为文档k中所有词语的出现总数统计值。

IDF 是指在整个文档集合中某个单词或字符串出现的总次数,而不是仅仅计算在一篇文档中出现的次数,这也是与TF 算法的差异。其计算公式如下:

式(2)中:|D|为总的文档数;|Dj|为某一特定词语或字符串j在所有文档|D|中出现的次数,为包含特征词的文档数目。

将公式(1)与(2)组合来进行分析和统计,评估某一个关键词语的具体重要性有用程度。该算法的思路就是当一个词语的重要性与它在一个文档中可能再次出现的逆文本频率大小成正比;反之,这个词语的重要性与它在语料库中再次可能出现的逆文本频率大小成反比。因此形成式(3):

3 实验设计

3.1 数据采集与预处理

本研究以“5G”以及“医疗”为检索词将中国知网近3 年共65 篇学术文献资料作为文本数据的信息来源,以此为初始文本数据集。之后提取的全部内容写入tхt 文件中,作为语料数据集。接着用Jiеbа 分词工具来对语料数据集进行分词处理。对于分词算法的选择,本研究选用的是基于精确模式的分词算法,并且将毫无意义的短语、单词、标点符号等设置成停用词。最终得到12 943 组词语,共94 747 个词汇。

3.2 特征提取

透过TF-IDF 算法对样本数据进行特征抽取,从样本数据中筛选出名词、名动词和动词3 种词,其中将排名前2 000 的单词作为属于“5G+医疗”的关键特征词。

4 实证分析

4.1 模型实现与评估

本研究构建的SVM 分类模型采取二分类法,将属于前2 000 个关键特征词赋值为1(视为“5G+医疗”的关键词),而非“5G+医疗”则赋值为0。透过调整核函以及控制迭代次数,将总体准确率超过90%以上作为停止条件来得到最佳的文本分类模型。此外,本研究还与其他算法进行比较,随机生成20 组文本数据集对其结果进行平均准确率的计算,其分类预测准确率的结果如图1 所示。

图1 分类模型的平均准确率

从图1 中的分类准确率计算结果中可以看出,4个模型的分类结果都较优。平均准确率都达到了90%以上,其中线性支持向量机模型的平均准确率最大,为93.81%,核支持向量机分类的平均准确率最小,为92.71%。通过对分类模型准确率的评估和分析,验证了本文提出的分类结果的有效性。

4.2 趋势分析

将分类词与在文章词权重大小作为文章重要程度的标准,文章重要程度越大说明该篇文章对“5G+医疗”有相关发展性的描述越多,通过借鉴参考该文章内容,综合“5G+医疗”研究技术得出前人普遍认同的“5G+医疗”的关键词集合,能找出“5G+医疗”的发展趋势、热点,是对未来研究的灵感来源。

本研究从2 000 个关键特征词中随机抽取20 个关键特征词形成词袋,透过词袋方式与文章题目进行匹配,找到相对重要的学术文献,得出重要程度排名前五的文章如图2 所示。

图2 文章重要程度排名前五的文章

5 结论

本研究主要集成了计算机科学、医学以及通信科学的跨学科知识、方法与技术手段,将医疗领域中所涉及到的词汇发掘较多的价值信息提炼成关键词,从学术文献中对其文本挖掘。大数据时代来临,使得学科领域中的文本数据海量增长,精准地提取文本中具有价值信息的方法对该领域发展方向显得极为重要。

由于5G 作为一种新兴的通信技术,在医疗领域中可起到快速响应的作用。因此,本研究运用文本挖掘对“5G+医疗”学术文本进行分类并预测,研究发现5G 技术在医疗领域中对于远程、诊断、救治、治疗等起到了关键作用。由此可知,在未来的医疗领域的相关业务功能中,5G 技术的应用是加强实时性的角色。

本研究除了进行关键词的挖掘之外,还运用了5G技术匹配到医疗领域的重要学术文章,从而间接了解了医疗领域中的发展趋势、研究热点以及可持续发的方向。

猜你喜欢

分词文档词语
容易混淆的词语
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
分词在英语教学中的妙用
找词语
结巴分词在词云中的应用
结巴分词在词云中的应用
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
一枚词语一门静