APP下载

文本分割技术研究现状与发展趋势

2022-04-29刘爽

计算机应用文摘 2022年13期
关键词:研究热点分析

刘爽

关键词 文本分割 分析 研究热点

本文以中国知网数据库和Web of Science 核心合集数据库中的期刊数据为数据来源,用社会网络分析法对相应的知识图谱进行分析,得出简单且直观的研究结论。

1研究方法

本文主要使用的研究方法是社会网络分析法以及共词分析法。主要利用了SATI 和Ucinet 软件工具, 首先利用文献题录信息统计分析工具SATI[1] 对文献的相关字段信息进行处理,生成频次统计文档,提取出样本数据文本词条,生成共现矩阵。再通过Ucinet[2] 社会网络分析软件实现高频关键词可视化和高产作者可视化分析,得出相关研究结论。

2研究结果

2.1国内作者共现分布分析

使用文献题录信息分析工具SATI 对112 篇文献进行统计分析,得到14 位作者的合作网络图,14 位作者组成了4 个团队,其中合作频率最高的团队是由石晶、李万龙、胡明、戴國忠四位作者组成,基于LDA 模型的文本分割以LDA 为语料库及文本建模,利用MCMC 中的Gibbs 抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系[3] 。

第二个团队是由卡米力·木依丁、艾斯卡尔·艾木都拉、易晓芳三人组成,主要针对维吾尔文手写体文本中行分割问题,基于连通域大小将图像中文字分为三类,提出了自适应涂抹细化算法,对主体文本行进行定位;并对第三类连通域中相邻两文本行间粘连的字符进行切割[4] 。该团队还研究了现有算法对于笔画中含有大量离散笔画点和附加部分的手写体文本分割性能较低的问题,并提出一种基于分段式前景涂抹和背景细化的文本行分割算法[5] 。

第三个团队是由宋锦萍、杨晓艺、侯玉华组成,该团队针对文本图像首先提出了一种基于小波域多状态隐马尔科夫树模型的自适应文本图像分割算法,该算法具有较高的分割质量和较低的计算复杂度[6] 。

2.2国外作者共现分布分析

利用SATI 软件对Web of Science 核心合集中156 篇外文核心期刊数据进行统计分析,统计结果表明35 位高产作者组成了6 个合作团队,他们中合作次数最多的是由Kumar, Pradeep, Saini,Rajkumar,Roy,Partha Pratim,Dogra,Debi Prosad 组成的团队,该团队提出了一种通过3D 空气写作的人机交互(HCI)方法[7] 。

第二个团队是由Lamprier, Sylvain, Amghar,Tassadit,Saubion,Frederic 等人组成,主要提出了两种新的分割算法,即ClassStruggle 和SegGen,其使用了标准渲染文本的全局视图[8] 。

第三个团队由Brodic,Darko,Milivojevic,DraganR,Milivojevic,Zoran 等人组成,该团队提出了基于各向异性高斯核的文本行分割算法,利用研究结果进行了各向异性和定向高斯核算法的比较分析[9] 。

第四个团队由Alaei,Alireza,Nagabhushan P,Pal,Umapada 组成,该团队用52 页的波斯语文本文件测试了所提出的算法,其中包含总计823 行并且实现了92.35%的正确行分割[10] 。

第五个团队由Fragkou P,Petridis V,Kehagias A组成,他们介绍了一种动态规划算法,该算法通过全局最小化分段代价函数来执行线性文本分段,该分段代价函数结合了两个因素:段内单词相似度和关于段长度的先验信息[11] 。

第六个团队由Laleye,Frejus A.A,Motamed,Cina,Ezin,Eugene C 组成,他们提出了一种基于朴素贝叶斯和学习矢量量化(LVQ)组合的新型分类器,该分类器使用加权投票来识别贝宁当地语言Fongbe 的辅音和元音[12] 。

2.3社会网络分析

使用Ucinet6 软件对共现矩阵中的数据进行可视化,便于清晰看出关键词之间的关系。图1 显示,国内文本分割主题的文献研究内容中文本分割、LDA 模型法、OCR 是词频共现网络图中出现频率最高的关键词,也是整个网络共现图的核心。通过图1 还可以看出,其他高频关键词之间的联系较少,这说明国内文本分割领域的研究主题在不断地向外放射状扩展。以同样的方式得到国外文本分割高频关键词共现图谱,从图2 可以看出,国外文本分割主题的研究内容也是以文本分割为整个网络的中心向外扩散。但国外的高频关键词图谱明显要比国内的联系紧密,大多数的关键词之间都是有联系的。

3结语

本文以可视化形式对112 篇文本分割中文核心期刊文献和156 篇文本分割外文期刊文献的外部特征与内容特征进行了全面分析,进而得出以下结论:首先,国内文本分割研究主要集中于计算机科学领域,在图书情报领域出现得并不多。其次,国内文本分割研究者的合作群较少,各研究团队之间联系较少,研究团队体系不成熟。最后,国内外文本分割的热点主题相似,但国外有关文本分割的研究团队比国内成熟,并且国外有关文本分割的研究也早于国内,国内学者对于文本分割的研究主要集中在计算机科学领域,国内图书情报领域的学者需要更多地向国外学者学习。

虽然本文数据检索范围涉及中国知网和Web ofScience 核心合集两大数据库,但在实际分析过程中,本文仅采用了中国知网和Web of Science 核心合集中的期刊数据作为样本,所以本文在研究样本的选取上存在一定的局限性,但研究结果展示了国内外文本分割的研究现状与研究热点,对我国文本分割研究者的研究工作有一定的帮助,能够为今后的研究工作提供参考。

猜你喜欢

研究热点分析
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
我国职业教育师资研究热点可视化分析
近五年我国职业教育研究热点综析及未来展望
电力系统及其自动化发展趋势分析
基于知识图谱的智慧教育研究热点与趋势分析
自闭症谱系障碍儿童的教育干预
基于社会网络分析的我国微课研究探析
中国电子档案袋研究热点及发展趋势
中西医结合治疗抑郁症100例分析