一种基于标签云的文本可视化方法
2020-06-12李晓飞
李晓飞
(吉林建筑科技学院,吉林 长春 130000)
0 引言
可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机视觉、计算机辅助设计等多个领域,成为研究数据表示、数据处理、决策分析等一系列问题的综合技术[1]。目前正在飞速发展的虚拟现实技术也是以图形图像的可视化技术为依托的。
数据存储以及数据传播的主要形式包括文本,而可视化技术研究的一个重要的方向就是文本数据的可视化。目前研究者们提出了可视化技术研究的一些方法,比如文本语义结构方法、标签云方法等[2-4]。标签云是一套相关的标签以及与此相应的权重。权重影响使用的字体大小或其他视觉效果。标签云彩能代表更多的权,标签是典型的超链接,让用户可以仔细了解他们的内容[5-7]。
目前对可视化技术的评价方法尚处于发展阶段。本项目进行过程中主要工作为建立文本数据可视化方法度量指标,根据计算结果对权重值进行计算,从而分析文本信息可视化的应用效果[8]。
1 基于标签云的文本可视化方法
基于标签元的文本可视化方法通过建立三类度量指标,从而根据度量指标进行权重计算,最后进行评价分数计算。
1.1 数据指标
在可视化技术中,数据的规模大小是整个量化和评价过程的基础。标签云根据文本数据单词的频率由大到小进行展现,因此数据的规模指标是评价可视化效果的一个重要指标。
假设文本数据中单词的集合为S{a1,a2,……an},其中ai(i=1,2, ,n)代表文本信息中的某个单词,令N(ai)表示文本中单词出现的个数。定义停止词集合,表示在文本数据中多次出现但是对文本内容影响小的单词为P={p1,p2,……pm},例如中文中出现“的”“是”“个”等词,英文中的of、a、an、the 等词。
对文本数据可视化的步骤为:①筛选文本数据中的单词——彩信词;②根据单词集合S和停止词集合P对文本进行过滤得到S-P;③计算S-P中的单词出现的频度;④选取频度阈值h,筛选得彩信词集C。
1.2 复杂度指标
复杂度指标主要指用户对文本信息进行搜索和观察,本方法主要通过方向度量和采信词度量进行衡量。
彩信词度量指单词在可视化确定区域的长宽比:
上式中I为单词图片的长,W为宽。彩信词集C中所有单词的度量均值为:
每个单词出现在可视化区域的大小则取决于权重,权重大的显示较大。但是对于一些单词长度大而权重小的情况下彩信词度量同样也较大。为了解决这个问题,增加方向度量来进行评价。假设单词的角度为ui度,可视化确定区域展现的方向度量为:
d(ai)的取值范围为[0,1],方向度量越大,复杂度指标越高。
1.3 辨识度指标
辨识度指标主要用来呈现单词色彩的比重以及在可视化展现区域的位置构成。假设标签云中每个文本数据显示不同颜色,颜色的数目为nc,彩信词的数量为n,则设定色彩比重为:
在文本可视化的展现区域经常会出现空白区域,这些区域采用空间利用度来衡量,可以通过填充空白区域来增加空间的利用度。假设单词所占区域面积为t,展现区域的面积t=W×L,其中W和L分别为展现区域的宽和长,则空间利用度为:
1.4 权重计算
根据数据规模指标、复杂度指标以及辨识度指标进行权重的计算。通过模糊分析方法对权值进行确定。对上述三个指标进行两两互相比对,形成模糊矩阵B,然后将其变成模糊一致性判断矩阵R:
数据指标、复杂度指标和辨识度指标对总评分的影响权重为qw=(0.316,0.419,0.263)。
1.5 评价分数计算
根据相应指标的计算和权重计算,进行了文本数据信息频度算法的分析,算法的具体过程为:
Step1:文本数据信息可视化参数初始化处理。比如在可视化确定区域展示的单词的最大和最小数量,色彩度的最大值,展示区域颜色的设置等。
Step2:计算文本信息的总单词数量。
Step3:根据过滤条件确定彩信词集合,并计算需要可视化展示的单词信息。
Step4:初始化可视化区域画布和单词信息,将单词展现在画布上。
Step5:对统计单词进行面积比率和方向度量计算。根据计算公式,获得可视化分析的指标值。
2 实验及结果分析
实验中,通过对网络授课学生对科目反馈科目信息,采用标签云可视化方法进行指标计算和分析,从而得到可视化结果,如图1。
其中计算出方向度量值为0.61,彩信词密度为0.112,颜色比重为0.146,空间利用度为1.689。根据指标值得到最终的总评价分数为65.12。
实验中对单文本和多文本来调整算法中可视化指标并采用多维度图表进行结果分析。彩信词指标折线分析图如图2,色彩比重分析图如图3。
由分析图可知,随着彩信词密度的增加,方向度量基本是在百分之五十左右上下波动,方度max 值则逐渐上升到平稳,评价总分逐渐下降,可视化效果逐渐变差。
3 结论
本文给出了一种基于标签云的文本可视化分析方法,主要通过建立文本数据可视化方法度量指标,根据计算结果对权重值进行计算,从而分析文本信息可视化的应用效果。实验证明,针对但文本以及多文本信息,各指标间是相互对立的,该方法在可视化衡量上具有一定的有效性。