APP下载

基于K 近邻分类算法的敏感信息过滤方法研究

2020-09-23路士兵

科学技术创新 2020年28期
关键词:关键字决策树准确率

路士兵

(武警海警学院,浙江 宁波315801)

信息化时代飞速发展背景下,新闻、网络文学等信息,在各类社交平台上快速传播,给每个人提供最新的资讯,但网络技术发展背景下,一些人采取非法手段,在网络中发布传销内容、非法广告以及反动言论等不和谐的信息,污染整个网络环境,给海量文字信息的分享与传播,带来了较为恶劣的影响[1]。因此传统方法参考文献[2],通过构建决策树,对敏感信息进行过滤[2]。但随着网络信息体量的不断增加,传统过滤方法出现了一些弊端,因此提出一个基于K 近邻分类算法的敏感信息过滤方法[3]。此次提出的敏感信息过滤方法,以传统方法为研究基础,在K近邻分类算法的应用下,重新创建决策树,为网络信息的使用安全,提供更严谨的技术支持。

1 基于K 近邻分类算法的敏感信息过滤方法

1.1 划分敏感词汇内容和等级

过滤敏感信息要有一个过滤标准,因此需要划分敏感词内容和等级。构建一个敏感词数据库,用于存储需要被禁止使用的敏感词,还有赌博类的非法广告。按照不同类型的敏感词汇,将敏感词划分为n 个类别,并对每一类别信息,设置3 个敏感等级。

将敏感信息分成三个类别,分别是政治类、色情类以及广告信息类。其中,反动类敏感词汇包括:政治主张、军事主张以及恐怖信息等,此类信息涉及到国家发展、社会稳定、人民团结,因此此类型信息的敏感等级较高。色情类与广告类信息,会给社会风气带来不良影响,给人的精神方面、财产方面,带来了极大的隐患,因此此类信息的级别,稍低于反动类敏感词汇。

针对上述划分的三个敏感级别,将每一级别中所有的敏感词汇作为过滤标准,构建敏感信息决策树,并利用K 近邻分类算法,设置敏感信息过滤逻辑。

1.2 基于K 近邻分类算法创建敏感信息决策树

首先要从敏感信息数据库中,提取敏感词汇,并将这些敏感关键词,添加到决策树的基本结构中,按照敏感词第一个关键字的拼音首字母,对敏感关键词进行排序,构建决策树的根目录子树。

每一个子树中的敏感信息,要按照第一个关键字的第二、或第三个拼音字母,或第二个关键字的首字母进行排序。需要注意,构建敏感信息决策树的子树信息时,还要将敏感词汇的拼音包含进去,防止类似敏感词汇,在过滤时被遗漏。

当敏感信息决策树中存在孩子节点时,且该节点包含的信息,不是敏感信息的最后一个关键字,那么将此类节点作为非叶子节点;当敏感信息决策树中,不存在孩子节点时,且包含的信息,是敏感词的最后一个关键字,那么将此节点作为叶子节点;当敏感信息决策树有孩子节点、且包含的信息,为敏感词的最后一个关键字时,那么将此类节点作为伪叶子节点。令isLeaf表示敏感词结束,则各个节点的表现形式,如下列公式所示:

公式中:a 表示非叶子节点的对应值;b 表示叶子节点的对应值;c 表示伪叶子节点的对应值。根据上述内容,将敏感词数据库,建成了一个敏感信息决策树,在进行敏感信息过滤时,大大减少了过滤匹配范围。

例如检测网络文章中,是否存在敏感关键词时,只需要对决策树中敏感词汇所带字的子树进行检测。若敏感词数据库更新,只需要在决策树的相应位置上,直接添加新的敏感关键词即可。

将K 近邻分类算法,与创建的决策树相结合,对网络中的敏感信息,进行集中一次过滤。

具体步骤如下:

首先将待分类的敏感词数据库中的敏感关键词,看做一个整体,假设该整体为集合W,对其进行向量化处理;假设集合W中共包含i×j 个文本,注意i>j,计算矩阵Wi,j的协方差矩阵Vj,j;根据所得结果计算其特征向量,分别用x1,x2,…,xn、y1,y2,…,yn来表示;计算所有个特征值,对协方差矩阵的权重和累计权重,计算结果如下列公式所示:

公式中:k∈n,表示k 个特征向量。根据权重大小确定降维后的矩阵维数,再按照从大到小的顺序,将特征值对应的特征向量,作为投影矩阵。按照上述步骤设置决策树的过滤逻辑,实现基于K 近邻分类算法的敏感信息过滤。

2 测试与分析

将此次研究的过滤方法,作为实验组测试对象;将传统过滤方法,作为对照组测试对象,分析不同方法应用下,两个测试组的敏感信息过滤效果。

设定三个敏感词汇A、B、C,分别从政治、经济、体育三个方面进行敏感词搜索,下图1 是设定的3 个敏感信息,在网络中的占比情况。

图1 敏感信息在网络信息中的占比

分别利用两种敏感信息过滤方法,检测并过滤其中的敏感信息,实验共进行5 次。下表1、表2、表3,是两个测试组的敏感信息过滤准确率统计结果。

表1 政治领域敏感信息过滤准确率统计结果

表2 经济领域敏感信息过滤准确率统计结果

表3 体育事业敏感信息过滤准确率统计结果

根据表中的测试结果可知,在三个领域中,实验组政治领域的敏感词过滤准确率平均值为90.05%;对经济领域的敏感词过滤准确率平均值为90.13%;对体育领域的敏感词过滤准确率平均值为90.39%。而对照组对政治领域的敏感词过滤准确率平均值为83.53%;对经济领域的敏感词过滤准确率平均值为85.58%,对体育领域的敏感词过滤准确率平均值为85.58%。综合上述分析可知,此次研究的过滤方法,在K 近邻分类算法的控制下,过滤出的敏感信息准确率,总体提升了5.29%。可见提出的敏感信息过滤方法满足研究要求。

3 结论

互联网时代,我们利用海量的网络信息解决生活和工作任务,而此次研究的过滤方法,帮助净化网络信息,维护网络安全与社会稳定。但根据K 近邻分类算法的基本特点可知,该算法还可以与其他算法结合使用,因此可对K 近邻分类算法进行改进,进一步优化敏感信息过滤结果,通过更加详细的信息分类与相似度计算,得到更为完整的网络敏感信息。

猜你喜欢

关键字决策树准确率
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察
成功避开“关键字”
决策树和随机森林方法在管理决策中的应用
决策树学习的剪枝方法
决策树多元分类模型预测森林植被覆盖
决策树在施工项目管理中的应用