APP下载

网络热门话题的跟踪建模与检测分析

2018-01-31李晶

现代电子技术 2018年3期
关键词:神经网络

李晶

摘 要: 网络热门话题的跟踪对社会稳定、国家安全具有重要作用,针对传统网络热门话题跟踪模型误差大的缺陷,提出改进神经网络的网络热门话题的跟踪和检测模型。首先对网络热门话题的跟踪和检测现状进行分析;然后收集网络热门话题相关数据,采用神经网络对网络热门话题的跟踪进行建模,实现网络热门话题的检测,并对神经网络的局限性进行改进;最后采用具体网络热门话题的跟踪和检测实验对模型的有效性进行测试,与其他网络热门话题的跟踪和检测模型相比,改进神经网络提高了网络热门话题的跟踪精度,降低了网络热门话题的检测错误率,可以为网络舆情管理者提供可靠的信息。

关键词: 网络热门话题; 话题跟踪; 话题检测; 跟蹤与检测模型; 神经网络; 检测错误率

中图分类号: TN711?34 文献标识码: A 文章编号: 1004?373X(2018)03?0128?04

Abstract: The tracking of network hot topic plays an important role in social stability and national security. Since the tracking model of the traditional network hot topics has large error, a tracking and detection model of the network hot topics based on improved neural network is proposed. The tracking and detection status of the network hot topics is analyzed, and then the relevant data of the network hot topics is collected. The neural network is used to model the network hot topics tracking, and detect the network hot topics. The limitation of the neural network is improved. The effectiveness of the model is tested with the tracking and detection experiments of specific network hot topics. In comparison with other tracking and detection models of network hot topics, the improved neural network model can improve the tracking accuracy of the network hot topics, reduce the error detection rate of the network hot topics, and provide the reliable information for the network public opinion managers.

Keywords: network hot topic; topic tracking; topic detection; tracking and detection model; neural network; error detection rate

0 引 言

随着信息处理技术的不断成熟,再加上网络应用范围的不断拓宽,网络上的热门话题成为人们关注的焦点[1]。网络热门话题有关于人们生活中的小事,也有关于国家发展的大事,每一个个体都可以发表自己的看法,当一个负面的网络热门话题在网络上迅速扩散时,会对社会稳定、经济的发展以及人们的生活产生干扰[2],而网络热门话题的跟踪和检测可以帮助相关组织部门掌握网络热门话题的变化动态,可以提前做出一些预判,将一些负面的网络热门话题抑制在萌芽状态,因此,提高网络热门话题的检测精度和跟踪的准确性,降低网络热门话题的误检率一直是学者们追求的目标[3?4]。

网络热门话题的追踪建模与检测是一个热点问题,为此,有学者提出基于时间序列法的网络热门话题的跟踪与检测模型,如滑动回归模型、指数平滑模型,它们根据网络热门话题的有关帖子数,如跟帖率等对网络热门话题的发展态势进行预估,该类模型建模过程相当简单,而且实现起来十分容易[5],但是它们属于一种静态模型,当有新的数据更新时,模型的自适应能力比较强,而且只能对网络热门话题的性能变化态势进行跟踪与检测[6]。网络热门话题受到个体的心理、圈子范围等因素的诱导,不单是一种线性的变化特点,同时具有非平稳性、随机性变化特点,这样时间序列检测模型的局限性就十分明显,导致网络热门话题的误检率相当高,漏检率也急剧上升[7]。针对时间序列分析模型的局限性,近些年出现了基于神经网络的网络热门话题跟踪与检测模型,神经网络通过其强大的学习能力对网络热门话题的变化特点进行拟合,跟踪其变化趋势,尤其对于随机性、平稳性的网络热门话题跟踪效果好,其中BP神经网络在网络热门话题建模中的应用范围最广[8?10]。BP神经网络的参数直接决定网络热门话题的跟踪和检测效果,如果参数选择不合理,那么网络热门话题的检测精度低。当前BP神经网络的参数由工作人员根据经验确定,参数的合理性与工作人员的经验丰富度相关,导致网络热门话题跟踪和检测结果不稳定[11?12]。

针对传统网络热门话题的跟踪模型误差大的缺陷,本文提出改进神经网络的网络热门话题的跟踪和检测模型,采用具体实验测试其性能,改进神经网络提高了网络热门话题的跟踪精度,降低了网络热门话题的检测错误率,可以为网络舆情管理者提供可靠的信息。endprint

1 BP神经网络和差分进化算法

1.1 BP神经网络

BP神经网络是一种经典的前馈神经网络,与其他类型的神经网络相比,由于具有误差反馈功能,因此可以更好地逼近复杂系统,建模精度高。通常情况下,BP神经网络由许多神经元组成,神经元互相连接,组成一定的拓扑结构,最常用的结构为输入层、隐含层、输出层的三层结构,它们的神经元数量分别为和BP神经网络的输入和输出定义为表示隐含层的连接权值,表示隐含层的阈值,表示隐含层的变换函数,表示输出层的连接权值,表示输出层的阈值,其中输入层和隐含层之间信息的正向传递方式为:

隐含层和输出层之间信息的正向传递方式为:

BP神经网络通过训练,可以得到输出层的估计误差,具体为:

式中为实际输出。

当估计误差比期望误差高时,进行误差反馈操作,对进行估计并采用梯度下降算法进行更新,其中输出层连接权值和阈值具体更新如下:

式中表示变化速率。

隐含层连接权值和阈值具体变化如下:

由于神经网络的连接权值和阈值影响其训练效果,所以采用差分进化算法进行在线优化,以提高网络热门话题的跟踪和检测精度。

1.2 差分进化算法

差分进化算法属于启发式算法,其工作原理与其他启发式算法相似,主要通过个体间的合作与竞争找到问题的最优解,具体操作如下:

1) 变异操作。随机选择4个个体和当前最优个体进行变异操作,产生新的个体,具体方式为:

式中:表示变异后的个体;表示当前最优个体;表示第一个被选择变异的个体;是当前进化代数;表示差分量的缩放程度。

2) 交叉操作。交叉是增加种群多样性的一个重要方法,具体为:

式中:表示交叉概率;表示随机数。

3) 选择操作。差分进化算法和遗传算法的最大区别就是选择方式不同,其中差分进化算法采用“贪婪”搜索策略进行个体选择操作。交叉的新个体和比较,谁更优谁就进入下一代,选择方式具体如下:

式中为问题求解的目标函数。

2 改进神经网络的网络热门话题跟踪和检测模型

2.1 提取网络热门话题的特征

要对网络热门话题进行追踪建模,首先从网络热门话题中提取反映话题重要信息的特征,当前选择分词和权重描述特征,通过增量式TF?IDF计算权重。设在时刻新增的热门话题帖子数为则包括分词的帖子数的计算公式为:

式中为第时刻包括分词的帖子数。

此时帖子中的分词的权重计算公式为:

式中:表示规范化操作;为帖子中的分词的频度;为当前的帖子数量。

2.2 改进神经网络的网络热门话题跟踪和检测模型的工作步骤

改进神经网络的网络热门话题跟踪和检测模型的工作步骤具体如下:

1) 对一个具体网络热门话题,收集相关信息,主要包括跟帖数、相关报道等。

2) 对相关信息进行切分操作,提取与网络热门话题有关的重要信息,并进行分词操作。

3) 提取能够描述网络热门话题的特征,然后根据式(12)计算网络热门话题特征的权重。

4) 根据权重对网络热门话题特征进行排序,选出最前面一些特征描述该网络热门话题。

5) 将特征作为神经网络的输入,帖子数作为神经网络的输出,建立神经网络的学习样本。

6) 将网络热门话题的训练样本输入到神经网络进行训练,并根据选择的特征数量确定神经网络的拓扑结构。

7) 采用差分进化算法对连接权值和阈值进行在线优化,使BP神经网络的网络热门话题检测训练误差朝着实际要求的方向发展。

8) 当网络热门话题检测的训练误差达到期望的要求时,终止训练,确定最优神经网络的网络热门话题跟踪和检测模型。

9) 采用网络热门话题的验证样本对建立的网络热门话题跟踪和检测模型性能進行测试,并对结果进行分析。

综上可知,改进神经网络的网络热门话题跟踪和检测模型工作流程如图1所示。

3 仿真测试

3.1 数据集

为了分析改进神经网络的网络热门话题跟踪和检测效果,选择网络热门话题的通用测试数据TDT4作为实验对象,将数据分为两部分:训练样本集和验证样本集,样本数量的比例为31。为了使网络热门话题检测模型的结果具有可比性,构建了2个网络热门话题检测对比模型,具体为文献[12]的检测模型及传统BP神经网络。采用网络热门话题跟踪和检测的漏检率、误检率进行评价[13]。

3.2 结果与分析

针对TDT4数据集,为了使实验结果公平,执行5次仿真实验,每一次和的结果如图2和图3所示,对和进行分析可知,改进神经网络的和比对比模型的值均低,表明获得了高精度的网络热门话题跟踪和检测精度,通过差分进化算法对BP神经网络的参数进行在线优化,建立整体性能优异的网络热门话题跟踪和检测模型。

在网络热门话题的检测应用中,检测实效性要求较强,为此统计每一个模型的平均执行时间,结果如图4所示。从图4可知,通过差分进化算法对BP神经网络进行优化,减少了网络时间,提升了网络热门话题跟踪和检测效率。

4 结 语

网络热门话题检测具有重要的实际应用价值,为了克服当前网络热门话题检测模型存在误检率高、准确度差的缺点,提出改进神经网络的网络热门话题追踪和检测模型,并通过具体实验对其性能进行检测,可以得到如下结论:

1) 采用神经网络对网络热门话题的变化特点进行跟踪,可以发现其将来的变化趋势,提高了网络热门话题的检测准确性。

2) 采用差分进化算法对神经网络进行在线优化,可以根据具体网络热门话题建立合理的跟踪检测模型,有利于提高网络热门话题的跟踪精度,降低网络热门话题检测的错误率。endprint

3) 该模型具有较好的通用性,可以应用到其他复杂问题的建模中,具有较高的应用价值。

参考文献

[1] 洪宇,张宇,刘挺,等.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71?87.

HONG Yu, ZHANG Yu, LIU Ting, et al. Evaluation and research of topic detection and tracking [J]. Chinese information journal, 2007, 21(6): 71?87.

[2] 曾依灵,许洪波.网络热点信息发现研究[J].通信学报,2007,28(12):141?146.

ZENG Yiling, XU Hongbo. Research on the hot spot information of the network [J]. Journal of communications, 2007, 28(12): 141?146.

[3] 周亚东,孙钦东,管晓宏,等.流量内容词语相关度的网络热点话题提取[J].西安交通大学学报,2007,41(10):1142?1145.

ZHOU Yadong, SUN Qindong, GUAN Xiaohong, et al. Network hot topic extraction based on relevance of flow content words [J]. Journal of Xian Jiaotong University, 2007, 41(10): 1142?1145.

[4] 迟呈英,李红.基于改进TF* PDF算法的网络新闻热点话题检测和跟踪[J].计算机应用与软件,2013,30(12):311?314.

CHI Chengying, LI Hong. Hot topic detection and tracking of network news based on improved TF*PDF algorithm [J]. Computer applications and software, 2013, 30(12): 311?314.

[5] 王巍,杨武,齐海凤.基于多中心模型的网络热点话题发现算法[J].南京理工大学学报(自然科学版),2009,33(4):422?431.

WANG Wei, YANG Wu, QI Haifeng. A hot topic detection algorithm based on multi center model [J]. Journal of Nanjing University of Science and Technology (natural science edition), 2009, 33(4): 422?431.

[6] 金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555?561.

JIN Zhu, LIN Hongfei, ZHAO Jing. Research on topic tracking and tendency classification based on HowNet [J]. Journal of information science, 2005, 24(5): 555?561.

[7] 洪宇,仓玉,姚建民.话题跟踪中静态和动态话题模型的核捕捉衰减[J].软件学报,2012,23(5):1100?1119.

HONG Yu, CANG Yu, YAO Jianmin. Kernel capture attenuation of static and dynamic topic models in topic tracking [J]. Journal of software, 2012, 23(5): 1100?1119.

[8] 姚长青,杜永萍.基于主题的舆情跟踪方法研究及性能评价[J].图书情报工作,2012(18):50?53.

YAO Changqing, DU Yongping. Research and performance evaluation of topic based public opinion tracking method [J]. Library and information work, 2012(18): 50?53.

[9] 张晓艳,王挺,梁晓波.LDA模型在话题追踪中的应用[J].计算机科学,2011,38(z1):136?139.

ZHANG Xiaoyan, WANG Ting, LIANG Xiaobo. Application of LDA model in topic tracking [J]. Computer science, 2011, 38(S1): 136?139.

[10] 廖君华,孙克迎,钟丽霞.一种基于时序主题模型的网络热点话题演化分析系统[J].图书情报工作,2013,57(9):96?102.

LIAO Junhua, SUN Keying, ZHONG Lixia. A network topic hot topic evolution analysis system based on temporal topic model [J]. Library and information work, 2013, 57(9): 96?102.

[11] 李保利,俞士汶.话题识别与跟踪研究[J].计算机工程与应用,2003,39(17):7?10.

LI Baoli, YU Shiwen. Topic recognition and tracking research [J]. Computer engineering and applications, 2003, 39(17): 7?10.

[12] 肖红,许少华.改进的话题检测和跟踪算法研究[J].计算机技术与发展,2014,24(9):84?88.

XIAO Hong, XU Shaohua. Research on improved topic detection and tracking algorithm [J]. Computer technology and development, 2014, 24(9): 84?88.

[13] 周学广,高飞,孙艳.基于依存连接权VSM的子话题检测与跟踪方法[J].通信学报,2013,34(8):1?9.

ZHOU Xueguang, GAO Fei, SUN Yan. Sub topic detection and tracking method based on dependency join weight VSM [J]. Journal of communications, 2013, 34(8): 1?9.endprint

猜你喜欢

神经网络
基于递归模糊神经网络的风电平滑控制策略
BP神经网络在路标识别上的应用研究
神经网络抑制无线通信干扰探究
基于Alexnet神经网络的物体识别研究
基于BP神经网络的旋转血泵生理控制
基于神经网络MRAS的速度辨识仿真研究
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用
基于支持向量机回归和RBF神经网络的PID整定
基于神经网络分数阶控制的逆变电源