APP下载

网络热点信息发现系统的设计与实现

2014-03-08邱海健

自动化与仪表 2014年8期
关键词:热点话题网页热点

邱海健

(南京工业大学 电子与信息工程学院,南京 211816)

随着计算机网络技术的快速发展,大量网民认为互联网是获取信息的最重要的渠道,网络信息的爆炸增长和网民参与热情的空前高涨使得对网络内容的监控和管理变得十分迫切和紧要,而面对海量的互联网信息,网络舆论信息为其中比较突出的代表,网络舆论是在互联网上传播的公众对某一焦点所表现出的有一定影响力的、带倾向性的意见,而且网民言论同时具有巨大的信息爆发力和舆论影响力[1]。

互联网上,热点话题表现为互联网用户阅读网页、回帖和跟帖等,随着网民的关注和事情的发展和变化,讨论中心也会发生改变,同时真实地反映了大多数网民对该事件的态度。可见,获取热点信息变得更加重要。

根据某单位的需求,要及时地发现热点问题和热点话题的变化[2],提出热点信息发现系统。系统主要功能是利用Web技术[3]采集页面信息并且根据Single Pass算法热点评价算法[4]检测网络热点信息。

1 方案设计

发现热点话题是为热点信息检测服务的,首先把测试信息结合在一起,分析其中有影响力的话题,为热点挖掘提供可靠的依据。

按照处理过程,本系统主要可以分为以下几个步骤:信息采集、信息挖掘、信息热度评价。系统流程如图1所示。

系统主要流程是提取出来用户可能感兴趣的页面信息,再进行处理,将大量的信息整合成为有序的热点话题,来提高热点信息发现系统挖掘热点信息的准确度和效率。

图1 系统流程图Fig.1 Flow chart of system

2 系统总体设计

本系统采用B/S三层体系结构,由应用层、业务逻辑层和数据服务层构成,三层之间相互交互来实现系统的整个功能。用户通过发送请求到应用层查询需要处理的页面,通过Web技术和相关算法处理得到信息存储在数据库中。数据服务层主要提供数据存储服务,由数据库的服务器和文件系统组成。系统总体框架如图2所示。

图2 系统总体框架Fig.2 Modules of system

每个子系统都有自己单独功能模块程序,而且需要不断地和数据库进行交互完成各自的功能。整个系统包含信息采集子系统、热点挖掘子系统、热点评价子系统。

信息采集子系统 主要是对网页的内容进行筛选,选出网页的主要内容。

热点挖掘子系统 主要是对信息采集子系统处理过的内容进行聚类分析,把信息进行归类。

热点评价子系统 主要是对热点挖掘子系统的归类信息进行热点评价,评价并且排行出近期活跃度高的热点话题。

3 系统的关键算法

3.1 网页信息采集

本论文所构建的热点信息发现及分析系统是利用网络信息采集和挖掘等相关技术,将互联网上可能引起用户兴趣话题和关注比较大的信息整理出来,以直观的数据表现方式提供给相关用户进行特定处理。

信息采集子系统中主要工作:首先处理测试网页中一些没有用的信息例如广告信息等,得到一些干净的网页之后,找出相关信息网页。

3.2 热点信息检测相关算法3.2.1 Single Pass聚类算法

Single Pass算法主要是根据输入内容,将内容处理为内容文本,将内容文本与已有话题进行相似性比较,根据相似度的值进行匹配选取。如果与某个话题相似度高,则把文本归入该话题,如果相似度度量均小于某一阈值,则将该文本定义为一个新的话题,创建一个新的话题类型。其Single Pass算法的流程图如图3所示。

图3 Single pass算法Fig.3 Single pass algorithm

3.2.2 话题热度评价

性能评测一般采用漏检率(Pm)误检率(Pf)来判断算法存在的问题,而检测代价[5](Cn)是用来衡量话题发现的质量,Cn一般是越小表示效果越好。如话题i中相关的文档数目为H、不相关的数目为H1、与话题i不相关文本C,其中C中有C1篇被误放入话题i中,则:

平均漏报率Pm,平均误报率Pf和检测代价Cn。其计算公式为

其中:G1、G2是漏报和误报的代价;Pm、Pf是漏报和误报的概率;P是文本话题类的先验概率。根据热点评价的标准,一般设定 G1=1,G2=0.1,P=0.02。

4 系统测试

为了验证本系统采用2013年4月新浪、网易、搜狐、新华网、人民网等几个网站的网页,首先利用信息采集子系统的Web技术处理网页内容,得到一些关键信息内容;再利用热点挖掘子系统处理归类;最后利用热点话题评价子系统进行热度排行。

页面信息处理得到四川雅安地震(YA)、H7N9亚型禽流感病毒(H7N9)、明星跳水秀(MX)、复旦投毒案(FD)、凤凰古城(FH)、海天盛筵(HT)等 6 个话题,验证系统检测话题的有效性和准确性。测试各项数据如表1所示。

表1 热点信息表Tab.1 Information hotspots

测试中各项数据根据式(1)~式(5)得出,漏报率 数 据 是 0.253、0.229、0.221、0.222、0.257、0.1875,误报率数据是 0.01125、0.01、0.00875、0.005、0.0038、0.0075,而检测代价数据是 0.0062、0.0056、0.0053、0.0049、0.0055、0.0045。在漏报率和误报率计算中,检测代价越小表示信息的集中程度越高。根据结果数据可以得出,信息热度排名为海天盛筵(HT)、复旦投毒案(FD)、明星跳水秀(MX)、凤凰古城(FH)、四川雅安地震(YA)、H7N9亚型禽流感病毒(H7N9)。

5 结语

本系统基本达到了企业提出的需求,基于.NET和关键算法构建出热点信息发现系统,实现了网页信息热点检测。系统在网络热点话题发现上既保证了一定的准确性、实时性,又为某单位对某事件的态度倾向提供数据服务。

网络热点话题检测作为舆情信息挖掘的关键任务也是研究重点,同时还有许多问题有待进一步的探索与研究。如实时动态的信息获取并发送分析好的信息给领导,作为下个版本开发的新内容。

[1] Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.ACM,2010:1361-1370.

[2] Kitsak M,Gallos L K,Havlin S,et al.Identification of influential spreaders in complex networks[J].Nature Physic,2010,6(11):893-898.

[3] 岳国伟,永全,陈玉娥.ASP.NET中数据分页技术的研究[J].计算机应用研究,2007,24(9):159-161.

[4] 洪宇,张宇,范基礼,等.基于话题分治匹配的蜥事件检测[J].计算机学报,2008,31(4):687-695.

[5] Makkonen J,Ahonen-Myka H,Salmenkivi M.Simple semantics in topic detection and tracking[J].Information Retrieval,2004,7(3-4):347-368. ■

猜你喜欢

热点话题网页热点
热点
基于HTML5与CSS3的网页设计技术研究
热点
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
结合热点做演讲
园宝 风采Show
基于URL和网页类型的网页信息采集研究
基于SVM的热点话题跟踪实现过程研究
热点话题排行榜