热点话题追踪的方法及策略探究
2017-05-28翁双卿
翁双卿
摘 要 主要研究热点话题追踪的方法及策略。首先,从热点话题追踪内容出发,对热点话题追踪过程中的注意事项进行研究。其次,在上述基础上全面挖掘了聚类热点话题追踪和自适应热点话题追踪中的主要内容,结合实际案例深入分析了聚类追踪报道及自适应追踪报道的应用效益,望为新时期热点话题追踪工作的开展提供一定的参考。
关键词 话题追踪;内容;方法;应用
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2017)08-0163-02
信息作为人们生活中不可或缺的关键部分,直接影响着人们的生活质量和生产效益。随着互联网的不断深入,信息已经越来越多样化,面对快速更新的海量信息,如何形成高效的获取技术,对热点话题进行全面把握已势在必行。话题追踪技术能够借助数据手段快速、高效地获取相应信息,对热点话题进行全面把握,对用户获取信息效益的提升具有至关重要的意义,已经成为人们关注的焦点。
1 热点话题追踪的主要内容
1.1 信息与热点话题
热点话题是围绕热点新闻、报道、事件、活动等形成且达到一定搜索量的话题。这种话题需围绕一个种子事件、活动,或与一个种子事件、活动有间接的关系,即具有一定的关联且能够形成信息群。如2015年3月,“匈牙利展出肉身坐佛疑为三明20年前被盗文物”的帖子引起上亿名网友关注,在大田县吴山乡阳春村村民找出许多当年这尊千年肉身坐佛曾经在此“生活”的踪迹,两方就肉身坐佛归属进行“争论”。在这里面肉身坐佛就是信息的种子源,由此衍生了了大量的信息,中央电视台、中国之声、新华社、人民网等20多家中央、省、市媒体进行相关采访报道,匈牙利华媒《欧洲论坛》等海外华文媒体也参与采访调查,章公祖师、肉身坐佛等相关词句成了热门搜索的话题。
1.2 话题追踪概述
我国话题追踪起步较晚,在20世纪80年代才开始对话题追踪进行重视,90年代现代化话题追踪技术体系才初步形成。上述追踪的过程中主要从数据信息出发,构建相应的数据库,在该基础上实施数据评估及处理,确定话题的相关性和时效性,对关联话题的信息内容进行顺序整理,从而为用户提供完整的信息体系。
1.3 话题追踪的内容
热点话题追踪技术应用的过程中需要全面把握热点话题内容,做好报道分切、话题识别、事件发现、分层追踪等,这样才能够对热点话题进行全面把握。
报道分切:热点话题追踪的过程中需要对话题报道流进行处理,确定热点话题的来源,做好话题的“分切”,依照具体来源形成归类、整理,从而为话题追踪奠定良好的基础。报道分切过程中需做好信息分切、整理和标记。
话题识别:识别过程中可依照报道分切、整理和标记后的信息进行针对性分析,识别热点话题的相关性,在该基础上进行筛选。筛选完整后依照热点话题时间对其进行排序,确定热点话题中事件发展进程。
事件发现:热点话题具有实时性、动态性和发展性。在话题追踪的过程中需要从实时、动态和发展的角度对事件进行分析,做好新事件的发现,及时将新事件纳入到话题整理内容中,从而提升热点话题追踪效益,为用户提供完整的话题信息。
分层追踪:热点话题往往具有一定的层次性,在热点话题追踪的过程中需要做好分层话题追踪,在报道分切及话题识别基础上将原来的平面话题转变为话题簇,由子话题节点、子话题簇丰富热点话题内容,更热点话题内容及发展状况一目了然。
2 热点话题追踪的方法及策略
2.1 聚类追踪报道分析
聚类追踪报道主要从热点话题内容出发,将热点话题依照主题、内容等的差异划分为不同的子集,在该子集基础上实施热点话题主题或核心内容的追踪,形成相应的报道。该技术在处理的过程中需要对聚类操作进行合理把握,做好聚类指标的设置,在该基础上严格依照话题内容实施处理,这样才能够保证热点话题聚类子集的准确性和有效性。
热点话题聚类追踪的过程中需要对话题主题及内容等进行把握,总结出话题的“特征”,确定热点话题中的线索,在该基础上构建热点话题的映射关系,从而实施相应聚类处理。上述处理的过程中必须要把握好话题主题和内容提出的准确性、代表性和独立性。
常规聚类处理过程中主要依照热点话题状况实施扁平聚类和层次聚类。扁平聚类的过程中只能够依照主题对话题进行划分,不能够确定话题内容之间层次性。K-means聚类算法就是依照二维平面聚类后热点话题之间的距离状况确定其相关性的,实施针对性划分的方法。该算法运用的过程中计算内容较为简单,聚类处理速度非常快,只需要将热点话题到范围质心欧式距离平方值最小的热点划分为一类即可,对其进行标注。在K-means聚类算法处理的过程中话题追踪时还需要对标注的主题和核心内容进行筛选即可,借助数据检索技术就可以实现,操作非常简单,实用性较广。如在“韩春雨学术造假”热点话题聚类处理过程中就可以将对采集到的信息在专家评论或智能评论基础上实施二维平面分布,确定位置后通过K-means聚类算法确定平均值,最有平均值范围内的话题即为所需的热点话题关联信息,开展后续报道。
而层次聚类既能够显示话题主题,又能够分析话题内容,聚类的效果更佳明显,话题追踪结果更佳全面。凝聚式层次聚类过主要依照从上而下的原则将各项热点话题内容整理和聚类,形成子话题簇,在算法分裂基础上对各项内容进行分裂整理,为后续报道奠定了良好的基础。该处理方法应用的过程中需要构建好话题层次的划分,形成针对性权重,并结合专家评论或智能检索结果将其与权重相乘,确定话题的关联度。
2.2 自适应追踪报道分析
自适应追踪报道主要围绕话题中的各项内容对话题进行追踪,其借助自學习能力对话题进行分析和评价,确定话题是否符合核心内容,对其进行划分,从而形成针对性报道内容。该技术在运用的过程中可以依照热点话题状况对其追踪进行实施调整,借助内容和统计方法计算话题主体和内容的相似度,将后续话题报道的计算数值与上述相似度对比,确定两者具有一定关联后将后续报道与原话题内容整合,从而实现话题链的构建,完成后续报道的设定。
自适应热点话题追踪的过程中需要对追踪模型的构建进行全面把握,做好参数的调整,这样才能够保证追踪的可靠性和准确性。一般自适应话题追踪的过程中主要通过调整阈值、相似度和特征词的权重来满足追踪要求,实现热点话题的科学“汇总”。
特征词权重调整的过程中可以利用人工调节的方法对热点话题的特征值权重进行设定,并依照具体的热点话题内容对权重值进行调整,在调整过程中需要对报道和话题的相似度进行对比,依照上述相似度值对热点话题追踪内容进行修正。相似度调整的过程中主要依照计算数值的相似度确定目标话题与热点话题之间的关联状况,上述相似度一般指内容相似频率,由频率参数确定两者之间的关联系数,进而实施热点话题追踪。除此之外,还需要通过阈值调整对热点话题的时间信息进行分析,在话题创建时间和热点信息报道拓展时间间隔基础上分析相似度,从而保证自适应追踪的可靠性和有效性,为后续报道提供良好的信息资料。在该过程中人员需要重视好热点话题中的各项因素,尤其是要把握好地域因素、时间因素等对热点事件追踪报道的影响,依照上述因素把握好报道的相似度范围,做好后续报道内容的筛选和跟进,形成系统化、层次化热点话题追踪报道体系,这样才能够从根本上改善热点话题追踪质量,形成实时、全面的热点话题追踪报道内容。
在新加坡航空公司航班坠毁热点话题追踪的过程中就可以通过自适应追踪报道对其相关信息进行整理,确定飞机失事报道、伤亡状况、损失状况、航班目前状态、事件处理结果等内容,在该基础上依照特征词划分确定自适应追踪中的子话题簇并确定各个话题的权重。追踪过程中共发现802篇报道,依照报道和话题内容进行选择后构建子话题簇模型和子报道模型后发现用户对航班状态、伤亡状况、事件发生原因等较为重视。因此,在后续报道过程中就需要做好上述热点话题的追踪,依照事件时间、区域等做好后续航班信息报道内容的整理,形成相应的追踪报道内容。
3 总结
热点话题追踪的过程中需要对话题主题和内容进行全面把握,依照追踪需求合理选择聚类追踪报道或自适应追踪报道,形成科学的热点话题追踪体系,从而全面提升话题追踪效益。在聚类追踪过程中需做好聚类算法的选择,依照算法实施二次平面分布或层次权重构建,从而为聚类奠定良好的数据基础;自适应追踪过程中要对特征值、相關度、阈值进行把握,在上述基础上实施模型数据与实际数据相似度的对比,找出报道与热点话题的关联度,从而实施相应的话题聚类追踪。