中文新闻话题动态演化及其关键技术研究
2018-03-27
随着我国互联网的快速普及以及互联网技术的快速发展,我国网民数量在不断增多,长时间接触网络的用户也形成了一定的规模,而借由网络平台而发布的信息量也在呈几何倍数的增长,任何新闻话题都能够引起人们的关注和铺天盖地的报道。然而,这些海量的网络信息却给网络用户以及媒体人带来了困扰,对于网络用户而言海量的信息难以消化,不能够把握住信息的重点和全面了解信息;而对于媒体人来说,这些信息难以依靠人工进行筛选、过滤,进而整合,形成脉络清晰、信息全面的报道。因此,关于中文新闻话题动态演化及其关键技术的研究正在不断深入。
一、新闻话题动态演化技术研究的重要性
新闻话题动态演化技术是信息处理领域的一种较为高级的技术,尤其是作为wеb信息处理技术的更为高级的部分,相关的技术研究体系较为复杂,且涉及到了多个研究领域,是多种学科综合交叉的领域。因此,新闻话题动态演化技术的研究能够有效的解决当前我们遇到的信息量过大的问题,以先进的技术实现新闻话题的演化、追踪等等。与此同时,新闻话题动态演化技术的研究还能够促进相关领域的技术进步和理论完善,尤其是话题关联检测、话题聚类等等领域,有力的推动了这些领域的进一步研究。由此可知,新闻话题动态演化技术的研究具有广泛的意义,不仅推动相关领域发展和解决现实问题,还能够有利于网络个人用户的信息搜索和整合等,对于推动我国信息经济的进一步发展具有重要意义。
所谓的新闻话题动态演化,其实是人们对于一个话题由浅入深的认识和了解。当人们获取了一个话题的相关信息并对于这个话题产生兴趣之后,会诱使人们逐步的深入了解这个话题,从话题起始开始了解,包括之后的发展、高潮和结束等等环节。而这种过程就是一种逻辑变化的过程,也是新闻话题动态演化的过程。由于受到现实技术条件的限制,当前信息处理技术只能够为用户提供简单的信息服务,并不能够按照上面的话题演化逻辑为用户提供相关的信息,因此加强对于新闻话题动态演化技术的相关研究能够提高信息处理能力,为用户提供更为人性化的服务。
二、中文新闻话题动态演化及其关键技术的相关研究
(一)新闻话题的信息抽取
新闻话题的抽取是构建话题模型的开端,模型构建的好坏直接受到新闻话题抽取的影响,正如我们所说的良好的开端就是成功的一半,而新闻话题的抽取就是这种开端。但随着我国互联网平台的建设以及互联网技术的发展,海量的信息开始充斥着网络,中文网络新闻的话题也是层出不穷,过去仅仅依靠传统媒体作为新闻话题的引爆者的时代已经被自媒体、流媒体时代逐步取代,任何人都可以成为新闻的传播者以及新闻话题的引领者,任何社会事件都可以通过现在的网络社交媒体这一渠道而引发蝴蝶效应,成为引发社会大讨论的新闻话题。因此,在面对如此巨量的网络信息时,传统的话题抽取方式已经无法适应时代的要求,需要重新定义新闻话题抽取方法,尤其是在网络信息不断更新,网络新闻话题热度不断改变的时代里,就显得尤其重要。因此,在突破当前新闻话题抽取的技术瓶颈下,如何规避无效话题以及解决中文自然语言处理技术上对网络新词的不适应等成为了关键技术问题。当前的解决方法是开发了一种基于语言学知识的信息抽取方法,这种方法通过引入中文词性和位置特征能够修正话题词语标注错误等问题,并依照文本特征以实现网络新词词典的动态更新算法等。
(二)时态表达规范化处理
新闻话题的演化逻辑遵循着人们心理的变化过程,从最初接触新闻话题的好奇开始,进而希望能够通过现有的信息平台进一步的了解到现阶段该新闻话题发展的动态,以及最终结果,就像打开了魔盒一般,会吸引着你继续的朝着新闻话题的发展而不断跟进。因此,新闻话题的演化逻辑需要按照一定的时间顺序开展,而这时间顺序成为了研究新闻话题动态演化过程的重要线索,而要把握当前新闻话题的变化通过时态信息便能够有效的掌控变化过程,成为了研究新闻话题动态演化的重要基础。所谓的时态表达规范化处理,是指将新闻话题中各项涉及到时间信息的文本,通过搜寻这些存在着的时间信息并将其转化为一定的时态表达,通过利用和辨认这些时态表达为机器技术挖掘时态语义提供了可能性,也为更加准确的获取需要的新闻信息。但当前我国并没有这种时态表达规范化处理的技术,尤其是面对复杂语境时,并不能够完全分辨出在这些语境下的时态表达,从而顺利的筛选出其中的重要时间信息。所以,为了解决这些问题,我们需要首先清楚如何利用参考系来确定时态表达,同时有效的解决时态表达的模糊状态等。通过解决这些问题,能够让人们更好的理解新闻话题的时态信息,通过这些时态信息能够让人们更好的了解新闻话题的逻辑,从而让话题挖掘更有空间和效率。
(三)新闻话题时间抽取
新闻话题时间是包含在新闻话题相关报道中的重要信息,任何新闻报道都需要新闻时间来确定事件发生的准确性,给新闻话题更多的科学性。在现阶段的网络平台上,新闻话题大多都是由一个事件以及由此引发的相关事件活动组成的,这些最初的活动与最后的活动之间是拥有一个时间区间,也就是这个时间自发生开始到结束所经历的过程区间,由第一个引发事件到最后一个结束事件组成的这个时间区间就是新闻话题时间,也是事件由起始走向结束的时间区间。而这种新闻话题时间对于新闻话题的阅读者来说具有重要的意义,尤其是在把握新闻话题动态演化的过程中具有重要的逻辑线价值,如果失去了新闻话题时间这条逻辑线将会使新闻阅读者难以完全整理出这个新闻话题的发展过程,而这种新闻话题的时间有效性将直接影响到新闻话题时间抽取的准确性,同时也将影响到新闻话题抽取的效率。由于新闻话题与时间信息之间存在着密不可分的关系,所以在研究新闻话题抽取时对于时间抽取这个问题给予了较多的关注,也是当前较为热门的研究方向。当前虽然也存在着一些依据话题时间进行话题抽取的方法,但这些方法并没有建立在深刻理解话题与时间理论关系的基础上,而仅仅停留在较为浅层的理解之上,在话题层次上无法较为准确的把握,而通过这些方法进行的新闻话题抽取的结果往往不尽如人意,并不能够适应使用者的需求,也使得话题与抽取的结果之间的相关联程度较低。因此,需要更加深入的研究话题与时间之间的映射机制,通过这种映射机制的反映,更好的提高话题与抽取结果的关联性。
(四)新闻话题演化挖掘
新闻本身就是具有动态变化的特点,也是自身所拥有的自然属性,而新闻变化的基本载体就是话题。新闻话题的存在让新闻的动态变化变得有迹可循,在新闻话题随着时间不断更新变化时就体现出了新闻话题动态变化的逻辑顺序。由于新闻话题的是由人主导的,因此在新闻话题变化的过程中体现了人类心理变化的特征和过程,而新闻话题变化的逻辑线也符合人类对于新闻话题的认知规律。当人们开始注意到某个新闻话题时,天生使然的好奇心使得新闻阅读者们会不断的关注、挖掘新闻话题,从而了解事件整个变化的过程,自事件起始到事件的发展、曲折、高潮直至结束。这便是新闻话题的演化过程,也是新闻读者的心理变化过程。根据这种新闻话题的发展逻辑,只要我们能够通过分辨出新闻话题在各个演化阶段所具有的特征,就能够掌握相关的信息去智能化分辨这些新闻话题的演化过程,并利用时间作为重要支线,将各个阶段的新闻话题相关信息串联起来,从而形成完整的新闻报道,这对于新闻挖掘工作来说提高了很大的效率,节约了新闻工作者大量的时间。但当前关于新闻话题演化挖掘的技术却并不适用,并没有找到较好的特征计算模型来更好研究演化过程,而通过在新闻话题计算模型中大量加入噪声特征的方式,极大的影响了计算的关联性。因此,在相关技术上还需要进一步的研究和挖掘。
参考文献:
[1]郭晓利,周自岚,刘耀伟,独健鸿,黄岩.基于DTS-ILDA模型和关联过滤的新闻话题演化分析[J].应用科学学报,2017,35(05):634-646.
[2]赵旭剑,付鹏,李波,张晖,杨春明,喻琼,王耀彬.网络新闻话题演化趋势检测研究 [J].电脑知识与技术,2015,11(02):52-54+59.
[3]赵旭剑,杨春明,李波,张晖,金培权,岳丽华,戴文锴.一种基于特征演变的新闻话题演化挖掘方法[J].计算机学报,2014,37(04):819-832.