基于人工免疫危险理论的微博舆情预警方法
2016-12-30杨鹤
杨 鹤
(湖北第二师范学院 计算机学院, 武汉 430205)
基于人工免疫危险理论的微博舆情预警方法
杨 鹤
(湖北第二师范学院 计算机学院, 武汉 430205)
微博的消息爆炸式传输方式使其迅速成为舆情的重要源头,而其开放性、匿名性也决定了它是谣言和舆情事件滋生的温床。基于内容的网络舆情监控方式响应时间长,隐晦词、新词漏网率高,难以监控非文字信息。人工免疫系统中的危险理论方法是一种通过监测变化发现异常的自适应方法,通过监控发帖率、评论量等微博相关参数的改变,在舆情事件萌芽阶段及时发现危险并提出预警,为微博舆情监控提供新思路。
人工免疫;危险理论;舆情监控;微博
一、引言
微博作为一种典型的网络社交应用,自2006年诞生以来迅速成为虚拟世界中重要的信息传播工具。2016年1月CNNIC发布的《第37次中国互联网发展状况统计报告》[1]显示,2015年我国网络社交应用用户已达53001万,其中微博用户占社交应用使用率的33.5%,仅次于qq空间。与qq空间分享个人生活状态不同,微博具备更广泛的信息传播能力。在突发事件等重大事件的传播过程中,微博日益成为重要的平台和推手[2],如何有效应对微博舆情,掌握话语权,成为当下亟需面对和解决的重要课题。与传统纸媒及网络新闻媒体相比,微博发布的信息随意性大、真实性难以保证、且传播速度快、传播范围广(呈爆炸式增长),这使得微博舆情具有不确定性、不可控性等特点。
二、相关研究背景
与普通网络舆情相比,微博舆情传播速度更快、影响面更广,目前常用的网络舆情监控技术主要是基于内容的,即通过设置敏感词和关键词的方式从抓取网页,通过解析、清洗和分词后,挖掘关键词并将其与词库进行比对[3],这类方法在以下几个方面还存在改进空间:(1)响应时间长,难以适应微博信息的爆炸式传播(2)新词、刻意经过隐藏的“未知”关键词漏网率高(3)难以监控图片、音频、视频等非文本信息。如何自动发现微博舆情事件的 “危险信号”,在最短的时间予以响应是微博舆情预警要解决的关键问题。鉴于微博的个体化差异和动态性,难以用设置固定阈值的方式来判断哪种状态“危险”,哪种状态“安全”,必须寻找一种能实现智能判定与预警的方法。
人工免疫系统(Artificial Immune Systems, AIS),是借鉴人体免疫系统检测未知入侵(病毒)的基本原理,建立的一种自适应检测未知异常的智能系统。从1996年美国学者Forrest首次提出 “人工免疫系统”的概念以来,它已经成为人工智能领域的理论和应用研究热点之一[4],目前全世界已有超过二十个国家,三十个研究组致力于人工免疫领域的研究。
“危险理论”是AIS的一个分支,它的观点是:发现机体产生异常变化时的“危险信号”、检测“异常变化”是否对机体构成威胁(Uncomfortable),进而抑制有害的“变化”[5]。实际上微博在重大舆情事件萌芽之初所表现出的“变化”与人体在感染病原体时所表现出的变化非常相似,借鉴人工免疫系统的“危险理论”原理,定义、提取、计算和融合微博状态的“危险信号”[6],进而研究基于人工免疫的微博舆情预警方法,可为微博舆情预警,提供新的思路。
三、基于人工免疫危险理论的微博舆情预警模型
微博舆情预警是建立在微博状态的采集和处理基础上的,这就需要建立一整套分析框架,包括微博状态变化数据的采集、数据预处理、危险舆情监测、预警等。该模型是一个多层式结构,每层需保持一定的独立性,实现整体的柔性结构。因而需要研究模型体系结构的层次划分、层次功能结构、数据处理流程等。
基于人工免疫危险理论的微博舆情预警模型体系结构如图1所示,划分为3层。其中,第一层部署微博状态采集器,依据采集策略实现对微博状态数据进行采集。第二层是人工免疫判定层,包括变化检测装置,采用基于微分的危险信号发现方法对微博状态指标中的“变化”进行计算和检测,提取出的各类危险信号经信号融合与危险判定装置进行融合计算,得到当前是否存在危险舆情的判定,并将预警信息提交舆情分析层。舆情分析层根据危险预警,捕获相关危险博文,依据危险预警的等级对其进行敏感词捕捉分析和人工分析,提出舆情预警警告。
图1 基于人工免疫危险理论的微博舆情预警模型
四、基于危险理论的的微博舆情异常发现机制
如何鉴别微博状态的异常,是微博舆情发现的关键。“危险理论”是人工免疫系统中一个较新的分支,其核心思想是通过感知机体在异常状态下发出的“危险信号”,激活免疫细胞进行异常判定,从而有效地避免海量数据的检索和识别。将“危险理论”用于微博舆情异常发现,关键问题是确定什么是指示微博状态异常的“危险信号”。
一切事物在正常运转时都是有规律可循的,例如微博用户的访问量、关注度、被转帖数等指标处于平衡状态(均匀的变化可以看做相对静止)。一旦有重大舆情事件发生时,上述各种指标势必发生变化,平衡被打破。这些变化就是引起免疫反应的“危险信号”。
1.危险信号的表达、提取、计算
危险信号来源于微博状态的各种变化,微博是人类人际交往关系在网络社区中的映射,正如现实社会中个人的交际圈子相对固定一样,正常发文及交互的微博,其博主的粉丝数、关注度,博文的转发量、评论量应该遵循一定的规律,保持相对稳定(或称之为“相对静止”)。若某博主发出博文“爆料”或有水军刻意操纵,则短时间内该博的相关指标会偏离正常轨道,产生不同于常态的“变化”。
初步确定需采集的微博状态指标包括:微博点击率、粉丝数、单位时间的转发量、评论量、博主排名指数等等。一段时间内,微博状态数据构成一个多维空间上的曲线,当舆情事件发生时,微博状态产生变化,形态曲线发生较大改变。通过研究微博状态数据的多维形态曲线,可以提取指示微博舆情异常的危险信号。
数学中用导数和微分描述变化,对于微博状态的变化,本文拟借鉴微分学的方法表达危险信号。设V是微博状态指标的集合,V=G(R)={g1(R),g2(R),…,g1(R)},其中v1=g1(R),v2=g2(R)…vn=gn(R)。R是观察微博状态的参照系,则总体的微博状态变化
微博指标V相对于参照系R的变化可表示为
2.危险信号识的融合及预警的判定
免疫学中识别危险信号并判定机体是否危险,是否需要提呈抗原的是抗原提呈细胞。借鉴抗原提呈细胞的原理,可构建人工抗原提呈细胞识别危险信号。针对上述描述每一个危险信号,定义一个相应的抗原提呈细胞受体,构成细胞种群。定义每种危险信号的危险级别,当危险达到一定的程度时候,激活相应的识别细胞进行判定。由于微博状态是个复合指标,由各种分指标组成,即判断是否存在危险的微博舆情需要对多个危险信号进行融合,这就需要通过细胞种群的演化,尽可能覆盖到整个微博状态空间。借鉴生物繁衍过程中的遗传、杂交、变异原理,可实现相应的演化策略。
五、总结
微博是舆情传播的重要源头,基于内容和关键词的舆情预警方式响应时间长,难以发现隐匿性关键词和新词,且难以发现通过非文本信息传播的舆情。借鉴计算机免疫系统中的“危险理论”方法对微博关键指标的变化进行自适应的实时监控,可不依赖文本内容和关键词的匹配,为实现重大舆情事件的自动发现和预警提供新的思路。
[1]第37次中国互联网发展状况统计报告[Z].2016.02.
[2]中国社会舆情与危机管理报告(2012)[Z].2012.08.
[3]高承实,荣星,陈越.微博舆情监测指标体系研究[J].情报杂志,2011,(9).
[4]FORRESTS,BEAUCHEMINC.Computerimmunology[J].ImmunolRev, 2007, 216: 176-197.
[5]AICKELINU,GREENSMITHJ.Sensingdanger:Innateimmunologyforintrusiondetection[J].InformationSecurityTechnicalReport, 2007, 12(4): 218 -227.
[6]LIANGY,YANGHe,LiTao,etal.Adifferentialcoefficientinspiredmethodformalicioussoftwaredetection;proceedingsof3rdInternationalSymposiumonIntelligentInformationTechnologyApplication,IITA2009,November21, 2009-November22, 2009,NanChang,China, 2009 [C].IEEEComputerSociety.
责任编辑:彭雷生
Precaution Mechanism for Public Opinion on Microblog Based on Artificial Immune Danger Theory
YANG He
(School of Computer,Hubei University of Education, Wuhan 430205, China)
With explosive transmission of information, microblog has quickly become the source of public opinion, while it’s also a hotbed of rumors and public opinion event for its openness and anonymity. Public opinion monitor mode based on content is characterized by long response time, high failure in capturing disguised and new words, and difficulty in monitoring non-word information. Danger theory of artificial immune system is an adaptive method which finds abnormal event through variation control by monitoring related parameters of microblog, such as posting rate and comment. This method can make early warning at the cradle of public opinion event and provide a new thought on monitoring public opinion on microblog.
artificial immune; danger theory; monitor public opinion; microblog
2016-08-02
湖北省教育厅人文社会科学研究项目(14G441)
杨 鹤(1980-),女,湖北武汉人,副教授,博士,研究方向为人工免疫学。
C931
A
1674-344X(2016)10-0126-03