APP下载

一种基于网络敏感信息挖掘的量化社会稳定分析技术框架

2016-01-08王伟,李佳静,瓮佳佳

计算机工程与科学 2015年6期

一种基于网络敏感信息挖掘的量化社会稳定分析技术框架*

王伟1,李佳静2,瓮佳佳1

(1.武警工程大学电子技术系,陕西 西安 710086;

2.中国矿业大学(北京)机电与信息工程学院,北京 100083)

摘要:国内针对社会稳定形势的分析工作主要集中在理论、体系、指标构建方面,定量分析研究较少。提出了基于网络敏感信息挖掘、精确语义匹配和量化分析的社会稳定形势监控技术框架。对互联网新闻文本中与社会环境、民族和谐、民生幸福相关的敏感信息进行挖掘,识别热点关键词以及由该词引导的敏感事件的变化趋势,构造敏感信息知识库;建立社会稳定理论模型和计算模型,利用社会调查和迭代反馈分析法习得模型参数,实现社会稳定形势的定量评估。基于该技术构造了原型系统,对新疆、西藏等边疆六省份社会稳定形势定量分析的平均准确率达到73.72%,具有一定决策参考价值。

关键词:敏感信息;社会稳定指数;网络文本挖掘

中图分类号:TP391.1 文献标志码:A

doi:10.3969/j.issn.1007-130X.2015.06.027

收稿日期:*2014-04-23;修回日期:2014-08-11

基金项目:国家自然科学青年基金资助项目(61309022);陕西省自然科学基金资助项目(2013JQ8031);武警工程大学军事应用研究项目(WJY201515)

作者简介:

通信地址:710086 陕西省西安市未央区武警路1号武警工程大学电子技术系

Address:Department of Electronic Technology,Engineering University of CAPF,1 Wujing Rd,Weiyang District,Xi’an 710086,Shaanxi,P.R.China

Aquantitativesocialstabilityanalysisframeworkbasedonwebsensitiveinformationmining

WANGWei1,LI Jia-jing2,WENG Jia-jia1

(1.DepartmentofElectronicTechnology,EngineeringUniversityofCAPF,Xi’an710086;

2.SchoolofMechanicalElectronic&InformationEngineering,

ChinaUniversityofMining&Technology,Beijing100083,China)

Abstract:Research on domestic social stability analysis mainly focuses on the construction of social stability theory, architecture and index, but little attention is paid to quantitative analysis. In this paper, we propose a social stability supervising framework based on sensitive Web information mining, semantic pattern matching and quantitative calculation. By analyzing the sensitive information about social environment, national harmony and happy index of people lives in natural language texts from Internet, and identifying hot keywords as well as the event trends led by the keywords, we construct a sensitive information knowledge base, and design a social stability index theoretic model and a quantitative calculation model to evaluate the social stability quantitatively. Parameters of the calculation model are determined by employing social investigations and an iterative feedback learning method. A prototype system is built on the proposed framework and experiments are conducted in 6 frontier provinces, such as Xinjiang and Tibet. The result of an average accuracy of 73.29% has reference value in decision-making to some extent.

Keywords:sensitiveinformation;socialstabilityindex;webtextmining

1引言

我国互联网普及率不断提高,虚拟网络对现实社会的影响日益显著。网络上发布的信息,既有能够反映贫富差距、社会治安、就业失业等社会环境问题的内容,又有反映宗教信仰、生活方式、境外势力渗透等民族和谐问题的内容,还有与人民生活环境、社会保障、可支配收入相关的民生信息。通过网上社区讨论,形成现实社会中的游行、集会、结社等社会性行为的事例屡见不鲜。因此,利用信息化手段对互联网敏感信息进行全面、准确和及时的监测,做出有效的预警和应对,是维护社会安定团结、大力发展经济的有效保障。

目前网络信息监测任务主要由舆情监测系统完成。舆情系统可实现对网络信息的监管、对热点事件的追踪[1,2],进行关联分析和趋势分析,但一般并不对社会稳定局势进行分析。国内现有的针对社会稳定形势的分析工作[3~11]主要集中在理论、体系、指标构建方面,利用互联网信息实现实时社会稳定形势评估的研究较少。一方面,大量研究只进行定性分析而未得出更有意义的量化结果;另一方面,一些工作局限于某个单一因素,如仅针对幸福指数进行研究,未考虑到多种因素的综合影响。

本文面向互联网海量自然语言文本,建立由社会环境因素、民族和谐因素和幸福指数三类因素构成的社会稳定理论模型与计算模型,利用社会调查及迭代反馈学习方法习得模型参数,通过抓取、识别、抽取网络新闻报道及评论中的敏感信息构造敏感知识库,经过精确的语义规则匹配与量化计算,实现对社会稳定形势的实时监控。对新疆、西藏等边疆六省份典型网站的实验分析结果显示,平均准确率达到73.72%,能较好地反映社会稳定趋势。

2相关研究工作

国内一些社会科学工作者在社会稳定形势分析、指标体系建构和管理系统的研发等多个方面进行了相关研究。如李育全[3]在结构性调查统计的基础上,从事实评定指数和稳定信心指数两个方面对边疆民族地区社会稳定的影响因素进行了实证分析。文献[4~6]针对幸福指标的经济学意义、幸福指数指标体系的构建、幸福指数的采集与实证分析进行了研究。文献[7,8]对社会群体性事件背后的心理学因素进行了探讨。朱庆芳等[9]构建了由38项重要指标组成的经济社会和谐发展指标体系。文献[10,11]从经济学角度对我国城市社会政治稳定性进行了尝试性的实证分析。文献[12]对利用人为输入信息构建社会稳定预警预控管理系统的方法进行了描述。可见目前的研究主要集中在理论、体系、指标方面,还未见利用网络信息挖掘技术自动进行社会稳定形势分析的工作。本文在理论建模基础上,利用文本挖掘技术实现对社会稳定形势的监控。

与本文直接相关的应用是舆情监测。舆情监测系统从Web网页内容中的半结构或无结构的数据中自动发现、提取有用信息,发现海量信息中民众关注的热点、焦点事件,实现对热点事件的追踪,并能形成一定的关联分析和趋势分析。国内较为出色的舆情监测系统有北大方正的智思舆情预警辅助决策支持系统,北京拓尔思TRS互联网舆情信息监控系统,以及美亚舆情、人民舆情、天玑舆情、谷尼网络舆情、鹰击微博與情等等。它们都以信息采集技术为核心,应用信息处理技术、内容管理技术、知识管理技术、信息分类技术,实现网络舆情监测和新闻热点追踪、新闻监管等功能。本文的工作专注于社会稳定形势的量化分析,即在采集、分析和处理网络信息的基础上,需要根据所提出的社会稳定指数模型进行量化计算,才能得到社会稳定形势。

3社会稳定形势分析技术框架

本文基于网络敏感信息挖掘技术,提出了社会稳定形势分析技术框架,构造了社会稳定指数模型,实现了对社会稳定形势的自动量化分析。整体技术框架如图1所示。

Figure 1 A quantitative social stability analysis framework based on web sensitive information mining 图1 基于Web敏感信息挖掘的社会稳定量化分析框架

该技术框架由三层构成:

(1)文本挖掘层:提供海量Web文本挖掘服务。针对社会稳定模型中所涉及的要素抓取相关网页,利用TML(TextMiningLanguage)[13]提取关键词、进行语义分析、挖掘关联关系、捕获敏感信息。TML封装了复杂的网页抓取和自然语言处理技术,并将理论模型、提取规则映射为具体的文本挖掘过程。

(2)知识发现层:实现理论建模、规则提取与知识发现。根据社会稳定指数理论模型,分析代表各类要素的关键词集和关联关系,构造敏感信息匹配规则库。并利用迭代反馈机制确定社会稳定指数模型中各要素的权重,实现社会稳定形势的定量计算。

(3)数据表现层:提供数据的可视化与可操作性。利用社会稳定指数计算模型量化分析提取的敏感信息,以图表等可视化形式展示社会稳定变化趋势,为进一步的智能情报分析与决策操作提供人机接口。

3.1文本挖掘层

文本挖掘层在知识发现层指导下,从海量网络文本中挖掘影响社会稳定的社会环境、民族和谐和幸福指数三种类别因素的敏感词和匹配规则。

新闻是报纸、电台等媒体记录社会、传播信息、反映时代的一种文体。互联网的开放性使网络新闻能够更直接、更迅速地记述现实社会,因此影响社会稳定形势的诸多因素均可在网络新闻中找到。本文采用了两种方式获取网页上的敏感信息:

(1)人工阅读新闻网页,根据公众对当前的时局、政策的一些观点选择敏感信息作为“种子”。在初始状态下,使用这种方式效果较好,但效率较低。

(2)利用TML文本挖掘语言,通过自动挖掘获得网上信息。将手工获取的初始敏感词作为关键字提供给网络爬虫,用来实现定向抓取,再从返回的网页中通过文本分析与挖掘获得新的敏感词,构造敏感词集。

TML是一个自然语言处理平台,它包含编译器、虚拟机和集成开发环境。用户使用TML语言编写文本挖掘规则代码,这些代码被编译成字节码后在虚拟机上运行。TML实现并封装了大部分常用的文本挖掘技术,为复杂的文本挖掘过程提供了一条简单的途径。

在文本挖掘层,我们基于TML实现了敏感信息挖掘,将所识别的信息作为构造知识库的基础。该层利用了TML提供的网络爬虫、文本抽取、中文分词、词性标注与命名实体识别、关键词抽取、概念与关系抽取等功能。根据社会稳定理论模型,使用CONCEPT和PREDICATE指令定义敏感词集与规则,利用PAGES确定信息采集的范围,并用SELECT提取匹配的概念与关系。TML代码框架如下:

CONCEPTx;/*定义敏感词集x*/

CONCEPTy;/*定义敏感词集y*/

PREDICATEx-y;/*定义敏感词集间的关系*/

PAGESSample {Definewebsite}/*定义抓取网页的范围*/

SELECTx-yfromSample;/*定义输出*/

OUTPUT;/*以XML输出结果*/

例如,在分析“社会环境”中“经济收入”影响因素时,人工识别的敏感词集CONCEPT (income) ={“收入”,“工资”,“薪水”,“生活费”},以此为种子进行定向抓取和同义词扩展后,得到CONCEPT (income)={“收入”,“工资”,“薪水”,“生活费”,“平均收入”,“平均生活费”,“经济”,“物质”,“生活必需品”,“饮食质量”,“伙食费”,“平均工资”,“平均薪水”,“可支配收入”,“可支配工资”,“可支配薪水”,“生活用品”}。

上述半自动学习过程只完成了敏感词的识别,而在社会稳定信息挖掘时,需要描述敏感词的变化趋势。例如,在“社会环境”方面需要分析“经济收入”相关敏感信息的变化。这里同样利用半自动学习方式构造表示状态变化的动词集,即CONCEPT (income-v)={“低”,“下降”,“减少”,“下滑”,“降”,“回落”,“低落”,“低下”,“没有”,“不够”,“拮据”}。

为了实现精确的语义匹配,同时避免复杂的汉语语法分析,本文利用“词同现”定义敏感词与变化趋势词之间的谓词修饰关系。函数PREDICATESE1(income n1, income-v v1){ dist_15(n1,v1);}表示在相距15个词(一句话的平均长度)之内,来自集合income的词与来自income-v词之间构成了主谓关系,描述了一种影响社会稳定的因素。这种基于距离定义的匹配方法在两个集合之间形成了|income|×|income-v|映射,提高了规则的覆盖范围,客观上能够达到利用同义词扩展提高召回率的效果。

3.2知识发现层

知识发现层实现社会稳定形势的理论与量化建模,并根据模型指导文本挖掘层实现规则提取与知识发现。

3.2.1社会稳定指数理论模型

李育全[3]认为影响边疆民族地区社会稳定的主要因素是“新型社会利益群体形成过程中的利益摩擦,社会资源再分配导致的利益悬殊感的缓慢累积,以及利益诉求和利益表达的非理性行为”。通过实证分析,发现影响社会不稳定的因素具有多元化特征,包括了经济、就业、社会保障、物价、利益、政治、民族、文化、宗教、敌对势力的渗透、突发事件、征地拆迁等多方面问题。本文通过进一步分析、研讨与社情考察,认为社会稳定指数(SI)是社会稳定因素(SE)、民族和谐因素(NH)和幸福指数(HI)的线性组合,如公式(1)所示:

SI=αSE+βNH+γHI

(1)

其中,社会环境SE=α1RP+β1SP+γ1EQ+…,定义为多种与社会环境相关的要素的组合。RP、SP、EQ、…分别表示贫富分化、社会治安、就业问题等要素。

民族和谐NH=α2R+β2HP+γ2LS+…,定义为多种与民族团结相关的要素的组合。R、HP、LS、 …分别表示宗教、境外势力渗透、生活方式等要素。

幸福指数HI=α3IC+β3SG+γ3EnQ+…,定义为多种与幸福生活相关的要素的组合。IC、SG、EnQ、…分别表示可支配收入、社会保障、环境质量等要素。

3.2.2影响社会稳定的因素分析

社会稳定指数受许多因素影响,为确定哪些因素比较重要,本文设计了“社会稳定影响因素”调查问卷,并于2013年3月~4月,分别在高校、企业、街头展开随机抽样调查,共发出问卷500份,收回500份,被调查对象涉及少数民族187人、汉族313人,其年龄分布、职业分布和学历分布见表1~表3。

Table 1  Age distribution of survey participants

Table 2  Career distribution of survey participants

Table 3  Education background distribution

对收回的问卷进行统计,列出影响社会稳定的社会环境、民族和谐和幸福指数相关因素如表4~表6所示。

Table 4  Social environmental factors that affect social stability

Table 5  National harmony factors that affect social stability

Table 6  Happiness factors that affect social stability

3.2.3社会稳定指数的量化计算

在进行“社会稳定影响因素”问卷调查时,我们要求被调查对象根据个人体验将各类别中的因素按照对社会稳定形势的影响程度由大至小排序,对于每类因素中的项目,同样按照影响程度由大至小进行排序。然后根据统计结果计算各因素对社会稳定的影响系数ai。对于某一类因素,假设其排在第一位的数量为x1,排在第二位的数量为x2,…,排在第m位的数量为xm,则:

(2)

根据公式(2),可得到对模型参数的粗略估计,更准确的模型参数需要利用实际实验数据来确定。我们从边疆省份选定了一批网站进行抓取和分析,经过筛选和比较,从中选择出新闻内容量大、更新频繁、具有代表性的网站作为抓取数据源,具体网站信息如表7所示。

Table 7  Website list for data sampling

通过对上述网站采样数据的分析,对模型参数进行验证和调整,得到稳定指数最终的计算公式如下:

社会稳定指数:

SI=0.45SE+0.35NH+0.2HI

(3)

其中,社会环境SE=0.25*income+ 0.09*employment+0.05*promotion+0.12*position+0.13*welfare+0.15*family+0.08*quality+0.13*disturbance

民族和谐因素NH=0.5*economy + 0.2*religion + 0.3*government

幸福指数HI=0.4*quality + 0.4*sequence+ 0.2*stable

3.3数据表现层

在数据表现层,以图表等可视化形式动态、直观地展示社会稳定变化趋势,并提供决策参考。可选的数据展示方式包括:

(1)折线图:根据量化分析中得到的稳定指数绘制社会稳定指数线性图,该折线图能够直观地显示一段时间内多个省份稳定形势的变化趋势。社会稳定指数变化曲线如图2所示。

(2)形势图:绘制动态地图,按日期显示不同省份的稳定指数监控情况,根据国际通用的安全级别与颜色,将稳定指数对应为不同的安全级别,在地图上为各省染色,增强视觉效果。社会稳定形势如图3所示。

Figure 2 A line chart of social stability 图2 社会稳定指数线性图

Figure 3 A situation chart of social stability 图3 社会稳定形势图

4实验结果与分析

根据论文提出的技术框架,本文实现了一个社会稳定指数分析系统原型。利用该原型系统对西藏等边疆六省进行分析,得到2013/6/5/~2013/6/9各省稳定指数变化趋势,如图4所示。

Figure 4 A social stability line chart of 6 frontier provinces 图4 2013/6/5~2013/6/9边疆六省社会稳定指数线性图

其中,吉林省稳定指数较高且变化明显,分析所抓取网页内容,发现吉林省6月3日发生了火灾爆炸事件,因此连续几天围绕该事件出现了较多报导,以下是提取的相关敏感信息:

(1)6月3日~6月5日:发生6.3特大火灾爆炸事件。

(2)6月6日~6月7日:陆续公布死亡人数。

(3)6月7日~6月8日:爆炸事件后追究责任、控制影响等新闻众多,如:“当地曾为出事工厂违规开路” 、“政府道歉后还需追责” 、“液氨高温后易造成流行病与疫病流行”。

(4)6月8~6月9日:火灾爆炸相关报道减少,高考新闻增多,稳定指数走势下降。

除火灾爆炸事件外,在此期间还统计到吉林省同时有大量影响社会稳定的新闻报道,如:“吉林长春市一地铁施工处发生施工事故”、“吉林一法院‘温馨提示’引发公众批评”、“吉林石化乙二醇出厂报价小幅上涨”、“吉林榆树高考乱象娱乐了谁”、“吉林男子行凶 见义勇为者身中多刀”、“韩企白菜价进口中国人参暴利 吉林千亿计划阻击”等。

为验证社会稳定指数计算模型的准确性,我们将6月5日~9日的评测结果与事实相比较,并对准确率进行统计,结果如图5所示。这里准确率定义为:

Figure 5 Manual evaluation accuracy of social stability of 6 frontier provinces from 2013/6/5 to 2013/6/9 图5 2013/6/5~2013/6/9边疆六省 社会稳定指数人工评测准确率

我们针对图中“云南6月7日”和“6月9日”准确率偏低进行了分析,发现是由于敏感词集增大、结构设计不合理造成的。我们对敏感词集根据语义进行了分类,优化了词集间的交叉关联,经调整优化后系统平均准确率达到73.72%。

上述实验结果说明提出的模型和技术框架能够较好地监测社会稳定形势,及时反映社会稳定状态的变化趋势。为进一步提高实用性,可在以下两方面加以改进:(1)筛选敏感信息时参考百度热词榜等资源,以提高构造敏感信息知识库的权威性;(2)加入文本的极性分析技术,以便在更细的粒度上把握公众的舆论走向。

5结束语

本文以网络新闻文本为例研究了与社会环境、民族和谐、民生幸福等主题相关的敏感信息的抓取与量化分析技术。构造了社会稳定指数量化分析模型,基于文本挖掘与精确语义匹配,实现了社会稳定指数的定量分析。针对新疆、西藏等边疆六省份指定网站的实测结果显示,本文构造的模型和系统能够较好地反映社会稳定形势,相关结果可提供给政府、公安情报部门作为参考决策依据,有效维护国家的安定团结。

参考文献:

[1]Shou Li-dan, Chen Gang, Hu Tian-lei, et al. A relevance mining method of Internet hot spot topic:China, Invention patent CN101158957[P]. 2008-04-09.(in Chinese)

[2]Li Yu-qin, Sun Li-hua. Hot-word detection for Internet public sentiment[J]. Journal of Chinese Information Processing, 2011, 25(1):48-59.(in Chinese)

[3]Li Yu-quan.Analysis of social stability influence factors in frontier ethnic areas[J]. Heilongjiang National Periodicals, 2010(1):36-43.(in Chinese)

[4]Tang Xiao-jing, Yang Peng-fei. On evaluation model for Chinese citizens happiness index[J]. Journal of Anhui Science and Technology University, 2012, 26(2):61-65.(in Chinese)

[5]Gong Chun-zi.How to build the index system of GNH [J]. Journal of Eastern Liaoning University (Social Sciences), 2006, 8(6):84-87.(in Chinese)

[6]Kang Jun. The meaning and measurement of happiness [J]. China Statistics, 2006, 2006(9):18-19.(in Chinese)

[7]Liao He-ping, Cao Han-lin. Social psychological mechanism produced by group events and its countermeasures[J]. Innovation, 2009(1):83-87.(in Chinese)

[8]Qiu Zhong-hui. A social psychological foundation analysis on network public opinion in massive incidents [J]. Journal of Guizhou Province Committee Party’s School of C. P. C. 2011(3):82-85.(in Chinese)

[9]Zhu Qing-fang. A comprehensive evaluation on index system of the harmonious development in economic society[R]. Society of China Analysis and Forecast, 2007.(in Chinese)

[10]Song Li-na, Appleton S. An empirical investigation into social discontent in urban China[J]. China Economic Quarterly, 2007, 6(4):1339-1358.(in Chinese)

[11]Hu Lian-he, Hu An-gang, Wang Lei. An empirical analysis on the changing situation in social unstable factors [J]. Discovery, 2007(6):105-114.(in Chinese)

[12]Yan Yao-jun. The measurement of the social stability and the construction of presentiment management system[J]. Sociological Studies, 2004(3):1-10.(in Chinese)

[13]Li Jia-jing, Li Xiao-ming, Meng Tao. TML:A universal and efficient language text mining[J].Journal of Computer Research and Development, 2015,52(3):553-560.(in Chinese)

参考文献:附中文

[1]寿黎但, 陈刚, 胡天磊, 等. 互联网热点主题相关性挖掘方法:中国,发明专利CN101158957[P].2008-04-09.

[2]李渝勤, 孙丽华. 面向互联网舆情的热词分析技术[J]. 中文信息学报, 2011, 25(1):48-59.

[3]李育全. 边疆民族地区社会稳定的影响因素分析[J]. 黑龙江民族丛刊, 2010(1):36-43.

[4]唐晓静, 杨鹏飞. 我国居民幸福指数评价模型[J]. 安徽科技学院学报(社会科学版), 2012, 26(2):61-65.

[5]宫春子. 幸福指数指标体系的构建[J]. 辽东学院学报, 2006, 8(6):84-87.

[6]康君. 幸福涵义及度量要素[J]. 中国统计, 2006, 2006(9):18-19.

[7]廖和平, 曹汉林. 群体性事件产生的社会心理机制及对策探究[J]. 创新, 2009(1):83-87.

[8]邱中慧. 群体性事件中网络舆情的社会心理基础分析[J]. 中共贵州省委党校学报, 2011(3):82-85.

[9]朱庆芳. 经济社会和谐发展指标体系综合评价[R].中国社会形势分析与预测, 2007.

[10]宋丽娜, Appleton S. 对中国当前城市社会稳定性的实证研究[J]. 经济学, 2007, 6(4):1339-1358.

[11]胡联合, 胡鞍钢, 王磊. 关于我国社会不稳定因素变化态势的实证分析[J]. 探索, 2007(6):105-114.

[12]阎耀军. 社会稳定的计量及预警预控管理系统的构建[J]. 社会学研究, 2004(3):1-10.

[13]李佳静, 李晓明, 孟涛. TML:一种通用高效的文本挖掘语言[J].计算机研究与发展,2015,52(3):553-560.

王伟(1972-),男,河北唐山人,博士,副教授,CCF会员(E200018182M),研究方向为网络信息处理和信息安全。E-mail:wjwangwei@pku.edu.cn

WANG Wei,born in 1972,PhD,associate professor,CCF member(E200018182M),his research interests include Web information processing, and information security.

李佳静(1979-),女,黑龙江大庆人,博士,讲师,研究方向为文本挖掘和信息安全。E-mail:lijj@cumtb.edu.cn

LI Jia-jing,born in 1979,PhD,lecturer,her research interests include text mining, and information security.

瓮佳佳(1987-),女,河南息县人,硕士,助教,研究方向为信息安全。E-mail:wj-wengjiajia@163.com

WENG Jia-jia,born in 1987,MS,assistant,her research interest includes information security.