网络灰色信息智能获取与分析
2016-07-25王慧,王宇,张民,张钰
王 慧, 王 宇, 张 民, 张 钰
(中国人民公安大学网络安全保卫学院,北京 100038)
网络灰色信息智能获取与分析
王慧,王宇,张民,张钰
(中国人民公安大学网络安全保卫学院,北京100038)
摘要网络灰色信息多属于互联网上离散分布的半公开化潜在数据资源,通过总结网络灰色信息的价值性与综合特征可知,依靠常规搜索引擎较难获得可用性高的灰色信息资源集。为获取更宽泛的网络灰色信息存在轨迹,提出了以广度优先搜索为主的信息爬取技术架构并建立索引数据库,在此基础上,将语义相似度与置信度约束融入主题关联二次搜索,以获得理想挖掘结果;网络信息流强度概念的引入,揭示出网络媒体资源对社会决策的影响程度,并在股票涨跌幅与网络关注度的关联实例中得到验证。
关键词灰色信息; 智能获取; 信息相似度; 关联分析
0引言
随着大数据分析处理技术与网络通信技术的有机融合,互联网上信息资源的数量与种类瞬间激增,同时,搜索引擎技术的发展使信息的获取在数量上变得相对容易,但信息的有用性筛选却变得相对复杂,尤其对网络分布较为分散的数据结构。一般情况下,网络信息资源的获取方法决定着其合法性,互联网上的主流信息是白色信息,该类信息具有公开发行的明确行政版权或个人署名权,可在不侵犯著作权的情况下自由流通;而通过主动攻击等非法手段窃取的商业秘密、军事情报等资料称为黑色信息,属于网络禁止流转的信息;除网络白色信息与黑色信息之外,互联网上仍然存在大量灰色信息,这类信息从不同的视角涉及到社会生活的各个方面,无明确的所有者,不向全网公开,仅在一定范围内流通,属于互联网上的边缘信息,主要表现为互联网上广泛分布的未具有公开发行版权的各类电子资料、实时新闻报道、企业内部公共信息资源等[1]。根据现有的法律制度,网络灰色信息的搜集是正当合法的,对网络灰色信息的合理使用将对商业企业的经营运作、政府机关的管理决策制定具有重要的辅助借鉴作用。
灰色信息在互联网上离散分布,目前针对网络灰色信息的常规获取途径主要有:使用搜索引擎平台筛选有用信息、通过行业人际关系网及人员流动获取内部资料、利用灰色文献资源等。但是,现有的获取手段也存在以下问题:
(1)由常规搜索引擎可以获得的信息数量较大,但搜索结果中信息间的相关性分析较少涉及,易造成部分关联信息的缺失;
(2)仅利用内部人员及灰色文献可取得的资料在数量上不占优势,单条信息的可信度较低;
(3)容易忽略网络文库、网络论坛等动态资源,导致分析结果的时效性较差。
由于大量网络资源的综合分析可有效提升信息的可靠程度,鉴于网络灰色信息的数据分布特征,为扩大网络灰色信息的有效搜索利用范围,将网络白色信息的组合分析结果也作为灰色信息的一种存在形式,并结合广泛存在于网络环境的半公开化灰色信息资源[2],提出在广度优先爬取的基础上进行主题关联二次搜索的灰色信息提取策略,该方法在信息爬取过程中更强调搜索结果间的相关性,并可动态加入内部资料强化信息的可靠度,增加了情报信息提炼过程的灵活性;引入中文信息的语义相似度、置信度及网络信息流强度约束,可有效解决信息筛选的滞后性问题,提高挖掘分析结果的可用性,从而为经营决策提供数据依据。
1网络灰色信息的基本特征
根据网络灰色信息的获取途径不同,可分为直接资源与间接资源两类,直接资源是分布于互联网上与特定主题相关的未公开或者局部公开的潜在信息,具体表现为企业内网公开资料、网站文库、个人网页、学术论坛、会议论文、开源代码解析等显性资源;间接资源是指需通过特定途径访问内部人员获得的一手资料,如非商业秘密的企业内部未公开信息,也可以是通过各种公开白色信息的收集和综合分析所得出的结论,属于借助网络流转的隐性资源。网络灰色信息常具有以下特征。
(1)边界模糊性:所有互联网上未公开发行的电子资源以及通过合法途径获取的内部资料均属于网络灰色信息范畴,随着互联网信息资源的无上限扩充,网络灰色信息的涉及面更加宽泛,与其它信息资源的界限将越来越模糊;
(2)发布自由性:伴随网络对日常社会行为影响的深入,将导致灰色信息在互联网上的发布时间与地点更加随意,且存在时效更短,如各个论坛中对某特定网络行为的评论、对访客提问的线上回答、开源信息的实时上传等都具有时空随机性;
(3)分布隐蔽性:商业企业的内部资料在网络灰色信息中占据很大比重,这类信息属于内部人员占有的受限访问资源,多分布于商业企业内网的部门分支网页,一般通过公用外网很难获得,在通用搜索引擎页面的出现率也较低,网络分布较为隐蔽,需要通过特定渠道才可获得,但其对商业企业特定经营状况的分析具有重要作用,可信度较高;
(4)归属不明性:有些网络灰色信息的所有权并不属于发布者,也不属于特定个人,如实事报道信息、企业动态公告等,有些网络灰色信息是具有历史沿袭性的集体成果,如商业企业的内部管理制度、用户的使用注册状况等,这类信息的所有者不明确,容易出现在各大知名网站的文库资源中;
(5)收益明显性:网络灰色信息形式多样,获取相对困难,如与企业经营相关的信息既包含单位团体信息的动态报道,也包括员工个人发布的信息资源等,该类信息属于隐性资源,需由专门特定途径收集,但其情报参考价值性更高,将该类信息融入网络直接资源集进行综合挖掘分析,结果往往可以更加真实地反映出所关注企业的经营现状,有利于科学决策的制定,为经济活动带来更大效益。
总之,由于网络灰色信息的分散分布及网页文件的非结构化特点,为了收集与研究内容相关的高可信度有效资源,对灰色信息的挖掘分析策略须不同于常规白色信息的搜索引擎技术。
2网络灰色信息智能获取架构
网络灰色信息多分布于需要特定认证渠道才可获得的半公开化资源,普通搜索引擎只可得到局部信息或其镜像链接文件,这些信息索引在网络分布广泛,但彼此关联性较差,因此,针对某一主题的灰色信息爬取需广度搜索优先并辅之以主题关联挖掘分析,网络爬虫可完成广度优先搜索。
网络爬虫是一针对网页信息可自身设定规则并实施抓取动作的程序。爬虫程序根据网页文件的URL(Uniform Resource Locator,简称URL)解析并提取网页信息,首先建立URL队列,信息爬取过程不断地提取网页中蕴含的新URL加入更新队列,当本页面爬行完毕之后,按照先进先出的原则从URL队列中获得下一爬取目标的URL继续,最终达到对整个网站链接内容的抓取[3]。
网络灰色信息在网页上的分布属于浅层信息,为在短时间内获得较好的数据抓取效果,其爬行算法宜采用广度优先搜索策略,智能获取的技术架构如图1所示。
图1 网络爬虫技术架构图
系统通过爬虫获得网络灰色信息,建立索引,存入数据库,为后期数据关联分析做准备。
3网络灰色信息主题关联分析
网络直接灰色信息源具有强时效性,多来自网络广泛分布与关注点有一定联系的各类信息资源,包括网络实时新闻、在线学术研讨、开放聊天室记录、网络专题论坛、BBS、数字图书馆、网站文库资源、专用内网资源等,这类信息主要以网页文本形式存在,属于非结构化或半结构化信息,网络灰色信息关联挖掘分析的主要目的在于获取与关注点密切相关的各类情报资料,期望挖掘结果中各文本空间的特征主题词间具有较强关联性。同时,相对于网络空间广泛分布的白色信息而言,灰色信息属于较低分布率的资源,常规搜索引擎的关键词模糊匹配规则,仅对与所输入关键词匹配程度较高的网页文件重点关注,并在输出结果中前置,而对网页中所包含的与主题具有关联性的其他高频词不进行二次匹配搜索,容易造成部分重点灰色信息的关注缺失。
网络灰色信息的主题关联分析是在信息挖掘过程中融入语义相似度与置信度概念,首先对所挖掘的主题相关信息进行中文特征值的抽取,根据给定的语义相似度与置信度阈值,按照正态分布规律将过高匹配率的网页去重,过低匹配率的网页作为孤立点单独处理,仅对较高频出现的关联关键词进行二次搜索,最后输出选定网络灰色信息的链接结果。与网络灰色信息主题关联分析相关的语义相似度与置信度定义如下:
定义1中文信息的语义相似度用于表征网页文本di与dj间蕴含信息的相近程度,由各网页文本的特征值间的距离Similarity(di,dj)度量,简记为Sim(di,dj),
(1)
定义2定义在网页文本特征集合簇T上,形如T1⟹T2关联规则的置信度是指包含特征值子集T1和T2的网页文本数与包含T1的文本数之比[4],即
Confidence(T1⟹T2)=Support(T1∪T2)/Support(T1)
(2)
其中,Support(Ti)=‖{d|Ti∈d,d∈D}‖/‖D‖,为特征值子集Ti的支持度[5],代表了文本特征值子集的信息强度,是包含Ti的网页文本数占总文本数的比值,且T1,T2⊆T,T1∩T2=∅。
根据上述定义及网络灰色信息首次爬取时所建立的索引信息库,网络灰色信息主题关联分析步骤如下。
步骤1:将网页视为一文本空间,根据首次网络信息爬取过程中所建立的主题索引对各个网络文本空间抽取特征值,同时加入内部资料对应特征子集,形成网页主题特征集合簇T;
步骤2:根据各文本特征集Ti,由公式(1)计算各网页文本空间的语义相似度;
步骤3:结合网络灰色信息的数据分布特点,按照正态分布规律设定语义相似度范围,将过高相似度文本空间只保留一项,重组网页文本特征集合簇T,新集合簇记为T′,计算T′上的相对最大频繁项集;
步骤4: 设定置信度阈值,由公式(2)对网页文本特征集合簇T′进行关联分析,获取强关联规则集[6];
步骤5: 以强关联规则的后件为新网络主题进行二次搜索匹配,并根据对挖掘内容精度与广度的要求重复步骤1~5,直至不满足语义相似度与置信度阈值限制;
步骤6:输出满足条件的网络灰色信息存在路径。
按照上述步骤在网络灰色信息主题关联分析的过程中,考虑网页文本的复杂多样性,网页文本特征集合簇T是一允许重复项存在的集合族,根据对网络灰色信息的获取强度要求对网页文本特征值集的最大频繁项进行二次搜索,以获得尽可能多的灰色信息资料,其他途径获取的隐性内部资料视需求情况适时融入网络文本空间,以提升分析结果的可信度。
4网络灰色信息智能分析实例验证
在互联网空间探寻可用灰色信息时,由于所访问的网页内容之间具有超链接关联,因此在信息广度爬取的过程中采用滚动主题关联分析,可以将更多的有效内容在搜索结果中前置。在搜索结果中,根据给定的支持度阈值,特征集合簇T上的最大频繁项集在网页文本空间中出现的频率最高,其信息分布强度可以表征对锁定主题的网络关注热度,考虑网络灰色信息的高时效性,网络信息流强度定义如下:
定义3网络信息流强度是指单位时间内根据给定支持度阈值,文本特征值集合簇中的最大频繁项目集Tmax在主题网页集中出现的频度。
(3)
为验证上述挖掘步骤的有效性以帮助用户获得高时效的推荐灰色信息集,随机抽取上市公司A,爬取与其相关的网络信息流,分析公司A的股票交易价格波动与网络信息流强度之间的关系。
首先,设定信息分析周期为两周(10个工作日),每天实时收集公司A相关的网页文本信息,构造文本空间特征集合簇T进行主题相关性分析,由所获网络信息存在路径可知,第一金融网、和讯、新浪财经、东方财经、财经股票博客、公司A企业网站等网页链接对网络信息流分析的贡献较大,为提高数据分析的可靠度,将公司A的企业内部财务管理制度、企业内部持股人状况及季度财务报告融入数据源,分析结果如图2所示。
图2 网络信息流强度与股票涨跌幅关系
由图2可知,股票涨跌幅度受网络信息流强度的影响较大,在网络信息流强度值较大的日期,公司A的股价波动较小,但延迟1~2天后,股票涨跌幅度起伏性变化较大,说明股价与网络信息流强度具
有相对正向波动,且有明显滞后性,反映出网络股评舆论信息及股民网络关注度对股价的影响。
5结论
网络灰色信息既包含无明确归属的文献资源,也包含半公开的网络文库资源及内部资料,其有效获取与分析手段与常规网络关键词搜索略有不同,信息抓取过程更强调以关键词为依托的广度搜索,挖掘分析过程更注重主题特征值间的相关性度量,在网络灰色信息搜索过程中融入关联分析技术,可扩大有效挖掘范围,并给出灰色信息的网络存在轨迹,为网络灰色信息的后期高效利用奠定数据基础,提升灰色信息的可用性。网络信息流强度概念的引入可有效度量网络空间的媒体影响力,并在上市公司股价波动与网络信息流强度的相关性分析中得到验证。
参考文献
[1]史致远.浅谈网络灰色信息的界定和利用[J].常州信息职业技术学院学报,2006,5(1):16-18.
[2]王成,段福兴.企业竞争情报中灰色信息的价值及其获取渠道[J].山东理工大学学报:社会科学版,2006,22(4):28-30.
[3]CHAN D H,PANDIT S,WANG S,et al.Parallel crawling for online social networks[C]∥Proceedings of the 16th international conference on World Wide Web,2007:1283-1284.
[4]张涛,周爱武,谢荣传.基于概念格和关联规则Web个人化系统[J].计算机技术与发展,2008,18(2):139-142,158.
[6]毛国君,段丽娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2007.
(责任编辑于瑞华)
中图分类号D035.31
基金项目中国人民公安大学2015年度中央高校基本科研业务费项目“网络灰色信息智能分析技术及相关法律问题研究”(2015JKF01113)。
作者简介王慧(1973—),女,内蒙古人,博士,副教授。研究方向为网络安全与执法、数据挖掘。