空难事故跨媒体信息采集与检索方法的研究
2016-06-14葛炜琦贺蜀川林海舟蔡蕤王红
葛炜琦+贺蜀川+林海舟+蔡蕤+王红
摘要:针对民航空难事故信息来源广泛,数据形式呈现多样性,信息检索不方便的问题,提出了基于J2EE的空难事故跨媒体信息管理的设计思路。采用webmagic实现了跨媒体数据的采集,运用Maven与Java开发工具,实现了空难事故信息从数据层到应用层的存储与检索,有效解决了以文本、图像和视频等单一媒体表现形式描述民航空难事故信息的不足,为航空安全事故的关联分析提供了技术支持。
关键词:民航空难事故;跨媒体信息采集;数据存储;信息检索
中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2016)12-0006-04
Abstract :According to the problems of the wide range of information sources, the diversity of data forms and the inconvenience of information retrieval, the design ideas of cross media information management based on J2EE is put forward.Using webmagic to achieve cross-media data acquisition,using Maven and Java development tools,storage and retrieval of information from data layer to application layer is realized, effectively solve the insufficient description of civil aviation accident accident information in single media forms like text, image and video and so on, provide technical support for the analysis of the relationship of aviation safety accidents.
Key words : civil aviation accident; Cross-media information collection;data storage;Information retrieval
1 概述
航空安全一直以来都是人们关注的焦点。随着信息获取、存储和传播技术的飞速发展,网络多媒体资源迅猛增长、多媒体类型及结构日趋复杂化,民航空难信息呈现出多源异构、关联性高、时效性等复杂特征,其内容跨越了文本、视频、图像等多种信息形态,并涉及不同信息源对事件的不同评论等多种属性。“9.11”恐怖事件以来,特别是2014年马航MH370等一系列航空不安全事件引起了全球公众对航空安全更高的要求。基于跨媒体的民航空难事故数据采集、数据存储与检索方法的研究成为了民航空难信息管理与应用研究的热点问题。
2 系统设计
2.1系统架构设计
系统设计分为数据层和应用层。数据层作为最低端为整个管理系统提供数据信息的服务,以JBoss网络服务器为基础,使用网络爬虫的技术把在各个主流民航类网页上的空难事故信息采集下来,以编码的方式对数据进行组织,并存储在数据库中,以便为应用层的信息检索提供服务;应用层作为整个架构的核心层次,在Web服务器上利用webmagic技术采集信息,并对信息进行加工处理;为各种角色的用户提供服务,用户可更加快速准确地查找自己需要的信息。整体框架图如图1所示。
3 信息采集与存储
3.1跨媒体数据的分析与组织
根据民航局对突发事件采取应急措施的相关规定,在对跨媒体空难事故信息的构成进行了详细分析的基础上,采用了信息编码的方法描述跨媒体基本信息,编码设计如图2。
其中:
1) 第 0-7 位,表示事故发生日期 。
2) 第 8-10 位,表示事故发生地,编号方式按照中国居民身份证的编号方式设计,如北京为101,天津为102。
3) 第 11-12 位,表示事故类型,编码方式根据《民用运输机场突发事件应急救援管理规则》的相关规章制度设计,一共13类,如01表示航空器失事,13表示航空器空中出现故障。
4) 第 13 位,表示伤亡程度,从1到6的伤亡程度逐渐加重,如1表示轻伤事故,2表示重伤事故。
5) 第 14 位,表示跨媒体信息属性,其中1表示文本信息,2表示图片信息,3表示视频信息,4表示链接信息。
依照此数据组织形式编写事件id,作为空难事件的唯一标识,根据各事件的基本属性,建立空难事故信息表。
对已保存在本地磁盘上的多类型数据,上传至服务器指定的存储路径,统一进行分类管理。对非本地数据文件采取链接调取的存储模式,即在数据库内保留其网络链接地址,通过互联网进行更广泛的搜索。
3.2 数据库的设计
数据存储使用MySQL数据库,E-R图如图3所示。
3.3 数据的下载与存储
1)基于webmagic的数据采集
在信息采集与存储模块,先进行网页信息的采集,为提取和存储多类型的数据提供基础。
webmagic是一个无须配置、便于二次开发的垂直爬虫框架。本系统使用webmagic结合Java的方式进行信息采集,使用Page对象的addTargetRequests()方法添加URL到抓取队列,getHtml()方法获取网页信息,实现Page对象的操作实现爬虫逻辑;Site对象可以定义爬虫的域名、起始地址、抓取间隔、编码等信息。在需要采集的页面中,针对链接地址的不完整,或者是不符合主题,需要使用XPath提取关键信息和正则表达式进行匹配。利用正则表达式进行页面筛选,URL过滤,减少对不必要网页的保存,提高网页内容分析和信息分类存储的效率。
进行信息采集的数据源包括主流的新闻媒体网站如中国新闻网、环球网等,从这些网站体现跨媒体的跨源特性,以及与民航相关的国内外网站如中国民用航空安全信息网、民航网等,从这些网站来获取空难事件的基本信息。
在信息采集模块,先选取了三个网站(中国民用航空安全信息网、民航网、民航安全科学研究所网站)进行空难事件基本信息的采集(包括文本、图片、视频信息),之后再扩展主流媒体网站进行信息采集。这个模块属于基于固定主题的web信息采集,使用MySQL数据库进行网页信息的存储。采集过程比较简化,使用与主题符合程度非常高的种子URL集,从而削弱了计算优先级的策略的使用问题。首页展示部分使用基于源搜索的信息采集方法,得到的信息丰富综合并来源较广。采用深度采集策略,通过URL重度检测服务,从网址列表里选取未被访问的网址作为爬虫的起始地址,开始爬虫后,保存当前网页,获取当前网页上符合条件的链接,然后根据这些链接进一步爬取,直到最后一层。采集过程流程图如图4。
2)文本信息的存储
在数据库中根据提取的关键信息设定表格字段。对于爬取到的页面,根据关键字进行正则匹配,提取关键信息并存入数据库。
3)图片信息的存储
根据爬取页面的URL,获取图片地址。在具体图片页面,下载其HTML页面,根据图片地址下载图片到本地。
4 信息检索
4.1 检索方法与实现过程
通过对字符编码中不同位置的数字的提取,扫描匹配相应数据库中内容进行解析,来获取空难事故的基本信息描述。系统接收用户输入的检索关键字段放入session缓存机制中缓存,再扫描数据库中空难事故信息表,通过关键字段进行匹配检索找到空难事故的事故编码ID。将获取到的空难事故的事故编码ID提出进行缓存,从空难事故编码字符串中提取指定位置的字符子串,分别截取 14 位数字编码中的对应位置的字符编码进行解析,再到对应的表中获取相关基本信息。
在同一个检索结果显示的界面上,不同的位置绑定不同的媒体信息数据源,将所有与检索的某个空难事故相关的信息整合到一起,从而显示不同媒体不同类型的关于同一个空难事故的所有信息。
4.2实现效果与分析
将空难事故发生的时间和原因等属性做了分析统计,以柱状图显示,直观明了,为后续的空难事故间的关联性分析提供直观清晰的数据依据。空难事故信息的统计分析过程:
SelectCommand="SELECT convert(varchar(4) , accidentdate , 23) as year,count(id) AS count FROM AircraftInformationSearch_accident group by convert(varchar(4), accidentdate , 23);
空难信息的统计分析界面如图7、图8所示。
5 结论
本文论述了空难事故跨媒体信息采集与检索方法的研究过程,提供了在信息采集和检索中运用的相关技术和方法。采用J2EE技术平台,运用Maven和Java开发工具,实现了将空难事故结合跨媒体进行管理,摆脱了单一媒体信息的局限性和片面性,为实现空难信息的关联分析提供了有效的数据支持。
参考文献:
[1] 杨毅,王胜开,陈国顺,徐为群,黄鹤云.跨媒体信息技术与应用[Z].电子工业出版社,2014.
[2] 王锦超. 跨媒体检索技术的研究[D].山东农业大学,2013.
[3] 中国民航科学技术研究院. 2011 中国民航不安全事件统计分析报告[Z].北京:中国民用航空局航空安全办公室,2012.
[4] CCAR-139-II-R1,民用运输机场突发事件应急救援管理规则[S].北京:中国民用航空局,2011.
[5] 张鸿. 基于相关性挖掘的跨媒体检索研究[D].浙江大学,2007.
[6] 宁晓. 突发事件跨媒体信息检索系统的研究与实现[D].北京:北京邮电大学,2012.
[7] 张鸿,吴飞,庄越挺,陈建勋.一种基于内容相关性的跨媒体检索方法[J].计算机学报,2008,31(5).
[8] Buning M D C. Towards a Future-Proof Framework for the Protection of Minors in European Audiovisual Media[J]. Social Science Electronic Publishing, 2014, 10(5).