寻找地震相关区域的词频共现分析方法
2014-09-15胡明生贾志娟吉晓宇
胡明生,贾志娟,吉晓宇,洪 流
(1.郑州师范学院软件研究所,河南 郑州 450044;2.华中科技大学系统工程研究所,湖北 武汉 430074)
寻找地震相关区域的词频共现分析方法
胡明生1,2,贾志娟1,吉晓宇1,洪 流2
(1.郑州师范学院软件研究所,河南 郑州 450044;2.华中科技大学系统工程研究所,湖北 武汉 430074)
地震的地区相关性反映出一定地理位置上地震发生的规律性,寻找中国震区之间的相关性规律可以提前预测地震发生的区域。以中国历史地震灾害数据库为平台搭建共现分析模型,首先将地震区域以熟知地名进行划分,在此基础上改进原有Salton模型,提出一种基于修正Salton指数的共现分析方法,使用修正后的共现分析方法求解地震区域间的关联度。实验表明,该修正Salton模型能更准确地反映关联度。
地震区域;词频共现;Salton指数;相关性
1 引言
在地震预报科学中,专家们经过长期的观测研究和经验积累发现,某些地区大范围的地震活动往往同时趋于平静,即一定区域上的地震活动有同步涨落现象。在一定距离的两地区中,某些特定震级以上的显著地震相伴发生的现象称为地震的相关现象,也称为地震的地区相关性[1]。
目前灾害预测模型的研究主要集中在历史灾害相关度模型,而将所有时间、空间以及灾种等因素都综合起来的复杂网络模型的研究就显得异常艰难。现有的灾害预测模型包含神经网络模型[2]、基于复杂网络的时空灾害模型[3]以及基于相关度的灾害预测模型。
地震的地区相关性反映出一定地理位置上地震发生的规律性。因此,寻找中国震区之间的相关性规律可以提前预测地震发生的区域,这也是一种常用的地震预报方法[4]。传统的震区相关性分析都是通过一定的自定义模型建立起一套适用于震区相关性模型的算法体系,研究过程繁琐,表现方式不直接。使用共现分析对中国震区相关性进行研究,能够使震区之间的相关性表现得一目了然,并且减少地震预测的工作量和周期。本文将中国的震区以省为单位进行划分,然后以历史地震灾害数据库为数据来源,建立历史地震灾害地区关联度模型,通过使用两种相对关联度指数Jaccard指数和Salton指数的评估方法,实现中国震区间的关联性鉴定,对地震灾害区域的预测有很大的推进作用。
2 网络关联度模型
2.1 网络模型的建立
首先,假设网络中有N个对象,各个对象的名称都是确定且唯一的,开始时并不知道任何信息,让任意两个对象之间都以虚线双向链接,如图1a所示。然后,通过查询历史上对象之间发生的联系,或文献总结,可以将确定构成有关联的对象的边变成实线,如图1b所示。最后,将不可能同时发生关联的对象之间的线去掉,无法确定的边仍保留虚线的状态,这时地震区域网络就建立起来了,如图1c所示。
Figure 1 Establishment of correlation degree network model图1 关联度网络模型的建立
2.2 关联度的计算
可以使用数学语言对网络中各个节点之间的关联度进行定义:
Figure 2 Correlation degree network model图2 关联度网络模型
定义2 (节点的度)网络中某节点的度,是该节点所关联的所有边的权值总和。度数为0的点称为孤立点。也就是说网络中没有任何节点与该节点相关。
例如,图2中节点A1的度为A1-B1,A1-B2,A1-C2,A1-C1的所有关联度的总和,即节点A1的度为:
定义3 (关联矩阵)一个具有v个顶点和e条边的网G的关联矩阵Av是v×v阶矩阵,每个节点对应矩阵相应的行和列,即:
Av=[aij],1
其中,aij表示顶点vi与顶点vj之间的关联度:
其中,en表示相应两个节点的关联度,所以en≤1恒成立。
例如,图2网络的关联矩阵A7为:
A1B1B2C2D1A2C1
3 地震区域网络关联度分析
3.1 构造共现矩阵
本文的数据来源于中国九个朝代的地震记录数据库,该数据库是目前历史灾害记录数据库中数据量最大的地震灾害数据库,分为九个朝代:明朝、南北朝、秦汉、清朝、宋朝、隋唐五代、魏晋、先秦、元朝,每部分都记录相应的地震灾害记录,以及相关地震。主要以某次确定的地震事件为单位来记录九个朝代的地震情况,记录中包含地震时间、地震地点以及相关的已发生地震,主题包括具体的日期、地点、记录内容[5]。
共现矩阵的构造方法:将45个地震区域关键词两两作为中国九个朝代的地震记录数据库的“相与”检索内容可以得到一个45×45的对称方阵,截取方阵的一部分如表1所示。
Table 1 Co-occurrence matrix
3.2 相对关联度计算
从共现矩阵反映的两两共现频次,其实只是一种表象,因为共现次数同样要受到两个词各自的频次影响,因此,若要正确反映两个震区之间地震事件的关联性大小,就需要将共现矩阵转化为相关系数矩阵,才能揭示地震区域间地震事件的关联性结构分布[6]。
本文采用Jaccard指数和Salton指数评价地震区域间的共现率。Jaccard指数的计算公式为:
(1)
其中,Jij表示主题词i和j的共现率,且0≤Jij≤1,cij表示主题词i和j的共现频次,ci表示主题词i的频次,cj表示主题词j的频次。
Salton指数的计算公式为:
(2)
其中,Sij表示主题词i和j的共现率,且0≤Sij≤1,cij、ci、cj的含义与Jaccard指数相同。通过上述公式可以得到Salton指数矩阵,见表2,表中的数据是百分数。总体上看,Salton指数也表征了45个地震区域间地震事件的关联度。
Table 2 Matrix of Salton index
3.3 修正的Salton指数
本文选取Salton指数作为评价地震区域间关联度的参数,但是通过Jaccard指数与Salton指数的比较可以看出Salton指数相对较大,因此需要对Salton指数进行修正,使用修正的Salton指数:
(3)
即:
(4)
其中,cSij是修正后的Salton指数,ΔSij是Salton指数的修正因子,Sij是修正前的Salton指数。经过修正后的Salton指数更准确地体现地震区域之间的关联度,最终的Salton指数部分如表3所示。
Table 3 Matrix of improved Salton index
在相同Jaccard指数的条件下,对修正后的Salton指数散点与原始的Salton指数散点序列进行比较得到的结果如图3所示。其中,Salton指数序列的值越小,Salton指数与Jaccard指数之间的差距就越小,在表征关联度的准确性方面,Salton指数偏高而敏感,Jaccard指数偏低而稳定,图中修正后的Salton指数明显较原有的Salton指数偏低,能更准确地表征地震区域间的相关性。
Figure 3 Comparison between improved Salton index and orginal Salton index图3 修正Salton指数与原始Salton指数的比较
3.4 仿真结果
Figure 4 Correlation degree network model of earthquake regions based on improved Salton index图4 基于修正Salton指数的地震区域关联度模型
Pajek是大型复杂网络分析工具,是用于研究目前所存在的各种复杂非线性网络的有力工具[7,8]。本文使用Pajek-2.05建立共现分析网络节点模型,模型中的每一个节点代表一个地震区域关键词,节点之间的向量标识出地震区域间关联度,也就是修正的Salton指数,其中节点所代表的地震区域与实际的地理位置无关,最后得出的结果如图4所示。
4 结束语
本文提出了一种基于相对关联特征度的地震区域共现分析法,以九个朝代的地震灾害数据库为平台,构建出以修正的Salton指数为参数的地震区域间关联度评估模型,改善了共现分析中Salton指数过高的问题,使得Salton指数能更加接近真实关联度。实验结果表明,经过修正后的Salton指数与Jaccard指数的差距明显缩小,使得使用Salton指数表示地震区域之间的关联度的方法更加可靠,对地震灾害的预测以及地理位置对地震的影响方面的研究有一定的推进作用。
[1] Wu Shao-chun, Wu Geng-feng, Wang Wei, et al. A time-sequence similarity matching algorithm for seismological relevant zones[J]. Journal of Software, 2006, 17(2):185-192.(in Chinese)
[2] Buzna L, Peters K, Ammoser H, et al. Efficient response to cascading disaster spreading[J]. Physical Review E, 2007,75(5):1-8.
[3] Lu Yun-zhong, Chen Zhang-li, Wang Bi-quan, et al. Seismology method of earthquake forecasting[M]. Beijing:Earthquake Press, 1985.(in Chinese).
[4] Lin Guo-liang, Wang Jian. Compilation of Chinese historical earthquake data by building up a database system based on seismic intensity points[J]. ACTA Seismologica SINICA, 34(1):118-124.(in Chinese)
[5] Qiu Jian-feng, Xie Juan, Li Wei, et al. Research on correlation and periodicity of moderate-strong earthquake[J]. Computer Engineering. 2011, 37(10):16-22.(in Chinese)
[6] Hu Ming-sheng, Jia Zhi-juan, Dong Xiang-ying, et al. SA-ANT:A historical epidemic classification method based on simulated annealing and ACO[J]. IJACT:International Journal of Advancements in Computing Technology, 2011, 3(11):47-54.
[7] Song Jun-qiang, Gong Xi-ping, Zhang Li-lun, et al. A block orthogonalization procedure for skinny matrices[J]. Computer Engineering & Science, 2010, 32(4):90-92.(in Chinese)
[8] Jia Zhi-juan,Hu Ming-sheng,Liu Si.Historical disaster classification method based on ant colony clustering[J].Journal of Computer Applications,2012,32(4):1030-1032.(in Chinese)
附中文参考文献:
[1] 吴绍春, 吴耿峰, 王炜,等. 寻找地震相关地区的时间序列相似性匹配算法[J]. 软件学报, 2006, 17(2):185-192.
[3] 陆远忠,陈章立,王碧泉,等.地震预报的地震学方法[M].北京:地震出版社,1985.
[4] 林国良, 王健. 基于烈度点的中国历史地震资料数据库系统试编制[J]. 地震学报, 2012,34(1):118-124.
[5] 邱剑锋, 谢娟, 李炜,等. 中强地震的相关性与周期性研究[J]. 计算机工程, 2011, 37(10):16-22.
[7] 宋军强, 龚西平,张理论,等. 细长矩阵的块正交化方法[J]. 计算机工程与科学, 2010, 32(4):90-92.
[8] 贾志娟,胡明生,刘思.基于蚁群聚类的历史灾害分级方法[J]. 计算机应用,2012,32(4):1030-1032.
HU Ming-sheng,born in 1973,PhD,associate professor,his research interest includes data mining.
A method of co-occurrence frequency analysis to find out correlations among earthquake areas
HU Ming-sheng1,2,JIA Zhi-juan1,JI Xiao-yu1,HONG Liu2
(1.Institute of Software,Zhengzhou Normal University,Zhengzhou 450044;2.Institute of Systems Engineering,Huazhong University of Science and Technology,Wuhan 430074,China)
Correlations among earthquake areas reflect the regularity of earthquakes happening in certain areas. Looking for correlations among earthquakes can forecast the earthquake areas before the disaster comes. Based on DCHED (Database of Chinese Historical Earthquake Disasters), co-occurrence analysis model is established. Firstly, earthquake areas are divided according to the well-known names. Secondly, the traditional Salton model is improved. And, based on the improved Salton index, a method of co-occurrence analysis is proposed in order to solve problems of correlations among earthquake areas. Finally, experiments are performed to prove that the improved Salton model can reflect correlations among earthquake areas more accurately.
earthquake areas;co-occurrence;Salton index;correlation
2012-08-30;
2013-01-14
国家自然科学基金资助项目(U1204703/G011202);河南省重点科技攻关项目(122102310004);郑州市创新型科技人才队伍建设工程(10LJRC190)
1007-130X(2014)03-0536-05
G254.9
A
10.3969/j.issn.1007-130X.2014.03.028
胡明生(1973-),男,河南信阳人,博士,副教授,研究方向为数据挖掘。E-mail:hero_jack@163.com
通信地址:450044 河南省郑州市郑州师范学院软件研究所
Address:Institute of Software,Zhengzhou Normal University,Zhengzhou 450044,Henan,P.R.China