APP下载

基于 Logistic 回归模型的延边地区渤海国遗址预测研究

2016-01-12董振,金石柱

关键词:延边渤海流域

*通信作者: 金石柱(1968—),男,博士,教授,研究方向为历史文化地理学与区域地理.

基于Logistic回归模型的延边地区渤海国遗址预测研究

董振,金石柱*

( 延边大学理学院 地理系, 吉林 延吉 133002 )

摘要:以延边地区的渤海国遗址为研究对象,借助GIS软件获取同遗址分布相关的高程、坡度、坡向、与河流之间的距离、与村屯之间的距离等因素值,利用Logistic回归模型建立延边地区渤海国遗址预测模型,并分析预测结果.结果表明:预测模型的预测准确率达89.7%,采用自然分裂法(Jenks)分级的高概率区面积占研究区域的14.7%.高概率区具有靠近河流分布的特点,主要分布在海兰江流域、布尔哈通河流域、嘎呀河流域、牡丹江流域、图们江干流流域等.高概率区相对比重高的地区有龙井、图们、延吉、珲春等县市,而高概率区绝对比重高的地区有敦化、汪清、珲春、龙井、安图等县市.该研究结果有助于提高渤海国考古工作效率.

关键词:遗址; 渤海国; Logistic回归模型; 预测模型; 延边地区

收稿日期:2015-04-26

文章编号:1004-4353(2015)02-0179-06

中图分类号:K878

Prediction research on Bohai Kingdom ruins in Yanbian area based on the logic regression model

DONG Zhen,JIN Shizhu*

(DepartmentofGeography,CollegeofScience,YanbianUniversity,Yanji133002,China)

Abstract:We aim to establish a forecasting model to analyze the predicting results on the Bohai Kingdom ruins in Yanbian area by using logic regression model, which gets the value of height, gradient, slope aspect, the distance from the river, and the distance from village by using the GIS. The results show that the accuracy of the prediction model reaches to 89.7%, and the highly probability region of the whole study area is 14.7% by using Jenks classification method. The results show that the distribution of the highly probability region is always near the river, which are Hailan River Basin, Buerhatong River Basin, Gaya River Basin, Mudan River Basin, Tumen River Basin etc. The highly relatively proportion of high probability region includes Longjing, Tumen, Yanji, Hunchun etc. And the highly absolutely proportion of highly probability region includes Dunhua, Wangqing, Hunchun, Longjing, Antu etc. The research result has significant influencing on improving the efficiency in archeology work in Bohai Kingdom.

Key words: ruins; Bohai Kingdom Site; logic regression model; predictive model; Yanbian area

1研究区和数据源

1.1研究区概况

延边朝鲜族自治州位于吉林省东部,地理位置为北纬41°59′47″~44°30′42″,东经127°27′43″~131°18′33″之间[7].延边地区水资源丰富,主要河流有图们江、牡丹江、绥芬河、第二松花江四大水系8条主要江河和487条大小河流[8].延边地区属于中温带大陆性季风气候区,春季干燥多风,夏季炎热多雨,秋季凉爽少雨,冬季寒冷漫长;年均气温为2~6℃,年降水量为450~700mm.

延边地区总面积约为4.27万km2,下辖延吉、图们、珲春、龙井、和龙、敦化6个市和汪清、安图2个县.延边地区是吉林省内人类繁衍历史最长的地区之一,1963年在安图县明月镇的洞穴内发现距今2.6万年前的“安图人”牙齿化石,而且在龙井、和龙、汪清、延吉、珲春等地也发现过新旧石器时期的遗址.资料显示,延边地区较早的居民主要有沃咀人、肃慎人、女真人等,高句丽、渤海、辽金、明朝、清朝等历代王朝均把延边地区作为领土的一部分进行治理,其中渤海国同延边地区的关系最为密切,它最初定都于现今的敦化市,之后在延边地区设置中京和东京,使延边地区成为渤海国的中心地之一,从而在延边地区留存了大量的渤海国时期遗址和遗物,这使延边地区成为渤海国史研究的重要地区之一.

1.2数据来源

本研究所涉及的延边地区渤海国遗址信息来自《中国文物地图集—吉林分册》[9]、《高句丽渤海

古城址研究汇编》[10]、《延吉市文物志》[11]、《图们市文物志》[12]、《敦化市文物志》[13]、《珲春县文物志》[14]、《龙井县文物志》[15]、《和龙县文物志》[16]、《安图县文物志》[17]、《汪清县文物志》[18]等文献资料.经过资料整理后共得到226处遗址,其分布情况参见图1.本文中所用的DEM的空间分辨率为30m,并利用该DEM获取高程、坡度、坡向、山脊线、山谷线等地形地貌数据.从矢量化的“延边朝鲜族自治州行政区划图”[19]中获取研究区的道路图、村屯分布图、水系图等专题图.

图1 延边地区渤海国遗址分布图

2遗址预测模型

logitP=α+β1χ1+β2χ2+…+βmχm,

由上式可得P=1/(1+e-L),该模型即为Logistic回归模型.该模型实际上是普通多元线性回归模型的推广,但它的误差项服从二项分布而非正态分布,模型中α为常数项,βi为Logistic回归系数.

2.1样本选取

本文中使用的样本是建立模型和验证模型时所需的数据.为了准确性,样本中要包含遗址和非遗址数据.遗址数据是由前述文献资料汇总而得,非遗址数据是利用ArcGIS的随机点生成工具在遗址点以外的区域中生成的随机点,然后假设这些随机点为非遗址点.

通过上述样本选取方法,在研究区域中随机选取的建模样本数量共为238个,其中遗址和非遗址数量各为119个.遗址中聚落址、山城址、平原城址、墓葬墓群、寺庙址、古建筑址、其他等遗址数量依次为49、11、21、22、4、9、3个,占整个遗址数量的52.7%.

通过同样方法获取的验证样本数共为214个,其中遗址和非遗址数量各为107个.遗址中聚落址、山城址、平原城址、墓葬墓群、寺庙址、古建筑址、其他等遗址数量依次为48、6、23、17、2、9、2个,占整个遗址数量的47.3%.遗址类型的具体分布状况如图2所示.

图2 建模样本和验证样本中遗址和非遗址点分布图

2.2模型变量选取

Logistic回归模型的因变量只有两个值,即遗址点为1,非遗址点(随机点)为0.

模型的自变量是影响遗址分布的自然因素和人文因素,在充分考虑数据的可获取性和模型建立必要性的基础上,本文选取海拔高度、坡度、坡向(方位)、与河流之间的水平距离、地形起伏度、与山脊线和山谷线之间的距离、土壤类型、植被类型等自然因素之外,还选取了与道路之间的距离、与村屯之间的距离和土地利用类型等人文因素.具体自变量及取值范围如表1所示,其中土地利用类型、植被类型、土壤类型属于定性变量,因此未给出取值范围.

表1 自变量及其取值范围

2.3Logistic回归模型

建立模型时,自变量进入模型的方法有“输入”、“向前:条件”、“向前:LR”、“向前:Wald”、“向后:条件”、“向后:LR”、“向后:Wald”等方法,为了获取预测效果最好的模型,本文对各方法下的建模样本和验证样本的预测准确率进行了对比,其结果见表2.表2表明,用“输入”方法将自变量选入模型时,其对样本的预测准确率最高.对建模样本的119个非遗址中,正确预测107个,准确率为89.92%;对119个遗址中正确预测112个,准确率为94.12%;总准确率为92.02%.对验证样本的107个非遗址中实际参与104个,正确预测92个,准确率为88.46%;对验证样本的107个遗址中实际参与101个,正确预测87个,预测准确率为86.14%;总准确率为87.32%.因此,本文最终选取“输入”方法下所建立的模型.最终回归模型为

P=1/(1+e-L),

其中L=-0.003×高度-0.017×坡度-0.001×坡向+0.025×地形起伏度+0.001×与山脊线之间的距离+…+23.654×常量(因模型参数过多,在此部分省略,具体参数见表3).

3预测结果分析

3.1不同概率区的遗址分布

基于已建立的Logistic回归模型,利用ArcGIS的栅格计算器计算研究区域的遗址分布概率图,为了分析不同概率值的分布情况,采用自然分裂法(Jenks)将概率图重新分类为低、中、高3个等级,等级越高表示遗址存在的概率越高.各概率区遗址分布和面积比如图3和表4所示.

表2 各方法对遗址样本分类结果

表3 遗址预测模型的参数

注:B为偏回归系数.

图3 延边地区渤海国遗址分布概率示意图

遗址存在概率等级遗址数量(%)面积(栅格数量)(%)低概率区17(7.5)35127114(73.2)中概率区20(8.8)5787519(12.1)高概率区189(83.6)7041938(14.7)

3.2高概率区在各流域的分布

为了更为详细地观察遗址在各河流流域的分布状况,将研究区分为图们江干流流域、松花江流域、牡丹江流域、布尔哈通河流域、海兰江流域、嘎呀河流域、绥芬河流域、珲春河流域等.将河流专题图和遗址分布高概率区重叠后发现,高概率区主要分布在布尔哈通河流域(干流、长兴河、福兴河、细鳞河、依兰河)、海兰江流域(干流、福洞河、长仁河)、嘎呀河流域(干流、汪清河、新兴河)、珲春河流域(干流、松林河)、牡丹江流域(干流、大石河、沙河、官地河)、图们江干流流域等(图4).此外,松花江流域的古洞河和五道白河流域也比较集中.

3.3各类概率区在各县市的分布

各类概率区在各县市的分布情况如表5所示.从表5中可知:各县市面积中高概率区面积所占比重(相对比重)较高的有龙井、图们、延吉、珲春等县市,其所占比重依次为36.9%、35.8%、30.3%、17.7%,这说明这些地区渤海遗址分布密度高的可能性大;各县市高概率区面积占延边地区高概率区总面积的比重(绝对比重)较高的是敦化、汪清、珲春、龙井、安图等县市,其所占比重依次为20.9%、18.4%、14.2%、12.9%、10.5%,这说明这些地区渤海遗址分布绝对量多的可能性大.

图4 延边地区渤海国遗址高概率区水系分布图

县市各县市各概率区相对比重低概率区中概率区高概率区各县市高概率区绝对比重延吉市52.217.530.38.2图们市43.320.835.86.4敦化市77.711.011.320.9珲春市69.412.817.714.2龙井市44.318.836.912.9和龙市78.410.810.88.6汪清县75.611.113.318.4安图县80.410.79.010.5合计100.0

4结束语

本文选取遗址和非遗址的海拔高度、坡度、坡向(方位)、与河流之间的水平距离、地形起伏度、与山脊线和山谷线之间的距离、土壤类型、植被类型、土地利用类型等自然因素和与道路之间的距离、与村屯之间的距离、土地利用类型等人文因素,利用Logistic回归模型建立了延边地区渤海国遗址的预测模型,并给出了遗址分布概率图.研究结果表明:

1) 模型建立过程中,采用“输入”方法的预测效果最好,对建模样本的预测准确率为92.02%,对验证样本的预测准确率为87.32%,总预测准确率为89.7%.

2) 用自然分裂法将遗址分布概率图分为高、中、低3个等级概率区,其中高概率区占研究区的14.7%,遗址数量为189个(83.6%).

3) 高概率区具有向河流聚集分布的特征,主要分布在海兰江流域、布尔哈通河流域、嘎呀河流域、牡丹江流域、图们江干流流域等.

4) 各县市面积中高概率区面积所占比重较高的地区是龙井、图们、延吉、珲春等县市,其所占比重依次为36.9%、35.8%、30.3%、17.7%;各县市高概率区面积占延边地区高概率区总面积的比重较高的是敦化、汪清、珲春、龙井、安图等县市,其所占比重依次为20.9%、18.4%、14.2%、12.9%、10.5%.

5) 目前为止,渤海国还有很多遗址没有被发现,本文所得结论可为制定渤海国考古计划和选定考古范围提供有效的依据,从而有助于提高考古工作效率,节省人力和资金等.

参考文献:

[1]高立兵.时空解释新手段:欧美考古GIS研究的历史现状和未来[J].考古,1997(7):89-95.

[2]Willey G R. Prehistoric Settlement in the Virúalley, Peru[M]. Washington: Bureau of American Ethnology Bulletin 155, 1953.

[4]倪金生.山东沭河上游流域考古遗址预测模型[J].地理科学进展,2009,28(4):489-492.

[5]乔文文,毕硕本,王启富,等.郑洛地区龙山文化遗址预测模型[J].测绘科学,2013,38(6):172-181.

[6]彭淑贞,张伟,陈栋栋.汶泗流域大汶口文化考古遗址模型预测[J].泰山学院学报,2010,32(6):34-39.

[7]延边朝鲜族自治州编撰委员会.延边朝鲜族自治州土地志[M].延吉:延边人民出版社,2002.

[8]吉林省延吉市地方志编撰委员会.延吉市志[M].北京:新华出版社,1994.

[9]国家文物局.中国文物地图集:吉林分册[M].北京:中国地图出版社,1992.

[10]王禹浪,王宏北.高句丽渤海古城址研究汇编[M].哈尔滨:哈尔滨出版社,1994.

[11]《吉林省文物志》编委会.延吉市文物志[M].长春:吉林省文物志编修委员会,1983.

[12]《吉林省文物志》编委会.图们市文物志[M].长春:吉林省文物志编修委员会,1985.

[13]《吉林省文物志》编委会.敦化市文物志[M].长春:吉林省文物志编修委员会,1985.

[14]《吉林省文物志》编委会.珲春县文物志[M].长春:吉林省文物志编修委员会,1984.

[15]《吉林省文物志》编委会.龙井县文物志[M].长春:吉林省文物志编修委员会,1984.

[16]《吉林省文物志》编委会.和龙县文物志[M].长春:吉林省文物志编修委员会,1984.

[17]《吉林省文物志》编委会.安图县文物志[M].长春:吉林省文物志编修委员会,1985.

[18]《吉林省文物志》编委会.汪清县文物志[M].长春:吉林省文物志编修委员会,1983.

[19]延边朝鲜族自治州民政局.延边朝鲜族自治州行政区划图[M].长沙:湖南地图出版社,2009.

[20]王济川,郭志刚.Logistic回归模型:方法与应用[M].北京:高等教育出版社,2001.

猜你喜欢

延边渤海流域
昌江流域9次致洪大暴雨的空间分布与天气系统分析
渤海竞渡帆高举——记渤海轮渡集团党委书记、总经理于新建
延边大学美术学院研究生作品
延边大学美术学院绘画作品
The Evaluation of Navigate Coursebook (Advanced→C1)
河南省小流域综合治理调查
延边啊,延边!
称“子流域”,还是称“亚流域”?
渤海国文化浅析
渤海国后裔第一联