从门牌号到行政区划代码
——谈行政区划计算机自动编码实现方式的思考
2015-12-10姜志渊
姜志渊
(温州市龙湾区统计局,浙江温州 325058)
从门牌号到行政区划代码
——谈行政区划计算机自动编码实现方式的思考
姜志渊
(温州市龙湾区统计局,浙江温州 325058)
行政区划代码的编码工作在统计系统中大量存在,人工编码繁琐且缺点明显,针对人工编码工作中存在的不足,本文依托现有的“三经普”、名录库等大数据背景,结合信息化技术,提出了一种可行性较高的计算机自动编码的实现方式。
行政区划编码;自动编码
行政区划代码是一种用数字编码来表示一个地区序号的编码格式,广泛应用于全国各地区、各部门的信息系统,涉及到统计、普查、社会保障、教育、户籍等领域,是我国社会现代化管理中一项重要的基础标准。
在统计系统中,行政区划代码是各项统计调查的基础代码标准,也是建立数据平台的基础,有利于各专业、各部门间的基层汇总数据的衔接。
本文所说的行政区划代码的编码工作,是指将一个具体的地理位置信息转换为行政区划代码的过程。在统计系统中,存在着大量的此类编码工作:如将企业的注册地址、经营地址以及调查户的住址等信息编制成行政区划代码。即根据已知的地理位置信息找到其对应的行政区域,如县(市、区)、街道(镇)、村等,再将行政区域转换成对应的行政区划代码。
一、人工编码工作及不足
人工编码的一般流程是根据地址中所含的地理信息,依靠个人的经验或者借助地图工具等,来判断其所在的行政区域,再找到对应的行政区划代码。
人工编码目前广泛应用于统计工作,是一项基础且繁琐的环节,存在以下缺点:一是地理位置信息的模糊性易导致编码失误。理想的情况下,获得的地理位置包含精确的行政区域信息,如“XX省XX市XX区XX街道XX村XX路XX号”,这样工作人员比较容易根据已知的区域信息找到对应代码。但更多的时候,获得的地理位置并没有精确的行政区域信息,一般只有类似“XX省XX市XX区XX路XX号”这种“断裂式”信息。此时,工作人员只能根据经验或其他方式进行粗略判断并编制12位(村级)的行政区划代码,因此得到的结果往往有较大误差;二是工作量大增加基层工作难度。在名录库的日常维护工作中,存在较多名录单位新增或地址变更等情况,基层工作人员需要花费大量的精力和时间在编码工作中,加大了基层统计工作的难度和压力。
二、计算机自动编码及其优势
针对人工编码工作中存在的不足,笔者依托现有的“三经普”、名录库等大数据背景,结合信息化技术,提出一种可行性较高的计算机自动编码的实现方式。
(一)主要设计思路
行政区划代码的编制工作,中心思想是从地理位置到代码的转变。计算机并不能直接理解地理位置这样的中文信息,我们需要将其转化为计算
机可以解析的方式,然后在已有的数据找出对应的结果。主要工作思路有两步:
1.运用百度地图API确定地理坐标。现在网络上存在很多的地图应用,如百度、Google、高德等,在这些地图应用中,只要查询一个地理位置,就可以定位到具体的地图坐标。
本文思路借助的是百度地图的定位技术。百度地图API(Application Programming Interface)是一套为开发者免费提供的基于百度地图的应用程序接口,程序开发者通过调用相应的API,可以将一个地理文字位置转换为地理坐标信息。
百度地图API家族中提供了Geocoding API,这是一类简单的HTTP接口,用于提供从地址到经纬度坐标或者从经纬度坐标到地址的转换服务,用户可以使用程序开发语言发送HTTP请求且接收JSON或XML类型的返回数据。Geocoding API中的地理编码接口,可以由详细到街道门牌的结构化地址得到百度经纬度信息,且支持名胜古迹、标志性建筑名称直接解析返回百度经纬度。例如:“北京市海淀区中关村南大街27号”地址解析的结果是“lng:116.31985,lat:39.959836”,“百度大厦”地址解析的结果是“lng:116.30815,lat:40.056885”。以下是一个关于地理编码的简单示例:发送一个地址是“温州市龙湾区永强大道147号”的请求,返回该地址对应的地理坐标。发送请求的URL如下:
http://api.map.baidu.com/geocoder/v2/?address=温州市龙湾区永强大道147号&output=xml&ak=64c444 fddca32845819a7edb2a380a26&callback=showLocation
点击上述请求URL,返回地址“温州市龙湾区永强大道147号”解析的XML格式的数据:
通过分析返回的数据,可以知道查询地址的经纬度坐标为“lng:120.78518503423,lat:27.8431464198 46”,得到地理位置坐标之后,我们就完成了工作的第一步。
2.从地理坐标到行政区划。“三经普”中有这么一项工作:划区绘图。所有普查小区的边界信息都在计算机中绘制并上传至国家服务器中。换种说法,就是国家的服务器中存储着全国所有行政区域的边界信息。
这意味着,如果已知一个地理位置坐标,就可以在国家的经普地图中查询到对应的行政区域,那么就等于确定了其行政区划代码。所以只要“三经普”地理系统开放相应的查询接口,接受经纬度坐标为参数,返回包含行政区划代码信息的结果,自动编码就可以完成了。
(二)总体流程与可行性分析
本文提出的解决方案,是通过商业地图提供的公用接口,将地理文字位置转换为地理坐标信息,再通过在“三经普”地理地图中的定位,得到对应的行政区域,最后编制成行政区划代码。总体流程图如下:
从正确性分析,此方案主要依赖百度地图API的查询结果,根据日常使用情况上来看,返回的结果具有非常高的可信度,基本可以满足日常工作需要;从计算机技术上讲,如果国家统计局提供从地理位置坐标到行政区划代码的查询接口,那么结合百度地图API,程序只需要两步查询就可以轻易实现;从已有的系统支持上讲,国家统计局现在已经开发了“三经普”地理地图系统,只需对外提供一个查询接口,便可推动计算机自动编码从设想变为现实。
(三)自动编码的优势分析
计算机自动编码的优势是显而易见的,主要体现在:一是提高工作效率。一旦实现自动化工作,人力成本可以得到极大的节省;二是提高名录库精确度。此项技术有利于优化名录库中单位中的准确性,这可以给各专业工作的开展,甚至是下一
次普查工作带来无穷的好处。三是不需要维护地理信息。这是一个巨大的优势,现有的商业网络地图更新相当及时,且数据准确性高,这在充分利用了现有大数据的情况下,还可以很大程度上保证结果的可信度。
三、目前有待解决的问题
1.“三经普”地理信息利用率有待提高。“三经普”成果中的地理地图有待开放查询接口,如果现有的地理信息没有得到很好的利用,那么将造成无形的资源浪费,而再过几年数据将陈旧且无法使用,等下次普查工作可能就是新的一轮重复。
2.行政区域分界需要及时更新维护。为了保证行政区划编码的正确性与有效性,全国行政区域的变更必须及时反映在全国地理地图中。虽然这需要花费一定的时间精力,但是考虑到行政区域较少变动,而且此项工作还可以给日后带来很多方面的效益,那么整体的投入与产出相比,是非常有价值的。
(责任编辑:牛域宁)