基于“众包”的扶贫大数据采集方案研究
2020-01-14曹健李达蔡忠亮余谦
曹健,李达,蔡忠亮,余谦
(1.武汉智图科技有限责任公司,湖北 武汉 430200; 2.武汉大学资源与环境科学学院,湖北 武汉 430079)
1 引 言
“众包”的概念于2006年在美国被首次提及,是指通过整合计算机和互联网上未知的大众来完成机器单独难以处理的任务,从2009年开始,众包得到了各个领域的广泛关注,包括人机交互、信息检索、机器学习、数据库、人工智能、计算机理论等,已经逐渐成为一个新的研究热点。随着移动互联技术的兴起与流行,将众包模式与移动互联结合,应用于空间要素的获取和更新领域,通过公众参与形式快速获取热点信息、更新地理要素,可以低成本、快速地提供翔实、高效地理信息数据来源。
为全面贯彻党中央国务院和湖北省委省政府的重大战略部署,湖北省测绘地理信息局主动服务精准扶贫大局,围绕“精准”二字,突出精准定位,整合专业数据,积极提供基于地理信息技术的精准服务,于2015年编印完成《湖北省精准扶贫作战地图》,2016年与省扶贫开发办公室签订精准扶贫战略合作框架协议,共同完成全省约300万贫困户的“精准扶贫、导航到户”地理信息采集任务,并列入2016年基础测绘项目。
精准扶贫是21世纪国家提出的落实全面建成小康社会发展目标的重要一步,而精准扶贫的重要依据是全国范围内精准的贫困户数据与信息的采集与统计。为快速响应和落实国家关于精准扶贫工作中贫困户信息采集建库工作要求,传统外业信息采集模式无法满足空间定位与导航到户的应用需求,因此,探索基于移动测绘技术的现代信息化采集、生成与管理的新模式具有重要意义。而基于云和移动GIS技术,采用众包模式的大众参与式信息采集与专业人员审核生产管理的工作模式,克服了信息采集中采集目标及环境不了解、效率低下等问题,新模式可大大提高贫困户信息采集、生产、管理的效率和质量。
2 数据采集的现状
(1)传统数据采集方式
传统的数据采集方式由专业的数据采集人员,依据测量仪器或者移动采集设备进行数据采集。采用这种数据采集模式,需要投入大量的专业的数据采集人员,效率较低、成本较高,湖北省精准扶贫大数据采集的任务是在较短的时间内,完成约300万贫困户的基本信息、多媒体信息及精确地理数据的采集,采集任务重、内容多、精度要求高、时间要求紧,贫困户所处地区以山地地貌居多、分布较散,山高路险、交通条件较差,所以采用传统的采集方式很难在规定的时间内完成任务。
(2)“众包”模式的采集方式
文献[1]探讨了基于众包模式、采用移动互联技术为主要手段的地理信息数据采集、更新流程机制与方式方法,文献[2]提出基于众包模式的POI数据采集思路,文献[3]提出了一个基于移动计算技术的道路数据采集系统,文献[4]提出了基于天地图的POI数据采集思路,实现了POI数据的采集与动态更新,文献[5]将众包采集流程集成到灾害信息管理中,提高了灾害信息采集效率。文献[6]介绍了基于Web平台的志愿者地名地址数据采集方案,文献[7]构建了一个百度众测数据标注子系统,降低了数据生产成本,文献[8]利用众包模式,将非特定社会大众引入到农业大数据采集中,能有效扩充数据采集队伍。
“众包”模式充分利用了人多力量大的特点,采用并发机制,来解决繁杂的任务。利用“大数据协同采集”的贫困户地理信息采集模式,利用互联网思维,发动全省各地数万基层扶贫工作者,借助他们的地缘优势,利用他们的手机设备,突破数据采集在专业、地理、时间上的限制,完成采集任务,实现数据实时上传,多用户共同协作,对大数据的存储、处理、分析、可视化等功能的实现有极大的帮助。
3 数据采集流程
图1 数据采集流程图
(1)扶贫大数据采集
无须额外采购移动采集设备,采集软件直接安装到基层扶贫工作者的手机中,通过简单培训后即可进行扶贫数据的采集。到达贫困户实地以后,进行贫困户的定位并采集其位置信息、采集贫困户的房屋照片等多媒体信息、录入贫困户的其他属性信息并保存。
(2)数据传输
数据采集完成后,用户可以将采集的数据传输至楚天云服务器,软件提供两种同步方式,即在线传输方式和无线传输方式:在网络信号覆盖地区,用户可以直接将采集的数据传输至服务器;没有网络信号覆盖的地区,用户可以到有网络覆盖的地区利用网络或者WiFi信号进行数据传输。鉴于楚天云在数据安全、效率的优势,本方案采用楚天云服务器。
(3)数据审核同步
数据管理人员依据事先制定的规则,对传输回来的数据进行各种检查,通过审核的数据直接同步到扶贫大数据数据库中,未通过采集的数据则返回移动采集人员处修改,直至符合数据质量标准。
4 方案设计
4.1 总体架构设计
基于云环境下扶贫大数据的协同采集和传输模式,实现对扶贫数据采集系统的总体架构设计,如图2所示,该架构中,所有的业务逻辑转移到了服务器端,仅在客户端保留视图层,完成显示和交互任务,降低客户端的复杂度和维护难度。客户端不直接访问数据库,通过引入中间的业务逻辑,实现数据的分布处理,加强了平台的伸缩性,减少数据库服务器的负载。
图2 软件总体架构图
(1)数据服务层
包括基础地理信息数据、扶贫专题数据等空间信息数据和其他的属性数据,平台根据业务需求定义数据结构,选择基础数据源和服务。数据服务层可通过服务接口直接与客户端交互,也可经过服务器逻辑运算引擎,与其他关联数据资料融合处理后,返回结果在客户端展现。
(2)逻辑事务层
以Webservice方式公开的数据访问接口,并通过Web服务器发布和管理各类接口方法,为移动终端访问数据库服务提供通道。主要由Web服务器、空间信息服务接口、服务器逻辑运算引擎组成,主要是响应移动客户端的各种请求和查询操作,并调用相关的空间信息服务实现。
(3)通讯网络层
提供业务逻辑层和终端展现层的数据交互媒介。业务逻辑层的访问接口在网络上发布,iOS、Android等移动终端借助3G/WIFI/GPRS等无线网络与Webservice访问接口进行通讯。
(4)终端展现层
提供最终的人机交互界面,将业务逻辑层提供的各类数据进行最终的展现,终端设备采用移动智能设备,进行扶贫数据的采集、编辑、提交等;桌面端完成数据的检查、同步,进行数据的统计分析等。
4.2 软件功能设计
基于精准扶贫信息化的需求,实现了贫困户信息精准采集、快速编辑、直观可视化、核查巡检导航到户等功能,包含四个模块:导航到户模块、信息采集模块、数据管理模块和统计应用模块,主要功能如图3所示。
图3 软件功能图
导航到户模块和信息采集模块包含在移动端的扶贫数据采集软件中,数据管理模块和统计应用模块包含在扶贫桌面应用中。扶贫数据采集软件分为安卓版和苹果版,分别基于ArcGIS API for JavaScript和ArcGIS API for iOS进行开发,鉴于天地图数据在不发达地区的数据优势,数据采集的底图调用天地图的数据服务。实现了查询、信息展示、定位、导航等功能。在信息采集模块中,为防止采集人员伪造数据,采集软件开发了保存贫困户空间位置和采集人员运动轨迹的功能,实现了贫困户各类信息的采集与录入,并根据当时的网络条件通过在线或离线的方式将数据上传至楚天云服务器中。
数据管理模块和统计应用模块包含在桌面端应用系统中,数据管理模块完成数据的下载、审核等功能,并将通过审核的数据同步到精准扶贫大数据库中,审核未通过的数据返回移动采集端进行重新采集。统计应用模块包含统计图表、专题图表制作和打印等功能。
5 实践与结论
通过基于众包的数据采集模式,开发了iOS和Android版的扶贫数据采集软件,软件的部分效果如图4所示:
图4 软件效果图
采集软件广泛应用于湖北省13个市州、98个县市区扶贫办, 1 131个乡镇、 25 763个村的扶贫工作人员,完成了300万精准扶贫贫困户的数据采集、检查、校正、入库工作。通过政府领导下的广大基层扶贫工作人员作为志愿者进行扶贫地理信息采集与更新,圆满完成了湖北省政府下达的数据采集任务,突破了数据采集在专业、地理、时间上的限制,减少专业人员的采集成本,提高了信息采集的效率,并完成采集数据的实时同步更新。该采集模式不仅在工期、花费上占优,且外业采集只需要一般工作人员经过简单培训,使用智能手机即可,不需要专业人员和专业设备,作业流程简单,解决了短时间内难以组织大量的专业技术人员的问题。依据项目经验,每个市同时开展,在全面开始采集时,单日采集人员可达到 1 000多采集人员,单日信息上传峰值超过8万条,相对于传统的数据采集模式,提高采集效率约十倍,验证了软件系统的稳定性和方案的可行性,基于众包的数据采集模式可以在类似数据采集任务中进行推广。