浅析大数据时代的电子政务信息资源采集
2015-04-20刘彩云沈春会
刘彩云 沈春会
摘 要:针对大数据技术的应用给电子政务信息资源采集带来的挑战与机遇,对电子政务信息资源采集在大数据时代出现的诸如采集内容多样化、采集来源多元化、采集方式智能化等新特点进行介绍。同时,分析电子政务信息资源采集原则,提出实行预测需求、按需采集、注重自媒体信息采集、运用新兴技术、尝试采取众包模式等措施,以期用大数据的思维推进电子政务信息资源采集的发展。
关键词:大数据;电子政务;政务信息资源;电子政务信息资源采集
Abstract: Considering the challenges and opportunities that have been brought to the e-government information resources acquisition by the application of the big data, new characteristics of e-government information resources acquisition in the era of big data, such as diversification of content, pluralism of sources, intelligence of collecting pattern, are introduced. Meanwhile, analyzing the principles of e-government information resources acquisition, and putting forward such strategies as forecasting demand and acquisition according to demand, laying emphasis on information acquisition of We Media, applying emerging technologies and trying to take crowdsourcing model, in order to promote the development of e-government information resources acquisition with thought of big data.
Keywords: Big Data; E-government; Government Information Resources; E-government Information Resources Acquisition
1 概述
IT厂商和咨询公司引导了大数据发展的潮流,大数据在各个领域的应用及研究昭示着大数据时代已经到来。大数据在给各行各业的发展带来了冲击与挑战的同时,也带来了潜在的发展新机。
电子政务信息资源(下文简称“政务信息资源”),即为数字化的政务信息资源。随着我国政府信息化和电子政务建设的发展,政务信息资源不再局限于传统纸质文件的形式,而是逐渐向着数字化信息形式转化。电子政务信息资源管理是一项集成政务信息资源采集、组织、处理、检索、挖掘、分析与服务等过程的管理活动,电子政务信息资源采集作为电子政务信息资源管理的重要环节之一,是开展其他管理环节的基础。我国国家重点学科——情报学学科带头人苏新宁在其著作中提出:“政务信息采集是指根据政府部门的特定需求和工作规划的需要,利用科学的方法,将蕴涵在不同位置的政治、经济、社会和文化信息收集、积聚起来的过程。”[1]本文电子政务信息资源的采集以广义的电子政务信息资源为采集对象,从大数据的视角出发,探寻大数据时代电子政务信息资源采集的发展。
2 大数据时代电子政务信息资源采集的特点
大数据给电子政务信息资源带来了新的特点,加大了政务信息资源采集的难度,但与此同时,大数据技术的应用也将推动政务信息资源采集的发展。在分析采集特点、采集原则的基础上研究采集对策,有助于因势利导,发挥大数据的助推作用,促进电子政务信息资源采集工作。
电子政务信息资源作为信息资源的重要组成部分,除了具有信息资源的一般特性外,在大数据时代,还具有大数据的一般特征,如大数据量、非结构化、社会化等。随着与大数据密切相关的云存储、云计算、物联网、移动互联网等技术的应用,给电子政务信息资源采集工作带来了如下新特点。
2.1 采集内容多样化。从采集内容看,大数据时代电子政务信息资源采集的内容呈现出多样化特点,所谓多样化,主要是指采集内容具有结构化、半结构化和非结构化数据并存的特点。传统政务信息资源采集以来自关系型数据库的结构化数据(如研究报告、统计数据、政策法规、会议资料等)为主。然而,美国高德纳咨询公司(Gartner)指出,在2012年,非结构化数据在所有数据中的比例已经高达85%,并且比结构化数据增长更快。[2]在大数据时代,大量动态的半结构化数据(如政府人事管理资料)和来自互联网、社交媒体的非结构化的数据(如与政府门户网站访问日志以及与政府活动相关的微博、音频、视频文件等)不断增长,并有着逐渐取代结构化数据主体地位的趋势。
2.2 采集来源多元化。从采集来源看,大数据时代的电子政务信息资源采集来源不仅呈现多元化的特点,并且采集来源有着与新兴技术不断结合的趋势。按照政务信息资源采集来源的表现形式划分,传统采集来源主要以个人、机构、文献、新闻媒体、数据库等信息源为主。在大数据时代,除传统来源外,出现了一些新的采集来源并有发展成为主要来源的趋势,如随着全球卫星定位系统的应用和移动终端技术的发展,定位数据不断增长,成为危机类政务信息资源采集来源的一个重要组成部分。再如,随着社交网络(如微博、论坛等)逐渐发展成为公众表达诉求、参与管理的主要途径之一,社交网络数据呈每年迅速增长趋势,对社交网络数据的采集分析是政府舆情监测的重要途径,社交网络逐渐发展成为政务信息资源采集的主要来源。
2.3 采集方式智能化。与人工采集为主的传统政务信息资源采集相比,大数据时代的采集方式应实现以智能化采集为主、辅以人工采集。在一般情况下,大部分数据是由消费者产生和使用的,政务信息数据只要控制在一定范围内,通过人工采集为主、辅以相关信息技术,实现对政府机构及与其相关的信息的收集是可以做到的。但是,有学者作出预测,2013年~2020年,大部分数据将不是由人类产生的,而更可能是由带有传感器的智能设备产生并传输,即机器与机器对话(Machine to Machine, M2M)。[3]可见,在大数据时代,实现智能化采集是必然趋势。一方面是因为人工采集无法承受大数据时代与日俱增的巨大信息量;另一方面是因为大数据时代具备诸如智能设备、云存储、元数据等数据产生、传输、存储、描述的技术条件。
3 大数据时代电子政务信息资源采集的原则
苏新宁将政务信息的采集原则概括为“六度”原则,即广度要大、向度要准、精度要高、真度要强、融度要深和速度要快。[3]“六度”原则从多个不同角度提出了政务信息资源采集的要求,这与大数据时代要求打破“信息孤岛”、消除“数字鸿沟”、实现信息共享的理念相契合,因此,“六度”原则在大数据时代仍然具有适用性。如广度原则要求从纵向和横向两个方面避免信息采集的遗漏,换言之则是要做到跨时间、跨学科、跨组织、跨部门、跨地域、跨系统、跨平台、跨数据结构等要求。
国外对政务信息资源采集原则作出了明确规定,例如,美国《政府文书工作消减法案》将“使联邦政务信息采集、维护、使用与发布的费用降到最低”列入政务信息采集的原则之一。加拿大政务信息资产管理(MGIH)政策第3条规定:“政府应使采集、产生和接收信息的花费最小化”。[4]因此,笔者认为,借鉴国外的研究成果与实践经验,在“六度”原则的基础上,大数据时代的电子政务信息资源采集还应权衡信息采集的投入与产出比,应增加效益性原则,尽量使采集费用低于采集投入,权衡投入与意图获取的收益。
4 大数据时代电子政务信息资源采集发展思路
4.1 预测需求,按需采集。大数据的应用有助于实现预测需求、按需采集。“大数据背景下的政务系统的核心就是‘感知”,[5]电子政务信息资源的采集、存储、分析、处理、利用等是一个循环往复的过程,通过对所采集的海量政务信息资源进行分析,实现对公众政务信息资源需求方向和内容的感知与预测。根据预测制定政务信息资源采集规划的同时,可推出专题政务信息资源采集项目,量身定制,实现电子政务个性化服务,提高政府服务水平。
4.2 注重自媒体信息的采集。从采集来源来看,电子政务信息资源采集应注重自媒体信息的采集。在大数据时代,海量的交易数据、交互数据和数据处理构成了大数据主要的三大来源。其中,随着互联网与移动终端的不断融合,来自自媒体的非正式数据逐渐增长成为交互数据的主要组成部分。虽然相对于来自官方渠道(如政府机构、新闻媒体)的数据而言,自媒体信息属于非正式数据,其内容可能存在鱼龙混杂、良莠不齐、可信度较低的情况,但是,自媒体传播迅速、高效,具有传统媒介所不具备的优势,如日本公共卫生数据挖掘平台——“发现病毒”的开发者奈杰尔科利尔(Nigel Collier)认为,“从自媒体采集的数据与官方发布的数据相比享有更多的优势,比如地理覆盖面更广、语义信息更丰富、成本更低”。 [6]因此,笔者认为,来自自媒体的信息对于政府进行舆情监测具有重要意义,尤其是在偏远山区、农村等缺乏官方的数据采集渠道但手机拥有率较高的地区,可作为官方数据的有益补充,是构成电子政务信息资源的重要组成部分。
4.3 注重大数据时代新兴技术的应用。海量的电子政务信息资源采集要求低成本、智能化的采集技术,在信息采集过程中,应当注重对大数据时代新兴技术的应用。例如,将云计算技术应用于数据仓库,采取列式存储方式,可解决传统数据仓库行式存储在面临海量异构数据存储带来的时间与空间高成本的困境,为多媒体数据处理提供了有益的思路。同时,云计算还为信息采集提供了分布式采集技术,有学者指出:“因为云计算具有很强的扩展性和容错能力,可将数据池相同或者相似的数据同构化。”[7]此外,移动传感设备、智能电表等技术对电子政务信息资源的采集也具有重要意义。
4.4 可尝试采取“众包”模式。电子政务信息资源的采集可尝试采取“众包”模式。“众包”模式是大数据时代出现的一种生产组织模式,通过“众包”模式,将电子政务信息资源的采集分配出去,采集工作不再全部依靠政府工作人员来完成,而是同时依赖于网络上收取小额报酬或无报酬的志愿员工来完成。该模式一方面可以降低电子政务信息资源的采集成本,另一方面可以集思广益,解决电子政务信息资源采集过程中难以解决的技术问题。
5 结语
综上所述,大数据拥有巨大的发展潜力,大数据技术的应用将有力地推动电子政务信息资源的采集。但是,在对大数据助推电子政务信息资源采集的发展前景给予充分信心的同时,我们也要看到大数据应用存在的局限。如,数字跟踪平台的新型数据采集方式只能作为传统信息采集的补充方式,不能取代传统信息采集方式。再如,机器可辅助数据分析,但实际上数据分析仍然需要依赖于人的主观意识及知识结构,基于信息的决策不能达到绝对客观。此外,采集过程中 “信息过载”、非结构化数据的整合、个人隐私和信息安全等问题也亟待进一步研究和解决。
参考文献:
[1][3] 苏新宁著.政务信息资源管理与政府决策[M].北京:科学出版社.2008:34~35.
[2] 郭昕,孟晔编著.大数据的力量[M].北京:机械工业出版社.2013:13~15.
[4] 刘家真,许洁. 建立基于共享的政务信息采集机制的对策建议[J]. 信息化建设,2007(7):16~18.
[5] 宋伟东,孙尚宇,耿继原,王崇倡,. 用大数据思维建构信息时代的电子政务[J]. 测绘科学,2014(5):18~22.
[6] 转引自:郭晓科主编.大数据[M].北京:清华大学出版社.2013:13~14.
[7] 迪莉娅. 基于云计算的电子政务大数据管理研究[J].图书馆理论与实践,2013(12):49~52.
(作者单位:四川大学公共管理学院 来稿日期:2015-01-14)