APP下载

美国涉农数据在线开放共享情况

2020-11-03尹国伟聂凤英杜绍明

农业大数据学报 2020年3期
关键词:农业

尹国伟 聂凤英 杜绍明

(1.农业农村部信息中心,北京 100125;2.中国农业科学院海外农业研究中心,北京 100081)

1 引言

美国农业部(United States Department of Agriculture,以下简称USDA)致力于成为美国政府中最高效、最有效和最以客户为中心的部门,是美国开放共享涉农数据的重要主体。USDA 制定的2018—2022年7 个战略愿景[1]中有4 个明确提到了信息或数据:战略愿景一“确保高效落实好USDA 工作计划,并专注于客户服务”指出“通过现代化的信息技术基础架构、设施和支持服务,以改善客户体验”及“改善资源管理,并利用数据驱动的分析来最大化投资回报”;战略愿景四“促进农村繁荣与经济发展”指出“改善基础设施、宽带接入和连通性”;战略愿景五“通过技术和研究加强对土地的管理”指出“利用基于科学的工具和信息来增强保护规划”;战略愿景七“提供安全、营养丰富的食品供应”指出“通过数据驱动、灵活和以客户为中心的方法来支持和鼓励健康的饮食选择”。USDA 有关组织机构结合业务开展专业领域数据信息资源建设工作,形成了一系列数据集、数据产品和基于数据的专业报告,并在线发布了丰富的可开放获取的涉农数据信息资源。美国在涉农数据开放共享方面的做法对开展数据信息资源建设工作,加速数字化转型升级,激发数据作为新型生产要素价值作用具有一定的参考价值。

2 美国政府数据门户涉农专题数据集

2.1 美国政府数据门户专题设置

美国根据其政府数据开放法案[2]及循证决策法案[3]等有关条文要求,开设了其政府数据门户(Data.Gov)①https://www.data.gov并持续更新,政府机构使用标准化的机器可读数据格式在线开放共享数据信息资源,并将元数据发布到数据门户的数据目录中,用以提升各方参与政府事务的互动性、创造更多的经济发展机会,为公共及私营部门议事及决策提供数据支撑。

美国是对农业数据收集比较齐全的国家,也是较早进行农业数据开放的国家。目前,有关农业数据的采集、共享和利用正对美国农业政策制定者制定农业部门发展的各种政策提供有力支持。不仅如此,美国各大农场主协会以及涉农企业也不惜投入大量的时间、金钱以及花费巨大的精力去搜集被人们称为“大数据”的涉农数据[4]。影响作物生长的因素有很多,如土壤、气候、水分、品种、病虫害和杂草等,作物产量是这些因素的综合结果,农业从业者光凭经验做出决策已远远不够,需要依靠科学、概率和专业分析得出优化决策[5]。美国政府数据门户设置有农业、气候、生态系统、能源、地方政府、海上运输、海洋、老年健康等八大专题。农业专题位列八大专题之首,内设“更新”、“数据”、“应用”、“开发者”和“联系”等栏目。其中,“更新”栏目汇集农业生产、粮食安全、农村发展、营养、自然资源和区域粮食系统等有关的新闻信息;“数据”栏目可按主题、分类、数据类型、数据文件格式、机构、发布者等对数据进行过滤搜索查询;“应用”栏目列出了能够帮助做出有关农业、食品和营养等明智决策的应用程序;“开发者”栏目链接到USDA网站的开发者资源网页,可以获取各有关部门提供的涉农特色数据集、数据产品和web 服务等;“联系”栏目可就农业专题提出意见与问题。

美国政府数据门户2009 年5 月上线运行[6],截至2020 年9 月15 日,数据目录中可查询到包括USDA等在内199 个机构在线发布的225 599 个数据集。其中,以USDA 机构名义发布的数据集①https://catalog.data.gov/organization/usda-gov总计1808 个,内含396个标记地理空间信息数据集。

2.2 美国政府数据门户建设

美国政府数据门户由美国总务管理局技术转化服务中心建设和管理,技术开发基于综合知识档案网络(The Comprehensive Knowledge Archive Network,以下简称CKAN)和WordPress两个开源框架,数据目录中的元数据遵循开放元数据架构约定(字段信息包括标题、描述、标签、更新情况、发布者、时间、联系人情况等)。

CKAN 是开放源码数据资料入口平台,由Open Knowledge Foundation(OKF)支持发展,英国和澳大利亚政府数据门户也基于此开源框架。除了最重要的数据资料存取与发布外,CKAN 还支持可视化展示、标记、搜索及过滤、分享、版本控制等,还有不少可扩展插件,以满足不同领域机构组织的多样化需求。CKAN使用以Python为基础的Pylons网页框架,数据库使用PostgreSQL,搜索使用Apache Solr,采用Babel 支持多国语言(不过目前CKAN 对中文的支持并不友好,在字码转换和汉字识别上还存在不足)。WordPress 是一个免费开源的网站内容管理系统(Content management system,CMS),用PHP 代码编写,并能够与MySQL 或MariaDB 数据库联动,提供模板功能来支持页面设计,还可以通过插件形式拓展网站内容管理功能。

3 USDA网站数据专题及数据产品

3.1 USDA数据治理机构

美国政府在提高农业劳动生产率、保护农业资源、宏观调控农业等方面取得了非常明显的成绩,这与其得天独厚的农业自然资源相关,也与农业部门间高效组织、明确分工及一体化管理等因素密切相关[7]。USDA 网站②https://www.usda.gov的数据专题页面介绍了USDA 数据治理大体情况,并给出了USDA 开放数据目录链接。USDA 成立了专门的数据治理机构,分别设置了数据治理指导委员会和数据治理咨询委员会[8]来领导和实施其数据治理工作,设首席信息官办公室(Office of Chief information officer,OCIO)负责总体信息技术战略和管理。数据治理指导委员会成员包括首席数据官(主席)、首席评估官、首席统计官和有关任务领域的首席运营官;常设季度会议,以及主席确定的特别会议。数据治理咨询委员会成员包括副首席数据官(主席),有关任务区域的助理首席数据官,来自监察长办公室、隐私保护、地理空间计划和资本规划等有关方面的无表决权代表;常设每月例行会议,以及主席确定的特别会议。

3.2 USDA网站在线数据及数据产品

USDA 构建了以USDA 网站为主站,由USDA 直属服务机构网站、行政办公室网站、专业服务网站组成的网站群信息服务体系[9]。USDA 开放数据目录①https://www.usda.gov/content/usda-open-data-catalog是公开的USDA 数据的权威来源。USDA 有关机构在网站设专题专栏在线发布各自业务领域数据及数据产品。其中,农业市场服务局(Agricultural Marketing Service,以下简称AMS)子网站可查询业务清单和目录(如全国农贸市场目录、国家食品中心目录、有机认证剂清单、国内原产地验证参与者清单、批复的种子计划、批复的有关出口计划、牲畜饲养索赔审核参与者清单、出口加工蛋及蛋制品清单等),信息图和可视化数据(如农业与市场交互数据、当地和区域食品系统、消费者标签和购物提示等),微生物数据,牛奶营销订单统计数据,国家棉花数据,农药数据,植物品种数据等;农业研究服务局(Agricultural Research Service,以下简称ARS)子网站发布有与营养、食品质量安全,动物养殖与保护,作物生产与保护,自然资源与可持续农业系统等有关的数据产品;营养政策与促进中心(Center for Nutrition Policy and Promotion,以下简称CNPP)子网站列出了食品营养计划项目信息,儿童营养数据表,食物分配计划数据表,营养援助计划表,妇女、婴儿和儿童营养补充特别计划数据表等;经济研究服务局(Economic Research Service,以下简称ERS)子网站发布有农业资源管理调查数据,转基因品种作物数据,农业与食品统计数据,农业基准数据库,农业贸易汇率数据,美国农业生产力数据,农产品生产和农产品贸易对美国就业、经济产出的影响数据,美国乡村和小城镇地图集,商品成本与收益数据,食源性疾病成本估算数据,棉花、羊毛和纺织品数据,县级数据集,乳制品数据,农户收入和特征数据,农场收入和财富统计数据,饲料谷物数据,化肥使用和价格数据,粮食获取研究图集,粮食供应量(人均)数据,食物消费及营养摄入数据,粮食价格展望及预警数据,美国粮食安全监测数据,全国家庭食品购置调查数据,美国对外农产品贸易数据,果树、坚果数据,水果和蔬菜价格数据,国际农业生产力数据,国际农产品供需及贸易基准数据,国际粮食安全评估数据,畜牧和肉类国内数据,畜禽肉国际贸易数据,主要土地用途数据,农产品从生产到消费价差数据,牛奶生产成本估算数据,主要农业投入和产出标准化价格数据,小麦、水稻、油料、蔬菜、豆类、糖类等生产、供应、消费、贸易及价格数据,季度居家食物价格数据,城乡结合体代码,季节平均价格预测数据,州出口数据,有关人口、收入、贫困、粮食安全、教育、就业、农场特征等国家级、州级数据,美国生物能源统计数据,美国食品进口数据等;农场服务局(Farm Service Agency,以下简称FSA)提供的FSAfarm+系统可在线查询公共土地数据、相关农场数据以及其他生产者信息,可为办理贷款、保险等业务提供参考;食品安全检验服务局(Food Safety and Inspection Service,以下简称FIS)子网站及时更新认可实验室名单、实验室采样数据、季度抽样数据报告等;外国农业服务局(Foreign Agricultural Service,以下简称FAS)子网站提供按商品和目的地国家分类的每周更新的美国出口销售信息(Exports Sales Reporting,以下简称ESR),海外办事处对影响农业生产和贸易的问题的见解和分析(Global Agricultural Information Network,以下简称GAIN),有关农产品、鱼类、森林和纺织品国际贸易当前和历史数据系统(Global Agricultural Trade System,以下简称GATS),有关美国以及主要生产国和消费国的农产品生产、供应和配给数据(Production Supply and Distribution,以下简称PSD)。美国最早的农业科技合作项目就是由FAS 承担的USDA 资助的植物收集,与原产国的合作方共同执行[10]。

4 美国涉农统计数据及专业报告

4.1 美国涉农统计调查数据

统计调查数据是美国涉农数据的重要组成部分。美国国家农业统计局(National Agricultural Statistical Service,以下简称NASS)作为USDA 的专业统计机构,负责收集、分析和分发有关美国最新最全面的涉农数据,每年开展上百项经常性调查项目,每5 年进行一次农业普查,还参与建设其他国家的农业统计系统。农业普查涉及美国农场和牧场及其经营者的全部数据,通过农业普查,生产者可以向全国展示农业的价值和重要性,以影响决定美国农业未来的决策。农民和牧场主可以使用农业普查数据帮助自己预估经营前景,进而做出更为明智的决定;公司和合作社使用这些数据来为农业生产者提供更好服务;社区计划者使用这些数据为农村居民提供所需服务;立法者在制定农场政策和计划时会使用相关的人口普查数据。

USDA 设有农业统计咨询委员会,通过召开由NASS 与世界农业展望委员会(World Agricultural Outlook Board,以下简称WAOB)、FSA、ERS、AMS、FAS以及美国人口普查局合作组织的数据用户会议,使数据使用者了解对农业重要的各种统计信息计划最近和即将发生的变化,并征求对这些计划的意见和建议。NASS 有关改善农业统计的国际项目在帮助非洲、中南美洲、亚洲以及中欧和东欧的30 多个发展中国家和新兴市场国家发展和改进其农业统计工作方面发挥了重要作用。通过帮助其他国家改善其农业统计系统,USDA 评估世界粮食和纤维产量的能力也得到了提高。与世界各地的其他农业统计学家建立牢固的工作关系,进而有机会收集改进美国农业统计系统的新思路,而接触其他文化和工作环境则可以增强自身解决问题的能力。

NASS 制定了数据调查工作指南,明确了数据范围、内容、频率、方法和用途等。涉农数据统计调查项目涉及:全国农业分类调查,目标产量,农用化学品,农产品价格及价格指数,农业资源管理,作物产量/库存,蜜蜂和蜂蜜,肉鸡孵化场,现金租金,鱼生产,牛库存,牛饲料,农业普查,边远地区农业普查,水产养殖普查,园艺专业普查,鸡和鸡蛋,冷库,保护效果评估,棉花轧花,县农业生产,作物进度/条件,当前农业产业报告,乳制品和价格,农场劳动,花艺,水果和坚果,猪库存,灌溉与水管理(以前是农场和牧场灌溉),灌溉机构,六月区域(June Area),牲畜屠宰,当地食品营销实践,牛奶产量和所有牛奶价格,貂,苗圃和圣诞树生产,非农谷物库存,有机农业,家禽屠宰,绵羊和山羊库存,鳟鱼生产,火鸡,蔬菜,土地使用权、所有权和过渡。

以调查项目“六月区域(June Area)”为例进行简要说明。六月区域调查是国家农业统计局(NASS)年度规模最大的调查项目之一,为整个调查计划提供重要的实用工具。收集到的数据用于提供直接的面积估计和抽样覆盖率的度量。六月区域调查采用区域抽样框架。除阿拉斯加外,所有州的区域框架均按土地用途划分。基于土地面积的主要抽样单位完全覆盖了该土地上发生的所有农业活动,因此也涵盖了该州的所有经营者。从每个土地利用层次中选择将近11 000个分区(较小单元大约2.6km2)作为样本,以进行数据收集。采访在选定区域范围内运营的所有农场经营者。在给定的年份中,在抽样的细分范围内确定大约85 000 个农业和非农业土地使用区域。通过识别,将对在范围边界内经营农场或有资格成为农场的农民进行35 000 多次详细的个人访谈。每5 年,对3000 多个额外部分进行抽样,以作为人口普查的补充工作。

(1)项目内容。六月区域调查的目的是要说明范围边界内的每英亩土地,所有农业活动和土地用途。收集作物面积,谷物库存,牲畜库存,生猪库存,绵羊库存,家禽库存,土地价值,现金租金,农场编号和销售收入数据。

(2)用途。现代农业日益要求提供可靠,及时和详细的信息。关于美国农村的经济数据和统计数据变得越来越重要,六月区域调查在这些计划领域中扮演着至关重要的角色。调查覆盖的农作物,牲畜和经济统计数据有助于建立稳定的经济氛围,并降低生产、销售和分销业务的风险。

(3)频率。六月区域调查每年进行一次。

(4)方法。六月区域调查的数据收集完全在6 月的前两周通过个人访谈完成。此外,被调查者必须检查航空照片以识别每个田间边界并报告种植的农作物。种植面积数据是当前作物年度数据,而牲畜和种群数据是6月1日数据。

(5)其他。六月区域调查为多个遥感项目和地理信息系统研究与产品开发提供了参考,同时也为其他研究项目提供支持。

4.2 美国涉农统计数据在线获取渠道

NASS 仅发布聚合的统计数据,而不发布单个或特定农场的数据。快速统计系统①https://www.nass.usda.gov/Quick_Stats/Lite/index.php(Quick Stats System,以下简称QSS)和人口普查数据查询工具②https://www.nass.usda.gov/Quick_Stats/CDQT/chapter/1/table/1(Census Data Query Tool,以下简称CDQT)是结构化统计调查数据和农业普查数据的最佳来源。快速统计系统可以按产品、位置或时间段等自定义查询,在线获取常用的统计数据信息,并能导出数据文件,提供应用程序编程接口(Application Programming Interface,以下简称API)对快速统计数据库中统计数据信息的直接访问,可以使用PHP、PERL 等任何支持HTTP GET 请求的编程语言调用数据接口。基于Web 的人口普查数据在线查询工具,可用于访问和下载美国“农业普查”出版物中人口等有关表格级数据。在NASS 子网站上发布的VegScape 工具可通过基于卫星的美国作物状况植被评估和监测Web 服务提供数据服务和制图能力,还列出了地理空间数据可视化查询入口,可查看地理空间数据交互式地图,如某些州的土地利用地层、农田数据层、作物景观、灾害分析等。

4.3 基于涉农数据的专业报告

美国彰显其涉农领域影响力的重要方式之一是发布基于数据的专业报告。从数据到报告,USDA 有一套严密的工作机制[11]。USDA 发布的官方报告,都是在WAOB 组织下,由专门的委员会进行审核发布,委员会对报告质量负责。WAOB 协调美国农业部的商品预测项目(包括商品供需预测和中长期农业展望等),监测世界各地的自然灾害等情况,收集全球作物和畜牧业生产数据和进出口信息等[12]。如月度《世界农产品供需评估报告》(World Agricultural Supply and Demand Estimates Report,以下简称WASDER)由WAOB 主持下的多个跨部门商品预测委员会(Interagency Commodity Estimates Committees,以下简称ICECs)召开闭门会议后发布。中长期展望报告虽然由ERS 为主导进行研究撰写,但最终报告审核发布由WAOB 主持下的国际农业预测委员会(International Agriculture predict Committee,以下简称IAPC)负责,成员来自WAOB、ERS、FAS 等11 个部门。报告的发布有明确的先后顺序:每月的WASDER 是后续其他报告的起点,月报发布后,ERS 及其他有关单位才会陆续发布更详细的解读报告以及农场收入、食物价格预测、政策建议等报告;未来十年的展望报告用上年11 月的月度供需报告作为开始点,以确保短期报告和长期报告的内在一致性。

USDA 基于丰富的数据信息资源和强大的分析研究能力,出版发布有系列专业报告,可通过经济、统计和市场信息系统①https://usda.library.cornell.edu(Economics,Statistics and Market Information System,以下简称ESMIS)获取。ESMIS由美国康奈尔大学曼恩图书馆维护,涵盖美国和国际农业及相关主题的2100 多种报告出版物,来自NASS、ERS、AMS、WAOB和FAS等机构。

5 美国涉农数据共享平台

美国涉农数据共享平台①https://data.nal.usda.gov(Ag Data Commons)是存储与粮食、农业有关的研究数据的信息资料库,致力于实现政府资助的研究数据可公开、可访问且可机读,使得其既符合数据公开要求,又能回应公共访问需求。USDA 国家农业图书馆(National Agricultural Library,以下简称NAL)通过数据共享平台提供数据服务,使获得USDA经费资助的项目数据和相关数据产品可查找、可获取、可互操作和可重用。

涉农数据共享平台存储的数据资源涉及农学、基因组学、水文学、土壤、农业生态系统、可持续性科学和经济统计等多学科,数据集标识信息包含标题、描述、作者和开放作者身份标识(Open Researcher and Contributor ID,以下简称ORCID)、发行人、ISO 主题类别、时间、地理边界、数据联系人姓名和电子邮件、标签、相关代码、许可、资金来源、资源标题、资源文件格式、资源链接等信息。涉农数据共享平台对访问和使用的限制很小,用户无需注册帐户或登录即可访问、查询、下载数据集,并能够根据需要选择使用所提供的数据分析软件应用工具(通常链接到外部托管的开放源代码)。涉农数据共享平台中所有数据均带有开放许可证,使用标准DKAN 端点提供所有已发布数据集及其元数据的JSON 列表,以供符合条件的数据被提取列入美国数据门户相应数据目录中,提供的API 可查询所存储的所有数据。CKAN 和DKAN 是国内学者研究的两种主要开源平台[13]。DKAN 是受CKAN启发的基于Drupal的开放式数据平台工具,提供了一个“data.json”索引来满足美国政府对开放项目数据的要求,使政府、非营利组织和大学等能够轻松地向公众发布数据,并由专门提供数字化服务的机构CivicActions 进行维护。DKAN 的设计目标之一是使拥有廉价托管环境的任何人都可以轻松创建开放数据目录,能够非常方便地对接到采用PHP 或Drupal技术框架的项目。

涉农数据共享平台上有专门页面以图表形式展示平台月度运营指标有关情况,比如注册用户数、数据集公开量、下载量、搜索量等。截至2020 年8 月31日,涉农数据共享平台注册用户数为540,提交数据的注册用户数为169(占比31%);公开数据集记录3022 条;2015 年以来最高的月度下载量为2019 年11月份的4335;2020 年最高的月度搜索量为7 月份的1773。

6 总结与展望

从美国涉农数据开放共享情况可看出,美国涉农数据类别多、内容丰富、连续性强、容易获取、方便分析处理,基于或围绕数据形成了多种数据管理信息系统及系列数据产品,设置了专门的数据治理机制、机构,并且在法律层面作出了有关规定。特别是,美国对于政府涉密数据和政府非涉密但敏感数据的分类分级管理极大程度地平衡了数据开放与数据安全之间的关系,还采用多种类型的数据授权协议促进数据安全开放与充分利用[14]。USDA 连续、及时公开发布的生产、库存、供需、消费、进出口、价格等涉农数据信息,增强了市场透明度、提高了市场运行服务效率。美国在国际涉农领域的竞争力和影响力,与其所开展的涉农数据信息资源建设工作成效密切相关。从全球范围来看,未来的农业技术竞争将围绕大数据展开,农业的生产过程正被大数据深刻地影响[15]。未来10 年,美国将致力于推动更快地收集、分析、存储、共享和集成高度异构的农业生产数据集的能力,推动农业领域数据驱动的发展[16]。全面、准确、有效的数据能够为科学决策提供有力支撑,美国开放共享的涉农数据信息资源在日益积累,关注、跟踪美国涉农数据信息资源建设进展、深入研究美国涉农部门数据管理机制和所使用的技术工具,对开展涉农数据信息资源建设及管理工作具有积极意义。

猜你喜欢

农业
国内农业
国内农业
国内农业
世界农业
山西农业
擦亮“国”字招牌 发挥农业领跑作用
新农业 从“看天吃饭”到“看数吃饭”
数据分析挖掘在农业统计分析中的应用
九十九分就是不及格——有机农业,“机”在何处?
中国农业2017年与未来十年展望