桑园土肥水数据库构建与管理存在的主要问题及解决思路

2019-01-06张建华

中国蚕业 2019年2期

王谢张建华

(四川省农业科学院土壤肥料研究所，四川成都 610066)

土壤是人类生活和生产最基本、最广泛、最重要的自然资源。随着全球性的粮食安全、土壤退化、生态环境恶化等问题的日益突出，系统、及时、准确地掌握和管理土壤资源信息的需求越来越迫切[1]。建设“数字土壤”是国情所需，也是教学、科研以及农业、国土、水利、环保等职能部门的迫切要求[1]。2016年5月28日国务院印发了《土壤污染防治行动计划》[2]要求深入开展土壤环境质量调查，提升土壤环境信息化管理水平。目前，许多行业领域[3-7]、省市地区[8-11]已经或正在努力打造本土化和领域化的土壤数据库，这些土壤数据库都将专业性和区域性作为其最重要的亮点展示。国家现代农业产业技术体系针对各个作物体系也提出了打造相应土壤数据库的要求。针对国家蚕桑产业技术体系桑园土壤数据库构建的任务目标，我们结合多年的工作经验，提出了桑园土肥水数据库构建的工作思路。我们认为，桑园土肥水数据库，是指由桑园土壤、用肥、灌溉及与土壤灌溉相关的气象资料等数据综合构成的服务于桑园管理和桑树关联产业的大数据体系。该概念包含2个层次的意义：一层是构建，进行数据展示；另一层是管理和应用，预测相关产业风险，提供决策意见，实现产业的防灾减灾。只有拥有健全的桑园土肥水数据库，并在充分管理和利用该数据库的基础上，才能有效地进行桑园科学研究和桑产业决策管理。如此这般,所建的桑园土肥水数据库才有意义，才能真正地在实现资源和产业可持续化的智能管理和绿色发展中发挥重要作用。

但是，目前在桑园土肥水数据库的建设和储存管理上尚存在资源整合力不足、肥水数据易被忽视等问题急需思考，并寻求解决之法。只有从一开始就认识并解决掉这些问题，才能真正促进桑园土肥水管理以地区为中心，未来才有可能在物联网及认知分析等技术的协同作用下，实现全新的远程技术指导、按需服务和精准化管理。

因此，本文基于多年桑园土壤数据库构建工作的经验和土壤数据库构建与管理中存在的主要问题，并基于“桑园土肥水数据库”的概念，提出解决数据库构建和管理中主要问题的思路，以供同行参考。

1 主要问题

1.1 资源整合力不足

目前，在数据收集和整理上，各种数据的收集、整理和储存工作出自不同的单位或个人，数据相对分散，在一定程度上导致了数据重复、土壤数据收集成本高等问题。而且更为重要的是，这些资源最终很难整合形成系统有效的大数据资料。

1.2 肥水数据易被忽视

众所周知，影响桑园有收没收或收多收少的因素，不仅在于桑园的土壤和气候条件，还在于桑园的施肥制度和灌溉制度。在国家蚕桑产业技术体系等项目经费的支持下，桑园土壤数据库一直在稳中求进地建设中。但气候数据则一直沿用国家气象监测站点的数据，其数据点位与桑园土壤数据点位存在一定的空间差异。而桑园的用肥数据和灌溉数据更容易被统计人员所忽视，目前已经很难找到成系统的桑园用肥或桑园灌溉数据资料，极大地限制了数据的产业服务功能。

1.3 固定性样地缺乏

若只有固定性样地，则容易导致数据量不足、缺乏代表性和普遍性的问题，进而导致策略性数据指标以偏概全；若只有临时性样地，则缺乏系统性和内在关联性，进而导致策略性数据忽略重要节点和内在关联，将特异性问题普遍化处理。目前，桑园土壤数据库的数据收集以临时性样地为主，固定性或半固定性样地数据分散在各个相关研究部门或个人手中，导致数据库中高关联度的连续性动态数据较少，极大地限制了资源-产业生态系统内部调控途经和反馈机制的探索与发现。

1.4 使用交互性差

数据库的管理和存储向来都是由项目业务单位负责。由于项目来源与业务范围的差异，桑园土肥水数据由不同的单位管理，管理方法和手段各异，数据在不同层面做散状分布，进而导致数据在单位之间的交互性和互操作性差，难以协调管理和交互使用。

1.5 新技术应用少

全球信息技术发展飞速，如数据流、web数据管理、数据挖掘、区块链等新技术层出不穷，给数据库的有效升级和利用创造了无限可能。但由于当前桑产业的经济价值与数据工程师创造的经济价值严重不对等原因，各种新技术在产业数据库中的应用比较少。

1.6 存储安全性存在隐患

当前，桑园土肥水数据的安全性和有效性主要取决于该数据的存储单位或个人，一旦其系统受到黑客攻击，存储数据泄密，极有可能会对整个桑、蚕、茧和丝绸产业造成巨大的影响。此外，在技术上，传统的数据库存储主要通过单一不变的标识符隐藏数据和数据主体之间的关系，这种静态的匿名方法具有一定的马赛克效应，存在一定的安全隐患。

1.7 服务功能弱化

在产业应急上，桑园的数据在一定程度上反映了地方产业的风险，特别是在存在一些隐患的背景下，这些数据因在数据存储单位和数据使用单位之间存在空间隔离和权限限制，而不能在产业防灾减灾中发挥应有的作用，造成了其服务功能的弱化。

1.8 数据库相对独立

在数据的应用上，桑园土肥水数据库还具有一定的独立性，缺乏对多数据库之间数据链的整合，前端建库与后端服务应用相对脱离。

2 解决方法

2.1 强化元数据在标准化设计中的通用性

元数据标准必须满足不同领域、不同地域的要求，并被普遍接受和共同遵循[12]。通用性好、界面简洁、灵活、易于操作和被遵循的元数据标准可最大限度地体现不同系统和不同资源的特征，使数据库的构建和交互性使用更加容易和更加具有可推广性。因此，进一步加强元数据的标准化设计，不仅可以方便各研究单位和个人填报，杜绝在元数据实际应用中存在的随意性，从各操作人员的自身角度完成元数据元素项的内容，全面提升数据质量；还可以有效地杜绝“信息孤岛”[13]，促进数据库在产业信息对接中的互联互通、信息共享和业务协作。同时，在适应产业专用领域数据资源的管理与共享的同时，更方便与农业及农业以外的其他领域，如地学领域、生态领域、气象领域等进行数据交换。因此，桑园土肥水综合数据库元数据标准的构建可进一步参考已有的元数据标准，如地理学科领域的Federal Geographic Data Committee元数据标准、生物多样性领域的Darwin Core元数据标准、生态学领域的Ecological Metadata Language元数据标准、气象学领域的Climate Forecast元数据标准和社会科学领域的Data Documentation Initiative元数据标准[12]。

2.2 强化元数据在应对复杂产业结构的灵活性

农业本身是一个庞杂的学科群，涵盖了生物、环境、经济等学科领域，导致其科学数据数量庞大、种类繁多、内容复杂且具有交叉性[12]。但由于不同研究单位或个人对数据的关注点不同，元数据描述的侧重点也不同，大家更倾向于制定自己的元数据标准，导致数据指标体系千差万别。因此，建议各相关研究单位加强沟通，在元数据设计中尽量全面地包含各种科研、生产和管理情况，让元数据发挥的功能更为复杂和多元化。就桑园管理的实际需要和产业发展的真实需求而言，传统的单一的桑园土壤数据已经不能完全满足产业供给侧结构性改革的需求，协同收集和管理肥水气数据将成为桑园现代化管理的一种必然。

2.3 强化各单位在数据构建和管理中的协同性

各单位协同构建和管理数据不仅可以有效地保证数据的安全性，还可以解决固定性样地数据和临时性样地数据采集的代表性、全面性和持续性等问题。因此，率先以现代农业产业技术体系为平台，联合各岗位和综合试验站的力量，通过开放合作、协同创新的联合方式，是全面建设桑园土肥水综合数据库的最核心的技术基础。

2.4 强化数据库与其他数据库之间的特异性

桑园土肥水数据库只是整个土壤数据库或农业数据库或环境数据库的一个很小部分。在未来，如同此类的许多小数据库必然会被全面的系统的大数据库所覆盖，各类同构或异构的数据也必将实现大融合。无论是全球水平、地区水平，还是国家、省、市水平的数据库，本土性、行业性和领域性都是其存在的第一条件，是信息有效的第一保障。因此，在进行桑园土肥水数据库的构建时，必须强化该数据库的特异性，明确其在系统大数据库融合中所能表现的不可被替代性。

2.5 加强区块链技术在数据库管理和服务上的应用

区块链 (block chain) 是用分布式数据库识别、传播和记载信息的智能化对等网络[14]，不仅具有分布式多副本和信息的不可篡改等特点，还具有降低数据库运营的相关时间、成本和风险的优势[15]。此外，区块链技术对商业模式、应用模式都具有庞大而创新的潜力[16]，不仅能够促进数据的聚合，同时能和人工智能进行协同[17]。在这几方面可以弥补上述提出的桑园土肥水综合数据库相对独立、服务功能弱、新技术应用缺乏、交互性差和存储安全性差的主要问题。因此，在未来数据库的构建技术上可考虑采用区块链技术进行数据管理。

3 总结

数据对于产业的提升不言而喻，要想从农业1.0提升到农业4.0，离不开大数据。但数据是一把双刃剑，好的数据可助力产业，不好的数据也可带偏产业。因此，在着力打造桑园土肥水数据库之时，呼吁各相关单位相互协同，在传统桑园土壤数据库构建的主旋律上，规范相关标准，思考相关数据的扩展性和统筹性，为产业的发展奠定数字化基础。