区块链支撑农业大数据安全初探
2020-12-12孙忠富马浚诚郑飞翔杜克明
孙忠富 马浚诚 郑飞翔 杜克明
(中国农业科学院农业环境与可持续发展研究所,北京 100081)
1 引言
中国既是世界第一人口大国,也是农业大国,有着悠久的发展历史。中国以全世界10%的耕地和6%的水资源,养活了世界22%的人口,取得了举世关注的奇迹[1‐2]。改革开放40 年以来,国家和政府坚持把解决好“三农”问题作为重中之重,全面深化涉农工作的各项改革,扎实推进乡村振兴战略,农业农村发生了历史性变革。中国彻底告别了长期存在的“农业短缺经济”状态,结束了长期在温饱线上挣扎的历史。
但与此同时,一些新问题也伴随而生,诸多挑战不断出现。近十几年来,我国粮食生产持续增长,其它主要农产品也实现同步增长,但我国农产品进口量也同时持续攀升,对外依存度趋于增大。另外,受气候变化影响,自然灾害频繁发生、生产成本大幅上升、市场环境异常波动,粮食安全仍然不容盲目乐观。我国农业依然是劳动力密集型和依赖型的产业,但劳动力老龄化趋势很严重,人口红利不复存在,“谁来种地,如何种地,农产品卖给谁”,仍是制约农业可持续发展的重大紧迫问题。我国虽然有庞大的耕地资源,但总体看生产规模小、土地碎片化严重、劳动效率低下,大产业、小农户的现象将长期存在。相对落后和粗放的生产方式,导致农业环境安全矛盾十分突出。我国农业种植业还存在水资源利用率低下、对化肥和农药依赖性过高的现象,对农业产生的大量污染废弃物等,仍缺乏有效的处理和再利用,农业发展与环境的矛盾依然很突出。另外与发达国家相比,总体技术创新能力薄弱、科技贡献率较低,也是限制农业现代化发展的突出问题。有关资料表明,尽管农业科技进步贡献率已经由2012 年的53.5%,提高到2017 年的57.5%、2019 年的59.2%,但相比发达国家的70%‐80%,依旧有很大的差距[3]。解决上述重大问题,必须要有新的发展思路和模式,智慧农业的发展理念和应用技术应运而生,正在成为现代农业进程中的优先发展之路。
本文针对智慧农业、大数据安全及区块链(Blockchain)三者之间的关系进行分析研究,探讨区块链关键技术、技术特点、应用模式等在数据信息安全领域中的应用,以期对未来农业大数据安全发展提供一些参考思路,包括理论和技术依据,推动区块链助力大数安全发展,做好大数据安全顶层设计,更加夯实智慧农业发展的基础。
2 智慧农业与大数据再认知
2.1 智慧农业是趋势
近年来,新一代信息技术突飞猛进发展,快速向农业各个领域融合渗透,为解决农业存在的一些瓶颈问题,开创了新的发展空间。在这一过程中智慧农业发展模式应运而生,其发展理念和技术也不断得到提升和完善。早在上个世界90 年代末,人类开始步入信息技术时代,其重要标志就是以计算机和互联网为代表,从不断成熟到普及应用,推进人类社会从工业革命时代向信息革命时代的转变。进入21 世纪,新一代信息技术更是以前所未有的爆发力,推动人类社会发展的进程,它以数字化,网络化,智能化为特征,不仅催生了数字经济,也助推了各领域智慧产业迅猛发展,如智慧交通,智慧医疗,智慧金融,智慧政府等等,这其中当然也包括智慧农业。各种智慧产业为社会和经济发展提供了新动能,引导了传统产业转型升级,培育壮大了新兴业态,推动了市场与消费模式的巨大变革。
要加快发展数字经济和智慧产业,离不开信息技术基础建设。近年来国家和政府十分重视信息技术的基础建设,并不断完善形成了“新基建”的发展理念。早在2018 年12 月中央经济工作会议上,首次提出了“新型基础设施建设”的基本思路。关于“新基建”的内涵有不同的解读,但其主旨就是为了推动新一代信息技术基础设施建设、加速促进数字经济发展。为了实现这一目标,需要有与之相适应的新型数字基础设施,即由新一代信息技术演化生成的基础设施。其重点包含三个层面:一是通信网络基础设施建设,以5G、物联网、工业互联网、卫星互联网为代表;二是新技术基础设施建设,以人工智能、云计算、大数据、区块链等为代表;三是算力基础设施建设,以数据中心、智能计算中心为代表。2020年3月以来中央政府连续发出加快新基建创新应用的政策,新基建再次被提到新高度。通过以“新基建”为牵引,夯实经济社会高质量发展的“底座”和“基石”,将为智慧产业的发展带来前所未有的机遇[4‐5]。由此也可以预见,作为国家智慧产业的重要组成,智慧农业也将迎来一个来新的发展机遇。
从技术层面看,智慧农业的发展,得力于新一代信息技术的支撑,包括物联网、大数据、云计算、人工智能等技术。近几年随着区块链(Blockchain)的兴起,添加了新的驱动要素,进一步增强了创新驱动力。智慧农业强调通过信息和知识的挖掘与整合,形成智慧的决策和控制等应用。物联网为人类嵌入了千里眼和顺风耳,人工智能技术,逐步解放人的体力劳动,进一步提高了劳动效率和生产力。尤其是大数据被誉为新型矿源和新型石油,对其深度挖掘应用,为科学发现和科学管理提供了智慧大脑。传统的观点通常认为人类大脑处于智能思维顶峰位置,但随着大数据挖掘和深度学习技术的提高,在有些领域将可能颠覆这种认识。例如AlphagoZero 的围棋博弈能力已经超越了人类顶级棋手,其背后就是基于棋谱大数据的深度学习方式。未来农业领域中各种机器人和智能设备、决策分析系统,通过大数据的应用和深度学习,就会成为管理决策的智囊、农业生产的专家,市场经营的高手。
2.2 大数据是核心
在大数据时代,数据就是资源,数据创造价值,谁拥有数据就意味着孕育产生出智慧成果,创造出巨大财富。大数据是信息技术高速发展的必然产物,农业大数据是大数据在农业领域的应用和实践,因此与大数据的基本理论和技术是一致的,但涉及具体应用时也有其特殊性,这方面已有很多的探讨和研究,不再赘述[6‐8]。
另一方面,对大数据的理解不仅仅是限于一项信息技术的变革,更是一场能为经济发展带来新驱动力的变革。随着大数据的深入发展和普及应用,不仅催生一种新的经济范式“数字经济”,也推动了数字经济的成长与繁荣[9‐10]。今后对数字经济的依赖程度,是衡量一个国家经济实力的最重要指标,也是最具潜力和持续性的指标。人类对数据的认识,也不断升华,人类社会正在从IT(Information Technology)时代走向DT(Data Technology)时代,这个时代的核心资源已经不是石油而是数据,大数据是推动数字经济发展的新能源[11]。有学者认为,我们正在进入数据资本的时代,并将数字经济的发展划分为四个阶段:数据的“前天”,即数据资料阶段;数据的“昨天”,数据产品阶段,当数据被用来组成服务时就成为资源,形成产品;数据的“今天”,即数据资产阶段,数据是产生财富的基础,是组成资产的一部分;数据的“明天”,即数据资本的阶段,是使数据资产连接其价值的时代,对数据资产进行流通和交易以实现其价值,使其转换为资本[12]。数字农业是数字经济的理念和技术在农业上的应用和实践,也是智慧农业的重要内容。当前随着现代农业的发展,数字农业这一理念得到了越来越深刻认知,数字农业是农业发展的又一次革命,已在全球形成共识,并将成为农业变革的引导力量,数字农业革命时代已经到来[13]。
2015年8月国务院印发了《促进大数据发展行动纲要》,在总体上提出了一切让数据发声、用数据说话、用数据决策、用数据管理、用数据创新的发展理念,另外还专门提出了建设现代农业大数据工程的规划。特别是作为三大发展任务方向之一,明确提出了“强化安全保障,提高管理水平,促进健康发展”的总体战略:一是健全大数据安全保障体系,二是强化安全支撑。具体包括加强大数据环境下的网络安全、大数据网络安全技术,建立健全大数据安全保障体系;加强大数据环境下防攻击、防泄露、防窃取的监测、预警、控制和应急处置能力建设,等等[14]。就智慧农业的发展而言,对大数据的需求和应用将不断增加,在大数据获取、数据安全、物联网安全、数据真实性、网络诚信、知识产权归属等方面,所面临诸多问题,也必然不断深化,其产生的影响将不断扩大。
3 大数据安全现状分析
2016 年4 月19 日在国家网络安全和信息化工作座谈会上,国家主席习近平强调指出,网络安全和信息化是相辅相成的,安全是发展的前提,发展是安全的保障,安全和发展要同步推进。安全与发展是大数据面临的二大主题,如同一体之二翼缺一不可。随着新一代信息技术日新月异的发展,数据呈爆炸式增长,甚至超出了人类处理数据的能力,总体上看数据越大,监管与治理的难度也就越大,尤其是在网络大环境下,大数据资源的开放,数据流通和应用共享等,导致更多风险和危机产生。有资料分析显示,目前大约85%以上的数据(主要是非结构化的数据),被闲置或无能力开发使用,数据孤岛、数据鸿沟、数据无监管、数据滥用等现象普遍存在,不仅带来了对数据管理的难度,并产生了很多安全隐患,甚至出现管理空白区。
随着大数据的深入发展,还出现了另外一些新的问题。数据作为基础性战略资源的地位日益凸显,人们对数据的认知更加重视,对数据的价值,对数据的获取和保护意识等日益剧增。对数据确权、数据质量、数据安全、隐私保护、流通管控、共享开放等问题更加关注,对数据的主导权、控制权,以及相关竞争日趋激烈,安全性挑战日趋严峻。从技术上看,为了更好地挖掘数据中的价值,数据交换与共享是必然的选择,但由此也打破原有的安全边界,增加了数据管理难度,带来了更多安全风险,这里不仅涉及到网络安全,也涉及系统安全等新的问题;另一方面,由于大数据资源具有巨大价值吸引力,针对大数据资源的窃取、攻击与滥用等行为也越来越严重,对数据安全防护能力提出了更高的要求[15‐16]。随着大数据深度应用,除了技术问题,如何强化完善数据治理体系建设,甚至解决其出现的一些法律法规问题,都已经成为当前世界各国关注的焦点。
3.1 大数据安全面临的窘境
大数据系统的建设与应用,关键是安全与可信,没有安全和信任就没有应用,没有应用就不可能发展。当前社会一方面沉浸在大数据爆炸的海洋中,享受无处不在的大数据服务,但同时又深感大数据的缺乏,可以用“人人有数据,人人缺数据”这样的现状来形容。尤其在企业级或具体专业领域时,此种现象更为突出,大数据应用中还存在很多尴尬和困境。下面普遍存在的“四不”现象,广义上讲都属于大数据安全的问题。
一是“不知道”:不知道数据来自何方,存在何处,不知道、不会找、也找不到,等等;
二是“不情愿”:即使数据在我手,但不情愿分享。其原因较复杂:从客观上讲,数据价值无法有效确认,知识权益也得不到应有的保障;从主观上讲,“利己”主义的本能所致,人人都想尽可能使用他人的数据,但不愿意分享自己的数据。俗话说“不用白不用,用了也白用”,就是最好的写照。
三是“不敢用”,这主要是指数据的安全性问题。例如广泛存在对大数据底细不清、系统安全状况不明等情况,存在数据黑箱现象。首先是如何保障开放数据后的整体安全性,另一方面使用者如何确认数据的真伪、确保数据的质量。在数据安全上,不仅要对大数据自身进行安全防护,还需要对大数据使用进行安全监督。在实际情况中,常常因为存在上述问题,导致对大数据应用的担忧甚至恐惧。
四是“不可用”:首先是受制于大数据技术的短板,导致大量有价值的数据未被激活或进入流通共享;其次在利益藩篱制约方面还存在不少问题,例如涉及侵权认定、权益保障、价值激励等问题得不到解决,必然限制了数据的正常开放使用;另外,在涉及大数据分析技术上,如何对多中心大数据进行处理,还存在很多挑战性难题。如果这些得不到解决,必然导致数据不可用、不会用[17]。
3.2 大数据安全问题分析
3.2.1 基本概况分析
大数据安全风险主要有三个方面:一是,数据开放增加的风险,网络时代的优势就是互联共享,但这是一把双刃剑,其中既有善意的应用,也有恶意的攻击和破坏,从国家安全层面看,甚至有网络强国为抢占网络空间主导权,开展网络战、网络间谍战、构建网络恐怖组织等;二是,数据流通过程产生的风险,这里包括数据采集、传输和存储过程中诸多风险;三是,数据应用产生的风险,既包括大数应用处理不当产生的风险,如决策失误,信息泄露等,也包括应用大数据进行网络攻击,利用网络漏洞和隐私泄露进行非法活动,导致网络应用攻击和漏洞向常态化、批量化、规模化方向转化。从大数据应用主体来看,个人、企业、政府、社会、国家等大数据应用不同层面都存在相应的安全问题。
导致大数据安全风险的根源,既有技术自身不成熟的原因,也有法律法规不健全等因素[18‐19]。
从技术层面看,首先,大数据技术的本源是现代信息技术发展的产物,如计算机、网络技术,智能终端等的普及应用,产生大量的数据。大数据促进了数字经济,推动了社会的发展和进步,但是现代网络信息技术是一柄双刃剑,它也带来了一系列的大数据安全问题。例如:天下没有免费的午餐,你可以方便连接世界,但也可以被世界所连接。当你方便地使用了别人的资源,当然别人也可以使用你的信息资源。其次,大数据自身技术发展还不完善,例如大数据的获取、存储与处理等技术,仍需要不断发展。大数据的安全是多方因素构成的,例如存储应用都置身于网络环境中,因此网络和系统的安全也决定大数据的安全。
从法律法规上看,我国2017 年6 月开始实施的《网络安全法》,对大数据发展涉及的相关安全问题进行了法律规范和引导,并提出加强个人信息的法律保护。但是,从整体上看,中国在个人隐私安全、国家大数据安全、大数据安全技术研发、大数据应用安全等方面的法律法规建设,都亟须进一步发展和完善。尼葛洛庞帝(Nicholas Negroponte) 认为,世界“大多数的法律都是为了原子的世界,而不是比特的世界而制定的……电脑空间的法律中,没有国家法律的容身之处”[20‐21]。
从标准和应用层面看,首先,大数据应用安全标准相对缺失是造成安全威胁的一个重要根源。大数据挖掘技术带来数据滥用的风险,通过深入挖掘和分析,仍然能够对匿名隐私数据进行重新定位识别,引发隐私信息泄露,等等。其次,大数据挖掘技术还可能带来数据滥用的风险,在商业上如大数据杀熟、价格歧视等。进入大数据时代,必须面对两个重大问题,一是如何从大数据中获取真金白银,即挖掘大数据的真正价值,另一个是要有安全意识和防范部署,充分考虑应对各种信息泄露、信息滥用和网络攻击等安全风险,切实做到未雨绸缪、防患于未然。正如Gartner 论断的那样:“大数据安全是一场必要的斗争”[22‐23]。
综上所述,大数据安全面临十分复杂的挑战,大数据产业发展与大数据安全同步推进,才是大数据正确发展必由之路。为此全国信息安全标准化技术委员会在2019 年发布了《大数据安全标准化白皮书》,就指出了大数据产业化发展面临的安全挑战,重点强调三个方面:一是,关于建立法律法规与相关标准问题,分析了国家和社会面临的大数据安全挑战,以及相关的法律法规和标准尚存在的短板等;二是,关于数据安全和个人信息保护问题,针对个人信息泄露、数据真实性保障、数据权益保障等,分析提出了一些安全问题;三是关于大数据技术和平台安全的挑战,大数据平台是大数据研发应用的基础平台,如果缺乏安全机制,意味着应用根基不稳,很难适应互联网开放环境下数据安全的需求。一些新的技术如访问控制、密码学等也面临巨大挑战[24]。
3.2.2 特殊问题分析
数据信息安全是网络时代的重要问题,而大数据因自身的特征而“树大招风”,一直是网络攻击的重要目标,也是开展数据安全保障的重镇。数据信息安全主要涉及大数据基础设施安全、大数据存储安全、大数据隐私泄露、大数据持续性攻击等。
基础设施安全问题是大数据安全最核心最基础的环节。如果基础设施不安全,就意味着面临数据传输受阻、数据被截获或篡改、被窃听假冒、数据完整性遭破坏等风险;还包括通过网络传播病毒,导致拒绝服务攻击(DDoS),等等。
非结构化数据带来的安全问题。大数据时代,多样化数据大量涌现,在数据存储和管理、数据属性及来源认证等方面存在巨大隐患;数据结构复杂化、来源分散、整体性差、共享开放性增加等,导致对数据的跟踪与审核非常困难。
大数据存储的安全问题。大数据要涉及到复杂技术对存储设备进行监管、控制和防干扰攻击等。这里有两个问题需要注意:一是,将不同类数据违规存放的问题,将造成数据管理不合规,导致安全隐患。二是,关于数据存储过程中需要进行安全扫描和识别问题,常规的技术手段效率低下,已经远远不能适应大数据的实际需求。另外,大数据呈现出快速增长势态,而常规安全技术则经常滞后,因此难以承担为大数据安全保驾护航的重任。
大数据隐私泄露问题。要进行数据挖掘与分析,就不可避免地涉及一些隐私数据,任何机密数据都不可能绕过核心管理人员,所谓的监守自盗、家贼难防,在这里都能体现的淋漓尽致。所以管理人员的道德素质和自我约束,对管理人员的管理就十分重要。在这个意义上说,任何数据都不存在绝对的安全,如何确保数据安全和隐私不被泄露,就成为大数据时代十分突出的焦点问题。另外,在技术上层面上看,传统的数据管理依赖结构化的SQL 技术(SQL‐Structured Query Language,泛指结构化查询语言),而大数据更多采用NoSQL技术(NoSQL,泛指非结构化的查询语言),后者内在安全机制还不健全,尚需要不断改进提升,另外在访问控制和隐私管理机制上缺乏严密性,在机密性和完整性上都需要加强研究。
大数据技术本身是中性的,但大数据的使用则带有不同的目的性,在大数据环境中,网络攻击和黑客破坏出现了明显的三个变化:一是,攻击变得“更精确”。黑客可以通过大数据技术搜集窃取更多信息,开展网络攻击,比如可以从各种社交网络平台、电子商务系统、个人微博和邮件、地理位置和联系电话等获得大量有用信息,大数据技术一旦被黑客应用,让攻击变得“更加精准”;二是,攻击变得“更隐身”。大数据技术既可作为攻击手段,也可以将攻击行为隐藏在茫茫数据海洋中,使得传统监测技术真伪难辨,导致攻击变得“更隐身”。例如高级可持续攻击(APT)技术,就是将代码隐藏在大数据中,很难被发现。大数据的海量和价值低密度特征,分散了安全分析工具对价值点的关注,给黑客以更多隐身的机会。另外,攻击者还会通过设置陷阱,误导目标信息提取和检索,引导使用者走向安全监测的歧途;三是,攻击变得“更有力”。僵尸网络攻击(Botnet Attack)是黑客经常采用的一种技术,通过这种技术可以控制数以万计甚至更多傀儡机协同攻击,实施群体联合作战,使攻击行为变得“更强有力”。
总之,任何涉及数据存在与应用的地方,数据安全问题就必然存在,对数据的治理需求就必不可或缺。在大数据时代,不可避免地面临诸多挑战,构成了大数安全问题,包括智能设备和物联网安全可控、大数据真实可靠性、网络交易诚信、数据权益和知识产权归属等。作为智慧农业的核心基础,上述问题不能有效解决,智慧农业的根基就不稳固,更谈不上持续发展壮大。近几年以来,随着区块链(Blockchain)技术的兴起,使人们在深感数据安全更多危机的同时,也看到了未来希望。因区块链具有的与生俱来的数据安全基因,可能为大数据安全治理、大数据安全可控,提供新的发展机遇和拓展应用空间。
4 区块链支撑大数据安全发展
4.1 区块链的内涵
2008 年中本聪首次提出区块链技术架构,创建了比特币,奠定了区块链的理论基础。随着区块链的深入发展,区块链的内涵也不断发展。简单地讲,区块链是一种去中心化的分布式网络数据库,也称分布式总账本,将数据区块按时间顺序(时间戳),组合成链式数据结构,并以密码学技术保证数据不可篡改、不可伪造,实现网络共建共管,确保了数据安全和可信度[25‐26]。
区块链技术突破了传统中心式系统架构的缺陷,塑造了完善的安全机制,这种机制并非单一构成,而是由多个安全机制的集成组合。共识机制是基于在分布式网络条件下,达成各节点的高效共识,消除数据“霸权”,构建一种安全可信的网络数据环境。防篡改机制是区块链安全机制的根本保障,可追溯机制是区块链安全保障的核心,运用不可篡改的时间戳技术,就可实现数据防伪追踪、安全溯源。区块链还能够降低中心化带来的风险,这主要是通过智能合约机制,并与数据安全技术紧密结合,依赖分布式计算处理技术来实现。如果从数据安全的基本要求出发,区块链和数据安全的结合分为两个层面:一是区块链自身的数据安全问题,俗话说打铁还需自身硬,区块链自身安全是前提;二是区块链如何发挥其自身技术优势,应用于大数据安全领域。如果从技术研究的角度,区块链在信息网络安全领域的关键技术,主要包括认证技术、访问控制技术、数据保护技术等[27‐28]。
区块链技术最早来源于比特币系统,为解决加密数字货币的获取和支付以及共识问题,成功创新应用了密码学、智能合约、共识算法、分布式计算等多种技术的组合,使其在去中心化的对等网络(P2P)中,保证了交易记录的真实有效性。其重要的潜在价值还在于,不通过第三方中介机构,实现数据的不易伪造、不可篡改、方便追溯、实现共建共享等功能特性,构建了一种低成本高可靠性的数据基础平台。经过近几年的发展,区块链技术不断升华,认知度也在不断深入,甚至被认为是价值互联网以及未来进一步构建秩序互联网的基石。
如果仅仅将区块链视为是一个纯技术应用,那未免有些狭隘,区块链的博大精深思维和理念应有更广泛的应用价值。当前学术上有一种观点认为,随着区块链的深入发展和普及,将孕育第二代互联网的诞生。在互联网发展史上,基于TCP/IP 协议的第一代互联网解决了信息的自由传递、信息的流通,实现了信息互联网。随着区块链理念与技术的深入发展,将推进由信息互联网到价值互联网的转变,最终实现秩序互联网,所以区块链被认为是第二代互联网,当然这种观点仍在不断讨论和发展中。区块链技术,使数字资产价值在网络环境中高效流通成为现实,进一步奠定互联网信任机制的基础,这就是价值互联网的意义所在。当前的互联网还存在信息虚假、数据滥用、恶意侵权等无序和不安全等乱象,基于区块链有望构建一个更加和谐有序、安全稳定的互联网世界。区块链使得互联网从中心化互联网走向分布式互联网,数据安全和保护极大提高,维护了互联网的安全秩序,建立了互联网诚信。安全和信任是区块链的本质,信任源于安全,安全强化信任,二者从来都是相辅相成,互为支撑发展,从这个意义上说,区块链有望从基础和架构上解决数据安全和互联网信任问题[29‐31]。
4.2 区块链与数据安全
4.2.1 区块链安全特质解析
区块链因其固有的安全特质,在涉及数据安全领域的融合应用一直被广泛关注,甚至被认为是一种数据安全“不可攻破”的技术。这种观点尽管并不严谨,甚至没有得到很好地验证,但足以说明区块链的安全价值和技术优势。当前区块链在很多领域都有很多探索和应用,如金融领域、信息管理领域等,其中在数据与信息安全领域融合发展,是区块链研究的一个重点。在数据信息安全领域,随着新一代新技术飞速发展和普及应用,对认证技术、访问控制、数据保护等信息安全技术提出了前所未有的更高要求。在具体应用中,需要平衡解决一些关键按技术融合实现问题,区块链具有的开放共识、去中心化、匿名私密性、可追溯和不可篡改等特点,都是其特有的与生俱来的安全基因,恰与数据安全的需求很好相吻合。应用区块链系统自带防身术的特征,非常有利于加强数据安全基础的建设,所以区块链特质基因与大数据深度融合,将是确保大数据安全应用的重要发展趋势[32‐33]。
在分析区块链的数据安全中,涉及到安全机制、共识机制、数据保护等诸多理念和关键技术,对理解和认知区块链安全特质,以及如何应用于大数据安全设计与管理过程都十分重要。安全机制是最为核心与关键的组成部分,尤其在公有链中,存在诸多安全机制与协议需要研究:如隐私安全和密码算法、共识机制和智能合约、数字账户(钱包私钥保护)、离链(链下)交易控制,以及这些安全与协议如何升级的机制等。区块链很好地融合了数学算法、密码学、计算机与网络科学(对等网络、分布式存储等)等多门学科技术,确保数据既可追溯,但又不可篡改和不可伪造,达成民主与共识的统一,这是确保区块链数据安全与信任的关键所在。密码学保证数据真实性和可靠性,其共识机制则实现全网共管共建,使“坏人”无处匿藏、无处下手、“好人”可多劳多得。如何设计好共识机制,也是区块链应用的重要环节,它除了影响系统的安全性,还涉及到应用的可扩展性和去中心化程度。
数据安全涉及的内容十分广泛,目前广为关注的可归结为三个方面,即机密性、完整性、可用性三个核心方向,也相应产生了不少创新性研究成果,而且随着区块链技术的研究与发展,区块链在数据安全领域的研究已不断超越扩展[34‐36]。数据保护技术的核心是实现对数据机密性和完整性保护,实现数据安全和可用性。数据的机密性是指在没有获得合法授权的条件下,数据不被访问和解读的属性;数据完整性是指保证数据真实可信、可用有效、未被篡改的属性。另外,如何考虑将区块链安全机制融合于大数据安全设计和系统架构中,有一个很重要的问题需要关注。目前区块链技术对每个区块的容量有一定限制,例如比特币一个区块不超过1M,这对大数据的海量数据是难以承受的。比较可行的设计是,针对数据规模的不同可分别采用二种方案,一是针对于小规模数据,可直接采取链上数据保护技术,而对于大规模数据,则可采用链上与链下相结合的数据保护方案,这些技术有待结合具体应用开展更进一步的深入研究,不在此赘述。
4.2.2 区块链如何助力数据安全
从上面分析中不难看出,区块链在数据安全应用中的特殊地位和巨大潜在价值,区块链如何支撑大数据的安全,势必紧密围绕区块链的安全特质和关键技术展开。深入挖掘区块链的安全基因,与区块链关键技术的深度融合,是大数据安全发展的重要趋势。区块链的数据安全技术主要集中在以下三个方向:
(1) 区块链数据的机密性
在数据安全领域,关于数据机密性的解读也不尽相同,但基本内涵是一致的,即数据不能被非授权者,包括应用个体和实体、系统进程利用或泄露的特性。数据的机密性程度在很大程度上决定了数据安全性和可靠性程度,是数据安全的第一道防线。面临复杂的分布式网络环境,数据机密性设计是否健壮,直接影响到数据安全性,如关系到数据泄露、盗用、滥用的潜在风险,如果数据被深层次挖掘和恶意应用,可能给个人隐私和企业利益,甚至国家安全带来安全灾难。当前数据机密性保护的研究主要围绕五个方面展开:身份认证、访问控制、数据加密、可信计算和隐蔽通信等技术。
第一是数据加密。密码技术与区块链的结合已成为重要的研究方向,为满足区块链的各种特殊安全需求,如何将新型密码技术与区块链应用平台相结合,已成为研究聚焦点所在。其中涉及到很多新的密码学的技术,主要集中在可搜索加密、属性密码、安全多方计算(Secure Multi‐Party Computation)、代理重加密(Proxy Re‐encryption)、同态密码(Homomorphic Encryption),等等。
第二是身份认证。这是对合法用户身份进行鉴别的一种信息安全技术,也是计算机及网络环境中的核心安全技术之一。基于区块链构建的分布式公钥管理基础设施(PKI‐‐Public Key Infrastructure),对用户身份进行管理起着重要的作用。PKI是集成性技术体系,包括计算机软硬件、权威管理机构及应用系统的结合。基本原理是通过可信第三方认证服务器,实施对用户特征进行辨识。具体包括用户所拥有(如身份令牌、数据证书)、用户所认知(如用户口令、密码),以及用户生物信息特质(如人脸、虹膜和指纹)来确认用户身份。身份认证基于公共总账来建立的PKI,能够消除PKI的信任,实现真正的分布式PKI建设。区块链和身份认证的结合主要包括两个方面:一是,应用区块链技术构建去中心化PKI,为各类应用系统提供身份认证支撑;二是,应用区块链自身去中心化技术,构建类电子身份认证系统,对用户的身份进行辨识管理。后者能够有效降低PKI建设的成本,实现用户身份的轻量级认证(Light weight Authenti‐cation),使管理秘钥相对简短、不依赖认证中心、认证效率大幅提高,从应用角度更加可行实用。
第三是访问控制。访问控制技术就是通过控制,保护合法用户对资源的访问和使用权(包括对新用户的授权),限制非法用户的侵入和使用(包括剔除违规用户使用权),从而保证信息业务服务顺利运转和系统安全。目前主要围绕两个方面开展:一是,对交易实施策略和权限的控制,应用区块链的技术,让所有链上数据记录对所有用户可见透明,但又不可被篡改,通过实现公开透明的访问控制,对访问控制的策略/权限进行有效管理。这就需要将传统访问控制的数据信息与区块链技术进行结合,也就是将区块链中的身份和帐户验证、网络交易与智能合约等技术进行充分结合。二是,关于智能合约访问控制。智能合约是存储嵌入在区块链上的程序代码脚本,是一种“能由计算机执行合同条款”的交易协议,其最大特点是,在没有第三方参与监督的情况下,只要满足预先设定的合同条款,程序代码自动启动运行,完成交易合同。其具有的客观公证、隐私保护和高效率是非常明显的。由于智能合约具有这种自动强制执行的特点,如何将其应用于实现对资源的访问控制,也是未来一个很重要的研究方向和发展趋势。
(2) 区块链数据的完整性
关于数据保护问题,数据机密性和完整性是数据保护的二个核心技术。基于区块链数据完整性保护技术,有三个重要研究方向:首先是涉及数据确权与溯源问题,包括对数据源归属的掌控和确认、数据应用流动去向、数据应用全程可追溯与可记录等;其次是如何建立可信日志审计系统,通过动态地采集各种硬件设备、以及各种软件系统产生的海量日志信息,实现系统安全运行态势的诊断,提供全生命周期的可信日志管理;第三是区块链如何应用到具体行业领域的问题,这应根据行业数据特点和业务需求,有针对性地将区块链安全基因融合其中,实现数据完整性保护功能。区块链是一种块式网络数据存储架构,而每一个数据区块的容量大小都有一定限度,从目前的技术上看,还难以实现大规模数据的存储。这实际上涉及二个问题,一是区块链如何大数据化的问题,另一个是大数据如何区块链化的问题,是今后大数据与区块链融合研究的重要内容,不在此赘述。为了解决上述问题,目前可根据数据规模大小,采取二种解决方案:一是数据直接链上保护,对于小规模数据,可基于区块链不可篡改、时间戳等技术,直接应用于链上数据的保护,确保了数据的真实性和完整性。二是采用链上与链下相结合的保护技术。主要采用了一种能够实现二者融合的数据保护框架,基本思路是将有关数据管理中的关键敏感数据与实体应用数据存储分离,依靠区块链技术存储关键敏感信息,如数据索引、标识、注释等重要管理数据信息。而将实际应用的数据信息,包括无需加密的共享数据或一些需要加密的隐私数据,都可存储在其他链下节点上(如数据服务器)。通过链上链下互动,实现二者融合应用。在这种解决方案中,应用区块链技术对数据索引及操作权限进行管控,而大量实际数据集中存储于专用的数据服务器中,较好地解决了大数据与区块链融合的问题,是一个很有价值的研究和应用方向。
另外,数据完整性还体现在多个阶段,如数据采集传输、数据存储和数据使用等阶段,每个阶段出现缺失,都影响到数据的安全与可用性,通过整体性分析能够容易识别出存在的各种损坏和攻击数据的隐患和行为。在大数据环境下,数据可用性是一个系统性复杂的问题,数据作为智慧产业和数字经济的重要基础性资源,其完整性和可用性将对各方面产生重要影响,包括机器学习、模型构建、数据挖掘、计算结果以及构建高质量大数据系统等。其面临很多挑战,很多技术都需要不断开拓和研究创新。
(3) 区块链数据的可用性
数据可用性的内涵包括五个基本内容:一致性、精确性、完整性、时效性和实体同一性。首先必须在数据格式、表达、描述上有统一的规范性,其次,数据应具有足够的精确性和代表性。再次,数据中的价值大多由其完整性和时效性所决定,数据的不断更新非常重要,即数据的动态性。数据可用性还需要解决判定标准问题,如何从理论上判定,如何定量地评估等等。区块链采用分布式数据存储解决方案,通俗讲就是“鸡蛋不放在一个篮子里”,自然就避开了单点数据失效的风险,拓展增强了数据可用性和安全性,为实现更加健壮安全的数据管理奠定基础。另外,区块链采用的共识协议一致性算法,如工作量证明(PoW)、权益证明(PoS)和委托权益证明(DPoS)等,能为系统节点数据完全一致性提供技术支撑,可为分布式系统的一致性实现提供一种有效的解决方案。在实际网络环境中,数据的可用性常常因网络攻击而遭到破坏。例如常来自于分布式拒绝服务攻击(DDoS‐Dis‐tributed denial of service attack),都会带来很多数据安全的风险,区块链在抗攻击能力方面的优势也是不言而喻的[37‐40]。
(4) 区块链与大数据差异性分析
区块链技术对大数据安全的提升是毋庸置疑的,但区块链与大数据二者自身的特质还存在很多不同之处,如何解决二者的互补融合,还面临不少问题和挑战,需要不断深入研究。一是面对数据结构的差异化。大数据的主要特征之一就是以非结构化的数据为主,所计算处理的多为非结构化数据,而区块链处理的数据多为严格定义的结构化数据结构,基于数据指针形成区块链条,其结构化特征十分明显;二是整合性与独立性的差异化,大数据强调数据信息的整合分析,注重多源数据的分析,甚至错误的信息也很重要,区块链系统则强调信息的安全性,真实可靠性,信息是相对独立的;三是间接与直接的差异化。大数据有着广泛的内涵,是一个综合技术体系,包括对数据获取、清洗、存储和挖掘应用等,在某种程度上是一种间接的数据;而区块链系统本身就是一个完整的数据库系统,强调数据完整性和一致性;四是在数据与数学应用上的差异化。大数据试图用数据发声、用数据管理、用数据决策;区块链试图用数学算法证明一切,智能合约通过程序代码执行交易,赋予一种“代码即法律”的地位,其中的密码学和共识算法,都充分体现出用数学说话的特质;五是个性化与匿名化的差异,大数据的针对性和专业性很强,体现出明显的个性化和专业化应用;区块链具有隐私匿名性,账本是公开的,拥有者是匿名的,这与传统金融管理刚好相反,即账号是公开的,账本是保密的。六数据存储容量的差异化,大数据存储只受物理硬件设备的限制,而区块链则受到每个区块容量大小的限制,如何接纳海量数据是一项挑战性的任务。
综上所述,如何协调平衡众多的差异性,实现协调发展,是大数据与区块链面对的挑战性难题。大数据以淡化一致性为代价,获得可用性和分区容忍性的提升,而区块链则强化一致性,以降低可用性和容错性为代价[41]。根据布鲁尔定理,作为一个真正的分布式应用系统,区块链本身也存在一个称为“不可能三角”或“三元悖论”的问题:即“可扩展性”、“去中心化”、以及“安全性”这三个要求无法同时满足。
通过以上分析可看出,应用区块安全特质,能使大数据更加安全、可信可用,从中挖掘出更大的价值。但区块链与大数据的结合不是简单的堆积和叠加,要通过不断研究二者之间的特征与差异性,利用彼此的技术特点,实现优势互补,取长补短,才有可能设计出真正的基于区块链技术的大数据安全系统。
5 讨论和建议
当前总体上区块链在农业领域的应用还处于起步阶段,在很多具体专业领域还是空白,真正全面应用区块链技术、规模化应用的成功案例并不多见。但近年来国内一些相关学术研究也提出不少设想,设计了一些区块链农业应用场景,对发展农业区块链具有积极的推动作用[42‐45]。区块链技术的研究和应用是互相促进的,如何构建安全、可靠、高效、可扩展的区块链系统,还存在很多挑战。将区块链技术应用于农业大数据安全,属于农业区块链研究与应用的重要方向之一,是一个暂新的课题,值得更多的思考与探索。
我国政府已经将区块链和经济社会融合发展作为重要目标,其重点是如何推动区块链核心技术的突破,为数字经发展提供安全可控的技术支撑。目前关于区块链的研究很多仍停留在理念和场景设计阶段,但也有一些关键技术正孕育新的突破。另外,关于区块链的发展和应用不仅仅是技术问题,从更高战略发展层面看,甚至涉及到国际话语权和规则制定权的问题。区块链作为第二代互联网或构建秩序互联网的基石,其具有很强的扩张性,或者叫排他性甚至侵略性,抢占它的规则制定权或者话语权决定了其未来影响范围。对于每一个区块链的具体应用,其个体或机构必须服从区块链的顶层规则和标准规范。而区块链则有可能确定了产业治理规则,区块链的治理规则凭借其分布式特征,其影响力可迅速超越国界和地域限制[46]。
随着数字农业和智慧农业的不断发展,区块链技术作为新的支撑要素,将迎来更多发展机遇。农业部等有关部门于2019 年12 月底发布了《数字农业农村发展规划(2019—2025)》,其中对区块链的研发任务进行了部署,进一步明确了农业区块链的发展方向。该规划明确指出要加快推进农业区块链大规模组网、实现链上链下数据协同、加强农业区块链标准化等基础性研究,同时推动区块链技术的落地应用,包括在农业资源监测、质量安全溯源、农村金融保险、透明供应链等方面的创新应用[47]。
针对区块链和大数据安全发展的问题,提出以下几点建议。
(1)继续提高对区块链思维和关键技术的认知能力。关于对区块链的认知和解读,很多学者认为区块链也是当前信息技术领域中最复杂、最难理解的技术之一。对于大多数非专业人员而言,可不必去深究其技术细节,关键是理解区块链的基本内涵和基本架构,以及对未来可能产生的影响,尤其是可能对整个农业带来的广泛而深远的影响。
(2)加强区块链农业应用的基础研究。首先,要深入研究区块链与大数据、物联网、人工智能等融合技术,基于区块链思维和架构,加强并做好大数据安全的顶层设计,夯实智慧农业和大数据的底层基础。其次,结合当前国家关于新基建的战略部署,加强农业区块链基础设施建设,包括密码学、节点安全、共识协议和智能合约设计等等。另外,大数据的区块链化,区块链的大数据化,仍是区块链与大数据融合的两大挑战性课题,需要不断攻关克难,创新发展。
(3)加强复合型人才的培养。从区块链开发应用角度看,技术跨入门槛相对较高,技术人才相对匮乏,既懂农业又具有技术开发能力的复合型人才尤其缺乏。发展区块链,人才是第一位的,要从基础研究、创新应用、产业发展等方面,前瞻性和系统性地培养建立人才队伍。
(4)设计挖掘更多农业应用场景,尤其是与大数据安全结合应用的场景。要通过锐意创新,开拓进取,积极主动设计挖掘出更多应用场景,并尽快开发出具有先进性和示范效应的应用系统,是当前面临的重要任务。
大数据作为智慧农业的核心资源,在任何情况下,确保其安全性、维护可信和可用性都是第一位的。没有安全保障的数据,其应用价值将大打折扣,甚至将变成贻害无穷的源头。更不能期望在一个充满不安全、不可信、不完整的数据生态环境中,滋生孕育出更多高质量的智慧成果,从这个意义上说,没有数据安全,智慧农业也将成为无本之木、无源之水,终将渐失发展之根基。通过本文深入的综合分析,可以有理由相信,应用区块链技术支撑大数安全发展,是未来一个重要的研究方向和发展趋势,必将推动智慧农业走向发展速度更快,应用领域更宽,渗透力更强的康庄之路。