基于知识中台的农业单品全产业链大数据平台建设研究
2021-05-24贾暑花曾庆鸿
顾 君 贾暑花 曾庆鸿
(1.同方知网(北京)技术有限公司,北京 100192;2.贵州省农业农村厅,贵州 550000)
1 引言
大数据是信息化发展的新阶段,信息化是农业农村现代化的制高点[1]。农业农村大数据已成为现代农业发展的重要资源要素。运用大数据可有效提高农业生产精准化、智能化水平,推进农业资源利用方式转变。习近平总书记强调,要推动互联网、大数据、人工智能和实体经济深度融合,加快制造业、农业、服务业数字化、网络化、智能化[1]。2017 年中华人民共和国农业农村部以下简称“农业部”出台了《关于推进农业农村大数据发展的实施意见》,提出了强化农产品产销信息监测预警数据支持,加大消费端数据采集力度,建立覆盖全产业链的数据监测体系,研发重要农产品供需预测模型,组建跨部门跨行业农业大数据分析团队,开展综合会商,提升分析预警和调控能力[2]。2018 年3 月2 日,农业部办公厅印发《2018 年农业部网络安全与信息化工作要点》,明确加快推进农业农村大数据发展和应用:“深入实施农业农村大数据试点,继续开展督导和阶段性评估,加强典型案例总结推广”,“推进以产品产业为主线的大数据共享共建,打造单品种大数据样板[3]。”2018 年6 月27 日,中华人民共和国国务院总理李克强在主持召开国务院常务会议时指出,要利用大数据、物联网等提高农业生产管理效能,推进重要农产品全产业链大数据建设。农业全产业链是以消费者的需求为导向,将农作物种植、加工、运输及销售等多种产业环节组成一个完整的产业链系统[1]。由于农业全产业链大数据是一项复杂而庞大的系统工程,当前还未形成现成的模式和经验,而单品的产业链条相对完整,区域集中,数据容易获取[4],农业单品全产业链大数据以单一产业为研究对象,不仅可以准确反映单一产业发展情况,还能判断预测产业间的相关关系,市场发展的未来走势。因此选择以农业单品为研究对象,在单品全产业链建设方面进行模式探索,以期通过研究单品全产业链大数据的建设,将经验复制到整个农业的全产业链大数据建设过程中,促进农业大数据的落地生根。
利用大数据、云计算、人工智能、物联网、区块链等新一代信息技术,建设单品全产业链大数据,挖掘数据价值,形成以大数据为核心驱动要素的单品全产业链产业发展创新体系,初步完成产业数字化改造,编制关键环节数据采集标准,运用大数据等现代信息技术,加快对产业进行全方位、全角度、全链条的数字化改造,服务农民、农企、政府部门,以数据作为产业先导优势,助力产业供给侧结构性改革,推动产业高质量发展。
国内目前主要针对水稻、苹果、花生、茶叶、马铃薯、生猪、肉鸡等单品开展了全产业链大数据平台的研究和建设应用,在发展农业优势产业中发挥了重要作用,推进农业单品种全产业链大数据建设试点[1,5-6]。由中国水稻研究所建设的国家水稻数据中心,汇聚了水稻领域的科学数据,为科研人员提供专业服务[7]。张辉等结合物联网、遥感、大数据技术汇聚的花生大数据平台,可实现花生生产质量安全追溯,推动当地花生产业高质高效发展[8]。江苏杨巷镇以当地大米加工龙头企业为主导,联合专业合作社和专业网络营销公司组建产业化联合体,对稻米种植、加工、销售全产业链进行信息化改造,建立了集互联网、移动互联、大数据和农业物联网技术为一体的独有的稻米全产业链生产方式,实现了现代农业生产的实时监控、精准管理、溯源管理、远程控制和网络营销[9]。山东省针对马铃薯单品建设了一个集生产环节、流通环节、仓储环节、加工环节等各环节对农业信息统一发布和展示的大数据平台。生产环节展示生长环境的全动态,有效指导生产;流通环节展示交易动态、产品追溯,保证产品安全,提高交易调配能力;储存环节展示库存、物流信息,提供预警预报;加工环节展示加工全过程,发展一体化经营[10]。在生猪全产业链领域,围绕生猪全产业链链过程确定不同的监测指标和数据采集机制,打造生产、消费、贸易、库存、成本收益和价格六个产业核心数据采集体系,建立生猪全产业链数据采集制度和预警体系,为构建涵盖生猪全产业链的大数据智能化平台奠定基础[11]。息烽县按照“五方合作”(政府主导、企业主体、农户参与、保险支撑、银行信贷)、“五化五统”(农民职业化、养殖智能化、生产规范化、防疫制度化、粪污资源化和统一规划布局、统一培训指导、统一物料供应、统一生产管理、统一回收销售)代养模式,采取“龙头企业(公司)+合作社(村集体)+农户(贫困户)”运行模式,带动全县肉鸡产业发展,最终实现农户得实惠、企业能发展的合作共赢格局[12]。
根据目前单品全产业链大数据平台面向的不同群体分为两类:一类是面向科研工作者的科研创新和服务需求以科学数据为主的单品大数据平台;另外一类是面向生产、经营及管理决策者的,侧重于多主体参与,针对各个生产过程中数据的采集和服务的单品大数据平台[6]。纵观当前的单品全产业链大数据平台在全产业链知识服务领域缺乏体系化研究,特别是全产业链知识创新与数据融合方面缺乏深度挖掘研究应用。因此,本文提出一种基于知识和数据融合应用打造知识中台服务单品全产业链大数据建设的平台,促进“研—学—产”“产—供—销”全产业链创新生态建设,辅助全产业链创新发展。由于单品全产业链大数据平台,类型很丰富,不同层次的全产业链大数据平台差别很大,按不同的目标可分为面向行业管理的全产业链大数据平台,产业链协作分工以提高效率为目的的全产业链大数据平台;按照规模分,全国全产业链大数据平台和区域全产业链大数据平台等。本文拟面向全国,以产业链协同分工为目的的单品全产业链大数据平台。
2 现状分析
单品大数据是当前数字农业的突破口,以数据实现农业单品产、供、销全产业链的互联互通[13],破解产不好、卖不动、管不住、服务难等农业难题,促进产业兴旺。经过深入分析单品的全产业链生产过程和当前的服务现状,笔者发现在构建单品全产业链大数据平台中主要存在以下需求:
2.1 全产业链数据资源打通
单品产业在漫长的发展过程中产生和积累了大量的数据,涵盖了产前的种质资源数据、品种数据、育种数据等;产中的栽培数据、施肥数据、灌溉数据、病虫害数据等;还有产后的加工数据、冷链物流数据、市场经济数据、贸易数据等。还有一些来自科技实验、科学探索和生产消费等相关的数据。这些数据是促进我国农业单产业发展的科技创新支撑,但由于缺乏一个整体的建设规划,数据还处于自成体系、分散孤立的状态,亟需一套成熟且能囊括农业全产业链知识端和数据端的指标体系,打通产、供、销全产业链全过程的数据资源,构建单产业数据资源池,支撑单产业大数据分析挖掘应用。
2.2 全产业链数据资源采集、治理、共享
我国农业单产业的数据形式多样,有结构化、半结构化和非结构化数据,数据资源类型包括文献、专家、问答、表格、图片、视频、资讯等;数据来源广泛,包含土地资源、水利资源、气象资源、生物资源、灾害资源等;数据每年以50%~80%的速度增长,产生的数据量已超过了10 000PB,且分布分散,开发率用率低。数据的“采集—保存—整合—共享”还没有形成一套完整的体系和标准,如单产业全产业链数据资源中心建设缺乏统一标准[14];还没有形成采集农业全产业链数据的元数据标准,导致无法实现数据的标准化和规范化;数据治理与数据共享也未形成有效的机制,导致在数据使用过程中不能汇交形成可共享利用的数据资源;另外还有许多数据没有经过整合和开发利用,致使用户在使用和查找过程中不能完整且有效地获取所需数据,极大地限制了单品全产业链数据资源的建设进度。
2.3 全产业链数据和知识融合
我国农业单产业在全产业链发展过程中缺乏系统性的研究来解决数据重组和知识整合的问题,致使我国农业单产业数据无法实现深入挖掘和深层次利用,例如多源异构的数据如何能够通过数据标准化、规范化来进行重组和整合,形成统一结构的知识和数据资源体系;数据之间的关联关系如何通过一定的规则被发现,从而形成带有语义关系的多维知识体系,挖掘隐含的数据和知识关系。这些问题都需要将全产业链过程中的数据和知识充分融合,形成新的知识体系来服务于单品全产业链产业的科技创新建设。
综上所述,面向我国农业单品全产业链各个阶段对数据资源进行加工和治理,知识资源进行结构化重组,基于数据和知识的融合关系,形成我国农业单产业的专业知识仓储,并提供共享服务,基于大数据分析挖掘实现对单品产业链布局的优化,满足我国农业单产业科技创新、生产加工及市场经济的需求,满足不同用户群体的数据需求,提供一站式的综合服务,建设基于知识和数据融合的农业单品全产业链大数据平台迫在眉睫。
3 总体设计
3.1 建设目标
依托互联网、物联网、大数据、卫星遥感等技术,面向农业产业相关政府部门、生产经营主体、相关研究机构用户,围绕单品全产业链过程,构建农业单品的全产业链数据资源体系和知识资源体系,高效整合数据和知识资源,实现对农业单品全产业链数据的自动采集、动态更新、多源数据存储、数据治理、数据分析挖掘,为农业单品全产业链数据和知识融合共享、大数据应用提供支撑,以构建农业单品全产业链大数据资源中心为基础,打造智能化一体的单品全产业链大数据平台,提升农业产业生产经营和管理数字化水平。主要实现以下具体目标:
(1)构建单品全产业链数据资源中心。按单品全产业链体系汇集国内单产业相关的网络舆情数据、物联网数据、科研数据、政报公报数据、品牌数据、上市企业数据、价格行情数据、贸易流通数据、国际数据以及CNKI 期刊、图书、视频等多源异构资源,以建设数据标准规范体系为基础,通过梳理知识资源体系和数据资源体系,建设农业单品全产业链大数据中心,打造单品全产业链数据资源中心。
(2)建设一套单品全产业链数据采集更新机制。基于农业单品全产业链数据中心,建成一整套数据采集、加工、存储、管理、应用的大数据发展机制,实现基于具体业务需求的数据分析挖掘与可视化呈现,辅助决策。
(3)构建全产业链知识服务中心。一方面采集汇聚产业要闻、产业政策、产业数据等舆情信息资源;另一方面提供涵盖品种选育、育种、制种、栽培/养殖管理、病虫害防治、收获贮藏、加工利用、产业发展方面的知识服务,实现了产业信息+技术的融合服务。
(4)构建产业专家库。汇聚行业领域和产业领域专家学者基本信息、专业特长、科研领域、科研成果、学术影响力等多源信息打造专家画像,针对全产业链过程提供精准的专家服务。
(5)构建数据分析挖掘系统。涵盖单品全产业链过程,提供单品的数据检索及分析挖掘应用服务。
3.2 构建思路
本项目总体建设思路概括为“1122”。
“1”一个核心:以建设单品全产业链大数据资源中心为核心。
“1”一个支撑:以构建知识中台为业务应用支撑。打造“知识中台”的目的在于形成“农业单品知识体系”,全面多维整合农业单品知识资源。知识中台是基于人工智能技术形成的,具有全链路的知识管理能力,覆盖知识的高效生产、灵活组织和智能应用。农业单品知识中台以融合农业全产业链数据和知识为核心,面向农业全产业链产前、产中、产后过程从知识生产、知识组织、知识获取到知识应用,构建智能化知识库,提升了农业单品知识信息密度与关联度,大幅降低了机构获取知识的时间成本,精准化满足单品产业知识检索需求,依托高性能图数据库提供辅助决策的知识计算与推理。
“2”两个出发点:以系统的实际需求为出发点,以系统的可集成性、可扩展性和再开发性为出发点。
“2”两大主要任务:单品全产业链大数据资源中心、单品全产业链大数据平台。
3.3 架构设计
平台整体架构见下图:
图1 平台总体架构Fig.1 The overall structure of the platform
最底层为基础设施层,包括计算、网络、存储、容灾备份、安全及运维/运营。
大数据资源中心:基于农业产业全局,按照育种、制种、栽培管理、病虫害防治、收获贮藏、加工利用、产业化发展等全产业链关键环节汇聚数据资源和知识资源。
知识中台:知识库支持大数据平台数据处理。大数据从采集、存储、治理到管理,知识从生产、组织、获取、应用等一整套解决方案:一是对农业产业异构数据资源进行数据转换与清洗、数据指标化、标准化、规范化入库,实现对农业单品全产业链数据治理;二是通过构建单品全产业链知识图谱揭示了农业产业产前、产中、产后数据实体之间的关联关系,基于语义角度实现了异构数据资源的整合,知识和数据资源融合。
业务应用层:以智能知识库、数据管理、数据共享、数据分析为业务应用方向,其中智能知识库,涵盖基础数据库、专题数据库、全产业链数据库等多类型知识库,支撑全产业链数据和知识融合应用。数据管理系统包括数据权限、指标管理、数据导入、数据导出、数据审核、数据推送、服务监控、数据计算、数据加密等多种功能,支撑数据的治理和应用。数据共享提供多功能门户网站、多维可视化、数据查询及数据自定义多项功能。数据分析挖掘以构建业务模型为基础支撑对资源禀赋、农业科技进步贡献率、产业规划、投入产出、病虫害监测预警、行业景气与价格指数、产业舆情分析、消费、竞争力分析等挖掘应用。
顶层为服务层:面向生产主体、经营主体、政府、科研院所、消费主体,以平台和手机为服务终端,提供基于知识和数据的融合服务。
3.4 技术支撑
本平台在建设过程中充分利用了知识中台技术,知识中台是利用大数据、知识图谱、业务模型和AI四位一体组合构建的。依托于具体业务场景,比如资源禀赋分析、农业科技进步贡献率分析、单品产业投入产出分析等,从需求出发,以满足资源利用最大化、科技进步贡献最大化、投入产出最优化等为核心,打通知识和数据融合的通道,保证信息的高效流转,实现知识支撑业务发展到知识驱动发展的实质性转变。四维一体最重要的是知识图谱。知识图谱是语义的网络,具备强大的语义处理能力,可从海量文本和图像中抽取结构化知识,将不同来的数据进行融合,从而形成富含语义关系的知识网络即结构化的百科知识,是解决农业单产业领域知识表达和语义推理的有效手段。知识图谱的构建过程是从原始数据出发,采用一系列自动或半自动的技术手段,从原始数据中提取出知识要素,并将其存入知识库的数据层和模式层的过程。这是一个迭代更新的过程,每一轮迭代包含:数据整合、词表构建、知识抽取、知识融合以及监督学习和知识入库几个过程。基于知识图谱,支持专业化的农业知识生产,提升知识信息密度与关联度,提供更加面向农业资源利用、科技创新、单产业投入产出的知识组织能力,辅助农业产业分析与决策。
3.5 功能分析
平台主要功能包括:资源中心、智能搜索、数据搜索、决策分析、专家服务、智能报告。
3.5.1 资源中心
采集来自联合国粮食及农业组织(FAO)、各国农业部、农业农村部、国家海关、各省政府官网等官方数据以及上市公司、中国地理标志网等权威发布的资源信息,汇聚单品产业相关中国知网(CNKI)期刊、图书、表格、视频、问答资源及舆情资讯等多源异构资源,形成大数据资源中心,以单品全产业链知识体系和数据体系为基础,打造单品全产业链数据资源中心,实现农业单品资源的集中管理、实时更新与交换共享。
3.5.2 智能搜索
以资源中心为基础,知识图谱技术为支撑,实现检索结果的优化,满足系统不同用户群体多样性获取信息的要求。搜索的资源类型包括期刊、图书、视频、表格、专家、问答、资讯等。
3.5.3 数据检索
依托互联网、物联网、大数据等技术,实现对农业单品全产业链数据的自动采集、动态更新、多源数据存储、数据治理及不同环节数据的发布,基于单品全产业链数据指标体系,构建三级指标体系,支持基于数据指标、地域、时间三个维度的数据检索,结果以柱状图、条形图、折线图、饼图等数据图表的形式呈现,生成的图表可直接下载或作为素材插入智能报告。
3.5.4 决策分析
根据具体业务需求建立专题数据库,并以数据地图、数据图表、数据一张图等不同可视化模块展示数据,在此基础上构建农业产业数据分析集成算法库,实现常用算法的封装,包括分类、回归、聚类等,支撑混杂型数据的联动、连接、计算分析。整个系统实现数据抽取、建模、挖掘分析,可自动或通过可视化操作实现常见计量统计指标的统计与分析,以支撑单品产业市场行情、景气指数、投入产出、竞争格局、舆情、消费热点分析,辅助农户、经营主体、科研人员、主管部门科学决策。
3.5.5 专家服务
专家服务体系是产业生产经营、数据把握分析的中坚力量,平台按单品全产业链梳理产业科研类、管理类专家队伍,采用线上线下相结合的方式,定期开设直播或录播课程线上教学,同时通过专家热线、专家问答系统、信息推送等方式对从业人员从生产到经营全产业链中的问题提供专业、权威、精准的技术支持服务。
3.5.6 智能报告
基于大数据分析基础架构建设单品全产业链深度挖掘分析系统,对海量数据进行深入挖掘分析,并基于知识图谱与CNKI 碎片化重组的期刊文本产生关联,将知识资源和数据分析进行结合,支持自动生成产业报告,供产业研究,引导产业生产经营决策、协调区域发展、支撑联动调控。智能报告生成系统以数据资源池为基础,依靠知识图谱系统、模型引擎、XML专家观点库自动推送系统组成。所述大数据资源池,汇聚不同数据来源的数据资源和知识资源,根据主题智能推送关联数据,关联知识;基于知识图谱对应的逻辑关系,自动关联与用户信息相关的知识元;通过模型引擎,自动推送与主题相关的数据模型。基于数据模型分析问题,发现问题,利用XML专家观点库自动推送解决问题的知识点,从而自动生成智能型报告。当前可提供基于固定模板的周期性报告,比如价格报告,以及针对产业现状分析、问题研究、对策建议形成的产业分析报告,为领导决策提供辅助支撑,增强领导对产业发展的洞见。
4 应用与展望
基于知识中台的农业单品全产业链大数据平台主要应用在单品产业全景概览、产业运行监测、产业结构与生态环境适应性研究、价格监测预警、农产品产销分析等方面,提升农业产业全产业链生产经营和管理数字化水平。
产业全景概览一张图展示世界、全国及各区域当地农业特色产业发展现状,从供给侧的生产加工、到需求侧的流通销售、价格、质量安全,构建产业全产业链全景图,实现产供销的实时追踪,辅助宏观调控。以水稻为例,通过分析世界、全国及各区水稻的种植面积、产量、单产、价格、品质等数据,可全方位多角度总览水稻产业的整体发展情况,做到一张图览全局。
产业运行监测是基于GIS、卫星遥感、物联网,接入农业气象数据、土壤墒情数据、智能虫情以及农产品加工及流通数据(图像),一张图可视化监测单品产业种植/养殖分布、生产/养殖环境监测、气象灾害监测预警、加工产能等情况。以贵州500 坝区产业规划系统为例,系统通过可视化展示耕地面积分布,各市农耕地分布、基础设施建设情况、产业结构现状、脱贫攻坚情况、经营主体情况和土地流转情况,深入分析挖掘发现目前坝区产业分布存在不合理,粮经比偏高等问题,由此基于提高种植效益、提高土地利用率、增加农民增收,需对产业结构进行科学调整。
农业产业结构与生态环境适应性研究是结合地区特点和产业特征,从农业产业结构和农业自然资源生态系统两方面进行综合指数评价,通过构建指标体系及耦合协调模型,分析不同农产品在区域的适宜性区域和比例,为产业规划、新基地选址等提供数据依据。全国概览以地图和表格方式展示各省级协调度及协调类型情况,突出衡量省域在全国站位。省级全景分为横向区域对比,以地图形式直观展示,纵向时间序列分析,展示连续15 年省内地市协调性情况。县域分析展示省域各县协调度整体分析,可突出县级连续15年产业结构协调与自然资源协调性情况。
农产品价格监测是基于农产品批发市场的价格信息,利用大数据分析技术实现对农产品批发价格和电商零售价格监测预警,为产业整体规划和供给侧结构调整提供依据。比如通过实时展示的大蒜价格信息,利用价格和需求模型预测未来价格走势以及来年的销量,实现对大蒜种植的监测预警。
产销分析应用在监控农产品生产和流通情况,提供区域范围的农产品批发交易进度、电商产销流向、产销供需监测等服务,提前发现农产品滞销等产销失衡情况,为决策者宏观调控提供依据。以茶叶产业为例,通过大数据技术可分析茶叶在各省的需求量和消费量,其中需求量和消费量最高的是广东,依次是山东、河北、辽宁和北京,可根据当地与这些省份的距离远近,选择销售路径,促进茶叶销售价值最大化。
在下一步的建设中,将以单产业为基础,不断扩大应用范围,建设农业“产业数字大脑”;以善政为基础,建设农业政务综合管理平台;以兴业为重点,建设农业产业互联网平台;以惠民为目标,建设农村农民综合服务平台等方面[15],进一步完善平台智能决策分析功能,推动单品全产业链创新生态建设,优化单品产业布局,保障单品产业可持续发展。