大数据与人工智能技术在粮食行业决策分析中的应用实践
2019-06-03张浩林
文/张浩林
某智能粮库操作系统 刘博文/摄
近些年来,我国粮食生产持续丰收,粮食安全态势总体持续向好。但对于中国这样一个超过13亿人口的超级大国,粮食安全任何时候都不可放松。虽然在总体产量上相对安全,但也存在粮食品种结构不合理,粮食品质依然有待提高,离人民期望的由“吃得饱”到“吃得好”的目标还有距离等问题。同时,加上诸多容易造成局部不安全的外在因素,我们在乐观地看到中国粮食相对安全的同时,也要谨慎地看到这种相对安全态势脆弱的一面。
确保粮食安全,确保任何时候中国人的饭碗都始终端在自己手上,一方面需要高度重视农业产业,另一方面要通过科学种粮、科技兴粮、合理用粮来保证粮食数量充足、质量可靠。同时我们还要能够合理地分析和研判全国及各区域的粮食安全态势,及时发现并解决可能存在的不安全问题,以确保粮食始终是人们生活中的基础物资而非稀缺资源。
大数据与人工智能技术的兴起,正好为分析研判粮食安全形势提供了新思路和手段。成都数联铭品科技有限公司作为以大数据分析见长的新型科技类公司,承担了国家粮食管理平台中智能决策中心的系统建设,旨在通过大数据与人工智能技术,为粮食行业的监测、预警、预测和决策提供新思路、新手段和新工具。
智能决策中心以粮食行政管理部门提供的数据为依据,结合爬取的外部互联网数据,基于行业科学的分析方法和历史经验,采用大数据和人工智能技术,构建了安全形势总览、政策推演、重大效果评估、重大数据研判、智能粮食监管、智能信息服务等多个业务模块和系统功能。由此为粮食行业的决策分析提供新的手段和工具。
一、粮食安全形势总览
安全形式总览主要为用户把握国家粮食安全总体形势、研判区域粮食安全具体情况提供支持工具。
由于粮食安全评价牵涉因素众多,不仅涉及到粮食产量、质量等直接因素,还涉及到各区域人口、饮食结构、自然灾害等间接因素,同时也还涉及到国际粮食市场价格等外围因素等等。为尽量做到科学全面地评价我国粮食整体及区域性安全态势,我们充分借鉴国内外行业专家的研究成果和经验,主要基于粮食生产、存储、加工、人口、消费、气象等多维度数据,综合运用多种形势研判、拟合预测等模型,从多个方面对全国粮食安全形势进行智能分析评判,包括但不限于产销区粮食供需关系、主要品种粮食供需情况等,并给出安全形势的评级评价。
系统可同时提供两种不同的视窗,一方面以现有数据为基础,通过内置的模型和算法直接为领导提供具体的分析结果;另一方面可为业务分析人员提供智能化研判分析工具,系统指标、模型算法可根据业务需要自行定义和选择,并可将指标因素按照重要程度等维度进行权重的量化,增加了工具应用的实用性和灵活性。
二、政策推演
政策推演模块通过粮食推演分析工具,为粮食政策研究和制定提供虚拟仿真环境,形成“信息调研-政策参考-政策方案制定-政策模拟实施”的闭环,为领导决策提供参考。粮食政策推演模块可根据用户自定义配置的政策参数,自动推演政策实施对各相关方面可能产生的影响,并对推演过程和结果产生的统计数据进行可视化展示,直观展示政策推演结果,相当于以沙盘推演的方式模拟了政策从制定到试点的过程。用户可根据自身决策需求,还可调整模型参数进行多次推演,以便达到最优的政策效果。
在本模块中,系统主要采用VAR向量自回归模型。向量自回归模型可用来估计联合内生变量的动态关系,主要依靠数据内部来拟合粮食政策的规律,适用于不用提前告诉模型过多的政策规律,而让模型和数据内生性地挖掘规律。
三、重大效果评估
重大效果评估适用于对政策执行情况和项目推进情况进行评估。该模块实现了将重点项目录入并跟踪其进展情况,做到自动录入、自动分析、自动增强,进一步分析差异的原因,然后评估进展情况、能否完成目标、如何完成等,并对评估结果进行可视化展现。
本模块提供适用于国家关于粮食行业重大项目规划、重大改革决策的评估工具,该工具可评估粮食政策、行动、项目施行产生的重大效果,为重大项目规划建设情况提供事前目标规划、事中完成情况监控、事后效果评估的全流程把控。
四、重大数据研判
重大数据研判模块基于粮食数据指标提供数据研判分析工具。重大数据研判模块通过国际国内市场、粮食产量、粮食储备、市场价格、粮食质量、供需平衡模型对相关数据指标进行深度研判分析,在国家粮食平台数据资源中心提供数据的支撑下,追溯重大数据产生的相关因素并进行研判,推演数据指标变化后可能引起的次生变化。
在本模块中,我们主要采用因子分析法。因子分析法在某些业务领域也称之为专家模型,采用专家模型的场景往往是数据质量较为糟糕的环境,数据质量具体说来主要是两个决定性原因:第一是有效样本量,如果有效样本少,但是存在黑白标签,也可以搭建有监督的模型去建模;第二是样本有无黑白标签,如果样本量足够大,也可以搭建无监督的机器学习,人工智能等模型去建模。而当业务场景既没有足够数量的有效样本,又无黑白划分明确的标签,数据的质量可用性评估几乎等于0,则依旧可以依赖专家模型建模,虽然专家模型的缺点较多,但在数据质量糟糕的环境中,依旧是经常使用的解决方案。
在机器学习人工智能出现之前,大量的业务场景因为事先没有黑白样本,无法建立有监督的模型,所以这种场景下的业务需要专家的行业先验经验用于引导建模,比如经济领域的经济指数,无法事先得知预测的准确与否,专家经验在搭建经济指数过程中占据很大权重;比如信贷领域,某些银行需要新开展信用卡业务,由于内部无信用卡存量客户的数据积累,无法对新客户的好坏识别进行有监督地建模,因而银行需要引入专家模型以确定贷款策略。同理,在粮食领域,大量的业务并无确定的黑白标准,而且数据量级较小,又不足以引入机器学习人工智能等无监督模型,所以,这种客观条件下引入专家经验,利用专家在行业内的专业性,保证模型不会有巨大的误差和错误。
五、智能粮食监管
智能粮食监管模块实现了对海量的涉粮企业相关数据的爬取和归集、交叉比对,利用大数据支撑的机器学习技术和识别技术,建立风险模型进行企业风险预警。
大数据技术将互联网上多源企业数据爬取整合进粮食局内部企业数据,在涉粮企业详情页面中展示涉粮企业基本信息、收购信息、仓储信息、物流加工信息、销售出库信息、银行信贷、经营信息、信用信息,利用图计算技术,将每个企业作为动态本体与其有业务关联的企业连接起来,形成企业关联图谱;通过对企业风险进行建模运算,利用机器学习技术进行迭代优化,形成动态风险指数评分、企业风险评价维度、涉粮企业风险问题等。
在本模块中,系统主要采用了逻辑回归与梯度提升决策树模型GBDT的加权融合模型方案。逻辑回归模型具有强大的可解释性,影响涉粮企业风险的一级风险和二级风险指标均可量化,风险维度大小一目了然,方便监管实践中,有针对性地进行监管。同时,逻辑回归又有很强的稳定性,模型的稳定性是长期监管业务中的一个重要属性,但逻辑回归的缺点也很明显,即其模型精准度不如机器学习的精准。所以,针对逻辑回归精准度不高的缺点,针对性地补充决策树模型GBDT模型,提高模型的精准度,从而在可解释性、稳定性、精确性三个维度上,模型均可达到较为理想的性能。
六、智能信息服务
智能信息服务模块提供涉粮企业信息、粮油信息等,面向全局提供全面、准确、统一、权威的粮食市场价格信息服务,包括但不限于各品种原粮价格、成品粮价格,粮食批发市场价格、期货市场价格等,并为后续市场行情提供价格预测的信息服务。对国际粮食市场交易、进出口、价格等主要要素信息进行汇总和分析,为宏观调控决策提供信息服务。
粮食领域的价格、需求量、供应量等观测序列,主要是受粮食规律与经济规律相互作用,同时,粮食规律和经济规律的相互作用也受一些随机因素的影响,而规律的作用和随机的影响两大因素,反映在价格、需求量和供应量等可量化的粮食指标上时,具体体现为这些粮食即非完全规律(不含随机影响),也非完全随机(白噪声),而是呈现出在时间上既有关联,又有一定波动的表现形态。所以,在对粮食价格,需求量,供应量等建模时,一个天然的模型选择就是自回归滑动平均模型(以下简称ARMA)。ARMA是自回归模型(简称AR模型)与滑动平均模型(简称MA模型)为基础“混合”构成,更为细致地说,自回归模型利用指标之间的线性相关性去拟合粮食规律与经济规律,虽然具体的粮食规律和经济规律非常复杂且非常难以量化表达,但AR模型利用观测序列数据自身的信息去最大可能性拟合,接近真实的粮食规律和经济规律;而随机因素的影响体现在滑动平均模型MA,滑动平均模型与AR模型的侧重点不一样,AR模型的任务是最大可能性去靠近规律因素,而MA模型的任务是最大可能性去靠近随机因素,而且使用的随机基为纯随机的高斯白噪声,其分布函数是标准正态分布。综上,在粮食领域中刻画既有强烈客观规律,又有不可忽视的随机因素,则结合了自回归模型与滑动模型的自回归滑动平均模型ARMA在实际业务场景和理论基础上都是较为合理的模型选择。
当前,在整合现有数据的基础上,智能决策中心所分析的结果得到了专家及相关业务人员的初步认可,后续随着更多数据的引入以及模型的进一步优化,相信以大数据和人工智能技术为基础的智能决策中心,必将为粮食行业的监测、预警、预测和决策提供更多的支持和帮助。
以数据为基础,以模型为核心,大数据与人工智能技术为行业决策分析提供了新的思路和手段。而同时我们也可以看到,虽然大数据被各个领域广泛提及和关注,但它也并不能“包治百病”。不管是大数据还是人工智能,毕竟只是技术手段,真正解决业务问题,还是必须要以行业业务为根本。夯实数据基础,尊重业务规律,并理清分析决策的流程,才可真正将先进的技术落地到行业应用服务。