基于PCA分析的陕西农业信息化评价及可视化研究①
2020-08-18韩俊英
陈 康 韩俊英
(甘肃农业大学信息科学技术学院 甘肃兰州 730070)
通信与信息技术地发展对各行各业都有巨大的影响,对现代农业同样具有深远的影响,难以量化是农业信息化行业发展进程一直面临的难题,因此,深入研究并建立农业信息化发展水平的评价方法与体系指标,有利于深入挖掘农业发展潜在规律,深入理解跨越式发展思路,制定切实可行的发展战略[1]。本研究是以陕西省农业信息化水平为核心对象,运用基于主成分分析法(PCA)对其农业信息化程度进行评价研究。PCA是统计机器学习中的一种重要方法,是通过筛选、简化特征指标体系,降低数据维度以利于存储,并通过直观观察数据变化得出目标结果影响程度的一种方法[2]。本研究最后将通过主成分分析得出结果,即主成分进行可视化分析,直观且有效地得出陕西省农业信息化的发展趋势。
1 指标筛选模型的建立
1.1 农业信息化水平指标体系
分析总结农业信息化水平评价研究指标体系的建设应遵循全面性、可操作性、导向性、科学性、实用性原则 。农业信息化的研究是一项惠民政策,指标的选择应方便各级执行部门执行[3]。
1.2 指标筛选模型的建立
农业信息化水平指标的筛选过程主要由3个因素构成:①指标海选:该筛选过程主要是结合信息化水平的导向性、科学性、典型性以及可操作性等评判标准进行指标海选,最终给出农业信息化水平评价体系的参考范围[4];②指标初选,考虑指数较多,使用不够方便,在海选得到的42个指标的基础上进行初筛;③指标定量筛选,主要是构建关系矩阵与入选标准度矩阵,实现筛选模型的目标函数。农业信息化水平评价体系可被划分为农业信息化的基础、农业信息化的应用以及农业信息化的效益等3个层次,在此将其设置为一级指标,按每一层的任务分也可分为目标层、准备层以及方案层等,层次划分即各层要素见图1。
根据上述引用的农业信息化水平评价体系,收集了2013~2017年的统计数据进行整理,以此为基础分析农业信息化水平中的11个具体指标,见表1。
2 农业信息化评价研究
2.1 基于PCA的农业信息化评价研究
2.1.1 主成分分析法原理
主成分分析(Principal Component Analysis),是应用非常广泛的降维方法之一。其数学模型为:
式(1) 中:a1i,a2i, … ,ani(i= 1,2,… ,m)为X的协方差阵∑的相应特征值对应的特征向量,对实际变量进行标准化处理进而计算得出ZX1,ZX2,…ZXP,本操作的主要目的是为了消除各个指标在实际应用中的指标的量纲问题。
表1 2013~2017年陕西省农业信息化水平评价指标原始数据
2.1.2 原始数据及对其标准化
数据标准化是研究农业信息化程度的重要步骤。对实际收集到的原始数据进行标准化分析,对整个数据分析至关重要。本研究以陕西省2013~2017年农业信息化水平为研究对象,分析采集得到的农业信息化的各项基础数据,对农业信息化水平进行评价可视化分析。
上述矩阵为按照年份划分的样本,对于上述数据的要求是行数为观测样本,列数为需要计算的不同的主成分。对上述归一化的数据计算其主成分中的coefficient的值,见表3。
对上述数据进行矩阵表示,对其进行PCA分析,得到4组评价数据,见表4。从计算得出的特征值与贡献率可知,前4个特征值涵盖了所有信息,数据标准化:
表2 陕西省农业信息现代化指标归一化数据(无量纲)
表3 各样本的coefficient为11个主成分的矩阵系数
各项指标数据标准化后不仅消除了各成分所带单位量纲的影响,而且更有利于数据的后续处理。利用归一化后的标准数据构成的矩阵计算特征值及其所对应的特征向量,得到各主成分所对应得分,再结合各个主成分对应的贡献率情况,得出由第一主成分以及第二主成分构成的表达式,考虑到这2个主成分已经可以涵盖农业现代水平评估效果的96%以上的信息,用第一主成分与第二主成分评价农业现代化水平的情况,主成分表达式见式(3)。
经计算第一、二主成分的贡献率之和为96.6%,已经超过95%,因此,利用第一、二主成分表示综合数据模型。用2个主成分的特征值计算得到贡献率的权重表示综合评估模型的系数,表示为式(4)。
依据前2个主成分得分得出其实际意义,可知各个年份的农业信息化水平受第一主成分与第二主成分的影响不同。
2.2 基于PCA的农业信息可视化研究分析
由上文可知主要影响农业现代化的成分是y1与y2,更直观的分析出农业信息化影响的因素,主要影响农业信息化的因素见表5。
表5 简化后数据
由上述2个主成分可以得出农业信息化的程度呈上升趋势,其中虚线部分是第一主成分和第二主成分共同作用线的农业信息化变化趋势,因此,更直观的得出陕西省农业信息化的变化情况,将农业信息化发展程度更进一步的可视化,更体现出了本研究的重要性,直观的表示了农业信息化的发展情况,见图2。
3 结论
本成果是在以往学者的研究基础上,结合实际问题,深入分析了具体省份的农业现代化实际发展状况,以全面的角度、可操控与科学性的前提、实用性的宗旨为原则,搭建了可以衡量陕西省农业信息现代化的发展水平指标体系。