基于主成分分析与对应分析模型的省域农业数字化发展水平研究
2023-11-25聂伟戴天城范诚峰蒋剑军
聂伟,戴天城,范诚峰,蒋剑军
(铜陵学院数学与计算机学院,安徽铜陵 244061)
0 引言
随着我国数字经济的快速增长,推动数字乡村建设已成为乡村振兴以及农业现代化发展的战略重点以及优先发展方向。2022年4月中央网信办等部门联合印发《2022年数字乡村发展工作要点》,推动着我国农业迈向数字化、信息化以及网络化发展的新时代。
我国农业发展经历了农业时代、工业时代,正在迈入数字时代。从生产要素看,三个时代的区别是:农业时代主要受限于“劳动力”和“农耕土地”;工业时代则受制于“资本”和“核心技术”;数字时代数据成为“21世纪的新型能源”。
图1 农业生产要素进程图
因此,近年来农业数字化水平发展成为研究热点,主要有三个方向:1)农业数字化的影响。杨果[1]分析出我国农业正处于应对综合成本上升等相关因素影响的关键时期,且影响因素主要有提速、解放和发展农业生产力等三方面;刘雷[2]发现流通产业、流通渠道和流通基础设施三个细分维度的数字化水平,能赋能我国农业现代化建设;2)农业数字化发展路径引导。李建军等[3]认为我国应加强智慧农业创新实践的基础设施以及关键核心技术创新,以促使智慧农业真正成为农业现代化的新引擎;尹燕瀛等[4]基于农业数字化发展取得的主要成效,提出了加大数字基础设施建设力度、补齐数据共享体系管理短板、着力提升农村农民数字化素养水平的发展路径,实现农业的现代化;3)为农业建设建言献策。樊祥成[5]为推动农业数字化相关研究创建了“三农”研究学术交流平台,集中展示“三农”领域的重要研究成果,带动“三农”研究的热潮。
上述文献关于农业数字化的研究主要是基于某些方向,难以对农业数字化的影响进行深度挖掘。本文提出一种农业数字化发展研究方案,利用自1985年至2020年全国内地31个省级行政单位的“三农”面板数据,运用主成分分析法提取214个影响因素的主成分,建立对应分析模型,宏观地分析内地31个省域农业发展水平与主成分之间的对应关系,借此对省域农业数字化发展路径提出建议。
1 数据与研究路线
1.1 数据
本文主要对内地31 个省级行政单位的农村数字化水平进行研究,为此从国家统计局[6]及百度百科等权威的数据网站搜集了自1985至2020年间31个省级行政单位的农业数字化水平及相关214 个影响因素[7-10]的面板数据,预处理后的数据已上传百度网盘。
1.2 研究路线
本文主要研究内地省域农业数字化发展水平,研究路线是:设定主题→影响因素设计→数据采集→主成分分析→对应分析→结论与建议。研究路线框图如图2所示:
图2 研究流程图
2 省域农业数字化水平实证研究
2.1 主成分分析
本文以省域乡村数字化发展水平为被解释变量,影响因素有214个,维度过大,不利于因果关系分析,应用主成分分析[11-13]进行降维。
2.1.1 主成分的贡献
利用Python计算出主成分的贡献值、贡献率及累计贡献率,结果见表1:
表1 主成分的贡献
2.1.2 提取主成分
由表1,以累计贡献率0.9提取了24个主成分,主成分与原始变量的关系如式(1)所示:
2.1.3 主成分得分
31个省级行政单位在24个主成分上的得分见表2:
表2 各省级行政单位在24个主成分上的得分
2.2 对应分析
本文以表2 构建31 个省域与24 个主成分之间的对应关系。表2可视为“主成分”和“省域”两个属性变量的列联表,主成分的取值为Zi,i=1,2,...,24,省域取值为“安徽、...、重庆”。
2.2.1 模型惯量及X2(卡方)分解检验
总X2统计量是检验省域和主成分这两个属性变量是否相关的统计量。表3 表明,总X2统计量为19902.96323,该值度量了行点(省)和列点(主成分)之间是否互不相关性,按总X2统计量的分解结果可知,前11 维可解释行点和列点之间互不相关性的85.14%,足以证明行点和列点之间的独立性。
表3 检验变量值
2.2.2 地区农业数字化发展水平相似性分析
计算表2 对应的行轮廓和列轮廓,并可视化地对应分析散布图:
从图3可直观看出,31个省域在各主成分上的发展状况及存在的差异,可将省域和主成分对应起来分为四类,并由相应的主成分来描述。
图3 对应分析散布图
第一类,有5个省份:山东、河南、河北、黑龙江、辽宁。这5 个省份的农村数字化发展水平由主成分Z5,Z12,Z16,Z17,Z21,Z24描述。这6 个主成分主要提取的是X28(卫生院个数,信息提取率41.75%)、X76(成灾面积/洪涝灾面积,信息提取率39.56%)、X71(受灾面积/洪涝灾面积,信息提取率38.02%)的信息,即这5省在卫生医疗以及洪涝灾害等方面数字化水平有超38%的相似性。
第二类,有11个省级行政单位:新疆、内蒙古、吉林、陕西、山西、甘肃、宁夏、上海、天津、青海、西藏。这11个省级行政单位的农村数字化发展水平由主成分Z3,Z6,Z7,Z10,Z11,Z13,Z14,Z18,Z20,Z23描述。这10 个主成分主要提取的是X37(农垦系统国有农场/耕地面积,信息提取率76.49%)、X39(农垦系统国有农场/大中型拖拉机,信息提取率73.27%)的信息,即这11 个省级行政单位在农垦系统国有农场的耕地面积及大中型机械等方面数字化建设水平高度相似(相似性超73%)。
第三类,有6 个省份:安徽、江苏、湖北、湖南、四川、广东。这6个省份的农村数字化发展水平由主成分Z1,Z15,Z19描述。这3个主成分主要提取的是X18(农用化肥施用量,信息提取率82.58%) 、X188(肉类总产量/猪牛羊肉产量,信息提取率78.47%)的信息,即这6个省份在农用化肥及猪牛羊肉等肉类总产量方面数字化建设水平高度相似(相似性超78%)。
第四类,有9个省级行政单位:北京、云南、江西、广西、浙江、福建、贵州、重庆、海南。这9个省级行政单位的农村数字化发展水平由主成分Z2,Z4,Z8,Z9,Z22描述。这5个主成分主要提取的是X198(水产品产量,信息提取率95.84%)、X166(粮食单位面积产量,信息提取率93.42%) 、X91等(农林牧渔业,平均信息提取率92.10%)的信息,即这9 个省级行政单位在水产品产量、粮食产量、农林牧渔业等方面数字化建设水平具有一致性(相似性超92%)。
3 结论与建议
3.1 结论
当前正处于推进数字中国建设的关键时期,农业数字化发展水平影响因素研究对我国数字农村建设有着极其重要的现实意义。本文使用主成分分析法与对应分析法将内地31个省级行政单位与24个融合特征分为以下四类。
第一类包括5个省份:山东、河南、河北、黑龙江、辽宁。这5个省份在卫生医疗以及洪涝灾害等方面数字化建设水平有相似性,相似性超38%。
第二类包括11个省级行政单位:新疆、内蒙古、吉林、陕西、山西、甘肃、宁夏、上海、天津、青海、西藏。这11个省级行政单位在农垦系统国有农场的耕地面积及大中型机械等方面数字化建设水平高度相似,相似性超73%。
第三类包括6个省份:安徽、江苏、湖北、湖南、四川、广东。这6个省份在农用化肥及猪牛羊肉等肉类总产量方面数字化建设水平高度相似,相似性超78%。
第四类包括9个省级行政单位:北京、云南、江西、广西、浙江、福建、贵州、重庆、海南。这9个省级行政单位在水产品产量、粮食产量、农林牧渔业等方面数字化建设水平具有一致性,相似性超92%。
内地31 个省级行政单位农业数字化发展水平的这个分类特征对引导数字农村建设有现实的指导意义。
3.2 政策建议
本文通过主成分分析和对应分析将内地31 个省级行政单位按农业数字化发展水平影响因素分为四类,很明显四类的农业特色鲜明。本文基于这一实证分析结果,在数字中国建设全国一盘棋的大局下提出如下发展路径建议,见表4。
表4 各类区域发展路径建议
本文提出的发展路径建议,本质上是区域的特色发展建议,“发展特长、发挥优势”是数字乡村建设的长效机制。