APP下载

基于决策树的乡村综合信息数据智能管理系统

2022-09-24朱丽波

关键词:元组综合信息决策树

朱丽波,马 欣

(淄博师范高等专科学校 信息系,山东 淄博 255100)

0 引言

我国是一个传统的农业大国,正处于发展阶段.虽然消费产业、工业产业也得到了快速发展,但是农业依然位居第一产业地位,是国家经济发展的基础.建设社会主义新农村是中国现代化进程的关键任务,并在各个省、市建设新农村试点取得了不错的成绩.与城市规划相比,目前乡村规划管理较薄弱,主要原因为乡村综合信息的缺失以及信息数据管理技术的缺乏,无法真实地对乡村情况进行全面地了解,致使乡村规划或者出台政策与乡村实际发展需求不符.

现今社会已经进入了一个信息爆炸时代,乡村综合信息也不例外,其信息数据量达到了大数据级别,如何对其进行智能管理以及快速找到有价值的信息数据,是当前乡村规划与发展领域的重点研究课题之一[1].就现有研究成果来看,已有数据管理系统无法对乡村综合信息进行有效整合或者统一,缺乏明确的数据库构建规范,管理智能化也较低,无法满足乡村发展的需求,因此本文提出基于决策树的乡村综合信息数据智能管理系统.通过决策树算法挖掘乡村信息之间的关系,有效推进乡村信息化建设,实现“数字乡村”的建设目标[2].

1 乡村综合信息数据智能管理系统硬件设计

硬件单元的设计是乡村综合信息数据智能管理系统运行的基础.为了提升数据管理水平,设计系统硬件单元包括数据智能管理框架搭建单元、数据处理器选取单元与网络通信单元.

1.1 乡村综合信息数据智能管理框架设计

为了满足乡村综合信息数据智能管理的需求,以C/S架构为基础,通过AreSDE引擎对乡村综合信息数据进行存储与管理[3].乡村综合信息数据智能管理框架如图1所示.

通过图1可以看出,搭建框架主要分为3个层次,分别为数据层、逻辑层与应用层.数据层主要应用多种器件对乡村综合信息进行采集与处理,例如地理信息、人口信息等;逻辑层承担着数据访问接口建立、数据关系挖掘等任务,是乡村综合信息数据存储及其管理的基础;应用层基于C#语言等工具搭建用户交互界面,依据用户的需求,提供对应的乡村综合信息[4].

图1 数据智能管理框架

1.2 乡村综合信息数据处理器选取单元

以搭建数据智能管理框架为基础,选取适当的数据处理器,对乡村综合信息数据进行统一处理,方便后续数据的应用与管理[5].

根据设计系统需求,研究选取STM32F103ZET6芯片作为数据处理设备,具有多种优质特性,具体如下所示:

(1)功耗较低.STM32F103ZET6芯片具有多种工作模式,每种工况适应的工作模式不同,工作模式切换时间较短,能够极大地降低设计系统的运行功耗;

(2)运算速度快.STM32F103ZET6芯片工作频率能够达到72 MHz,可以满足乡村综合信息数据的处理需求;

(3)资源丰富[6].处理器芯片内部包含数模转换器、DMA控制器、定时器、存储器以及多种类型接口等;

(4)供电电压裕度较大.在正常工作环境下,供电电压范围为2.0~3.6 V.

STM32F103ZET6芯片结构如图2所示.

由图2可知,STM32F103ZET6芯片包含多个功能模块,并具有多种接口类型,能够有效连接其他硬件单元,从而高效地完成数据处理任务[7].

1.3 网络通信单元

通信单元是系统硬件与软件运行的前提,也是乡村综合信息数据采集与传输的基础.为了满足设计系统的通信需求,选取以CC2530芯片为核心的Zigbee通信模式[8].CC2530通信芯片中具有增强型的控制内核,并搭载可编程内存,能够满足设计系统低能耗的需求.另外,该芯片可以根据用户的需求,对自身运行模式进行灵活调节.CC2530通信芯片关键性能指标如表1所列.

图2 STM32F103ZET6芯片结构

表1 CC2530通信芯片关键性能指标

根据设计系统网络通信需求以及表1所列数值范围,对CC2530通信芯片性能参数进行合理设置,从而保障设计系统的通信顺畅.

上述过程完成硬件单元的选取与设计,但仍然无法实现乡村综合信息数据的智能管理,故以硬件为基础,设计系统软件模块.

2 乡村综合信息数据智能管理系统软件设计

系统软件模块包括数据关系挖掘模块、数据智能管理模块与数据库构建模块.

2.1 数据关系挖掘模块

一般情况下,乡村综合信息数据量较大,数据类型较为复杂,为数据智能管理带来了极大阻碍,为此本文引入决策树算法,深入挖掘数据之间的关系,并以树状结构清晰地表示数据关系,以此来简化数据的管理过程[9].

决策树算法分裂标准为属性选择,即基于数据属性来决定节点元组的分裂方式.假设乡村综合信息数据训练集为D,属性总数量为m,其对应类记为Ci,i取值范围为[1,m].在决策树算法运行过程中,节点N的分类属性为最高信息增益的属性,从而使元组分类信息量最小,树结构最简单[10].

训练集D元组分类期望信息量表达式为:

(1)

式中:Info(D)表示识别训练集D中元组类标号需要的平均信息量,简称为训练集D的熵;pi表示训练集D中任意元组属于Ci类的概率,由|Ci,D|/|D|计算,其中,Ci,D代表D中Ci类元组的集合;m代表元组数量.

以属性A元组划分为例,训练集中该属性数据值为{a1,a2,…,av},总数量为v,属性A将训练集划分为v个子集,表示为{D1,D2,…,Dv},每一个子集均代表一个元组,一一对应属性数据值,也是节点N的分支.为了获得精准的分类,需要度量属性期望信息,计算公式为:

(2)

Gain(A)=αInfo(D)-βInfoA(D),

(3)

式中:α与β表示决策树生成辅助参数.以公式(3)计算结果的最大值作为节点N的分裂属性,实现原则分类信息的最小化.

通过上述过程完成乡村综合信息决策树的构建,显示了数据之间的关系,为后续数据智能管理提供充足准备[11].

2.2 数据智能管理模块

乡村综合信息数据智能管理主要包含数据清洗与数据编辑两个功能.其中,数据清洗主要针对相似重复记录进行删除操作[12].设计系统应用S-W算法对相似重复记录进行识别,识别依据为数据属性字段匹配数值,则属性字段匹配表达式为

(4)

式中:E表示任意两个数据的匹配分值矩阵;E(i,j)表示任意两个数据前i个字符与前j个字符的最可能匹配分值;σ(i,j)表示辅助匹配参数,取值范围为0~1.

另外,乡村综合信息数据智能管理过程中,记录也存在着重复现象,其相似度度量公式表示为:

(5)

式中:RS(R1,R2)表示数据中记录R1与R2之间的相似度;Fi表示记录中的属性字段;Wi表示属性字段Fi对应的权重数值.

将公式(4)、(5)计算结果与设置阈值进行比较,若大于阈值,表明数据或者记录高度相似,即对其进行删除操作,反之则进行保留操作[13].

数据编辑功能主要包括数据添加、导出等操作.乡村综合信息数据添加时序如图3所示.

图3 乡村综合信息数据添加时序

通过上述过程完成了乡村综合信息数据的清洗与编辑,实现了数据的智能管理,为乡村规划与发展提供帮助[14].

2.3 数据库构建模块

数据库主要承担乡村综合信息数据运行、数据存储等任务,以表格形式对数据进行分类存储,方便数据的应用与查询[15].本系统部分数据库表数据如表2所列.

表2 部分数据库表

通过上述硬件单元与软件模块的设计,实现了乡村综合信息数据智能管理系统的运行,对乡村综合信息数据提供新的管理手段,有助于“数字乡村”的建设与发展.

3 实验分析

3.1 实验准备阶段

为了验证设计系统的应用性能,选取某乡村作为实验对象.以该乡村某年综合信息作为实验数据,将数据量较大的6个月提取出来,对其进行整合与处理,为后续实验做好准备.依据上述描述,获得实验数据如表3所列.

表3 实验数据表

另外,决策树算法辅助参数的选取也是影响实验结论的关键,决定算法是否能够达到最优状态,因此,需要在实验开始之前,选取最佳辅助参数.辅助参数与决策树生成时间之间的关系曲线如图4所示.

由图4可知,当α取值为0.28、β取值为0.68时,决策树生成时间达到最小值10 s,说明此时决策树算法能够达到最佳状态.因此,实验选组最佳辅助参数为α=0.28,β=0.68.

上述过程完成了实验对象选取、实验数据准备与决策树算法参数的设置,以此为基础,进行乡村综合信息数据智能管理实验.参数实验系统为设计系统与基于CART决策树的CCL大数据有效信息提取系统(对比系统),通过系统响应延迟及其搜索延迟来反映设计系统的应用效果.

图4 辅助参数与决策树生成时间曲线

3.2 响应延迟结果分析

乡村综合信息数据智能管理系统需要面对较大的数据量,涉及数据增加、删除等较多操作,系统响应速度直接决定系统的可用性.响应延迟指的是用户在点击某一按钮后的响应时间.响应延迟越短,表明系统响应实时性越好.通过实验获得系统响应延迟数据如图5所示.

图5 系统响应延迟数据

由图5可知,与对比系统相比较,本设计系统获得的响应延迟更短,表明设计系统能够更快响应用户的需求.

3.3 搜索延迟结果分析

乡村综合信息数据智能管理系统主要服务于乡村规划与建设,这就要求其能够快速提供乡村建设所需的数据.搜索延迟指的是数据搜索申请发出到返回正确数据的时间.搜索延迟越短,表明系统搜索性能越好.

通过实验获得系统搜索延迟数据如图6所示.

图6 搜索延迟数据

由图6可知,与对比系统相比较,应用设计系统获得的搜索延迟更短,主要是因为决策树算法将数据关系变得更加清晰、简单.

上述实验数据表明:相较于对比系统,应用设计系统的响应延迟与搜索延迟均较短,充分证实了设计系统的可用性.

4 结论

本文设计的乡村综合信息管理系统中,应用决策树算法挖掘了乡村综合信息数据之间的关系,在此基础上,对信息数据进行相应的管理.通过实验验证了设计系统的响应性能与搜索性能,可以为乡村综合信息数据管理提供有效的支撑,也为数据管理研究提供一定的理论基础.

猜你喜欢

元组综合信息决策树
经济动态与企业综合信息
Python核心语法
QJoin:质量驱动的乱序数据流连接处理技术*
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于减少检索的负表约束优化算法
基于决策树的出租车乘客出行目的识别
经济动态与企业综合信息
经济动态与企业综合信息
经济动态与企业综合信息