APP下载

基于随机森林算法的烟叶化学成分预测模型研究

2024-04-12顾云海王伟华夏飞袁齐风钱怡君熊茜

南方农业·上旬 2024年1期
关键词:预测模型烟叶

摘 要 烟叶化学成分影响因子众多,尤以生长环境、品种和等级影响较大。通过收集楚雄卷烟厂2020—2022年入库烟叶烟碱、总糖、总氮、氯共4项化学质量数据,并选取对应的烟叶品种、等级和地理、生态等生长环境影响因子作为数据源,利用随机森林算法,对烟叶中的烟碱、总糖、总氮、氯4项化学成分建立预测模型,并在数据源中随机抽取9 550个样品对模型进行训练和调优。通过建模分析和模型验证,烟叶中烟碱、总糖、总氮成分的预测精准度都在83%以上。烟碱预测模型真实值与预测值之间相关性最强,拟合度最高,其精准度也较高,模型的预测效果最好;总糖预测模型虽然精准度较高,但其真实值与预测值的拟合度较低;氯的预测精准度为36.09%,为4项化学指标中精度最低者。预测结果对楚雄烟叶种植基地的化学品质的评估具有参考意义,可指导楚雄卷烟厂生产基地规划、优质特色品种烟叶适种区域的界定。

关键词 烟叶; 随机森林算法; 预测模型; 化学质量

中图分类号:S571 文献标志码:A DOI:10.19415/j.cnki.1673-890x.2024.01.001

烟叶的化学质量是评价其工业可用性的核心要素,也是卷烟工业中从农户种植到配方投料都必须严格把控的关键,对不同的种植环境和不同品种的烟叶进行化学质量评价是了解烟草品质和发展新品种的先决条件。原料生产过程中的质量指标直接影响最终的工业可用性[1]。

周金仙在研究中表明,不同的生态环境对同一品种烟叶的化学成分质量有很大的影响,对于不同的生长环境,其化学成分存在明显差异[2]。烟叶种植经验和前期研究成果也证明,烟草喜温热环境,一般需要在年平均温度为16~22 ℃的条件下生长,如果气候过冷或过热,烟叶的生长均会受到影响,从而影响其质量;烟草需要富含有机质和养分的土壤,这有利于烟叶生长和烟叶中化学成分的积累,不同土壤类型和土壤质量会影响烟叶的质量;适宜的降雨量对于烟草的生长和发育非常重要,降水量太少或太多都不利于烟叶的生长,会影响烟叶的质量;烟草在高海拔地区生长时,光照会更加充足,但气温更低,这也会影响烟叶的质量。王蘅等[3]在不同品种烤后烟叶质量评价研究中也得出其化学成分差异较大。因此,烟叶的化学成分对生长环境、烟叶品种、等级等都存在较大的依赖性。通过各影响因子对烟叶化学成分指标进行预测,在生产中具有较大的指导意义。

研究引入大数据和计算机深度学习的思想,以随机森林算法(Random Forest)作为核心技术,旨在利用当前计算机新技术和数据处理框架,通过烟叶生长环境因子和烟叶品种等指标,实现对包含烟碱、总糖、总氮、氯在内的烟叶化学成分的模型预测。

根据《红塔集团楚雄基地烟叶特色化研究及工业可用性潜力挖掘》的研究成果描述,楚雄州地处低纬高原,属温带、亚热带季风气候区,烤烟种植主要集中在海拔1 500~2 100 m的中亚热带至南温带之间,优质烟区大多分布在海拔1 600~1 900 m的北亚热带,基于楚雄地形复杂,地理环境特殊,海拔差异大,具有光照充足、光质良好、光能潜力很大,气候温和、四季春秋、温度有效性高,雨量偏少、干湿分明、降水利用率低,类型复杂、温热兼备、烤烟气候立体等特点,引入该区域海拔、年平均气温、5—9月平均气温、7月平均气温、≥10 ℃积温、5—9月≥10 ℃积温、年降雨量、5—9月降雨量、7月平均降雨量等地理和气象因子作为影响烟叶化学成分的关键指标。

本研究所用的随机森林算法是信息技术中一种基于决策树的机器学习分类器算法,隶属于Spark机器学习库MLLib,具有预测精准度高、抗干扰能力强、模型训练速度快等优势。卢沛临等应用随机森林算法,实现了烟叶复烤打叶工艺参数优化[4];鄂旭等利用随机森林算法,实现了水产品冷链物流鲜度预测模型[5]。以上研究都证明,随机森林算法在处理多影响因子对指标的预测时可靠性较高。

1" 材料与方法

1.1" 试验材料

以IntelliJ IDEA 2022.2作为程序开发环境,通过引入Spark机器学习库MLLib,搭建随机森林模型算法平台,并以此为软件平台开展模型搭建和试验。研究所采用的数据源为红塔集团楚雄卷烟厂提供的2020—2022年烟叶等级、品种与对应的化学质量数据和楚雄州各乡镇地理与生态环境数据。

1.2" 试验方法

1.2.1" 指标测定

以楚雄卷烟厂2020—2022年入库烟叶的烟碱、总糖、总氮、氯含量数据和楚雄州各乡镇的种植环境数据作为模型建立样本数据,样本烟叶品种包括K326、NC297、Y87,等级包含所有上等烟、中等烟和下等烟,共9 650个。样品的化学成分通过近红外光谱检测设备检测得到。种植环境因子数据包括海拔、年平均气温等9个指标,烟叶属性包括品种和等级(见表1)。

1.2.2" 分析方法

随机森林算法(Random Forest),简称RF,是利用多决策树对样本进行训练并预测的一种集成学习分类算法,要实现每一个样本的预测,就需要将样本输入到每一棵决策树中进行分类,最终获得分类结果。随机森林算法具有较高的准确性,可用于回归、分类和聚类问题的求解[6]。此外,由于其具有易于实现和快速训练的特点,可在大规模数据处理和实时决策等方面广泛应用。

1.2.2.1 算法流程

抽取训练数据集:从原始数据集中随机抽取一定量的样本作为训练样本,这些样本将被用于生成决策树。本次试验从9 650个样品中随机抽取9 550个样品作为训练样本数据集,并将剩余的100个样品作为测试数据(袋外数据)。

特征选择:对于每个决策树节点,在该节点需要测试一个特征时,仅从所有特征的子集中选取最佳的特征。本次试验中,所有测试的特征包括指标测定中所有烟叶化学质量的影响因子。

决策树生成:根据特征选择方式生成多个决策树,并通过调整树的最大深度、树的个数等方式优化决策树的性能。本次试验中,模型决策树的最大深度默认值为5,树的个数默认值为20。

决策树集成:将所有生成的决策树通过权值加权等方式组合起来,得出最终分类结果。通过决策树的集成,最终生成分类预测模型,从而预测烟叶中总糖、烟碱、总氮、氯的含量。

1.2.2.2 模型训练

我们在算法部署环境搭建完成的基础上,利用种植环境数据和与其对应的化学质量数据作为训练数据集。设置算法参数,将烟叶品种等级、生长地理环境因子、生态因子作为模型训练的输入指标,并分别将化学成分中的总糖、烟碱、总氮、氯作为模型预测标签列,通过调用程序内置接口完成模型训练。

1.2.2.3 模型部署和调用

将开发完成的评价模型训练程序部署成AI应用,完成后通过API接口的形式访问和调用。在实际的验证和应用中,将9项生长环境影响因子作为参数,并调用该API接口,参数以Json的数据格式与模型进行交互,等待模型完成计算后即可返回预测结果。调用模型的Json数据格式示例如下:

{\"data\": {

\"req_data\":

[{

\"海拔\":1 780,\" 年平均气温\":15.5,\" 5—9月平均气温\":19.7,\" 7月平均气温\":20.9,\" ≥10 ℃积温\":4 884.6,\" 5—9月≥10 ℃积温\":3 014.1,\" 年降雨量\":825,\" 5—9月降雨量\":667,\" 品种\":\"Y87\",\"等级\":\"C3F\"}]

}}

1.2.2.4 模型评价与优化

在预测和回归过程中,利用均方根误差(以RMSE表示)和精准度(A)作为模型评价指标[7],从质量数据表中另外抽取100个不包含于训练数据集中的样品作为模型测试样品,通过对模型的调用,得到每个样品化学成分的预测值,并结合其实际值计算得出RMSE。相对均方根误差是用来衡量观测值和真实检测值之间的相对偏差,值越小,证明模型预测越精准。

式(1)、式(2)中,n为样本数量,[yi]为样品化学指标真实值,[yi_p]为样品化学指标预测值。

模型的优化主要通过调整模型超参,并依据调整后模型的均方根误差和判定系数进行评估,以此验证整个模型的精准度,最后找到精准度最高的超参值。我们通过对模型超参的不断调整,最终找出均方根误差最小的超参。模型主要需要优化的超参包括决策树的最大深度和树的个数。模型优化过程通过对每一个超参制定试验数据集,并通过组合后循环生成模型的方式进行[8]。通过进一步的模型优化,最终的预测模型评价结果如表2。

根据模型评价结果可知,应用随机森林预测模型对烟碱、总糖和总氮的预测精准度分别达到83.75%、85.37%和86.44%,预测效果较好,但氯的预测精准度较低。

2" 结果与分析

通过测试数据,对最终优化后的预测模型进行验证,结果如图1~图4。图中的点距离直线y=x越近,证明其预测越精准。通过线性回归和数据相关性分析,烟碱预测模型的真实值和预测值之间相关系数为0.68,总糖为0.13,总氮为0.49,氯为0.47。由此可知,烟碱预测模型真实值与预测值之间相关性最强,拟合度最高,而其精准度也较高,模型的预测效果最好。总糖预测模型虽然精准度较高,但其真实值与预测值的拟合度较低,这可能与总糖含量本身的变异系数较小有关,模型的总体效果不佳。测试样本真实值与模型预测值的对比情况如图5~图8。

3" 讨论与结论

3.1nbsp; 讨论

在大数据、人工智能等新技术发展迅速的今天,人们的生产和生活方式发生了巨大的变革,也让我们有了新的思路去解决生产中的各类问题。在当前,新型技术的应用已经不再是专业技术人员才能接触的领域,现有的各类人工智能和大数据框架越来越简单适用,加之不断发展和成熟的开源技术环境,新型技术的学习和应用成本也在不断降低。

烟草作为我国主要的经济产业,对质量的控制一直是原料生产的核心,特别是加工企业对烟叶均质化加工要求越来越高的今天,原料的质量对卷烟加工配方决策有着关键性的作用,而烟叶质量的各项指标又影响着烟叶的总体协调性。对烟叶质量进行科学的预测和评价,有助于进一步指导烟区规划,从而更加精细化地支撑卷烟生产配方质量,提升烟叶的均质化生产水平。

本次试验将当前大数据与人工智能新型技术用于烟叶的质量综合评价中,通过模型的建立和验证,证明了在烟叶质量评价应用场景中,所用技术具有较高的适用性,为烟叶的质量预测探索了新的思路。

3.2" 结论

通过随机森林模型对烟叶化学指标预测的模型建立,对测试样本导入模型并完成4项指标的预测。通过模型评价和优化,确定了模型决策树的超参数。对输出的模型进行线性回归分析,烟碱、总糖、总氮的预测结果精准度都在83%以上;总糖预测虽精准度较高,但其预测值和真实值的相关系数较低,整体预测拟合度较低,有待进一步研究原因并制定优化方案;而氯含量的预测精准度较低,可能与训练样本氯的变异系数过大有关。对不同基地和品种烟草的化学质量进行评价可以为烟草生产和加工提供有价值的信息,有助于指导优质特色烟叶基地的规划建设,进一步提升烟草品质。

参考文献:

[1] 蒋佳磊, 陆扬, 苏燕, 等. 我国主要烟叶产区烤烟化学成分特征与可用性评价 [J]. 中国烟草学报, 2017, 23(2): 13-27.

[2] 周金仙. 不同生态条件下烟草品种产量与品质的变化 [J]. 烟草科技, 2005, 38(9): 32-35.

[3] 王蘅, 王小生, 陈斌, 等. 不同品种烤烟烤后烟叶质量评价 [J]. 安徽农业科学, 2017, 45(15): 34-36.

[4] 卢沛临, 田青, 李瑞东, 等. 基于随机森林算法的打叶工艺参数优化 [J]. 安徽农业科学, 2022, 50(20): 162-165.

[5] 鄂旭, 李俏竺, 周艺, 等. 基于随机森林的水产品冷链物流鲜度预测模型 [J]. 渤海大学学报(自然科学版), 2022, 43(2): 166-171.

[6] 李红春. 基于随机森林算法的人口空间化研究 [J]. 佳木斯大学学报(自然科学版), 2023, 41(1): 171-174.

[7] 苏志同, 汪武珺. 基于随机森林的煅烧工艺参数的研究和分析 [J]. 软件, 2018, 39(4): 148-150.

[8] 陈思羽, 徐爱迪, 刘春山, 等. 基于随机森林的玉米储藏试验及温度预测 [J]. 农机化研究, 2023, 45(4): 207-210.

(责任编辑:易" 婧)

收稿日期:2023-08-05

基金项目:红塔烟草(集团)有限责任公司楚雄卷烟厂科技项目“楚雄原料基地烟叶品质提升的技术研究和应用”。

作者简介:顾云海(1982—),硕士,主要从事信息化管理、信息化应用研究。E-mail:guckcn@163.com。

*为通信作者,E-mail:duiwang17@163.com。

猜你喜欢

预测模型烟叶
基于皱缩特性的烟叶聚类分析研究
不同成熟度烟叶烘烤过程中大分子物质代谢动态研究
关于新形势下烟叶生产可持续发展的思考
烟叶主要真菌病害的发生与防治
基于矩阵理论下的高校教师人员流动趋势预测
基于支持向量回归的台湾旅游短期客流量预测模型研究
基于神经网络的北京市房价预测研究
中国石化J分公司油气开发投资分析与预测模型研究
基于IOWHA法的物流需求组合改善与预测模型构建
基于预测模型加扰动控制的最大功率点跟踪研究