基于物联网的烟叶烘烤温湿度数据采集分析与算法构建
2023-10-28陈祖销张富生过伟民藏照阳姜舒文刘剑君郑劲民李俊营张艳玲
陈祖销,张富生,过伟民,藏照阳,姜舒文,刘剑君,郑劲民,赵 虎,李俊营*,张艳玲*
1. 中国烟草总公司郑州烟草研究院,郑州高新技术产业开发区枫杨街2 号 450001
2. 河南省烟草公司平顶山市公司,河南省平顶山市新华区建设路263 号 467000
3. 北京市农林科学院信息技术研究中心,北京市海淀区曙光花园中路11 号 100097
4. 河南省烟草公司,郑州市郑东新区商务外环路15 号 450001
5. 西南大学工程技术学院,重庆市北碚区天生路2 号 400700
烤烟烟叶在大田成熟采摘后需装入烤房在一定的温湿度条件下进行烘烤,以达到烤干、烤黄、烤香等目的[1]。烘烤过程是烟叶原料品质形成中至关重要的环节,以烘烤阶段划分、时间管理、温湿度管理等为核心的烘烤工艺则是决定烟叶烘烤品质的重要因素[2]。近年来,随着我国燃煤烤房改造和清洁能源烤房升级[3-4],烘烤物联网数据采集装备逐渐得到应用,谢守勇等[5]通过GPRS 网络,利用点对点等方式对烤房温湿度数据实现远程传送。刘志壮等[6]利用RS485 总线网络设计,以上位机和下位机对烘烤过程中的温湿度进行远程监测及调控。张保全等[7]提出一种基于物联网的温湿度实时监测系统,利用连接在烤房控制仪与温湿度传感器间的数据采集器,采集烤房温湿度数据并将数据传送至后台。赵虎等[8]提出一种基于多通道的烟叶烘烤物联网通信模块,可实现烘烤温湿度的远程监测及风机、电机的远程控制等功能。目前,烘烤物联网数据采集装备在我国部分烟叶产区已普及,海量烘烤温湿度数据的分析及应用在改善烟叶烘烤质量中发挥了巨大作用。然而,由于缺乏数据的有效使用方法,温湿度数据在烘烤工艺执行分析、问题发掘与改进等方面的作用无法充分发挥,而且大量数据采集之后面临数据清洗复杂、挖掘困难等问题。过伟民等[9]基于物联网大数据对烘烤过程数据进行分析,但中间分析过程主要依赖经验判断,无法实现自动化。周文亮等[10]提出一种基于物联网数据的智能烘烤系统,但无法自动识别烘烤阶段。韦克苏等[11]提出基于烟叶图像识别烘烤过程中的阶段控温点,但存在图像色彩校正困难和模型精度不高等问题,导致无法对烘烤指标进行精准计算。为此,基于物联网技术采集烘烤过程烤房干湿球温度数据,研究开发数据清洗、温湿度曲线提取、烘烤阶段识别和烘烤工艺指标等分析算法,并对我国13个地区(市、州)烟叶产区的烘烤数据进行分析应用,旨在为烘烤过程温湿度数据的规范采集和烘烤工艺分析提供依据。
1 材料与方法
1.1 温湿度数据采集
烤房烘烤温湿度数据的采集采用边缘采集和远程传输组合方式,具体采集方式见图1。其中,边缘采集通过RS485接口串联温湿度传感器和烤房控制仪,进行本地边缘的烘烤数据采集;远程传输则在烤房控制仪中安装物联网4G 通信模块,并从控制仪的本地存储中读取烤房烘烤数据,通过其MODBUS-RTU通信协议发送到监控平台。
图1 数据采集方式Fig.1 Data collection method
本试验中采集的烘烤温湿度数据来自2019—2021 年河南省三门峡、信阳、南阳、平顶山、洛阳、济源、漯河、许昌、驻马店和湖北省十堰、宜昌、恩施、襄阳等13个地区(市、州)烟叶产区的7 369座烤房。具体的烘烤数据格式见表1。
表1 烘烤数据格式Tab.1 Format of flue-curing data
1.2 分析方法
1.2.1 烘烤温湿度曲线提取
利用物联网设备采集烘烤过程温湿度时序数据,运用Python 程序建立算法对每座烤房进行数据清洗、单或多烤次温湿度曲线识别与提取、烘烤阶段识别和烘烤工艺指标分析。
1.2.2 烘烤工艺指标分析
以烤烟烘烤技术规程(GB/T 23219—2008)[12]为基础,参考五段五对应[13]、八点式[14]、三段六步式[15]、美式三段式[16]等国内外主要烘烤工艺的关键稳温温度点,提取分析每炉次烘烤数据的烘烤时长、烘烤时间分配、湿球温度控制、异常掉温4 类工艺指标,见表2。
表2 烘烤工艺指标分析Tab.2 Indexes of flue-curing process
1.3 数据处理
利用Python3.8 软件建立数据分析算法;采用SPSS 23.0软件进行数据的方差分析和聚类分析。
2 结果与分析
2.1 烘烤温湿度曲线提取与工艺指标分析算法构建
基于温湿度时序数据的烘烤工艺指标分析算法构建过程见图2。由图2中看出,算法构建过程包括数据初步清洗、单炉或多炉次温湿度曲线分割与终点识别、数据二次清洗、单炉或多炉次温湿度曲线前端去噪与起点识别、烘烤阶段识别与工艺指标提取分析等步骤。
图2 基于温湿度时序数据的烘烤工艺指标分析算法构建过程Fig.2 Establishment process and algorithm for flue-curing process indexes based on temperature and humidity data in chronological order
2.1.1 数据初步清洗与无效烤房数据剔除
通过物联网模块采集到的干湿球温度原始数据为基于时间序列的每个烤房若干烤次数据,采集频率约为5~8 min/次。根据地区分类,每个地区多个烤房的数据存放在不同的文件夹下。数据总体存在量大、类型复杂、各种噪声干扰等问题。原始数据中存在有效单炉次烤房数据、有效多炉次烤房数据和无效烤房数据3种类型。因此,首先对原始数据进行有效数据识别,运用Python 第三方库Pandas 中的Resample函数对烘烤数据时间序列向下采样;然后,建立算法识别存在干球温度大于54.4 ℃(即存在干筋期)且次数大于100次的数据;最后,依据存在至少8 h 左右的干筋期的特征对烘烤曲线进行初步的清洗筛选,避免短时间传感器失效(显示100 ℃)带来的识别错误,否则视为无效数据剔除。
2.1.2 温湿度曲线分割与终点识别
针对有效烤房数据,筛选出干球温度>54.4 ℃的数据,判定每次数据之间的记录间隔。若存在记录间隔大于4 d的数据,则判定为存在多炉次烘烤数据,并以每炉次干球温度最后一次大于54.4 ℃的时间点作为烘烤结束时间;若不存在,则判定为存在单炉次烘烤数据,并以干球温度最后一次大于54.4 ℃的时间点作为烘烤结束时间。
2.1.3 数据二次清洗与温湿度曲线起点识别
继续判断有效温湿度曲线数据中是否存在干球温度<42.4 ℃(即存在变黄期)的数据。如果存在,则确定前一步提取的温湿度曲线为正常曲线;如果不存在,则视为异常曲线剔除。针对正常温湿度曲线进行前端去噪与起点识别。由于干球温度数据总体呈锯齿状波动,因此需计算<42.4 ℃的数据中平均每2 h 的变化幅度,并统计8 h 内温度的累计变化值,筛选出大于累计变化最大值×0.8 的所有数据。以第1个数据时间段内的最小值作为烘烤起点,至此获得每炉次完整的温湿度曲线。
2.1.4 烘烤总时长及主要烘烤阶段时长指标提取
以烘烤起点和终点之间的时间间隔作为烘烤总时长。运用Resample函数对已确定烘烤起止点的有效烘烤数据向下重新采样,计算干球温度每2 h的平均值。统计>42.4 ℃的数据,并将第1个干球温度>42.4 ℃的时间点作为变黄期终点;继续向下统计干球温度每2 h 的平均值>54.4 ℃的数据,并将第1 个>54.4 ℃的时间点作为定色期终点。烘烤起点与变黄期终点之间的时间间隔为变黄期时长,变黄期终点与定色期终点之间的时间间隔为定色期时长,定色期终点与烘烤终点之间的时间间隔为干筋期时长。
2.1.5 烘烤细分阶段时长与湿球温度指标提取
运用Resample函数对已确定烘烤起止点和主要烘烤阶段的有效烘烤数据向下重新采样,计算干球温度每2 h的平均值。按照各细分阶段的温度范围,分别统计预变黄期、变黄初期、变黄前期、变黄中期、变黄后期、定色前期、定色中期、定色后期、干筋前期和干筋后期的时长和湿球温度中位值。由于烘烤过程中因水壶缺水、信号缺失等会造成湿球温度异常,因此剔除各阶段湿球温度为负数、0和异常偏高(变黄初期>37.4 ℃,变黄前期>38.4 ℃,变黄中期和后期>40.4 ℃,定色前期>42.5 ℃,定色中期~烘烤结束>46.5℃)的数据。
2.1.6 异常掉温次数统计
运用Resample函数对有效烘烤数据向下重新采样,计算干球温度每1 h的平均值。计算相邻时间点干球温度每1 h的平均值的差值,并统计干球温度差值<-3 ℃的数据个数,即为对应烘烤时期的掉温次数。如果烘烤终点前3 h 存在干球温度差值<-3 ℃,则这些数据个数不计为掉温次数。
2.2 不同产区烘烤工艺指标分析
2.2.1 提取数据概况
通过算法对2019—2021年13个地区(市、州)烟叶产区的烘烤温湿度数据进行处理(表3)。从7 367座烤房中共提取出14 214 炉次温湿度数据,其中存在5%左右烘烤总时长异常偏低的有效数据。经逐条对比原始数据后发现,此类数据是由于烘烤开始阶段出现大幅度掉温进而造成识别的烘烤起点晚于实际烘烤起点。在后续分析中,此类数据予以剔除,因此共提取到13 493炉次有效烘烤温湿度数据。
表3 提取的烘烤数据的分布Tab.3 Distribution of extracted flue-curing data
2.2.2 烘烤过程时间管理分析
由表4可知,13个地区(市、州)烟叶产区烘烤总时长为171.7 h,变黄期、定色期、干筋期时长以及各自占比分别为69.5 h(39.8%)、60.6 h(35.7%)和41.6 h(24.5%)。不同产区之间存在显著差异,其中变黄期和干筋期时长的差异相对较大。各产区烘烤总时长为139.1 ~188.5 h,其中平顶山、恩施和宜昌显著高于其他产区,烘烤总时长在185 h 以上,而信阳显著低于其他产区,烘烤总时长为139 h左右。变黄期时长为54.5 ~98.1 h,其中平顶山和许昌显著高于其他产区,时长在97 h左右,而信阳显著较低。定色期时长为48.9 ~69.7 h,其中襄阳、十堰、洛阳和济源显著较长,时长在65 h以上,而许昌和信阳显著较低,在50 h以内。干筋期时长在34.1 ~58.7 h,其中恩施、宜昌和三门峡显著较高,接近或超过50 h,而平顶山、许昌、漯河、南阳、信阳和济源显著较低,在35 h 左右。从烘烤三阶段时间分配来看,各产区变黄期时长占比为33.7%~53.2%,定色期时长占比为27.5%~41.2%,干筋期时长占比为19.3%~31.7%。
表4 不同烟叶产区烘烤过程时间管理①Tab.4 Time management during flue-curing process in different tobacco producing areas
以上述7 项烘烤时长和烘烤时间分配指标为变量,对不同产区烟叶烘烤过程时间管理进行系统聚类分析,结果见图3 和表5。13 个地区(市、州)烟叶产区可较好地聚为3类:第Ⅰ类产区烘烤总时长和干筋期时长较长,变黄期和定色期时长接近,包括恩施、十堰、襄阳、宜昌、洛阳和三门峡;第Ⅱ类产区烘烤总时长和变黄期时长较长,定色期和干筋期时长较短,包括平顶山和许昌;第Ⅲ类产区烘烤总时长较短,变黄期和定色期时长接近,包括济源、信阳、驻马店、南阳和漯河。
表5 烘烤过程不同时间管理分类的烘烤时长与时间分配Tab.5 Flue-curing duration and time allocation of different time management categories during flue-curing
图3 不同产区烘烤过程时间管理的聚类分析树状图Fig.3 Tree diagram for cluster analysis on time management during flue-curing in different producing areas
2.2.3 烘烤过程湿度管理分析
由表6可知,13个地区(市、州)烟叶产区烘烤过程变黄前期、变黄中期、变黄后期、定色前期、定色中期、定色后期和干筋后期湿球温度的平均值分别为36.3 ℃、36.7 ℃、36.1 ℃、35.6 ℃、36.1 ℃、36.9 ℃和39.5℃。不同产区之间存在显著差异,定色前期~干筋后期的差异相对较大。各产区烘烤变黄前期湿球温度为35.7 ~36.9 ℃,许昌和十堰显著较高,三门峡显著较低。变黄中期湿球温度为35.6 ~37.4 ℃,十堰显著较高,平顶山显著较低。变黄后期湿球温度为34.5 ~36.9 ℃,南阳、十堰和襄阳显著较高,平顶山显著较低。定色前期、定色中期和定色后期湿球温度分别为34.1 ~36.5 ℃、34.3 ~37.1 ℃和35.2 ~37.8 ℃,南阳、三门峡、十堰、襄阳和信阳等产区显著较高,平顶山、漯河和许昌产区显著较低。干筋后期湿球温度为38.3 ~41.1 ℃,信阳和南阳显著较高,接近41 ℃,平顶山和漯河显著较低。
表6 不同产区在各烘烤阶段湿球温度中位值Tab.6 Median values of wet bulb temperature in different producing areas at each flue-curing stage(℃)
以上述7项烘烤过程湿球温度指标为变量,对不同产区烟叶烘烤湿度管理进行系统聚类分析,结果见图4和表7。13个地(市、州)烟叶产区可较好地聚为3类,Ⅰ类产区变黄后期~干筋后期湿球温度较高,相对较高湿度调控烘烤,包括南阳、三门峡、信阳、十堰和襄阳;Ⅱ类产区变黄后期~干筋后期湿球温度中等,相对中等湿度调控烘烤,包括恩施、宜昌、济源、洛阳和驻马店;Ⅲ类产区变黄后期~干筋后期湿球温度较低,相对较低湿度调控烘烤,包括许昌、平顶山和漯河。
表7 烘烤过程不同湿度管理分类的烘烤过程湿球温度Tab.7 Wet bulb temperatures of flue-curing process for different humidity management categories during flue-curing(℃)
图4 不同产区烘烤过程湿度管理的聚类分析树状图Fig.4 Tree diagram for cluster analysis of humidity management during flue-curing in different producing areas
2.2.4 烘烤过程异常掉温分析
烘烤过程各阶段掉温次数统计结果见表8。由表8中看出,掉温次数由变黄期至干筋期依次增加。各产区每炉次烘烤变黄期的平均掉温次数为0.04~0.26 次,平顶山显著较高。定色期的平均掉温次数为0.04~0.57 次,恩施显著较高,宜昌显著较低。干筋期的平均掉温次数为0.28~1.71 次,恩施显著较高,漯河显著较低。
表8 烘烤过程各阶段平均掉温次数统计Tab.8 Statistics on the average number of temperature drop in each stage of flue-curing process(次)
3 讨论
基于物联网技术采集了烘烤过程温湿度数据,建立了烘烤工艺指标自动分析算法,包括数据初步清洗与无效烤房数据剔除、温湿度曲线分割与终点识别、数据二次清洗与温湿度曲线起点识别、烘烤总时长与主要烘烤阶段时长指标提取、烘烤细分阶段时长与湿球温度指标提取、异常掉温次数统计等一系列步骤,可准确分割海量温湿度数据中的每一炉次烘烤工艺温湿度曲线,并自动分析烘烤过程时间和温湿度管理、异常掉温等指标,为科学解析与挖掘温湿度数据、拓宽数据用途提供了新方法。在杨祯等[17]、李时杰等[18]、吴玉康等[19]和魏访等[20]的环境温湿度在线监测技术研究基础上,进一步探讨了温湿度数据的深度利用方法。与廖建尚[21]、杨柳等[22]、周海鸿等[23]和杨信廷等[24]对环境温湿度数据处理的效果不同,本研究中对数据快速分离、去噪的同时,还能够进一步提取烟叶烘烤工艺指标,可为烘烤工艺大数据分析和优化提供支撑。
在掉温次数统计中,存在部分掉温次数未统计完全,这是由于部分烤房的温度曲线波动过大,当连续两次掉温时间接近,或者第一次掉温后升温不久(但未升到原始温度)再次掉温时,均识别认定为1次掉温,这对掉温次数统计结果存在一定影响。掉温次数主要集中在干筋期,可能是干筋期烘烤温度较高,对烤房加热系统要求较高,易出现掉温,导致干筋期掉温次数较前两个阶段增多。
利用算法分析13 个地区(市、州)烟叶产区的烘烤工艺指标,发现烟叶烘烤总时长的平均值为171.7 h,变黄期、定色期、干筋期的时长占比为39.8%、35.7%和24.5%,与津巴布韦烟叶6.5 ~7.5 d的烘烤总时间接近[25-26],与孙福山等[13]、汪伯军等[15]提出的推荐烘烤工艺的时间管理特征相似,这说明算法分析结果与现有报道相符。本研究中发现,不同产区烟叶烘烤工艺的时间管理特征存在区域性差异,湖北4个产区和豫西2个产区呈现烘烤总时间和干筋期时间较长,变黄期和定色期时间接近的特点;豫中许昌和平顶山产区呈现烘烤总时间和变黄期时间长,定色期和干筋期时间短的特点;南阳、驻马店等豫南产区则呈现烘烤总时间较短,变黄期和定色期时间接近的特点。这种差异与各产区鲜烟叶素质、成熟期气象条件不同有关,如豫中平原烟区水肥条件较好,烟叶单叶重较大,叶片相对宽厚,需要较长时间完成烟叶变黄。从烘烤工艺的湿度管理特征来看,与其他大多数烘烤工艺研究报道相比[12-15],本研究中的烟叶烘烤变黄后期~干筋期湿球温度整体偏低1~2 ℃,烘烤中后期环境湿度偏低,可能造成烘烤过程中烟叶干燥过早,影响颜色和香味物质形成[27-28]。总体而言,不同产区实际执行的烘烤工艺存在较明显差异。一方面说明烘烤过程工艺管理具有复杂性,受烘烤人员主观认识、生态环境和鲜烟叶素质等主客观条件的综合影响,另一方面也提示进一步加强烘烤工艺基础研究、提高烘烤工艺与特定生态环境匹配度的必要性[29]。
在大数据应用中,本研究中提出的算法有较好的可用性,能够准确、快速、便捷地对温湿度数据进行清洗和处理分析,为烘烤工艺数字化分析提供可靠方法。下一步将依据本研究中建立的数据分析方法,结合鲜烟叶素质、烤后烟叶质量开展更为系统的工艺评价和个性化调优。此外,对于极端异常的烘烤温湿度数据,如何高效前端去噪、准确判断烘烤起点、精确统计掉温次数等仍有待优化研究。
4 结论
建立了基于烤房温湿度时序数据的烘烤工艺指标分析算法,该方法能够对基于物联网技术采集的温湿度数据进行数据清洗、温湿度曲线提取和烘烤工艺指标自动分析。通过对2019—2021 年我国13个地区(市、州)烟叶产区的13 493 炉次烘烤温湿度数据分析,明确了烘烤过程的时间管理现状为总时长139.1~188.5 h,变黄期、定色期、干筋期占烘烤总时长的比例分别为33.7%~53.2%、27.5%~41.2%和19.3%~31.7%;湿度管理现状为变黄前期~干筋后期7 个细分阶段的湿球温度分别为35.7~36.9 ℃、35.6~37.4 ℃、34.5~36.9 ℃、34.1~36.5 ℃、34.3~37.1 ℃、35.2~37.8 ℃和38.3~41.1 ℃。提出了烘烤过程时间管理具有区域性差异、烘烤中后期湿球温度整体偏低等烘烤工艺特征。