APP下载

基于分形维数和HHT的蚜虫刺吸电位波形机器识别

2019-01-14吴莉莉贾树恒邢玉清卢少华潘建斌闫凤鸣

农业工程学报 2018年24期
关键词:维数识别率决策树

吴莉莉,贾树恒,邢玉清,卢少华,潘建斌,闫凤鸣



基于分形维数和HHT的蚜虫刺吸电位波形机器识别

吴莉莉1,贾树恒1,邢玉清1,卢少华2,潘建斌1,闫凤鸣2

(1. 河南农业大学理学院,郑州 450002; 2. 河南农业大学植物保护学院,郑州 450002)

昆虫刺吸电位(electrical penetration graph,EPG)技术在研究刺吸式昆虫取食行为、昆虫与植物的关系、昆虫传毒机制、作物抗虫机制等方面得到了广泛的应用,然而EPG信号的识别和分析一直是靠人工进行,亟需波形自动识别系统以提高分析效率。刺吸式昆虫取食植物时,产生的EPG波形跟昆虫和植物的种类有关,不同类别的刺吸式昆虫EPG波形差别很大,即使是同种类型的EPG波形其幅值和频率间也会有差异,这给EPG波形的机器识别带来了困难。该文以蚜虫的EPG信号为研究对象,对np波、pd波、E1波、E2波、G波、C波和F波的特征提取和分类识别进行了研究,提出了一种基于分形维数、希尔伯特-黄变换(hilbert-huang transform,HHT)和决策树的EPG波形识别方法。首先对EPG仪器采集得到的信号进行去噪预处理,分别提取分形维数和HHT共10维特征,组成不同维数的特征向量进入决策树分类器进行对比试验。试验结果表明,可采用分形盒维数、Hurst指数、前2层的谱质心和加权频率融合的6维特征向量获得较高的识别率。在EPG波形的机器识别中采用6维特征向量输入的决策树进行分类,通过对4组不同样本进行测试,得到了92.14%、89.29%、95%和89.29%的识别率,平均识别率为91.43%。研究结果表明该文提出的基于分形维数和HHT的特征提取方法以及构建的决策树分类器具有一定的可行性,可为研发EPG信号自动识别分析系统提供理论参考。

昆虫;分形维数;特征提取;刺吸电位波形;希尔伯特-黄变换;决策树;分类

0 引 言

刺吸式昆虫是世界农林生产上最重要且最难控制的害虫类别之一,多数植物病毒是由这类昆虫传播的,控制这类害虫及其所传播的植物病毒成为农业和植保领域的重要课题。刺吸电位(electrical penetration graph,EPG)技术通过研究刺吸式昆虫的取食行为和植物抗性机制,从而为利用生态途径和植物抗性控制害虫奠定基础[1]。

EPG信号与昆虫的刺探行为、唾液分泌、取食等生理过程相对应,在利用EPG技术进行昆虫和植物的相关研究时,需要正确解读EPG波形,这些工作一直以来都是靠人工进行。EPG信号的分析和统计经历了最初的手工统计、Stylet系列软件和Probing系列软件的发展[2],但即使是最新版本的软件,也仅仅是对人工标记好的波形进行统计分析,EPG信号的识别还是要靠人工完成。这种纯粹依靠人工进行波形识别的方式不仅耗时耗力,且主观性强,可靠性不高,很大程度上限制了EPG技术的推广应用,因此EPG波形的机器识别显得尤为迫切。

EPG波形属于生物电信号,具有数据量大、幅度小、频率低、非线性和波形多样等特点,这给EPG信号的特征提取及分析识别带来了很大的困难。

生物电信号是一个时间序列,分形理论能对它的不规则度进行有效的刻画,揭示信号的局部在某一方面表现出与整体的相似性,信号的分形维数(fractal dimension,FD)能反映信号几何形态的复杂度。基于分形维数的特征提取方法在心电、脑电等生物电信号中受到了广泛关注。例如:王玉等[3]采用了基于毯子维的分形截距特征作为分类特征,有效地区分了癫痫脑电与间歇期脑电,分类检测的准确率达到96% 以上。André LV. Coelho等[4]采用了FD作为肌电信号的特征,Maryam Hamidi等[5]在采用了FD作为心音信号的特征,均取得较好的分类效果。

生物电信号本质上都是非线性和非平稳的,因此非线性信号处理技术更适合处理这类信号。希尔伯特-黄变换(Hilbert-Huang transform,HHT)作为分析时变非平稳信号的有力工具,把非线性信号变换分解为多个单一模式信号,根据信号本身自适应的选取变换基底,因此更能从本质上对生物电信号进行分解。近年来在心电、脑电等生物电信号的特征提取和去噪中都得到了广泛应用。例如:杨鹏圆等[6]对情感脑电信号提取了HHT的特征识别愉悦度,梅婉欣等[7]采用HHT特征辨别不同阅读模式下的脑电信号,Sule Yücelbas等[8]采用了HHT对心电信号进行特征提取,识别了唤醒、非快速眼球转动和快速眼球转动3个睡眠阶段。

机器学习在心电、脑电和肌电等人体生物电信号的自动识别、波形分类和疾病诊断等方面已做了大量的研究工作[9-11],也取得了丰硕的研究成果,然而在昆虫EPG信号的研究中尚属空白。

本文在尝试了时域、频域和时频特征提取方法之后,经过多次试验对比分类效果,提出了基于分形维数和HHT融合的特征提取方法,利用决策树实现EPG波形的分类识别,以期为EPG信号自动识别分析系统的研发奠定理论基础,缩短EPG信号的分析时间,促进EPG的高效利用及智能化发展。

1 EPG信号分析的常用波形

EPG信号的生物学意义是分析昆虫刺吸行为的基础,利用EPG无论进行何种目的的研究,都需要准确判别各类波形的生物学意义。刺吸式昆虫取食植物时,产生的EPG信号跟昆虫和植物的种类有关,不同类别的刺吸式昆虫(例如蚜虫、叶蝉、绿盲蝽等)其EPG信号差异很大。

蚜虫是最早应用EPG技术研究其刺吸行为的昆虫,也是研究最深入的,结合透射电镜、同位素示踪、口针切割等技术,已明确了蚜虫的8种基本波形及其生物学意义[12]。这8种波形分别为np波(非刺探波,此时蚜虫口针未刺入植物表皮内,波形几近直线)、A、B、C波(路径波,A波总伴随着水溶性唾液的分泌;B波在A波之后,伴随着凝胶型唾液的分泌,此时蚜虫的口针位于表皮及薄壁组织内[13-14];B波之后C波出现,二者没有截然的界限,C波是EPG信号中最复杂的波形,此时蚜虫的口针位于表皮与微管束之间,在判读中,一般将一些不能明确区分的波也归入C波,统计时A波、B波也归入C波)、pd波(口针穿刺波,反映了蚜虫口针刺破细胞膜时所测的膜内外电位差)、E波(E波反映了口针刺探韧皮部筛管的过程,可分为El波(韧皮部分泌唾液波)和E2波(韧皮部取食波))、G波(木质部取食波)和F波(机械障碍波),如图1所示,该波形由EPG系统的使用手册提供,作为判读各种波形的参考样本。

注:np代表np波,A代表A波,B代表B波,C代表C波,pd代表pd波,F代表F波。下同

在利用EPG波形进行昆虫取食行为、植物抗性或传毒机制研究时,通常需要先人工识别出上述几种波形,再统计分析各个波形的参数指标。

2 EPG波形的获取和预处理

试验中选用荷兰生产的直流Giga-8 EPG 仪来获取EPG波形,该仪器的输入阻抗为109欧姆,A/D 采集卡分辨率12位,8通道,采样频率100 Hz。受试昆虫为桃蚜,长期隔离饲养于温室内的健康烟草上,饲养条件为:温度25 ℃,相对湿度70%,光周期14 h:10 h(光照时间:黑暗时间),选用无翅成蚜进行试验。受试植株为烟草(中烟一号品种),种于人工气候箱中的花盆内,每3 d浇1次蒸馏水,隔21 d浇1次营养液,不施用任何农药。培养环境为:温度25 ℃,相对湿度70%,光周期14 h:10 h(光照时间:黑暗时间),选取同一生长状态的4~6叶期的植株进行试验。EPG波形的获取试验在白天室温20 ℃下进行,受试蚜虫在饥饿1 h后开始记录,记录时长为4 h。

EPG信号在采集过程中,不可避免受到噪声的干扰,这些噪声来源于EPG仪器和昆虫,主要有工频干扰、放大电路内部噪声、昆虫的运动伪迹干扰以及基线漂移等等,为了能准确地提取EPG信号的特征,在分析前必须剔除这些干扰因素,对信号进行预处理,具体实施过程参见文献[15]。

3 EPG波形的特征提取

EPG的各种波形形态特征差异很大,即使同种波形,其幅值、频率和波形走向也有所不同,要找到一种通用的特征提取方法适合所有的波形难度很大,本文拟采用基于分形维数和HHT的融合特征构建特征向量,对np、C、pd、E1、E2、G和F波共7种波形进行分类识别。

3.1 分形维数特征提取

常用的分形维数主要包括:Hausdorff 维数、盒维数、自相似维数、Hurst指数、信息维数和关联维数等。EPG信号作为一种时间序列,分形维数能够对其特征变化以及分布的复杂性、不规则性进行有效刻画,考虑到计算量,本文选取盒维数和Hurst指数。

3.1.1 盒维数

设是R上的任意非空有界子集,()是直径最大为、可以覆盖集合的最少个数,则的盒维数定义为[16-20]

实际应用中无法按照式(1)定义的极限求解,本文采用近似计算方法,在离散信号()的无标度区内,用一系列方形的网格进行覆盖,以网格为基准,逐步放大到网格,得到各尺度下有效覆盖的网格个数N,再用最小二乘法得到log−logN的拟合直线,其斜率就是离散信号()的分形盒维数F

计算结果表明EPG信号的盒维数取值范围在1~2,波形越复杂盒维数越大。

3.1.2 Hurst指数

Hurst指数(用表示)是自相似性度量的无量纲估计[4],通常用来表征时间序列很长范围内的相关性。如果=0.5,说明时间序列是不相关的或者在很短时间范围内相关;如果>0.5,则时间序列具有显著的正相关性,且是持久的;如果<0.5,时间序列也具有长期的相关性,但总体趋势与之前的相反,即反持久性。

在估计Hurst指数时,常用的方法为/分析法(又叫重标极差法)。对于一个时间序列(),将其分成若干个长度为的等长子区间,对每个子区间重复计算得到Hurst指数序列。

Hurst指数可由式(2)计算出。

试验中,在对EPG做特征提取时,以10 s长的数据为1个样本(即每个样本含有1 000个数据点),每种波形选用100个样本。对7种波形各100个样本分别计算盒维数和Hurst指数,组成特征向量。为了便于观察,求取每种波形100个样本的盒维数和Hurst指数均值,如表1所示。

表1 EPG波形的分形维数

由表1可见,在盒维数特征中E2波和C波的值较接近,在Hurst指数特征中E1波和C波的值较接近,其余波形的分形维数特征差异明显,可作为区分类别的特征。对于特征值较接近的波形,分形维数特征不易区分,因此还需融合其他特征来识别。

3.2 HHT特征提取

3.2.1 HHT的基本原理

HHT由经验模态分解(empirical mode decomposition,EMD)和希尔伯特变换(hilbert transform)两部分[18]组成。HHT先对信号进行EMD,得到若干本征模态函数(intrinsic mode function,IMF)之和[24],通过对每个IMF分量进行Hilbert变换得到信号的瞬时频率和幅值,进而可得到信号完整的Hibert谱。

对任意信号()进行EMD的步骤[25-27]如下:

1)找出信号()中所有局部极值点,用三次样条函数拟合形成信号的上、下包络线;

2)计算上线包络线的均值,求出信号()与均值的差值();

3)判断()是否满足IMF的条件,若不满足,把()作为原始信号,重复步骤1)~2),直至满足条件。把()作为信号()中满足IMF条件的第1个分量,求出信号()与第1个IMF分类的差值();

4)将()作为新的原始信号,重复步骤1)~3),循环次,得到信号()的个满足IMF条件的分量。当剩余分量r()变为单调函数,从中不能再筛选出新的IMF分量时循环结束。

此时信号()可分解为个IMF分量和1个剩余分量之和,如式(3)所示。

由上述分析可以看出,EMD最先分解出高频分量,而后依次分解出低频分量,对每个分量进行Hilbert变换,计算瞬时频率和幅值,按式(4)可以重构原信号()的解析式。

式中a()和()分别是第个IMF分量的幅值函数和瞬时角频率函数,符号Re代表取实部。若将幅值表示为时间和频率的函数,则可得到幅值的时间-频率分布谱,即Hilbert谱。

3.2.2 谱质心和加权频率

谱质心是信号中频率成分分布的中心,作为描述信号特征的一个参数,谱质心的定义[28]为

式中为信号长度,f()和E()分别为第个IMF分量的第个采样点的瞬时频率和瞬时能量。

对于非平稳信号而言,频率是随时间变化的,加权频率的定义式为

式中a()为第个IMF分量的第个采样点和幅值。

由于信号的内在特征主要体现在前几个IMF分量上,最后几个分量包含低频成分,幅值累计较小,包含信息量少,因此提取前2个IMF分量的谱质心和加权频率值,组成HHT的特征向量。表2给出了7种波形各100个样本前4层的谱质心和加权频率均值。由表2可以看出在加权频率的特征值中,第1层的E2波和G波最为接近,差值为0.017;第2层的pd波和C波最为接近,差值为0.001;第3层和第4层都是C波和F波最为接近,差值为0.001。在谱质心的特征值中,第1层的E2波和C波、G波和F波差值均为0.04;第2层的pd波和E2波差值为0.02;第3层的E2波和C波,差值为0.001;而第4层的pd波和C波完全相同,差值为0。这说明各个波形间的特征值差异会随层数增多而减小,特征值并不是选得越多越好,显然第3、4层的HHT特征对波形的分类识别没有益处。

表2 EPG波形的HHT特征

3.3 EPG波形的特征向量

在对EPG波形进行分类的试验中,选用基于分形维数和HHT的6个特征组成特征向量Fea=[FSC1SC2Wf1Wf2],其中F代表盒维数;代表Hurst指数;SC1代表第1层谱质心;SC2代表第2层谱质心;Wf1代表第1层加权频率;Wf2代表第2层加权频率。图2给出了7种EPG波形各100个样本的特征值分布,从图中可以看出,G波和F波的F、SC2和Wf2特征值一致性较好,比较集中,pd波的值较集中,np波的SC2、Wf1和Wf2跟其他波形无交叉,易于区分。这些特征值将作为决策树分类器的输入向量,分类器的输出即为7种类别的EPG波形。

图2 EPG波形的特征值分布

4 EPG波形的机器识别

在目前生物电信号的机器识别中,常用的分类器有神经网络、支持向量机、决策树等等。综合考虑参数设置、识别率和耗时等因素,本文采用决策树作为分类器。

4.1 决策树分类器的构建

对EPG波形的分类识别中拟采用C4.5算法来生成决策树。C4.5算法是ID3算法的改进算法,在决策树的构造过程中,最关键的2个步骤是用信息增益率来选择属性和用后剪枝法对决策树的训练集进行剪枝[29]。

在C4.5算法中将决策树看作是含有分类标签的信息源,设训练集为,样本类别标号为C(=1,2…),为训练集中的类别数量,此时训练集的信息熵[30-31]为

假设属性特征为,令={1,2,…,S},其中为属性包含不同值的数目。样本集在属性上的信息增益为

信息增益率是用信息增益和分裂信息量共同定义的,即

其中分裂信息量的定义为

信息增益率表示了由分支产生的有用信息的比率,该值越大,分支包含的有用信息就越多。

EPG波形机器识别的决策树分类规则如图3所示,该决策树经过10步的剪枝完成EPG各波形的分类。由于np波的特征值Wf1跟其他波形无交叉,F波的F和Wf2特征值比较集中,所以在决策树中前2个分类特征用F和Wf1将np波和F波首先区分开来。图3中先根据式(9)计算所有样本特征的信息增益率,选择最大的信息增益率对应的属性,标记为根节点,即图中的B≥1.670,在B的值域范围内产生相应的分支,各分支节点(也就是叶子节点)的数值就是该候选属性的最大信息增益率。

4.2 识别结果与分析

在对EPG的7种波形做分类时,从EPG仪器的8个通道中随机选取4个通道的EPG信号,作为试验的4组样本。每组样本的EPG信号时长取7 000 s,即每组样本的数目为700个,其中训练样本560个,测试样本140个。

为了说明选用分形维数和HHT融合特征的有效性,试验中采用决策树作为分类器对比了不同特征向量维数的正确识别结果,如表3所示。

表3中识别率的计算方法如式(11)所示[32]。

式中是用于训练的样本集数目,TP为正确肯定(实际是正例,识别为正例),TN为正确否定(实际是负例,识别为负例),FP为错误肯定(实际是负例,识别为正例),FN为错误否定(实际是正例,识别为负例),即识别率为正确识别样本个数与总体样本个数的百分比。

注:F代表分形盒维数,代表Hurst指数,SC1代表第1层谱质心,SC2代表第2层谱质心,Wf1代表第1层加权频率,Wf2代表第2层加权频率。

Note:Frepresents box dimension,represents Hurst exponent, SC1represents weighted frequency of the first layer, SC2represents weighted frequency of the second layer, Wf1represents spectral centroid of the first layer, Wf2represents spectral centroid of the second layer.

图3 EPG波形的决策树分类模型

Fig.3 Decision tree classification model for EPG waveform

表3 不同特征向量识别率比较

表3中4个HHT特征向量组成为第1、2层的谱质心和加权频率;融合特征8个的特征向量组成为:分形盒维数、Hurst指数、第1、2、3层的谱质心和加权频率;融合特征10个的特征向量组成为:分形盒维数、Hurst指数、第1、2、3、4层的谱质心和加权频率。由表3可知用6个融合特征是最佳组合,4组的识别率分别为92.14%、89.29%、95%和89.29%,平均值为91.43%,均高于采用8个和10个融合特征的识别率。

分析表3中识别率差异较大的原因主要有2方面:一方面是试虫的个体差异,即使是同种EPG波形,幅值(如图4a、4b、4c和4d所示的E1、E2波)、频率(如图4a和4b所示的E1波)或波形走向(如图4c和4d所示的C波)也差别较大,使得提取的特征值分散,不易区分;另一方面是试验中采用的为有监督学习,识别结果与训练样本的选取关联很大,如果训练样本的波形跟测试样本差别较大,会出现识别率较低的情况。

图4 同种类型的波形差异对比

表4给出了采用6个融合特征时机器识别与人工识别对比结果。人工识别由2人分别完成,其中一人从事过2 a的EPG波形研究,经验丰富;另一人为初学者,在操作之前进行2 h 的EPG波形学习。

表4 机器识别与人工识别的性能比较

由表4可以看出,2组人工识别的识别率均高于机器识别,人工识别的平均识别率为99.11%,机器识别的平均识别率为91.43%,但人工的耗时明显要长于机器识别,机器识别的平均耗时为18.22 s,而人工的平均耗时为839.13 s。机器识别的正确率比人工识别低了7.68个百分点,在可接受范围内,但耗时仅为人工识别的1/46,极大地提高了工作效率。后续研究可以通过优化分类器、集成学习等方法进一步提高识别率。

为了明确分类效果,表5给出了4组测试样本的混淆矩阵均值,在混淆矩阵中,对角线元素表示各波形能被决策树正确识别的百分比,非对角线元素表示发生错误判断的百分比。从表5中可以看出,np波、E1波和G波能准确无误地识别;F波的识别率为97.5%,部分F波会错判为pd波和G波,这与提取的第1层谱质心的特征有关(F波和G波的特征值最为接近);pd波的识别率为92.5%,会错判为E1、E2和C波。而E2波和C波的识别率较低,易发生误判,E2波判为C波的错误率为15%,C波判为E2波的错误率为16.25%,这是因为提取的多个特征值(如盒维数,第1、2层谱质心和第2层加权频率)差异不明显。np波为非刺探波,此时昆虫还未取食,所以波形很好判定;E1波、G波和F波为准周期的信号,易于区分;一个完整的pd波中有明显的下降和上升,也易于识别。而C波是所有波形中最为复杂的波,通常含有A波、B波和一些不能识别的波,波形走向复杂多样,不易选取有代表性的特征,容易和其他波形混淆。E2波是刺吸口器昆虫在韧皮部取食时产生的波形,通常在E1波发生之后出现,一般为负电位,可以通过增加时域幅值特征来加以区分。

表5 4组测试样本识别率的混淆矩阵均值

5 讨 论

EPG波形一直以来都是靠人工识别,机器学习在EPG领域进展得比较缓慢,这与EPG波形的复杂程度也有一定关系。在EPG的波形中,C波是最为复杂的,不仅包含有A波和B波,甚至一些不能定义的波形也归为其中。A波出现于蚜虫口针刚刚刺入植物的叶面组织,与其他波相比,幅度最大,B波紧随A波之后,随着唾液鞘的不断固化,导电性会起伏不定,所以波形会忽高忽低,同时慢慢过渡到C波,而通常在记录数据中,多为B波和C波叠加后的复合波形。因此C波的波形走向复杂多样,在识别时容易出错。虽然E1波和E2波比较规律,但是不同的试虫因个体差异,得到的波形也会出现幅值和频率上的差异。这些都给EPG波形的机器识别带来了困难。

本文仅基于分形维数和HHT的非线性特征对EPG波形的决策树分类识别作了初步探讨,还有很多工作待进一步完善:1)目前仅仅识别了7种波形,在传毒应用中,还有会E1+E2波,这部分的波形识别还需考虑;2)文中仅提取了盒维数和Hurst指数作为分形维数特征,增加其他分形维数特征是否可以提高识别率,有待于验证;3)融合其他特征如非线性熵特征,小波时频特征等,寻找能代表各个波形的最佳分类特征;4)采用其他分类器,如极限学习机,随机森林算法、集成学习等是否可以获得更高的识别率,还需要进一步试验验证。

6 结 论

为实现EPG波形的机器识别,本文以蚜虫的EPG信号为例,对np波、pd波、E1波、E2波、G波、C波和F波的特征提取和分类识别进行了研究,提出了融合分形维数和HHT的特征提取方法,构建了基于决策树的分类器,通过对4组不同样本进行测试,得到了92.14%、89.29%、95%和89.29%的识别率。试验中对EPG的7种波形进行了分形维数和HHT的非线性特征提取,分别将2维、4维、6维、8维和10维特征向量进入决策树进行分类识别,试验结果表明,6维的特征向量(即分形盒维数、Hurst指数、第1、2层的谱质心和加权频率)得到的识别率最高,平均为91.43%;增加特征维数并不一定能提高识别率。

[1] 闫凤鸣,王满囷. 昆虫刺吸电位技术及其应用[M]. 郑州:河南科学技术出版社,2017:9-41.

[2] Adasme-Carreño F, Muñoz-Gutiérrez C, Salinas-Cornejo J, et al. A2EPG: A new software for the analysis of electrical penetration graphs to study plant probing behaviour of hemipteran insects[J]. Computers and Electronics in Agriculture. 2015, 113(4): 128-135.

[3] 王玉,周卫东,李淑芳,等. 脑电信号的分形截距特征分析及在癫痫检测中的应用[J]. 中国生物医学工程学报,2011,30(4):562-566.

Wang Yu, Zhou Weidong, Li Shufang, et al. Fractal intercept analysis of EEG and its application for seizure detection[J]. Chinese Journal of Biomedical Engineering, 2011, 30(4): 562-566. (in Chinese with English abstract)

[4] André L V Coelho, Clodoaldo A M Lima. Assessing fractal dimension methods as feature extractors for EMG signal classification[J]. Engineering Applications of Artificial Intelligence, 2014, 36 (11): 81-98.

[5] Maryam Hamidi, Hassan Ghassemian, Maryam Imani. Classification of heart sound signal using curve fitting and fractal dimension[J]. Biomedical Signal Processing and Control, 2018, 39 (1): 351-359.

[6] 杨鹏圆,李海芳,陈东伟. Hilbert-Huang变换在情感脑电特征提取中的应用[J]. 计算机工程与设计,2014,35(7):2509-2514.

Yang Pengyuan, Li Haifang, Chen Dongwei. Application of Hilbert-Huang transform in emotion EEG feature extraction[J]. Computer Engineering and Design, 2014, 35(7): 2509-2514. (in Chinese with English abstract)

[7] 梅婉欣,徐莹,柯大观. 基于HHT的脑电信号在不同阅读模式下的识别与分类[J]. 传感技术学报,2016,29(10):1471-1477.

Mei Wanxin, Xu Ying, Ke Daguan. Recognition and classification of EEG signal in reading mode based on hilbert-huang transformation[J]. Chinese Journal of Sensors and Actuators, 2016, 29(10): 1471-1477. (in Chinese with English abstract)

[8] Sule Yücelbas, Cüneyt Yücelbas, Gülay Tezel, et al. Automatic sleep staging based on SVD, VMD, HHT and morphological features of single-lead ECG signal[J]. Expert Systems With Applications, 2018, 102 (7): 193-206.

[9] Deng M Q, Wang C, Tang M, et al. Extracting cardiac dynamics within ECG signal for human identification and cardiovascular diseases classification[J]. Neural Networks: the official journal of the International Neural Network Society, 2018, 100 (4): 70-83.

[10] Su K M, David Hairston W, Robbins K. EEG-annotate: Automated identification and labeling of events in continuous signals with applications to EEG[J]. Journal of Neuroscience Methods, 2018, 293 (1): 359-374.

[11] Satapathy S K, Dehuri S, Jagadev A K. EEG signal classification using PSO trained RBF neural network for epilepsy identification[J]. Informatics in Medicine Unlocked, 2017, 6 (1): 1-11.

[12] 荆裴,白素芬,刘芳. 常见植食性刺吸式昆虫取食行为的EPG波形分析研究进展[J]. 中国植保导刊,2013,33(4):18-23. Jing Pei, Bai Sufen, Liu Fang. Research progress on EPG waveform types analysis on the feeding behavior of common piercing-sucking insects[J]. China Plant Protection, 2013, 33(4): 18-23. (in Chinese with English abstract)

[13] Timothy A. Ebert, Elaine A. Backus, Miguel Cid, et al. A new SAS program for behavioral analysis of electrical penetration graph data[J]. Computers and Electronics in Agriculture, 2015, 116 (8):80-87.

[14] Tjallingii W F. Salivary secretions by aphids interacting with proteins of phloem wound responses[J]. Journal of Experimental Botany, 2006, 4 (11): 739-745.

[15] 吴莉莉,贾树恒,邢玉清,等. 基于小波变换的昆虫刺吸电位(EPG)信号去噪研究[J]. 传感技术学报,2017,30(12):1895-1899.

Wu Lili, Jia Shuheng, Xing Yuqing, et al. Study of insect electrical penetration graph (EPG) signal denoising based on wavelet transform[J]. Chinese Journal of Sensors and Actuators, 2017, 30(12): 1895-1899. (in Chinese with English abstract)

[16] Lopes R, Betrouni N. Fractal and multifractal analysis: A review[J]. Medical Image Analysis, 2009, 13 (4): 634-649.

[17] Amit K. Mishra, Shantanu Raghav. Local fractal dimension based ECG arrhythmia classification[J]. Biomedical Signal Processing and Control, 2010, 5 (2): 114-123.

[18] Ma Yan, Shi Wenbin, Peng Chung-kang, et al. Nonlinear dynamical analysis of sleep electroencephalography using fractal and entropy approaches[J]. Sleep Medicine Reviews, 2018, 37(2): 85-93.

[19] Xiong Gang, Zhang Shuning, Yang Xiaoniu. The fractal energy measurement and the singularity energy spectrum analysis[J]. Physica A , 2012, 391(24): 6347-6361

[20] 曹乐平. 基于周长面积分形维数的柑橘品种机器识别[J]. 农业工程学报,2010,26(2):351-355.

Cao Leping. Machine recognition of citrus variety based on the fractal dimensions of perimeter-area[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2010, 26(2): 351-355. (in Chinese with English abstract)

[21] 杨德贺,王秀英,申旭辉,等. 基于Hurst指数与盒维数的钻孔应变数据变化特征分析[J]. 科学技术与工程,2017,17(34):73-79.

Yang Dehe, Wang Xiuying, Shen Xuhui, et al. Analyses on characteristics of borehole strain data variations using hurst index and fractal Box-dimension[J]. Science Technology and Engineering, 2017, 17(34): 73-79. (in Chinese with English abstract)

[22] Salim Lahmiri. Generalized Hurst exponent estimates differentiate EEG signals of healthy and epileptic patients[J]. Physica A: Statistical Mechanics and its Applications, 2018, 490(1): 378-385.

[23] Molino-Minero-Re E, García-Nocetti F, Benítez-Pérez H. Application of a time-scale local hurst exponent analysis to time series[J]. Digital Signal Processing, 2015, 37(2): 92-99.

[24] Saif Nalband, C.A. Valliappan, A.Amalin Prince, et al. Time-frequency based feature extraction for the analysis of vibroarthographic signals[J]. Computers and Electrical Engineering, 2018, 69(7): 720-731.

[25] Yan Jihong, Lu Lei. Improved hilbert–huang transform based weak signal detection methodology and its application on incipient fault diagnosis and ECG signal analysis[J]. Signal Processing, 2014, 98(4): 74-87.

[26] 林海波,龚路,张毅,等. 基于改进HHT和样本熵的脑电信号特征提取[J]. 计算机工程与设计,2015,36(6):1608-1613.

Lin Haibo, Gong Lu, Zhang Yi, et al. Feature extraction of EEG signal based on improved HHT and sample entropy[J]. Computer Engineering and Design, 2015, 36(6): 1608-1613. (in Chinese with English abstract)

[27] 韩凌,王宏,李春胜. 基于多变量希尔伯特频域模型的癫痫发作预测[J]. 东北大学学报,2015,36(10):1383-1387.

Han Ling, Wang Hong, Li Chunsheng. Epileptic seizure prediction based on multivariate hilbert frequency domain model[J]. Journal of Northeastern University (Natural Science), 2015, 36(10): 1383-1387. (in Chinese with English abstract)

[28] 王娜,陈克安. 分段谱质心特征在水下目标识别中的应用[J]. 兵工学报,2009,30(2):144-149.

Wang Na, Chen Kean. Application of sub-band spectral centroid features to recognizing underwater targets[J]. Acta Armamentarii, 2009, 30(2): 144-149. (in Chinese with English abstract)

[29] Mu Yashuang, Liu Xiaodong, Wang Lidong. A Pearson’s correlation coefficient based decision tree and its parallel implementation[J]. Information Sciences, 2018, 435(4): 40-58

[30] 刘晓娜,封志明,姜鲁光. 基于决策树分类的橡胶林地遥感识别[J]. 农业工程学报,2013,29(34):163-263. Liu Xiaona, Feng Zhiming, Jiang Luguang. Application of decision tree classification to rubber plantations extraction with remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(34): 163-263. (in Chinese with English abstract)

[31] Aline Saettler, Eduardo Laber, Felipe de A. Mello Pereira. Decision tree classification with bounded number of errors[J]. Information Processing Letters, 2017, 127(11): 27-31.

[32] Wang Lihong, Li Qiang, Yu Yanwei, et al. Region compatibility based stability assessment for decision trees[J]. Expert Systems with Applications, 2018, 105(9): 112-128.

Machine identification of electrical penetration graphic waveforms of aphid based on fractal dimension and Hilbert-Huang transform

Wu Lili1, Jia Shuheng1, Xing Yuqing1, Lu Shaohua2, Pan Jianbin1, Yan Fengming2

(1., 450002,; 2., 450002,)

Insect electrical penetration graph (EPG) technology has been widely applied in researching the feeding behavior of piercing-sucking insects, the relationship between insects and plants, insect transmission mechanism and crop resistance mechanism. However, the identification and analysis of EPG signals have been carried out manually, it is urgent to develop the automatic identification system of EPG waveforms to improve the efficiency. EPG waveforms produced by piercing-sucking insects are related to the insects and plant species, and the EPG waveforms of different types of piercing sucking insects vary greatly, and even the same type of EPG waveform has different amplitude and frequency, which brings difficulties to machine recognition of EPG waveform. EPG waveform is a time series, and its irregularity can be described by fractal theory, fractal theory can reveal the similarity of local part with the whole of the EPG waveform in a certain aspect, the fractal dimension (FD) of the EPG waveform can reflect the characteristic change and the complexity of the geometric shape. EPG waveform belongs to the bioelectrical signal and is nonlinear and non-stationary in nature. Hilbert-Huang transform (HHT) is a powerful tool for analyzing time-varying non-stationary signals, it decomposes the nonlinear signal into several single-mode signals, and adaptively selects the transforming substrate according to the signal itself, so that the bioelectrical signal can be decomposed in essence. In this paper, the EPG signals of aphid were taken as the research object, the feature extraction and classification of np, pd, E1, E2, G, C and F waveform were studied. An EPG waveform recognition method based on fractal dimension, HHT and decision tree was proposed. Firstly, the signals collected by the EPG instrument were denoised and preprocessed, then the features of fractal dimension and HHT were extracted respectively, and the different dimensions vectors were put into the decision tree classifier for comparative experiments, decision tree was used as a classifier, which was generated by C4.5 algorithm. In the process of constructing decision tree, there were 2 main steps: one was to select attribute by information gain ratio, and the other was to complete classification by post-pruning method. In machine recognition of EPG waveform, six-dimensional feature vectors were used as input signals, and 4 groups of samples were tested. The experimental results showed that the six-dimensional feature vectors with fractal box dimension, hurst exponent, spectral centroid and weighted frequency of the first 2 layers had the highest recognition rate. After 10 steps of pruning, the decision tree completed classification, and the recognition rates of the 4 tested groups were 92.14%, 89.29%, 95% and 89.29% respectively. By analyzing the confusion matrix of the 4 groups of test data, it could be seen that the np, E1 and G waveform could be accurately identified, the recognition rate of E2 and C waveform was low, which was prone to misjudgment, this was because that there was no obvious difference between the extracted characteristic values (such as box dimension, spectral centroid of the first 2 layers and weighted frequency of the second layer), C waveform was the most complex of all waveforms, which usually containing A, B waveform and some unrecognizable waveform, and was easy to be confused with other waveforms. The same test samples used for machine recognition were adopted in manual classification. The experimental results showed that the average recognition rate of artificial recognition was 99.11%, the average recognition rate for machine recognition was 91.43%, which was lower than the artificial recognition by 7.68 percent point, average time of the machine recognition was 18.22 s, which was only about 1/46 of that of artificial recognition 839.13 s. The proposed feature extraction method based on fractal dimension and HHT and the constructed decision tree classifier were feasible, which provided a theoretical reference for the research and development of EPG signals automatic identification and analysis system. This research can shorten the analysis time of EPG signal, accelerate the progress of scientific research, and promote the efficient use and intelligent development of EPG.

insects; fractal dimension; feature extraction; electrical penetration graph waveform; Hilbert-Huang transform; decision tree; classification

吴莉莉,贾树恒,邢玉清,卢少华,潘建斌,闫凤鸣. 基于分形维数和HHT的蚜虫刺吸电位波形机器识别[J]. 农业工程学报,2018,34(24):175-183. doi:10.11975/j.issn.1002-6819.2018.24.021 http://www.tcsae.org

Wu Lili, Jia Shuheng, Xing Yuqing, Lu Shaohua, Pan Jianbin, Yan Fengming. Machine identification of electrical penetration graphic waveforms of aphid based on fractal dimension and Hilbert-Huang transform[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(24): 175-183. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2018.24.021 http://www.tcsae.org

2018-07-09

2018-11-16

国家自然科学基金资助项目(31471776);河南省科技攻关计划项目(182102110334);河南省高等学校重点科研项目(18A510012);河南农业大学自然科学类青年创新基金项目(KJCX2018A20)。

吴莉莉,博士,副教授,主要从事生物信号处理、模式识别等研究。Email:wllzju@126.com

10.11975/j.issn.1002-6819.2018.24.021

TP391; TN911.72

A

1002-6819(2018)-24-0175-09

猜你喜欢

维数识别率决策树
β-变换中一致丢番图逼近问题的维数理论
一类齐次Moran集的上盒维数
基于类图像处理与向量化的大数据脚本攻击智能检测
一种针对不均衡数据集的SVM决策树算法
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
决策树和随机森林方法在管理决策中的应用
提升高速公路MTC二次抓拍车牌识别率方案研究
关于齐次Moran集的packing维数结果
基于决策树的出租车乘客出行目的识别
高速公路机电日常维护中车牌识别率分析系统的应用