基于UMAP辅助的模糊C聚类方法进行太赫兹光谱识别
2022-09-05易灿灿张文涛
易灿灿, 庹 帅, 涂 闪, 4, 张文涛
1. 武汉科技大学冶金装备与控制技术教育部重点实验室, 湖北 武汉 430081 2. 武汉科技大学湖北省机械传动与制造工程重点实验室, 湖北 武汉 430081 3. 武汉科技大学精密制造研究院, 湖北 武汉 430081 4. 广西师范大学物理科学与技术学院, 广西 桂林 541004 5. 桂林电子科技大学电子工程与自动化学院, 广西 桂林 541004
引 言
太赫兹THz(Terahertz)是电磁波中一个特殊的波段, 其频率为0.1~10 THz, 波长为0.03~3 mm, 位于毫米波和红外波之间的特殊位置。 近年来, 人们发现THz光谱具有反映物质结构的“指纹”特征[1], 在物质鉴别分类和无损检测领域具有广泛应用。 与X射线相比, 太赫兹辐射的能量很低, 不会由于电离而损坏被检测的物质[2], 在无损检测方面具有很大的潜力。 施卫[3]等搭建了一套THz时域光谱测量系统, 用来对微量活细胞进行检测, 为活性生物大分子或组织的检测奠定了基础。 饶近秋[4]等利用太赫兹时域光谱技术对中药进行了无损检测, 实现了炮制品、 伪造品以及正品中药的定性识别。 杨帆[5]等将太赫兹时域光谱技术与有效介质理论结合起来, 实现了对皮肤水分含量的变化的准确评估, 为太赫兹皮肤烧伤和皮肤疾病检测提供理论支撑。 除此之外, 太赫兹时域光谱技术还应用于农产品中农药的安全检测[6]以及人体癌变细胞或组织的检测[7]等。
相对于传统的棉花种子, 转基因棉花种子具有抗虫、 抗旱、 产量高等优点。 运用太赫兹时域光谱技术实现对不同类型的转基因棉花种子进行识别, 能够根据种植环境的不同选择合适的棉花种子, 以此来提高棉花的产量。 在转基因棉花种子的鉴别方面, Qin[8]等提出一种结合支持向量机(support vector machine, SVM)和多种群遗传算法(multi-population genetic algorithm, MPGA)的转基因棉花种子的鉴定方法。 陈涛[9]等提出一种布谷鸟搜索算法优化支持向量机的转基因产品鉴别方法。 Liu[10]等建立了一种基于太赫兹频谱的改进决策支持向量机(decision support vector machine, DSVM)模式识别模型。 首先, 通过因子分析(factor analysis, FA)对原始太赫兹光谱数据进行降维, 提取数据特征; 然后, 将选择的特征光谱数据输入到DSVM模型中, 成功识别预测样本。 现有的对转基因棉花种子的太赫兹光谱识别主要是通过主成分分析(principal component analysis , PCA)和SVM来实现的, 虽然取得了一定的效果, 但是也存在一些不足。 例如, SVM作为一种适合小样本的学习方法, 核参数的正确选择对最终结果的影响很大。 而PCA作为一种常用的线性降维方法, 用其累计方差贡献率最大的几个成分去解释全体样本, 往往存在一定的偶然性, 而且忽略掉的成分往往包含着反映样本特征的重要信息。 针对以上不足, 本文提出均匀流形逼近与投影(uniform manifold approximation and projection, UMAP)辅助的模糊C聚类方法, 实现对不同类型的转基因棉花种子的判别。
区别于常用的降维方法如PCA[11]、 局部线性嵌入(local linear embedding, LLE)[12]、 局部保持投影(local preserving projection, LPP)[13], 均匀流形逼近与投影(uniform manifold approximation and projection , UMAP)是一种新的流形学习技术[14], 其利用局部流形逼近和局部模糊单纯形集表示来构造高维数据的拓扑表示。 在低维空间中, 其优化数据的低维空间布局, 使高维和低维两个拓扑表示之间的交叉熵最小。 UMAP不仅具有可视化的优点, 而且同时耗时短、 对嵌入维数没有限制, 可以扩展到更大的维度的数据集。
传统的模糊C聚类方法(Fuzzy C-clustering method, FCM)[15]在选择聚类中心时没有一个确定的标准, 聚类中心往往随机选定。 当选择的初始聚类中心不合适时, 其聚类结果可能出现局部最优的现象, 从而使聚类产生错误。 为此, 本文提出一种基于UMAP辅助的模糊C聚类算法, 首先采用UMAP对原始光谱数据矩阵进行降维, 然后根据降维的结果进行初始聚类中心的选取, 最后利用模糊C方法进行聚类分析。 为了验证所提方法的可行性, 首先采用太赫兹时域光谱技术探测了四种类型不同的转基因棉花种子, 获得了四种转基因棉花种子的太赫兹吸收光谱。 然后采用本文所提方法对吸光度光谱数据进行聚类分析, 并与PCA, LLE和LPP等方法进行对比, 研究结果表明本文提出的基于UMAP辅助的模糊C聚类算法在转基因棉花种子的太赫兹光谱分类识别上具有很好的实用性。
1 原 理
1.1 太赫兹时域光谱理论
太赫兹波是一种波长在0.03~3 mm范围内的电磁波其对应的频率为0.1~10 THz。 为了分析太赫兹光谱数据, 引入式(1)
(1)
式(1)中,G0(ω)是太赫兹参考信号的幅度,Gtrans(ω)是发射的太赫兹信号的幅度,φ(ω)是样本和参考信号之间的相差,ω是太赫兹波振动的角频率。
材料的吸收系数定义为
(2)
式(2)中,b是表示材质吸收的消光系数,c是光速。
式(1)可以近似为
(3)
式(3)中,h为试样厚度, 均为1 mm, 误差小于0.05 mm。 材料的折射率z和吸收系数β可通过式(4)和式(5)获得
(4)
(5)
1.2 UMAP降维理论
UMAP算法分两步进行降维, 首先通过将相邻多维值之间的差异转换为权重, 生成多维结果的有偏k-近邻图; 然后优化数据集维度的交叉熵。
输入数据集X={x1,x2, …,xN},xi∈RM, 寻找其最优低维表示Y={y1, …,yN∣yi∈Rk}。 UMAP降维分两步进行: (1)在高维空间中构造一个特定的加权k近邻图; (2)计算该图的低维布局。
高维空间中, 设X={x1, …,xN}为输入数据集, 带有一个度量d:X×X→R≥0。 给定输入超参数k, 对于每个xi, 计算集合{xi1, …,xik}, 使用最近邻下降算法进行该计算。
对于每个xi, 定义ρi和σi
ρi=min{d(xi,xij)|1≤j≤k,d(xi,xij)>0}
(6)
并将σi用式(7)定义
(7)
(8)
B=A+A′-A∘A
(9)
式(9)中, ∘表示逐点乘积。
低维空间中, UMAP使用力导向图布局算法, 利用引力和排斥力演化出一个等价的加权图H, 它包含一组点{yi}i=1, …, N。yi和yj处的引力和斥力由式(10)和式(11)定义
(10)
(1-w((xi,xj)))(yi-yj)
(11)
式(10)和式(11)中,a和b是超参数,ε是一个小数, 以防止被零除。
1.3 传统模糊C聚类理论
设N个待分类样本的集合为X={xi,i=1, 2, …,N), 模糊C均值聚类是以隶属度函数u作为样本xi的类别标号, 将N个样本划分到C个类别中。 其分类准则是使聚类中心V={vj,j=1, 2, …,N}的模糊误差平方和最小, 聚类损失函数定义为
(12)
式(12)中,b用于控制聚类结果的模糊程度。
在该算法中, 隶属度函数u为连续的,uj(xi)可在区间[0, 1]任意取值, 并且有
(13)
为求式(12)中J的极小值, 分别令其对uj(xi)和vj的偏导数为0, 则
(14)
(15)
尽管模糊C算法得到了较为广泛的应用, 但该方法也存在着不足之处: 由于模糊C聚类方法的初始聚类中心随机确定, 当初始聚类中心选择不当时会影响聚类的效率, 且很可能出现聚类准则陷入局部最小的情况, 从而导致错误的聚类结果。
1.4 UMAP辅助的模糊C聚类方法
针对经典模糊C聚类方法易陷入局部最优的缺点, 本文首先采用均匀流形逼近与投影(UMAP)对不同样本的太赫兹光谱数据进行降维, 再根据样本的分布特征来确定属于不同类别的样本点, 以此作为初始聚类中心来进行后续的分析。 具体步骤如下:
(1)获得参与聚类的原始数据X(N×M), 其中N为样本数,M为高维空间的维数。
(2)UMAP降维。 利用UMAP方法对原始数据矩阵X(N×M)进行降维, 得到反映样本之间距离的新的特征空间Y(N×L), 其中N是样本数,L是低维空间的维数(通常取值为2或者3)。
(3)初始聚类中心的优化。 求出样本在最大主方向上的投影Y1, 并将Y1的值按照由大到小排列得到新的序列Y11。 根据待处理样本的类别数目C, 进行初始聚类中心的选取。
(4)隶属度的迭代计算。 利用(3)所得初始聚类中心对(2)所得新的特征空间进行聚类。 迭代过程中, 式‖Va+1-Va‖<ε中的ε代表迭代阈值。
体验式教学法,是指在教学过程中为了达到既定的教学目的,从教学需要出发,引入、创造或创设与教学内容相适应的具体情境或氛围,以引起学生的情感体验,帮助学生迅速而正确地理解教学内容,促进他们心理机能全面和谐发展的一种教学方法。体验式教学法使学生身临其境或如临其境,一则带给学生从形象的感知到抽象的理性的顿悟,二则激发学生的学习兴趣和学习情绪,使学习活动成为自主自发的活动。同时,在教学实践中,体验式教学法在英语阅读课、写作课研究相对较多,而将其运用到语法课研究的则比较少。[1]
本文提出方法的计算流程如图1所示。
图1 基于UMAP辅助的模糊C聚类方法流程图
从图1可以看出: 本文所提方法的核心是利用UMAP进行降维, 然后根据类之间距离最大化的原则来进行聚类中心的选择, 与传统方法相比, 本文所提方法可以有效避免局部最优问题的出现, 提高聚类的正确率。
2 实验部分
如图2所示, 采用具有45度入射的透射太赫兹系统进行THz数据的采集。 Toptica Photonics AG的超快飞秒激光器用于泵浦和检测太赫兹波。 激光束用作光源, 激光被λ/2波片分为泵浦光和探测光。 较强的一束是泵浦光, 泵浦光透过分束镜, 经平面镜的反射, 再依次经过斩波器、 延迟器, 经平面镜反射后照射在砷化镓(GaAs)天线上, 激发出太赫兹脉冲, 太赫兹脉冲先后经准直和聚焦, 照射待测样品, 从而携带样品信息。 较弱的一束光为探测光, 探测光经准直、 聚焦后照射在碲化锌(ZnTe)晶体上, 经电光取样后, 获得太赫兹电场。 太赫兹波聚焦照射光电二极管调制探测光, 从而使探测光的偏振方向发生改变, 期间锁相放大器收到产生的调制信号。 实验中, LabVIEW程序实现对扫描台的控制, 锁相放大器用来对太赫兹信号进行采集。
图2 太赫兹时域光谱系统原理
本文采用上述实验装置对鲁棉研28、 鲁棉研29、 鲁棉研36、 中棉28四种不同类型的转基因棉花种子进行探测, 获得四种不同类型的转基因棉花种子的吸光度光谱数据, 运用UMAP辅助的模糊C聚类方法对吸光度光谱数据进行处理, 并分析不同样本的聚类情况。
3 结果与讨论
3.1 光谱数据采集
实验中为了观察样品对太赫兹波的吸收特征, 首先定义一个参考信号, 参考信号定义为在不放置样品时采集到的太赫兹信号。 对采集到的数据进行光谱分析, 时域图如图3所示。 不难看出, 四种转基因棉花种子相对于参考信号都发生了不同的频率偏移。 对时域数据进行快速傅里叶变换(FFT)得到四种转基因棉花种子的频域图, 如图4所示, 可以发现四种转基因棉花种子的太赫兹波的强度相对于参考信号都有所降低, 这是由于样品对太赫兹波的吸收导致的。 四种转基因棉花种子都在相同的条件下制备且实验环境相同, 不同的只是转基因棉花种子的型号, 因此可以说明不同型号的转基因棉花种子对太赫兹的吸收是不同的。
图3 四种转基因棉花种子时域图
图4 四种转基因棉花种子频域图
实验中, 选取的样本的纯净度很高, 但并不是纯净物, 并且经过研磨压片处理的样品, 其厚度仍有略微不同。 为了减小厚度对给后续分析带来的影响, 采用吸光度(Absorbance)处理实验数据, 吸光度表示光波被材料吸收的程度。 吸光度公式在第2节已经给出。 四种转基因棉花种子的吸光度曲线如图5所示。
图5 四种转基因棉花种子吸光度
从图5可以看出, 鲁棉研28的吸收峰值和其他三类转基因棉花种子有较大差异, 但鲁棉研29、 鲁棉研36、 中棉28的吸收峰值相近, 不易区分。 因此, 需要建立数学模型对四种不同类型的转基因棉花种子进行区分。
3.2 聚类分析
实验中, 选取的实验样品为转基因棉花种子。 实验样品共包含4个类别, 分别是鲁棉研28、 鲁棉研29、 鲁棉研36、 中棉28, 每个类别包含30个样本, 一共有30×4个样本。 参与聚类的数据为四种转基因棉花种子的吸光度数据。 首先, 对吸光度数据进行降维处理, 分别采用PCA, LLE, LPP和UMAP对吸光度矩阵进行降维。 其中算法的参数设计如下: PCA中累计方差贡献率为0.85; LLE中的最大近邻点的个数设置为30, 最大嵌入维数设置为3; LPP中的最大近邻点的个数设置为30, 原始空间中两点的距离权重系数为0(xi和xj不是近邻点时)或1(xi和xj是近邻点时); UMAP中设置的最大近邻点的个数为30, 目标嵌入维度为3, 嵌入空间中闭合两点的间隔设为0。 不同方法降维的结果如图6所示。
图6 不同降维方法下的聚类效果(三维)
从图6(a)—(c)可以看出, PCA, LLE以及LPP虽然实现了光谱数据的降维, 但是不能实现不同转基因棉花种子光谱数据的准确聚类, 分类的准确率都为0。 通过图6(d)发现, UMAP的聚类效果要明显优于上述3种方法, 其对鲁棉研28、 鲁棉研29、 鲁棉研36、 中棉28分类的正确率分别为0.6, 0.633 3, 0.7和0.566 7, 分类总正确率为0.625, 但是其聚类识别的精度仍然需要进一步提升。
下面我们采用不同降维模型来优化模糊C聚类方法, 并对吸光度数据进行处理。 经UMAP降维后, 聚类中心的选择结果如图7所示。
图7 聚类中心的选择
根据样本经过降维后的分布特征来确定属于不同类别的样本点, 以此作为初始聚类中心来进行后续的模糊C聚类分析, 效果如图8所示。
图8 不同降维方法辅助的模糊C聚类效果(三维)
对比图6和图8可以看出, 在结合了模糊C聚类方法后, 四种方法出现的聚类混叠现象有了改善, 只出现了将少部分样本聚类错误的情况, 由此可见PCA(LLE或LPP或UMAP)辅助的模糊C聚类方法的聚类效果要明显好于单纯的降维方法。 为了进一步验证本文所提方法的实用性, 本文通过计算基于不同降维方法辅助的模糊C聚类方法聚类的正确率来进行比较, 其结果如表1所示。 从表1可以发现, 在结合了模糊C聚类方法后, 不同类别的识别正确率和总正确率相对于单纯的降维方法都有所提高, 说明将降维方法和模糊C聚类方法结合在太赫兹光谱识别方面具有较高的可靠性。 同时, UMAP辅助的模糊C聚类方法对鲁棉研28、 鲁棉研29、 鲁棉研36、 中棉28的分类正确率为1, 1, 0.966 7和0.966 7, 分类总正确率达到了0.983 3, 要远远高于前三者, 说明本文所提出的方法具有极大的优势, 可靠性更高。
表1 不同降维方法辅助的模糊C聚类的正确率
4 结 论
针对太赫兹对转基因作物进行鉴别过程中, 存在过程复杂、 准确率不高的问题, 本文提出基于UMAP辅助的模糊C聚类方法用来进行太赫兹光谱识别。 (1)与传统方法相比, 本文的创新点是将UMAP与模糊C理论相结合, 用UMAP对吸光度数据进行降维, 然后根据类与类之间距离最大化的原则, 选择初始聚类中心从而实现模糊C聚类。 (2)为了验证本文所提方法的可靠性, 采用太赫兹时域光谱技术对四种转基因棉花种子进行测量, 并对得到的四种转基因棉花种子的吸光度数据进行聚类分析。 (3)通过与PCA, LLE, LPP及传统模糊C聚类方法处理的结果进行对比, 发现本文所提方法的聚类效果明显要好于其他方法, 说明UMAP辅助的模糊C聚类方法与THz光谱相结合是转基因棉花种子无损检测的潜在识别工具。