基于K-means聚类的Morse码自动译码研究

2016-12-20王亚琦孙中华贾克斌张海瑛吴玲玲

无线电通信技术 2016年6期

关键词：译码时频间隔

王亚琦，袁野，孙中华，贾克斌，张海瑛，吴玲玲

(1.北京工业大学信息与通信工程学院，北京 100124；2.中国电子科技集团公司第五十四研究所，河北石家庄 050081)

基于K-means聚类的Morse码自动译码研究

王亚琦1，袁野1，孙中华1，贾克斌1，张海瑛2，吴玲玲2

(1.北京工业大学信息与通信工程学院，北京 100124；2.中国电子科技集团公司第五十四研究所，河北石家庄 050081)

针对短波Morse电报自动译码准确率低的问题，提出了一种针对信号时频图，采用机器学习理论的Morse信号自动译码技术，实现了对机械或手工Morse码的自动译码。通过对短时傅里叶变换生成的Morse信号时频图像，进行自适应图像增强处理，提取Morse信号；采用基于K-means聚类的非监督学习方法自动分类Morse点划、间隔等信息，实现Morse码自动译码；为提高译码的正确率，设计了译码纠错方法。仿真试验和工程实践均验证了算法的有效性。

Morse码；自适应图像增强；自动译码；非监督学习

0 引言

短波电报是无线通信的重要组成部分[1-2]，而接收部分大多数由人工听抄实现。随着科学技术的进步发展，这种人工的方式日益暴露出一些弊端。这种方式要求报务员具备较强的听辩能力和抄写能力。而且抄报译码是重复枯燥的，人的反应能力有限，误译、漏译的情况是不可避免的。因此，研究Morse电报信号的自动识别译码方法，代替传统的人工值守方式，是十分重要的课题，是智能化、自动化建设的需要[3]。

Morse信号自动译码，旨在非人工辅助情况下从含噪信号中提取报文信息。Morse码是一种不均匀的电码，利用“点”、“划”和“间隔”的不同组合来表示字母、数字、标点和符号等。本文利用Morse信号在频域的表征特性，在时频域提取Morse码的图形特征，采用机器学习方法进行Morse码信息的还原，即转化为有意义的数字、字母或符号，以实现机械以及手工拍发Morse码的自动识别和译码。

1 预处理

1.1 生成Morse时频图像

Morse信号在时域和频域两个方面都有突出的特点，采用时频分析方法，兼顾两者特征分析Morse信号，是目前比较热门的方法[4-5]。本文首先将一维信号进行时频变换得到时频分布，再将时频分布通过映射函数转换成时频图图像。Morse信号时频图的典型特征：矩形亮条。

对信号进行短时傅里叶变换(Short-time Fourier Transform,STFT)，得到时频分布矩阵f(x,y)，其中x、y为矩阵的行列坐标。通过灰度映射函数生成时频图像g(x,y)，然后对时频图像g(x,y)进行信号分析和目标提取。灰度映射函数如下：

(1)

式中，f(x,y)矩阵中的最大值为max_f，最小值为min_f。

1.2 感兴趣区域增强

数字图像处理中的图像增强技术[6]，用于改善图像的视觉效果。对比度增强是图像增强技术中的一种常用方法，本文采用对比度增强方法对Morse时频图像进行增强，从而突出信号区域、抑制噪声。在对比度增强之前需要对图像目标区域的灰度分布进行估计，主要是根据灰度直方图的分布特性得到目标的灰度分布区间[lowhigh]。

(2)

high=max_gray，

(3)

式中，peak_gray为图像灰度众数，mean_gray为图像的灰度均值，max_gray为图像的灰度最大值。通过灰度估计得到的灰度范围，对图像g进行对比度增强，计算公式为：

(4)

1.3 二值化与形态学去噪

图像分割是由图像处理到图像分析的关键步骤。现有的图像分割方法主要有：基于阈值分割、基于区域分割、基于边缘分割等。Morse信号时频图中，目标区域所占比例比较小，灰度信息对整幅图像的贡献不大，因此本文通过最大类间方差法获得自适应分割阈值[7]，并采用基于阈值的分割方法将目标和背景分开，得到二值图。二值图像中仍会存在一些小的噪声，采用形态学处理中的去孤立点和小断枝方法，进一步去噪声。

2 Morse译码

2.1 参数提取

Morse时频图像中，信号表现为一个一个的小矩形区域，矩形块在时间轴上的长度代表码长，分析码长的相对长短可以判断某个矩形块属于点还是划。相邻矩形块的距离代表了间隔，间隔的相对长短代表了间隔的类型，包括码间隔、字符间隔和字间隔三种类型，利用间隔来对点划进行正确分组才能译码。参数提取的主要任务是获得码和间隔的长度。

2.2 译码算法

译码是将以数据长度形式表示的Morse信号转换成Morse电码报文。译码算法包括两部分内容：基于K-means的点划识别和查表译码。标准Morse码的各元素(点、划、码间隔、字符间隔、字间隔)的时宽存在的比例关系为1∶3∶1∶5∶7。但在实际中，发报人的手法一般不标准以及噪声的干扰，造成得到的数据长度不能严格满足上述的比例关系。采用机器学习中的K-means聚类算法，提高点划的识别率。

用参数提取中得到的矩阵B，可由0、1的分布图表示(图1)。其中为了方便处理，将ΔT做了归一化处理。图1中圈出了5类码，观察发现同类码是有聚集特性的。

图1 五类码的分布情况

K-means算法[8-10]是最为经典的基于划分的聚类方法，基本思想是：以空间中k个点为中心进行聚类，对最靠近它们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该算法的最大优势在于简洁和快速，算法的关键在于初始中心的选择和距离公式。由于Morse码0、1分布图聚类明显，利用k-means聚类算法能很好地将5个类别区分开。本文提出了一种基于k-means聚类方法的点划识别译码算法：

① 对矩阵B中0、1对应的时间长度T1i、T0j归一化处理：找到1中最大长度max1，0中的最大长度max0，T1i’=T1i/max1，T0j’=T0j/max0；

② 选择5个类的初始中心(1，0)、(1，1)、(0，0)、(0，0.4)、(0，1)；

③ 用K-means聚类算法聚类；

④ 将5个聚类结果归类为点、划、码间隔、字符间隔、字间隔；

⑤ 输出点划识别结果；

⑥ 查表译码。

表1中的工业应用数据表明，加氢尾气中的H 2 S和有机硫是外排SO2的主要来源，部分装置净化尾气中有机硫占比甚至达到50%以上。因此，分析掌握硫磺回收装置过程气中有机硫形成机理并加以控制尤为重要[5-8]。

2.3 纠错算法

考虑到明文通信中Morse码和词汇的关系有确定性，而加密的Morse码与词汇没有确定性关系，所以纠错只能从码本身来纠正。参数提取得到的码或间隔的长度有可能是错误的，这会导致译码结果中有错误码。产生错误码的原因主要有2个[11-12]：一是噪声干扰，使码的长度变短，干扰严重时码被噪声淹没；二是对间隔估计不准导致点划错误组合，产生无效码。

具体的几种情况下的纠错算法如下：

① 若一个划的长度大于点长度的7倍以上，考虑是连码，拆成两个划。

② 若一个字符的点划序列超过 6 个时，在间隔最大处拆分，直到出现有效码;

③ 若连续出现两个无效码，优先合并两个无效码，若合并后不能得到有效码，再考虑合并无效码与有效码；

④ 若一个无效码相邻两边都是有效码，先考虑无效码序列中是否存在异常的划或者点，进行拆分和组合。否则考虑合并无效码和其邻近的有效码；

3 实验结果与分析

为验证本算法的适应性，进行了仿真实验，对不同信噪比下相同内容的Morse信号进行自动译码，表1给出了实验结果。

表1 译码仿真实验结果

结果表明，算法能适应较差的信噪比条件，在信噪比高于-12 dB(图2)的情况下，均能得到正确的结果；同时随着信噪比降低，译码的效果有下降的趋势。

图2 Morse时频图 (-12 dB)

用上述算法对实际采集的受噪声干扰的一段Morse信号进行自动译码。图3为该信号的时域波形，对信号做短时傅里叶变换后，经过灰度映射得到图4(a)，即信号的时频图，在时频图上可以看到噪声的干扰。

图3 时域波形

图4 结果对比

图5为时频图的灰度直方图，上面标出了计算得到的low和high的位置，中间的部分为目标灰度的估计区间。通过图像增强后，图像中的信号部分和背景噪声的对比度有明显的改善，如图4(b)所示。利用图像分割和形态学处理方法，去除噪声，只留下目标区域，在图像上表现为矩形块，如图4(c)所示。

图5 时频图的灰度直方图

提取时频矩阵中灰度值最高的一行，画出灰度值分布曲线，能代表信号的变化。通过参数提取，可以得到归一化的和曲线。如图6所示，将2条曲线作对比，归一化的和曲线很好地表示了原始信号。

图6 曲线对比

对点、划、间隔进行聚类，如图7所示，五类元素被正确的归类。

图7 K-means聚类结果

通过聚类得到点划识别结果，不同的间隔对点划进行了分组。通过查表得到相应的码文，并将译码结果输出，如图8所示。

图8 译码结果输出

4 结束语

通过分析短波Morse码自动译码中面临的难题，主要是噪声对信号的影响和发报人手法不标准的问题，基于现有的Morse码译码方法，提出了一种基于K-means聚类的Morse码自动译码算法。在译码实验部分，通过不同信噪比条件下的仿真实验，验证了本文算法的适应性；对实际采集信号自动译码，分析中间过程和最终输出的译码结果，验证了本文算法的可行性，具有一定的实用价值。如何优化聚类算法，提高聚类的鲁棒性是下一步的工作内容。

[1] 胡中豫.现代短波通信[M].北京：国防工业出版社,2003.

[2] 张冬辰.军事通信[M].北京：国防工业出版社,2008.

[3] 李国军,周晓娜,蒋勇,等.短波电报信号自动检测技术研究综述[J].世界科技研究与发展,2013,35(3):37-42.

[4] 何立刚.噪声背景下短波莫尔斯信号的自动检测和识别研究[D].哈尔滨：哈尔滨工程大学,2005.

[5] 李国军,曾孝平,周晓娜,等.基于随机共振的微弱高频CW信号检测技术研究[J].电子科技大学学报,2010,39(5):737-741.

[6] 冈萨雷斯(美).数字图像处理(第2版)[M].北京：电子工业出版社,2007.

[7] Ohtsu N.A Threshold Selection Method from Gray-Level Histograms[J].Systems Man & Cybernetics IEEE Transactions on,1979,9(1):62-66.

[8] 袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66.

[9] 张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33.

[10]胡朝清.K-means算法研究[J].长春工业大学学报：自然科学版,2014(2):139-142.

[11]张汝波,何立刚,李雪耀.强噪声背景下莫尔斯信号的自动检测与识别[J].哈尔滨工程大学学报,2006,27(1):112-117.

[12]于宏毅,张贻.手工莫尔斯报的一种新型自动收报算法及其手法识别算法[J].电子对抗,1989(4):26-34.

Study of Automatic Decoding for Morse Code Based on K-means Clustering

WANG Ya-qi1,YUAN Ye1,SUN Zhong-hua1,JIA Ke-bin1,ZHANG Hai-ying2,WU Ling-ling2

(1.College of Information and Communication Engineering,Beijing University of Technology,Beijing 100124,China;2.The 54th Research Institute of CETC,Shijiazhuang Hebei 050081,China)

To solve the technical problems of low accuracy of shortwave Morse telegraph automatic decoding,an automatic manual or mechanical Morse decoding method for time-frequency spectrum of signal is put forward based on machine learning technology.Time-frequency spectrum is generated based on STFT,which is used for extraction of Morse signal based on adaptive image enhancement.Unsupervised learning method based on K-means clustering has been introduced to identify the dots,dashes and intervals between them.Error correction algorithm is put forward to improve the accuracy of decoding.Engineering practice and simulation on Morse signal demonstrate the effectiveness of this algorithm.

Morse code;adaptive image enhancer;automatic decoding;unsupervised learning

10.3969/j.issn.1003-3114.2016.06.02

王亚琦，袁野，孙中华，等.基于K-means聚类的Morse码自动译码研究[J].无线电通信技术，2016，42(6)：9-12.

2016-07-18

国家自然科学基金项目(81370038)；北京市自然科学基金项目(7142012)；北京市科技新星计划(Z141101001814107)；中国博士后科学基金(2014M560032)；北京市教委面上项目(km201410005003)；北京工业大学日新人才培养计划(2013-RX-L04)；北京工业大学基础研究基金(002000514312015)

王亚琦(1992—)，女，信息与通信工程专业，硕士研究生，主要研究方向：图像处理和机器学习。孙中华(1978—)，男，讲师，主要研究方向：视频图像处理和机器学习。

TN911.73

1003-3114(2016)06-09-4