基于自编码神经网络建立的搜索信息模型

2015-09-09易万罗晶李勇郭少英

计算技术与自动化 2015年2期

关键词：权值编码神经网络

易万+罗晶+李勇+郭少英

摘要：根据用户搜索历史，将用户关注的信息按标题分类，通过自编码神经网络提取特征值。设定学习样本标题最多为25个汉字，编码方式采用汉字机内码（GBK码）。使用MATLAB工具进行深度学习，将样本在原空间的特征表示变换到一个新的特征空间。

关键字：文本特征;自编码神经网络;深度学习;Matlab

中图分类号：TP391.1 文献标志码：A

Information search model based on auto-encoder neural network

Yi Wan，Luo Jing，Li Yong，Guo Shaoying

（College of computer science and Information Engineering， Tianjin University of Science & Technology，

Tianjin 300222， China）

Abstract： According to user search history， the user information of interest by Title Classification， the auto-encoder neural network feature extraction value. Set the learning sample heading up to 25 Chinese characters， coding mode is adopted Chinese characters machine code （GBK code）. Use the MATLAB tool for deep learning， will feature in the original space representation is transformed into a new feature space.

Key words： Text feature; The auto-encoder neural network; Deep learning; Matlab

基于自编码神经网络建立搜索信息模型的目的是根据用户搜索信息的历史，推断出网页中的内容是用户关注的信息并即时显示。首先将用户关注的历史信息按标题分类，通过自编码神经网络建立标题特征值数据库。当自编码神经网络搜索信息模型工作时，按照用户提供的关键词顺序，打开用户经常浏览的网页，读入标题文本，若具有数据库中的标题特征，则将该标题的文本内容即时显示。

直接解析网页中的标题文本，面临的基本问题是文本的表示。如果把标题文本所有的词都作为特征项，那么太多的特征向量维数导致计算量太大。例如50个标题，每个标题25个汉字，特征项将有50×25=1250个。如果将标题中的某个关键词作为特征词，将会有几千个包含关键词的标题，从而导致读入分析量过于巨大。本文采用自编码神经网络，用映射变换的方法把原始文本特征变换为较少的新特征，提高信息搜索效率。

1 自编码神经网络

1.1 自编码神经网络理论

Auto-Encoder（自编码）[1]，自编码算法是一种基于神经网络算法的无监督学习算法，与神经网络算法的不同之处是将输入值作为输出节点的输出。自编码算法的另一个特征是隐藏层节点的个数一般少于输入输出节点的个数。这样的意义是将输入的特征通过神经网络的非线性变换到节点数更少的隐藏层。因此，可以通过自编码神经网络对给定的样本进行训练学习，从而得到输入数据降维后的特征，即为隐藏层的节点数，省去了人工特征提取的麻烦。

自编码神经网络结构示意图如图1所示[2]。这是一种深度学习的神经网络，包含了多个隐含层，整个网络是一种对称的结构，中心层的神经元的个数最少。网络通过对样本的训练可以得到一组权值系数，而输入数据通过这组权值系数表达成低维形式，从而达到了用降维后的特征表示出输入的数据。

图1 自编码神经网络的结构

Fig.1 The structure of auto-encoder neural network

1.1.1 预训练

（1）输入参数的确定：标题是作者给出的提示文章内容的短语，标题一般都简练、醒目，有不少缩略语，与报道的主要内容有着重要的联系。如登陆我的钢铁网站，搜索钢管热点资讯，显示的标题有“我国自主研制*****油管成功替代进口”，学习样本选择50组标题，每个标题不超过25个汉字，如表1所示。

表1 学习样本

Tab. 1 Learning samples

我国自主研制高端耐热钢无缝钢管成功替代进口

我国自主研制K55石油套管成功替代进口

我国自主研制J55稠油热采套管成功替代进口

我国自主研制专用耐高温防火船舶用套管成功替代进口

我国自主研制20G高压锅炉管成功替代进口

我国自主研制特殊用途低温用管成功替代进口

我国自主研制起重机臂架无缝钢管成功替代进口

我国自主研制精密合金4J36船用管材成功替代进口

我国自主研制高强韧性高抗挤毁套管成功替代进口

我国自主研制三种极限规格管线管成功替代进口

…

……

我国自主研制医药化工用管成功替代进口

（2）语句预处理[3]：学习样本句子进行预处理是把句子中的每一个汉字变换成自编码神经网络模型能接受的数字化形式。为了使神经网络能接受外部数据，首先要对句子中的汉字进行编码，编码方式是采用汉字的计算机内码（GBK码）。每个汉字机内码有16位二进制，如：“我国自主研制”的二进制码为

1100111011010010 我（GBK码）

1011100111111010 国（GBK码）

1101011111010100 自（GBK码）

1101011011110111 主（GBK码）

1101000111010000 研（GBK码）

1101011011000110 制（GBK码）

将16位二进制数转换为十进制数并进行线性变换，映射到实数[0 1]之间，作为输入神经元初值。变换公式如下：

式中：maxi和mini;tmax和tmin分别为x（p）i，t（p）量程范围的最大值和最小值。

（3）预训练：几个独立的RBM构成“堆栈”构成了预训练部分，而RBM是BM （boltzmannmachine）的一种特殊连接方式。图2即为RBM的网络构成。它是一种隐含层神经元无连接，并且只有可见层和隐含层两层神经元。

图2 RBM网络构成

Fig. 2 Construction of restricted boltzmannmachine

BM的权值调整公式为[4]

（1）

式中：在第t步时神经元i、j间的连接权值为wij（t）;η为学习速率;T为网络温度;<uihj>+、<uihj>-分别为正向平均关联和反向平均关联。

在RBM中，可见层神经元的输出和隐含层神经元输出的乘积即为平均关联。系数ε由η和T统一合并而成，迭代步长即由权值调整公式ε表示。

图3 RBM网络结构图

Fig. 3 RBM network structure diagram

（4）MATLAB实现：

本文建立的BP神经网络模型结构为

[25，15，25]，[15，12，15]，[12，10，12]，[10，8，10]，[8，5，8]

设定网络隐含层的激活函数为双曲正切S型函数tansig，输出层的激活函数为线性激活函数purelin，网络的训练函数为Levenberg-Marquardt算法训练函数trainlm。因此对应的MATLAB神经网络工具箱的程序语句为

net=newff（minmax（P），[25，25]，{‘tansig，purelin}， trainlm）;

net=newff（minmax（P），[15，15]，{‘tansig，purelin}，trainlm）;

net=newff（minmax（P），[12，12]，{‘tansig，purelin}，trainlm）;

net=newff（minmax（P），[10，10]，{‘tansig，purelin}，trainlm）;

net=newff（minmax（P），[8，8]，{‘tansig，purelin}，trainlm）;

设定学习速率为0.01，最大训练步数为300，目标误差为0.00001。

（5）预训练结果：

预训练结果如表2所示。

表2 预训练结果

Tab. 2 The results of pre training

误差

学习速率

步长

[25，15，25]

0.003248

0.01

150

[15，12，15]

0.0022809

0.01

125

[12，10，12]

0.0025866

0.01

100

[10，8，10]

0.0039575

0.01

[8，5，8]

0.013529

0.01

1.1.2 展开

如图4所示，将各个RBM连接，得到自编码神经网络。预训练所得到的权值，将作为整个自编码神经网络的初始权值，参与整个网络的微调训练。

图4 RBM展开图

Fig. 4 Development of RBM network structure

1.1.3 微调

微调训练是在预训练得到初始权值的基础上，对权值进一步调整。采用以交叉熵为目标函数[5]的BP算法完成网络的微调训练。交叉熵是用来度量两个概率分布间差异性的，它是一个非负数，两个分布越相似，其越小。原始的交叉熵定义为

（4）

式中：x为随机变量;q（x）为已知概率分布;p（x）为估计概率分布。

对于随机变量x，当用q（x）估计p（x）时，通过调整受x影响的p（x）来最小化交叉熵D（p‖q），用于自编码神经网络权值调整的BP算法交叉熵函数形式为

（5）

式中：ti目标概率分布;yi实际概率分布。

整个网络训练的目的是调整权值以使交叉熵函数达到最小，权值调整公式为

根据上面的权值调整公式，可以完成网络的微调训练。训练结果如表3所示。

表3 微调训练结果

1.1.4 特征提取

50组标题（每个标题不超过25个汉字）的学习训练，通过自编码网络的逐层特征变换，将样本数据约1250（50×25）个汉字编码，在原空间的特征表示变换到一个新特征空间。其中网络最深隐含层的输出值（5个）和权值矩阵W6（5×8=40个），共计45个，为提取标题文本1250个汉字编码的特征值。

2 实例

本文选取10组标题文本见表4，分别输入自编码神经网络。预测结果表示基本符合要求。

表4 预测结果

Tab. 4 The prediction results

序号

样本输入

结果显示

我国自主研制的蛟龙号深水探测器成功替代进口

无

我国自主研制首台3.6万吨垂直挤压机挤合格钢管成功替代进口

我国自主研制的超级计算机系统成功替代进口

无

我国自主研发的1000MPa高压共轨管成功替代进口

我国自主研制超临界电站无缝钢管T92、P92成功替代进口

我国自主研制重载火车头下线成功替代进口

无

我国自主研制成功特高压交、直流套管成功替代进口

我国自主研制的Q355GNH系列耐候钢成功替代进口

我国自主研制的涡桨支线飞机成功替代进口

无

我国自主研制钒微合金L290管线钢成功替代进口

3 结语

本文按照标题文本分类检索信息，解决了直接按照关键词搜索信息，网页中经常显示几千条包含关键词内容的标题本文，从而导致读入分析信息量过于巨大的问题。通过自编码神经网络提取文本特征，在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，简化计算，提高了文本处理的速度和效率。

参考文献：

[2] 赵杜娟，刘高平，黄华，等.自编码神经网络车牌字符识别研究[C]//多媒体学术会议（NCMT2009）. 西安：清化大学出版社， 2009： 113-119.

[3] 吴芬芬. 信息抽取算法研究. 吉林大学硕士学位论文， 2006.

[4] 刘高平，赵杜娟，黄华.基于自编码神经网络重构的车牌数字识别[J].电子激光， 2011， 22（1）： 144-148.LIU

[5] ZHANG Jian， FAN Xiaoping， et al. Research on characters segmentation and characters recognition in intelligent LPR system[C]//Proceedings of the 25th Chinese Control Conference. Harbi： Beihang University Press， 2006： 7-11.

[1]G.E.Hinton， R.R.Salakhutdinov. Reducing the Dimensio- nality of Data with Neural Networks， Science 313：504-507， 2006.