基于SVM的公安情报自动分类系统模型设计

2012-09-17谭敏范强

网络安全技术与应用 2012年7期

谭敏范强

湖南警察学院计算机系湖南 410138

0 前言

在传统的公安情报工作中，公安业务人员每天都要面临着大量的情报文本，它们来自不同的渠道，例如：110接处警信息，公安侦查人员搜集的信息，公安内网发布的信息，互联网的公开信息等等。据统计一个普通市级的公安部门每天就会接到几千条，上万条的情报信息。对于这些情报，公安机关需要安排专门的人员进行整理，以便及时分析研判情报，发布有价值的情报给上级部门和下属的单位。这不仅耗费了大量的警力资源，同时由于工作的繁重和工作人员自身认知的差异也会造成情报整理分析的延误和疏漏，造成不同程度上的损失。

针对传统的公安情报工作的不足，研究文本自动分类技术，设计公安情报自动分类模型，实现公安情报文本的快速自动分类，即将侦查部门采集到的情报文本按照一定的策略自动归类到已经设定的类别之中。可以使大量的警员摆脱繁重的手工识别情报工作，降低分类成本、改善分类性能(如提高分类精度和推广性)，并提高情报文本分类的效率，为进一步的情报加工处理提供支持。为在新形势下，建立和完善信息化、自动化的情报体系，推动“情息主导警务”战略的落实具有重要的现实意义。

1 相关技术

1.1 Agent 技术

Agent技术是人工智能领域中的一个重要分支，以其所具有的智能性、自主性、交互性和可移动性等优点在许多研究领域中受到了重视。软件Agent 是能够与环境交互的自主软件实体，较之软件对象概念具有更多的知识，具有更强的问题求解和自治能力。它可以分为单 Agent 系统和多Agent(Multi-Agent)系统。多Agent系统是由一组独立但又协同工作的Agent构成。各Agent 相互协商和协作，以完成某一共同任务。

1.2 文本分类过程

一般来讲，文本分类过程需要解决以下几个问题：

(1) 文本预处理

由于文档都是非结构化的，而且文档的内容是人类所使用的自然语言，计算机很难处理其语义，因此要进行必要的文本预处理。文本预处理是指把文本转化为原始特征空间中元素的序列。对于不同语言书写的文本，预处理过程和复杂程度不同。比如对于英语，预处理主要是去掉停用词，还原词形为词干，得到“干净”的文本。而对于中文，由于中文词语是连续书写，采用词语作为特征项需要先从连续的文本中分离出一个个的词语来，所以预处理阶段的主要工作是分词和去停用词。

(2) 特征选择

目前，在信息处理方向上，文本的表示主要采用向量空间模型(VSM)。构成文本的词汇，数量通常相当大，因此，表示文本的向量空间的维数也相当大，可以达到几万维，所以有必要对于所获取的特征进行筛选和优化，从特征的全集中提取一个最优的特征子集。特征提取的目的就是尽量地保留有用特征，剔除无用特征，它通常会采用某种标准对特征的重要性进行评价，之后只要保留重要程度较高的特征即可，特征提取的好处为提高分类效率和提高分类精度。文本的特征提取一般是构造一个评价函数，对特征集中的每个特征进行独立的评估，提取的方法有多种，可以使用不同的评价函数，如：词频DF( document frequency threshold) 、信息增益 IG ( information gain) 、互信息 M I ( mutual information) 、期望交叉熵( expected cross entropy) 、文本证据权( the weight of evidence for text) 等，其中词频和互信息应用较广。

(3) 文本向量表示

文本的特征表示是指用文本的特征信息集合来代表原来的文本。文本的特征信息是关于文本的元数据，可以分为外部特征和内容特征两种类型。其中外部特征包括文本的名称、日期、大小、类型、文本的作者、标题、机构等信息，文本的内容特征包括主题、分类、摘要等特征。目前，文本的向量表示主要采用向量空间模型(vector Space Model，VSM)，在该模型中，每一对象模型转化为空间中的点，两对象间的差异由多维空间中两点间的距离表示。它的基本思想是以向量来表示文本。目前存在多种VSM权重计算公式，其中被广泛采用的是TF一IDF公式。

(4) 选择分类方法

选择分类方法实际上就是要使用某种方法，建立从文本特征(或属性)到文本类别的映射关系，是文本分类的核心问题。现有的分类方法主要来自两个方面：统计和机器学习，比较著名的文本分类方法有KNN， NaiveBayes，SVM等等。

(5) 性能评测

文本分类系统的建立，需要对系统使用的分类方法或选用不同参数下的分类器的性能进行评价，性能评价对改进和完善分类系统也具有指导意义。对文本进行分类可以看作是一种机器学习的过程，机器学习中常用的评估标准有分类正确率(classification accuracy)，查准率( precision)与查全率(recall)，查准率与查全率的几何平均数，信息估值(information score)，兴趣性( interestingness)等。

2 公安情报自动分类系统模型

基于支持向量机的公安情报自动分类分为情报预处理、特征提取、核函数选择、支持向量机构造、公安情报分类、质量评估等步骤。

在分析公安情报分类主要过程的基础上，可以结合当前比较先进的多Agent 的思想，来构建公安情报分类系统。即建立多个具有较高智能和自治能力的 Agent，每一个 Agent都能独立完成公安情报自动分类系统中的某项功能，而 Agent之间则通过共享资源、相互协作、相互服务，共同完成整个任务，使得整个系统能够具有自主性、主动性、反映性、可动性、协同性和智能性，从而取得最佳的效果(图1)。

图1 公安情报自动分类系统模型

2.1 情报预处理Agent

情报预处理Agent的主要任务是将公安信息语料按照一定比例分为训练文本和测试文本两类。再分别对训练文本和测试分类文本进行分词、去停用词和词性标注等预处理工作，此时得到的语料信息作为文本特征全集构成原始的特征空间。

2.2 特征提取Agent

将中文文本进行分词后，通常每篇文本都对应着数量庞大的词条，若直接用这些词条组成向量，不仅维数太高，而且其中也包含了过多的干扰信息和冗余词条，一方面影响算法的分类准确率，另一方面也增加了计算量，降低了算法的分类效率。为此，在不影响文本分类准确率的前提下，对分词后的词语进行选择，只保留那些在文档中表现能力强、与文本主题密切相关的对分类有贡献的词条。

特征提取Agent 的主要任务是，在进行分类处理之前，对情报文本中出现的词条及其权值进行选取，以便将非结构化的文本表示成计算机学习和分类算法可以识别的形式。

在文本分类中，用于特征选择的统计量主要包括特征频度、文档频度、特征熵、互信息、信息增益、X2 统计量、期望交叉熵、文本证据权等。这些方法的基本思想是给每一个特征词统计一定规则下的度量值，并根据实际情况设定某一阀值，然后去掉那些度量值小于阀值的词条，保留度量值大于阀值的词条作为特征词。对于不同的分类算法，各种特征提取方法的效率都不尽相同。根据研究，对支持向量机分类方法来说，信息增益和X2统计量的方法要优于其他几种。

2.3 核函数选择Agent

要构造出一个具有良好性能的 SVM，核函数的选择是关键。采用适当的核函数可以在不增加计算复杂度的情况下实现某一非线性变换后的线性分类，核函数的这一特点提供了解决“维数灾难”的方法。核函数的选择包括两部分：一是核函数类型的选择；二是确定核函数类型后相关参数的选择。

核函数选择 Agent 的主要任务是选择适当的核函数作为构造支持向量机的基础。常用的核函数有线性核函数、多项式核函数、径向基核函数和 Sigmoid 核函数等，它们各有不同的优点和适用场合。径向基核函数具有良好的性能，在缺乏问题先验知识时其适应性是最好的，它能够处理非线性的情况，而在参数取某些特定值时，又和线性核函数或Sigmoid 核函数的性能相似。径向基核函数的另一个优点是它只有一个核参数，比多项式核函数和 Sigmoid 核函数的参数少，在选择参数时比较方便。

2.4 支持向量机构造Agent

支持向量机的目标是找到一个超平面，使得它能够尽可能多的将两类数据点正确分开，同时使分开的两类数据点距离分类面最远。支持向量机构造Agent 的主要任务是在经过核函数映射的高维空间内，按照模式识别、统计学习和最优化理论阐述的有关方法，针对训练样本集构造最优分类超平面，从而求解出符合结构风险最小化原则的最佳分类函数，构造支持向量机分类器。支持向量机的主要优点是将降维和分类两个问题集中处理。研究表明，支持向量机的分类性能超过其它分类算法，而且训练速度与 Rocchio 算法相当。

2.5 分类Agent

公安情报分类 Agent 的主要任务是通过由训练样本构造出来的支持向量机来对情报文本进行分类。标准 SVM 最基本的理论是针对二分类问题，然而，在实际应用中有许多分类问题，要解决多分类问题必须辅以一定的策略，常用的方法有：标准算法、一对一方法、k 类 SVM 方法、决策导向循环图方法。

2.6 性能评测Agent

质量评估Agent的主要任务是对通过情报分类得到的分类结果和分类模式进行评价解释。查准率和查全率是最为传统、也是应用最多的两个评价指标。查准率体现了系统分类的准确程度，查全率体现了系统分类的完备性。查准率和查全率两个评价标准通常情况下是互补的，单纯提高其中一个指标会导致另一个指标的下降。理论上讲，一个优良的分类系统应该同时具备较高的查准率和查全率。但实际上，大多数系统需要在二者之间做出一些折衷，以免某个指标过高或过低。