APP下载

基于朴素贝叶斯分类器的海上执法查询系统

2015-07-17应忠于公安海警学院浙江宁波315801

山东工业技术 2015年7期
关键词:文本分类

张 清,应忠于(公安海警学院,浙江 宁波 315801)

基于朴素贝叶斯分类器的海上执法查询系统

张 清,应忠于
(公安海警学院,浙江 宁波 315801)

摘 要:中国海警局正式挂牌成立后,因海洋法律未成体系,执法人员在法律和职责的学习上存在时间和执法需求的矛盾。本设计立足海警执法中的切实需求,将法典与案例相结合,设计出供海上法律查询系统,供执法人员查询、参考。常用的文本分类方法中朴素贝叶斯具有容易实现,运行速度快的特点。本设计使用朴素贝叶斯分类器,设计出海上执法查询系统。

关键词:朴素贝叶斯;文本分类;海上执法

在我国海上执法力量整合初期,海上执法人员来自海警、海监、渔政、海关等多个部门,这造成了海上执法人员对原其他部门职责和法律监管的范围不清楚。而我国涉及海洋的法律数目众多,对所有人员进行培训需要一个不短的时间。本设计针对这一问题,整合相关法律法规,并收集了大量的多部门的执法案例,建立系统模型,形成一个全面的数据库,为法典与案例模糊查询系统的开发提供知识库。

1 朴素贝叶斯分类器在文本分类的应用

常用的文本分类方法有支持向量机、决策树和朴素贝叶斯。其中朴素贝叶斯具有易实现,运行速度快的特点,被广泛应用。

1.1 朴素贝叶斯算法简介

令C={c1,……c|c|}是预定义的类别集,d={w1,……wn}是一个文档向量,则文档d属于类ci的概率可由条件概率P(ci|d )表示。为了最大限度地减小分类误差,文档d将被分到使P(ci|d )最大的类别ci中。而要求得条件概率,必须要先建立训练集。

事件的空间是整个文档空间,由于d是一个n维向量,为了简化计算出P(d|ci)的计算,朴素贝叶斯假定(属性间相互独立),即假定d属于类ci时,d中的元素wk的取值与wi的取值是相互独立的。这样由文档d对于类ci的条件概率就可以得到P(ci|d )的估计值。整个算法分为:

训练阶段:对每一个wk、ci估计先验条件概率P(wk|ci)和概率P(ci)。

分类阶段:计算后验概率,返回使后验概率最大的类。

1.2 文本分类问题

在文本分类中,假设文档d∈X,X为文档的向量空间,C={c1,……c|c|}是预定义的类别集。文档集合<d,c>作为训练样本。

例如:<d,c>={持伪造证件}

“持伪造证件“这句话在《中华人民共和国海事行政处罚规定》可以找到,因此将其标记为“海事行政处罚”。我们期望用某种训练算法,训练出一个函数γ,能够将文档映射到某一个类别:γ:X→C。这种类型的学习方法叫做有监督学习。朴素贝叶斯分类器是一种有监督学习。常见有两种模型,多项式模型和伯努利模型。二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文件为粒度。在伯努利模型中,给定一组已分类的文本训练数据,如下:类别No中d1=<未持有防污文书>,d2=<伪造他人入境证件>,d3=<必须持有有关证书>,类别Yes中d4=<持用伪造海员证件>,判断c=海事行政处罚规定?

假设文本中词之间相互独立,将文本用属性向量表示为d=(持,伪,造,证,件),类别集合为Y={Yes, No}。按照语言习惯,将文本中的词语进行约定划分。已知类No下总共有3个文件,类Yes下有1个文件,训练样本文件总数为18,因此P(No)=3/4, P(Yes)=1/4,

P(造|No)= P(未|No)= P(防 污|No) =P(文 书 |No)= P(有|No)= P(他人|No)= P(入境|No)= P(必须|No)= P(伪|No)= (1+1)/ (3+2)=2/5

P(持|No)=P(证|No)=(2+1)/(3+2)=3/5

P(海员|No)= P(件|No)= (0+1)/(3+2)=1/5

P(持|Yes)= P(伪|Yes)= P(海员|Yes)= P(证|Yes)= P(件|Yes)=(1+1)/(1+2)=2/3

P(造|Yes)= P(必须|Yes)= P(有|Yes)= P(入境|Yes)= P(他人|Yes)= P(未|Yes)= P(防污|Yes)= P(文书|Yes) =(0+1)/(1+2)=1/3

后验概率计算:

P(Yes | d)=1/4×2/3×2/3×1/3×2/3×2/3 ×(1-2/3) × ≈0.00032

P(No | d)= 3/4×3/5×2/5×2/5×3/5×1/5×(1-1/5)× ≈0.00019

因此,这个文档属于类别Yes,即属于标记为“海事行政处罚”的类别。

2 系统结构设计

2.1 系统结构

基于朴素贝叶斯分类器的海上执法查询系统设计,主要进行了人机接口,分类器以及系统知识库的设计。

系统结构分为:用户接口模块、输入分析模块、查询匹配模块、结论模块。

用户接口模块:实现用户数据的输入及系统结果的反馈功能;输入分析模块:实现输入文本的分析,关键词的搜索等功能;查询匹配模块:对输入的案例特征在训练集中进行查询匹配;结论模块:主要实现系统结论的合理性判定,诊断过程以及结论的给出等功能。

2.2 系统工作流程

建立查询系统的法典库和案例库,并与朴素贝叶斯分类器结合。其工作流程:(1)用户输入查询信息;(2)系统对此分析分类,根据训练集,将用户的检索请求信息转换为系统特定格式,自动定位到关键词;(3)系统根据分类器提供的特征信息,进行法典和案例匹配,给出查询结果,过程终止。查询结果对应的相应法律条文信息,按文档关联度排序输出;(4)当匹配失败时,系统返回。

3 开发平台

采用Web技术,建立以Browser/Server 为结构模式、利用asp.net开发设计方法、以数据库为后台核心的查询系统建立适合于海上执法人员的应用信息平台。

4 结语

传统信息检索技术都是基于关键字查找和全文检索技术,主要借助索引和关键词等方法来实现。用户难以简单地用关键词来忠实地表达出其真正的检索目的。而法律文本的表述具有其特有的确定性和模糊性,案例的描述也有其固有的特点。将朴素贝叶斯分类器运用到系统当中,能自动抽取用户描述内容的概念,用关键词或与之相应的主题词加以标引从而完成匹配,为海上执法提供法律参考系统。

参考文献:

[1]程显毅,朱倩.文本挖掘原理[M].第一版,北京:科学出版社,2010.

[2]杨林.基于文本的关键词提取方法研究与实现[D],安徽:安徽工业大学,2013:1—17.

[3] 石志伟,吴功宜.“基于朴素贝叶斯分类器的文本分类算法”,第一届全国信息检索与内容安全学术会议,2004.

作者简介:张清(1990-),女,四川成都人,学员,研究方向:电子信息工程。

猜你喜欢

文本分类
基于朴素贝叶斯的Web文本分类及其应用
基于组合分类算法的源代码注释质量评估方法
基于贝叶斯分类器的中文文本分类
基于蚁群智能算法的研究文本分类
基于朴素贝叶斯分类的Java课程网络答疑反馈系统
基于K—means算法的文本分类技术研究
文本分类算法在山东女子学院档案管理的应用
不同情境下中文文本分类模型的表现及选择
基于内容的英语录音教材标注研究与应用
多核SVM文本分类研究