基于向量空间的案件分析
2015-03-16胡幸杰
胡幸杰
摘要:该文根据市公安局的需求建立PGIS综合查询系统,介绍了PGIS综合查询系统的设计。着重介绍了基于向量空间的方法对海量数据库的分析研究,对往常案件进行分析,找出与当前案件相类似的案件,使警方对案件做出正确的判断,让公安机关第一时间有效地预防和打击罪犯,从而快速破案。
关键词:PGIS;相似度;案件
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)04-0063-03
Abstract: According to the demand of the city public security bureau to build PGIS comprehensive query system, this paper introduces the design of PGIS integrated query system. Introducing the vector space method to analysis and study of massive databases,analyzing the usual case, finding out similar case to the current case .It can help the police to judge the case, make the public security organ effectively preventing and cracking down on criminals, make the police to solve problems at the first time.
Key words: PGIS; Similarity; Case
随着电子信息的快速发展,计算机办公占据了公安机关主要的办公方法,随着案件的增加,数据库中的数据量也越来越大,面对大量的数据库,警务人员无从下手,可是这大量的数据库中包含了很多重要的信息,若人为的从中找出有用信息来帮助破案,等同于大海捞针。数据挖掘技术可以很好的解决这个问题,它可以很快很准确的在海量的数据库中发现我们想要寻找的东西,挖掘出一些潜在的信息,通过这些信息可以帮助警务人员破案。根据案件的实际情况,警用会对周边进行盘查,人为的盘查可能会出现漏查、重查的现象,在PGIS中可以很好案件周边情况有很好的掌握,所以PGIS查询系统的建设迫在眉睫。
1 PGIS综合查询系统设计
1.1 案件查询
结合关系数据库和图层文件实现通过案件相关属性对案件进行空间定位和基本信息展示,并可对案件进行周边查询(可自定义查询范围0-2000米),包括网吧、旅馆、盘查查询、视频查询、重点人员查询等。网吧查询不仅可以查询出周边网吧的信息,同时也支持查询上网记录,旅馆周边查询具有同样的功能。盘查查询可以查询出周边出现过得可疑人员,帮助警方快速锁定人员。重点人员可以根据时间段查询出在案件周边一定范围内出现过得重点人员,并能展示它们的前科信息。
1.2 盘查查询
支持属性查询和空间查询相结合的查询方法。可以了解到某一地区盘查情况。同时支持查询某警员的在某时间段内盘查采集的情况,是公安机关考察业绩的重要指标之一。
1.3 网吧查询
同样支持属性查询和空间查询相结合的查询方法,对某一地区的网吧分布情况进行了解。可查询出某时间段内上网人员信息。可根据相关属性进行上网人员轨迹查询,在PGIS中展示出上网人员的一个详细的轨迹图。帮助警务人员掌握人员的活动轨迹。
1.4 旅馆查询
拥有与网吧相同的功能。
1.5 案件相似度查询
PGIS综合查询系统旨在结合属性查询和空间查询在PGIS中查询出案件、网吧、旅馆、视频等信息,并在PGIS中展现且定位其位置。网吧查询中上网记录查询可以查询出上网人员上网记录,并可在PGIS中展现其上网轨迹,帮助警务人员对人员进行分析。旅馆查询中的住宿记录查询具有同样的功能。利用周边查询系统可对案件周边进行相关性的查询,包括网吧、旅馆、公安视频、盘查查询以及重点人员查询。通过网吧查询和旅馆查询可以查询出上网人员信息和住宿人员信息。通过重点人员查询可以快速查找出曾在那件周边出现过得重点人员,并可查询重点人员的犯罪前科。通过这一系列的设计,警务人员可以快速的对案件有个大概的掌控,对其周边情况有所了解,可以针对查询结果进行排查,达到不错不漏不重的效果。
2 案件相似度设计
2.1 文本分词
由于市公安局的犯罪数据库中简要案情中包含了简要的案件描述,所以案件的大部分信息都是以文本的形式存放在数据库中,所以需要对这个字段进行文本相似度分析,确定相似程度。
首先需要将简要案情进行分词,将其转换成一个个词条。当前中文分词算法主要可以分为三大类:基于词典的方法、基于统计的方法、基于规则的方法[3]。该文中对简要案情的分词采用中国科学院计算技术研究所研发的NLPIR(原ICTCLAS)系统,该系统主要包括中文分词、词性标注、新词识别、同时支持用户词典等功能。分词速度为500kb/s,分词精度超过大部分中文分词,可以达到98.45%,是世界上最好用的汉语词法分析器[6]。
分词后有很多与案件无关的词语(如连词,副词,标点符号等)对案件分析的影响非常大,而且在大部分文本中都会出现,这时我们应该在分词后对这些词句进行过滤,将文本中出现的连词、副词等一些与案件无关的词删除,这样可以提高判断的准确性。
2.2 建模
要进行挖掘必须将文本词汇转换成计算机能够识别的语言,必须对文本词汇进行建模,常用的方法有向量空间模型、概率模型、语言模型[7]。
向量空间模型很好的将自然语言转换成数学模型,将自然语言转换成一个个词条对应于多维空间中的点,从而转换成多维空间中两个向量之间的比较。当然向量空间也存在他的局限性,它没有考虑到文本的语义顺序,在长篇的文章之中,语义顺序很重要,两句话词一样顺序不一样意思也就不一样了。公安机关的简要案情为对案件经过的大致描述,一般为一两句话,使用向量空间模型是最好的选择。
通过大量的试验测试结果可知该应用程序的相似度计算比较接近人工判断的结果,符合公安机关的要求。
4 结束语
本系统能很准确的将案件定位到地图中,并展示案件的信息,对轨迹的展现非常清晰明了,可以很好的帮助警务人员掌握案件信息,以及案件周边的环境,人员的活动路径,对后期的排查、询问有很大的帮助。在周边查询中可以显示案件周边重点人员信息,分析出案件的相似案件,可以加速破案效率。通过公安机关一段时间的运行,证明该系统是完全可行的。
参考文献:
[1] PGIS平台服务二次开发手册[Z].公安部信息中心.2011
[2] Piatetsky-Shapiro,Frawley,Knowledge Discovery in Database[M] .MIT Press.
[3] 科显毅,朱倩.文本挖掘[M].北京:科学出版社,2010.
[4] 邵峰晶,丁忠清,王金龙,等.数据挖掘原理与算法[M]. 2版. 北京:科学出版社,2009.
[5] 徐洪波,程学旗,王斌,等.文本挖掘与机器学习[J].信息技术快报,2005,3(2):1-3
[6] 中科院.自然语言处理与信息检索共享平台[EB/OL].http://ictclas.nlpir.org/docs.
[7] 许洪波,程学旗,王斌,等.文本挖掘与机器学习[J].信息技术快报,2005,3(2):1-3.
[8] 杨振瑜,王效岳,白如江. 国外主要可视化数据挖掘开源软件的比较分析研究 [J].图书馆理论与实践,2013(5).