APP下载

公安领域中知识图谱的构建与应用研究

2018-08-11武鸿浩

网络安全技术与应用 2018年8期
关键词:结构化公安图谱

◆武鸿浩

公安领域中知识图谱的构建与应用研究

◆武鸿浩

(北京警察学院 北京 102202)

公安机关围绕保卫政权稳定、维护社会治安、打击违法犯罪三大任务而产生的各种信息系统积累了大量的数据资源,对公安内网资源和互联网信息的数据整合和信息检索成为了公安科技十三五规划的重要组成方面。语义搜索被认为是下一代搜索引擎的趋势,而其中的核心技术是构建相关领域的知识图谱,在此背景下构建面向公安领域的知识图谱显得尤为必要和迫切。知识图谱作为一种新兴的技术理念既面临着大规模无监督构建、实现快速复杂推理这些共性技术难点。同时,在面向公安领域建设时又面临着特有的信息来源和推理规则这些难点,为解决这些技术难点,本文综合运用词向量、模糊推理这些新技术解决构建公安领域知识图谱的技术难点,并设计了一套公安领域知识图谱。

知识图谱;语义搜索;自动问答

0 引言

知识图谱的概念最早由Google在2012年提出,知识图谱通过构建统一的知识库打破了因数据结构不同而导致的信息孤岛问题,并能够对知识进行有效的推理。知识图谱是语义搜索中的核心技术,因此被广泛应于与搜索引擎与自动问答系统中。目前国内外已经对知识图谱进行了深入的研究,并被应用于包括医疗领域和金融领域。

随着信息技术的发展,公安工作越来越依赖于大规模信息检索与分析技术,目前公安机关已经积累了大量的数据资源,这些资源大多数属于结构化的数据信息,为整合网页中的半结构化和非结构化信息。需要构建公安领域的知识图谱,以满足大数据环境下的数据分析需求。

目前从结构化和半结构化中抽取知识并构建知识图谱的技术已经相对成熟,但超过80%的信息储存于非结构化的文本中[1],这就需要设计一套可靠的信息抽取技术,而信息抽取也是当前自然语言处理技术的一个难点。同时公安领域的知识图谱面临大量的推理任务,这就需要在知识图谱中选择合适的知识表示形式便于日后的推理工作。

为解决当前公安领域的知识图谱构建面临的问题,本研究用粒计算的思想构建多粒度的知识图谱实现快速推理,构造适用于知识图谱信息抽取词向量模型,构建面向事件的知识图谱构建,并开发了一套合适公安工作的知识图谱构建模型。

1 公安工作中对知识图谱的运用场景研究

1.1 串并案分析

相同罪犯或犯罪团伙在作案过程中会使用相同的作案工具、作案手法,并寻找相似的作案对象。办案人员利用此原理根据已有的受案信息进行串并案分析,分析犯罪人员的特征、确定犯罪轨迹、对潜在作案对象预警,这要求侦查人员具有深厚的办案经验,并需要处理大量已有的线索,如果运用知识图谱对已有的受案信息进行分析整理,理清各个线索之间的关系,将极大地提高办案效率。

1.2 打击互联网有害信息

我们将互联网中的有害信息定义为包括以颠覆政权制造社会混乱为目的的非法言论,包含色情、恐怖、暴力内容的信息,以实施网络诈骗、网络赌博、网上非法交易为目的的信息。对这类信息的及时发现、消除是网安部门和各大网站的重要职责。但由于网络信息量大、有害信息隐蔽性强等原因,此项工作需要消耗大量的人力物力,并难以取得良好的效果,如果利用知识图谱作到文本内容的消歧,并联系背景知识理解隐喻的话,将极大提高有害信息的识别准确度,净化网络环境。

1.3 社会群体性事件的预警

社会群体性事件容易被不法分子利用演化为街头政治。互联网能够方便地将具有相同利益诉求的人群联系在一起,人们通过社交网络、新闻评论、即时通讯工具发泄情绪,组织群体活动。对此类信息及时掌握,做出预警,防止事态扩大是情报部门的重要职责。但是这需要了解事件的背景信息,把控网民态度倾向性,并能够将跨平台的舆论信息联系在一起,这需要对信息有一个统一的知识框架,知识图谱符合此类需求。

2 构建面向公安领域的知识图谱的难点与解决方案

2.1 构建面向公安领域的知识图谱面临的问题

知识图谱作为一门新兴技术在构建过程中有许多技术难点,其原因归结起来主要由以下几点:

(1)构建知识图谱所用的信息源包含大量的非结构的文本信息。对文本语义的理解是一个复杂问题。这个问题的复杂性体现在一是文本结构属于未知结构[2],二是信息的不确定性。在文本结构方面虽然文本的语法是有限的,但由于现实语境中大量存在省略、倒序,甚至更复杂的语法错误,因此不能用有限的语法表达文本结构。

(2)知识图谱的无监督学习构建问题。如果无法实现知识图谱的无监督学习,就无法构建大规模的知识图谱,同时难以对知识图谱及时更新和维护。知识图谱的无监督学习不仅要实现概念的聚类而且要能够体现概念之间的关系,这在基于词向量的word2vec中有所体现,但相关讨论和实例还比较少。另外知识图谱的无监督学习同样面临小样本学习问题[3]。在大数据环境下有限的标记语料难以应对高速出现的文本流,主要表现在大量新词的出现,以及主题漂移和新主题的出现。同时文本信息不具有统计上的均匀分布,由于领域、语种、平台的不同,语言环境往往有很大的区别,难以将基于有限标记语料产生的语言模型在跨平台跨领域以及文本流中推广。

(3)利用知识图谱进行复杂快速推理的问题。知识图谱主要采用(Subject,Predicate,Object)三元组的形式来表示知识[4],这种方法可以较好地表示很多事实性知识。然而公安领域的知识图谱涉及大量的社会计算和复杂推理,很多知识并非常识性知识,而是基于某个社会场景下的知识。

2.2 公安领域知识图谱的构建思路

(1)用粒计算的思想构建多粒度的知识图谱实现快速推理

目前采用SPO模型的知识图谱,由于大量的实体之间没有关系,或者只有少数几种关系,造成一个稀疏的三维数组,如果为了表达更复杂的关系还要加入时间、空间、情感等维度,势必造成知识图谱的结构过于复杂,而产生非线性增长的时间复杂度和空间复杂度。为解决这个问题除了提高计算能力之外,更需要从改进知识图谱的模型结构做工作。希望将粒计算的思想引入到知识图谱的模型构造中,构建多粒度的知识库,可以在不需要精确推理的情况下减少计算量。例如我们要了解网民对某事件的态度是支持还是反对,而不是具体的观点的时候,我们仅需要查询网民倾向定的大类进行推理。用粒计算的思想构建多粒度的知识库重点在于粒度的划分,以及多粒度的联合计算。

(2)构造适用于知识图谱信息抽取词向量模型

文本作为一种无结构化数据,为了实现大规模的知识图谱建设,同时能够做到对知识图谱的及时更新与维护,需要采用无监督学习的方式完成知识图谱的知识抽取。词向量作为深度学习的输入相对于传统的统计学习模型已经能够表达词语之间的相似关系,同时兼具统计模型的鲁棒性。Google的word2vec据称可以反映词的上下位关系(相关论据还比较少),但要适用于知识图谱的构造和推理还需要反映更多的语义关系,如果能够将词向量和知识图谱模型中描述实体的特征向量对应起来的话,将有助于无监督学习方法在知识图谱构建工作中的推广,也有助于知识的融合。

(3)构建面向事件的知识图谱构建

知识图谱的构建具有很强的领域性。公安工作中需要对社会热门事件的发展及时跟踪和了解,需要构建面向事件的知识图谱。构建此类知识图谱和传统的知识图谱构建具有很大的区别,首先是社会热门事件是动态出现的,单一事件也会随着时间的推移不断变化发展,这需要知识图谱实时更新。同时时间轴将是串联各个实体之间的一个重要属性,因此在构建面向时间的知识图谱中必须考虑时间属性。最后评价某一事件往往包含大量的主观信息,对于情感类文本的倾向性测量也是构建此类知识图谱的一个工作。因此本研究在面向社会热点事件的知识图谱构建,基于时间属性的知识图谱推理,以及面向态度倾向性的知识图谱推理方面做出研究。

3 公安领域知识图谱的构建框架

图1 基本研究框架

图1中知识图谱的输入信息包括结构化数据,包括结构化数据库中的数据;半结构化或弱结构化信息,包括询问笔录、勘查记录等信息;无结构数据,如纯文本信息等。

这里个人代理输出包括问答式的语义搜索,结果可以是单一的,如某人在某段时间住在哪里?乘坐过什么交通工具?也可以是列表形式的,如某段时间和某人同住过一个旅店的人有哪些?模式匹配,如和某一案件作案手段相似的案件有哪些?某一舆论事件发展为群体性事件的可能性有多大?某一信息是否属于有害信息?图形化展示,如以图的形式展现某一案件涉案人员的关系,或者展现某人的轨迹信息。

要完成此类语义搜索遇到的困难有:隐喻问题、跨平台的信息联合问题、突发事件的及时检测和对话题的跟踪问题、判断网民态度倾向性的问题,要解决以上问题需要解决两个要素:一是推理,二是补全背景知识。这就需要像知识图谱这样能够模拟人脑存储知识的技术。

在本研究中将探讨适用于面向公安领域知识图谱构建的词向量模型,用以解决知识图谱的大规模无监督学习。将探讨粒计算的方法用以解决知识图谱的快速推理问题。

3.1 面向公安领域的知识图谱信息来源分析

(1)在公安内网方面,以金盾工程建设为契机建设了八大资源库,涵盖了全国人、地、事物、组织信息,同时各地公安部门结合自身需求建设了涵盖人员轨迹、车辆轨迹、出入境信息、旅店住宿信息等资源库,部分省份完成了办案文件电子化工作,建成了案件信息库。同时整合外网信息,包括民航、民政、交通等全部或部分资源库。之前的工作主要集中在使用包括SOA等技术实现各个资源库之间的数据整合,但对于数据的语义分析、知识的推理、结果的展现仍然有许多技术难点没有突破。

(2)互联网信息,对互联网信息的获取和分析运用面对可以公开获取的信息通过各种舆情分析和信息检索工具进行分析,对于不公开数据一般交由信息平台所属公司处理。一方面舆情分析技术和信息检索技术有待提高,绝大多数系统的技术核心仍然是基于关键字的检索,同时缺乏面向公安工作需求开发的专用技术。

3.2 面向公安领域的知识图谱的输入和输出

面向公安领域的知识图谱信息输入按照数据的结构性分可分为:

(1)结构化数据,包括结构化数据库中的数据。

(2)半结构化或弱结构化信息,包括询问笔录、勘查记录等信息。

(3)无结构数据,如纯文本信息等。

面向公安领域的知识图谱的输出按照应用场合可分为:

(1)问答式的语义搜索,结果可以是单一的,如某人在某段时间住在哪里?乘坐过什么交通工具?也可以是列表形式的,如某段时间和某人同住过一个旅店的人有哪些?

(2)模式匹配,如和某一案件作案手段相似的案件有哪些?某一舆论事件发展为群体性事件的可能性有多大?某一信息是否属于有害信息?

(3)图形化展示,如以图的形式展现某一案件涉案人员的关系,或者展现某人的轨迹信息。

3.3 面向公安领域知识图谱的知识表示方法

面向公安领域的知识图谱,需要具有强大的推理能力,能够处理复杂的概念之间关系,为做到这一点需要采取以下方法:

(1)在选择面向公安领域的知识图谱描述语言时,倾向于使用OWL,因为OWL增加了关于描述或提供网络内容的资源信息,这有助于实现跨平台的知识整合,并具有较强的表达能力,适合用来构建面向公安领域的知识图谱。

(2)构造面向公安工作的模式层。采用无监督的方式构建知识图谱,虽然可以节约人力成本,但由于本体概念之间关系的复杂性,将会使知识图谱本体之间的关系繁杂,因此需要根据公安工作的特点构建知识图谱的模式层,模式是对知识的提炼,便于表达复杂的约束关系。

(3)借助粒计算的思想减小推理的复杂性。面向公安领域的知识图谱中的概念更为复杂,既可以是一个客观实体也可以是一个事件甚至是一种观点,为了能够清晰地描述概念计划引入知识粒这个概念。具体的粒化方式如下:将相似的词粒化为一个知识粒,将文本表达的知识演化成一种有限的可被计算的模型。对文本信息的粒化最高层为主观和客观,这基本上是文字表达信息的两种范畴,客观事物具有多重属性,本身和属性又包括多种特征,这将是文本知识结构,主观方面主要是对事物的态度,态度可以分为多种,每种又具有不同的程度。

4 当下要践行具有中国特色的社会主义法治理 结束语

本文分析了公安领域知识图谱的应用场景,对构建公安领域的知识图谱的难点进行了分析,并提出了解决方法,在此基础上提出了一套构建公安领域知识图谱的方案。知识图谱作为语义搜索的核心技术在未来具有广阔的发展前景,构建面向公安领域的知识图谱是整合数据资源实现智慧公安的一项重要技术,随着知识图谱构建和应用技术的成熟,公安领域知识图谱将会的到更好的发展。

[1] Nickel M, Murphy K, Tresp V, et al. A Review of Relational Machine Learning for Knowledge Graphs[J]. Proceedings of the IEEE,2015.

[2]漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017.

[3]刘知远,孙茂松,林衍凯等.知识表示学习研究进展[J].计算机研究与发展,2016.

[4]Bordes A, Usunier N, Garcia-Duran A, et al. Translating Embeddings for Modeling Multi-relational Data[C] International Conference on Neural Information Processing Systems,2013.

[5]Mikolov T, Sutskever I, Chen K, et al. Distributed Representations of Words and Phrases and their Compositionality[J],2013.

北京警察学院院级课题:面向公安领域的知识库问答技术研究(2017KZY11)。

猜你喜欢

结构化公安图谱
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
绘一张成长图谱
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
Frequent attacks on health workers in China: social changes or historical origins?
“10岁当公安”为何能畅通无阻
补肾强身片UPLC指纹图谱
公安报道要有度
主动对接你思维的知识图谱