知识图谱关系网络在现代警务中的应用场景
2023-01-20桑朝阳
陈 锐,华 东,桑朝阳
(浙江省公安厅,浙江 杭州 330100)
0 引言
知识图谱是基于大数据的智能化自然语言信息分析技术,实质上属于信息分析工具中的一种,能够把抽象冗杂的信息通过采集处理、融合计算、可视映射及绘制等过程以基于易理解的形象化的方式显示出来,已被广泛应用于电商、农业、工业、医疗、军事、治安、教育等领域。谷歌、亚马逊、腾讯、Facebook、阿里、奈飞、PayPal、华为、苹果、百度等诸多企业纷纷探索拓展其在金融、电商、医疗多个领域的相关应用,推广前景被一致看好[1]。对于警务工作而言,经过十余年的“基础工作信息化,信息工作基础化”的快速发展,特别是近2年云计算技术的赋能,知识图谱关系网络越来越多地在该领域被应用并取得实效。
1 知识图谱基础理论
知识图谱通过将可视化技术与数学、图形学、信息科学等学科理论及方法结合,把抽象冗杂的信息通过采集处理、可视绘制等图形化方式直观显示出来。在现代警务模式中,人与人之间关系聚类的挖掘计算更加亟需知识图谱的应用。现实生活中,知识图谱应用在关系聚类的挖掘计算基础是人的基本属性、行为指数和信息交互(实体、关系、属性以及语义描述)等,但因为数据规模巨大、结构异样、质量不一,需要充分使用机器学习、自然语言处理等技术进行自动化的图谱构建。知识图谱关系网络可以通过对错综复杂的实体、关系、属性以及语义描述数据(包括结构化、非结构化和半结构化)进行高效准确的加工处理、整合清洗,转化为海量的实体元素与关系数据,知识汇聚融合后对数据进行逻辑归属和冗杂错误数据过滤。
简单来说,知识图谱应用于关系聚类分析主要具有以下3种特点。
(1)可以通过图数据库比对算法进行效率极高的数据检索,检索访问次数越多、范围越广,就能比中越多信息和内容,效率越高。
(2)图数据库面向的数据量是数十到百亿级,甚至更多。它使用图的方式有效地存储数据和知识之间的内在关联关系,可以实现系统化而非凌乱分散地展示相关知识体系。
(3)具备人类自然语言智能识别和推理能力,从整理出的数据中自动识别和推断出多维度关系与知识,可以模拟人脑思维方式去总结、证明和推测,脱离专业知识和业务经验制约而独立完成全部过程。
2 传统关联分析弊端分析
传统人物关联分析存在的痛点难点主要表现在以下方面。
一是分析过程耗时耗力,整体效率不高。传统分析主要采用“查询+比对”分析方法,即使查询检索也是单因子单表查询检索,复合因子、交叉因子或多表交叉查询检索效率很低,且由于分析对象及与其关联的对象数量庞大、系统独立分散、数据种类繁杂、基础信息重复、标准不一、共享不足等原因,查询耗时长,分析效率不高。使用传统方式的查询分析操作无法在最短时间内高效率针对某些特定的应用场景挖掘出分析对象的关联特征。
二是基础数据缺失不全,结果不够准确。传统的人物关联关系分析通常需要借助多个部门警种、多个信息系统、多类数据资源,将查询到的零散数据进行整合,梳理内在逻辑,组合人物画像,形成关系链条[2]。分析人员的专业水平参差不齐会导致结果出现偏差。多个部门、系统和资源中的数据质量参差不齐,结构异样、缺失甚至错误,导致分析人员初期的数据检索、收集、清洗和整理的难度极大,需要长期、重复、机械地处理相关数据,最终因为各种客观原因影响得到的结果往往与事实背道而驰。
三是综合信息多元混杂,挖掘提炼不强。人物关系可通过多维行为(线上或线下、物流交易、社交通讯、交通住宿、人力资源与招聘、金融投资理财、保险零售、通信传媒、医疗缴费、电子商务等)或是与内在联系的对象来表现。但由于人的行为具有多元复杂性、个体倾向差异性,且随着社会进步,各种新型的行为层出不穷,需对多种行为或多个对象进行综合信息分析,目前采取的传统方式挖掘分析难以满足现代多行为数据分析挖掘的实际需求[1]。
3 关系图谱概念流程
关系图谱泛指基于综合利用各类数据可视化分析软件,通过机器人流程自动化(RPA)等完成特定需求的集数据搜集、清洗、打标、建库、建模、分析及展现等功能于一体,根据数据是维度还是度量,是离散还是连续,选取与其相匹配的图形元素以及图形属性进行映射,进而达到传递想表达信息的目的。关系数据关联研究对象包含的范围越广,表面上好像没有相关性,但是底层具有潜在内关联价值的事物就越多,分析人物关联关系也就需要将海量庞杂的单维或低维数据拆解清洗,量化为对现代警务工作有用的指标指数,继而开展后续数据关联分析。这个过程也可以描述为通过定义的最小支持和最小置信度来寻找强关联规则、描绘关系图谱的过程。
通常来说,利用关系图谱进行人物关联分析的流程如下,这些流程步骤并非固定的,可根据研究对象和目标有选择性地省略、新增或重复。
3.1 数据采集
直接决定数据维度、格式、颗粒度、精确度等,很大程度上决定了输出结果质量和最终分析准确性。行业关系图谱构建更需要带着专业特色的目的进行数据采集,尽量摒弃明确与关联分析无关的数据采集。
3.2 数据存储
支持各类结构化、半结构化、非结构化海量数据的低成本存储,为超长时间的海量历史数据存储和使用提供基础支撑[3]。在数据存储层中,将会按照存储数据量、计算能力、计算速度进行分主题存储。因为图数据库在关联查询的效率上远远高于传统的关系数据存储,所以对大量数据应用图数据库来存储较好。
3.3 标准处理
标准处理包括噪声去除、数据清洗、标签分类、特征提取、信息抽取、建库建模、分析研判等内容。对脏数据和噪声进行去除,对散乱无序数据进行整合清洗,保留有价值数据,对多源异构数据进行清洗汇聚,建立基于专家系统、模式识别、机器学习等相关技术的数学处理模型,利用大数据、云计算技术实现数据快速标准的处理。
3.4 知识融合
通过标准处理后的数据,获得了结构统一、真实表达的实体、关系等数据后,再经过知识融合步骤对数据进行逻辑归属和冗杂错误数据过滤,将实体与实体进行对应、链接,最后合并外部知识库和数据库。
3.5 知识计算
以上步骤实现的基本事实表达数据再通过实体并列关系相似度计算、位置顺序关系排列完成本体构建,将数据归类成人、案(事)、物、地址、组织机构等人脑概念。在此基础上不断反复数据或概念更新、质量评估和纠正等环节。
3.6 可视映射
按照可视化技术要求,将处理后的数据按照数值、时间、空间、数据联系等方面映射成为可视化直观元素,映射后的元素可以直接被可视化技术使用。
3.7 感知展现
利用数据可视化结果进行分析,建立人物关系图谱。在实践中更多地利用可视化软件对数据进行交互式展现,利于人脑直观感知和结果表示[4]。
4 关系图谱行业应用现状
当前关系图谱应用无所不在,几乎覆盖所有行业和领域,包括教育、医疗、金融、商业、法律、行政等,前提是要像警务分析人员关系聚类一样,在每个行业都要建立起特有的具有业务属性的知识图谱,并不断完善和更新。当前已有很多行业开展了较为深度的应用,也取得了较为明显的成效。
4.1 司法关系图谱
降低了司法理论和实践中的应用难度,可以将司法工作中所涉及的法律法规、条例规范、经验做法、司法主体和对象等相互关联起来,形成具有较强逻辑性和结构性的司法关系图谱。通过关系图谱还可以方便快速地调用到关联得更形象直观的文本图形、语音视频等数据。
4.2 农业关系图谱
农业关系图谱可以极大程度累积和利用农业常识、规律、经验、关联行业知识等相关知识。深入挖掘分析相应的实体之间内在的关联关系,并用关系图谱进行表达,构造全面的农业知识库,直观地预测和指导农业领域发展趋势及辅助决策。
4.3 医疗关系图谱
挖掘遗传基因,降低诊疗成本,在医疗行业,发现和诊疗遗传性疾病的成本高、周期长。医疗关系图谱的数据组成包括临床数据、实验数据、理论研究成果以及各类共享数据,构建遗传学医疗关系图谱,加大遗传性疾病的诊疗精准性和降低治疗难度,节约治疗成本。例如“IBM登月计划”,对临床医疗做出了临床辅助诊断和安全治疗手段建议等方面的贡献,其背后就是医疗关系图谱基于海量临床经验数据、实验数据和理论研究数据相互关联的实战应用。
4.4 电诈关系图谱
这是警务工作中关系图谱众多应用中的一种。最近几年,电信诈骗的形式多种多样,涉案金额巨大,造成恶劣的影响。仿冒身份、购物诈骗、利诱诈骗、消费诈骗、钓鱼木马病毒诈骗等,骗子越来越多,手段越来越具有迷惑性,被害者防不胜防,甚至很多被害者都是高级知识分子,也在不知不觉中受骗上当。在这种情况下,原来通过个案攻坚、串并案侦查等传统方法进行反诈侦查已经远远不够,需要建立一个反诈关系图谱来积极应对。电信诈骗的核心是人,在金融投资诈骗的侦查分析研判中,需要对接涉及电诈的所有相关数据源,对多源异构数据清洗整理后构建对应的关系图谱,建设标准统一的结构化数据库供机器学习、理解和分析研判。这样不仅可以整合涉案人员的基本信息,还可以把涉案人员的消费记录、行为记录、关系信息、线上日志信息等整合到反电诈知识图谱里,从而进行分析和预测,最终得到电诈犯罪团伙成员的真实身份信息及内在关联信息,为打击电诈案件高发态势提供直观的决策指引及侦破方向。此外,通过构建海量的历史电诈元素的关系图谱,实现高风险数据的分析研判和机器学习,按电诈主题元素计算风险结果反馈,构建特征专题数据库,提炼固化分析规则,完善预警分析模型,可以有效进行电诈案件的前期干预,避免电诈案件的发生和终止现发电诈案件的发展。
4.5 电商关系图谱
拥有海量数据的互联网电商行业,当前在关系图谱应用方面处于世界前列。各大互联网巨头,通过构建自身电商生态闭环,让电商数据在整个闭环中产生、消化、再产生,反复地完善其关系图谱和知识库,让搜索引擎拥有了更精准的分析能力和更智能的推荐能力,能够更好的为客户提供关键和满意的电商产品信息,从而引导消费。例如淘宝的商品关系图谱背后有着商品标准化、结构化这一个基础性和根源性的过程。淘宝关系图谱以商品名称、商品分类、商品参数、商品品牌、标准条码、热门标签等为核心,利用自然语言识别和分析技术,整合关联了成千上亿的用户兴趣属性,形成了庞大的关系网。能够分析全平台数据,对违禁货物和违法交易行为进行预警及干预,也可以帮助用户迅速准确从海量产品中筛选出适合的商品,提高用户购物体验和交易安全等。
5 关系图谱前景
5.1 改善数据结构
大数据时代背景下,随着物联网、云计算等技术运用于各个行业部门,数据呈现出融合交叉的特点。知识图谱可以帮助人物信息模块化利用,将各种类型的数据进行规范整理和分类存储。在检索输出结果阶段,用户可以通过关键字检索等方式输入内容,系统会解析分析,将关联内容筛选排序,结构化输出结果[5]。例如“人员综合画像”模块输入关键字,系统通过对已有数据的清洗、关联、分类,将人员基本情况、关联人基本情况、所属物品情况、人员行业特征信息及人员行为信息在同一界面多维度直观展示。
5.2 辅助科学决策
关系图谱是从海量数据资源中清洗出符合条件的信息,可以实时快速地深度分析大数据中的实体与关联关系,利用已知内在联系或具体特征推断出与之有关联的新的联系。除此之外,关系图谱的推断并不仅仅局限于通过人物对象的行为或通过内在逻辑这些传统的单一思维方式,而是从数据出发,构建关系网络,多种因素综合考虑推断,相较于传统的方式,利用关系图谱能够对数据进行深度分析、精准研判和及时的预测[6]。比如关系图谱的推断,在警务工作中,为快速准确锁定目标人员、物品、地址、案事件和背景信息,民警的任何操作都是围绕该特定的工作意图和目的进行的,建立并应用该图谱,民警能实现快速精准侦查工作,这对于警务决策的精准性和全面性而言至关重要。
5.3 提升展示效果
在人物关联领域运用关系图谱,可以将来源于不同数据库系统、不同部门的数据信息进行整合,理清人物相关联的内在逻辑,构建关系标签脉络,将冗杂的人物对象数据有序化[2]。例如,构建“人员矩阵”,使被分析对象的“标签关系人或物”通过纵横排列的二维数据表格或三维立体模型展示,并利用数据特性,按条件排列,有效打通人与人、人与物之间的关系脉络,帮助分析人员在最短时间内了解对象群体特征及内在关联性。
5.4 赋能警务AI
关系图谱可以让当前应用在多种场景下的警务AI更智能更安全。它能应用于当前各个层级公安机关及警种条线的各类警务工作,可以让基层民警从枯燥无味的数据分析中解放出来,快速梳理嫌疑对象关系脉络,找到关键目标,发现活跃在本地的犯罪团伙,实现人案关联,最终落地打击。关系图谱不仅适用于破案追逃,还能在反恐维稳、社会治安治理和行政审批等公安工作各个领域发挥重要作用。未来,传统的调查、研究,甚至讯问、勘查、分析研判等警务工作将被关系图谱赋能的警务AI代替,警力资源得到极大程度释放。
6 结语
综上所述,利用关系类知识图谱系统进行人物关联分析,有以下几个方面的优势。一是能够满足更高层次的数据服务需求。关系图谱系统立足于大数据资源,深入挖掘提炼数据信息,建设“要素关联、融合共享、智能分配、全域一体”数据资源池,使人物关联分析从简单的“信息查询”转变为高效的“智能应用”,打通了人物相关联的数据脉络[2],实现基础数据对行业需求的更有力支撑。二是助推行业信息质量提档升级。在系统应用过程中,通过对已采集数据进行标签化、规范化、结构化的处理,去除噪声数据和脏数据, 提升知识质量[3],从而优化数据库结构,有力提升行业基础数据的质量,为行业需求满足夯实基础。三是显著提升分析效能。通过对综合画像、关系网络和人员矩阵分析等专业功能模块的构建,不仅能够建立“人+行为+轨迹+关系”人员多维信息档案,通过关系拓展、对象关联,还能实现从“单人档案”向“群体档案”、从“单一关系”向“多重关系”、从“基本分析”向“深度挖掘”转变,满足了可视化分析、直观化分析等高阶需求,有力提升了大数据环境下人物关联分析效能。