知识图谱在金融行业的应用研究
2020-03-01林一松秦浩炜
■林一松 秦 祎 秦浩炜
(1.中国建设银行总行机构业务部;2.中国建设银行总行同业业务中心)
1 引 言
知识图谱是一种直观显示各个实体关联信息的有效数据结构,是一种可以关联源自不同种类的知识,将它们集中在一起而得到的关系图谱,本质上它是Semantic Network的知识库,它将客观世界中存在的各种概念或实体及其之间的关系以结构化的形式来进行描述[1]。因此也可以简单地用一张巨大的网络来比作它,其中,网络中的节点就表示知识图谱中的实体或概念,而节点之间的边则表示知识图谱中的属性或关系,用最小的代价知识图谱便可将从互联网中积累起来的信息组织起来,并使其成为有着高利用价值的知识[2]。
金融行业的现代金融体系,每时每刻都运行产生大量的金融数据,容量庞大、时刻变化和来源多样的金融数据给金融业带来了极大的挑战,同时,金融业也是一个在数据、信息和知识上有着极大需求的典型的知识密集型行业,金融决策大都需要大量的数据、信息和知识作为支撑,从大数据中提取信息和知识的速度与能力很大程度上会在未来决定着金融业的核心竞争力。
在大数据环境下,针对海量且异质多源的金融数据,加以知识获取的相关理论、方法和技术进行运用,进而从中获取有价值的知识信息,从而形成各类金融知识库来支持金融决策,并对金融知识库使用知识关联、知识检索和知识推理等技术来进行运算,然后以知识检索、自动问答和知识导航等形式呈现结果提供知识服务给决策者,这项技术在许多的金融决策支持过程中都有着十分重要的意义,例如风险管理、金融监管和投资决策等[3]。
2 相关工作
根据已有的研究成果,国内外相关研究重点关注这几个方面:①知识的融合与集成,获取到的多源异质的金融知识可能存在重复、语义关联不明确、不一致等问题,要将其融合与集成,就需要用到实体对齐、语义映射等技术,在同一框架下生成规范的金融知识库;②高效率的挖掘、获取大规模知识,从海量的金融数据资源中通过自动标注语义、机器学习和自然语言处理等技术,高效率地挖掘并获取大规模的金融知识;③个性且智能化服务于决策支持,面向金融决策支持知识服务的前提和基础就是获取金融知识后形成的各类知识库。如何运用知识检索、推理等技术,结合决策者的特征和需求对金融知识库运算得出结果,并为决策者提供个性化和智能化的金融知识服务,以知识导航、知识检索和自动问答等形式,极其值得进一步研究[4]。有了知识图谱作为辅助之后,文本背后的含义便能够被机器所理解,用户的查询背后的语义信息也能够轻易地被搜索引擎洞察,这样就可以返回更为精准的结构化信息,更大可能地满足了用户的查询需求,更高效地组织管理并理解互联网海量信息,这都是获益于知识图谱技术的帮助[5]。
3 知识图谱构建技术
构建知识图谱,这一过程经过了信息抽取、知识表示、知识融合、知识推理四个过程,每一次更新迭代也都包含这四个阶段。
3.1 知识表示技术
作为知识图谱构建及应用的基础,知识表示被广泛地应用到了自然语言处理和图像识别等领域。知识表示技术用来表示研究对象的方法是使用低维稠密的向量,广泛应用于补全知识图谱、抽取关系和智能问答等,不仅可以显著地提高计算效率,还能有效地解决数据稀疏的问题;知识表示主要包括:翻译模型、匹配模型、矩阵分解模型和神经网络模型等主要模型。
3.2 信息抽取技术
知识图谱数据来源范围广泛,包括文本,图像,传感器,视频等形式。信息抽取是指从这些不同的来源和不同的结构中提取数据以形成结构画的知识并存储在知识图谱中。在信息抽取过程中不仅标识实体,还对抽取的实体进行分类。可以根据知识图谱的要求调整类别。关系抽取则是多个实体之间语义关系的抽取。
3.3 知识融合技术
知识图谱在执行知识抽取时使用多样化的数据源,知识融合将事实对象与实体、关系、属性等之间存在的歧义消除后,可以在规范框架下对多种来源的知识进行异构数据整合集成、消除歧义、加工以及推理验证并更新等。知识融合当出现同属性不同值,需要决策并赋予其较正确的属性值时,可以数据源的数量和可靠度作为依据判断[6]。
3.4 知识推理技术
知识推理是构建知识图谱的重要手段和关键环节,它可以从现有知识中发现新知识,但存在不完整的数据源和不正确的抽取过程,这就要用已有的事实和推理技术,从相应知识库中挖掘推理出缺失以及深层的关系,并对知识图谱进行补全并去噪,完善和丰富知识图谱。知识推理从特定的知识图谱中派生新实体跟实体之间的关系,并在知识计算中发挥重要作用,例如知识分类,知识验证,知识链接预测和知识补全等[7]。
4 金融行业知识图谱应用
金融、医疗、电商作为知识图谱垂直行业的应用领域代表,产出了金融反欺诈、智能营销、商品推荐等的应用场景[4]。知识图谱,本质上是语义网络,是一种基于图的数据结构。通过知识图谱技术将存在金融行业数据中的大量的实体和关系建立连接,将金融行业现有数据以突破传统计算的模式深度整合,然后结合外部数据能够更有效地挖掘潜在客户、预警潜在风险,金融行业的各项业务效率大幅提升、利用价值得到更大发挥都得益于此[8]。
在营销应用领域,潜在客户挖掘使用现有及外部数据精准且迅速地找到潜在相关业务中的客户,带给银行业务颇多助益,对客户的潜在需求进行深度挖掘,使用银行客户关系的知识图谱系统,可以灵活地扩展用户行为数据,并将其与多类数据源结合起来,用以客户行为分析更准确,了解其潜在需求并提供精准的推送给现有客户;将企业级的客户财务关系、法人关系、投资关系以及公司业务关系等用以知识图谱进行分析,可得出企业级客户的潜在需求,最后对其需要的产品、服务等进行推荐。从精确营销的角度来看,知识图谱通过将多个数据源链接起来,构成用户及其群体完备的知识体系,进而更充分更到位地对用户及其群体的行为进行理解、认识和分析,金融公司用知识图谱去分析待销售用户群体之间的关系就是个很好的例子,通过分析去了解他们的共同爱好,进而为用户人群对症下药地制定相应的营销策略。
在风控应用领域,客户办理业务的行为在O2O的时代下得到了前所未有的便利,但也随之而来并且愈演愈烈的反欺诈问题,羊毛党、职业欺诈团伙层出不穷,反欺诈在金融风险管理中起着重要作用。人是反欺诈的核心,抽取借款人相关的全部数据源及行为数据,并将其全都整合到反欺诈知识图谱中,以进行高效并准确的反欺诈分析预测,在申请阶段,构建已知欺诈因素的关系图谱,例如手机、设备、账号、地理位置等因素,再对其统计分析全量风险数据,在交易阶段的反欺诈,可以建立风险特征数据库。通过知识图谱技术,可以有效解决电子渠道被薅羊毛、被恶意申请等问题,为电子银行的发展保驾护航,可以有效解决信用卡申请欺诈信用卡虚假申请、信用卡套现等难点痛点问题,助力信用卡业务更加健康地发展。
在预测应用领域,预测行业潜在风险,进行行业细分后用货款、行业等信息来建立模型用以关系的挖掘,显示行业关联性大小,并及时预测相关行业,以免被高风险行业或事件牵扯,提前预测风险并规避,通过建立客户、企业和行业的知识图谱预测潜在风险客户,也可以连接行业和企业之间数据,尽早预测行业的潜在风险,可及时地发现行业风险以及关联的企业客户,数据在金融行业中是极其重要的成分,将知识图谱的关联关系概念利用起来,不仅能突破现有关系型数据库的限制,还能更加精准高效地获得数据的价值。
5 结 语
知识图谱这一概念从被提出至今,其行业应用热度仍然在不断增长。本文对知识图谱的构建技术进行了阐述,包括知识表示、知识抽取、知识融合以及知识推理等核心技术,结合了当今社会的需求介绍了知识图谱在金融行业中的应用现状,研究分析了知识图谱对风控、营销、预测等领域的影响和发展趋势,对金融行业具有较好的参考价值。