网络安全知识图谱构建技术研究与实现
2022-08-19李佳忆井亮
李佳忆,井亮
(太极计算机股份有限公司,北京,100000)
1 知识图谱技术的发展现状
知识图谱技术是依托实体、属性、关系之间关联性而产生的计算模型,经过建模关系、概念关系以及识别关系的有效结合,实现网络数据的查询分析。实际上,早在1998年,国外学者就曾针对链接同图的关联形式以及反馈的实体关系展开过深入讨论,并对后续知识图谱的构建指明了方向[1-2]。基于互联网时代,知识图谱构建显得更为迫切,且需要依靠智能技术,重塑知识图谱体系,以便在应对新型网络风险时,能够从知识图谱构建成果中汲取有用力量。知识图谱技术现今应用范围广泛,除了医疗领域、商业领域外,在互联网领域与大数据技术的融合,更是开创了全新的网络安全保障格局,以至于多领域都在知识图谱技术参与下,强化了安全防护效果。基于此,若能积极构建网络安全知识图谱,能够增加新时代智能服务精准度[3]。
2 知识图谱构建流程
在构建知识图谱过程中,还应当根据标准化步骤逐步完成构建任务。知识图谱作为实体关系组成单位,它能够利用不同数据之间的关联性、属性以及实体关系建立知识结构,从而保证在知识图谱技术指引下,理清事物关系,而且还可以实现建模操作。关于知识图谱的构建本身属于复杂项目,除了需要涵盖推理应用以及采集融合等知识操作内容外,还应当实现知识的计算与表示,且每个构建步骤都具备关键性影响。通常在构建知识图谱时,需要整理好数据知识,知识类型多指现有知识、非结构化知识、半结构化以及结构化知识,而后经过对知识数据的整合与抽取,建立明确的知识表示渠道,之后对知识进行消歧处理,并对知识展开质量评估,或是建模后进行质量评估,最终对知识进行妥善处理,形成知识图谱。另外,通过对知识图谱的推理,还可以对不完整知识予以不全,再度评估其质量情况,重新将补全后的知识纳入知识图谱中。随着知识图谱的顺利构建,知识库中存储的知识量更加充足,能够为网络安全管理中新产生的病毒等危险信息进行积极应对,以便在知识图谱保障下,网络领域安全性得以提升[4]。
3 网络安全知识图谱构建技术研究要点
3.1 建立知识图谱模型
网络安全知识图谱在其构建阶段,需要建立对应的模型,以此直观反映实体关系。对于网络安全知识图谱,可以在神经网络模型的建立下,为网络安全事件的妥善处理与精准识别给出新指引,便于在知识图谱干预下,能够切实保障网络安全管理工作的可靠性,使其在应对网络风险时可以拥有更优良的优势。其中在建模之前,还应当先行确定清晰的模型框架,而后在框架导向下,对神经网络模型进行充分解释。对于框架的设计,可以从多模型研究结果中确定框架公式,以便借助知识图谱提高网络安全管理水平。其中可以先行依据样本节点关系,建立GNN模型。假设在GNN模型中,样本节点设为v,邻居节点设为N(u),则对应的样本节点特征分别为Xv、Xu,依照神经网络层数将神经网络模型框架公式设计为,在非线性计算中采用REDUCE算法对知识数据进行运算,可以深刻的展示节点关系。
此外,还可以通过循环神经模型与长期短期记忆网络模型建模。按照传统网络安全防护管理技术,多依靠防火墙、入侵检测技术对网络领域中的潜在危险进行筛查剔除。然而,随着新型病毒的产生,若仍然使用传统网络安全防护技术,显然缺乏适应性。而知识图谱技术可经过建模后,更完善的保障网络系统,而后抑制网络风险的蔓延。在传统网络安全技术中均以单独评估为主,而知识图谱技术可以为网络安全防护工作提供综合防护条件,以便建立网格化管理环境。在互联网领域,对于网络数据的形成通常分为专家定义数据以及文本数据、日志数据等,这些数据都可以掺入模型中,经过对数据关系的分析,可对知识图谱中的数据模块进行完善设计。其中文本数据可包含网络平台上博客产生的非结构化数据,而日志是网络监控系统运行中生成的数据,在应用知识图谱技术时可以根据对数据的推理识别,对网络数据进行分类,这样才能顺利检出网络漏洞,做出具体的防护保障。
在循环神经网络模型中,还可以根据网络平台中词汇出现频率确定网络安全程度,而且还需巩固记忆功能,对于网络平台中产生的知识进行存储,再度出现时可以根据知识图谱模型存储结果验证是否属于潜在危险。在分析网络数据时,应把握好词汇关联性,将原本缺乏密切关联的词汇经由节点保持对应关系。假设验证网络平台名词实体关系时,可以发现名词出现频率低于动词,并且在循环神经网络中对网络中的海量数据进行排序,便于依靠知识图谱技术实现网络安全的有效保障。在建立知识图谱模型期间,还应当根据实体类型确定网络安全防护方式。根据网络平台常见风险来源,可将实体类型划分为操作系统、攻击漏洞以及软件资产等。在漏洞数据汇总时,其来源多以国家漏洞数据库为主,而攻击数据则集中在安全响应中心,如360安全响应中心以及信息安全网站等。随着知识图谱技术的应用,可在建模后及时预判评估数据风险,符合网络安全精准化管理要求[5]。
3.2 优化构建方案内容
(1)原生图数据库
在构建网络安全知识图谱阶段,要想针对网络风险进行有效管理,还需要充分借助知识图谱技术的力量。而在实践期,应进一步优化构建方案的实现内容。其中较为关键的是建立原生图数据库。网络平台中形成的数据类型较为繁杂,故而应当先行梳理好构建思路。于知识图谱技术辅助下,应当按照信息获取、知识图谱构建、生成攻击图的步骤,逐步建立原生图数据库。对于网络安全的管理维护,主要是运用知识图谱在安全领域中的应用经验,对数据进行整理,这样才能从数据整理分析中预判网络潜在隐患,以便及时把握住网络安全态势,依据风险性评估结果,促使网络安全在知识图谱技术参与下,逐渐实现网络安全事件的高效处理。
对于原生图数据库的建立,它是通过数据存储方式,对网络环境中的数据轨迹进行追踪。在网络安全知识图谱中,网络安全性多与访问控制有关,此时可以从网络边界安全与身份安全上加以分析。前者是指通过对上网行为产生的数据进行分析,研究同网关系统的关系。后者是指在网络系统中对用户身份合法性予以研究,如若参照原生图数据库中表明的知识实体关系,发现用户身份不合法,此时需要限制用户网络访问权限。作为验证用户身份属性的标准,多有数字证书、VPN等,并且可以对其进行加密处理,以此维护网络安全。网络安全维护能够依托知识图谱技术获得可靠保障,其间,需要从原生图数据库的完善补充上,不断明确数据关联性[6]。对于原生图数据库多有cayley等多类型产品,可借助为相关人员指明知识图谱构建方向。
(2)RDF数据库
在知识图谱存储方案的编制过程中,还需要针对RDF数据库予以完善。它主要是指资源描述框架数据库,可以针对网络数据传播标准进行约束。RDF数据库中产生的数据关系,其中点边属性并不清晰,这就导致在主谓宾三元组结构中很难进行知识推理。好比在网络上对于网站链接的分析,从中可以总结出时间、ID地址等信息,这样可对链接传播渠道的安全性进行深层次分析。在实体模型中属性模型能够对数据身份进行核查,此时应当凭借知识关系,创新知识存储模式。例如可以联合属性图,建立对应的模型,保证在优化数据存储方案后,知识图谱技术能对网络信息传播共享、存储记录过程实施质量评估,最终顺利建成知识图谱。在知识图谱构建中,对于RDF数据库的建立,还可以加强图查询能力,它能够实现网络语言的集中化展示,而且可以充分权衡点边关系,由此合理降低知识图谱构建难度。所以,需从语言逻辑关系上辨明网络安全性。
(3)关系数据库
网络安全知识图谱的实现,还可以利用关系数据库存储数据。对于关系数据库的建立,它是以关系代数形成的数据库类型,能够将网络数据整理为数据表,而后依据数据表关联性,阐述数据关系。如图数据属于点边集合体,此时可以借助点边参数设定方式,促使网络数据得以存储。从相关研究成果中分析,关系数据库多以三元组表或者属性表多样性类型存储数据。虽然此类数据库确实能够把握数据关系,妥善存储数据,但也有着一定的局限性,在数据查询过程中,常受数据表的变动而造成查询方式改变,致使关系数据库实际使用流程较为复杂。根据网络数据不同结构,能够建立对应的数据库,便于及时预判数据风险,正确存储有用数据,剔除其它影响网络安全的无效数据。基于此,在设计存储方案时,应当汲取上述数据库特征,分析具体优势,由于每种数据库皆有显著价值。但原生图数据库在结构化或非结构化安全知识分析中存在弊端。因此,若能联合关系数据库,对知识图谱存储方案进行优化,可以推动知识图谱技术应用进程。
3.3 合理创新构建方法
(1)分层构建法
构建知识图谱时,还需要积极创新构建方法,在具体构建阶段较为关键的是采用分层构建法,体现出知识图谱作用。分层构建是通过不同层级结构表明数据关系。其中具体指代的是模式层、数据层。在知识图谱中针对网络安全实体类型关系图,可以根据构造不同结构,对其关系进行预测,而后判断网络数据是否存在风险。在模式层中,它能够反映出数据属性特征。此时,在以此种方法构建知识图谱时,应当从属性、类型及其域等构建基准展开研究,三者间具备包含关系。一般情况下,在同一个域中,它包含不同类型,且每个类型又可细分为属性,这样可以通过关系图对网络数据进行整理。例如在流动人口数据汇总中,它可纳入人口普查领域,并结合节点数量、图边点等特征数量的记录总结,得出运算结果。而与流动人口相同类型的数据包括常住人口,至于数据属性的分层,可以从性别、年龄作为归类。经过此种分类设计模式的应用,可对当前网络平台中的海量数据进行分类。另外,在域与域两者间具备单独分布特性。而类型与类型则具备相关性,且每个类型中均包含多样性属性。此时,对于影响网络安全的数据,能够在分类中对其进行标记,以不同的域表示病毒、漏洞、伪基站等,此时形成的知识图谱则更具参考意义。而数据层是在抽象模式层之下形成的一种具化表现,在提取数据时,可以根据分层结构,保证分层构建后,知识图谱中的数据更加清晰,继而对处于边缘地带的模糊数据进行清理。
(2)数据采集法
知识图谱构建技术对于网络安全可以起到辅助保障作用。而在知识图谱构建环节,数据也是核心要素。网络平台中产生的信息均可转化为数据,而对于信息的筛选、查询、整理,即为数据分析过程。为了进一步提升数据质量,使之在传播中增加正确率,可以有效采用数据采集法构建知识图谱。数据采集是筛选威胁数据的重要渠道,根据对结构化数据的总结,可以从恶意软件、网络漏洞等多方面,确定威胁主体,这样可以经过对数据的监测,判断当前是否存在影响网络安全的数据。在知识图谱构建阶段,关于数据采集,可以从自动化视角对其进行设计。由于网络平台产生的数据规模庞大,若依靠人工筛选归类方式追踪数据源,将无法满足实际需求。随着原始数据的转载传播,数据量日益增加,此时可以依靠自动化分析的形式,增加知识图谱构建便捷性。另外,在数据采集中还要借助原始记录图谱,对当前数据进行对照,若有区别或错误点,则应当对数据进行自动化纠正,从而符合网络安全管理要求。
(3)程序应用法
对于知识图谱的构建,还应当采用程序应用法,为其带来可靠助力。作为网络安全辅助技术,要求构建的知识图谱具备自动检索与自动查询、自动整理综合功能,次数则要求相关人员构建知识图谱时,合理使用监控程序,对数据进行监管,以便保障网络安全。在为知识图谱选择适合的应用程序时,可以选用恶意行为分析程序、测量程序、自动分析程序等,这些程序可以直接对侵害网络安全行为及其数据进行标记,引导用户快速识别危险数据,有利于知识图谱得到程序助力。
3.4 研发知识图谱系统
(1)总体架构
网络安全知识图谱构建技术的实现,还需要深度研发知识图谱系统,增加技术可行性。在系统设计环节,可以在不同层次设计中,建立网络安全知识图谱。首先,需设计数据获取层,网络数据在采集中,可获取结构化与非结构化数据,而后在预处理后进入知识构建层;其次,依据数据关系,识别实体关系,此时需要对其进行科学验证与自动存储。随着数据存储功能的应用,完成数据存储层应用指令;再者,数据存储后进入业务逻辑层,经过对数据的交互处理,将其转化为可视化数据,以供用户检索;最后,可将检索信息进行二次转化,并充分进行存储,以便数据量在其增加的同时,为后续用户顺利使用知识图谱系统指明方向。例如在网络平台上,无论是在百度引擎还是360引擎上输入关键词搜索信息,都会留下搜索痕迹,且查询到的相关数据皆为往日用户上传数据。在确定总体架构后,需设计子系统,借此实现功能的强化。好比知识构建层应当具备只是验证以及知识抽取、检索存储功能,这些功能的实现亦可予以合理研发。
(2)子系统设计
根据知识图谱系统的开发需求,还需按照不同功能设计子系统。具体包含以下六个子系统:第一,数据采集子系统。在数据采集中,需要依靠网络平台获取安全数据。在结构化数据获取中,可以借助安全协议予以采集,而非结构化数据,其采集渠道多为下载器、调度器等,这些数据采集渠道都应当设定具体的管理标准;第二,预处理子系统,它在发挥数据预处理功能时,应当按照一定的数据读取规则,及时对数据进行过滤,提升网络数据安全性;第三,知识抽取子系统,在对网络数据实体关系予以识别时,应当依据识别器完成抽取任务;第四,知识融合子系统,在网络安全领域中存在的风险较为多样,除了病毒漏洞外还会包含各种虚假数据,此时可以经过对数据的整理融合,对漏洞等恶性侵害网络安全的数据进行标记,而且还可以在子系统中建立漏洞库、病毒库,从实体、关系、属性上做好融合处理;第五,知识验证子系统,于知识图谱技术实现中,应将网络数据分为可验证与不可验证数据,而后对后者实施人工验证,保证网络数据足够安全;第六,存储检索联合处理子系统,对于网络数据可以根据实际操作要求,对其展开深层次处理,借此在子系统成功研发后体现出系统功能价值。
(3)系统测试
在知识图谱系统研发成功后,需进入系统测试阶段,一要验证功能完善性;二要分析系统可操作性,而后才能保证网络安全在知识图谱技术辅助下得到全面保障。在系统应用中,可从查询功能上展开全方位测试,结合相关实验数据,可了解到,按照上述系统架构研发而成的系统,在其实际运行阶段,对系统漏洞进行查询,随着查询次数的增加,整体消耗时间有所缩短,而按照攻击行为进行查询,二层查询花费的时间要多于一层花费时间,其攻击行为流程如(图1)所示。由此证实,所研发的网络安全知识图谱查询功能,对于网络安全知识能够达到漏洞查询、系统检测效果。相关人员在网络平台上辨别网络数据安全性,应依托知识图谱技术进行研究,以此消除恶意行为数据。
图1 攻击行为流程图
4 结论
在构建网络安全知识图谱过程中,要想充分体现出知识图谱在互联网领域的保障作用,应当从知识图谱建模、优化方案内容、构建方法创新、系统研发等方面着手,便于在知识图谱技术的辅助下,对现有网络安全系统起到补充作用,维护互联网安全的同时,也能有效阻断新型网络病毒的传播,为我国互联网安全工作的开展给予保障。