APP下载

基于元数据仓储的知识服务平台设计与实现

2019-01-13赵凡赵昕晖

中国建材科技 2019年4期
关键词:词条威胁系数

赵凡 赵昕晖

(甘肃省科学技术情报研究所,甘肃 兰州 730000)

0 引言

知识服务[1]是指从各种显性和隐性知识资源中按照人们的需要有针对性地提炼知识,并用来解决用户问题的高级阶段的信息服务过程。

本文主要提出了通过在网页发布中的内容抽取隐含的知识元,建立元数据仓储[2],利用知识元链接进行更深入解释和导航,通过关键词监测对各类科技活动进行量化评估,服务于科技决策、科技政务、科研发展及科学社会化普及。

1 平台设计

1.1 平台体系结构

系统采用三层体系结构,由客户层、服务层和数据层组成。客户层主要是用户访问的WEB页面。服务层主要由知识平台、知识库应用和词条发布三大服务器组成。数据层主要是存放相关数据。三层之间主要利用SOAP和ODBC协议连通。其中,SOAP协议是客户层与服务层的链接,ODBC协议主要以SQL SERVER数据库中存放的数据与服务层中的三个服务器相关数据调用和整理。该平台的体系具有一定的安全性、可连通性、可扩展性[3]。

1.1.1 知识元发布系统

知识元发布系统主要由网站内容加工、元数据仓储库加工、词条快速加工和重建词条索引四个模块组成。网站内容加工主要是对网站信息进行词条加工,可以新建、删除、修改词条。元数据仓储库加工主要通过词条类别建立不同的元数据数据库,并对现有的元数据仓储库进行删除、修改操作。词条快速加工主要是修改、删除已有的词条并对词条进行分类操作,另外可以批量导入已经编辑好的词条。重建词条索引主要对词条索引进行重建。最后实现词条在网站中的正文显示。

1.1.2 知识服务信息平台

知识服务的信息平台在设计上主要分为数据层、应用层和表示层。在数据层主要包括了信息和知识元数据仓储库等,利用关系不同的数据库实现查询和存储;在应用层主要包括内容信息发布、知识库发布和统一搜索等系统来实现信息和知识元的发布及相关文献的匹配。知识元发布系统提供知识元链接的接口(Web Service接口)。在表示层主要为用户提供信息门户页面的浏览服务,采用知识元链接至知识服务系统,为用户服务。其中主要包括新建/编辑词条、词条监测、主题频次监控和科技问答等功能。

用到的主要技术主要有:知识元抽取:从已有网页正文部分提取出知识元。基本步骤为先清理文字中的符号,形成无格式、无符号的中文字符集,再通过中文分词软件,将内容分词为词条列表,通过TF-IDF算法提取知识元,并在知识元数据库中进行索引。知识元加工:由于知识元仓储的建设是一个庞大的系统工程,本文主要立足于科技政务网站集群所产生的知识元仓储,以满足科技政务和信息服务需要为准。知识元耦合:

利用一种动态优化链接,系统采用异步调用技术(AJAX)附件知识元链接的办法。知识元监测:通过对平台门户网页内容中知识元的提取和访问,可统计、分析科技和科研活动的重点工作领域,提供重要的数量评价指数。

2 平台安全

本系统的安全要通过基于snorby技术的网络监测平台和WAF模块,实现对知识服务平台的安全防范。

2.1 基于snorby技术的网络监测平台

该平台主要利用snorby技术实现网络监测平台的部署,通过分析海量的网关数据,利用高危、中危和低危来提示网络的安全性,该系统可监测到攻击源地址和被攻击地址以及攻击频次,通过对攻击源地址进行编译,可查看该地址的地域以及被攻击地址和URL,分析相关数据,最终判断为该攻击为那种类型的攻击,从而对知识服务系统进行网络监测。其中,包含Payload模块、Dashboard模块、可视化度量模块组成。

2.2 WAF模块

通过基于snorby技术的网络监测平台监测结果,利用WAF模块对攻击源地址进行结果分析,利用威胁系数算法实现动态IP黑名单库的建立,进而对恶意攻击地址的拦截。其中,算法主要通过时间、地域、频次、规则等进行加权求和,达到峰值将进行拦截。另外,建立免安全检查模块、IP白名单模块实现对有些IP访问频次高的安全合法性验证。

2.2.1 结果分析模块

结果分析是对自动装载的日志也可对不同周期的日志进行分析,提出相关威胁因子对易受侵文件、入侵地址、受侵WEB、攻击边界进行威胁评估并通过相关防护措施及时进行威胁处理,加强WEB的入侵防护能力。结果分析主要实现对攻击边界分析、威胁系数计算分析、IP阻断分析的分析。

2.2.2 攻击边界分析

攻击边界分析主要实现IP与WEB间相互访问的统计分析。首先通过算法进行数据统计。然后,利用不同的颜色作为IP与WEB相互访问方向表达形式。最后,通过对比IP与WEB相互访问视线数及密度,确定IP为攻击方还是WEB为攻击方,得出结果,进行处理。

2.2.3 威胁系数计算分析

威胁系数计算分析利用威胁评估算法,通过对威胁系数的计算以及对相关参数的统计进行分析评估。分析参数由阻断IP地址、威胁系数数值、攻击次数、受侵主机数、触发规则数(规则预设)、区域威胁系数(1表示国外IP,0.5表示国内IP)组成。参数值越大说明阻断的IP威胁系数高。通过分析得出结果,进行处理。

2.2.4 IP阻断计算分析

IP阻断计算分析利用威胁评估算法,通过对威胁系数的计算以及对相关参数的统计进行分析评估。分析参数由阻断IP地址、威胁系数数值、阻断时间、WAF主机地址、所属城市、地理位置(利用经纬度数值表示,可查询IP地址的位置)组成。通过分析得出结果,进行处理。

猜你喜欢

词条威胁系数
人类的威胁
这些待定系数你能确定吗?
打雪仗
受到威胁的生命
过年啦
面对孩子的“威胁”,我们要会说“不”
2016年4月中国直销网络热门词条榜
2016年3月中国直销网络热门词条榜
两张图弄懂照明中的“系数”
2016年9月中国直销网络热门词条榜