APP下载

图书馆信息系统网络安全研究

2025-01-21赵一洁王媛媛孟优优

中国新技术新产品 2025年1期
关键词:数据加密网络安全

摘 要:在大数据及云计算技术、物联网技术快速发展的背景下,图书馆局域网内书籍、文献资料、文档文案等信息逐渐增多,网络安全态势感知、安全预警与防护成为多方关注的重要问题。为解决网络攻击、网络用户访问导致的图书馆信息系统安全问题,引入Hadoop分布式软件架构、MapReduce编程模型、HDFS(Hadoop Distributed File System)分布式文件系统、Hive数据仓库、MySQL数据库等组件,建构面向图书馆网络日志监测、告警分析的安全管理系统,收集局域网间数据传输通信的用户访问、网络威胁攻击等安全日志,使用K-means数据簇聚类算法展开数据挖掘分析,作为网络安全预测与评估的依据,提出ABE(Attribute Based Encryption)算法进行图书馆通信数据的加解密操作,从而最大程度地保障图书馆系统传输层、应用层的网络数据访问及传输安全性。

关键词:图书馆信息系统;网络安全;数据加密

中图分类号:G 25 " " 文献标志码:A

在“互联网+”产业转型的环境下,各地区图书馆纷纷依托大数据及云计算平台、物联网技术建构数字图书馆信息系统,然而大量外部用户访问图书馆平台、检索馆藏数据资源将带来严重的网络安全与管理问题。面临网络用户非法访问、木马或病毒入侵攻击等安全威胁,基于MapReduce并行部署方案采集入侵的网络日志数据信息,使用K-Means聚类算法挖掘分析监测的用户访问、入侵攻击信息,根据不同的网络入侵攻击威胁等级,使用网络节点通信的ABE算法、DEA算法、RSA算法进行图书馆书籍数据加密传输,提升网络用户访问及攻击的数据安全防护效果。

1 图书馆网络安全监测与管理系统建构的主要技术

当前,图书馆局域网络的非法访问、入侵攻击等安全威胁包括探测攻击(Probe)、远程权限获取攻击(Remote to Local,R2L)、远程用户攻击(Remote to User,R2U)、用户提权(User to Root,U2R)攻击、拒绝服务(Denial of Service,DoS)攻击,面对不同网络攻击类型的日志数据感知与分析,通常涉及以下4个方面的技术[1]。

1.1 Hadoop分布式集群架构技术

Hadoop分布式软件架构为服务应用程序开发、文件存储的结构,主要由MapReduce编程计算模型、HDFS分布式文件系统、Mahout数据挖掘库、Hive数据仓库、Pig数据流处理、Flume日志收集工具等组件构成,不同模块分别负责数据预处理、并行数据计算、传输数据提取、分布式数据存储的业务功能实现,具体框架结构如图1所示[2]。

1.2 MapReduce并行计算技术

MapReduce编程模型是面向大规模数据集处理的并行计算技术,通常将Map任务、Reduce任务处理组件组合为MapReduce应用程序,负责完成图书馆访问或入侵数据的筛选、合并操作。其中,Map任务执行阶段主要面向网络节点的访问数据,将输入数据集拆分为多个切片片段,例如将0、1、2、3、4等数据片段分配至Map任务节点,各任务在特定的块存储服务器中运行后,处理得到(K0,V0)、(K1,V1)、(K2,V2)、(K3,V3)、(K4,V4)的中间键/值对。然后,在Reduce任务阶段将中间键/值对集合重新排序,生成新的二元组数据集(K',V'),使用reduce自定义函数运行数据处理指令对相同的数据文件名/文件内容进行合并,生成输出键/值对(K*,V*)结果。

1.3 HDFS分布式存储技术

HDFS分布式文件系统是面向海量网络数据、大文件数据集的存储方式,其采用ScaleOut横向扩展架构,定义最小存储单元为Block,最大存储文件为TB~PB级别,通常该组件被分散部署于云服务器中,将网络数据处理、存储任务分配至多个网络节点。当外部Client客户端向HDFS文件系统发送数据读写请求后,由分布式文件系统的NameNode节点监测数据文件名、数据块号是否存在,如果存在,那么基于数据块分配策略读写数据文件,由DataNode节点调用、检索后台服务器的数据文件,否则返回I/O流异常信息;在数据读写的所有访问请求完成后,利用NameNode节点将编号数据块存放至文件查询队列,并将请求数据返回至Client客户端。

1.4 网络安全日志挖掘技术

基于Flume日志采集工具、Hive数据仓库、Zookeeper分布式协作服务等组件,收集各网络节点的Apache访问日志、NCSA扩展日志等安全日志文件,根据自定义日志文件格式记录安全事件的源IP、目的IP、攻击描述信息、安全响应信息等[3]。例如以Apache访问日志为例,192.168.1.20--[21/Apr/2020:14:27:49+0800] “GET /1/index.php / HTTP/1.1” 404 490 “http ://www.gxlib.org.cn(广西壮族自治区图书馆)”(Mozilla/5.0;Windows NT 5.1;Maxthon),该安全日志中分别记录着网络访问IP、访问时间、Client客户请求、通信协议、返回验证码、访问网址、传输字节数等数据信息。一旦发生网络入侵或攻击的安全故障,Flume采集器便会将收集的日志数据传输到Hive数据仓库,Hive提取重要的日志数据字节,将结构化数据文件映射为数据库表,再利用K-Means聚类算法对安全日志进行关联聚类分析。

2 图书馆信息系统网络安全监测与管理方案

2.1 网络安全监测与管理的服务组成架构

面向图书馆信息系统的网络安全监测服务架构通常涵盖软硬件支撑层、数据采集层、挖掘分析层、存储服务层等层级,具体组成架构如图2所示。在Hadoop集群架构、HDFS分布式文件系统、Hbase数据库、TCP/IP通信协议、网络主机、Web应用服务器、Tomcat服务器等软硬件支持下,收集有关网络用户访问、入侵攻击的安全日志数据、使用MapReduce分布式数据计算、K-Means关联聚类算法对日志数据进行挖掘分析,将日志数据块、日志数据集文件队列、副本日志等信息存储至后台服务器[4]。

由图2可知,图书馆网站访问、数据信息请求的网络安全管理是先由Flume采集器通过级联方式,采集TCP/IP网络通信协议传输的安全日志数据,获取与网络用户访问、入侵攻击威胁相关的结构化/非结构化安全数据,以及与网络主机、后台服务器等硬件相关的漏洞数据;再以NameNode主节点、NameNode从节点、Source节点、Channel节点为基本单元,利用MapReduce并行计算模型、K-Means聚类算法对各网络节点的入侵攻击行为进行识别分析,提取多层级网络入侵源日志的安全态势指标,发现网络安全风险与威胁问题;将日志数据块、日志数据集文件队列、副本日志等安全信息缓存至HDFS分布式文件系统,存储至Tomcat后台服务器,以便于网络搜索引擎的安全日志查询、调用及挖掘分析操作。

2.2 基于K-Means聚类算法的网络安全指标提取

针对多种网络用户访问、入侵攻击的安全日志数据,利用K-Means聚类算法设定K个初始聚类中心,对不同网络安全数据集进行分组聚类分析。假设某一网络用户访问或攻击的数据集合为X=(x1,x2,…,xn)T,按照数据簇聚类的就近划分原则,将数据项划分至最近类簇,利用欧几里得度量公式计算k—项集簇内数据点到聚类中心点的距离,如公式(1)所示[5]。

(1)

如果某一网络用户访问、入侵攻击数据簇的聚类中心点为,那么基于x'i=xi+vi、v'i=vi+c1·rand(kibest-xi)+c2·rand(Gibest-vi)的数据粒子群位置优化公式,将同一类型的不同数据集聚类展开粒子适应度计算,得到网络入侵数据粒子与聚类中心间的距离,记录数据粒子的最大适应度值(wi为第i个簇的适应度值;m为wi数据加权平均值;kibest为初始聚类中心;Gibest为粒子群最优位置;c1、c2为学习因子;xi'为更新后的数据粒子位置;vi为t时刻数据粒子xi的速度;vi'为更新速度)。根据每次迭代后的最大适应度值重新选择k个聚类的中心位置,对网络访问数据样本、聚类中心间的距离进行多次迭代,利用极大似然估计法(Maximum likelihood estimation)计算数据簇点到K个中心点的误差平方和,如公式(2)所示。

(2)

输入包括多个样本点的网络入侵攻击数据集,结合K-Means聚类算法的SSE函数计算数据点的和方差,得到Snort、Ossec等类别的入侵攻击安全日志,安全日志为ASCII(American Standard Code for Information Interchange)、Tcpdump二进制字符的数据格式,记录日志类别、通信协议类型、源/目的IP地址、攻击编号、端口号、告警日期/时间、日志优先级等信息,安全管理人员可提取和记录外部用户访问、网络入侵攻击事件的日志信息,将数据文件压缩存储至Tomcat后台服务器。

3 基于数据加密的图书馆信息系统网络安全防护研究

ABE属性基的对称加密算法可被用于外部用户网络访问的安全控制,通过建构由上至下的树形网络结构对各网络节点间的用户访问、数据传输与分发进行加密。假设网络访问用户的请求数据集合为{P1,P2,...,Pn},且A为该数据集合的非空子集,那么用B∈Aamp;BC、C∈A表示树形访问结构的父子关系[6]。由图书馆后台管理人员设置网络用户访问私钥SK、属性集合的控制权限,将后台存储数据属性设为G、多阶属性循环群设为GT、数据属性生成元设为g,就可用G×G→GT表示数据属性集的双线性映射。

由K个授权中心机构设置数据属性私钥集合{tk1,tk2,...,tkn},生成属性公钥{gk1,gk2,...,gkn},而后将传输或分发数据m、数据属性集合A{G1,G2,...,Gn}发送至多个授权中心。根据属性门限阈值q0=yk得到授权中心的访问控制节点集合的求导y'、用户私钥DA=gq0-y';随后基于访问用户私钥DA、数据属性公钥{Tk1,Tk2,...,Tkn}={gk1,gk2,...,gkn}加密后输出密文EA={m(gk1,gk2,...,gki),i∈Ak}。当网络节点访问的数据解密时,由k个属性授权中心选择满足att(y)∈Ak的d属性,使用拉格朗日插值公式计算得到属性循环群yku=e(g,g)q0s,并由访问用户联合授权机构密钥解密得到原始的数据明文m。

如果网络节点y为网络通信根节点,其子节点个数为n、节点域值为ky,那么就可以定义网络节点访问或通信的属性门限域值为0lt;kylt;numy,只要用户访问的节点满足属性特征ky,就可以通过Tomcat服务器授权中心的访问控制验证。将树形访问结构的根节点记为parent(y)、子节点记为att(y),子节点的属性特征门限阈值为ty∈(0,numy],当1﹤ty﹤numy时,表明树形访问结构的子节点对应多个属性,当ty=numy时,表示子节点只对应一个数据属性,但授权中心对用户私钥访问可能完全受信,也可能一定程度上受信,“4/7”表示7个子树的数据属性需要满足任意4个才可允许访问,“2/2”表示子树的数据属性需要全部满足才可访问。

4 仿真试验结果论证

4.1 试验参数设置

选用NSL-KDD入侵检测数据集作为试验数据,其中整个试验数据包括15个数据集、1265个数据样本,基于MATLAB R2022a仿真试验软件对使用“K-Means聚类算法+ABE属性基加密”的网络安全管理模式进行数据粒子群迭代。根据以上数据粒子群位置优化公式将第i个簇的自适应度值wi设定为[0.5,1.0],变化率代数为10~20,将传统Web网关防火墙的信息安全防护模式作为比对,“K-Means+ABE属性基加密”的算法聚类分析测试运行50~100次,直到被测数据集簇的自适应度值wi无明显变化时停止,具体得到的仿真试验结果,见表1。

4.2 试验结果论证分析

利用欧几里得度量公式、数据粒子群位置优化公式对被测数据粒子进行多维位置测量后得出,当wimin=0.39、wimax=0.85时,“K-Means+ABE属性基加密”算法的性能最优。测试图书馆局域网内使用“K-Means+ABE属性基加密”算法、“Web网关防火墙+对称加密”算法的安全数据日志挖掘情况,得到网络安全数据的位置匹配方差、收敛概率、簇的自适应度值结果。

由表1可知,与传统“Web网关防火墙+对称加密”的网络安全管理算法相比,基于“K-Means+ABE属性基加密”算法的网络安全日志挖掘、加密控制的性能均更好,簇的自适应度值也更合理,收敛概率为1,表明算法不存在局部迭代的过早收敛问题,因此“K-Means+ABE属性基加密”算法可被应用于图书馆局域网的网络信息安全管理,且入侵识别与安全管理的效果更好。

5 结语

大数据及云计算、“互联网+”环境下图书馆网络数据传输与分发容易受到不明用户访问、网络入侵攻击等因素的影响,且网络访问或攻击造成的安全事件呈现出高发态势。因此,从图书馆信息系统的网络安全防护角度出发,基于Hadoop分布式软件架构、Hadoop关联组件等技术,建设面向图书馆网络安全日志监测与分析的管理系统,利用K-means聚类算法加强网络入侵数据挖掘与管理,使用ABE算法完成图书馆传输数据的加解密,可最大程度地保障数字图书馆网络安全监测与防护的安全性和有效性。

参考文献

[1]杨静,赵俊杰.国外科学数据管理情况研究[J].全球科技经济瞭望,2019(1):26-31.

[2]张冉.个人信息保护之目的限制原则的适用与反思[J].网络空间安全,2023(2):22-27.

[3]周纲,孙宇.开创性的下一代图书馆服务平台解决方案——FOLIO[J].中国图书馆学报,2020(1):34-36.

[4]梁爱梅.基于等级保护的公共图书馆网络安全实施建议[J].网络安全技术与应用,2020(3):109-110.

[5]王洪磊,孙静.探讨云平台背景下的网络安全等级保护测评策略[J].网络安全技术与应用,2021(9):89-90.

[6]陈天文,高洪臻.公共图书馆网络安全等级保护工作要求及具体措施[J].河南图书馆学刊,2021(5):9-11.

猜你喜欢

数据加密网络安全
网络安全知多少?
网络安全
网络安全人才培养应“实战化”
上网时如何注意网络安全?
大数据时代个人隐私的保护
AES和RSA混合加密技术在网络数据传输中的应用
云数据存储安全关键技术研究
一种基于虚拟专用网及数据加密技术的企业财务会计记录直报系统的实现方案
数据加密技术在电力系统自动化信息安全中的研究与应用
计算机网络的安全与防范