基于高校私有云盘系统的设计及关键技术研究与实现
2023-12-02李焕婷马勇朱琳
李焕婷 马勇 朱琳
摘 要:为了解决高校内部零散知识收集问题,提供工作成果共享平台,打通工作横向交流通道,实现工作成果的沉淀、共享、协作,结合高校私有云计算背景,运用云存储技术构建一个轻量化的B/S架构私有云盘系统,提供存储、安全、共享、权限管理、协同办公的统一化学校数据管理中心。其中针对数据安全、流程审批、数据加密、高稳定性等关键技术进行研究,从而实现增强数据的安全性与应用的便利度和系统的管控能力,提高数据的分发效率。
关键词:私有云盘;高可用;安全加密;数据共享
Design,Key Technology Research and Implementation of
Private Cloud Disk System Based on Universities ?
Li Huant ing1 Ma Yong2 Zhu Lin2
(1.Office of Academic Affairs;
2.Network Information Center,Baotou Medical College,Baotou,Inner Mongolia 014040)
Abstract:In order to solve the collection problem of scattered knowledge in colleges and universities,a platform for sharing work achievements is provided,a horizontal communication channel is opened up,and the precipitation,sharing and collaboration of work achievements are realized.Combined with the background of private cloud computing in colleges and universities,a lightweight B/S architecture private cloud disk system is constructed by using cloud storage technology to provide a unified school data management center with storage,security,sharing,permission management and collaborative office.Among them,key technologies such as data security,process approval,data encryption and high stability are studied,so as to enhance data security,application convenience and system management and control ability,and improve data distribution efficiency.
Key words:private cloud disk;high availability;security encryption;data?sharing
近年来,高校存储的非结构化数据量愈发庞大,数据的格式与种类也越来越复杂,这些不同类型的办公学习文档大都还存储在传统的存储载体上。由于这类存储系统在底层技术方面缺乏对数据的安全保障,无法实时保护个人电脑终端的本地数据,如若遇到故障,很难保护个人数据的安全。同时目前文件管理权限管控不够细致,对所有人都可预览,同时下载的权限拆分的不夠细,容易造成文件的遗失。在文件传输上无法满足加密协议的传输方式,并且目前的传统存储系统缺少有效的数据备份与高可用能力,一旦服务器出现故障将影响整套系统的使用甚至造成数据丢失,对于高校来说是一个非常大的安全隐患,也是每一位信息化工作者都值得关注的问题。再有如果这些共享存储服务器一旦用户量大了很难保证稳定,若出现容量瓶颈,其扩容的难度与成本都是信息化难题。由此应运而生的高校私有云盘系统为高校在教学办公时的文件资料共享提供了一个高效、便捷、安全的解决途径,促进了高校生态的良性发展。
1 系统总体架构设计
云盘分为存储系统和系统服务两大部分,对外提供简单易用的接口,最终用户可以使用Web、windows、mac、iOS、Android客户端来使用服务。存储系统提供了高可用性以及安全的数据存储体系结构。系统服务为客户端提供元数据服务、传输服务、权限管理服务、预览的服务。[1]基于上述系统的体系架构优势,云盘逻辑上文件个数和容量不存在上限,可以无限扩展,云盘的总体架构如图1所示。
1.1 系统逻辑架构设计
数据层设计:块数据管理:云盘在数据层采用分布式存储集群,统一管理所有存储落盘的块数据,并且同时横向铺设多个块数据管理模块,用于支持数据层高可用架构。
云盘在数据层设置数据库集群,保证数据库一主两从架构,并通过多个数据访问服务模块,连接底层分布式存储集群。同时,数据库集群和数据访问服务都具备弹性扩展特性。
业务层设计:权限管理:云盘系统内建立了完善的权限体系,共包含11种原子权限,管理员可将11种原子权限自由排列组合授予用户。并且自系统中支持上下级团队、上下级路径权限的继承以及反权限的授予。这整套权限体系得益于系统中权限管理模块对权限控制和联通。病毒查杀:云盘在系统内接入杀毒模块,并辅以强大的病毒库,用于对每一个输入系统的文件进行审查,防止病毒文件在云端的扩散。认证对接:适应于客户的需求,云盘通过业务层的认证对接模块实现与AD/LDAP等域控做标准用户组织信息的导入和同步,也支持与统一认证平台、OA或门户等系统的SSO接入集成。
訪问层设计:负载均衡:云盘在访问层部署HA负载均衡模块,并通过keepalived监控,在访问层实现资源的负载均衡和分发,应用访问请求交由业务层对应模块处理,数据请求交由数据中心处理。接口服务:云盘在访问层开设完整的API接口,可支持通过接口覆盖创建用户、上传、下载、新建、删除等完整业务中的各功能场景的实现。
1.2 权限控制设计
云盘采用基于角色的访问控制(Role-Based Access Control)权限模型。该模型支持三个著名的安全原则:最小权限原则,责任分离原则和数据抽象原则。[2]
(1)最小权限原则之所以被RBAC所支持,是因为RBAC可以将其角色配置成其完成任务所需要的最小的权限集。
(2)责任分离原则可以通过调用相互独立互斥的角色来共同完成敏感的任务而体现,比如要求一个计帐员和财务管理员共参与同一过账。
(3)数据抽象可以通过权限的抽象来体现,如财务操作用借款、存款等抽象,而不用操作系统提供的典型的读、写、执行权限。
RBAC的关注点在于Role和User,Permission的关系。称为User assignment(UA)和Permission assignment(PA).关系的左右两边都是Many-to-Many关系。就是user可以有多个role,role可以包括多个user。
为了兼顾RBAC权限模型的严谨性和用户进行权限控制的易用性,云盘抽取了RBAC的关键概念结合用户的典型场景构成了独具特色的权限控制体系。
1.3 系统安全策略设计
分层的逻辑架构,每层具有相对独立的安全控制体系,可将安全风险控制在本层内:接入层通过https协议和用户密码身份验证保证接入安全;业务层通过容器隔离、会话隔离、进程隔离保证多租户间数据安全;数据层连接需要额外的基于用户名密码验证,且账户体系独立于业务系统,保证数据访问安全;元数据、实际数据块分离的数据架构,单独获取元数据或数据块都无法读取完整数据,且系统支持数据RC4加密,没有密码即使还原完整数据也无法解密。文件数据按照4M分块,每块冗余多份,保存在不同的数据中心,保证数据不会丢失。元数据高可用冗余,且每天定时备份,保证元数据完整性。业务上支持高强度用户密码策略,管理员可强制用户使用高安全密码,避免弱密码风险。[3]
2 关键技术
2.1 扫描技术
全面超越主动防御及初级云安全等传统方法,采用本地正常文件白名单快速匹配技术,配合强大的某可信云端体系,率先实现了安全性、检出率与速度的完美结合。云查杀主要技术特点:
高效处理:提高用户对木马和病毒的防范能力。理想状态下,一个盗号木马从攻击某台电脑,到整个“云安全”(CloudSecurity)网络对其拥有免疫、查杀能力,仅需几秒的时间。
急速响应:对大量病毒样本进行动态分类与共性特征分析;每天处理收到的5-10万个新木马病毒样本;能够实现网民中毒、访问挂马网页,都能在第一时间做出反应。
2.2 海量已知病毒识别技术
凭借在互联网安全上多年的积累,拥有了近百亿的样本库和主防日志,同时还拥有与各类恶意行为相关的漏洞、网址、域名等信息,某数据流检测系统基于上述海量知识库,实现了对大量的、已知的恶意程序的过滤。系统级别检测引擎引入了解包技术、溢出检测技术、基于PE结构IAT的检测算法。采用虚拟机技术进行脱壳解决加壳变换问题,同时采用更深的基于特定算法的匹配规则,比如:PE结构相关的特征IAT、节名等方法用更少的特征检测更多的已知病毒,同时具有对简单免杀操作如修改部分程序的几个字节或PE入口点等方法具有很好的未知查杀能力。[4]
2.3 家族自动聚类技术
根据已有样本提取动态、静态信息包括文件格式、字符串信息、壳、编译器、版本、API等构建每个样本的向量,聚类包括采用两两比较向量相似的层次聚类以及快速聚类LSH算法。可以对一些已知家族的变种进行分类,对未知样本进行新的聚类。K中心点方法聚类后,产生的中心点可以作为分类的快速比较的节点,如果新进的样本与已有的任何中心点相似度超过一定的阈值,则判断为已有的家族。LSH算法则是可以加速比较的过程。如图2所示。
3 系统功能实现
3.1 校园高可用架构部署
应用层高可用:在校园企业云盘结构中,应用模块承载着提供线上应用服务(例如文件下载、预览、检索等)的任务,因此我们为了保证用户线上功能使用不中断,在多台机器中对应各功能模块部署了多个应用服务,并且多个应用服务之间是多主的关系,通过HA Proxy负载均衡。也就是说,任意一个应用服务在系统中都不存在单点,即使有一个服务模块出现故障,也不影响线上服务的正常提供。
数据库高可用部署:在校园企业云盘系统结构中,数据库使用MySQL数据库,在数据库高可用方面,我们考察了市面上各种MySQL高可用方案,并结合校园企业云盘的系统特点,选取了基于MySQL Galera Cluster开源方案为基础,开发实现为校园专属的多主数据库集群架构。实现真正的多主服务模式,即多个服务能同时被读写,不像Fabric Cluster那样某些服务只能作备份用同步复制,不存在Slave lag。无延迟复制,不会产生类似“一主一从”或“双主”方案中可能导致的数据丢失。自动扩展节点,同时具有读和写的扩展能力,不需手工复制数据库到新的节点。对应用程序透明,应用程序不需作修改。更小的客户端延迟。校园数据库多主方案的逻辑架构如下图3所示。
应用服务经过负载均衡向数据库服务群组发起读取或写入请求,提交的每个事务都会通过wsrep API在Galera Replication中向所有服务器执行,同时监控管理模块保证所有服务器都执行成功,要不就所有都回滚,保证所有服务的数据一致性,而且所有服务器同步实时更新。[5]
3.2 数据流向实现
用户对云盘系统进行业务访问及数据交互请求,数据流程及模块间协作关系如下:首先由HA模块进行资源的负载均衡及分发;应用访问请求交至Application模块处理,Application将操作信息读/写至DB数据库;数据交互请求交至Datacenter模块处理,Datacenter将文件切片,按定义好的存储方式将数据块推送至cellagent模块进行数据存储处理,并将数据索引存入DB数据库中。如图4所示。[6]
3.3 私有云盘客户端实现
校园企业云盘,使用简单、直观的方式管理不同部门、不同区域、不同项目的数据。同时,可以对其指定不同的访问成员和权限。支持浏览器端多人实时协同编辑,支持常见office、wps文件同时写入编辑,即时看到其他编辑者的编辑内容更新;可以实现Web端本地编辑场景,用户可以在浏览器直接调用本地应用程序进行编辑文件,省去了先下载再将文件上传到云盘的过程。提供敏感信息識别模块,包括正则表达式、文件指纹、文档自学习、敏感信息定义及敏感信息规则等功能。实现基于文档生成规则、文档样本的内容识别,基于关键字、MD5及文件指纹等的敏感信息定义,以及自定义的敏感信息规则,自动匹配安全管控策略。开启杀毒功能,用户上传的文件如果带有病毒时,会自动向云盘管理员发送通知邮件。
4 结束语
目前,私有网盘系统已经成为日益成熟的一种服务模式,可以为师生分配一定的存储空间,无论何时何地,都可以实现数据的存储和读取,并且可以通过底层架构和上层应用来共同控制数据的读取,满足师生对数据安全的需求,提高了安全性,为全校师生生活学习提供便捷服务。
参考文献:
[1]邓劲生,韩丹,胡慧俐.虚拟桌面环境双向认证网盘设计与实现[J].华中科技大学学报(自然科学版),2016,44(11):92-96.
[2]胡昌平,查梦娟.基科研人员学术信息资源云存储服务应用安全障碍分析与对策[J].情报理论与实践,2020,1(43):20-22、26.
[3]张惠彬,刘诗蕾.失范与重构:网络云盘的版权乱象与治理方案[J].电视研究,2018,6(343):40-42.
[4]胡渝苹.文件秒传系统在云存储环境下的设计与实现[J].计算机应用与软件,2016,4(33):329-333.
[5]李军,劳凤丹,邹仁明.校园网云盘系统构建研究[J].通信学报,2013,9(34):133-137.
[6]刘璐,张灿,张全新,李元章,谭毓安.一种网盘认证协议的分析与验证[J].计算机应用,2017,37(S1):317-320、330.
(责任编辑 郭晓勇)