基于云平台的商业数字资源脱敏访问系统的设计与实现*
2019-12-10许瀚之
摘 要 以南京森林警察学院图书馆商业数字资源访问系统为例,针对传统系统存在的不足,提出了若干脱敏模式的构建以及相应的改进策略,并通过分析云平台的特点,设计出基于云平台的脱敏访问系统,以期优化资源访问。
关键词 数字资源 脱敏 访问系统 VPN358
分类号 G250.72
DOI 10.16810/j.cnki.1672-514X.2019.10.011
The Design and Implementation of Desensitized Access System for Electronic Resources Based on Cloud Platform: Taking the Library of Nanjing Forestry Police College as an Example
Xu Hanzhi
Abstract This article takes the access system for electronic resources of Nanjing Forestry Police College Library for instance, proposes the construction of several desensitized model and relative improving strategies against flaws of traditional systems. By analyzing the characteristics of cloud platform, a desensitized access system based on cloud platform is designed to optimize resource access.
Keywords Electronic resources. Desensitization. Access system. VPN358.
0 引言
随着互联网+和5G时代的来临,数字资源正成为图书馆资源建设的重点内容之一。其中作为图书馆数字资源的主要来源的商业数据库,出于版权保护、商家自身利益的考虑,通常将合法访问者IP地址作为资源订购者的标识[1],合法用户一般通过访问系统使用已订购的商业数据库。但由于访问系统架设于校园网内,无法和校园网内敏感信息(例如涉及师生隐私信息的其他管理系统)相分离,受到校园内网访问规则的限制,使得商业资源库的可用性和共享性有所降低,导致校园网的管理维护成本增加。为了解决这一问题,本文以南京森林警察学院图书馆为例,基于“云平台的数字图书馆”项目主要原理,通过对校园网和本地硬件环境的校外数字资源访问系统的现状分析,立足云平台的优势,设计出基于云平台的商业数字资源脱敏访问系统,以期把校园内多个物理硬件计算设备整合、管理成一个计算功能强大的资源池,按需存放数字资源[2],以提高商业数字资源的共享度并增强服务的可靠性。
1 校园网内传统访问系统现存问题
基于URL重写[3]、代理服务器和VPN等技术[4]的访问系统被普遍使用于各大图书馆,合法用户可随时通过网页访问使用已购置的数字资源而不受地理位置、IP地址的限制。以南京森林警察学院图书馆为例,该系统自运行以来,虽然在数字资源的利用方面取得了一定的成效,但鉴于上述技术手段的局限性,还存在着以下几个方面的问题。
1.1 敏感信息易于泄露
校园网内的图书馆数字资源网络服务依赖于校园网本地的硬件、网络环境,难免与学校其他涉及个人隐私的敏感信息网络服务产生关联。服务器受攻击后可能影响到学校的其他网络服务或造成个人隐私、敏感信息的泄露。
1.2 网络服务安全防护能力偏弱
网络服务的安全防护能力与网络防火墙和自身操作系统有关,而目前校园网内的图书馆数字资源系统防攻击能力偏弱。一旦受到诸如漏洞攻击、密码破解、病毒攻击、DDos攻击等网络安全威胁时,就会面临服务或网络瘫痪[5]。
1.3 受软硬件、人员能力制约
访问系统由于受校园内网访问控制规则、网络节点拓扑、设备转发性能的限制,在网络发生变更时可能会停止服务,从而增加信息部门人员的维護负担,难以保证服务的持续性、稳定性和高可用性。随着师生对已购置数字资源的使用频率的提高,势必会造成传统访问系统的负载增大,需相应增加额外的软硬件资源。高校图书馆或因经费紧张和时间局限性等因素影响,会不时使软硬件生态环境存在着扩展性差、扩容周期长、花费高、流程复杂等问题,尤其对于维护人员的专业技能会提出更高要求。
1.4 因资源访问路径不一致导致服务受限
学校有多个网络出口,而每个网络出口固定公网IP地址段不同,有的出口因IP地址动态分配而不断变化。这种因负载均衡设备的流量策略以及校园公网IP地址的变更,使得资源访问路径出现不一致的问题,可能导致商业数字资源服务器无法根据IP地址准确识别合法机构用户。此外,校园网内用户绕过校外访问系统直接通过校园IP地址访问数字资源,可能导致基于用户的各项统计以及汇总数据的缺失,不利于管理员针对单个用户的行为进行管理和监控(例如切断非法访问、防止恶意下载),也不利于构建用户肖像,进行个性化服务推送等。
2 基于脱敏模式构建的改进策略
“脱敏”源于医学,计算机与信息技术领域通常指数据脱敏,即对某些敏感信息通过脱敏规则进行数据变形,实现敏感隐私数据的可靠保护。这样, 就可以在开发、 测试和其它非生产环境以及外包环境中安全地使用脱敏后的数据集[6]。针对传统访问系统存在的不足之处,拟从以下几个方面进行作脱敏处理。
2.1 账户脱敏
目前访问系统一般通过图书馆OPAC系统来读取用户信息,一定程度上存在着用户隐私泄露的风险,因此需要对用户信息作脱敏处理。笔者认为最佳脱敏方式拟采用微信ID绑定用户账号的方式,即“一次绑定,终身有效”,之后用户通过扫码即可登录系统。以用户微信ID作为有效的认证方式而非用户名和密码,可以避免敏感信息多次在互联网上传递的过程,从而实现用户信息的脱敏。
2.2 环境脱敏
随着国家网络信息安全管理制度的不断完善,作为高校,尤其是公安类院校,网络信息安全的管理更趋于严格,关停某些有安全漏洞的对外网络服务,会导致校园外的合法用户无法正常访问已购置的商业资源。为使合法用户正常访问,笔者认为在云平台使用虚拟化软件将硬件融合成若干虚拟服务器,提供统一、标准化的服务平台是进行脱敏的最佳方式,其提供的计算性能按需收费,用户无需因软硬件更新升级产生额外花费。相较于本地硬件、系统环境的搭建,云平台所提供的成熟、低价的“托管”服务方案,能有效降低运维成本和硬件开销。因此,将服务架设于和校园网络、物理硬件无关的云平台上,不仅使之脱离校园敏感环境,避免校园网访问控制、管理策略所带来的不利影响,还能提高系统的扩展性与可用性,减轻图书馆IT人员的负担。
2.3 访问路径脱敏
商业数字资源提供商通常根据访问用户的公网IP来识别已购置该资源的机构用户。若IP地址在允许的范围内,则提供免费下载服务。系统架设在公有云平台后,即可联系服务厂商授权云平台的IP成为唯一机构合法IP地址,同时关闭对学校IP的使用授权。这一做法将使合法用户在访问数字资源系统时只有通过使用云平台系统访问路径,杜绝非法用户绕过访问系统访问数字资源的行为。
2.4 日志数据脱敏
访问系统的日志功能记录了用户浏览、下载等行为。为了保护用户隐私,系统需根据不同管理员权限决定是否进行脱敏处理,并根据不同规则,决定日志内容关键字是否完全显示。
数据脱敏处理需遵循如下原则:(1)可用性原则:日志信息通过脱敏处理后,不影响大数据分析的结果,例如下载日志需完整记录用户账号、时间、文件名和资源域名,用于用户习惯分析。而用户姓名,部门等隐私数据需脱敏显示。(2)逻辑关联性完整性原则:保证日志信息记录ID、用户信息、资源信息关联性完整,不受脱敏处理的影响,用于统计分布特征、逻辑特征的分析。(3)脱敏后数据一致性原则:当配置的脱敏规则相同时,相同源数据脱敏后显示的结果相同。(4)可配置性原则:根据具体的用户隐私保护需求,根据管理员的不同权限配置不同的脱敏规则,实现不同级别的隐私保护。
通过上述策略的实施,一方面保证了访问系统可持续稳定地提供服务,使合法用户在校外可不受限制地访问已购置的商业数字资源,另一方面简化了维护难度,优化了系统的硬件环境并降低运维成本,使得管理员能有效地统计、监控、汇总商业数字资源的使用情况。某些高校通过租用阿里云平台取代原先校园内网的硬件平台,用于架设访问系统。
3 基于云平台的脱敏访问系统设计与实现
本文基于云平台的脱敏访问设想,将南京森林警察学院图书馆的VPN358系统架设于租用的知名企业云平台上,以实现上文提到的若干个脱敏模式的构建,保证服务的稳定性和高可用性,并减少了硬件等固定资产的支出。
VPN358远程访问系统使用反向代理和域名重写技术提供合法用户的校外数字资源访问服务,且系统使用不间断读取和回写技术并设立缓冲区提高用戶访问速率,增加最大并发连接数,优化请求响应处理流程。该系统支持IP地址或用户号密码登录,HTTPS流量,细粒度地授权不同用户访问不同对象,同时提供流量控制,多维度地统计分析访问和下载等功能,以便管理员直观地了解各数字资源使用情况,也可绑定一卡通、汇文、域账户、LDAP和Radius账户[7]。
3.1 云平台模型构建
该云平台整合了信息资源的内容与服务,用户通过网络访问云端即可获取资源和服务。云平台可以灵活地、快速地按需从资源共享池中获取所需的资源,并可动态地占用或释放资源空间,降低了管理和维护的工作量[8]。商业云平台提供的服务模式包括基础设施服务(IaaS)、平台服务(PaaS)、软件服务(SaaS),每个服务模式依次细化了前一个服务模式的具体内容[9]。IaaS模式提供计算、存储以及网络等基础硬件服务;PaaS模式将为服务程序开发者提供平台用以测试、编写、运行和调试应用程序;SaaS模式的作用是发布服务,以便用户随时随地使用云服务。
依据南京森林警察学院图书馆传统访问系统的各项硬件配置以及使用率,按需租用IaaS服务的各类硬件资源,即可搭建本校图书馆访问系统的服务发布中心。PaaS服务为访问系统开发者提供调试、发布服务的平台,包含数据交互、存储、身份验证等服务的相关软件。SaaS服务包含面向用户的具体应用服务,例如电子文献下载、数字资源配置、下载日志查看、用户管理等。根据安全性的不同要求,可选用私有云、公有云与混合云。由于本校是公安类院校,笔者从安全角度考虑采用公有云模式,以实现网络物理环境的隔离,保证与数字资源访问信息无关的其他数据的安全性。
3.2 登录流程脱敏实现
管理员可手工导入包含用户信息数据的Excel模板,或通过汇文OPAC网络接口同步变更后的用户数据,其字段包括学(工)号、口令、姓名、部门等。用户通过微信登录并扫描二维码,关注指定公众号,并进行微信ID和汇文账号的绑定。绑定成功后,用户只要通过扫描登录页面的二维码即可使用VPN358系统访问学校已购置的数字资源,其具体认证流程如图1所示。
通过关联用户微信ID和汇文账号,规定用户必须以微信ID作为登录凭据,避免汇文账号密码等敏感信息的互联网传递过程,实现了账户脱敏。系统不开放用户自主解除微信ID和学(工) 号关联功能,需通过管理员后台才能解除。此外,管理员亦可使用黑名单功能限制违规用户使用该系统访问数字资源。
3.3 商业资源配置
管理员首先将已购置的商业数字资源配置到访问系统中。用户在通过认证后,可浏览使用所有资源。通过设置资源的科目、文档类型、语言和所属组实现对资源的有效管理。管理员需根据数字资源的订购状态动态调整具体条目的设置参数,例如当数字资源采用HTTPS协议访问时需更新“端口号”和“协议类型”字段;数字资源访问的域名变更后需更新对应条目的“URL”字段;添加试用资源需设置试用结束日期。若配置无误,合法用户可使用该系统访问对应的数字资源。
3.4 统计与日志分析脱敏处理
系统记录用户的登录、浏览、下载、检索等行为,生成日志并从多个维度进行统计。详细的日志记录与强大的分析功能可更精确地分析用户的行为并提出针对性的建议[10]。登录日志记录了用户登录系统的时间、IP、浏览器、操作系统等信息;下载统计记录了用户有效下载数字资源文献的时间、文件名、资源域名等,通过饼状图、折线图等方式显示指定时间内数据库有效下载情况及下载统计数据和趋势;检索统计记录了用户的详细检索记录,包括检索词、时间、数字资源名称等;浏览日志记录了使用该系统访问数字资源的用户行为,包括时间、用户名、访问页面的标题等。管理员可根据搜索日志信息借助大数据结果推测出用户的专业、研究方向等,以便构建用户学术画像,并进行针对性地推送资源。
鉴于日志数据表格结构的多样性,针对不同日志功能模块显示的不同侧重点,本文对脱敏规则实施更细粒度的划分。在遵守前文提及的数据脱敏原则的前提下,根据日志模块业务实际情况,对用户学(工)号、专业(部门)和访问资源详情等不同类别数据,实施不同类别的脱敏处理。运用不同级别的脱敏规则后数据的处理结果如表1到表3所示。
采用上述脱敏机制,根据数据的侧重和业务的差别配置设定不同级别的脱敏规则。如使用下载日志分析各个商业数据库所占比重时,文献URL作为统计主要参考数据,需保留域名进行二级处理;用户姓名、学(工) 号采用一级脱敏,保护了用户隐私的同时又确保了源数据有据可查,统计分析的结果精确。
3.5 访问路径脱敏的实现
传统的数字资源校外访问系统架设于校园网内,而资源服务商将学校固定公网IP段作为合法访问的凭证。通常用户习惯于直接在浏览器的导航栏内输入网站的URL访问数字资源,导致HTTP请求不经过该系统直接发送到数字资源服务器,而经过访问系统的路径则是管理员预期用户访问数字资源的适宜方式。
将访问系统部署在互联网的云平台上,在确认供应商开通云平台公网IP作为合法访问凭据的授权后,关闭对校园公网的IP授权。如果用户绕过访问系统,数字资源服务器即可识别到用户IP非校园公网IP(非授权),如图2中路径2所示拒绝访问。反向代理技术使得数字资源服务器能识别到用户的IP是授权的云平台公网IP(已授权),如路径1所示,用户即可(只能)通过登录基于云平台的访问系统获取合法授权后下载数字资源。
基于云平台的访问系统强制规定校园网内所有用户通过系统本身的逆向代理技术访问数字资源,从而统一访问路径,确保需进行脱敏处理的信息经过访问系统时不易被识别,脱离不受监控和管理的敏感路径。
4 存在的问题与反思
将访问系统部署在云平台上的优势明显,但也要正视如下问题:(1)系统负载随着用户访问下载数字资源量的递增而升高,可能导致用户端的访问下载速率变慢。为此需要根据实际并发数,适当增加租用云平台的带宽、计算资源以解决高负载问题;(2)作为图书馆和用户之间的桥梁[11],校外访问系统可在后续版本中,對各类日志进行大数据分析,根据结果提供定制化服务,定期推送可能感兴趣的新增数字资源到用户邮箱,使数字资源被更有效地使用[12];(3)系统在主页面上设置公告栏准确而实时地发布数字资源的动态,包括新增、停用、升级和开通试用等,同时显示管理员的联系方式,以便对用户进行指导、答疑。总之,需要通过收集用户的反馈,获得较全面的参考信息,以便更好地实现后续数字资源选购和系统优化升级。
参考文献:
[ 1 ]吕文娟.医学院校图书馆校外远程访问系统应用实践[J].医学信息学杂志,2018,39(8):73-76,88.
[ 2 ]张海玉.云平台下数字图书馆的安全策略研究[J].图书馆学研究,2013(3):42-46.
[ 3 ]刘慧,陆康.基于OLAP的域外访问数字资源管理研究[J].图书馆学研究,2017(19):35-41.
[ 4 ]雷泽勇.用户合法访问图书馆数字资源的方式研究[J].兰台世界,2014(2):101-102.
[ 5 ]鲍建军.高校计算机网络安全探讨[J].科学技术创新,2018(27):87-88.
[ 6 ]张嘉迅,张传国.网络借贷中个人信息安全保护的数据脱敏技术综述[J].网络安全技术与应用,2018(9):73-74.
[ 7 ]焦阳,刘泉凤.图书馆数字资源远程访问系统比较研究[J].情报探索,2017(8):75-82.
[ 8 ]王世慧,杜伟.云计算环境下图书馆IT服务向IaaS迁移探析[J],图书馆理论与实践,2012,8 (1):71-73.
[ 9 ]江伟玉,刘丽敏,查达仁.面向云存储的访问控制服务研究:第28次全国计算机安全学术交流会论文集[C].贵阳,2013.
[10]邹荣,张成昱.数字资源校外访问控制系统的实现和应用[J].情报理论与实践,2009,32(10):119-121.
[12]柳丽花,叶新明.我国高校图书馆数字资源校外访问现状调查及与美国高校图书馆的比较分析[J].图书情报工作,2006(12):116-118.
[13]周欣,陆康,张迎春.数字资源校外访问及统计分析系统探讨[J].中华医学图书情报杂志,2016,25(6):39-44.
许瀚之 南京森林警察学院图书馆助理馆员。 江苏南京,210023。
(收稿日期:2019-06-25 编校:刘 明,陈安琪)