数字化改革背景下档案云上保密管理研究

2022-11-22宣绍龙吴宗大绍兴文理学院

浙江档案 2022年6期

谢坚宣绍龙吴宗大/绍兴文理学院

关键字：云环境；数字档案；档案保密；档案查询；信息系统

云计算按使用量付费，使得机构可随时随地、按需便捷地从可配置计算资源共享池中获取所需资源，从而大幅降低机构在业务运行和档案管理方面的经费投入，极大提高了机构服务效能[1]。在数字化改革的驱动下，政府部门和企业单位纷纷推行“云优先”战略，即在机构数字化过程优先考虑云计算模式，从而使得文件档案在云环境中形成和管理的比例越来越高[2]。为此，“档案云上管理”已是大势所趋[3]。然而，档案上云虽能有效降低管理成本，提高管理效率，但也带来了负面效应，其中最突出的是档案云上安全问题[4]，它已成为制约档案云上管理的主要障碍。我国近年出台了《网络安全法》《数据安全法》《个人信息保护法》三部法律，这对改善档案云上安全具有十分重要的意义。然而，层出不穷的隐私泄露事件表明，档案云上保密管理不仅需要法律法规，还需要技术方法的支持[5]。为此，数字档案系统采用了多种技术策略，主要包括身份认证、访问控制、数据加密等[6]。其一，身份认证是用户身份确认的过程，以杜绝非法用户对系统资源的非法访问[7]。其二，访问控制是根据用户具体身份，限制其对非授权资源的访问或对非授权功能的使用。虽然这两类技术能有效阻止外部用户对档案系统中敏感数据的非法访问，从而在很大程度上缓解档案安全问题[8]。但它们无法离开服务器端的支持，即它们只针对档案系统的外部攻击者，无法阻止服务器端工作人员或攻克服务器端黑客访问档案数据[9]。其三，数据加密是指对存放在服务器端中的敏感数据进行严格加密，以确保数据安全性。它是解决数据云上安全的重要手段[10]。然而，加密后的密文数据将失去明文数据许多固有特性（如有序性、相似性、可比性），使得档案系统中的档案查询操作无法再在云端密文数据上正确执行，严重破坏了档案查询有效性。因此，数字化改革背景下的档案云上保密管理问题无法通过传统技术策略加以直接解决[11]。此外，图书情报领域学者也尝试从技术角度解决档案云上保密问题[12]。然而，这些方法通常都直接或间接建立在数字档案系统原有技术策略的基础上，同样难以满足档案云上保密管理需求。

针对数字化改革背景下的档案云上保密管理问题，本文提出了一个解决方案，能在不影响档案查询有效性前提下，改善档案数据在不可信云端安全性。其基本思路是：在不可信云端和可信客户端间部署可信本地服务器，以运行档案云上分级存储模型和档案云上分段查询模型。档案分级存储模型，负责将档案轻数据存储在本地服务器，而将档案重数据加密后存储到云端服务器，以确保档案数据安全性。档案分段查询模型，通过在本地和云端分阶段执行档案查询，以确保档案查询有效性。理论分析和实验评估验证了方案整体性能，能实现档案数据安全性、档案查询有效性、档案系统可用性三者的有效统一，从而为搭建安全有效的档案云上管理平台提供理论方法与技术基础，助力政府数字化改革。

1 解决方案

本文采用的数字档案云上保密管理方案建立在原有档案云上管理系统基础之上，包括四类角色：档案录入员、档案查询员、本地服务器和云端服务器。一是档案录入员，通过可信档案录入界面提交档案数据。档案数据分为轻数据（如姓名年龄）和重数据（如档案图片）。二是档案查询员，通过可信档案查询界面提交档案查询请求，以获取目标档案。档案查询请求通常定义在档案轻数据上。三是云端服务器，进行不可信云端部署，负责存储本地服务器提交的密文档案重数据和执行本地服务器提交的档案密文数据查询请求。四是本地服务器，进行可信本地部署，负责将档案录入员提交的档案数据区分为重数据和轻数据，并将轻数据存储在本地，而将重数据加密后存储到云端；负责将档案查询员提交的档案查询请求改写为轻数据查询和重数据查询，并通过在本地和云端分段执行轻数据查询、密文数据查询和重数据查询，以确保档案查询的有效性。可以看出，档案云上保密管理方案主要包括档案云上分级存储模型和分段查询模型。

1.1 档案云上分级存储模型

工作流程可分为以下四个步骤。一是发布档案。档案录入员通过可信档案录入界面发布一条档案数据记录，并提交给本地服务器。将档案数据记录为：（data[i][1]，data[i][2]，……），其中data[i][j]为单个档案数据项（如职工姓名、档案图片、档案视频等）。

二是区分轻重。本地服务器将档案数据记录区分为档案轻数据项和重数据项，分别记作（dataL[i][1]，dataL[i][2]，……）和（dataH[i][1]，dataH[i][2]，……）。再将档案轻数据项以明文的形式存储到本地服务器的本地数据库（称为“明文档案轻数据库”）。这里的档案重数据项是指图片、视频、音频、文件等容量较大的档案数据资料，它们一般不直接支持档案查询操作（即档案查询语句条件项一般都与档案重数据项无关），但它们是决定档案数据库容量的关键性因素。统计结果表明，档案重数据通常占全部档案数据库容量的95%左右。档案轻数据项是指编号、姓名、年龄、生日、电话等容量较小的档案数据资料，其数据类型一般为数值型或短文本型。档案查询语句条件项一般都定义在档案轻数据项之上，如查询“1983/1/1”以后出生的职工档案。

三是加密数据。本地服务器随机生成秘钥keyH[i]，使用传统加密算法加密档案重数据，得到密文档案重数据，记作E（keyH[i]，dataH[i][1]），E（keyH[i]，dataH[i][2]），……。然后本地服务器将密文形式的档案重数据提交给云端服务器存储。

四是存储数据。云端服务器将本地服务器提交的密文形式的档案重数据项存储到云端数据库（称为“密文档案重数据库”）。

1.2 档案云上分段查询模型

工作过程可分为以下六个步骤。一是发布查询。档案查询员通过档案查询界面发布档案查询语句，提交给本地服务器。档案查询语句由定义在档案数据项上的基本条件项组成（一个条件项关联一个数据项）。

二是改写查询。本地服务器将档案查询语句改写为一个轻数据查询子句（所有关联档案轻数据项的条件项组成）和一个重数据查询子句（所有关联重数据项的条件项组成）。由于档案查询一般与档案重数据无关，所以档案重数据查询子句通常为空。

三是轻段查询。本地服务器在明文档案轻数据库上执行轻数据查询，获取档案轻数据记录集LR（其各记录的ID属性构成的集合记作ID@LR）。然后，本地服务器生成如下密文数据查询语句“SELECT * FROM H_DATA_SETWHERE ID IN ID@LR”，并提交给云端执行。

四是密文查询。云端服务器在密文档案重数据库上执行本地服务器提交的密文查询语句，获取密文形式的档案重数据记录集，并返回给本地服务器。

五是重段查询。本地服务器结合本地存储的数据秘钥，解密云端返回的密文档案重数据集。然后，在解密重数据上执行步骤1.2生成的重数据查询子句，得到档案重数据集HR。

六是合并查询。本地服务器在档案轻数据集LR和档案重数据集HR上执行等值连接查询语句“SELECT *FROMLR，HR WHERELR.ID=HR.ID”，获取目标记录集并返回给客户端。

2 分析评估

本小节主要分析引入本文方案后对原有档案云上管理平台产生的影响：首先，分析对档案数据安全性的影响；然后，分析对档案查询准确性和高效性的影响；再次，分析对档案系统可用性的影响；最后，分析本文方案的本地部署问题。

2.1 方案能有效确保数字档案数据的安全性

具体分为两层，第一层是确保数字档案轻数据在可信本地服务器的安全性，第二层是确保数字档案重数据在不可信云端服务器的安全性。

本地通常被认为“诚实且可信”，即其安全威胁来自外部（而非自身）。档案轻数据在可信本地服务器的安全性，由档案轻数据库部署的传统数据安全策略确保（如身份认证、访问控制等）。它们能有效阻止外部非法用户对本地数据库档案轻数据的非法访问。云端通常被认为“诚实但好奇”，即它虽能遵循云服务相关协议规范，但对客户端提交的档案数据保持好奇。因此，云端不可信，其安全威胁既来自外部也来自自身。档案重数据在不可信云端的安全性，由传统数据加密技术确保。云端数据库的档案重数据经过本地服务器的严格加密后，以密文形式存储，其中密钥存储在本地（即云端无法获取）。传统加密技术的有效性已经经过大量实践的验证，即在无法获知秘钥情况下，攻击者基本无法直接获知密文对应明文。

2.2 方案能有效确保数字档案查询的准确性

即对比引入本文方案（及其运行的本地服务器）的前后，档案云上管理系统各档案查询语句的执行结果保持不变。

本文方案将管理系统原来的档案数据表“纵向”切分为轻数据表和重数据表（两者行数一致）。本文方案将各个档案查询语句切分为一个轻查询子句和一个重查询子句，而两个子句在档案数据表上的执行结果与原语句保持一致。由于轻查询子句仅关联档案轻数据项，重查询子句仅关联档案重数据项，所以，轻查询在轻数据表上的执行结果与重查询在重数据表上的执行结果 “纵向”连接后，必然与原档案查询语句在档案数据表上的执行结果保持一致。

2.3 方案能有效确保数字档案查询的高效性

即对比引入本文方案（及其运行的本地服务器）的前后，档案云上管理系统各档案查询语句的执行效率不会显著下降。

引入本文方案前，记查询语句在云端数据库上执行时间为Γ[q]，记云端到客户端档案记录集网络传输时间为N2·Γ[e]（其中Γ[e]表示单位记录传输时间，N2表示记录数量）。引入本文方案后，记三个查询语句总执行时间为Γ[qL]+Γ[qE]+Γ[qH]，记档案记录集传输时间和解密时间为N1·(Γ[e]+Γ[d])（其中Γ[d]表示单位密文记录解密时间，N1表示云端返回中间服务器的记录数量）。对比本文方案引入前后，档案查询语句的执行效率比可计算如下：φ=(Γ[q]+N2·Γ[e])((Γ[qL]+Γ[qE]+Γ[qH])+N1·(Γ[e]+Γ[d])) （1）

由于三个查询语句总执行时间与原始语句执行时间基本在一个数量级，为此有：(Γ[qL]+Γ[qE]+Γ[qH])=α·Γ[q] （2）

其中1＜α＜3。因为档案查询语句的基本条件项一般均定义在档案轻数据项之上（而与档案重数据项无关），为此有：N2＜N1∧N2≈N1。又注意到，单位密文记录的解密时间和网络传输时间基本固定，为此有：

N1·(Γ[e]+Γ[d])=β·N2·Γ[e] （3）

其中1＜β＜3。将公式（3）和公式（2）代入公式（1）后，有：φ=(Γ[q]+N2·Γ[e])(α·Γ[q]+β·N2·Γ[e])／＞1/3（4）

综上，得到结论：对比本文方案引入前后，档案查询语句执行效率处在同一数量级，即引入本文方案后，档案云上管理系统各档案查询语句的执行效率不会显著下降。

为了进一步评估方案对档案查询效率的影响，我们还设计了一个简单的实验。实验中，档案数据库容量被设定为10GB级别，档案记录数量被设定为一万条左右，云端服务器采用浪潮SA5212M5，本地服务器采用普通台式机。实验评估结果表明：对比引入本文方案的前后，系统各档案查询语句的执行效率降低程度不超过50%，这再次验证了前面的理论分析结果。

2.4 方案能有效确保原有档案管理系统的可用性

它具体包括以下三个方面：一是不改变客户端用户界面程序（包括档案录入界面、档案查询界面等）和用户使用习惯；二是不改变云端服务器架构和信息服务算法；三是不改变档案管理系统原有档案查询的准确性和高效性。

本文方案部署在中间服务器，并不改变用户界面程序（只需将客户端请求从指向云端，重定向指向中间服务器即可）和用户使用习惯。本文方案虽然要求云端服务器修改数据库模式（以存储密文档案重数据），但并不要求修改云端数据库管理系统和信息服务算法，因此并不改变云端现有服务器架构。前面分析已经表明本文方案并不改变档案管理系统原有档案查询的准确性和高效性。为此可知，本文构建的档案云上保密管理方案，建在原有档案云上管理系统之上，但无需对原有系统进行二次开发，实现与原有系统的无缝衔接，具有优良的可用性。

2.5 方案不会造成存储性能瓶颈或计算性能瓶颈

即本文方案虽然要求部署本地服务器，但对其存储性能和计算性能要求均不高。

第一，本地服务器存储性能瓶颈分析。本地服务器仅存储档案轻数据（档案重数据存储在云端）。根据大量的统计结果表明，轻数据通常仅占全部档案数据的5%左右。以1024GB的档案数据为例，本地数据库仅需花费50GB的存储空间（其余数据存储在云端数据库）。因此，不会造成本地服务器的存储性能瓶颈。第二，本地服务器计算性能瓶颈分析。本地服务器需要的计算主要包括：档案轻数据查询和密文档案记录解密。对于前者，由于档案轻数据库的存储容量并不大，因此其查询操作的时间开销也就不高。对于后者，根据前文分析可知，云端返回本地服务器的密文档案记录数量通常就等于最终返回客户端的记录数量，即本地服务器需要解密的密文档案记录数量通常并不多，因此密文档案记录解密所需的时间开销也就不高。综合两者可知，不会造成本地服务器的计算性能瓶颈。

综合上文可以得出结论：本文方案能在基于不影响原有档案系统可用性、不影响数字档案查询的准确性、不影响数字档案查询高效性的前提下，有效改善档案数据在不可信云端的安全性；并且本文方案不会造成本地服务器的存储性能瓶颈或计算性能瓶颈。因此，本文方案简单易行，能实现与现有档案云上管理系统的有效衔接（无需对原有档案系统做二次开发），较好地适应了数字化改革背景下档案云上保密管理在可用性和安全性上的实际需求。