面向医院网络的数据搜索管理研究*
2017-04-24谢燕青
谢燕青
(上海市奉贤区中心医院信息科 上海 201400)
面向医院网络的数据搜索管理研究*
谢燕青
(上海市奉贤区中心医院信息科 上海 201400)
针对医院网络数据包含错综复杂信息难以有效搜索挖掘管理的问题,论文根据网络数据信息呈现多面体数据抽象数据域特征,构建了有穷维度线性约束函数,并利用反向索引搜索的方式对安全加密后的医院文档数据进行提取。在确保数据搜索安全性的前提下,分别构建了查询、访问、搜索和遍历四种模式,结合Trapdoor算法在终端服务器中存放查找列表。最后,对索引搜索和Trapdoor搜索模式同时进行优化以减少终端服务器存储空间的数据复杂度。
反向索引; Trapdoor算法; 医院网络; 数据搜索; 搜索优化
1 引言
随着计算机网络的不断发展,医院信息系统更多地运用到现代化的医院运营中[1~3]。医院网络数据信息呈现几何式增长对网络结构、数据库和数据搜索提出了更高的要求,为了使医院网络性能达到最优,在终端数据库空间有限的条件下,可以通过控制网络数据资源和各项信息管理综合协调网络数据资源[4]。现有的医院网络数据集中化管理主要有:B/S构架[5]、SAN结构[6]和C/S结构[7]。为了实现医院内部各部门和科室间的数据信息共享,本研究从医院网络数据呈现出多面体抽象数据域为出发点,利用了反向索引搜索过程中的Trapdoor搜索展开对安全加密后的医院文档数据进行提取,通过构造查找列表创建安全索引搜索,并对搜索管理提出了四点优化策略。该方式在医院终端服务器有限的存储空间下,提高了医院网络信息数据搜索的效率以满足医院各方面的信息传递需求,更好地为现代化的医疗资源分配服务。
2 数据搜索方案
2.1 数据的域
医院信息包含错综复杂的众多数据,则整体呈现出多面体的抽象数据域[8]。为了表现出医院网络数据关系,通常情况下,利用有理数Q上的一个线性不等式来描述多面体抽象数据域:
Q={Ax≤b}
(1)
其中,A∈Qm×n和B∈Qm分别是有理数矩阵和有理数向量,m和n分别是医院网络数据的文字信息数量和字符信息数量。这些网络数据在集合上表现为多面体内的点集结构,通过对变量x的赋值代表可能的程序环境。根据医院网络信息数据的多面体P的线性性质,利用Fourier-Motzkin法对不等式(1)中的变量xi进行消除[9],具体的FM消除投影操作过程中,变量xi不通过改变其他变量之间的关系信息。为了及时有效地搜索到医院网络中被挖掘的信息,通过对有穷维线性约束条件下,构造最大目标函数的方式进行有最优值的线性规划:
Ax=emaxsubject toP
(2)
其中,P为多面体信息的可行空间,e为对应的线性表达式
2.2 反向索引
在医院的网络信息数据中,数据W=(w1,…,wd)以d个单词的字母排序构成词典,其中单词的长度为|w1|(1≤i≤d)比特,单词的最大长度为|w1|max(1≤i≤d)比特。对于医院的众多不同类型的文档而言,每一个文档D=(D1,…,Dn)由一组词典W中的单词构成,并且每个文档具有一个唯一编号的ID。对于包含单词w的文档ID构成的集合为D(w)。
医院将待上传的文档数据信息以创建安全索引的形式对信息进行常规的安全机制加密[10],因此,在数据的搜索过程中,医院的终端服务器通过对数据所有者创建安全令牌的方式进行索引搜索,进而提升了搜索过程。常规的数据搜索主要分为两种索引形式:正向索引[11]和反向索引[12]。其中,反向索引在搜索数据信息时,只针对每个单词在所文档列表对应的条目发还搜索结构。医院对病历文档进行单词性的编号排序时,反向索引可对加密后的网络信息数据进行快速的提取。对于加密文档的反向索引的数据搜索流程如图1所示,主要分为以下步骤:
Step 1:医院网络数据管理员对不同的文档设定安全参数k,通过GenKey(k)→K生成密匙K;
Step 2:对于信息索引搜索I和每个文档D的密文形式C=(C1,…,Cn),其中,Ci(1≤i≤n)对应Di的密文形式,利用Encrypt(K,D)→(I,C)对给定的一组文档D通过密匙K进行加密;
Step 3:利用密匙K生成不同文档D,即Trapdoor(K,w)→t包含相同的单词数据信息w的对应陷门t;
Step 4:通过安全索引I和陷门t进行搜索,Search(I,t)→R,其中,索引搜索结果R={ID(Di)|w∈Di∧i}为所有包含陷门单词的文档ID集合;
Step.5:利用密钥K解密文档Di:Decrypt(K,C)→Di生成对应的明文文档Di。
图1 反向索引数据搜索流程
3 医院数据信息的搜索
3.1 数据信息的安全性
医院网络多采用反向索引的方式对加密后的数据信息进行搜索,该方案不仅能够保护传统的服务器信息,而且不会对文档D中的单词词典泄露更多的信息。在通常的医院信息数据查询过程中,文档D上的q次查询历史、访问模式、搜索模式和遍历模式可分别定义为如下形式:
(3)
其中,查询历史H=(D,w)的一个元组中w=(w1,…,wq)包含q个单词的矢量,访问模式α(H)中的D(wi)(1≤i≤q)为包含单词wi的文档ID,搜索模式β(H)为对称的二元矩阵,对于任意的i,j∈(1,q),若wi=wj时,矩阵对应的第i行的第j列为1,否则为0,遍历模式T(H)中的|Di|(1≤i≤n)为第i个文档的长度。
为了高效地对医院网络数据信息进行加密式的搜索管理,在保护医院终端服务器信息的同时还要考虑到数据搜索的安全性。在数据信息管理员的操作下,访问模式α(H)和搜索模式β(H)将会造成部分的明文文档Di的单词信息泄漏[13]。因此,本研究将使用隐藏式的Tarpdoor搜索方式对医院网络数据信息进行安全性的挖掘。
3.2 Trapdoor搜索
从搜索模式β(H)的形式可得,数据信息的搜索结果符合数据挖掘的要求取决于信息管理员对两次搜索单词结果是否相同。Trapdoor算法作为一种加密式的数据挖掘方法,对确定性的信息只需检验搜索过程中的陷门t即可判断搜索结果[14]。为了实现两次搜索的不同单词的陷门结果可以相同,只需在医院的计算机客户端构建一个反映不同单词的查找列表V,判断搜索结果是否相同的具体步骤和伪代码如下:
Step 1:对文档集合D构造唯一的单词集合δ(D)=(w1,…,wp),通过每个wi∈δ(D)创建对应的D(w),其中p=|δ(D)|为集合D中的单词个数;
Step 2:通过构造查找列表V创建安全索引搜索,列表V的部分子代码为
L1:for 1≤i≤p
let b≤false
L2:for 1≤j≤i-1
if D(w_i)=D(w_j)
let V[w_i]=V[w_j],b=true;
L3:if b=false
then V[w_i]=(σ,B)
Step 3:利用反向索引在查找列表V中搜索单词的字符串,若相同的搜索结果的数据信息共享相同的反向索引项;
Step 4:在终端服务器中存放查找列表V,并构造陷门t时,利用网络数据在查找列表V中查找结果字符串。
利用以上构造的Trapdoor搜索方式,不同网络数据的相同搜索结果对应的陷门t是相同的。在考虑从数据信息管理者两次搜索使用陷门时,无法判断用户是否搜索了相同的单词。由于需要储存查找列表V,则终端服务器的存储量将随时间不断增加,同时,查找列表的数据逻辑关系与网络数据量呈现正比[15]。当文档集合所占空间数据量较少时,利用Trapdoor搜索只增加了查找列表的创建和对应的查询过程。在医院的网络数据中,主要针对档案信息的储存、查询、提取和更新,在采用分布式储存方式时,网络数据分布在各个计算节点上,以分配文档集合所占空间数据量。因此,本研究使用的Trapdoor搜索可以快速对医院网络信息数据进行挖掘提取。
3.3 搜索管理优化
尽管Trapdoor搜索可以对医院网络信息数据进行挖掘,但是随着时间的推移,医院的网络信息数据在不断的增加,终端服务器的存储量也将带来巨大的压力。为了维持网络数据量与数据空间复杂度之间的平衡,本研究还需对索引搜索和Trapdoor搜索模式同时进行优化。在Trapdoor搜索过程中,不能通过构建不同的搜索陷门对两次相同单词的进行搜索,并且对相同的陷门对不同搜索结果的单词是相同的。这是由于相同单词的多次搜索构建了不同的陷门,但搜索结果是不变的[16]。网络数据管理员可以忽略陷门直接观察密文形式的搜索结果判断两次搜索的单词是否相同。因此,本研究为了对搜索管理进行优化,还需要以下几步操作:
1) 将查找结果生成随机字符串构建查找列表V,并且生成多个待查找的随机字符串;
2) 利用不同的加密密匙对文档集合D中的每个文档进行加密,同时,生成不同的密文副本文档;
3) 对于每个搜索结果文档,通过随机字符串构建反向索引并选取一个密文副本文档;
4) 通过查找列表V的方式构建搜索陷门,并随机选取一个查找结果字符串。
4 实验分析
4.1 测试环境
本研究中,针对医院网络使用的软件均在Windows7或者Linux操作系统下进行操作,终端服务器选用SQL Datebase 10T存储器,应用服务器选用联想冗余式FC-SAN双核心的HIS系统虚拟化云端服务器,实验在一台配备AMD速龙X4 860K双核CPU@3.7GHz和4GB内存,在C++程序中运行查找列表代码。
4.2 性能检验
网络数据搜索采用反向索引的Trapdoor算法实现,通过多面体的抽象数据域构建每个文档的一组词典。在特定时间内的数据发送与接收在一个列表中呈现数据量的最高水平差异。该列表按升序排列,直到反向索引在查找列表中搜索到相同的字符串。在客户端获取搜索结果并加载到网站服务器上。具体的搜索结果前后数据大小比较如表1所示。
表1 搜索前后文档数据误差率对比
由表1可见,不同格式的文档信息经过优化后的数据搜索方案、搜索结果与原文档信息并不一致。其中,Excel格式与Word格式的搜索误差率有效地控制在15%以内,且接收文挡大小占用空间将缩小,而Excel格式信息丢失率仅为2.38%;PDF格式与PPT格式搜索误差率有效地控制在16%以内,且文档搜索大小占用空间将变大,而PDF格式的信息丢失率为-6.97%。因此,医院网络数据存储过程中,选用Excel格式和PDF格式保存数据信息可减小信息管理员搜索的误差,传统的医院数据信息存储在Excel格式下,也说明了本研究选用文档的合理性。
为了比较索引搜索和Trapdoor搜索模式优化前后的差异,从上述分析获得的结果中选取Excel文档作为不同网络数据量搜索误差性能比较。若在Trapdoor算法中不建立查找列表,终端服务器存储量难以满足日渐增多的网络数据量需求。利用Matlab软件对100KB的医院网络数据中的Excel文档分别进行索引搜索、Trapdoor搜索和综合优化搜索,其中,文档步长设定为1KB,具体的搜索误差结果与综合优化搜索稳定性如图2所示。
图2 误差率对比与稳定性
由图2可见,综合优化后的搜索对医院内的Excel文档网络数据可以使得搜索误差率和搜索稳定性均得到了优化。其中,图2(a)中,综合优化搜索能力明显高于索引搜索和Trapdoor搜索,即对查找列表和随机字符串生成不同的密文副本文档可降低文档搜索误差率;图2(b)中,优化后的搜索可以稳定在±1Hz内,在搜索过程中,医院网络数据信息通过查找列表的方式构建搜索陷门,将字典单词的内容信息锁定在选取的密文副本文档里。针对医院网络数据信息优化搜索网络带宽负载进行计算机模拟,得到网络带宽负载结果如表2所示。
由表2可见,综合优化后的搜索网络带宽明显高于索引搜索和Trapdoor搜索,这是由于网络数据搜索查找结果随机生成字符串,在建立查找列表的同时生成多个待查找的随机字符串。在遍历过程中,将搜索内容通过反向索引建立了密文副本文档,加快了Trapdoor搜索的陷门构建。同时,综合优化搜索的网络搜索负载率仅为8.20%,这是由于医院的终端服务器以部门间网络信息对称的地位分担了负载,并且各科室间数据管理员对服务器的搜索请求列阵均匀分配到虚拟化云端服务器,籍此加快了网络数据的搜索,解决了部门间大量并发搜索请求造成搜索误差率提高和负载增加的访问服务问题。
表2 网络带宽负载对比
5 结语
本研究利用反向索引的方式构建了医院网络数据信息搜索管理的优化方案,通过多面体的抽象数据域的方式将医院网络数据信息进行线性优化,并利用Fourier-Motzkin法求解所构造的数据线性目标函数。运用反向索引的搜索分别建立了历史查询、访问、搜索和遍历四种模式,实现了医院信息管理员对医院数据的抓取与综合管理。通过将搜索模式与Trapdoor算法相结合,在终端服务器中创建存放查找列表,并针对反向索引和Trapdoor算法提出了四步优化方案,运用优化后的算法进行求解实现了医院网络数据高效搜索管理。在对密文副本文档优化过程中,反向索引可提供一个最优网络数据搜索,有效地解决了终端服务器存储空间与数据量增加之间的矛盾,为医院网络数据的高效挖掘提供了有价值的参考。
[1] 张立,胡正刚,杜智,等.医院信息系统集成平台建设的目的和效果[J].中国卫生信息管理杂志,2012,9(2):47-49. ZHANG Li, HU Zhenggang, DU Zhi, et al. The purpose and effect of hospital information system integration platform Construction[J]. Chinese Journal of Health Information Management,2012,9(2):47-49.
[2] 王继伟,陈武鑫,陈海鸿,等.智能医疗建筑质量控制的关键环节[J].中国数字医学,2013,8(2):53-55. WANG Jiwei, CHEN Wuxin, CHEN Haihong, et al. Key medical building intelligent quality control[J]. China Digital Medicine,2013,8(2):53-55.
[3] 朱文娟.医保信息系统医院信息系统(HIS)中的嵌套及其应用[J].电子技术与软件工程,2014(11):212-212. ZHU Wenjuan. Medical insurance information system hospital information system (HIS) and its application in the nest[J]. Electronics and Software Engineering,2014(11):212-212.
[4] 许晓辉.医院信息系统的建设与管理[J].信息系统工程,2013(3):67-67. XU Xiaohui. Construction and Management of Hospital Information System[J]. Information Systems Engineering,2013(3):67-67.
[5] 黄静,陈震,危水根,等.RBAC模型在B/S医院信息系统中的应用[J].计算机技术与发展,2011,21(6):246-249. HUANG Jing, CHEN Zhen, WEI Shuigen, et al. RBAC model in the B/S Hospital Information System[J]. Computer Technology and Development,2011,21(6):246-249.
[6] 陈燕峰.新农合与医院网络数据安全交换方案探讨[J].计算机时代,2014(4):15-17. CHEN Yanfeng. Explore new rural cooperative hospital network data security and exchange programs[J]. Age of Computer,2014(4):15-17.
[7] 崔樱.基于三层C/S结构的医院信息系统设计与实现[J].现代电子技术,2011,34(2):39-41. CUI Ying. Based on Hospital Information System Layer C/S Architecture Design and Implementation[J]. Modern Electronic Technology,2011,34(2):39-41.
[8] 杨子煜,李思昆,赵鹏.虚拟环境下可重构流媒体处理的应用分析方法[J].系统仿真学报,2012,24(9):1790-1794. YANG Ziyu, LI Sikun, ZHAO Peng. Reconfigurable Application Virtual Environment Analysis streaming media processing[J]. Simulation of System,2012,24(9):1790-1794.
[9] 鲁法明,曾庆田,包云霞.判定工作流网S-可覆盖性的有效算法[J].计算机集成制造系统,2012,18(8):1757-1765. LU Faming, ZENG Qingtian, BAO Yunxia. Effective determination algorithm works S- nets can cover property[J]. Computer Integrated Manufacturing Systems,2012,18(8):1757-1765.
[10] 李尚,周志刚,张宏莉,等.大数据安全高效搜索与隐私保护机制展望[J].网络与信息安全学报,2016(4):15-21. LI Shang, ZHOU Zhigang, ZHANG Hongli, et al. Big data security and privacy protection and efficient search mechanisms outlook[J]. Journal of Network and Information Security,2016(4):15-21.
[11] 赵珂,逯鹏,李永强.基于Lucene的搜索引擎设计与实现[J].计算机工程,2011,37(16):39-41. ZHAO Ke, LU Peng, LI Yongqiang. Lucene-based search engine design and implementation[J]. Engineering of Computer,2011,37(16):39-41.
[12] 唐李洋,倪志伟,李应.基于Cassandra的可扩展分布式反向索引的构建[J].计算机科学,2011,38(6):187-190. TANG Liyang, NI Zhiwei, LI Ying. Index build scalable distributed based on Cassandra’s reverse[J]. Science of Computer,2011,38(6):187-190.
[13] 马健,张太红,陈燕红.中文搜索引擎分块倒排索引存储模式[J].计算机应用,2013,33(7):2031-2036. MA Jian, ZHANG Taihong, CHEN Yanhong. Chinese Search Engine block inverted index storage mode[J]. Application of Computer,2013,33(07):2031-2036.
[14] 李经纬,贾春福,刘哲理,等.可搜索加密技术研究综述[J].软件学报,2015,26(1):109-128. LII Jingwei, JIA Chunfu, LIU Zheli, et al. Search encryption technology research can be reviewed[J]. Journal of Software,2015,26(1):109-128.
[15] 王尚平,刘利军,张亚玲.一个高效的基于连接关键词的可搜索加密方案[J].电子与信息学报,2013(9):2266-2271. WANG Shangping, LIU Lijun, ZHANG Yalin. An efficient connection-based keyword searchable encryption scheme[J]. Electronics & Information Technology,2013(9):2266-2271.
[16] 项菲,刘川意,方滨兴,等.云计算环境下密文搜索算法的研究[J].通信学报,2013(7):143-153. XIANG Fei, LIU Chuanyi, FANG Bingxing, et al. Study on cloud computing environment ciphertext Search Algorithm[J]. Communications,2013(7):143-153.
Research on Search for Hospital Network Data Management
XIE Yanqing
(Information Section of Fengxian District Central Hospital, Shanghai 201400)
Aiming at the proldem that the hospital network data containing complex information is difficult to effectively search management, this study presents the polygon data network based on abstract data domain characteristic data, constructs finite dimensional linear constraint functions, and uses inverted index search mode to extract hospital document data. Ensuring data security under the premise of the search, query, access, search and traverse the four modes are constructed, combined with Trapdoor algorithm stored in the terminal server lookup list. Finally, the index search and Trapdoor search mode is optimized simultaneously to reduce the complexity of the data terminal server storage space.
inverted index, Trapdoor algorithm, hospital network, data search, search engine optimization Class Number TP391.1
2016年10月4日,
2016年11月25日
国家自然科学基金项目(编号:30170956)资助。
谢燕青,男,研究员,研究方向:计算机信息。
TP391.1
10.3969/j.issn.1672-9722.2017.04.022