语义扩展技术在敏感数据识别中的应用研究

2016-08-17徐建忠罗准辰

现代电子技术 2016年12期

关键词：敏感数据百科搜索引擎

徐建忠，罗准辰，张　亮

（1.杭州世平信息科技有限公司，浙江杭州　310012；2.中国国防科技信息中心，北京　100142）

语义扩展技术在敏感数据识别中的应用研究

徐建忠1，罗准辰2，张亮1

（1.杭州世平信息科技有限公司，浙江杭州310012；2.中国国防科技信息中心，北京100142）

为了解决用户在敏感内容检测时给定关键词较少的问题，在此提出一种基于语义扩展技术识别敏感数据的方法。主要是通过对用户给定的关键词，进行基于搜索引擎、百度百科以及搜索引擎结果页面三种模式的语义扩展，然后借助少量人工方式整体评价，得到用户所需的扩展词。实验结果表明，与语义扩展之前相比，语义扩展之后敏感数据识别的准确率P、召回率R和评价值F均有所提高，说明该方法能够有效地提高敏感数据识别结果的全面性和准确性。

语义扩展；敏感数据；搜索引擎；数据安全

0　引言

随着信息技术的高速发展，国内外信息安全形势越来越严峻，多起信息安全事件（如，斯诺登事件）的发生给个人和社会带来了严重的影响，尤其是敏感数据的泄露，直接影响国家的安全和社会的稳定。

数据防泄漏技术作为信息安全的基础性技术，其作用无论从国家安全的高度还是从经济发展的角度来看都变得日益重要。目前，敏感数据防泄漏的关键技术包括：敏感数据识别、敏感数据标记、敏感数据阻断、销毁和策略管理等。其中敏感数据识别是敏感数据防泄漏解决方案中非常关键的一环，只有准确地识别出了敏感数据才能对这些数据进行有效保护。以往的敏感数据识别方法［1⁃2］大都通过建立敏感数据库，通过用户输入关键词或者预定义相关内容匹配敏感数据库来检测实现。这种方法忽略了很多用户缺乏对相关领域知识的了解，造成提交的关键词数量有限且缺乏代表性，使得提交的关键词不能全面准确地表达用户的实际查询意图的现状。此方法容易造成检测结果不全面或不准确。基于这个问题本文研究了一种能够解决用户给定较少关键词，准确高效识别敏感数据的语义扩展关键词方法。

在此主要通过三种模式对用户给定的关键词进行语义扩展：基于搜索引擎的语义扩展、基于百度百科的语义扩展和基于搜索引擎结果页面的语义扩展。对这三种模式返回的候选词借助少量人工方式进行整体评价，得到用户所需的扩展词。实验结果表明，此方法能够有效解决有限关键词意图表示模糊的问题，并且提高了敏感数据识别的准确率。

1　相关工作

语义扩展是指语义在原有的基础上进行了延伸，其最直接也是最明显的一个结果就是使原有词汇使用的范围更广或者使表达的内容更加深刻［3］。语义扩展技术主要应用于文本分类、信息检索、搜索引擎等领域。它是以关键词匹配为技术基础，由于用户对相关领域了解较少以及大量同义词和多义词的存在，用户对查询请求的表达形式多样。根据有关实验［4］统计，两个人使用相同关键词描述同一事物的概率小于20%。

在检索时，用户通常只用少量关键词来表达自己的请求，导致检测结果不全面和不准确。例如，Franzen K等人分析了微软公司旗下的Encarta在线百科全书网站［5］连续两个月的用户查询记录后发现，49%的用户仅用一个关键词来表达自己的查询请求，33%的用户使用两个单词进行查询，用户平均使用1.4个单词描述他们的查询。查询使用的关键词越少，检索结果命中率就越低。为了提高查询的命中率，需要尽量增加检索关键词的数量［6］。但是由于用户体验的原因，在此无法强制规定用户提交关键词的数量，因此需要通过一定的技术对用户提交的关键词进行扩展，以弥补用户给定关键词数量不足的缺陷。本文主要将语义扩展技术应用于敏感数据识别，试图解决用户给定较少关键词难以满足敏感内容文本表示复杂的问题。

2　语义扩展技术方法

2.1方法概述

本文提出一种在敏感数据识别中使用语义扩展技术的方法，该方法首先使用三种扩展模式对用户给定的关键词进行扩展，然后借助少量的人工方式对扩展的候选词进行整合评价，从而得到与用户提交的关键词内容相关的扩展词，如图1所示。

图1　方法流程

（1）语义扩展。对用户给定关键词进行三种模式的扩展：基于搜索引擎的扩展、基于百度百科的扩展、基于搜索引擎结果页面的扩展。

（2）整合评价。利用三种扩展模式返回的扩展候选词，借助少量人工方式进行整合评价。

2.2语义扩展

2.2.1基于搜索引擎的扩展

主要利用目前搜索引擎强大的查询扩展功能对给定的敏感词进行扩展。其中，搜索引擎可以选择当前主流的，例如百度、谷歌、雅虎、必应等，本文选取百度作为扩展的搜索引擎。具体的操作：如“财务”是一般单位认为比较敏感的信息，要想得到财务相关的扩展词，即在百度中输入查询词，见图2和图3，圈标注的相关搜索作为其扩展词。

图2　基于百度搜索推荐的语义扩展示例

图3　基于百度相关搜索的语义扩展示例

2.2.2基于百度百科的扩展

主要利用百度百科相关词条进行扩展，具体流程如下：

（1）首先利用搜索引擎找到相关的百度词条，在搜索引擎中输入“给定词and百度百科”，如“财务 and百度百科”，如图4所示。

图4　基于百度百科连接词条

（2）返回的搜索结果中，存在的百度百科词条网页链接为相关的百科词条（见图4中用圈标注的），然后点击进入百度百科相关词条网页，选取（可以写程序采用自动化的方式）存在的链接词作为扩展词，见图5，圈内标注的词认为是扩展词。

图5　基于百度百科词条内容链接的语义扩展示例

2.2.3基于搜索引擎结果的扩展

这种方法主要是利用搜索引擎，获取敏感词相关的页面。然后抓取页面后，利用开源的关键词提取器，进行关键词提取，建议抓取返回结果第一页10条链接网页进行提取，提取过程中可以单篇提取然后整合，也可以将所有网页合成为一个文本后进行关键词提取，提取数目可以任定。

2.3整合评价

以上三种方式可以产生一些基于给定词扩展的候选词，但并不是所有的候选词都能满足用户的需求，因此人工的少量参与是必须的。对于每个候选词，可以邀请3位人员进行人工评价，如果2位以上人员认为候选词有意义，则判断该候选词为用户需要的扩展词。

3实验

3.1实验数据以及评价方法

本文通过整理某市部分单位的一些公告和相关新闻资讯，构建了一个包含1 500个文档的测试集，该测试集包含了敏感信息文档和非敏感信息文档，其中敏感信息文档指的是文档中包含一般单位认为比较敏感的人事、财务相关信息，非敏感信息文档指文档中不包含任何敏感信息。本文中通过人工方法统计人事相关的文档486个，财务相关文档574个，其他非敏感信息文档440个。

本文使用信息检索领域的评价准则（准确率P、召回率R和评价值F）对敏感数据识别进行评价，具体定义为：

其中：A表示系统识别出敏感词相关的文档总数；B表示系统识别出敏感词不相关的文档总数；C表示系统没有识别出敏感词相关的文档总数。

3.2实验过程及结果

在实验中，本文选取人事、财务两个敏感词作为用户给定关键词，并且对这两个词语通过三种模式的语义扩展得到相关扩展词。例如，对于给定词人事，通过语义扩展之后得到相关扩展词：任命、任免、任职、提拔、拟任、拟聘、罢免、辞去；财务，通过语义扩展之后得到相关扩展词：经营状况、资金、资产、损益表、总账、增值、负债、周转、亏损、预算、净利润。最后通过对比语义扩展之前与之后敏感数据识别的准确率（P）、召回率（R）以及评价值（F）进行分析评价。结果如表1所示。

表1　语义扩展之前与之后敏感数据识别结果对比　%

分析表1中的结果可以发现，语义扩展之后敏感数据识别的实验结果都要好于语义扩展之前（即用户给定关键词），这是因为对给定关键词扩展之后得到很多相关的扩展词，所以在进行敏感数据识别的时候可以检索出扩展之前不能检索出来的文档，并且本文中语义扩展的方法借助人工评价，这样得到的扩展词都是与用户给定关键词很相关的，这也是敏感数据识别准确率和查全率提高的主要原因。

4　结语

为了解决用户给定较少关键词难以满足敏感数据高准确率识别的问题，本文提出一种将语义扩展技术应用于敏感数据识别的方法。该方法通过基于搜索引擎、百度百科以及搜索引擎结果页面三种模式对给定的关键词进行语义扩展，借助少量人工方式整体评价，得到用户所需的扩展词，从而解决了给定关键词较少语义表示模糊的问题，提高了敏感数据识别的全面性和准确性。

［1］李伟伟，张涛，林为民，等.基于文本内容的敏感数据识别方法研究与实现［J］.计算机工程与设计，2013，34（4）：1202⁃1206.

［2］林臻彪.基于数据流分析的防文件网络泄露关键技术研究［D］.郑州：解放军信息工程大学，2009.

［3］付义军.语义扩展的认知机制［J］.青春岁月，2013（15）：121.

［4］黄名选，严小卫，张师超.查询扩展技术进展与展望［J］.计算机应用与软件，2007，24（11）：1⁃4.

［5］FRANZEN K，KARLGREN J.Verbosity and interface design ［R］.Sweden：Swedish Institute of Computer Science（SICS），2000.

［6］徐建斌，施亚东.基于概念的文本自动分类研究的综述［J］.福建电脑，2005（2）：2⁃4.

［7］汪晨，邓松，张涛，等.智能电网环境下用户行为可信数据安全交换研究［J］.现代电子技术，2014，37（1）：75⁃79.

Application of semantic extension approach in sensitive data identification

XU Jianzhong1，LUO Zhunchen2，ZHANG Liang1
（1.Hangzhou Shiping Information&Technology Co.，Ltd.，Hangzhou 310012，China；2.China Defense Science and Technology Information Center，Beijing 100142，China）

To solve the problem of less key words given in sensitive content inspection，a sensitive data identification method based on semantic extension approach is proposed.The semantic extension based on three forms of search engine，Baidu Ency⁃clopedia and results page of searching is performed through the keywords given by users，by which the extension words is ob⁃tained through the overall evaluation in a manual way.The experimental result shows that，with the three forms of semantic ex⁃tension，the accuracy P，recall R and evaluation value F of sensitive data identification have all been improved，which illus⁃trates that the approach can effectively improve the comprehensiveness and accuracy of sensitive data identification.

semantic extension；sensitive data；search engine；data security

TN911⁃34

1004⁃373X（2016）12⁃0080⁃03

10.16652/j.issn.1004⁃373x.2016.12.021

2015⁃10⁃09

徐建忠（1980—），男，浙江杭州人。主要研究方向为网络与信息安全。罗准辰（1984—），男，湖南长沙人，博士。主要研究方向为自然语言处理与信息。张亮（1983—），男，陕西西安人，硕士。主要研究方向为网络与信息安全。