APP下载

国内互联网地图POI存在的涉密问题及其解决办法

2016-12-15张雨心

测绘通报 2016年9期
关键词:词法白名单名称

左 栋,张雨心

(国家测绘地理信息局地图技术审查中心,北京 100830)

国内互联网地图POI存在的涉密问题及其解决办法

左 栋,张雨心

(国家测绘地理信息局地图技术审查中心,北京 100830)

随着基于互联网及各类导航设备的电子地图和地理信息服务的迅速发展,互联网地图上涉及国家安全保密信息的泄露和传播问题日益凸显,严重损害了国家利益,威胁着国家安全。承载这些涉密信息的最重要的载体便是POI。本文对我国互联网地图POI存在的涉密问题及其产生原因进行了分析,并从行政管理和软件技术两个方面提出了互联网地图POI涉密问题的解决办法,使互联网地图在更好地服务于社会公众的同时,确保国家主权与安全不受侵犯与威胁。

互联网地图;POI;涉密问题;解决办法

近些年,基于互联网及各类导航设备的电子地图和地理信息服务发展迅速,在给人们的工作、生活提供便利的同时,也出现了许多不容忽视的问题。如一些单位和个人违反国家有关法律法规的规定,不具资质或未经批准就擅自提供互联网地图和地理信息服务,把一些敏感的、不宜公开的、甚至是涉及国家秘密的相关地理信息标注在电子地图上[1],严重损害了国家利益,威胁着国家安全。

在通过电子地图标注的敏感和涉密信息内容中,兴趣点(point of interest,POI)正是最重要的内容载体。POI包含名称、经度、纬度等信息,一个POI所表述的信息可以是一栋房子、一个商铺、一个公交站,同样也可以是一个军事基地、军事禁区等[2]。由于POI具有坐标信息,因此一旦带有涉密内容的信息以POI的形式反映在电子地图上,并通过互联网等媒介向全世界传播,将会造成极为严重的国家机密信息泄露事件。中央电视台此前就有过相关报道,称某地图服务网站甚至标注了“中国核试验爆炸地点”“中国军用机场”“北京周边军事区域”等严重的涉密内容[3]。

本文将对互联网地图出现涉密POI情况的原因进行分析,并从行政管理和软件识别技术两个方面提出相应的解决办法,使互联网地图朝着健康、正确的方向发展,在更好地服务于社会大众的同时,确保国家安全不受威胁。

一、国内互联网地图POI涉密问题情况分析

1. POI涉密问题现状

从日常对送审POI列表的审查和互联网地图实时监控的情况来看,各大互联网地图服务网站均存在不同程度的POI涉密问题。主要体现在标注了国家相关法律禁止在公开地图上表示的POI,即涉密POI,最常见的类型有:未核实是否对社会公众开放的涉军单位、发电站、变电站、石油化工厂、安康医院等。而目前只能在发现了POI涉密问题之后责令相关单位尽快将其删除,工作方式较为被动。

2. 我国相关管理规定

目前国家对公开地图上不可表示的内容有明确的法律规定,最主要的为《公开地图内容表示补充规定(试行)》《基础地理信息公开表示内容的规定(试行)》等。其中对公开地图中能表示和不能表示的内容有着明确的要求,它们是判定互联网地图上POI标注内容是否符合国家规定的主要依据。

3. POI涉密问题形成原因

互联网地图POI涉密问题的出现主要有两方面重要的原因:一是部分互联网地图服务企业从业人员对国家相关法律法规认识不够,不能明确POI内容表示的范围,甚至有少部分从业人员不知道有相关的法律法规;二是当前涉密POI识别软件算法没有一个统一的标准,各单位执行各自的软件识别算法,有的识别算法过于简单,不能高效、准确地筛查涉密POI,这是从技术角度封堵涉密POI传播的主要障碍。

二、国内互联网地图POI涉密问题解决办法

目前我国互联网地图POI涉密问题的解决需要从管理和技术两方面进行改进。

1. 加强宣传、培训等管理工作

针对互联网地图企业从业人员对国家在公开地图内容表示方面的法律法规意识淡薄的情况,可以通过以下3个方面进行加强:一是加强对从业人员的业务培训,增加培训的频率和强度,并定期进行考核,使从业人员正确认识POI涉密问题的严肃性,始终保持高度的警惕性;二是确保互联网地图服务企业中的要害岗位做到持证上岗,如外包POI数据入库检测岗位、社会公众上传POI数据检测岗位等;三是加强对数据采集单位从业人员的培训工作,目前主要培训对象为互联网地图服务企业人员,而很多企业的数据往往外包给了第三方,即专门的数据采集公司。加强对数据采集人员的培训,可提升他们的安全保密意识,将直接从数据的采集源头消除隐患,达到事半功倍的效果。

2. 优化软件识别算法

高效而准确的涉密POI软件识别算法是进行涉密POI监控、排查的核心技术手段,本文将对此部分内容进行详细设计。

专业的搜索引擎通常能够快速且准确地提供给我们想要的结果,这其中所用到的搜索技术通常包括搜索引擎优化(SEO)、关键词优化、自动分词、词法分析等方面[4]。另外,不难理解目前一些常用的杀毒软件在识别病毒、管理病毒库方面也应该与涉密POI涉密关键词库的管理有共通之处[5]。因此,涉密POI识别算法应以此作为切入点,深入发掘涉密POI识别与互联网搜索技术的共通点,广泛借鉴其先进的技术和策略,并结合涉密POI识别工作自身的特点,最终形成具有针对性强、识别效果理想的涉密POI识别方法。

(1) 建立白名单库

通过对涉密POI识别结果分析发现,有一类POI,如“解放军信阳军分区门诊部”,该POI名称中包含“解放军”“军分区”两个涉密关键词。首先,识别软件能够准确地将其识别出来;其次,经人工判断该POI表示的确实为军事单位。根据相关法规规定,涉及军事单位及军事设施等的内容不得在公开地图上表示[6]。初看,识别软件是将此涉密POI准确地识别出来了。但规定中还有一条关键性的补充说明:“对社会公众开放的除外”。而正是这个补充性的说明使得涉密识别的判定条件由限制性变成了非限制性[7],从而造成了一类误识别的产生。经外业采集人员实地考证,该部队医院是对社会公众开放的,因此是可以在公开地图上表示的。正是由于“是否对社会公众开放”这个不确定因素,使得涉密POI识别过程不得不加入后期人工的判断,否则就会出现大量的误识别。

针对这类误识别,可以通过建立涉密POI白名单库来解决。所谓白名单,是指规则中设置的允许使用的名单列表[8]。目前白名单策略被广泛用于计算机领域,如防火墙、杀毒软件、广告拦截软件等都用到了该策略[9]。

因此,可以在识别算法中引入白名单策略。每当出现此类误识别时,便可将相应的POI加入白名单库,一旦进入了白名单库,涉密POI识别软件就不再将其视为涉密POI了。这样就避免了此类误识别的发生。

(2) 通过涉密关键词组合判别POI

有这么一类误识别,以“沙井变电站公交站”为例,该POI名称中因为包含“变电站”涉密关键词,因此被识别软件当作涉密POI识别出来了,但是经过人工判断发现,该POI实则表示的是一个公交站而非变电站,属于非涉密POI。分析原因可知,决定这个POI涉密与否的关键词并不是“变电站”。

在专业搜索领域,人们将关键词分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前[10]。

受以上搜索策略的启发,针对此种类型的误识别,可以通过采用“涉密关键词+非涉密关键词”组合的形式对POI名称进行判断。具体算法为:当识别软件在某POI名称中发现了涉密关键词后,还应在其名称中进一步搜索是否含非涉密关键词(对于名称中未发现涉密关键词的POI无需执行此步骤),如果发现了非涉密关键词,那么就可以直接将此POI视为非涉密POI,无需再将其加入到识别结果列表中。这样即可避免此类误识别的发生。

需要注意的是,此改进算法需要建立非涉密关键词库,其中非涉密关键词的选取应当来自于对每次识别结果的认真分析。每当出现此类误识别时,即可将存在于该POI中的非涉密关键词加入词库中,对词库进行扩充。

(3) 通过词法分析提高关键词识别准确性

还有一类误识别是由于识别软件不能进行正确的词法分析所造成的。对于词法分析,科学的解释为:计算机科学中将字符序列转换为单词序列的过程。其主要任务是把接收到的自然语言进行切分,能正确地把一串连续的字符切分成单个的词,更进一步,还要为每个切分的词加上词性标记,以便于后续的句法分析的实现[11]。词法分析是理解自然语言中最小的语法单位的基础,最终决定语言理解的正确与否[12]。

以POI“吉林市船营区工商局”为例,通过人脑判断该POI,可知其表示的是工商局,是一个普通POI。人脑通过词法分析会将这个POI名称拆分为“吉林市”“船营区”“工商局”3个关键词,它们均不属于涉密关键词(其中“船营区”是吉林市的下属辖区名称)。如果识别软件中没有词法分析功能,就不能根据词法和语义对POI的名称进行正确的拆分。如在“吉林市船营区工商局”中,识别软件仅能简单地识别出“营区”这个涉密关键词,然后便将此POI视为涉密POI,从而产成了误识别。

因此,识别软件应当具有词法分析的功能,使其能够正确拆分出关键词,从而消除此类误识别。

(4) 优化涉密关键词设置

通过对日常识别结果的分析发现,有一部分误识别的发生与部分涉密关键词的设定不当有关。用这些涉密关键词所识别出来的涉密POI虽然名称中包含涉密关键词,但POI所表达的内容与想要提取的涉密内容几乎毫不相干。究其原因是这些涉密关键词的选取不能准确地体现相关内容的特征,即其体现的特征性不强[13]。

如“基地”这个涉密关键词,设定该关键词的初衷是想提取出类似军事训练基地的涉密POI。但是在实际识别过程中识别出的却是“琅山苗圃苗木基地”“北京师范大学国际学术交流中心教学基地”等大量非涉密POI。这实际上是违反了搜索引擎优化领域中“主关键词不可太宽泛”的原则[14]。因此,必须对“基地”这类涉密特征不强的关键词进行优化,如将“基地”关键词优化为更为具体的“军事基地”“训练基地”等,以提高其所反应内容的涉密特征性。

可以想象,如果长期持续地对涉密关键词进行优化,因涉密关键词选取不当而产生的误识别可逐渐消除。

(5) 关注涉密关键词在POI名称中的位置

除了考虑提高识别的正确率外,还应考虑提高识别的效率。

通过对日常识别结果的分析发现,有一类涉密POI,其涉密关键词一定在其POI名称的词尾位置,如“发电厂”“自来水厂”“监狱”等。当POI名称中具有这些关键词,且位于词尾位置,如“某发电厂”“某看守所”那么它们一定是涉密POI。

掌握了这个规律之后,可通过在识别软件中加入对涉密关键词位置判读的算法来提高识别效率:首先需要对位置敏感的涉密关键词进行特殊标记;然后,在识别过程中一旦发现某POI名称存在位置敏感涉密关键词,且其在POI名称中的位置与位置敏感涉密关键词中记录的位置一致,则可直接判定该POI为涉密POI,而不再对其进行其他判定,由此提升识别软件的识别效率。

(6) 改进后的识别算法简述

综合以上5点改进方案,得到大致的算法流程如图1所示。

图1 改进后的识别算法流程

从图1可以看到,改进后的软件算法将通过白名单库识别、位置敏感涉密关键词判定、非涉密关键词组合查询等流程快速识别涉密POI,既增加了识别结果的准确度,也提高了识别的效率。

三、结束语

本文分析了当前互联网地图中存在POI涉密问题的主要原因,并从管理和技术两个方面提出了解决办法。加强管理可以从主观方面增强相关从业人员对解决互联网地图POI涉密问题的动力,而改进涉密POI软件识别算法则从客观上保障了互联网地图POI涉密问题的技术实现能力。希望通过本文的研究可使互联网地图POI存在的涉密问题得以解决,最终使国家对互联网地图、导航电子地图等新兴地图传播、泄露涉密信息行为的监督、管理水平得到有效提升。

[1] 雷京华.公开地图的信息开放与安全问题探讨[J]. 测绘通报, 2010 (10):47-49.

[2] 百度百科.POI百科词条[EB/OL]. [2012-11-20].http:∥baike.baidu.com/subview/517279/5442944.htm#viewPageContent.

[3] 网易.央视《焦点访谈》警惕互联网地图泄密[EB/OL].[2010-05-18].http:∥tech.163.com/10/0518/09/66V49C75000915BF.html.

[4] 陈宁.基于网络的关键词检索技巧[J].中国科技信息,2008(2):115-117.

[5] 孟令强,关勇,张向红.基于可信计算的应用程序白名单管理系统[J].计算机安全,2010(10):16-21.

[6] 国家测绘地理信息局.公开地图内容表示补充规定(试行)[EB/OL].[2009-01-23].http:∥www.sbsm.gov.cn/article/zcfg/zygfxwj/201009/20100900072392.shtml.

[7] 张敏,张立.搜索引擎优化:技巧·策略·案例[M].北京:化学工业出版社,2012:159-161.

[8] 汪锋,周大水.白名单主动防御系统的设计与实现[J].计算机工程与设计,2011,32(7):2241-2243.

[9] 沈壮毫.基于白名单的Web应用程序安全防护[J].广州大学学报(自然科学版), 2012,11(6):27-30.

[10] 焦丽,路波. 搜索引擎优化策略研究[J]. 生产力研究,2010(7): 118-119.

[11] 王文杰,史忠植.人工智能原理辅导与练习[M].北京:清华大学出版社,2007:250.

[12] 黄莉.词法分析在自然语言分析处理中的地位和作用[J].价值工程,2010,29(10):157.

[13] 唐卫东,刘存后.基于关键词效能的搜索引擎优化策略分析[J]. 现代情报, 2011,31(10):36-41

[14] 李福良,张辉.企业网站SEO技术研究[J].合肥工业大学学报(自然科学版),2004,27(1):92-96.

TheClassifiedIssuesandSolutionsofPOIinDomesticInternetMaps

ZUO Dong,ZHANG Yuxin

左栋,张雨心.国内互联网地图POI存在的涉密问题及其解决办法[J].测绘通报,2016(9):108-111.

10.13474/j.cnki.11-2246.2016.0306.

P28

B

0494-0911(2016)09-0108-04

2016-04-12

左 栋(1983—),男,硕士,工程师,从事互联网地图技术审查工作。E-mail:83261568@qq.com

猜你喜欢

词法白名单名称
核电厂仪控系统安全防护策略研究及应用
UAC提示太烦 教你做个白名单
2019年“移动互联网应用自律白名单”出炉
应用于词法分析器的算法分析优化
沪港通一周成交概况
沪港通一周成交概况
沪港通一周成交概况
沪港通一周成交概况
移动互联网白名单认证向中小企业开放
语文学习方法之组词法浅谈