APP下载

兼顾语义的地图注记智能换行方法研究

2021-12-03

地理空间信息 2021年11期
关键词:标识符分词语义

张 伟

(1.福建省基础地理信息中心,福建 福州 350003)

地图是一种图形化的“语言”,记载了人类文明的变迁。随着互联网、计算机、移动设备技术的飞速发展,互联网地图也迅速被人们熟悉和应用。相较于传统纸质地图,互联网地图具有更新快、通俗易懂、功能丰富等优势,服务方式由直接提供数据转变为提供数据服务。地图标注则是地图的“点睛之笔”,在纸质地图时代,地图的更新周期相对较长,地图的应用面相对较窄,地图上标注的重要性也尤为重要,且有严格的专业标准;而互联网地图的应用面较广,面对的不仅是专业技术人员,还有很多普通大众,且依托不同平台的互联网地图还可通过搜索的方式提供其他附加信息,因此互联网地图标注的重要性相对传统纸质地图有所下降,但也形成了一套行业标准,如导航电子地图、天地图等。与传统地图不同,互联网地图上的标注具有更新快、涉及类别多、标准不统一等特点,因此电子地图注记的选取、表达与更新是制作互联网地图时需要考虑的一个 难点。

互联网地图信息丰富、应用面广,后台大量精确的地名兴趣点数据为其提供了支撑,但地图图面的信息承载量有限,需要在图面上进行合理标注,以保持地图的美观、详略得当。通常采用自动标注的方式,通过自动控制标注位置和标注长度来实现,目前主流的地理信息软件均可实现该功能;但略显不足的是,标注注记换行时一般只考虑字节长度而不考虑语义是否完整,使得换行后的可读性受到影响。若按照语义进行换行处理,则需在相应的位置添加一个换行标识符。在实际生产过程中,人工判断语义添加换行标识符的方式工作量巨大,不能满足当前快速更新的要求,因此本文提出了一种兼顾语义的地图标注智能换行方法。

1 常规互联网地图标注制作方法

目前主流的地理信息软件基本上都可以制作互联网地图。总体来说,互联网地图制作一般可分为编制不同比例尺的地图集和服务发布两个步骤。地图标注在编制地图阶段开展,主要是通过地名、兴趣点、道路、水系等地理信息数据的名称属性进行自动或手动标注。地图标注中数量较多的是地名和兴趣点注记,除了用于查询定位外,还可根据不同的互联网地图应用抽取不同类别和数量的注记进行地图图面标注。结合实际情况可知,地名注记一般长度较短,可不考虑换行标注问题,只需考虑兴趣点的换行标注问题。

编制互联网地图时,通常采用自动标注功能,可在指定位置进行标注,自动进行注记避让,大大提升了地图的表达效果,减少了人工工作量,如在ArcGIS中可利用Maplex注记处理引擎实现注记的各种优化显示,其中就包括注记的换行处理[1]。为了在有限的地图图面上表达美观而准确的注记,一般需对长注记进行换行处理。注记换行方法包括两种:①直接按照注记长度自动截断,进行换行标注;②通过人工添加换行标识符进行换行标注[2]。这两种方法各有优劣,前者可批量自动化实现,无需人工干预,但未考虑标注的语义,影响了注记阅读的舒适性;后者需人工添加换行标识符,可按照语义进行换行标注,但人工工作量大,显然不能满足当前地图信息更新速度的需求。本文主要对第二 种方法进行改进,通过自动中文分词并选取最佳换行位置添加换行标识符的方式,实现自动语义换行标注。

2 基于分词的地图注记智能换行标注

本方法主要采用语义分词和最佳位置自动选取两个关键技术。常用的互联网地图标注以中文为主,因此需采用中文分词技术。中文分词是中文自然语言处理的基础。中文分词模型算法主要经历了基于匹配的词典分词、基于标注的机器学习算法和基于理解的深度学习算法3个阶段,其中基于匹配的词典分词也称为机械分词;基于标注的机器学习算法和基于理解的深度学习算法统称为统计分词方法。目前研究的热点和难点还包括单一准则下的多模型集成算法和多准则分词[3]。jieba分词是一种适合中文分词的方法,其原理是基于统计词典,先构造一个前缀词典,再利用前缀词典对输入句子进行切分,得到所有的切分可能[4]。利用Python可以很简单方便地调用jieba工具包。通过多次试验认为,采用jieba分词可以满足当前应用的需要。分词后兴趣点最佳换行位置的选取主要利用FME进行开发。FME是加拿大Safe Software公司开发的 一套空间与非空间数据分析、处理、转换、共享的方案定制软件,支持超过325种格式的空间数据与非空间数据的处理和转换,能在转换过程中对数据的图形和属性做灵活处理,为进行快速、高质量、多需求的数据转换应用提供了高效、可靠的手段[5]。总体技术流程如图1所示。

图1 总体技术流程图

2.1 数据预处理

数据预处理主要包括数据格式转换和数据筛选。通常将兴趣点数据源转换为文本格式,便于处理。兴趣点一般为矢量的点格式,属性信息较多,但需要处理的只是兴趣点的名称字段,因此可将兴趣点转换为文本格式(如csv格式),只保留名称和唯一的挂接字段,便于将处理后的结果挂接回去,从而提高程序处理效率。综合考虑地图图面信息承载量和相关互联网地图生产规定,通常名称大于6个中文字符的兴趣点才需进行换行处理。

2.2 中文分词处理

中文分词是通过某种方法或方法的组合,将输入的中文文本基于某种需求并按照特定的规范划分为“词”的过程[6],因此中文分词处理是最关键的一步。兴趣点数据是比较单一的自然语言,词义简单、词语较少、不存在复杂句法,词性单一、停用词(如啊、的、且等)较少,这对中文分词的准确性是比较有利的。从实用性和可操作性考虑,本文采用jieba分词算法进行处理。jieba分词算法基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况构成的有向无环图(DAG),再采用动态规划查找最大概率路径,得到基于词频的最大切分组合;对于未登录词,采用基于汉字成词能力的HMM模型和Viterbi算法[7]。Jieba分词算法支持精确模式、全模式和搜索引擎模式3种分词模式,其中精确模式适用于文本分析;全模式可将句子中所有可以成词的词语都扫描出来,但存在歧义;搜索引擎模式是在精确模式的基础上再次切分长词,适用于搜索引擎分词。根据地图上兴趣点注记的特点,通过多次试验发现,地图标注采用精确模式较合适,jieba分词算法中默认模式即为精确模式。在Python中调用jieba.cut方法进行分词,并将分词结果存储在表格的另一列中。

2.3 最佳位置选取

通过中文分词将兴趣点分为多个词组,词组与词组之间采用“/”进行分割。分词解决了语义分割的问题,对于地图配图还需知道在哪个位置进行换行,因此需要选择换行的最佳位置,即从一系列的“/”中选择一个最佳位置。注记换行的最佳位置一般是标注的正中间,越靠近中间位置,注记换行显示效果就越好,如果太靠近头尾位置则认为未找到最佳位置。在FME程序设计时,先利用StringLengthCalculator函数计算POI的总长度,利用StringSearcher函数查找“/”符号,并获取其位置信息;再利用Tester函数将获取的位置信息与中间位置逐个进行比较,选取最接近中间的位置作为最佳位置;然后利用StringReplacer函数将“/”替换成“,”,便于在制图软件中进行换行识别;最后将其他的“/”清除掉。

对于未找到最佳位置的兴趣点名称,需要进行人工处理,通常可根据兴趣点的重要程度选择不标注或人工添加换行标识符,这种情况数量不多,一般不到总量的5%。自动生成的换行标识符还需进行人工核查,可根据兴趣点的重要程度对重要兴趣点进行重点核查,其他非重要兴趣点进行概查或抽查,以减少工作量。分词前、后以及自动选取最佳位置的效果如图2 所示。上述过程均在FME中实现,通过Python调用jieba分词算法进行分词,查找最佳换行位置并替换符号。为了结果能直接使用,可利用唯一码挂接字段与兴趣点数据进行挂接,输出分词后的结果,程序界面如图3、4所示。

图2 分词前、后以及选取最佳位置样例

图3 利用FME进行分词的程序界面

图4 利用FME选取最佳位置的程序界面

2.4 地图编辑设置

利用挂接后的处理结果即可在地理信息制图软件制作电子地图时实现换行显示的效果。以ArcGIS为例,采用Maplex标注引擎,在标注的自适应策略中的堆叠标注选项中设置堆叠分隔符为“,”,即可实现换行标注。未采用语义自动换行的注记显示效果如图5所示,采用语义自动换行的注记显示效果如图6所示,可以看出,采用语义换行可提升地图注记的可读性,也兼顾了注记的美观性,避免了上下两行注记数量差异太大。

图5 未采用语义自动换行的注记显示效果

图6 采用语义自动换行的注记显示效果

3 应用效果

“天地图·福建”是国家天地图的省级节点,电子地图的制作是其中的一项主要工作,近年来通过国家、省、市、县节点的数据融合,积累了大量的地名和兴趣点数据。本文方法主要应用于“天地图·福建”电子地图制作的注记制作中。目前全省地名兴趣点总量达到100万条以上,其中需进行换行标注处理的约有 30多万条,由于手工语义换行标注的工作量太大,只能将机关单位、学校、医院等公益性机构(约6万多条)等部分主要兴趣点进行手工语义换行处理,需要投入约30人天,其他的只能进行按照长度换行处理;而采用本文方法可对所有兴趣点进行自动语义换行处理,再加上后期的核查和手工处理工作,投入的全部工作量约为7人天,在处理效率和实现效果上均得到了很大提升。

4 结 语

随着互联网地图广泛深入的应用,地图数据的采集更新能力不断增强,采用传统的地图生产方式已不能满足当前互联网地图快速更新的需求,本文主要针对地图中长注记提出了一种兼顾语义的地图标注智能换行方法,保证了换行位置的合理性,增强了图面注记的可读性。该方法可对大批量的兴趣点进行自动化快速处理,提升了互联网地图生产和更新的效率。在“天地图·福建”的电子地图中,利用该方法大大提升了地图注记的生产效率和图面注记的可读性,缩短了互联网地图的更新周期。后续还需对英文、中英文混合的兴趣点名称的分词效果进行改进,对最佳位置的选择算法进行提升,最大限度地减少人工工作量。随着研究的深入,将中文分词与深度学习相结合,还可实现兴趣点的自动采集、自动智能分类、敏感信息自动脱敏处理以及兴趣点自动更新等一系列自动化处理,从而大大提升互联网地图的生产效率,使互联网地图更好地服务于政府和社会大众,在新时期的测绘工作中做好“两服务、两支撑”。

猜你喜欢

标识符分词语义
基于底层虚拟机的标识符混淆方法
分词在英语教学中的妙用
语言与语义
基于区块链的持久标识符系统①
结巴分词在词云中的应用
结巴分词在词云中的应用
数字美术馆“数字对象唯一标识符系统”建设需求浅议
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
数字图书馆推广工程唯一标识符体系构建研究*