文本地理编码关键技术研究与分析
2019-06-05闫梦宇钟志农
闫梦宇,钟志农,景 宁,吴 烨
(国防科技大学电子科学学院,湖南 长沙 410073)
海量新闻及社交媒体消息以不同形式涉及大量地理内容,这一特征使得更多非结构化文本可服务于传统GIS。同时,多样的信息检索用户对以地理位置为导向的检索需求,将进一步推动地理信息检索(GIR)领域发展,以探索具有空间位置感知的检索系统。因此,文本信息与现实地理位置关联是任何GIR系统的核心。解决这一问题的关键即文本地理编码,又称地理解析[1]、地理标记[2],是将文本映射到某一经纬度坐标等唯一编码的过程。随着各领域对地理信息需求的不断增长,文本地理编码作为沟通抽象文本数据与真实空间的桥梁,在各行各业的技术支撑作用日益突出,如新闻地图、基于地域信息的推荐系统、舆情及自然灾害监测分析等。
本文通过综合国内外研究现状,对文本地理编码关键技术进行分类总结分析,提出该领域未来的研究工作和面临的挑战,为文本地理编码进一步相关研究提供了新的思路。
1 文本地理编码方法
文本地理编码系统化研究源于1994年的GIPSY[3],利用地名辞典及一系列启发式手段解析文本地名等地理信息。典型的地理信息检索系统如Web-a-Where[4]、SPIRIT[5]、NewsStand[6]等主要针对新闻或网页文本进行地理编码。而社交媒体因时效性强、内容具体,在地理编码问题上也逐渐引起学者们的关注。总体上,当前的文本地理编码主要分为两种方式:传统的基于文本分析的地理编码和基于语言模型的地理编码。基本方法框架如图1所示。
1.1 基于文本分析的地理编码
由于互联网中大多文本不具有地理标记,需要通过对具体内容的解析判断文本位置。因此,长期以来基于文本分析的地理编码成为解决文本与地理信息关联的主要手段。经典的基于文本分析的地理编码系统Web-a-Where采用一种适用于大规模网页文本的地理编码方法,主要有3个步骤:地理实体识别、地理实体消歧和文本位置聚焦。系统基于地名辞典实现网页中地名实体识别,结合语境及缺省信息对候选地理实体集合进行歧义消除,并利用地名词频与隶属关系进一步实现网页位置聚焦。此后的国内外学者大多由这3个步骤出发尝试不同改进策略。
1.1.1 地理实体识别
目前,地理实体识别对象多为地名,根据不同应用需求,也有学者对其进行扩展,如文献[7]将地理实体识别的内容扩展到对空间关系描述短语的解释。地理实体识别主要包括3种方法:基于地名辞典的方法、基于规则的方法、基于机器学习的方法。
1.1.1.1 基于地名辞典的方法
基于地名辞典的方法即采用字符串匹配思想识别地名。地名辞典通常包含地区名称、行政区划类别及空间坐标或空间范围,常用地名辞典有:GeoName、OSM、GNS、GINS等。基于地名辞典的准确率在很大程度上取决于辞典完备性,因此很多学者结合相似性度量[8]或实体识别工具[9]等其他方法。目前,较为成熟的地理实体识别工具包括在线地理标记工具OpenCalais、CLAVIN,以及一些自然语言处理工具包OpenNLP、GATE、LingPipe、ICTCLAS等。
1.1.1.2 基于规则的方法
基于规则的方法选用特征包括统计信息、标点符号、指示词等,通过对每个规则赋予权重,由权值判断命名实体是否为地理实体。但地名往往具有模糊性、多样性和动态性,而且规则制定依赖具体语言、领域和文本风格,难以覆盖所有语言现象。因此,基于规则的方式仍存在较大技术难点及潜在漏洞,通常作为辅助手段配合其他技术方法使用。
1.1.1.3 基于机器学习的方法
基于机器学习的方法利用一组地名标注文本构造地名识别模型。其中,条件随机场(CRF)因具有良好的识别率而被广泛使用。文献[10]基于CRF和篇章地名关系识别地名,准确率达96.31%;针对目前已有地名识别方法未充分考虑地名构成和使用习惯等特征的问题,文献[11]分析了中文地名用字特征,并融入条件随机场方法中,召回率、准确率分别达到92.69%、96.73%。
3种地理实体识别方法比较分析见表1。由于以上3种方法存在各自优缺点,许多学者开始探索结合不同方式的地理实体识别。主要通过:①方法技术整体融合,如文献[12]顾及语言特征,提出了基于CRFs和规则模型的地名信息抽取方法。②模型、算法分步累加,如文献[13]使用双层CRF模型后,利用规则对识别结果进行过滤修剪和补召。
表1 3种地理实体识别方法比较分析
1.1.2 地理实体消歧
由于人类认知的逐层抽象和表达方式的多样化,地理实体定位多存在歧义,主要有geo/non-geo歧义,即地名同时具有非地理含义,如人名;geo/geo歧义,即同一地名指称多个地理实体。消歧方法可分为:基于数据驱动的方法,文献[14]将多种特征融入地理实体识别训练模型消除geo/non-geo歧义;基于外部资源和规则的方法,利用地名库和文本语境线索规则消歧,与实际人们理解文本空间语义策略一致,是目前的主流方法,包括利用共现地名之间地理语义关联消歧[15]、地图和语义相结合[16]、基于认知显著度[10]。其他消歧方法如文献[17]提出的垂直geo/non-geo歧义消除方法,利用语境中非地理特征描述确定未出现在文本中的细粒度地名;文献[18]针对微博文本内容存在的表达不规范问题,提出了模糊匹配方式,有效提高召回率。随着网络文本不断涌现,互联网作为海量语料库,提供了表达丰富、覆盖广泛的背景知识,多源知识融合将为地理实体消歧提供新的方向。
1.1.3 文本位置聚焦
位置聚焦是利用语境知识对已确定地理实体的进一步去噪过程,优化信息提取质量以提高可用性。主要由衡量地理实体在文本中重要性的因素决定,包括词频、分布位置和共现实体之间隶属关系,也可综合多种因素:文献[6]兼顾词频与分布位置;文献[4]融合频次和隶属关系,解决了不同细粒度上的聚焦问题;文献[17]利用树结构表示地名行政隶属关系,结合覆盖率和信息熵量化各实体节点在文中的重要性。位置聚焦相比消歧更具主观性,当前方法多从语义层面考虑,仍存在片面性和局限性,下一步可将语境知识与地图数据相结合,集成多种判断方法以提升位置聚焦的准确性和普适性。
1.2 基于语言模型的文本地理编码
自2009年Twitter提出签到理念后,越来越多社交媒体为用户提供了位置标记功能。及时、广泛的社交媒体消息将人们所处空间与其相应认知相结合,成为空间位置特征的直接表达,为文本地理编码提供了全新发展机遇。为减少对显式地理信息的依赖,人们提出数据驱动方法,通过构建语言模型对文本进行地理编码。其思想是将带有位置标记的文本作为训练集构建不同区域语言特征模型,结合文本分类技术实现未标记文本位置估计。
基于语言模型的经典方法如文献[19],作者采用规则正方形格网进行区域划分,根据地理标记将文本关联至相应单元格;计算各格网中词汇分布模型,从而将地理编码转化为文本相似度计算问题;通过寻找与待编码文本最相似的分布确定文本所在网格,以单元格中心坐标表示文本位置。随后很多学者从以下3个方面进行改进:①模型构建方面,包括区域语言特征表现形式:利用更复杂的主题模型作为文本及区域的表示[20];训练数据去噪:利用词语地理分布空间变化模型[21-22]或基于特征选择[23-24]筛除训练文本中非地理指示词,构造更具地域特征的语言模型,提高模型稳健性和编码准确性。②格网划分方面,主要有多级网格相结合的判断方法[25],通过捕获不同粒度下语言特征模型,提高地理编码可靠性;动态格网划分[26-27],解决固定格网划分造成的数据分布不均问题;基于多边形划分格网的方法[28]。③坐标选取方面,利用区域质心[29]、文本相似度加权平均的区域重心[23]等。
基于语言模型的地理编码始终面临着模型对训练数据依赖性较强的问题。为提高模型可扩展性,利用多源数据、融合多方面语言表达特征构建语言模型[30]成为下一步发展趋势。当前基于语言模型的地理编码大多以词袋模型作为假设,未顾及上下文语境,随着信息检索领域不断出现新技术,各种语言模型的相继提出[31]为解决这一问题提供了更多借鉴。
2 文本地理编码技术下一步研究工作的思考
2.1 地名数据库更新维护
地名数据库是研究基于文本分析地理编码的基础,而已有地名库存在的细粒度地名匮乏、地名属性等地理语义信息不完善等问题亟待解决。传统地名库更新维护依靠人工测绘完成,无法满足时效性需求。随着网络资源日益丰富,利用互联网采集数据为地名库更新维护提供了新思路。一些学者尝试基于网络爬虫[32]获取网页文本中新地名与地名空间位置信息;众包与移动互联结合,发动更多公众参与到地理数据获取上来,为地名库提供更翔实的数据来源[33]。另外,网络中开源地名数据质量参差不齐、规范不统一,因此多源地理数据一致性处理是利用互联网技术更新维护地名数据库的重点研究问题。
2.2 多源异构数据融合
当前文本地理编码多由单一数据源出发研究,方法之间难以相互扩展。大数据时代下,多源异构知识融合作为重要研究领域,为研究者从众多分散、异构数据源和知识源中挖掘出更多隐含、有价值的信息和知识提供了有效手段。一些学者综合分析用户在不同社交媒体上发布的文本信息[27],有效提高了地理编码的准确性。与此同时,随着近些年多媒体信息技术多元化、网络化、智能化的发展,已有很多学者在其他多媒体资源如视频[34]、图像[35]等地理编码工作上取得了一定进展,为下一步文本地理编码提供了更为丰富的可用资源及借鉴方法。
2.3 多方法集成应用
目前,人们对自然语言多样性、模糊性缺乏深刻认识,地理语义利用尚不完善。尽管越来越多文本地理编码采用机器学习完成,但大数据的复杂性使机器学习在学习效率等方面遇到新的挑战。深度学习是当前大数据分析处理的研究热点,已有学者将其应用到文本地理编码中[36-37],取得了不错的效果。但大量标注样本不可避免,如何基于更少样本训练模型令人期待。而对于特定领域,文本采取简单的规则或利用地名辞典就可以取得较为满意的结果。因此,应将这些技术方法集成应用实现互补,提高文本地理编码效率使之在实用性上取得更大突破。
3 结 语
文本地理编码是地理信息检索的重要环节,本文对当前文本地理编码相关研究进行了全面分析总结,对存在问题提出了研究建议。在互联网高度发达的今天,文本信息中的地理位置成为检索关注点,文本地理编码也由传统的基于地名数据库和规则的方法逐步扩展至机器学习甚至深度学习领域。根据语境的地理检索驱动着地理信息检索走向智能化、高效化和适用化,也为地理编码研究工作提供了一个导向。文本中潜藏的地理位置信息的价值是巨大的,相信经过研究者不断的实践和探索,文本地理编码技术会逐步趋于成熟和完善,从而更好地为我国社会和国民经济建设服务。