APP下载

面向移动用户行为的地理坐标数据语义转化模型*

2020-07-22杨金庆叶光辉

图书馆论坛 2020年7期
关键词:本体关联语义

杨金庆,叶光辉

0 引言

用户移动轨迹数据是移动用户行为研究最基本的数据支撑,有助于深入分析用户行为规律,构建更加精细的用户画像,挖掘用户行为偏好。用户移动轨迹数据不仅是具象的地理坐标数据集合,还蕴含着用户行为的抽象内涵。社会角色不同的用户具有不同的活动轨迹,其行为模式也存在差异,解读地理坐标数据下的语义内涵能够识别用户的社会角色和行为模式。从认知科学角度来讲,人类行为的核心方面依赖于主体的知识以及从中所作出的推断并将其转化为行为意向[1]24-78。地理坐标数据语义转化符合用户认知,是数据向信息转化的必然过程。地理坐标数据是极为准确的地理位置信息数值化表达,以此表达用户行为轨迹缺乏语义内涵,则难以理解用户行为意图。例如,“某人在经纬度为(A,B)的地理位置停留一小时”的表达,就较难以理解用户偏好和行为意图,而“某人在C 图书馆停留1 小时”的语义化则较为容易理解用户的行为意图。

本文地理坐标数据分析所采用的方法主要借鉴关联数据理论及技术。关联数据技术可将文本潜在的语义关系进行显式揭示和表达,构建起层级清晰、语义关系明确的网络。大量精确的地理坐标数据蕴含着地理语义信息,但需要经过解析才能得到相应的地名实体信息。地名实体的空间语义特征不仅包含实体所赋予的功能角色、人文历史等,还包括实体间联系的空间关系。空间相邻、功能相似的不同语义的地名实体,从用户行为数字轨迹上存在邻近相似,在用户行为语义内涵上具有相似的行为习惯。在语义转化过程中,地理坐标数据语义转化面临着隐含的关联信息难以有效表达、地理坐标数据空间层面的语义关联关系难以构建等问题。地理实体不仅具有社会功能属性甚至还具有丰富的人文背景信息,数据关联能为地理实体名称提供大量的实体内涵描述,为用户行为意图分析提供充分的语料。用户行为轨迹的社会功能及人文背景分析、转化后的抽象描述有利于把握用户的行为偏好以及生活习惯。鉴于传统的信息组织方法无法识别数据间的潜在空间关系,本文采用关联数据技术进行地理语义信息组织,同时利用空间本体表征地理坐标数据的空间语义关联关系构建地理坐标数据语义转化模型。

1 研究进展与评述

本文相关研究主要从关联数据和地理坐标数据语义化两个维度展开。关联数据通过RDF数据模型和本体可以将原本隐含在数据背后的语义关系进行明确关联和表达,其存在一整套相对成熟和完善的理论、方法、模型,而且也还处于不断完善的阶段,对相关研究充分调研有助于更好地利用关联数据来实现地理坐标数据的语义化;地理坐标语义转化目前涉及到方法不一而足,相关研究主要聚焦用户地理行为数据聚类和地理语义表达两个维度,这些已经开展的研究为本文模型设计提供有力支撑。

1.1 关联数据研究

关联数据技术作为一种新型的信息组织方式,一经提出,政府、企业、图书馆等行业及各类科研机构就展开了大量研究与实践。牟冬梅等[2]为解决数据异构问题,利用关联数据技术将资源颗粒化,结合本体技术细粒度组织聚合不同结构、类型、来源和关联强度的数字资源。沈志宏等[3]设计及归纳了关联数据的发布流程,包括数据建模、实体命名、实体RDF化、实体关联化、实体发布和开放查询6个步骤。在数据关联分析过程中,不同资源对象在各个层面的语义互操作问题是实现关联的关键环节,针对该问题,贾君枝等[4]从资源对象、谓词、属性值层面提出资源间不同关系(如等同关系、等级关系、相关关系)的语义互操作方法。张艳侠等[5]分析了关联数据和本体在VIVO系统中语义互联的作用,探讨关联数据协同本体实现资源语义互联的机理,构建资源间语义关系,实现语义层面的资源互联。除语义互操作问题,资源间语义关系的揭示也是关联数据分析过程中需要重视的环节,据此相关研究者也开展了研究。崔家旺等[6]构建基于关联数据的类簇语义关系,为共词聚类结果的理解和分析提供了新方式。成全等[7]通过对比、剖析关联数据在语义发现和关联构建领域的研究,总结出关联数据语义发现与关联构建过程遵循的数据处理流程。董坤[8]提出一种基于关联数据的高校知识资源语义化组织框架,实现对高校知识资源及其关联关系的语义化描述。王萍等[9]以国内文化遗产领域数字化资源为研究对象,围绕资源内容描述规则、语义知识本体模型设计、元数据语义化操作和关联数据发布等方面开展了数字资源语义融合方法研究。综上所述,关联数据技术在语义揭示、语义关联和语义网络构建等领域具有重要的应用场景,但围绕地理数据所作的关联研究还相对较少。

1.2 地理坐标数据语义转化研究

目前该主题相关研究主要聚焦两方面:(1)从数据聚类角度,采用聚类方法抽取关键地理实体,表达一定范围地理坐标数据的语义信息。Daniel Ashbrook等[10]采用K-means聚类方式将地理坐标数据以15米为范围半径进行地名实体语义信息表达。Jong Hee Kang等[11]提出一种融合时间和距离的聚类方法,抽取用户行为轨迹中的重要地名实体,以重要地名实体名称描述相应范围内的地理坐标数据的语义信息;聚类发掘地理语义信息有助于增强重要地名实体地标效应,易于发现用户日常行为轨迹,但空间粒度难以控制;地理空间语义关联能够充分表达地名实体间的空间、层级关系,对空间粒度大小具有操控能力。相关研究仍存在空间语义信息描述不充分、语义人文、功能信息缺乏等问题。(2)从数据关联角度,利用关联数据技术,构建地理坐标数据在空间层面的语义关联。李国忠等[12]通过对地理数据进行语义关系分析,构建地理本体数据库以检查地理数据的语义一致性,实现地理信息服务智能化。王坤等[13]从地理信息语义关系角度,以国家基础地理要素分类体系为概念域,从行政、隶属、空间形态等方面对地理概念的语义关系进行筛选和显式定义,重构地理要素间多元语义关系。刘凤臣等[14]利用关联数据技术组织和描述地理数据,发掘地理数据间隐含的语义关系,实现地理数据在空间层面的语义关联。地理数据本质上反映了关联主体(多为用户)的行为规律,对此相关研究者提出通过用户日程建模和提取法,借助用户访问地理位置数据中发掘用户行为模式,获取用户日程行为语义[15]85-96。重要地名实体聚类和用户行为模式发掘都是从用户行为轨迹整体角度出发,以重要地名实体表达用户行为地理语义。这种方式对于连续性地理坐标数据的语义挖掘较为实用,但该方法仅是从用户整体轨迹语义描述的角度出发,缺乏对单一地名实体语义信息的充分描述。每一个地理坐标数据都蕴含着地理语义信息,在不同的空间粒度下,相同的地理坐标数据可解析出不同层级的地理语义信息;此外,不同层级的地理语义信息蕴含着不同深度的地理人文信息。因此,目前地理坐标数据语义转化分析还存在较大的拓展空间。

融合本文1.1节研究,可以发现聚类抽取地名实体的方式是实现地理坐标数据语义转化的重要方法,可有效表达用户行为偏好,但难以表达地名实体间的空间关系,不利于精细化构建用户画像。关联数据是一种擅于构建语义关系(包括空间关系)的信息组织形式,能够将地理实体的层级和空间关系映射到不同层级的地理语义信息,为本文的地理坐标数据语义转化模型提供了有力的理论支撑。

2 地理坐标数据语义转化建模

地理语义信息网作为新型地理信息组织方式将助力于智慧中国、智慧城市的构建以满足地理信息服务智能化需求。地理坐标数据蕴含地理语义信息,需借助语义关联技术揭示语义关系,深入解读相应地点语义信息。目前,地理坐标数据主要来源于GPS和移动设备信号塔所确定的经纬度数据。地理坐标数据的语义转化主要包括地理坐标数据预处理、关联数据构建以及语义转化等三个重要部分组成。地理坐标数据预处理是指利用反地理编码技术进行地理实体抽取,并针对相应的语义地理实体进行地理信息描述。关联数据构建包括地理本体构建和本体语义推理两个部分,利用空间本体构建地理坐标数据的空间语义关联关系,推理地理数据间隐含的语义关系,实现地理数据在空间层面的语义关联。语义转化过程需考虑用户行为的区域性,以及行为目的指向性特点。语义化地理区域识别使得语义转化过程不仅描述单一地理位置的语义信息,而且表达地理坐标数据的空间关系。地理坐标数据语义转化模型构建流程如图1所示。

图1 地理坐标数据语义转化模型

2.1 数据处理

移动智能环境下,地理空间行为数据主要以地理坐标数据的形式存在,移动智能设备能够感知来自GPS定位系统和通讯信号塔的地理坐标数据(经纬度记录)。为了有效发掘地理实体潜在语义关系,本研究首先利用反地理编码技术对地理坐标数据进行初始语义转化,然后采用自然语言处理中的命名实体认知方法(NER)抽取相应地理语义实体,最后结合黄页网站信息以及现存的关联数据(如DBpedia)对地理语义实体进行信息描述。本文对地理坐标数据进行数据清洗并完成反地理编码、地点实体识别抽取。地理坐标数据预处理算法如表1所示。

2.2 关联数据构建

关联数据构建过程由RDF数据模型和地理空间本体构建组成,RDF数据模型将确定地理实体术语并构建地理实体关系图谱;地理空间本体能够对地理数据涉及到的空间特征进行语义关系的明确表达。RDF数据模型是关联数据的基础,该模型中各数据元素存在关联,提供合并各种来源数据所需的通用框架。本文采用URI命名实体、谓词和某些客体(三元组)的形式实现地理实体相互连接以形成图谱。针对地理实体关联数据所用术语,本文参照Geonames(全球地理数据库)构建具有区域性、功能性以及富含人文信息的地理实体RDF数据模型。

任何一个理论的传播都离不开大众媒介,“人类有了某种媒介才有可能从事与之相适应的传播和其他社会活动。”麦克卢汉说:“正是传播媒介在形式上的特性——它在多种多样的物质条件下一再重现——而不是特定的讯息内容,构成了传播媒介的历史行为功效。”[1]148“媒介是理论传播的助推器和重要载体。传播媒介大致有两种含义:第一,它指信息传递的载体、渠道、中介物、工具或技术手段;第二,它指从事信息的采集、加工制作或传播的社会组织。”[1]147

表1 地理坐标数据预处理算法

地理本体是哲学本体和信息本体技术的发展,地理本体具有信息本体属性特征的同时,还具有地理信息所特有的空间特征。本体语言对地理本体形式化的描述有利于机器的理解和地理本体模型的逻辑推理。本文按照语义元数据格式对地理实体进行本体构建,并以RDF三元组形式实现机器理解地理坐标数据在空间层面上的语义关联。由于地理本体需要描述地理信息的空间特征,因此地理本体不仅包含属性关系还包含空间关系。本文构建本体时主要考虑三种空间关系:(1)行政等级。是指地理位置在行政区域方面的空间等级关系;(2)拓扑关系。是指地理信息所具有的相邻、连接、相离、相交等空间关系;(3)位置关系。是指相对位置关系,包括方位等。在地理实体RDF数据模型的基础上,结合地理空间特征构建语义本体模型,如图2所示。

地理坐标语义本体是地理本体的一种特殊形式,由概念或类、地理关系、函数、公理和实例构成,本文称之为地理空间本体。本模型是将地理坐标数据反地理编码后的初始语义地理信息以及识别的地理实体进行本体元素抽取、提炼、构建关联关系,其中相关元素的含义如表2所示。

图2 地理坐标数据语义本体模型

3 实证分析

3.1 数据来源

本研究旨在探索地理坐标数据语义转化过程中地理信息语义的充分表达,以发现用户行为意图和偏好。实验数据是通过开源情境数据采集软件AWARE,采集某高校20位志愿者于2016年10月15-30日的行为记录。将20位用户移动智能手机中locations.db数据库导出,初步数据整理,共抽取13 余万条连续的地理坐标数据。Location数据库树形结构如图3所示。其中包括android_metadata、locations、sqlite_sequence数据库表,locations表中记录了时间戳(timestamp)、用户 ID(device_id)、经度(double_latitude)、纬度(double_longitude)以及地理坐标数据来源方式(network/gps)。具体数据格式如表3所示。

表2 地理坐标数据语义本体模型元素含义

图3 locations.db数据库树形结构

地理坐标数据预处理是地理空间本体构建的前奏,即将地理坐标数据进行反地理编码获取初始的地理语义信息,然后识别抽取地名实体名称。依据本文2.1节中的数据预处理程序,对20位用户的地理坐标行为数据进行预处理,获取包含用户编码(user_id)、经度(double_latitude)、纬 度 (double_longitude)、 语义 地址 (address)、地理实体名称(geo-entity)的地理坐标数据-实体名称映射表,如表4 所示(以359**998 用户为例)。

表3 locations地理坐标数据表

表4 地理坐标数据——实体名称映射表

3.2 地理空间本体构建

本文从空间信息和文本信息两个角度构建地理坐标数据语义化本体。地理本体是本体的特定应用领域,借鉴斯坦福大学医学院“七步法”本体构建思路,自动和半自动地构建地理空间本体,结合数据源特征以空间区域中的高校场所子本体为例,建模步骤如下:

(1)确定地理本体的行政区域层级和范畴。地理本体层级主要来源于国家行政区划代码,以及机构层级设置等。

(2)获取地理领域知识赋予地理实体人文环境及功能属性。地理实体处于人文社会环境之中,不仅具有社会功能属性,还具有历史文化背景,为理解用户行为意图提供语义参考。

(3)从领域知识中提取类和类的层级关系。高校子本体主要借鉴行政区划代码和机构层级设置两种层次分类方法,对某高校地理实体进行层级划分和精确描述,如表5所示。

表5 高校子本体中部分类及层级关系

表6 高校场所类的属性及其取值

表7 高校子本体的属性列表

(5)依据属性定义和约束类。本文采用Protégé 文本编辑器自动和半自动方法构建地理空间本体,可依据定义好的属性对高校子本体加以定义,高校子本体的部分类定义如表8。

表8 高校场所类的定义

(6)创建地理本体实例。地理空间本体构建主要依赖于数据预处理阶段的地理实体识别抽取,以及本文3.2节中地理坐标数据语义本体模型所描述的地理属性关系、地理实体自身所具有的空间关系。本文采用Protégé 文本编辑器,依据识别的地理实体以及地理空间关系,并参照地理坐标数据语义本体模型,对特定区域用户行为坐标数据进行语义化本体构建,如图4所示。

图4 地理空间本体实例

目前对地理本体空间关系的表达主要方法还是利用OWL建模语言,其中is_close_to表达位置关系中的邻近;拓展关系中的is_isolated_with表示相离;has_been_thrtough 表示横穿;is_part_of表示行政等级关系。本文根据RDF数据模型,通过地理空间本体构建,明确表达某高校地理对象间的语义关系,并以OWL建模语言形式存储,如图5所示。

图5 OWL文件片段

3.3 地理坐标数据语义转化

地理坐标语义转化是利用地理语义关系将用户行为地理坐标数据进行地理空间关系构建以及用户行为意图理解。地理坐标数据语义转化过程中需考虑用户行为区域性问题,用户行为的区域性特点影响用户行为规律分析。本文实验对象为高校学生,结合本文3.2节空间本体的构建过程,对高校子本体进行可视化,如图6所示。

图6 高校子本体的简单示例

以编号为359**998用户行为坐标数据,借助地理关联数据库,对用户行为进行语义描述。该用户行为具有明显的区域性,通过对地理行政关系树遍历得出用户活动区域主要分为“武汉洪山”和“湖南衡阳”。对用户“武汉洪山”坐标行为数据的语义转化能抽象描述如图7所示。

图7 用户行为地理坐标数据语义转化抽象描述

针对高校学生行为轨迹的关联分析,融合空间关系和地理实体社会功能的地理坐标语义转化模型将为用户行为相似度计算、用户行为偏好挖掘、用户行为意图理解等提供技术支持,同时拓宽用户行为研究的维度,提升地理空间信息在用户行为研究领域的效应。

(1)改进用户行为相似度计算。以往针对地理空间数据的相似度计算,多以地理实体名称匹配相似,此种方式忽略了地理空间数据内含的空间关系。正如图7所示,不同语义的地理实体名称在空间上可能相邻,功能上可能相似,从用户行为轨迹上存在邻近相似性,在用户行为偏好上具有相似的行为习惯。

(2)提升用户行为意图理解。地理实体不仅具有社会功能属性甚至还具有丰富的人文背景信息,数据关联能为地理实体名称提供大量的实体内涵描述,为用户行为意图分析提供充分的语料。正如图7所示,用户的行为具有目的性,通过对行为轨迹的社会功能及人文背景的分析,转化之后的抽象描述有助于把握用户的行为偏好以及生活习惯。

4 结语

本文采用关联数据技术进行地理语义信息组织,同时利用空间本体构建地理坐标数据的空间语义关联关系。首先,利用反地理编码技术对地理坐标数据进行前期语义转化;其次,采用自然语言处理中的命名实体认知方法(NER)抽取相应地理语义实体;然后,依赖数据预处理阶段识别抽取的地理实体构建地理空间本体,并以OWL

建模语义存储;最后,根据存储的关联数据库,对用户行为坐标数据进行语义转化。本研究将用户行为数据语义化的过程中,不仅转化了地理坐标数据所内含的用户行为习惯,同时保留了地理信息所独有的空间关系,使得用户在认知范围内更好地理解坐标数据所隐含的语义内容。可是,由于地理数据空间关系较为复杂,本文只考虑位置关系、行政等级关系以及拓扑关系,对于特定研究可能存在语义转化不充分的弊端。后续研究将针对地理坐标语义转化可以融入时间维度,形成用户行为片段,以深入挖掘用户行为规律。

猜你喜欢

本体关联语义
真实场景水下语义分割方法及数据集
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
眼睛是“本体”
“一带一路”递进,关联民生更紧
一种基于社会选择的本体聚类与合并机制
奇趣搭配
智趣
“吃+NP”的语义生成机制研究
情感形容词‘うっとうしい’、‘わずらわしい’、‘めんどうくさい’的语义分析
汉语依凭介词的语义范畴