APP下载

轨迹流数据清洗及附加语义信息的方法研究

2019-03-28

福建质量管理 2019年16期
关键词:数据挖掘轨迹语义

(云南财经大学 云南 昆明 650000)

一、流数据清洗的背景

数据清洗是数据挖掘的第一步,其质量结果直接关系到模型效果和最终结论。流数据清洗的任务是为了解决流数据中的“脏数据”:噪声数据和重复值[8]、缺失值[9]和异常值[10]。清洗流数据一般采用以下几种方法:基于规则约束的流数据清洗[1]、基于统计方法的流数据清洗[2]和基于统计的数据清洗方法[3]。

现如今在流数据清洗方面还是存在一定的不足:没有考虑到清洗后的数据保存问题,清洗后的流数据体积任然较大且保存代价较高;清洗完的数据没有附着语义信息,在用户的角度来看依旧是复杂的。在这样的情况下,对流数据清洗进行研究是必要的,在压缩数据体积的同时保证数据的质量、清洗完的数据附带了语义信息能提高数据挖掘算法的效率,这是有意义也是有价值的。国内外针对数据清洗的相关文献并不是很多,针对流数据清洗的文献更是少之又少。普遍都是一份数据对应一种清洗方法,没有适用于某一类或者某几类数据的清洗方法。本研究提出的方法,是将轨迹研究中提取停点和移动的方法用于流数据的清洗上,帮助修复异常值、补充缺失值和剔除冗余值,从而达到数据清洗的目的;清洗完的数据具备了语义信息,初步的行为动态分析不需要依赖数据挖掘算法。该方法可适用于多种数据,可以为日后的相关研究提供一些参考。

在实际应用中压缩数据的体积有利于降低数据保存的成本,并且在此基础上尽可能的保证信息的完整,有利于实现多次访问、挖掘数据,从而提炼出更多的有用价值。更好的进行缺失值估计、异常值修复在一些对数据完整性要求很高的应用中是极其重要的[7],为此进行流数据清洗方法的研究也是必要的。数据清洗是数据挖掘的第一步,为更好的帮助用户运用这些数据,以一种更直观的形式展现的数据会有助于用户的理解。拟提出的方法在上述应用层面会有一个良好的效果,为后续数据挖掘奠定基础。

二、语义信息抽取的背景

轨迹数据和地理数据在空间上是重叠的,为准确的分析轨迹数据,使其更直观明了,通常会从地理信息中抽取出相对应的语义信息进行附着。Brakatsoulas S等人指出轨迹数据的分析包括空间,非空间和轨迹数据的整合。其中整合与具体的应用场景是相结合的,需提前指定与轨迹分析相关的空间特征类型(例如,旅馆,旅游地点)[4]。Alvares L O等指出一些轨迹数据分析研究存在的问题便是缺乏语义信息的分析,为获得更多有价值的信息需要依靠更复杂的查询,如数据挖掘算法[5]。但在现实情况中,数据中的移动行为等问题需要通过结合轨迹和它们的语义信息来回答。Bogorny V等向我们展示了在不添加语义信息和添加语义信息两种情况下同一个查询的结果。实验表明在没有语义的轨迹中,轨迹与相关地理信息对象的关系需要进行多次的重复计算,效率较低[6]。而添加了抽取到的语义信息的轨迹在可视化图表中可清晰看出客户的行为动态,无需再次查找计算。

三、轨迹流数据清洗及附加语义信息的方法

(一)研究目标

研究提出一种新的使用于轨迹流数据的清洗方法以达到以下几点要求:

1.有效压缩清洗后的数据体积,降低数据保存成本。

2.清洗完成的数据需附带语义信息,可初步直观明了的看出轨迹动态及数据热点。

3.以上两点皆可以以图表的形式展现出来该方法的优势性和实用性。

(二)主要内容

现有研究并不能完全做到及时抓取流数据的有效信息,为降低数据保存的成本,本研究采用一种具有压缩效果的方法,实验于真实的商场室内轨迹流数据集,可有效减少数据体积并且在一定程度上保护了有效数据不被丢失,可有效保存数据。

数据清洗是对数据进行重新审查和校验的过程,其任务是过滤那些不符合要求的数据。在本研究所用的商场轨迹流数据中,用户的停留等行为会使得采集到的数据存在噪声和重复值。本研究提出一种数据清洗方法,用于将轨迹数据和与应用相关的地理信息进行整合,从而去除噪声及重复值。

缺失值估计在一些对数据完整性要求很高的应用中是极其重要的。然而,当前缺失值填充的算法主要针对整体修复,不适用于流数据,或者针对某领域数据无法推广使用,且计算复杂性过高。目前尚无较好的适用于流数据的缺失值填充算法提出。据此本研究拟设计适用于流数据的缺失值填充及异常值修复的算法。

语义信息提取是对轨迹进行一种语义补充,它表明原始轨迹可以进一步的被划分为语义片段,每个语义片段由它的开始时刻和结束时刻以及标识这个片段的定义标识值所表示。本研究所用到的语义,表示了地理空间特征类型(如超市,酒店,旅游景点等),区别于传统的流数据清洗方式,拟提出了一种流数据清洗方法,用于向数据添加语义信息,以便于在应用领域中可以更直观的进行数据分析,帮助理解数据。

(三)研究方案

1.使用合适的图像识别算法来识别商场地图像素,将每个商店覆盖的所有像素点放到各自的集合里。

2.针对输入的轨迹流数据,使用SMOT算法提取停点和移动。

停点:候选停点C定义为表示闭合的多边形,它是真实平面中各地理坐标的投影,是最小持续时间,是正实数。

移动:在T的两个停点之间的最大连续子轨迹;在T的起点和T的第一个停点之间的最大连续子轨迹;T的最后一个停点与终点之间的最大连续子轨迹T;如果T没有停点,那就是轨迹T本身;这四种情形被定义为移动。

SMOT算法思想:验证轨迹T的每个点是否与的几何形状相交。在肯定的情况下,查看交叉的持续时间是否大于等于给定的阈值。如果满足上述条件,则将相交的候选停点视为停点,并记录该停点。

3.判断提取的停点和移动是否属于某商店像素点集合,如果是,则判断该停点和移动在这个商店里。并依据已经确定的停点和移动删除噪点和重复点、修复异常值以及填补缺失值。

4.为清洗完成的数据附上语义信息,得到语义轨迹数据集。用其他的清洗方法对实验数据进行清洗,比较验证算法的性能优势。

四、结束语

流数据有一个十分明显的特点,那就是体积过于庞大。受存储空间的限制,流数据在产生后必须及时有效的对信息进行抓取,避免有效信息的丢失。但现有研究并不能完全做到及时抓取有效信息,为降低数据保存的成本,本文采用了一种具有压缩效果的方法,可有效减少数据体积并且在一定程度上保护了有效数据不被丢失,可有效保存数据。经过实验证明使用本文提出的方法清洗数据得到了较好的实验结果,数据体积成功压缩且有价值的数据也被成功的保存下来,附着语义信息的数据可以被直观明了的表现出来。但是由于流数据的特殊性质,在方法效率上本文提出的方法还有着很大的不足。该方法运行时间较长且对存储空间也有一定的要求,今后工作的方向将着力于此不足之处。

猜你喜欢

数据挖掘轨迹语义
探讨人工智能与数据挖掘发展趋势
轨迹
轨迹
语言与语义
轨迹
进化的轨迹(一)——进化,无尽的适应
基于并行计算的大数据挖掘在电网中的应用
“上”与“下”语义的不对称性及其认知阐释
一种基于Hadoop的大数据挖掘云服务及应用
认知范畴模糊与语义模糊