基于过程发现的RFID数据轨迹生成方法
2022-05-12冯健文
冯健文
(韩山师范学院教务处,潮州 521041)
0 引言
附带射频识别(RFID)技术的移动对象应用,如身份证、通行卡、消费卡、手环、电子手表等已广泛应用于社会各领域,从移动对象RFID时 空 轨 迹(RFID spatio-temporal trajectories,RFID-STR)数据中挖掘移动对象的移动模式与规律,具有重要的社会和应用价值。
某次RFID-STR数据代表移动对象的一次业务应用,如上班打卡考勤。从业务点关联的角度看,RFID-STR 数据分为两类:一是多点轨迹(MRFID-STR),轨迹中各业务点明显属于某个业务流程,数据格式和语义一致,例如安装GPS 设备的出租车、公交车、物流等;另一类是单点轨迹(SRFID-STR),轨迹中只包含单个业务点数据,不同的轨迹间没有明显的关联和约束,且可能存在数据格式和语义异构,即无业务流程特征。
当前对于单点轨迹的研究多属于单个业务点的特征分析。复旦大学从一卡通共享数据库中查询统计大学生消费水平,为贫困生认定和困难补助发放提供依据。大连医科大学以时间为序把一卡通消费记录整合成为每个人在校园内不同场所的消费信息,使用SPSS 分析学生的消费占比,结果反映学生的消费特征和性别对消费的影响。苏州大学用SQL Server 2005 BI工具的ID3 决策树算法和OLAP 联机分析处理技术对学生消费情况、热水消费情况以及商户营业状况分析用于改进业务管理。哈尔滨工程大学采用支持向量机对校园卡消费流水进行分类,利用关联规则发现学生校园卡的消费模式。西北大学采用Apriori 算法挖掘贫困生数据特征支持贫困生评定工作。
上述研究属于局部优化分析,即以一个业务点或一类业务点为分析对象,并结合用户的信息进行分析,结果只对某个或某类业务点有意义,并没有考虑业务点的关联影响。而轨迹间隐含的全局性信息对管理决策部门有着重大价值。例如食堂可分析学生消费特征,加上学生其他业务点活动特征,可帮助食堂优化供应菜单和时间。因此,研究把单点轨迹数据转化为具有业务流程关联的多点轨迹数据,对全局分析宏观管理决策支持有重要意义。
过程发现(process discovery)技术可从信息系统日志数据中发现用户的业务活动过程模型,并结合其他信息发现潜在的有价值知识。本文基于过程发现技术研究RFID 数据轨迹预处理技术,提出RFID-STR数据类型定义,重点介绍数据轨迹分段方法和生成框架,解决无业务流程特征轨迹数据分析问题,为轨迹数据知识挖掘提供高质量数据。
1 RFID-STR数据类型
1.1 RFID-STR原始数据定义
RFID-STR 原始数据为={ p|i= 1,},其中轨迹点p=(R,B,X,t)为四元组,分别代表RFID 标签、业务点、属性信息、时间戳。业务点包含业务点的地理空间信息、业务类型等。属性信息包含交易金额、经手人、交易内容等。
1.2 校准轨迹定义
RFID-STR 原始数据来源于多个RFID 业务应用,存在数据格式、语义等差异,在挖掘前必须进行校准,以得到规范统一的轨迹数据。把原始数据转化为校准轨迹数据,一般包括数据清洗、轨迹分段、路网匹配的校准轨迹数据预处理流程。
1.3 数据库轨迹定义
RFID-STR 校准轨迹通常包括巨量详细记录,例如电子饭卡应用,用户点餐明细对于只关注业务点类型的挖掘无意义,就需要压缩处理以减少数据量、提高处理效率。常用基于路网和基于轨迹的压缩方法。
1.4 语义轨迹定义
RFID-STR 数据轨迹只有赋予业务应用和用户行为理解,才有挖掘价值,在数据库轨迹上加上语义就产生了RFID-STR知识。
2 RFID-STR数据轨迹分段方法
校准轨迹是产生轨迹知识的基础,其中轨迹分段是校准轨迹数据生成的关键方法,本文引入过程发现的思想建立基于时间阀值的轨迹分段方法。RFID 轨迹分段目标实际上是要得到在一个时间区间的轨迹点集合。因此寻找分段点就是通过时间阀值参数来划分轨迹点集合。
首先把经过清洗的轨迹数据映射到业务应用中,业务应用活动关联RFID 业务点,业务应用活动可以由具备业务流程联系的多个业务点构成,如快递物流;也可能是无业务流程特征的多个业务点构成,如学生校园RFID 应用。活动的执行事件是RFID 标签在业务点的一次操作行为,即轨迹点P。同个RFID 标签在时间区间的轨迹点形成了一个业务过程,即轨迹点序列P…P。基于过程发现的轨迹分段方法是从轨迹数据中寻找同个RFID 标签的轨迹点序列集合,集合中任意两个轨迹点的时间戳距离满足时间阀值的要求。采用过程发现的方法可以发现用户在某个时间段的行为轨迹,尤其是能处理无业务流程特征的多个业务点类型数据。
3 RFID-STR数据轨迹生成框架
RFID-STR 数据轨迹生成的目标是输入原始轨迹数据,经过校准轨迹、数据库轨迹处理,输出语义轨迹作为轨迹特征知识挖掘的数据源。
①从分布式环境中抽取RFID-STR原始轨迹数据;②经过数据清洗后,采用基于时间阀值的过程发现技术进行轨迹分段,并通过路网匹配方法关联轨迹与业务点地理位置信息,得到校准轨迹;③根据业务点类型进行轨迹压缩得到数据库轨迹,提高数据价值密度和存取效率;最后根据行为理解方法建立不同主题的语义轨迹数据。
图1 RFID-STR数据轨迹生成框架
4 应用案例
以某高校一卡通系统RFID 数据为实例阐述RFID-STR 数据轨迹生成过程。该校在校生约2万人,分为四个校区,一卡通应用主要涉及38个业务点,覆盖了校园内教学、学习和生活设施。各业务点业务特征如表1所示,业务数据分布在6个原始轨迹数据库,全部为单点轨迹数据。
表1 一卡通系统业务点特征
4.1 校准轨迹生成
选取时间范围为2012—2014年数据,经过数据清洗、轨迹分段和路网匹配得到校准轨迹。数据量变化如表2所示。
表2 校准轨迹生成数据量变化(单位:条)
(1)数据清洗。原始轨迹数据约2875万条,经过字段不一致、去除重复等数据清洗后为2849 万条,再次对数据合并处理得到1264 万条,典型数据合并例子是把2小时内同个用户在同个食堂的消费数据合并为一条消费总数,减少无意义的数据冗余,提高处理效率。
(2)轨迹分段。采取以时间阀值参数方法,得到某用户在一个时间区间的轨迹点集合,即把多个单点轨迹集合转换为有时间关联的多点轨迹集合,为后续发现用户潜在模式打下基础。例如以1 天24 小时为时间阀值参数,经过轨迹分段后,得到用户活动轨迹640万条。
(3)路网匹配。把业务点与地理信息结合,得到具有地理特征的用户活动图。例如把校区匹配表1的业务点,可得到用户校区活动轨迹。
4.2 数据库轨迹生成
进一步对校准轨迹进行数据压缩和主题分类,可得到不同主题数据集市模型。
(1)数据压缩。把重复的用户活动轨迹进行压缩,得到代表活动轨迹5万条,大大提高了分析效率,当然代价是丢失了轨迹频度。
(2)主题分类。根据应用主题建立数据集,例如“消费特征主题”数据集包含了有消费数据的轨迹,属性信息至少包括用户标识、业务点、发生时间、消费额,以及维度明细数据包括用户信息、活动信息、时间信息、消费额信息。
4.3 语义轨迹生成
在数据库轨迹基础上,结合RFID 移动对象用户行为可理解性和管理层管理应用需要,进行目的性的轨迹处理,可得到有价值的语义轨迹。
例如,对“消费特征主题”数据集的轨迹进行分析,了解学生校内消费行为模式。设时间阀值参数为1 天,得到存在学生1 天消费相关数据库轨迹。以消费额区间分析,可知学生消费金额特征,如图2 所示。学生平均日均消费7.95元,大部分学生日均消费集中在5—30元。
图2 学生消费金额特征
进一步,要了解学生的超市消费特征。选取第二校区的超市业务点H,设置消费时间区间,其分时消费特征如表3所示。
表3 业务点H分时消费特征
可发现学生常在19:00—24:00 到超市消费。再分析与H 关联的前后活动业务点轨迹,发现学生喜欢在食堂C、D和图书馆B 之后到超市H消费。因此,可给H 点标上“晚上消费频繁”的语义标签,此外从安全角度还可标上“晚上注意周边拥挤”的标签。上述语义分析对于学校后勤和学生管理部门,要注意控制校内物价水平;对保卫部门,要在晚上注意监控业务点周边的交通拥挤情况,尤其是从图书馆到超市的道路;对业务点H,要提高晚上的供应质量和数量,同时也要分析消费额少的时间段情况,另外0:00—3:00还有消费额,是不符合学校管理规定的,所以业务点H要进行整改。
5 结语
在人工智能时代,物联网应用产生海量数据,挖掘知识辅助管理部门决策已成为常态。本文通过研究附带RFID 标签物体的轨迹数据生成方法,把单点轨迹转为具有关联特征的多点轨迹,并根据应用需求,生成有价值的语义轨迹,对下一步提取用户行为特征知识,研究移动趋势、移动行为、异常行为和移动对象之间的联系等特征有重要作用。