多源异构数据融合的智能商业选址推荐算法
2019-08-12翟书颖郝少阳杨琪李茹李波郭斌
翟书颖 郝少阳 杨琪 李茹 李波 郭斌
关键词: 智慧城市; 推荐系统; 商业智能; 多源城市数据; 随机森林; 数据融合
中图分类号: TN919?34; TP391 文献标识码: A 文章编号: 1004?373X(2019)14?0182?05
Intelligent commercial site selection recommendation algorithm
fusing multi?source heterogeneous data
ZHAI Shuying1, HAO Shaoyang2, YANG Qi2, LI Ru1, LI Bo1, GUO Bin1
(1. Northwestern Polytechnical University Mingde College, Xian 710114, China;
2. School of Computer Science, Northwestern Polytechnical University, Xian 710129, China)
Abstract: With rapid development of social media and location?based network services, the intelligent recommendation based on the user?generated mass data has thus become a hot research hotspot. However, the existing studies mainly focus on online item recommendation, and there are few studies that utilize multi?dimensional heterogeneous data in the physical environments for recommendation. The multi?source urban data such as users′ check?in data, housing price data, and various POI data in social media are used in this paper to extract multi?sided commercial features and spatial features on the basis of data preprocessing under background of urban commercial site selection. The commercial site selection recommendation method based on the random forest is proposed. The multi?source urban data in Beijing city are adopted to build the model to assess the experimental results with the ranking evaluation indicator NDCG. The experiment results indicate that the proposed method has better performance.
Keywords: smart city; recommendation system; business intelligence; multi?source urban data; random forest; data fusion
0 引 言
近年来,我国连锁企业利用其较低的人力成本、价格优势,连锁经营受到了消费者的认可。适合的店铺选址会极大程度地提高连锁店收益。传统的连锁店选址需要抽取专门的人力,提前发放调查问卷大规模调研考察居民的需求、区域人流量、交通状况、周边环境等,这一方式存在很多缺陷。随着智能移动设备的广泛普及,各种移动社交网络快速发展,并逐渐融入人们的日常生活中。移动社交网络不仅连接物理和虚拟两个社会空间,融合人们线上、线下体验,形成混合社交空间,还为社会感知计算提供了更加方便快捷的途径。LBSN作为移动社交网络快速发展的代表,它利用带有GPS的智能终端记录某个时间点某地的信息,还可以通过签到跟踪和共享人的位置信息[1]。这些信息具有空间性、时间性和社会化的特点。典型的基于位置的社交网站,如国内的新浪微博,人们可以使用智能手机、平板电脑等移动设备对当前访问的兴趣点签到,并与好友分享自己的签到信息和体验,产生对应时间和地点的信息。本文提出一种利用多源城市数据解决连锁商店选址难题的智能推荐系统,通过来自于携程网的酒店数据、链家网的房价数据以及高德地图的POI等数据开展实验。实验结果表明,本文方法可以高质量地解决连锁店的选址问题,且相对于单一数据源,使用多源城市数据的推荐系统具有更高的稳定性和推荐质量。
1 相关工作
1.1 多源城市数据融合
利用多源城市数据融合进行数据挖掘有如下特点[2]:
1) 多源城市数据相对于单一源的数据,它的目的不是将一个企业或组织的所有数据集中在一起并标准化而产生唯一的真相。它是以产生决策智能为目标将多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集,提取什么类型的相关数据成為研究的重要问题。
2) 多源城市数据融合可能包含若干种不同的数据形式,所处理的数据包含各个范围内的数据信息。由于不同的数据形式与结构上的差异,处理的方法、标准就有所差异,因此要提出一种能面向多源城市数据的数据融合方法。
1.2 商业选址推荐
目前已有的选址推荐工作从结果方面分为以下两类。
1) 推荐开店的位置[3?7]。这类工作往往是给定选址的类型,向用户推荐一些适合选址的位置。这些工作首先从大量数据中提取出与选址有关的几类特征,例如:多样性、人流量、互补性、交通便利性等,对已有目标店铺的训练数据进行聚类,通过衡量候选地与各簇的相似性,完成选址推荐工作。
2) 推荐开店的类型[7?8]。给定选址的位置,向用户推荐适合开店的类型。对于采用分类的方法[8],采用SVD进行张量分解,完成店铺类型的推荐。本文与上述工作的数据源、研究方法有所不同,选址面向特定的连锁店,其综合来源于新浪微博的签到数据、链家网的房价数据和高德地图POI信息等多源城市数据,并提取出影响店铺选址的多个特征,使用多个特征建立模型,最后利用NDCG对各个模型的预测得分做评估。
2 连锁商店选址模型
2.1 数据采集
实验采集了酒店数据、房价数据、微博签到数据以及POI数据。
2.1.1 酒店数据
酒店数据来自于携程网,它拥有大规模的用户群,在团购网站中页面呈现方式具有一定的代表性。获取到酒店的相关信息和顾客评论、评论数量,表1为酒店数据示例。
2.1.2 房价数据
房价信息来自于链家网,通过收集网站上的商品房房价以及地理位置等信息,反映出该地区的商铺房价大概的范围。
2.1.3 微博签到数据
新浪微博目前月活跃用户达到3.4亿。用户可以在新浪微博上对地点进行签到,公开他们的地理位置,在签到地留下评论信息。本文利用收集到的签到数据的位置及签到数量信息,分析区域的人流量。表2为采集到的签到数据示例。
2.1.4 POI数据
POI信息来自于高德地图。1个POI至少包含 4个方面的信息:位置、名称、类别、属性,主要用途是对部件或者事件的地址进行描述,能较大程度地增强对部件或者事件位置的描述能力,提高地理定位的精度和速度。
2.2 特征提取
从初始的14项POI信息和微博签到数据、房价数据提取出相应信息,结合选址的相关因素,将数据的维度减少到较小的数字。在下面的工作中,本文将初始数据归纳为两种特征:地理特征和商业特征。
2.2.1 地理特征
从区域的多样性、人流量、交通便捷性等方面刻画区域的地理特征。将多样性定义为区域的空间异质性,则区域p的多样性可以表示为:
[Divp=-t∈ΓNtp,rNp,r·log Ntp,rNp,r] (1)
式中:[Np,r]表示目标地点附近所有设施的数量;[Ntp,rt∈Γ]表示该区域内类型为r的设施的数量;[Γ]为该块内设施数量的集合。
人流量能够反映该地区的受欢迎程度,人流量越多,顾客偏向去该地购物的动机越高,用户在该地的消费率就越高。将人流量定义为:
[Hump=c∈ΩNumt(p,c)] (2)
式中:[Ω={c1,c2,…,cq}]为所有区域内签到数据的集合;[ Numt(p,c)(t∈Γ)]代表该块内的一条签到数据。
交通便捷性成为评价商圈品质的重要指标,用F={f1,f2,f3}(公交车、地铁、停车场)来定义交通便捷性。通过高德地图API直接获取这一数据,地点p内的站点数量记为[num(p,fi)],交通便捷性可以定义为:
[Trap=fi∈Fnum(p,fi)] (3)
2.2.2 商业特征
通过研究地点p的同一商铺的吸引力、区域内的竞争性、互补性和消费水平刻画一个区域的商业特征。
将一个区域的吸引力定义为同类型酒店的数量:
[Attp=bi∈Fnum(bi,p)] (4)
同一区域内相同类型商铺的数量反映了该区域内的竞争性[9?10]。同类商铺越多,对客户的吸引力越分散,会对商铺选址造成负面因素。竞争性关系可确定为:
[Comp=Nt(p,r)N(p,r)] (5)
式中:[N(p,r)]代表目标地点附近所有商铺的数量;[Nt(p,r)(t∈Γ)]代表类型为r的邻近商铺的数量。
同一区域内不同类型商铺之间通过合作可以达到双赢的效果。给定一个类型为t的商铺,它与其他类型的商铺之间的互补性关系为:
[ρt→t′=Nset(t,t′)NT(NT-1)2] (6)
式中:[T]代表所有设施类型的集合;[Nset(t,t′)]代表[t,t′]同时出现在同一区域的数量;[NT(NT-1)2]代表所有设施类型的组合数量。
基于上述公式,可以算出一块区域的互补性:
[Cpp=t∈Tlogρt→t′·Nt′p,l-1np∈PNT′p,l] (7)
式中:[NT′p,l]为地点P附近类型为[t′]的设施数量;n为总的区域设施数量。
房价可以代表一个区域的消费水平,反映该区域的商铺需求程度。将地点P的消费水平定义如下:
[ConsumP=hi∈Hnumhi,Pw] (8)
式中:H={h1,h2,…,hw}定义为地点P附近所有商品房房价的总和;w为该区域内房价不為0的商品房总数。
2.3 模型建立
针对一个特定的企业,有一组候选店铺,本文将其位置P定义为[P={p1,p2,…,pj}]。如何建议最优的前k位店铺位置,使得新店可以吸引更多的客户并带来最大的盈利能力是关键。
对于每个商店,本文以其划定的矩形区域定义为其交易区域并评估其属性,基于从地区Pi收集的数据,可以计算得到各个特征定义为[F={f1,f2,…,fk}],根据选址模型进而得到该地区的得分向量记为Gi。推荐最优的前k位店铺位置相当于对候选地址的得分进行排序。得分使用从携程网上爬取的酒店评论数量,它可以从一定程度上反映出特定企业的客流量和经济效益。
得分问题可以定义为给定特征向量[Fi={fi1,fi2,…,fik}],对应每一组得分向量Gi,需要求出得分向量G与特征矩阵F之间的关系,从而根据新来的特征向量Ft来预测它的得分Gt。本文使用线性回归模型、支持向量机模型、随机森林模型,给定一个评分数据集、特征数据集和选址区域块号作为输入,根据预先训练好的回归模型,将测试集的特征放入该模型计算预测得分。
2.3.1 线性回归模型
线性回归模型为:
[Y=β0+β1X1+β2X3+…+βmXm+e] (9)
式中:因变量Y可以近似地表示为自变量[X1,X2,…,Xm]的线性函数;[β0]为常数项;[β1,β2,…,βm]为偏回归系数,表示在其他自变量保持不变时,[Xi]增加或减少一个单位时Y的平均变化量;e是去除m个自变量对Y影响后的随机误差(残差)。线性归回模型的优化目标是使得所有训练样本的预测误差平方和达到最小。线性预测函数的参数即回归系数可通过最小二乘法来求解。线性回归模型求解步骤如图1所示。
2.3.2 支持向量机模型
SVM(Support Vector Machine for Regression) [11?12]方法是20世纪90年代初Vapnik等人根据统计学习理论提出的一种新的机器学习方法。它以结构风险最小化原则为理论基础,通过适当地选择函数子集及该子集中的判别函数,使学习机器的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。
2.3.3 随机森林模型
Random Forests(RF)算法是基于决策树的算法[13]。为了实现这一策略,需要构建许多决策树,每棵树都要做一个有效地预测目标的工作,使它与其余的树有所不同。为了确保每棵树不同,降低关联性,RF采用两个随机采样过程:一是在训练每棵树时,对训练集进行n次有放回地随机采样,使得每棵树的训练集不同;二是从样本的P个特征中随机采样p个特征(p[?]P)作为每棵树的训练集的样本特征。
3 实 验
3.1 实验数据
实验输入特征集使用提取出来的商业特征和地理特征两类特征,这些数据均经过max?min标准化处理。实验的目标是使用上述的模型(SVR,LR,FR)建立输入特征与目标变量之间的函数关系。通过预处理阶段的数据清洗工作,删去了POI数据中酒店数目为0的块,最后得到了北京地区区域总共有364块。实验数据如表3所示。
以处理好的0.5 km×0.5 km的正方形区域作为处理单位。在实验环节,选取所有同类型连锁酒店(如家、七天、汉庭)的块作为实验样例,随机提取其中90%的数据集作为训练集进行训练,剩下的10%为测试集进行测试。然后用训练好的模型预测测试集上块的评分,并对预测出来的结果进行排序,与原用的顺序进行比较,计算NDCG@10。为了保证实验结果的科学性,重复1 000次上述方法。
针对每个问题,首先采用不同的模型进行实验,找到实验结果最好的模型,然后用该方法去评价多种不同的基准数据。实验结果显示,多源城市數据融合能够很好地预测连锁店选址,并且所提取出的相关特征可以有效地说明商铺选址的相关考虑因素。
3.2 实验结果
3.2.1 基础方法
本文使用NDCG作为评价指标,得到的实验结果如图2所示。可以看出,5种方法中,邻接块推荐效果最差,这是由于在删除评分数量为0的区域后,数据量整体比较少,很多块的预测块没有对应的邻接块,或者是邻接块的数目较少,导致计算出来的结果非常差。使用相似特征进行推荐的方法NDCG平均可以达到0.7左右,说明这种方法具有一定的可行性,也反映出提取出的特征与连锁店选址之间有很大关系。
采用不同特征放入线性回归模型中训练得到的NDCG普遍高于基于相似块的方法。其中,汉庭的推荐质量非常高,NDCG可以达到0.9以上,这是因为根据特征与评分值的相关性分析可以看出,汉庭的评分值与本文提取的特征有较高的相关性,而且大部分特征与评分之间相关性非常明显。在进行线性回归时,这部分特征的权重占比较高,而如家与七天的特征与评分之间相关性相对较低,然而相关性之间的差距不大,因此也呈现出较高的推荐质量。汉庭使用多个特征的NDCG值明显高于单一特征,而七天使用多个特征进行选址评估的NDCG相对于单一特征呈现略微下降的趋势。这是因为冗余特征对评分造成了负面影响,商业特征中的人流量和吸引力几乎与评分数据不相关,而这部分数据也参与到训练过程中。
3.2.2 模型比较
针对如家、汉庭、七天等酒店,使用商业特征和地理特征对其建模,建模方法选取LR,SVR以及RF。在三家酒店中,汉庭的NDCG值最高,这是由于汉庭的评分值与本文提取的特征有较高的相关性,而且大部分特征与评分之间相关性非常明显。而七天因为特征与评分之间相关性不强,而且有两类吸引力和人流量特征几乎与评分不相关,因此推荐质量较差。不同模型的比较如图3所示,在三种模型中,RF模型的推荐质量最高,这是因为RF相对于其他两种模型,它能够处理很高维度的数据,并且不用做特征选择,对于不平衡的数据集来说,它可以平衡误差。LR方法表现出较强的稳定性,这是因为回归分析可以准确地计量各个因素之间的相关程度与回归拟合程度的高低,不相关或相关性不高的特征对于评分影响较小。
4 结 论
本文提出一种多源城市数据解决连锁商店的选址系统。利用LBS进行地理信息和POI采集,使用社交媒体收集签到数据和酒店的详情,使用各类特征以及所有特征建模,采用连锁企业的评分数量作为评分值进行监督回归,研究特征和商铺选址之间的关系。使用线性回归模型、支持矢量机模型和随机森林模型,经过一系列实验与分析,可以得出以下结论:监督回归方法可以高质量地解决连锁店选址问题;在LR,SVR,FR三种机器学习方法中,FR方法的推荐质量最好;影响不同企业选址推荐的特征不尽相同,利用多源城市数据与单一数据源相比,具有较高的稳定性和推荐质量。
参考文献
[1] 屈弘扬,於志文,田苗,等.基于 LBSN 的商业选址推荐系统的研究与实现[J].计算机科学,2015,42(9):33?36.
QU Hongyang, YU Zhiwen, TIAN Miao. Research and implementation of business location recommendation system based on LBSN [J]. Computer Science, 2015, 42(9): 33?36.
[2] 张义,陈虞君,杜博文,等.智慧城市多模式数据融合模型[J]. 北京航空航天大学学报,2016,42(12):2683?2690.
ZHANG Yi, CHEN Yujun, DU Bowen. Intelligent city multi?mode data fusion model [J]. Journal of Beijing University of Aeronautics and Astronautics, 2016, 42(12): 2683?2690.
[3] KARAMSHUK D, NOULAS A, SCELLATO S, et al. Geo?spotting: mining online location?based services for optimal retail store placement [C]// Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. [S.l.]: ACM, 2013: 793?801.
[4] LI Y, ZHENG Y, JI S, et al. Location selection for ambulance stations: a data?driven approach [C]// Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems. [S.l.]: ACM, 2015: 85?91.
[5] FU Y, GE Y, ZHENG Y, et al. Sparse real estate ranking with online user reviews and offline moving behaviors [C]// Proceedings of 2014 IEEE International Conference on Data Mining (ICDM). [S.l.]: IEEE, 2014: 120?129.
[6] JENSEN P. Network?based predictions of retail store commercial categories and optimal locations [J]. Physical review E, 2006, 74(3): 035101.
[7] LI J, GUO B, WANG Z, et al. Where to place the next outlet? harnessing cross?space urban data for multi?scale chain store recommendation [C]// Proceedings of the 2016 ACM International Joint Conference on Pervasive and Ubiquitous Computing: Adjunct. [S.l.]: ACM, 2016: 149?152.
[8] WANG Y, WANG L, LI Y, et al. A theoretical analysis of NDCG ranking measures [C]// Proceedings of the 26th Annual Conference on Learning Theory (COLT 2013). 2013: 8?13.
[9] SU?REZ?VEGA R, SANTOS?PE?ATE D R, DORTA?GONZ?LEZ P. Location models and GIS tools for retail site location [J]. Applied geography, 2012, 35(1/2): 12?22.
[10] SU?REZ?VEGA R, SANTOS?PE?ATE D R, DORTA?GONZ?LEZ P, et al. A multi?criteria GIS based procedure to solve a network competitive location problem [J]. Applied geography, 2011, 31(1): 282?291.
[11] 瓦普尼克.统计学习理论的本质[M].北京:清华大学出版社,2000.
VAPNIK V N. The essence of Statistical Learning Theory [M]. Beijing: Tsinghua University Press, 2000.
[12] 张学工.关于统计学习理论与向量机[J].自动化学报,2000, 26(1):32?42.
ZHANG Xuegong. On statistical learning theory and vector machine [J]. Journal of automation, 2000, 26(1): 32?42.
[13] 方匡南,吴见彬,朱建平,等.随机森林方法研究综述[J]. 统计与信息论坛,2011,26(3):32?38.
FANG Kuangnan, WU Jianbin, ZHU Jianping, et al. Review of research on stochastic forest methods [J]. Statistics and information forum, 2011, 26(3): 32?38.