“双十一”与日常网络购物关注度耦合协调的空间格局及驱动研究
2022-02-12闫广华
陈 曦,闫广华,王 硕
(1.长春师范大学 地理科学学院,吉林 长春 130032;2.中国科学院 南京地理与湖泊研究所 流域地理学重点实验室,江苏 南京 210008)
电子商务不仅为新经济体和新商业模式的诞生创造了条件[1],还间接推动了农业、工业、服务业等行业的再次发展[2]。在中国,淘宝网对电子商务的发展产生了深远的影响,农村电子商务卖家集聚地——淘宝村也因此而得名[3]。“双十一”这一普通的日子也因始于淘宝网的促销活动而得到特殊的内涵。在互联网快速普及背景下,网络用户的数量大大提升[4],这也促进了“双十一”乃至电子商务的进一步发展。可以说,“双十一”的成功除了得益于淘宝网等强大的电子商务平台及其独特的促销策略与营销模式[5],还得益于网络空间中促销信息的传播。因此,以网络空间作为探测关注行为的切入点,挖掘“双十一”这类短期事件与日常事件之间的耦合关系,对探寻网络用户的消费偏好及后续的运输资源调配具有重要的意义。
在公共大数据时代,网络空间中用户足迹的搜集和分析成为了可能,这些用户足迹和行为数据为测度公共关注度提供了一条有效可行的路径[6]。Newig强调,公众关注事关人们想什么,并且愿意为之付诸时间和注意力[7]。因此,通过网络用户关注度可在一定程度上预测公众的行为模式。大量的研究也定量证明了网络用户的关注度与未来将要发生、现在正在发生和过去已经发生的事件之间的联系[8,9]。这主要得益于近年来许多开放的、权威的网络用户行为大数据产品陆续问世,如微指数、微信指数和百度指数等,这些产品主要根据搜索行为分析网络用户的关注特征,多样化的关注度数据和关注度角度为网络空间中网络用户的关注行为研究提供了有力支撑。百度作为我国应用最广泛的搜索引擎,旗下的百度指数也被大量应用于国内研究。部分地理学者早已基于百度指数大数据,将网络空间与现实的地理空间相连结,探寻它们之间的相互作用[10-12]。然而,整理国内外相关文献发现,地理学家更加关心旅游者行为与旅游地的联系或者城市网络结构和空间的联系,而对于短期网络事件中网络用户行为模式的地理空间差异研究则较少。网络关注度这一概念尚未广泛应用于“双十一”这类网络事件中,在这方面的研究仍有很大的空白。目前,对于“双 十 一”的 研 究 主 要 集 中 于 经 济 学[13,14]和 传 播学[15,16]等相关领域,且都局限于对个体对象或者微观视角的研究,缺乏将网络空间映射到地理空间中。这种多领域的视角缺失,使得这类短期电子商务事件难以把控,导致营销策略制定和运输资源调配的效率降低。
基于此,本文从地理学的宏观视角,利用网络关注度数据挖掘“双十一”这类短期网络事件的关注行为,有助于把握短期的、全民性的消费行为,同时也能够为经营策略、资源调配提供宏观的指导。综合以上背景,本文基于百度指数大数据,运用耦合协调度模型、热点分析和地理加权回归探寻地理空间中“双十一”与日常网络购物关注行为之间的耦合协调关系及其空间格局,并探索其驱动机制,以期为营销策略制定和运输资源调配提供科学的参考。
1 数据来源与研究方法
1.1 数据来源与处理
百度指数(index.baidu.com)是统计网络用户关注行为的开放数据平台,包括搜索指数、资讯指数与媒体指数,这3 种指数均以关键词作为统计对象。本文采用的搜索指数表征网络用户在百度搜索引擎中的搜索数量。搜索指数可从侧面反映出网络用户对某个词条的关注度,因此叠加同一事件相关的关键词的搜索指数可以得到网络用户对该事件的关注度。本文中,以“双十一”作为关键词,时间段选取“双十一”前后一个月,即2019 年10 月11 日—12 月11日各行政单元的日平均搜索指数作为“双十一”关注度的测算参考指标;以“网络购物”“网购”“淘宝”“天猫”“京东”“拼多多”“苏宁易购”为关键词,时间段选取2019 年全年,即2019 年1 月1 日—12 月31 日各行政单元的日平均搜索指数作为日常网络购物关注度的测算参考指标。对上述数据进行排序、筛选和去重处理,共获得347 个城市样本数据。
驱动机制分析的数据主要来源于《2019 年中国城市统计年鉴》和各省市统计年鉴与公报,缺失数据采用插值法补齐。对上述数据进行处理,共获得295个城市样本数据。其中,由于海南省有大量的省直管县,行政级别的差异使得这些省直管县的数据存在缺失和不准确等情况,因此本文中将海南省除海口市和三亚市的其他地区进行了合并处理,并命名为“海南省其他地区”。
以2019 年为研究时间主要基于两方面考虑:对于“双十一”本身而言,2019 年是“双十一”活动举办的第11 年,阿里巴巴首次邀请了华为、海尔、可口可乐等国内外知名商家入驻阿里巴巴杭州园区;同时,阿里巴巴为了保障高流量的系统稳定,将核心系统转移到了阿里云上,这一年是“双十一”变革的一年。对于研究而言,2019 年的数据是目前能够获取到的较为全面完整的数据。
1.2 耦合协调度模型
耦合度是对多个系统的相互作用和影响进行评价的定量指标。本文中,参与耦合度测度的两个系统分别是“双十一”关注度与日常网络购物关注度。首先对两个系统的数据进行极差标准化处理,再进行“双十一”关注度与日常网络购物关注度的耦合度算,计算公式为[17]:
式中,C为耦合度;U1为“双十一”关注度标准化值;U2为日常网络购物关注度标准化值。由于耦合度仅反映系统之间的相互作用程度,难以体现它们之间协同发展状态,因此引入耦合协调度模型。耦合度协调度是衡量多个系统之间协同发展状况的定量指标,可规避单纯依靠耦合度产生的误差[18],计算公式为:
式中,D为耦合协调度;α和β为待定系数,本文中两系统具有同样的参考价值,设定α=β=0.5。通常情况下D∈[0,1],当D=1 时,表示耦合协调度达到最大;当D=0 时,表示耦合协调度最小。借鉴相关研究成果[19,20],对耦合协调度进行详细的等级划分(表1)。
表1 耦合协调等级划分Table 1 Division of coupling coordination grades
1.3 探索性空间数据分析
1.4 地理加权回归模型
传统线性回归模型不能反映变量在空间上的影响作用强弱,当变量存在较强的空间自相关性时,传统的线性回归模型参考价值有限。地理加权回归(Geographically Weighted Regression,GWR)模型是基于地理空间的非平稳性特征而提出的空间线性回归模型,它在传统线性回归模型上进行拓展,引入数据的空间位置信息,允许回归系数在空间上平滑变化,其结果更符合客观情况[22]。GWR模型如下:
式中,yi表示因变量向量;xi表示自变量矩阵;(ui,vi)为第i 个样本的空间位置信息;βk为估计的相邻空间单元观测值;εi为独立随机分布的误差项。
1.5 k均值聚类法
k均值聚类法是将数据根据某种既定特征与空间位置信息划分为k组,并且使得组内差距较小、组间差距最大的一种聚类分组方法。其原理是:系统随机选择k个元素作为每个分组的种子元素,根据距离依次把剩余的元素划分至各个分组,以均值作为中心不断调整分组中心至分组稳定为止[23]。k 均值聚类法常用伪F 统计量来选择最佳分组个数,一般情况下k拥有的伪F 统计量越高分组效果越好,分类结果也较为可信。本文在地理加权回归系数的基础上进行k均值聚类分组,用于识别和划分具有相似驱动因素的分区。
2 耦合协调度结果及分析
2.1 耦合协调度统计
根据耦合协调度公式(1)计算出347 个城市的“双十一”关注度与日常网络购物关注度的耦合协调度,具体如表2 所示(限于篇幅,仅列出前10 位和后10位城市)。从表2 可见,耦合协调度排名前10 位的城市中有5 座城市位于我国东部沿海,7 座城市位于三大城市群,仅成都市、武汉市和郑州市位于中西部地区,并且排名前4 位的城市是传统意义上的一线城市,即北京市、上海市、广州市、深圳市。而排名后10 位的城市中有9 座城市位于西部地区,仅神农架林区位于中部的湖北省,且9 座西部地区的城市中青海省拥有其中的5 座。总的来说,耦合协调度较大的城市主要分布在东部地区,而较小的城市则主要分布在西部地区。
表2 耦合协调度计算结果Table 2 Calculation results of coupling coordination degrees
按照所划分的耦合协调等级,对347 个样本城市的耦合协调等级分布进行统计计算得到图1。
图1 耦合协调等级频率分布Figure 1 Frequency distribution of coupling coordination grades
由图1 可见,大多数城市的关注耦合协调度较低,有336 座城市处于失调状态,占总数的96.83%,其中严重失调等级的城市数量最多,达到171 座,占总数的49.28%;中度失调等级次之,有96 座城市,占总数的27.67%。需要说明的是,由于关注度的标准化结果对耦合协调度有着较大的影响,因此结合极差标准化的原理和耦合协调度结果可以推断个别城市的关注度远远高于其他大部分城市。为了验证这一推断,对关注度数据进行排序检验。检验发现,北京市、上海市、广州市和深圳市的“双十一”关注度分别为1177、1198、924 和923,均远高于平均值112.798和最小值 0,全部样本数据标准差为144.876;日常网络购物关注度分别为67319、50764、37415和39698,均远高于平均值3086.014 和最小值208,全部样本数据标准差为6035.767。样本城市的关注度存在严重的首位度现象,导致在耦合协调度计算过程中大部分城市处于相对失调状态。
为了探索耦合协调度在空间上的分布形态,本文对347 座样本城市的耦合协调度进行了空间可视化处理(图2)。
图2 耦合协调度空间分布Figure 2 Spatial distribution of coupling coordination degrees
图2 的结果可以充分印证前文结论,即大部分城市处于失调状态,仅少部分城市达到协调,且高耦合协调度的城市集中于东部沿海地区尤其是三大城市群。除表2 所列出的前10 位城市之外,这些高耦合协调度的城市包括青岛市(D=0.499607)、天津市(D = 0. 49082)、济 南 市(D = 0. 46928)、东 莞 市(D=0.45971)、佛 山 市(D = 0. 45700)、宁 波 市(D=0.43725)、福 州 市(D = 0. 43062)、沈 阳 市(D=0.42922)、石 家 庄 市(D = 0. 41398)、厦 门 市(D=0.41007)等,或是中西部地区的中心性城市,如重庆市(D=0.55135)、西安市(D=0.49961)、长沙市(D=0.49608)、合肥市(D = 0.45755)。这些城市发展状况良好、人口数量多、城镇化水平较高、消费能力较强,在面对网络购物时居民有更强的接受能力,平日和“双十一”时期对于网络购物的关注也不会产生较大的波动。
2.2 耦合协调度空间特征
本文对所得的耦合协调度D进行了全局空间自相关分析,得到Moran's I=0.173,Z-score=12.572 >2.58,P- value=0.000 <0.01。结果说明,耦合协调度在空间上的分布具有强烈的正相关性,即高值与高值聚集,低值与低值聚集。
图3 耦合协调度热点分析Figure 3 Hotspot analysis of coupling coordination degrees
由图3 可以看出,热点区与冷点区分列于东西两侧,并且明显地以107°E 和113°E 两条经线为界。热点区大致分布在113°E以东、山海关以南地区,主要以华东六省一市为核心热点区,以珠三角、环渤海等地区为次核心热点区,以冀北、辽东、粤西等地区为边缘核心热点区;冷点区大致分布在107°E 以西地区,主要以青海省、甘肃省中部和北部、西藏自治区东部与四川省西部地区为核心冷点区,以云南省西部和南部、四川省东部、甘肃省南部、西藏自治区西部和新疆维吾尔自治区大部分地区为次核心冷点区,以云南省中部、四川省南部、贵州省西部等地区为边缘冷点区。图3 充分体现了耦合协调度的东西部差异,有力地展示了我国东西部地区耦合协调度严重的两极分化现象。一方面,由于人口数量自东向西递减,导致东部地区的关注度远高于西部地区,从而分别形成热点区和冷点区;另一方面,我国三大城市群皆位于东部地区,东部地区的居民拥有更高的消费条件,面对网络购物及其相关活动长期拥有更良好的“嗅觉”。
3 耦合协调驱动机制及分析
3.1 驱动因素选取与GWR模型构建
基于网络关注与网络购物行为的内在关系,考虑人口、消费、生产、运输等方面对于网络关注与网络购物行为的影响,本文将“双十一”与日常网络购物耦合协调度的驱动因素归结为人口规模、经济发展、消费潜力、生产能力、运输效率、互联网普及率等方面,遵循数据的可获得性与典型性原则,选取10个驱动因素(表3)。
表3 驱动因素选取Table 3 Selection of influencing factors
本文基于ArcGIS10.6 软件的空间建模模块构建了GWR模型。GWR模型中,AICc= -1142.4686,R2= 0.9397,adjusted R2= 0.9308。参数显示,GWR模型的解释力更强,能够解释93.08%的耦合协调度变化。GWR 模型对每个研究样本进行了局部回归分析,每个样本单元均拥有一个独立的标准化残差值,且在每个自变量下拥有一个回归系数。GWR模型的标准化残差值范围在[- 2.91256,3.93182],295个样本中,只有10 个样本的标准化残差值在[-2.58,2.58]范围外未通过残差检验,占总数的3.39%,大部分数据显著可靠。进一步对标准化残差值进行空间自相关分析,得到Moran's I= 0.016,Z- score=1.245 <1.65,P-value=0.213 >0.1,说明残差在空间上完全随机分布,GWR 模型较为理想,符合本文研究需要。
对GWR模型所有样本的回归系数进行统计,结果如表4 所示。从表4 结果可见:住户存款余额X3的回归系数的平均值最大,其后依次是互联网宽带接入用户数X10、邮政业务收入X8、电信业务收入X9和地区生产总值X2,这5 个驱动因素的平均回归系数均表现出较高的水平,且都为正值,表明这5 个驱动因素对耦合协调度起到了较大的正向驱动作用。住户存款余额X3的回归系数的最大值最大,表明该驱动因素对于耦合协调度的空间分布具有较大的驱动作用;电信业务收入X9和住户存款余额X3的标准差较大,表明这两个驱动因素在不同的样本中表现出差距较大,存在较强的地域性。
表4 GWR模型回归系数统计Table 4 Statistics of GWR model regression coefficients
3.2 驱动因素分析
通过GWR模型回归系数统计结果的分析可以发现,地区生产总值X2、住户存款余额X3、邮政业务收入X8、电信业务收入X9、互联网宽带接入用户数X10这5 个驱动因素的平均值较大,由于篇幅原因,并且充分考虑驱动因素统计特征的典型性,本文选取以上5 个驱动因素进行可视化分析(图4)。
地区生产总值在一定程度上可以反映一个地区的经济发展水平。从图4a可见,地区生产总值对耦合协调度的驱动影响有正有负,生产总值对耦合协调度的敏感区主要集中在新疆北部地区和以四川、重庆、贵州、湖北、湖南、广西等省区为核心的西南地区,其中回归系数最大的是克拉玛依市(0.48929),其次是乌鲁木齐市(0.23668);西南地区回归系数最大的是遵义市(0.22080),其次是贵阳市(0.21908),说明在这些地区内地区生产总值的增加可以带来较大的耦合协调度的提升。地区生产总值的低敏感区集中在西藏和东北地区的中部与南部。其中回归系数最低的是日喀则市(-0.48654);东北地区回归系数最低的城市是丹东市(-0.03344),说明在这些地区内地区生产总值的增加对耦合协调度的提升收效甚微。
图4 GWR模型回归系数空间分布Figure 4 Spatial distribution of GWR model regression coefficient
住户存款余额能够反映一个地区的消费能力与潜在市场。从图4b可见,住户存款余额对耦合协调度起到了较强的正向作用,是耦合协调度形成的主导因素,其平均回归系数高达0.42066,从侧面说明了消费行为与消费能力对网络购物的关注起着绝对的主导作用。住户存款余额的敏感区主要位于西部、北部和东北地区,其中回归系数最大的是日喀则市(1.26308),其次是那曲市(1.19945),再次是吐鲁番市(1.10495),说明这些地区主要对网络购物的关注主要源于消费行为主导;住户存款余额的低敏感区主要集中在东南沿海,以福建省、浙江省、江西省和粤东地区为核心,其中回归系数最小的是福州市(0.08678),其次是宁德市(0.08891),再次是莆田市(0.09032),这些地区拥有较为密集的“淘宝村”,通常以“卖家”身份参与进网络购物中,在这些地区中消费行为与消费能力对网络购物关注的驱动力较小。
邮政业务收入是邮政部门为社会提供邮政服务产品的货币表现。从图4c可见,邮政业务收入对耦合协调度的驱动作用较为复杂,有正有负。其回归系数主要从中北部及环渤海地区向外递减,在西部区达到最低值。邮政业务收入回归系数的最大值在银 川 市 (0. 32376),最 小 值 在 克 拉 玛 依 市(-0.88338)。可以发现,中北部和环渤海地区对邮政服务的依赖性较强,而西部地区,尤其是新疆、西藏等地区对邮政服务的依赖性较弱,这可能是由于其交通通达性较低所导致。
电信业务主要有电话业务和数据业务等,可为网络用户对网络购物的关注提供保障。从图4d 可见,电信业务收入对耦合协调度的驱动作用较为复杂,敏感区主要集中在南方地区,向北递减。回归系数最大的是红河州(0.88960),最小的是佳木斯市(-0.42459),在一定程度上说明南方地区主要通过电信相关业务参与对网络购物的关注。
互联网宽带接入用户数可在一定程度上反映一个地区的网络普及度。从图4e可见,所有样本城市中互联网宽带接入用户数对耦合协调度的影响皆起到了正向作用,平均回归系数为0.28317,仅次于住户存款余额,是耦合协调度的副主导因素,主要因为互联网是网络用户参与进网络购物的重要途径。互联网宽带接入用户数的敏感区主要集中在新疆北部、环渤海和黄海沿岸地区,回归系数最大的是克拉玛依市(0.52225),其次是赤峰市(0.36619),最小的是山南市(0.15542),其次是拉萨市(0.16037)。
3.3 驱动因素影响区域
以表3 中10 个驱动因素的回归系数作为输入进行k均值聚类分组,考虑到在GWR 模型下仅有6个驱动因素拥有较大平均回归系数,为了使结果有意义,分组不宜大于等于6。基于此,本文分别设定k=2、3、4、5,共4种分组模式,计算得各分组模式的伪F统计量分别为95.578、120.156、112.331、117.469。结果显示,当k = 3 时,伪F 统计量最大,因此设定k=3进行k均值聚类分析。
k 均值聚类结果如图5 所示。Ⅰ类区包含65座城市,这些城市都位于包括西北地区和西南地区。该分区拥有地区生产总值X2、住户存款余额X3、交通运输、仓储和邮政业从业人员占比X5、货运量X7的最大回归系数,受消费和运输主导,因此可以判定为消费主导区。Ⅱ类区包含117 座城市,这些城市主要位于华南地区,部分位于华中和华东地区。该分区拥有批发和零售业从业人员占比X4和电信业务收入X9的最大回归系数。此外,货运量X7的回归系数也较大,受批发和零售等因素作用较大,因此该区域为生产主导区。Ⅲ类区包含113 座城市,这些城市主要位于华北地区和东北地区,部分位于华中、华东和西北地区。该分区拥有人口数X1、在岗职工平均工资X6、邮政业务收入X8和互联网宽带接入用户数X10的最大回归系数,无论从消费者基数还是消费能力来看该区域都表现出明显的优势,因此将该区域判定为消费主导区。对于Ⅰ类区和Ⅲ类区而言,虽然均为消费主导区,但是由于Ⅰ类区人口数量较少,人口数X1和互联网宽带接入用户数X10的回归系数较小,因此对分区的判定进行调整,将Ⅰ类区判定为次消费主导区。基于GWR 模型的结果,通过聚类的方法进行分区,可以划分出受相似驱动因素影响的区域,使得GWR 模型的结果更加直观,从而为网络购物和电子商务的发展与资源的调配提供清晰明朗的导向。
图5 消费—生产影响因素区域划分Figure 5 Regional division of consumption- production influencing factors
4 结论与讨论
4.1 结论
本文基于百度指数平台搜集了“双十一”关注度和日常网络购物关注度,利用耦合协调度模型分析了“双十一”关注度和日常网络购物关注度两个系统之间的耦合协调度,对耦合协调结果进行了统计与空间特征分析,并通过地理加权回归模型对空间特征形成的影响因素进行了研究,主要结论如下:①我国大多数城市的关注耦合协调度较低,有336 座城市处于失调状态,严重失调等级中的城市数量最多,达到171 座。由于关注度的标准化结果对耦合协调度的直接影响,这一现象充分说明少部分城市对网络购物拥有更高的关注度,其关注度远远高于其他大部分城市,对样本数据的验证也充分证明了这一点。②耦合协调度在空间上有着强烈的正相关性,高耦合协调度城市(热点区)主要分布在113°E 以东、山海关以南,低耦合协调度城市(冷点区)主要分布在107°E以西。东、中、西部的耦合协调度存在着显著的地区性差异,两极分化现象十分严重。③通过GWR模型分析可得地区生产总值、住户存款余额、邮政业务收入、电信业务收入和互联网宽带接入用户数是耦合协调度空间格局形成的主要影响因素。住户存款余额是主导因素,其平均回归系数为0.42066,占有绝对的优势,其他平均回归系数较高的驱动因素也与消费息息相关,这一结果表明目前我国消费行为和消费能力对网络购物关注和潜在消费倾向起到了绝对的主导作用。④根据各样本城市的GWR模型的回归结果,可将我国295 座城市划分为3 类分区。其中,Ⅰ类区主要包括西北地区和西南地区,可判定为次消费主导区;Ⅱ类区主要包括华南地区和部分华中、华东地区,可判定为生产主导区;Ⅲ类区主要包括华北、东北地区和部分华中、华东和西北地区,可判定为消费主导区。3 类分区大致呈现出南—北—西格局,其中Ⅱ类区和Ⅲ类区大致以秦岭淮河为分界,这与传统的南北分界不谋而合。
4.2 讨论
本文对“双十一”与日常网络购物关注度耦合协调的空间格局、驱动因素和分区划分进行了研究,从宏观视角对“双十一”现象进行了解读与阐释,为网络购物和电子商务的发展与资源的调配提供了一定的参考依据。但本文仅从空间分异和空间格局的角度进行分析和探讨,而未利用面板数据从时间变化展开研究,是考虑“双十一”现象是循环累积和渐变的。目前来看,“双十一”举办的次数相对较少,在不同的时间点上不同空间的相对差距并不显著。更重要的是,本文的目标是为营销策略制定和运输资源调配提供参考,因此重点落在最新时间节点的空间分析中。本文的研究也存在着一定的限制,如网络用户对网络购物的关注与行为决策受到多方面的共同影响,其本身是个复杂的社会和经济问题,本文对关注度关键词和影响因素的选取难免片面,未来可在网络用户具体行为模式与社会经济背景上进行拓展,从多源数据入手。