APP下载

虚拟空间中社会分层行为研究*

2020-06-02马满福员欣淼刘元喆王常青

计算机工程与科学 2020年5期
关键词:虚拟空间阶层浏览器

马满福,员欣淼,李 勇,刘元喆,王常青

(1.西北师范大学计算机科学与工程学院, 甘肃 兰州 730070;2.甘肃省物联网工程研究中心,甘肃 兰州 730070;3.中国互联网络信息中心互联网基础技术开放实验室,北京 100190)

1 引言

Science上的一篇文章指出:贫穷往往导致注意力资源的短缺,进而降低人的认知能力[1]。在针对中国民众的阶层意识研究中发现,中国人的阶层自我定位明显低于同期的欧美国家居民[2,3]。此外,无论在城市还是农村,人们的客观社会经济地位与对于自身的主观阶层地位认知之间均存在着不小的偏差[4,5]。真实空间中,由于个人的组织资源、文化资源和经济资源拥有量存在差异,使得社会分层现象普遍存在。已有研究指出,低阶层者的系统合理化水平显著低于高阶层者,家长的教养方式存在阶层差异,居民的住房分层现象较为明显,阶层认知影响生活幸福感,尤其是主客观阶层差异的影响显著等[6 - 9]。

根据中国互联网络信息中心(China Internet Network Information Center)发布的第43次《中国互联网络发展状况统计报告》,截至2018年12月,我国网民规模为8.29亿,互联网普及率达59.6%。从1997年到2018年,我国网站数量从1 500个增长至523万个。互联网应用的进一步发展,将推动形成更加多元的网络社会生态体系[10]。大量的人类行为发生在虚拟空间中,用户在虚拟空间中留下的电子印迹都被记录着,网上行为和现实生活有了可以推测的联系[11],这为虚拟空间中的社会分层行为研究提供了数据基础。

本文通过在线行为数据反映虚拟空间中的社会分层现象。首先通过计算不同阶层用户在虚拟空间中时间数据的均值和方差,发现较高阶层用户在虚拟空间中的停留时间相对稳定,而较低阶层用户的在线时间较不稳定。其次,通过word2vec中的Skip-gram模型训练出能代表各阶层用户行为特征的词向量,发现不同阶层用户将注意力消耗在不同的信息资源上,较高阶层用户能更好地利用网络资源办公和购物,而较低阶层用户在虚拟空间中消耗的注意力对自我提升并无多大帮助,从认知的角度分析这会进一步加大社会分层现象。最后,本文利用基于word2vec的神经网络算法模型W2V-BP(Word2Vec Back Propagation)对用户的在线行为数据进行社会阶层识别,实验发现准确率达到90.22%,表明虚拟空间中存在能够区分用户社会分层的行为特征。

2 相关工作

用来进行社会阶层划分的资源依据包括生产资料、财产或收入、市场、职业或就业、政治权力、文化、社会关系、主观声望、公民权利和人力资源等[12]。社会学中,比较主流的看法是:把“职业”作为社会分层的标准,把资源占有作为基本维度,并辅之社会经济地位综合指数的测量[13]。

已故著名社会学家陆学艺教授在《当代中国社会阶层研究报告》中提出了以职业分类为基础,以组织资源、经济资源、文化资源占有状况作为划分社会阶层的标准,把当今中国的社会群体划分为10个阶层。10个阶层包括国家与社会管理者阶层、经理人员阶层、私营企业主阶层、专业技术人员阶层、办事人员阶层、个体工商户、商业服务业员工阶层、产业工人阶层、农业劳动者阶层和城乡无业、失业、半失业者阶层。此外,陆学艺教授认为“社会中间阶层”是由10个阶层中的专业技术人员、办事人员阶层、个体工商户、商业服务业员工4个阶层组成[14]。

注意力是指人的心理活动指向和集中于某种事物的能力。在信息丰富的世界中,拥有信息就意味着另一种稀缺,即信息所消耗的其他东西,而信息所需要消耗的恰恰就是信息接收者的注意力。因此,信息的富足就会导致注意力的贫瘠,我们需要将注意力有效地分配在那些消耗注意力的信息资源上[15]。网络是一个公共空间,它承载的是集体的注意力。虽然每个人在每一个时刻都只能关注一个事物,但是大量的网民在互联网上就会形成大规模注意力的交汇[16]。网络结构与人们行为的演化会涌现出集体活动[17]。Goel 等[18]的研究指出个人在网上如何分配时间会影响从公共政策到营销的多个领域,用户在社交媒体投入的时间远大于在电子邮件、搜索和门户类网站等投入的时间。Weber等[19,20]的研究发现不同人口群体的网络搜索行为之间存在着很大差异。

目前,虚拟空间中的社会分层研究较少,且多基于概念提出和一般性探讨。如黄哲[21]指出虚拟世界中的不平等和分化客观存在。胡建国[22]认为人们的主观地位认同受现实社会与网络社会参与的双重影响,并且双重影响表现出耦合的特征。张斐男[23]认为网络社会中社会分层的新特征正在影响并消解着原本的由上而下的权力结构。程士强[24]指出个体在网络社会中以“代内再生产”和“代际再生产”的方式将原有的阶层结构延续到网络社会中。传统的研究大都基于网络信息资源占有的机会和能力等客观指标,本文将从不同阶层用户使用网络资源的具体行为及信息的内容和性质等因素对虚拟空间中的社会分层现象进行分析。

3 理论与方法

3.1 理论依据

本文的社会阶层划分参考陆学艺教授提出的10个阶层和社会中间阶层的划分[14],按照用户的职业属性对样本数据进行2个层次的分类,如表1所示。

第1个层次为“社会上层”“社会中层”“社会下层”,社会中层包括的职业有“专业技术人员”“党政机关事业单位一般职员”“个体户、自由职业者”“企业公司一般职员”, 将中间阶层之上的“党政机关事业单位领导干部”和“企业公司管理者”划为社会上层,将中间阶层之下的“产业、服务业工人”“农民、农村外出务工”和“退休、无业、下岗、失业”划为社会下层[25]。

3.2 数据描述

本文采用中国互联网络信息中心提供的用户在线行为数据,该数据由30 000多名全国各地志愿者用户在个人计算机上安装数据采集程序在线获取。用户每次开机时,都会生成一个对应的日志文件。保证在线用户个人隐私的前提下,以2 s一次的频率扫描用户计算机的当前焦点窗口。日志文件会详细记录用户的开关机时间、窗口进程名、浏览器地址栏等信息。若当前焦点窗口发生变化,则会在日志文件中增添新的记录。

该数据集已累积了数以TB量级的数据,为分析方便,本文随机抽取1 000个用户1个月约1.2亿条的上网点击行为数据记录。样本数据包中的数据文件包括按日期归档的样本行为日志和样本的人口属性信息2部分,二者可通过样本ID关联[26]。用户的人口属性信息文件中包括用户的性别、年龄、学历、职业、工资、所在地等信息。

3.3 研究方法

3.3.1 特征提取方法

分别提取各阶层数据集中所有用户点击的软件进程序列,构建词汇表。选用word2vec中的Skip-gram模型训练词向量。在Skip-gram模型中,输入为各阶层语料库中特定的一个进程名的词向量,输出为该词对应的上下文词。在每个阶层的语料库中,根据进程名出现的频次建立哈夫曼树,用哈夫曼树来代替隐藏层和输出层的神经元。其中,叶子节点为输出层的神经元,叶子节点的个数为词汇表的大小,内部节点为隐藏层的神经元。

(1)

(2)

为了增加代码的简洁性和可读性,将式(2)拆分为伪代码中的①~④。基于Hierarchical Softmax的Skip-gram模型算法流程如下:

输入:语料库,词向量维度。

输出:词向量。

1.基于语料库训练样本构建哈夫曼树;

2.随机初始化模型参数θ和词向量w;

3.采用随机梯度上升方法更新参数:

Forw∈Context(w) do

{e=0;//e为词向量v(w)中所算出的增量

Forj=2:lwdo//lw为路径向量pw中包含节点的个数

{

v(w)=v(w)+e;}

End for

3.3.2 社会分层识别算法

用户的在线点击行为由多个进程名组成,通过用户的点击行为识别用户的社会阶层类似于传统文本分类问题。循环神经网络常利用one-hot向量结合文本序列的顺序特征对文本进行分类,但one-hot向量要求各词语间相互独立,且向量过于稀疏,维度过大导致计算困难。word2vec可以将one-hot向量转化为低维度的连续值,即稠密向量,其中联系紧密的词将被映射到向量空间中相近的位置,符合用户行为数据前后关系极为紧密的特点。

本文提出基于word2vec的神经网络-W2V-BP模型,结合传统前馈神经网络对用户行为特征进行社会分层识别。首先利用Skip-gram模型训练出代表用户行为特征的词向量,W2V-BP模型将训练出的词向量作为输入,用户的阶层类别作为输出,通过梯度下降优化,数次迭代调节参数,训练用户分类模型。W2V-BP模型如图1所示,其中w(t)表示第t个词向量。

Figure 1 W2V-BP model diagram图1 W2V-BP模型图

在output层,第j个神经元的阈值为θj,第j个神经元接收到的输入向量为βj,可得预测值:

(3)

(4)

其中,whj是hidden层第h个神经元与output层第j个神经元的连接权重,bh为hidden层第h个神经元(共有q个神经元)的输出。

(5)

input层第i个神经元与hidden层第h个神经元之间的连接权重为vih,xi为输入的词向量,则hidden层第h个神经元的输入向量αh为:

(6)

根据梯度下降策略,在已求均方误差Ek和给定学习率η∈(0,1)的情况下,求得hidden层到output层的连接权重△whj为:

(7)

(8)

通过式(8),可以得到hidden层第h个神经元的输出bh:

(9)

hidden层和output层的神经元都使用Sigmoid函数,在Sigmoid函数中,

f′(x)=f(x)(1-f(x))

(10)

利用梯度下降算法,根据式(3)和式(5)得到output层神经元的梯度项gj:

(11)

根据反传播原理,得到hidden层到output层的权重更新公式为:

Δwhj=ηgjbh

(12)

可得到output层神经元阈值θj:

Δθj=-ηgj

(13)

结合梯度更新向量eh,根据反传播原理,得到输入层到hidden层的权重vih、hidden层第h个神经元的阈值γh:

Δvih=ηehxi

(14)

Δγh=-ηeh

(15)

最终得到hidden层更新向量eh:

(16)

BP神经网络[27]基本流程如下所示:

输出:多层前馈神经网络(BP神经网络)。

1.在(0,1)范围内随机初始化网络中所有连接权重和阈值;

2.repeat

3. for all((xk,yk)∈Ddo

5. 根据式(11)计算output层神经元的梯度项gj;

6. 根据式(16)计算hidden层神经元的梯度项eh;

7. 根据式(12)~式(15)计算连接权值whj,vih与阈值θj,γh;

8. end for

9.until 停止

4 实验结果与分析

4.1 停留时间分析

提取各阶层用户的开机时间、关机时间和在线持续时间。通过计算时间数据的均值和方差,分析不同阶层用户在虚拟空间中停留时间的稳定性。

均值指样本中各阶层用户开机时间、关机时间及在线持续时间的平均值。方差反映了各阶层用户时间数据和其均值间的离散程度。本文分析得出的结果如图2和图3所示。

Figure 2 Mean of time data图2 时间数据的均值

Figure 3 Variance of time data图3 时间数据的方差

观察图2和图3发现,和较高阶层的用户相比,较低阶层的用户占据了平均开机时间、平均关机时间、平均持续时间的最早和最晚时间。此外,较低阶层的用户在虚拟空间中的开机时间、关机时间的方差最大,说明较低阶层的用户在虚拟空间中的停留时间较不稳定,较高阶层的用户在虚拟空间中的停留时间比较稳定。

4.2 注意力聚焦点分析

vocab(词汇表)根据进程出现的次数从大到小依次排列,由于共同分析各阶层中所有用户行为数据的显著特征,忽略出现次数少的进程,取词汇表中前200频次的进程名作为实验数据。定义训练参数,批处理量batch_size=128,词向量维度embedding_size=64,为了更全面抓取某一进程和上下文的关系,设置某一进程可最远联系到其它进程的距离skip_window=10,对每一个进程名提取样本数num_skips=8,测试集进程数valid_size=16,测试集采用词汇表top15频次进程vaild_win-dow=15[28]。通过Skip-gram模型训练代表各阶层行为特征的词向量,用K-means算法聚类词向量,所得分布图如图4~图6所示。

Figure 4 Social upper layer word vector distribution图4 社会上层词向量分布图

Figure 5 Social middle layer word vector distribution图5 社会中层词向量分布图

Figure 6 Social lower layer word vector distribution图6 社会下层词向量分布图

各阶层词向量分布图各不相同,图4和图5总体上各进程间的距离更加紧凑,图6中各进程间的距离比较分散。说明较高阶层用户点击的软件进程序列规律性强,较低阶层用户点击的软件进程序列规律性弱。各阶层词向量图中均包括的进程名为常规的杀毒或浏览器类应用,包括:360sd.exe(杀毒类)、thunder.exe(下载软件)、iexplore.exe(浏览器)、360safe.exe(杀毒类)、sougouexplorer.exe(浏览器)和QQ.exe(社交类)。

从图4可知,社会上层独有的进程名为: wps.exe(办公类)、sohunews.exe(新闻资讯类)、notepad.exe(记事本)、Illustrator.exe(办公类)和HAPDK.exe(休闲类)。从图5可知,社会中层独有的进程名为:coral.exe(浏览器)和chrome.exe(浏览器)。从图6可知,社会下层独有的进程名为:maxthon.exe(浏览器)、QQGame.exe(休闲类)、QQMusic.exe(休闲类)、popup_QQ.exe(休闲类)、QQPenguin.exe(休闲类)和QQBrowser.exe(浏览器)。此外,社会上层和社会中层共有的进程为:AliIM.exe(购物类)、EXCEL.EXE(办公类)和WINWORD.EXE(办公类)。社会中层和社会下层共有的进程为360chrome.exe(浏览器)。

从各阶层词向量分布图看出,社会上层用户在虚拟空间中主要将注意力消耗在办公类、购物类、新闻资讯类等应用。社会下层用户主要将注意力消耗在休闲娱乐类应用上。此外,社会上层用户使用常规的浏览器,而社会中层和社会下层用户使用的浏览器种类较多,初步判断他们在虚拟空间中有更多的探索。综上所述,社会上层和社会中层用户能利用网络资源进行办公和购物,而社会下层用户在虚拟空间中以娱乐为主。

为进一步探索各阶层用户在虚拟空间中注意力消耗的差异性,提取各阶层用户在图4~图6中出现的进程中消耗注意力的持续时间,对其取均值。接着按类别将同类进程的持续时间相加,结果如图7所示,具体值见表2。

Figure 7 Average duration of users’distraction in various applications图7 用户在各类应用消耗注意力的平均持续时间

Table 2 Average duration of users’attention in various applications

从图7中可以看出,在新闻资讯类、办公类应用中,社会上层用户消耗注意力的平均持续时间大于其他阶层用户。在购物类应用中,社会中层用户消耗注意力的平均持续时间最长。在浏览器和休闲娱乐类进程中,社会下层用户消耗的注意力远大于其他阶层用户。在办公类进程中,社会上层和社会中层用户消耗的注意力远大于社会下层用户。从持续时间总和中可以看出,社会下层用户在虚拟空间中消耗注意力的时间远大于其他阶层用户。

综上所述,较高阶层用户能更好地利用网络资源进行办公和购物,且消耗的时间和注意力较少。社会下层用户在虚拟空间中的注意力主要聚焦在休闲娱乐类和浏览器等应用上,且消耗的时间最多。这说明虚拟空间中延续着真实空间中的社会分层结构。

4.3 社会分层识别

应用基于word2vec的BP神经网络模型(W2V-BP),根据用户的在线行为特征将其识别到社会上层、社会中层或社会下层。不断迭代数据并自动优化部分参数进行分类或回归,通过调整运行轮次和网络大小进行识别,结果如图8所示。

Figure 8 Social class recognition accuracy change 图8 社会阶层识别准确率变化图

随着迭代轮次的增加,准确率不断提高,且在6轮迭代后达到拟合,准确率为90.22%,满足阈值[29]。该模型效果较为稳定,表明虚拟空间中存在能够区分人类社会分层的行为特征。

另外,本文对比了时下较为普适、高效的SimpleRNN、LSTM、SVM模型,表3显示了不同模型对同一数据集的识别效果。

Table 3 Experimental results comparison

结果表明,基于word2vec的BP神经网络模型(W2V-BP)对虚拟空间中的社会分层识别具有较好的表现,同时LSTM、SimpleRNN和SVM模型也能够进行虚拟空间中的社会分层识别。这进一步验证了虚拟空间中存在能够区分人类社会分层的行为特征。

5 结束语

本文通过分析用户行为大数据对虚拟空间中的社会分层规律进行研究,最终发现不同阶层的用户在虚拟空间中的行为特征大不相同。(1)较高阶层用户在虚拟空间中的停留时间更加稳定,较低阶层用户的停留时间较不稳定。(2)较高阶层用户能更好地利用网上资源办公和购物,而较低阶层用户主要在虚拟空间中休闲和娱乐,却消耗了最多的时间和注意力。(3)利用W2V-BP神经网络模型发现虚拟空间中存在能够区分社会阶层的行为特征,识别准确率为90.22%。

研究结果给我们的启示是,在信息丰富的时代,我们应该保护好自己的注意力,将它消耗在能提升自我的信息资源上,才不会陷入社会底层的循环中。

本文对虚拟空间中社会分层行为研究的判断还有待新的数据和进一步的研究去核实。另外,本文通过职业来反映社会分层,代表了一般意义的阶层划分,但其实社会阶层还受到教育、收入、父母、配偶等的影响[30]。今后将进一步地提升和优化虚拟空间中的社会分层行为研究。

猜你喜欢

虚拟空间阶层浏览器
当“非遗”遇上“新阶层”
虚拟空间设计中的关键技术分析
基于虚拟化的相向行驶车辆间通信机制的研究
美国大学招生行贿丑闻凸显其阶层割裂
反浏览器指纹追踪
大众富裕阶层如何理财
环球浏览器
再见,那些年我们嘲笑过的IE浏览器
浅谈室内设计中虚拟空间的表现
奇闻趣事