基于监督学习的信息茧房减弱方案研究
2023-12-06许学裔吴佳泽徐超阳吴培榕孟庆欣
黄 之,许学裔,吴佳泽,徐超阳,吴培榕,孟庆欣
(湖州师范学院 理学院,浙江 湖州 313000)
0 引 言
信息茧房(informationcocoons)是由哈佛大学教授凯斯·桑斯坦提出的一个概念,是指人们的信息领域习惯性地被自己的兴趣所引导,从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象[1].随着互联网和信息技术的发展,用户获得的信息越来越窄化、个性化,信息茧房现象也越趋于明显.国外对信息茧房的研究较早,西方学者更倾向于认为信息茧房可能只是“一个担忧”和“不准确的预言”,真正的信息茧房可能并不存在.在政治领域,西班牙学者Cardenal通过研究西班牙媒介系统发现,用户获取的信息呈现多元化;在社会领域,印度数学科学家和英国学者认为,假新闻能够通过“信息茧房”进行传播,甚至很多带有情绪偏见的信息也能够通过信息茧房进行传播,给社会带来极大的危害.而国内学者对信息茧房更倾向认为其真实存在且不能随意地将概念外延.最明显的概念外延现象是在“信息茧房”与“过滤气泡”这两大概念上的混用.合理的概念外延有利于掌握信息茧房的范围和打破信息桎梏.目前,国内有关信息茧房的研究较多[2-7],主要停留在利用问卷调查、SPSS等统计软件进行统计分析,并针对个案提出一些改进措施.例如,徐翔等利用BERT模型,以新浪微博用户为例,实证检视社交网络内容生产中的用户“茧房趋同性”现象[8];张禹基于SOR理论,以高校大学生为研究对象,实证信息茧房对传统文化认同的影响[9];崔椒洁等通过引入正当程序规则限制数据挖掘机构的数据权力,建立数据挖掘机构与个人信息主体之间有效互动的通道和程序,以助于实现对个人信息的保护[10];彭晓晓利用内容分析方法和社会网络分析方法,以广告业界和学界为例,证实桑斯坦提出的“信息茧房”效应的存在[11];任秋菊通过数据分析,以新冠病毒疫情为例,证实日常生活信息查询行为表现出较强的社会网络依赖[12].这些研究都受限于一定群体,不能很好地反映信息茧房的实际存在.因此,如何尽可能地规避信息茧房,削减信息茧房效应的消极作用,这是本文的研究重点.尤其是对信息高速流通和发展的浙江省,如何从用户角度出发建立数学模型,是本文的创新与特色.
1 基于机器学习的模型
目前,在信息茧房预测模型的研究中,大多只采用单一的算法建立模型,如支持向量机等.本文通过随机森林、支持向量机、朴素贝叶斯3种模型的对比分析,选取最优模型,建立信息茧房预测模型;采用adaboost、GBDT集成学习方法构建信息茧房与系统主导模式/用户主导模式之间的Boosting集成回归模型,并比较两个模型的评估指标,最终得出最优模型.
1.1 SVM算法
支持向量机模型(SVM)是一种二分类模型,它的基本模型是定义在特征空间上间隔最大的线性分类器.它能非常成功地处理回归问题(时间序列分析)、模式识别(分类问题、判别分析)等问题,并可推广应用于预测和综合评价等领域.例如,叶林等利用支持向量机法的结构风险最小化原则,建立了短期风电功率组合预测模型[13];袁胜发等研究了支持向量机在机械故障诊断中的应用[14].
1.2 朴素贝叶斯算法
朴素贝叶斯算法是基于特征条件独立假设和贝叶斯定理的一种分类算法.首先,基于特征条件独立假设,对已给定的训练数据集学习输入输出的联合概率分布;其次,基于此模型,利用贝叶斯定理求使得实例X后验概率最大的输出y.例如,范慧芳等在考虑特征属性与类别之间,以及各特征属性之间的依赖关系的基础上,利用ReliefF算法和相关系数法分别对特征属性进行加权处理,构造了一个基于朴素贝叶斯定理的改进的朴素贝叶斯网络模型[15].
1.3 随机森林算法
随机森林模型(RF)是先利用重采样技术,从原始训练样本集N个样本中随机抽取k个样本进行替换,生成一个新的训练样本集,然后生成k个分类树,最后形成基于自助样本集的随机森林.当需要对某个样本进行预测时,先统计森林中每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果.单一决策树简单的分类能力被庞大数量的森林结构综合起来,最终的分类结果经投票选取后,比单棵决策树的准确率及效率大大提高.例如,张雷等利用RF处理预测变量数目极大且超过观测值数目这类情况,并对其进行云南松分布模拟研究[16];赖成光等基于RF构建洪灾风险评价模型[17].
1.4 Boosting算法
提升树模型是机器学习中处理分类问题的常用方法之一.其基本思想是:增加前一个基学习器在训练过程中预测错误样本的权重,使后续基学习器更加关注这些打标错误的训练样本,以尽可能地纠正这些错误,从而一直向下串行直至产生需要的T个基学习器,最终对T个基学习器进行加权结合,产生集成学习器.例如,冯中华等利用梯度提升树算法实现了一个高校的DGA域名检测模型[18].
2 特征选取与数据预处理
特征选取与数据预处理流程见图1.
2.1 特征选取
将X的特征名称设为年级、性格、拥有电子产品的数量、兴趣广泛程度、用户心理指标1~4、用户行为指标1~7、用户信息素养1~4、系统习惯导向1~3、信息相关性1~4、技术智能程度1~3.将Y的特征名称设为类型.
2.2 样本来源
根据所选取的特征,针对浙江省高校学生初步设计调查问卷,并发放80份问卷进行前期预调查.依据预调查结果对问卷不合理处做出改进,形成最终问卷.利用最终问卷,通过线上与线下相结合的方式进行问卷调查,共发放问卷500份,回收500份,其中有效问卷481份,男生300份、女生181份,有效回收率为96.2%.本文将以问卷结果转化所得的数据作为数据样本.
2.3 ADASYN处理失衡数据
对本文所研究的二分类问题进行数据分析,发现标签为0的一类占比为70.1%,标签为1的一类占比为29.9%,两者差异高达40.2%,数据样本严重失衡.因此,本文采用ADASYN算法对失衡数据进行处理.
ADASYN算法是在SMOTE(Synthetic Minority Over-sampling Technique)算法的基础上提出的一种自适应的合成样本生成算法,相当于一种插值算法.其基本思想为:根据每个少数类样本周围的分布密度决定生成合成样本的数量.首先,计算每个少数类样本周围的密度;然后,根据所得的密度确定生成合成样本的数量,密度越大的样本生成的合成样本越多,越能够准确反映数据集的分布情况.
ADASYN算法的具体数据采样过程为:
对m个样本的数据集{xi,yi},i=1,2,…,m,其中xi为n维特征空间X中的一个实例,yi∈Y={1,-1}是与xi相关的类别识别标签.将ms和mi分别定义为少数类样本和多数类样本.因此,ms≤ml,且ms+ml=m.
第一步,计算数据样本不平衡程度,d=ms/ml,d∈(0,1].
第二步,计算需要为少数类样本生成的合成样本数量,G=(ml-ms)×β,其中β为一个参数,可在生成合成数据后指定所需的平衡水平.若β=1,则表示创建了一个完全平衡的数据集.
第五步,从数据xi的K个最近邻中随机选择一个少数类样本xzi,通过公式si=xi+(xzi-xi)×λ产生合成样本,其中λ∈[0,1]为一个随机数,(xzi-xi)为n维空间中的差异向量.
预处理前后数据对比见表1.
表1 非平衡数据与平衡数据对比
通过ADASYN算法对数据样本预处理后,标签为0的一类占51.6%,标签为1的一类占48.4%,数据达到均衡标准.
2.4 消融实验
为提升模型的预测准确率,本文进行特征工程、数据样本的平衡工作.下面利用GBDT模型进行消融实验,以验证特征工程和样本数据的平衡是有效的.
原始模型评估结果见表2.
表2 利用原始数据建立的GBDT模型的评估结果
实验1:在建立GBDT模型的基础上加特征工程,模型评估结果见表3.
表3 已进行特征工程的数据建立的GBDT模型的评估结果
实验2:在建立GBDT模型的基础上加对样本数据的平衡,模型评估结果见表4.
表4 已平衡的样本数据建立的GBDT模型的评估结果
实验3:在建立GBDT模型的基础上加特征工程和样本数据的平衡,模型评估结果见表5.
表5 已进行特征工程和平衡的数据建立的GBDT模型的评估结果
结果表明,实验1和实验2的模型效果都低于实验3,说明同时进行特征工程和样本数据的平衡工作对GBDT模型的提升是有效的.
3 模型的建立与分析
在构建和使用信息茧房的监督学习预测模型和集成回归模型前,将信息茧房问卷数据集划分为训练集和测试集,训练集与测试集的比例为7∶3.本研究采用多模型比较分析选取最优模型.
3.1 信息茧房预测模型的建立与分析
信息茧房预测模型流程见图2.
图2 信息茧房预测模型流程
3.1.1 朴素贝叶斯预测模型的构建与分析
首先,构建朴素贝叶斯的3种不同模型,即高斯模型、多项式模型、伯努利模型.针对这3种不同模型,对数据进行分析处理:由于数据特征都为离散类型,所以通过对特征概率的平滑处理,构建多项式模型;由于数据集的一些特征不符合高斯分布,所以通过平方根变化使特征数据正态化,构建高斯模型;由于离散数据变量取值不同,所以通过定义一个二值化方法将输入特征值二值化,构建伯努利模型.然后,将包含多个实例点的X_testset传入构建好的贝叶斯模型预测函数中,对测试数据点进行预测划分,并将返回值存储到对应的文件名称中.最后,通过metrics.accuracy_score函数计算3种贝叶斯模型的预测精度.
通过分析得到,高斯模型在训练集上的预测准确率最高,为0.74;伯努利模型和多项式模型在训练集上的预测准确率相对较低,分别为0.54和0.62;高斯模型在测试集上的预测准确率最高,为0.63.针对伯努利模型,通过调整binarize参数值发现,当binarize参数值太大或太小时,伯努利模型的预测准确率呈断崖式下降,见图3.因此,参数值的选取必须在样本集所有特征值的最小值和最大值之间.图3中,当binarize值在4.5附近时,伯努利贝模型的预测准确率较高.
图3 不同参数值下伯努利模型的预测准确率
3.1.2 SVM预测模型的构建与分析
由于问卷数据具有线性不可分性,所以本文选用非线性支持向量机模型.本研究在Mercer定理的基础上选取径向基函数(RBF)作为核函数,将低维空间中算得的数据输入空间映射到高维特征空间,构造最优超平面,并对构建模型分类规律的可靠性进行检验.SVM模型评估结果见表6.
表6 SVM模型评估结果
3.1.3 随机森林预测模型的构建与分析
利用RandomForestClassifier()模型,构建信息茧房预测模型.其步骤为:
图4 随机森林模型混淆矩阵图
(1)对浙江省高校学生信息茧房问卷数据进行导入,并获取响应变量和特征矩阵;
(2)将数据集划分为70%训练集和30%测试集;
(3)用训练特征矩阵和训练响应变量训练并构建随机森林信息茧房预测模型;
(4)使用已构建的模型对测试集进行预测,并比较预测值与实际值;
(5)计算模型预测的精度.
绘制成的随机森林模型混淆矩阵见图4.混淆矩阵的对角线元素为预测正确的样本量.由图4可得,随机森林模型的预测准确率为72%.
3.1.4 3种信息茧房预测模型的比较
通过分析发现,支持向量机模型在训练数据集上的模型准确率、召回率、精确率和F1均比在测试集上的高,说明该模型在测试集上的预测损失较大,存在过拟合现象.虽然支持向量机模型有利于解决特征空间较大的机器学习问题,但当观测样本较多时,其预测的效率并不高.因此,本文不选用支持向量机模型.
通过分析随机森林模型和朴素贝叶斯模型发现,随机森林模型的预测准确率为72%,略低于高斯模型的预测准确率.其原因可能是:训练数据及测试数据中有许多特征属性的取值太多,如问卷中有许多量表题的取值都是1~5,这会对随机森林模型的分类预测结果产生影响,因此随机森林对这些数据产生的属性权值不能完全采用;而高斯模型通过计算样本数据的概率分布对其分类,量表中的取值对其影响较小,且高斯模型的处理效率较高,在信息茧房预测中的准确率高达74%.因此,本文选用高斯模型作为信息茧房的预测模型.
3.2 信息茧房集成回归模型的建立与分析
信息茧房集成回归模型流程见图5.
3.2.1 提升树模型的建立
分别利用adaboost、GBDT模型,将用户心理指标1~4、用户行为指标1~7、用户信息素养1~4、系统习惯导向1~3、信息相关性1~4、技术智能程度1~3作为特征,学习率设为1,构建是否处于信息茧房与系统主导模式和用户主导模式之间的集成回归模型.
3.2.2 提升树模型的结果
从adaboost模型特征筛选结果看,感兴趣信息所在的页面内容安排模式是类似的特征重要性为10%(最大特征重要性为20%),对判断是否处于信息茧房起到重要作用.
通过绘制adaboost混淆矩阵检验模型的预测准确性,混淆矩阵见图6.混淆矩阵的对角线元素为预测正确的样本量[7].adaboost模型评估结果见表7,adaboost模型测试数据评估结果见表8.
表7 Adaboost模型评估结果
表8 Adaboost模型测试数据评估结果
从GBDT模型特征筛选结果看,推送信息与自己日常生活联系的特征重要性为6.9%(最大特征重要性为7%),不能快捷准确地读取自己获得信息的特征重要性为6.9%(最大特征重要性为7%).这些重要特征对判断是否处于信息茧房起关键作用.
通过绘制GBDT混淆矩阵检验模型预测的准确性,混淆矩阵见图7.混淆矩阵的对角线元素为预测正确的样本量.GBDT模型评估结果见表9,GBDT模型测试数据评估结果见表10.
图7 GBDT模型混淆矩阵图
表9 GBDT模型评估结果
表10 GBDT模型测试数据评估结果
3.2.3 Adaboost模型与GBDT模型的对比
通过比较adaboost和GBDT两个模型在训练集和测试集上的准确率、召回率、精确率和F1,发现adaboost在训练集上的4项参数数值均低于GBDT,在测试集上的4项参数数值也均低于GBDT.因此,本文选择GBDT作为构建是否处于信息茧房与系统主导模式和用户主导模式之间的集成回归模型.
4 结 论
根据以上模型和预测结果可知,56.67%的浙江高校大学生未受到信息茧房的影响,43.33%的大学生处于信息茧房状态.这说明浙江省高校大学生在行为和心理指标方面表现良好,具备较高的信息素养水平.这一趋势可能与浙江省的信息化发展水平和教育水平密切相关.本文采用3种机器学习模型进行信息茧房预测,并对他们进行比较分析.这些模型虽然在预测上表现出色,但预测准确率仍有提升空间.因此,以后的研究应采用多模型融合方法,如stacking异质集成学习,来提高模型的预测准确率,以有助于更准确地预测浙江省高校大学生是否受信息茧房的影响.