APP下载

小红书对于人们日常浏览行为的影响分析

2022-02-13◎黄

传播力研究 2022年32期
关键词:红书类别聚类

◎黄 丹

(广州航海学院,广东 广州 510725)

一、引言

借助于互联网,人们的社交圈越来越大。本文以小红书为例,阐述互联网媒体给用户带来的与传统社交媒体平台的不同体验。另外,小红书虽然给用户提供了丰富的内容资源,但是每个用户都有着自己的喜好。当用户进行搜索查找内容时,往往会出现许多无关的信息甚至是干扰的信息。这不仅仅给用户造成时间上的浪费,而且也让用户耗费了更多的精力筛选出符合自己的信息。这些将给用户带来不愉快的体验,同时也让用户抱怨该软件的效率。长此以往,势必导致软件平台用户的流失甚至是被边缘化。

如何根据用户使用中的行为模式,对用户进行精准的肖像刻画,从而把每个用户定位出一个合适的标签,根据这个标签对用户进行相关的内容和信息推荐,这将是现阶段以及未来一段时间内的主流研究方向之一,也是未来互联网传媒以及数据分析和挖掘的一个热门方向。同时,精准的肖像刻画,也能让互联网传媒进行精准的广告投放,从而取得更加有效的收益,也可以避免传统广告粗犷式投放的资源浪费。当用户用互联网进行浏览搜索时,会留下许多搜索痕迹和数据。这些数据常见的有图片、文字,甚至是语音。互联网会记录用户的搜索痕迹,以便于下次用户登陆平台时,为其推荐更多相关的内容。

二、机器学习算法介绍

近年来,由于计算机技术的高速发展,人们能更快地处理信息,这使得人们能够对小红书等社交媒体进行有别于传统的手机日志分析,从而更近一步对图片、语音等大数据进行分析。这也是近年来传媒分析的主流趋势之一。

本文以机器学习的一些算法为依据,利用机器学习对小红书进行一些分析、解释和预测。一般应用较为广泛的机器学习算法有分类算法、贝叶斯分析、聚类算法、主成分分析、决策树等。当用户浏览搜索时,互联网会相应地记录下用户的信息。比如用户甲,我们可以通过观察其每个月浏览小红书的次数,记录下该用户这个月内的浏览的各种行为,以此来对该用户进行分析和推荐。下面我们通过一些例子进行说明。例如,用户甲一个月内浏览了3 000次小红书,则平台会记住该用户的浏览习惯。我们不妨假设这个用户在3 000次浏览记录中,有1 000次涉及到了美食、800次涉及时尚博主明星艺人、600次涉及搞笑视频图片、400次涉及服饰穿搭、200次涉及玩乐及其他。

三、主成分分析

主成分分析法是一种挑重点分析的方法,也是一种基于数学变换的方法,它通过对原变量进行一系列数学变换,然后得到新的变量。新变量的主成分将是原变量的线性组合(因为线性组合是比较容易计算的,计算机能快速处理,这也是线性变换的优势),而后通过在新变量中选择那些在变差信息量中占比较大的主成分,以此进行分析建模,从而达到数据分析和挖掘的目的。主成分在变差信息量中的比例越大,它对数据分析和评估的用处就越大。

假设我们拿到了一份数据集,有m个样本,每个样本由n个特征(变量)来描述,那么我们可以按照以下的步骤进行降维。

1.将数据集中的每个样本作为列向量,按列排列构成一个n行m列的矩阵。

2.将矩阵的每一个行向量(每个变量)都减去该行向量的均值,从而使得新行向量的均值为0,得到新的数据集矩阵X。

3.求X的协方差矩阵,并求出协方差矩阵的特征值λ和单位特征向量e。

4.按照由大至小的特征值顺序,将单位特征向量排列成矩阵,得到转换矩阵P,并按PX得出主成分矩阵。

5.用特征值得到方差贡献率和方差累计贡献率,利用方差累计贡献率超过85%的前k个主成分,或者想降至特定的k维,直接取前k个主成分。

我们依然用上例来做解释,在上例中用户1 000次美食记录的数据肯定是有很多种类,不会是单一的美食。其他几种浏览记录的数据构成也是有很多细小的分类。那我们该如何确定该用户对哪些美食有特殊的钟爱,或者对哪些时尚博主有特殊钟爱,这里就需要采用主成分分析算法进行分析。

根据主成分分析的原理,我们把用户每种浏览数据做成一个矩阵。矩阵的第一列是美食数据,第二列是时尚博主明星,等等。然后根据算法中的2、3、4、5进行相应的计算分析得出每一种喜好偏爱的那些类别。比如,用户钟爱粤菜、江浙菜或者西点等。如此小红书将对用户进行相关的推荐,给用户推出更多的相关内容,减少用户自己搜索的麻烦。与贝叶斯分析相比,主成分分析在算法上是更细致的。我们可以看到,贝叶斯算法是告诉我们用户行为喜好的类别,然后根据最大概率出现进行推荐。但是用户喜爱的食物内部的喜爱度如何,贝叶斯并未进行分析。当然我们可以在将喜爱的食物进行再一次贝叶斯分析,这就可以得到喜爱事物内部的喜爱度。然而主成分分析却可以直接告诉你用户喜爱哪些事情和喜爱度。利用这个算法进行用户行为刻画和偏好推荐,有着非常大的优势。

四、分类算法和聚类算法分析

接下来我们分析另外两种算法,即分类算法和聚类算法。我们将这两种算法放在一起讲,是为了更好地让读者加以理解区别。

分类算法的目标是通过对数据进行分析,把未知的数据对应数据库中已有数据的类别。从这里可以看出,分类算法的一个前提是,我们必须要知道目标数据库中的数据类别,然后将不同的数据精准地分类到已有类别之中,我们称分类算法有监督的学习过程。

由于分类算法要求事先知道数据库中信息的全部类别,并且所有待分类的信息最后都将要被分类为已有对应的类别,因此分类算法也有其局限性,当上述条件无法满足时,我们就需要尝试聚类分析。

(一)当用户浏览小红书后,他们会留下各种数据信息,在收集这些信息然后如何进行处理,这是一个非常重要的问题

比如,某个用户浏览记录只有10 000条数据,我们知道这些数据来自于几个大的类别。比如属于小红书中常见的几个类别之中,但是具体位于哪些类别,这是需要我们尽心分析的。这个时候我们可以用分类算法,去判断某个样本数据的类别归属。简单来说,如果我们能确定已经有1 000条数据属于美食,则对下一个数据,我们通过判断它与这1 000条数据的相似度确来认定它是否属于这一类别。如果该数据与这1 000条数据的距离度不超过某一个事先确定的值,我们就可以判断出该数据属于这一类别。否则该数据就要与其他组别的数据进行再次计算,进行相应的判断即可,直到每个数据都有其所属的类别。

分类算法从直观上看,它更多的是在已经知道总体的一些分类,设置一个相似度后,将每个数据进行类别划分,从而得到数据的分类。这也为我们对用户的行为刻画提供了理论支撑。因为我们只有知道用户浏览数据的类别后,才能进一步对用户喜好进行分析,比如用贝叶斯算法、主成分分析进行喜好推荐。如果没有分类,我们就无法准确地刻画用户的行为,也就无法达到精准的投放和推广。

由于分类算法是事先知道总体类别后,对新的数据进行类别归属的分析,所以我们称分类算法是有监督的学习算法。如果我们未知总体类别,只有数据,那该如何确定总体的类别,这就要用到我们说的聚类算法了。

(二)聚类与分类的区别

对于分类和聚类的区别,我们给出如下三点分析。

第一,不论是分类还是聚类算法,它们都是通过建立数学模型,特别是统计学模型,从而对数据进行分析和挖掘。现有常见的分类算法包括贝叶斯分类算法、决策树、主成分分析、罗辑回归、支持向量机等。而常见的聚类算法有k-均值、k-中心点、bi-kmeas等算法。同时,许多统计学软件也在聚类分析中发挥了巨大作用,例如SPSS、SAS等。这是二者在算法和数学模型上的区别,也是一种统计学上的区别。

第二,虽然二者同属于机器学习的算法类别,但是根据前文的内容,我们知道分类算法是一种有监督的学习,类似我们已经知道总体或者数据库的类别情况,然后想要确定新数据属于总体或者数据库中的哪个类别。而聚类算法它的特点是,我们事先不知道总体或者数据库的类型或者类别,甚至是不是同一种类型的数据也不一定知道。而聚类算法的过程是给出数据库中全体数据所属的类型,告诉我们数据库的数据是什么类型的。这是一种无监督学习,因为我们事先并不清楚数据库类型,也不知道最终会有什么类型反馈给我们。

分类算法通过有监督的学习,将每一条未知数据归结到总体数据的对应类别之中,它需要事先有数据库进行训练分析,确定数据库的类别之后,才可以进行未知数据的分类,这是一种监督训练算法模型。

聚类算法是一种尝试性、探索性的分析,在分析开始之前我们并不知数据的类型,也并没有数据分类的标准。聚类分析的过程是将总体中的数据按照算法的要求,进行自动的分类,在聚类分析结果未出之前,我们是不知道数据类型的。正是由于此,采用不同的聚类算法往往可能会得出不同的结果,不同的数据分析人员即使对同一组数据使用不同的聚类算法,也不一定会得到相同的结果,这是聚类算法的一大特点,也是其魅力所在,因为未出结果之前,很难知道是什么类别。

第三,二者在实际中的应用也是不一样的。分类算法的主要目的更多地集中于对已有数据进行分类,可以认为是重点在于数据分析。毕竟我们已经知道新数据是属于总体的某一个类别之中,目的是分析它属于哪个类别,并将得到的结果作为下一步分析应用的依据和基础。而聚类算法的目的在于探索未知数据类型,更像是在进行数据挖掘。通过对未知总体的聚类分析,挖掘出总体数据类型,从而得到那些对我们有用的信息。这就相当于在一群未知的数据库中,筛选挖掘出有价值的信息。正是如此,聚类分析成为数据挖掘的主要目的之一。过去和现在数据分析是互联网传媒的一大热点,但是现在和未来,数据挖掘越来越重要,不仅在理论研究、信息安全,而且在商业应用上也已经越来越重要,将成为互联网传媒的重要研究内容之一。

我们通过举例进行解释聚类算法的应用。小到个人大到群体,每年都会在小红书留下许许多多的痕迹。这些数据会被小红书记录下来,用作分析和计算。如何确定这些数据是什么类型至关重要。比如,有些数据是美食、有些数据是旅行、有些数据是服饰等。我们把这些数据收集在一起,使用聚类算法对其进行分析,最后会得到许多的类别,这些类别是小红书平台进行推广应用的基础。比如,平台每年的数据分析发现在结果组别中,美食占据了很高的比例,而且在进行多次聚类分析时发现这个比例都是非常高的。如此小红书就会对美食这一主题进行大量的投放和推广,并且能据此获得很大的广告收益。这也是如今互联网媒体收入的一种渠道,通过对用户的行为刻画分析,进行商业合作,对事物进行定点精准推广,从而取得收益,节约成本并留住以及吸引更多的客户。

五、结语

本文通过介绍几种机器学习的算法,解释了小红书如何根据用户浏览的行为和喜好,为他们推荐更多的内容,以此节省用户搜索寻找的时间。同时,也介绍了如何精准地推送用户感兴趣的内容,而非单一模式的粗犷的信息轰炸。小红书的精准推送让用户拥有了更多更好的体验,使得越来越多的用户加入使用小红书的队列中。同时更多用户的加入,也让小红书成为传媒广告投放的优选平台。许许多多的广告商正是看重了小红书精准投放运营模式,以及大量的用户群体而纷纷选择在小红书平台上投放广告。这也是互联网时代的一种多赢局面。

随着计算机软件和硬件的快速发展,如今的互联网时代已经远远超过传统互联网时代。当今的计算机已拥有更强大的计算能力、更智能的工作模式。基于此,现在的计算机能处理更多的数据,并能得到更精准的结果。这为现代传媒提供了强有力的技术支撑,如今的传媒工作再也不是满大街的奔跑采访,而是可以借助计算机和互联网分析用户的行为,刻画用户的心理,从而达到所需要的目的。

本文研究了基于机器学习算法进行大数据分析,进行用户个性化推送的方法,使用大数据分析算法内的相似度方法分析用户偏好、广告投放推广之间的互惠相关性等,以此向平台用户推送符合个人偏好的广告信息。将本文的方法应用于平台内,实验结果表明该方法具备较强的信息抽取能力,且为用户推送的信息有效性强,应用后相关产品广告收益与宣传效果明显增强,取得了较好的实际应用效果。

最后,在借助计算机和互联网的强大工具的同时,新传媒时代也要注重用户的信息安全和网络安全。如何保护用户的信息安全,对于传媒来说是重要的,也是首要的问题。依赖于计算机技术的革新,新时代的传媒面临着巨大的变革机遇,谁能精准地把握用户行为和心理,进行精准的用户刻画从而做出精准的推送内容,谁就能获得成功。但同时也面临风险,如何维护用户的信息安全,这也将是一个不可避免的问题。只有兼顾二者,新时代的传媒才有可能取得成功,立于不败之地。

猜你喜欢

红书类别聚类
“炫卡”招招鲜 爱上读红书——读书活动 教你一招
六页小红书诉说心中爱
基于K-means聚类的车-地无线通信场强研究
小红书遭投诉:网购商品与实体店不一样!
壮字喃字同形字的三种类别及简要分析
基于高斯混合聚类的阵列干涉SAR三维成像
西夏刻本中小装饰的类别及流变
基于Spark平台的K-means聚类算法改进及并行化实现
基于改进的遗传算法的模糊聚类算法
多类别复合资源的空间匹配