APP下载

推荐系统的优化分析与研究

2022-10-12任妮栗荟荃吴琼

中关村 2022年9期
关键词:特征选择降维特征提取

文 任妮 栗荟荃 吴琼

一、前言

每个父母都望子成龙,希望自己的孩子大学毕业后能有个好的工作。国家对大学生的就业问题一直相当重视,每到毕业季各高校就安排一场又一场的校园招聘活动,希望学生都很好地就业。然而近10年以来,高校应届毕业生的数量是逐年增长的,这是非常不错的,说明有越来越多的高素质人才能够为社会、为国家做贡献;但另一方面,大学生的就业压力也逐年增加,这就给我们的高校、学生以及家长都带来了不小的压力。据教育部发布的数据,2022年全国普通高等学校毕业生高达1076万人次,创历史新高。教育部5月份在全国范围举办应届高校毕业生“就业促进周”活动,并于5—8月开展“百日冲刺”系列活动,加快推动高校毕业生的就业工作。尽管教育部和各大院校积极地为毕业生就业做准备,各大企业也积极地从四面八方为毕业生提供方便,但毕业生的就业仍然是我们需要重点关注的问题。

2022年2月25日,根据中国互联网络信息中心(CNNIC)发布的第49次《中国互联网络发展状况统计报告》显示,截至2021年底,中国有10.32亿网民,比2020年增长了4296万人,比2019年增长了1.77亿网民,比2018年增长了2.03亿网民,今年中国的互联网普及率已达到73%。Excelcom公司曾经发表过一份关于“互联网一分钟产生数据”的调查结果显示:2016年,每一分钟有395833人登录微信,有1.5亿万封邮件被发送,谷歌有240万新搜索请求,YouTube有278万视频被播放。谷歌公司Kent Walker在2014年曾经指出:“截至2000年,人类大约有12EB的存储数据,截至2014年,每天可以产生大约2EB的数据”。随着网络基础设施建设的不断完善,大数据行业、人工智能行业、云计算产业的不断发展,2020年全球数据总量约为40ZB。数据正以史无前例的方式增长。可想而知,今天我们面对的是数也数不清的数据海洋。这些数据能为我们做什么呢?它能够促进社会的发展,提高我们的生活质量。数据已经成为一个国家必不可少的重要资源,也确实让我们足不出户,便知晓天下。然而你会发现,当我们想要有针对地搜寻某些信息或者知识的时候,也会有非常多的内容呈现在你的面前,但它们不一定是你想要的。举个例子,当我在某搜索引擎上搜寻旅游攻略时,呈现在我面前的大量数据并不全是我想要的。这个时候推荐系统的出现给生活带来了巨大的便利。我们享受了大数据带来的丰富信息,又可以使用推荐系统避免大量数据带来的麻烦。

推荐系统是一种比较新的技术,它起源于1992年PARC的一篇Using Collaborative Filtering to Weave an Information Tapestry论文,从此开启了它长达31年的历史行程。尽管推荐系统还很年轻,但随着互联网技术在国内的飞速发展,推荐系统在我们的生活中逐渐占有一席之地,并且越来越重要。想要从数据的海洋里获取有用的信息,一定离不开推荐系统的帮助。可能你会认为自己从来没有使用过推荐系统,实际是,我们早就与它相遇过了,比如说搜索引擎的使用。本文主要采用的是协同过滤算法对大学生就业数据进行分析。

二、数据预处理技术

数据预处理技术是完成大数据项目必不可少的关键步骤,占大数据项目90%的工作量。虽然数据预处理不难,但其结果直接影响到最终推荐效果,可以说是非常必要的。想要保质保量地实现推荐系统的推荐功能,获得一个用户满意度良好的推荐系统,一定离不开数据预处理技术的帮助。

(一)特征提取

特征提取其根本目的是对数据中的属性进行降维。特征提取技术主要是发现数据属性的关系,通过属性的组合减少数据中属性的总个数,而组合后的属性又可以有不一样的表现,数据特征空间就发生了改变。特征提取的本质是降低数据维度,其常用的方法有主成分分析(PCA),线性判别分析(LDA):

1.主成分分析(PCA)

主成分分析主要是针对无监督学习的降维技术,是数据提取技术中非常经典的降维技术之一。它需要将属性的值进行分解,就可以实现小幅度的降维,操作简单,易于理解,因此使用广泛。主成分分析实际上是一种统计学方法,用过正交变换将可能具有关联的数据转换成不相关的数据,然后删除达到降维的效果。主成分分析抓住了事物的主要矛盾,从多个属性中用统计计算的方法计算出主要的影响因素,揭露问题的本来面貌。主成分分析技术用于数据降维,假设数据集有n个特征,有m个样本,那么数据集就可以保存为一个n×m的数据矩阵。需要降维的数据集通常拥有较多的维度,因此,n的值通常较大。举个例子,100个高校毕业生在招聘网站浏览职位信息,平台可以获得这些学生的个人信息包括:姓名、性别、年龄、籍贯、毕业院校、家庭住址、父母情况、身高、体重、银行卡号码10个属性。也就是说,学生作为样本m=100,学生的的个人属性n=10,那么数据集可以建立一个100×10(m×n)的多维矩阵作为样本矩阵。主成分分析通过协方差计算可以得到一个10×10的协方差矩阵,利用统计学计算,求出协方差矩阵的10个特征值和特征向量,并进行排序。排在前4位的特征向量可以构成10×4的矩阵,这就是通过计算得到的特征矩阵。将原有的样本矩阵与特征矩阵相乘可以得到100×4的新矩阵,这就是降维后的数据矩阵,此时每个特征的维度都下降了。PCA最终目的实际上是计算的降维后的数据矩阵,所以PCA的过程是计算特征向量矩阵、计算协方差矩阵、取特征向量和特征值较大的k个作为降维特征矩阵与原始样本矩阵进行计算。PCA的计算非常简单,非常适用于无监督学习。

2.线性判别分析(LDA)

线性判别分析也采用统计学算法进行数据降维,但其还会应用到模式识别和机器学习算法来寻找事物之间的属性的线性组合,然后对其特征化。LDA是一种典型的监督学习降维技术,在实现数据从高维度向低维度映射过程时,尽可能地让数据按照类别进行分布。LDA有着相当悠久的历史,其在人脸识别、图形图像处理、语音语义识别项目中有着非常重要的地位。对于自然语言处理,LDA有着很好的表现,是一个比较理想的文档处理模型。

特征提取的方法还有很多,对于一般有类别属性的数据集,LDA是最好的选择。但大多数时候,实际采集到的数据不具有类别属性,聚类算法应用得是较多的,PCA是一个不错的选择,可以优先使用。除此之外,PCA可以实现小幅度的降维,还可以使用混组合方法先用PCA小幅度降维把数据中的噪声删除,再用LDA进行降维,效果也相当不错。

针对毕业生就业问题,LDA和PCA都是一个不错的选择。不对大学生进行分类时,可以使用无监督降维算法PCA,利用特征矩阵判断影响学生择业的主要因素,根据主成分进行职位的推荐。综合考虑,对于大学生的个性化推荐采用主成分分析方法。

(二)特征选择

相比于特征提取,特征选择方法要更简单,它是从原始数据的特征集合中选择子集,数据集的原始特征集并未发生变化。特征选择的方法也非常多,每种方法都有其优势,例如Filter方法、Wrapper方法以及Embedded方法.

特征选择相对于特征提取更容易理解和操作,其算法复杂度、时间复杂度相对于特征提取都比较简单,并且特征选择能够使预测的准确性更高,解释性也比较强。

特征提取是一个从高维度到低维度的俯瞰过程,我们可以在杂乱无章的数据中发现隐藏的理论;特征选择是取特征之精华,去其特征之糟粕的过程,本质是个筛选的过程。针对毕业生就业问题,采用特征提取的方法进行降噪,用特征选择的方法进行特征组合,降低维度,综合地对原始数据进行预处理。

三、推荐系统的优化

完成了数据的预处理,基本已经发现了数据之间的规则。能够判断影响毕业生就业的主要因素有薪资、学历、工作时间、居住地等属性,可以利用推荐算法进行计算推荐。然而目前市场上相关的推荐算法各有利弊。协同过滤算法适合用户量大的系统,用户越多,能够分析的数据越多,系统性能越好。而且能够发现用户隐藏较深的兴趣点,对于杂乱无章的非结构化项目处理起来也游刃有余,但是可扩展性不好,对新用户的推荐受限制,推荐能力受历史数据集限制。简而言之,协同过滤算法比较依赖用户的历史操作数据。

基于内容的推荐算法也是大家用得比较多的算法。其推荐的结果依靠内容,非常直观,且解释性强。基于内容的推荐算法不过度依赖用户的操作数据,而且支持机器学习,对于有特殊兴趣爱好的用户也能够进行很好的推荐。但是基于内容的推荐算法受特征提取方法的限制,并且完成的数据模型需要进行大量地训练,可扩展性也较差。基于内容的推荐算法弥补了协同过滤算法过于依赖用户数据的短板。

为了获得更个性化的推荐系统,将协同过滤算法与基于内容的推荐算法相结合,当学生第一次访问就业平台时,推荐系统优先采用基于内容的推荐算法将经过特征选择、特征提取、特征转换后的数据进行分析推荐给学生,当用户不再是新用户时,采用基于内容和协同过滤的推荐算法,利用数据预处理技术删除冗余值,再推荐给用户。这样学生可以更精确、更全面地获得职务推荐的信息。

四、结语

大数据环境下,推荐系统十分便利,毕业生可以利用大学生个性化就业系统更精准地找到理想的工作。大学生个性化就业系统主要采用了数据的预处理技术,对大学生的特征数据进行降维和标准化,将影响大学生择业的特征保留,去除无关的数据,例如手机号码、电子邮箱等数据。利用特征转换技术将数据进行转换使其成为适合挖掘的数据。最后利用基于内容的推荐算法与基于系统过滤的推荐算法训练数据模型。

猜你喜欢

特征选择降维特征提取
混动成为降维打击的实力 东风风神皓极
降维打击
基于Daubechies(dbN)的飞行器音频特征提取
Bagging RCSP脑电特征提取算法
Kmeans 应用与特征选择
联合互信息水下目标特征选择算法
基于MED和循环域解调的多故障特征提取
抛物化Navier-Stokes方程的降维仿真模型
基于特征联合和偏最小二乘降维的手势识别
基于特征选择和RRVPMCD的滚动轴承故障诊断方法