大数据技术在高校创业生态建设中的应用
2023-12-29宁高倩
宁高倩
(湖南环境生物职业技术学院,湖南 衡阳 421005)
随着全球信息化和数字经济的快速发展,大数据已经成为人类社会的重要产业和基础资源[1]。在该趋势下,高校创业生态建设成为推动新一轮创新驱动发展的重要举措之一。一方面高校创新、创业可以弥补国内、外新兴产业领域中的人才缺口,另一方面也可以促进科学研究成果转化,对推动经济高质量发展和实现创新驱动发展具有重要的战略意义[2-3]。
我国高校创新、创业生态建设仍存在很多不足,例如政策环境不友好、人才培养模式单一以及科技成果转化难度大等[4]。
该文从面向大数据时代的角度对高校创业生态建设进行研究,全面阐述相关概念、构成要素、评价体系以及建设模式,分析大数据技术在高校创业生态中的作用,并对高校创业生态建设数据集进行建模。
1 大数据技术
1.1 大数据预处理
为了清洗、转换原始数据对大数据进行预处理,在后续的数据挖掘过程中可以更好地进行分析。
对于存在缺失值的数据,可以采用插补方法来填充缺失部分,其中常用方法之一是均值插补,如公式(1)所示。
对于存在异常值的数据,可以采用原则,将大于或小于3 倍标准差的样本视为异常样本,并通过删除或替换异常值来修正数据。
数据集成的目的是将来自不同数据源的数据集成为一个统一的数据集。在数据集成中,最基本的原理是数据匹配原则,即找到2 个数据集之间的联系。例如可以使用联合属性或者主键等进行数据匹配。
数据转换是指将数据从一种格式或结构转换为另一种格式或结构。数据转换的基本原理是给每个指标赋予一个统一的比例尺,进行转换之前需要对数值型指标进行标准化、归一化或离散化等操作。标准化是将数据缩放到均值为0、标准差为1 的区间内,常用的标准化方法是z-score 标准化方法,如公式(2)所示。
式中:xi为原始数据;为原始数据的平均值;σ为原始数据的标准差。
归一化是将数据缩放到[0,1],最常用的归一化方法是min-max 归一化方法,如公式(3)所示。
式中:xi为原始数据;min(X)和max(X)分别为原始数据的最小值和最大值。
数据规约是将大量的数据精简为更小的数据集,以减少计算和存储开销。常用的规约方法包括抽样、聚合、分区和维度规约等,其中抽样和聚合是最常用的规约方法。
1.2 大数据挖掘模型
1.2.1 回归分析
线性回归是回归分析的一种经典方法,可以预测因变量与一个或多个自变量之间的线性关系。其原理是寻找最佳拟合直线,使预测误差最小。线性回归如公式(4)所示。
式中:y是因变量(要预测的变量);xk是自变量;βk是回归系数;ε是误差项。
1.2.2 分类
XGBoost 是一种基于梯度提升树(Gradient Boosting Decision Tree)的集成学习算法,通过多个决策树的集成构建1 个强分类器,其主要优点是高效、可扩展性强以及在结构化数据和非结构化数据中表现良好等。
首先,对所有样本赋予相同的权重,采用贪心算法,在当前弱分类器的基础上添加新的树,并对样本的权重进行更新。其次,计算每个树的贡献和加权损失函数,根据损失函数的梯度更新树的叶子节点权重。最后,将多个树的结果加权求和作为最终预测结果。XGBoost 常用的损失函数及其梯度公式如下。
均方误差(Mean Squared Error,MSE)如公式(5)所示。
式中:yi为第i个样本真实值;i为第i样本预测值;梯度为-2(yi-i)。
二分类交叉熵(Binary Logistic Loss)如公式(6)所示。
式中:pi为属于第i类的概率;,梯度为pi-yi。
多分类交叉熵(Multi-class Logistic Loss)如公式(7)所示。
式中:k为第k个样本;yik为第i类中第k个样本;pik为第k个样本属于第i类的概率;,梯度为pik-yik。
在XGBoost 中,每棵树的生成通过贪心算法实现。每次添加一个节点时,计算该节点对损失函数的增益,将最大增益对应的特征和节点值作为分裂点。节点分裂后,样本被分配到左、右子树中,并按照上述方式计算子树的节点,反复迭代直到满足终止条件。
XGBoost 通过多个弱分类器的集成来构建一个强分类器,逐步减少模型误差,具有高效、可扩展性强、在结构化数据和非结构化数据中表现良好等优点,是一种非常实用的机器学习算法。
通过小米手环的功能更新,我们可以看到,公司研发过程中是向着大众更易接受,且能够更加科学化管理自己运动过程的,不断的更新功能,让手环的存在增加大众运动的兴趣性和精准度,譬如心率的控制、卡路里的显示、里程数的显示等,都是努力地、无时不刻地提醒运动者运动要科学、要有数据、要精确。刚好这样一个目标与我们田径教学的目标有所契合,就是需要在教学过程中以教学目标为指导,精准地制定教学内容,而且能够实时控制教学节奏,帮助提高课程质量,一切都不谋而合,所以引发我们的研究方向即小米手环在田径教学过程中如何使用能够让田径课程更加合理、科学化。
1.2.3 聚类
聚类模型是一种无监督学习方法,用于将数据集中的样本分为具有相似特征的群组或簇。聚类模型的目标是在没有事先标记的情况下发现数据的内在结构。
常见的聚类算法包括K 均值聚类、层次聚类和DBSCAN等。这些算法的操作通常基于样本之间的相似性或距离。
1.2.4 关联分析
关联分析是一种用于发现数据集中频繁项集和关联规则的方法。是关联分析中常见的公式如下。
支持度(support)用于衡量一个项集在所有事务中出现的频率。设D为数据集,X为项集,项集X的支持度如公式(8)所示。
式中:|D|为数据集D中的事务总数;t为特定事务。
式中:support(X∪Y)为项集X与项集Y的并集在数据集D中的支持度;support(X)为项集X在数据集D中的支持度。
提升度(lift)用于衡量关联规则中项集X对项集Y的提升程度。提升度如公式(10)所示。
式中:confidence(X->Y)为从项集X推导出项集Y的置信度;support(Y)为项集Y在数据集D中的支持度。
以上是关联分析中比较常见的3 个公式,即支持度、置信度和提升度。这些公式可以用于发现频繁项集和关联规则,并应用于市场篮子分析、推荐系统等领域。
2 大数据技术在高校创业生态建设中的应用
2.1 高校创业生态建设数据集
高校创业生态建设数据如下:1)高校创业团队数量和质量数据,包括创业团队总数、成立年限、核心成员人数以及所在院校专业领域等信息。2)创业项目数量和质量数据,包括创业项目总数、所属行业和领域、是否完成融资以及投资金额等信息。3)学校与外部合作机构的数量和质量数据,包括与政府、企业、投资机构等合作的数量、合作内容以及合作效果等信息。4)各类支持服务平台的数量和质量数据,包括创业孵化器、加速器、投资机构等以及其提供的资源、服务、支持等信息。5)成功案例数量和质量数据,包括已经成功上市或并购的公司数量、获得过奖项或荣誉的创业项目数量等。6)师资力量和教育资源的数据,包括创业导师、创业课程、创新实验室等资源数量和质量信息。
2.2 数据预处理
2.2.1 数据清洗
对高校创业生态检测数据进行去除重复数据、填补缺失值、修改数据类型等。对于“缺失值”,需要根据经验进行手工填写;对于无法根据经验填写的“缺失值”,则采用该特征数据的平均值来代替。
2.2.2 数据集成
将高校创业团队、创业项目、学校与外部合作机构、各类支持服务平台、成功案例、师资力量和教育资源6 种类型数据的6 种表格进行数据集成,集成到一个综合数据集并存储。
2.2.3 数据转换
将数据集中字符型数据转换成数值型数据,如“创业团队”“所在院校专业领域”“政府”“企业”和“投资机构”等字符型变量转成数值型变量,便于后面数据处理和模型建立。
2.3 数据挖掘
2.3.1 数据集划分
建立XGBoost 模型时,先将数据集划分为训练集、验证集和测试集,用于模型训练、参数调整和模型评价。数据集划分方法如下:1)训练集(Trainingset),用于模型的训练和参数估计,占数据集的80%。2)验证集(Validationset),用于模型的选择和调整,占数据集的10%。可以利用验证集来评估模型的泛化能力,选择最优的模型,并调整模型的超参数。3)测试集(Testset),用于模型的最终评价和预测精度的确定,占数据集的10%。使用测试集评估模型在未见过的新数据上的预测能力,以充分验证模型的有效性和泛化能力。
随机打乱每个数据集的数据顺序,以确保训练集、验证集和测试集的数据分布相似,并保持随机性的一致性,提高模型的鲁棒性和泛化能力。
2.3.2 特征提取和数据降维
由于数据集特征维度比较多,并且全国高校历年数据量比较庞大,为了降低模型的复杂度,提高模型的计算速度,因此需要对高校创业生态建设6 个维度的数据进行特征降维,主要采用主成分分析。训练集数据主成分分析中的前3 个主成分得分图如图1 所示。
图1 主成分分析得分图
2.3.3 分类模型
将创业生态建设成功的分为一类,标记为0,创业生态建设失败的分为另外一类,标记为1。因此,该文是一个大数据挖掘技术的分类问题,并且是二分类的模型,可以采用XGBoost 方法建立分类模型。将高校创业生态建设数据集作为XGBoost 模型的训练数据集,利用样本数据中的特征变量(如高校的师资力量、教育资源和创业项目质量等)预测其类别变量(成功/失败)。建模时采用交叉验证、正则化等技术来提高模型的预测精度和泛化能力。
XGBoost 训练参数设置如下:学习率(learningrate)为0.005,树的数量(n_estimators)为100,最大树深度(max_depth)为50,列采样比例(colsample_bytree)为0.6,正则化参数(lambda)为L2 正则化。
模型的ROC 曲线如图2 所示。从图2 可以看出曲线在左侧和顶部的边界很接近,说明分类器在很大程度上正确地识别了正例且假正例率较低。曲线下的面积(Area Under Curve,AUC)越大,说明模型的性能越好。图2 的AUC 看起来比较高,表明分类器的性能较好。
图2 XGBoost 模型ROC 曲线
2.3.4 结果与分析
XGBoost 是一种由多个弱分类器的集成构建的强分类器,可用于高校创业生态数据的分类和预测。该文通过标注成功和失败的创业项目,并结合项目特征,对高校创业团队、创业项目、学校与外部合作机构、各类支持服务平台、成功案例、师资力量和教育资源6 种类型数据进行建模,利用XGBoost 模型进行训练,从而预测并分析未来的创业项目。
3 结论
随着大数据时代的到来,高校可以利用大数据分析技术,对创业生态数据进行分析,从而建立更准确、全面的模型预测。在该过程中,高校需要有足够的存储和计算资源,能够处理海量且多样化的数据。同时,有效的数据清洗、特征选择与降维、模型评估与优化等步骤也极为关键。只有在这些步骤都得到充分考虑和实践的情况下,才能得到质量可靠的模型,进而有效支持高校的创业活动。
利用大数据分析技术建立XGBoost 模型预测,不仅可以辅助高校的创业支持工作,还可以帮助高校更好地理解创业生态、发现生态变化趋势并及时调整创业政策和支持措施等,从而进一步提升高校创业环境的竞争力和吸引力,提高学校创新、创业的意识和能力。