基于SPSS 大学生创业环境指标体系构建与实证
2021-04-20高焕,谌悦
高 焕,谌 悦
(西安职业技术学院生物工程学院,陕西西安 710077)
SPSS(Statistical Product and Service Solutions)结合了统计学分析运算、数据挖掘、预测分析和决策支持任务等功能[1],可以为用户提供数据录入、数据管理、统计分析运算、图表分析、资料编辑、输出管理、数据挖掘、预测分析等服务[2]。统计功能包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、方差分析、主成分分析和因子分析、卡方检验、t 检验和非参数检验、聚类分析、对数线性模型等[3-4],涵盖了《教育统计学》中的所有项目。利用SPSS 软件运用定性与定量相结合的方法[5-7],提升大学生创业环境评价精准度,有助于更好梳理创业环境指标体系中的薄弱点,有针对性地改善创业环境,激发学生创业意愿。
1 大学生创业环境指标体系
1.1 大学生创业环境指标体系构建需求分析
在大学生创业环境指标体系构建中,通过运用SPSS 软件,可以收集影响大学生创业环境整体情况的因子,整理、检验因子数据,分析因子对大学生创业环境影响的显著性等,确保该指标体系满足用户需求。用SPSS 统计分析软件,构建大学生创业环境指标体系,提升大学生创业环境分析的精准性,提高工作效率,满足指标体系构建需求。
1.2 大学生创业环境指标体系构建
1)大学生创业环境指标体系构建思路
该研究通过文献研究法,对以往研究者关于创业环境的构成要素进行汇总梳理,对国内外创业环境构成要素进行对比,认为GEM 模型对创业环境的概括最全面,能够较完整地反映影响大学生创业的各类环境要素[8-11]。基于此,该研究在参考GEM 模型基础上,通过调研走访,听取专家相关意见,考虑指标体系设计的科学性、可实施性、全面性等原则,构建了大学生创业环境指标体系。
2)大学生创业环境指标体系设计
根据构建思路,该研究主要将指标体系划分为4个层次,分别为目标层、系统层、准则层和指标层。
①目标层是对大学生创业环境总体情况的反映。
②系统层是在综合参考GEM 模型基础上构建而成的,具体包括资金环境、政策环境、市场环境、教育环境、文化环境5 个系统。
③准则层是在系统层基础上的进一步细化,具体分为13 个层面,其中资金环境系统层细化为4 个层面,政策环境系统层细化为2 个层面,市场环境细化为2 个层面,教育环境细化为3 个层面,文化环境细化为2 个层面。
④指标层用来具体描述准则层,反映准则层情况,文中共遴选了具有代表性的25项具体指标。
1.3 大学生创业环境指标体系理论模型与研究设计
1)理论模型
该研究在GEM 基础上构建了大学生创业环境指标体系,认为大学生创业总体环境由资金环境、政策环境、市场环境、教育环境、文化环境5 个环境指标要素构成,如表1 所示,并假设该指标体系能够较准确反映大学生创业环境总体情况,提出了以下研究假设。
表1 大学生创业环境指标体系
①资金环境越充足,大学生创业总体环境越好。资金环境用来反映大学生在创业过程中能够获得金融支持的程度,包括政府拨款、家庭亲属赠予、创业资本、权益资本等创业资金来源。
②政策环境越宽松,大学生创业总体环境越好。政策环境主要用来反映政府对大学生创业的扶持力度,其内容包括政府政策与政府项目,诸如政府政策中涉及到的与创业有关的税收优惠减免政策、财政扶持政策、行政规费减免等有利于创业的政策以及政府政策的具体化操作,比如大学生能否直接参与政府科技项目等。
③市场环境越好,大学生创业总体环境越好。市场环境主要用来反映大学生在创业过程中可以获得的“软件资源”和“硬件资源”,包括市场环境、获取商业服务的可得性,获得公共基础设施、自然资源、交通设施、通讯设施的可得性等。
④教育环境越完善,大学生创业总体环境越好。教育环境主要用来反映大学生接受创业教育的情况,体现在大学生通过教育获得的创业技能、创业思维等方面。
⑤文化环境越鼓励创业,大学生创业总体环境越好。文化环境主要用来反映社会文化以及社会规范对大学生创业的态度,包括是否支持创业,以及对大学生创业成败的评价等。
2)研究设计与变量说明
该研究所用的调查问卷是在之前构建的大学生创业总体环境指标体系的框架基础上设计而成的。主要由三部分构成,分别是个人基本信息、大学生创业总体环境评价、大学生创业环境指标。在大学生创业总体环境评价和大学生创业环境指标下各设置了5 个肯定性题项,采用Likert 五星级量表记录调查对象从“很差”到“很好”的评价态度,分别赋值1~5进行计分。
在研究过程中,共涉及6 个主要研究变量,其中大学生创业总体环境(Y)为因变量,资金环境(F1)、政策环境(F2)、市场环境(F3)、教育环境(F4)、文化环境(F5)为自变量。
2 大学生创业环境指标体系数据处理
2.1 搭建SPSS软件应用平台
对于大学生创业环境指标体系的设计,基于SPSS 软件进行验证、优化指标体系,其SPSS 软件应用平台如图1 所示。
图1 SPSS应用平台
1)建立SPSS 数据文件:通过SPSS 读取调研数据时,要注意利用SPSS 命令(TYPE 子命令、SHEEET 子命令、CELLRANGE 子命令、READNAMES 子命令)将数据表中的题目、变量名等信息排除在数据之外。读取调研数据的命令语句如下:
GTE DATA
/TYPE=XLS
/FILE=调研数据储存的根目录
/SHEEET=NAME′大学生创业环境总体情况′
/CELLRANGE=RANGE′A2:AE′
/READNAMES=on.
2)处理大学生创业环境指标数据:通过SPSS 对调研数据进行信度和效度分析,使用因子分析法对调研数据进行主成分分析,利用因子分析的结果计算出主成分。
3)拟合大学生创业环境评价指标体系:通过SPSS,采用回归分析法,检验大学生创业总体情况(Y)和资金环境(F1)、政策环境(F2)、市场环境(F3)、教育环境(F4)、文化环境(F5)之间的关系。
4)统计结果分析:通过模型拟合优度、回归方程整体显著性检验、系数显著性检验来得出自变量对因变量的影响程度。
2.2 数据处理分析代码实现
import pandas as pd
import seaborn as sns
from sklearn.linear_model import Linear Regression
import matplotlib.pyplot as plt
From sklearn.cross_validation import train_test_split
#通过read_csv 来读取目的数据集
Dimensions_data=pd.read_csv("C:/Users/Administrator/Desktop/Dimensions.csv")
#清洗不需要的数据
new_Dimensions_data=Dimensions_data.ix[:,1:]
#得到所需要的数据集且查看其前几列以及数据形状
print(′head:′,new_Dimensions_data.head(),′ Shape:′,new_Dimensions_data.shape)
#数据描述
print(new_Dimensions_data.describe())
#缺失值检验
print(new_Dimensions_data[new_Dimensions_data.isnull()==True].count())
new_Dimensions_data.boxplot()
plt.savefig("boxplot.jpg")
plt.show()
##相关系数矩阵r(相关系数)=x 和y 的协方差/(x 的标准差*y 的标准差)==cov(x,y)/σx*σy
#相关系数:0~0.3 表示弱相关,0.3~0.6 表示中等程度相关,0.6~1 表示强相关
print(new_Dimensions_data.corr())
#建立散点图来查看数据集里的数据分布
#seaborn 的pairplot 函数绘制X 的每一维度和对应Y 的散点图。通过设置size 和aspect 参数来调节显示的大小和比例。
# 通过加入一个参数kind='reg',seaborn 可添加一条最佳拟合直线和95%的置信带。
sns.pairplot(new_Dimensions_data,x_vars=[′F1′,′F2′,′F3,″F4′,′F5′,′F6′,′F7′,′F8′,′F9′],y_vars=′environment′,size=7,aspect=0.8,kind=′reg′)
plt.savefig("pairplot.jpg")
plt.show()
#利用sklearn 对数据集进行划分,以此来创建训练集和测试集
#train_size 表示训练集所占总数据集的比例
X_train,X_test,Y_train,Y_test=train_test_split(new_Dimensions_data.ix[:,:3],new_Dimensions_data.environment,train_size=.80)
print("原始数据特征:",new_Dimensions_data.ix[:,:9].shape,
",训练数据特征:",X_train.shape,
",测试数据特征:",X_test.shape)
print("原始数据标签:",new_Dimensions_data.environment.shape,
",训练数据标签:",Y_train.shape,
",测试数据标签:",Y_test.shape)
model=Linear Regression()
model.fit(X_train,Y_train)
a=model.intercept_#截距
b=model.coef_#回归系数
print("最佳拟合线:截距",a,",回归系数:",b,")
#y=b0+b1X1+b2X2+b3X3+b4X4+b5X5
#R 方检测
#决定系数r平方
#对于评估模型的精确度
#y 误差平方和=Σ(y 实际值-y 预测值)^2
#y 的总波动=Σ(y 实际值-y 平均值)^2
#有多少百分比的y 波动没有被回归拟合线所描述=SSE/总波动
#有多少百分比的y 波动被回归线描述=1-SSE/总波动=决定系数R 平方
#对于决定系数R 平方来说1)回归线拟合程度:有多少百分比的y 波动刻印有回归线来描述(x 的波动变化)
#2)值大小:R 平方越高,回归模型越精确(取值范围0~1),1 无误差,0 无法完成拟合
score=model.score(X_test,Y_test)
print(score)
#对线性回归进行预测
Y_pred=model.predict(X_test)
print(Y_pred)
plt.plot(range(len(Y_pred)),Y_pred,'b',label="predict")
#显示图像[12]
#plt.savefig("predict.jpg")
plt.show()
plt.figure()
plt.plot(range(len(Y_pred)),Y_pred,′b′,label="predict")
plt.plot(range(len(Y_pred)),Y_test,′r′,label="test")
plt.legend(loc="upper right")#显示图中的标签
plt.x label("the number of environment")
plt.y label('value of environment')
plt.savefig("ROC.jpg")
plt.show()
3 大学生创业环境指标体系实证
为了检验该研究构建的大学生创业环境指标体系是否与实际调研数据一致,利用经过主成分分析处理后的调研数据对构建的大学生创业环境指标体系进行线性回归[13-17]。
3.1 信度与有效度检验
KMO 检验和Bartlett 球度检验是因子分析前的检验,主要用来衡量问卷结构效度,判断调查数据是否适合因子分析。该研究的检验结果KMO 均大于0.8,Bartlett 球度检验P值=0.000<0.05,如表2 所示。表明所选调研数据成球形分布,数据之间具有相关性,十分适合做因子分析。通过对大学生创业环境调查问卷的总体以及各指标进行可信度检验,Cronbach’s Alpha 系数均大于0.7,如表3 所示,表明该调查具有较好的内在一致性,可靠性较强。
表2 KMO 和Bartlett 的检验
表3 可靠性统计量
3.2 创业环境指标对创业总体环境回归分析
将经过主成分计算得分的5 个维度作为自变量,创业总体环境作为因变量,基于SPSS 软件进行多元线性回归分析[18-19],如表4 所示。
表4 线性回归分析结果
3.3 研究结论
1)以创业环境指标的5 个维度为自变量,以创业总体环境为因变量进行回归分析的结果显示,回归模型整体的解释度较高,5 个维度可以解释创业环境总体情况的90%的变差,设计的大学生创业环境评价指标体系模型与实际调研数据之间拟合度较好。因此,可以判定资金环境、政策环境、市场环境、教育环境以及文化环境能较好地反映大学生创业整体环境。但是仍有一部分因素未在研究中得到揭示,在今后的研究中需要更加全面考虑影响因素。
2)设计的大学生创业环境指标体系模型中,资金环境、政策环境、市场环境、教育环境以及文化环境的系数均为正值,符合研究预期,表明改善创业环境指标5个维度均有助于大学生创业环境总体情况的提升。但是,各维度对大学生创业环境总体情况的影响程度不同,其中资金环境、政策环境、市场环境、教育环境均对大学生创业环境总体情况的影响显著,文化环境的影响未通过显著性检验,对大学生创业环境总体情况的影响不显著。
3)大学生创业环境总体情况是一个相对复杂的系统,影响创业环境总体情况的因素也有很多,随着时代发展,创业环境评价指标体系也会不断进行完善和改进,是一个开放发展的系统。
4 结束语
该研究基于GEM 模型构建了大学生创业环境指标体系,通过SPSS 软件验证了该体系能够较为科学地反映大学生创业环境整体情况,有利于快速获得大学生创业环境整体情况,有针对性地改善创业环境,从而提高了大学生创业的意愿和成功率。