大数据背景下大学生创新创业促进效果评价体系设计
2019-01-06谢从晋杨柳
谢从晋 杨柳
摘 要:文章首先分析了当前大学生创新创业促进效果评价体系存在的缺陷,并在此基础上利用大数据分析方法及相应工具设计出一种新的评价体系,以期能够更加全面、及时地收集和利用相关信息,实现对大学生创新创业促进机制的发展与完善,从而更有效地激励大学生创新创业活动。
关键词:大数据;评价体系;创新创业;促进效果
作者简介:谢从晋,四川外国语大学重庆南方翻译学院讲师,硕士,研究方向为大数据与创新管理;杨柳,四川外国语大学重庆南方翻译学院副教授,硕士,研究方向为数据挖掘。(重庆 401120)
基金项目:本文系重庆市教育科学“十三五”规划2018年度规划课题“双因素理论视角下高校大学生创新创业促进机制研究”(编号:2018-GX-388)的阶段性研究成果。
中图分类号:G64 文献标识码:A 文章编号:1671-0568(2019)27-0006-04
大学生创新创业促进机制及其效果的评价,会直接影响大学生创新创业的成功率,是现阶段我国实施“创新驱动发展”战略的重要构成要素。如何才能更有效地激发大学生的创新创业潜力;怎样才能少走弯路,提升大学生创新创业实践能力;怎么才能对大学生创新创业促进工作和促进效果做出更客觀、更合理的评价,这些都是国家和社会普遍关心的问题。不过,前人在研究大学生创新创业促进效果评价领域时,往往偏重于采用专家评测法从而得到一些描述性的分析结论,或者仅凭对少许数据(如补助金额、减免税收、销量与利润等)加以比对就得出评价结果。
大数据思维的提出、大数据技术的兴起、智能化服务的广泛应用以及相关技术的不断发展,给大学生创新创业促进效果的评价工作带来了另外一种可能。
一、传统创新创业促进效果评价体系的弊端
大学生创新创业促进效果评价的传统思路是“设置促进目标—促进方案制订—促进措施落实—促进对象反馈—促进效果评价”。该流程基本上是一维和线性的,每两步之间环环相扣,不可跳跃。下一步的进行通常都以“前一步已经完成”为前提,如要收集促进对象的反馈时,通常是促进措施已经落实过后方可进行;比如,要开展促进效果的评价工作,通常是促进对象的信息反馈工作已经全部完成了才可进行。这种处理思路会带来诸多问题。
1.信息来源缺乏及时性和全面性。在大数据技术出现之前,开展评价工作的信息来源十分有限,仅能靠人工收集一些显而易见的数据,或者借助机器收集到并不全面的信息。同时,由于大量采用人工的方式,缺少时效性,难以在工作进行的过程中及早发现问题,更不能将上述流程中后续的信息实时地反馈到前一步。
2.评价方法缺乏针对性和个性化。传统评价体系的评价指标往往都是人为预先设计好的,如政府补助资金数量、减免税收与产出的比率、创新创业团队研发投入和产出的专利数量等,这些指标往往都是一样的,缺乏对每一个创新创业团队的个性化评价。
3.评价过程缺乏动态性和开放性。传统评价指标基本都是结果式的。即使信息来源非常充分、评价方法十分可观,评价结果也一定是暂时性的。它只能代表创新创业促进工作在近期的状态,更准确地说,仅仅是该次评价在采集数据时的状态。传统评价体系不能全面地对促进工作进行动态评价,因而无法对创新创业过程提出有益的建议。
对每一个创新创业团队的促进工作做出事无巨细的评价,传统评价体系也许能做到,但人力成本无疑会非常高,且隐私保护的问题无比棘手。
4.评价结果缺乏公正性和预见性。由于缺乏对创新创业过程的动态性监测,缺乏对创新创业大学生群体全局性和局部性的行为分析,更缺乏大量的创新创业关联信息的有效支撑,使得传统评价体系既不能对创新创业促进效果做出积极预测,也不能保证每一次评价结果的客观公正性。
二、基于大数据技术的大学生创新创业促进效果评价体系
本文设计的基于大数据思维与技术的大学生创新创业促进效果评价体系,以及各个模块与工作步骤存在的递进与反馈关系如图1所示。
首先,采集大学生创新创业投入产出大数据,并完成数据的去噪、集成、清洗、归约、变换、辨析、离散化、抽取等预处理操作,大学生创新创业投入产出大数据的信息来源如图2所示;其次,建立大学生创新创业投入产出大数据库,实现数据的有效存储与高效管理,这是后续数据挖掘、数据服务与数据应用的基础;再次,大学生创新创业投入产出大数据的处理与分析,对数据开展数据挖掘、建模仿真、关联分析、统计分析等;最后,提供有关大学生创新创业促进问题的数据应用,为大学生创新创业促进过程的管理和促进效果的评价提供服务。
1.大学生创新创业大数据的采集与预处理。为了确保大数据信息的完备性和多样性,应该尽一切可能收集大学生创新创业相关信息,本文将这些信息称为大学生创新创业投入产出大数据(简称“投入产出大数据”或“创新创业大数据”)。数据的来源很广泛,数据的完备性、全面性与多样性是所有大数据问题中十分寻常又十分重要的问题,会直接影响后续数据挖掘与数据分析的效果。
大学生创新创业大数据的来源包括四个方面:创新创业管理部门、创新创业服务与协作组织、产品面对的消费者和创新创业的大学生自身,其中创新创业管理部门信息包括政府部门的各种政策文件、高校公布的相关管理条例、高校开设相关课程的投入、工商部门的数据信息、税务部门的税务信息、专利部门的创新成果信息、法务部门的官司信息、环保部门的公示与惩罚信息等;创新创业服务与协作组织包括各种创新创业比赛文件、孵化园的管理与统计数据、成果转化平台的报表、大学生双创培训信息、天使投资人和合伙投资人的投入情况、银行贷款信息等;相应产品的消费者信息包括消费者对该产品的评价与反馈信息、产品的复购率、消费偏好、投诉与举报信息等;来自创新创业大学生自身的信息更是具有多样性,包括创新创业大赛获奖、个人征信、收入信息、课程学习情况、消费与购物、贷款与融资等。
针对创新创业大数据存在的量大、异构、杂乱、不一致、不完整、重复和非结构化等特性,必须对刚采集到的数据进行预处理,包括去噪、清洗、集成、规约、变换、离散化等操作。具体在执行时,将创新创业大数据中的缺失值进行舍弃元组、人工補充、全局常量填充、中心度量填充、可能值填充等操作;将噪声数据与离群点进行去噪、离群点检测、数据光滑、分箱、线性回归等处理;把来源不同、格式不同、特点性质各异的创新创业数据在逻辑或物理上进行有机的数据集中,将来自于多个创新创业数据源的等价实体进行匹配和识别,将多次重复出现的创新创业数据冗余进行消除;减少考虑创新创业标签属性的个数,尽量用较小的数据表示原数据;还要对数据进行属性构造、汇总或聚集、规范化、标签替换等,现有较成熟的工具有Hadoop、Spark、Hbase等。
2.大学生创新创业大数据的存储与管理。创新创业大数据的有效存储与管理能为本文中设计的促进效果评估系统提供基本保障和重要支撑,其存储与管理质量的好坏会直接影响整个大数据评估系统的性能。
在系统中,可采用分布式存储方式存储创新创业大数据,以应对数据量较庞大的问题,即将大量的创新创业数据分块存储在不同的数据中心,或者说是不同的服务器节点上,并通过数据副本保持其可靠性;为了提高数据实时更新速度以及存取效率,可采用唯一的日志文件;当节点发生故障导致系统不可用时,通过文件系统镜像可帮助节点恢复工作,从而保障节点的可靠性。另外,尽量采用流式访问、一次写入多次读取的模式,从而保证数据的一致性;从成本上考虑,存储还要满足廉价机或机群、设计简洁通用、高容错性的配置要求。目前,Google的GFS和Hadoop的HDFS都是较成熟且较典型的存储技术。
创新创业大数据的管理中,由于其具有非结构化和半结构化特征,所以常使用非关系型数据库。一般采用列式存储的方式来实现,将数据按相同字段分开,每一列数据单独存放在一起。为了提升效率、节省开支,不同的数据列对应不同的属性,属性也可以根据需求动态增减,查询时就能够只查询相关的数据列。目前,常用的数据管理技术是HBase。
3.大学生创新创业大数据的处理与分析。通过对创新创业大数据进行处理和分析,获取各项有价值的信息。分析方法的选择和应用显得格外重要,对最终信息的价值起决定性作用。常用分析方法及理论有:可视化分析,能够直观地呈现创新创业情形;数据挖掘算法,这是大数据分析最核心的部分,各种数据挖掘的算法针对不同的创新创业数据类型和数据格式;预测性分析,通过建立科学的模型,将新的数据流引入模型,从而知晓未来的某些创新创业信息;语义引擎,由于非结构化数据的多元化,使得数据分析需要一系列工具系统去分析并提炼数据,从而主动地提取信息。数据挖掘一般不按预先设定好的主题进行,通常是在现有数据基础上进行各种计算,挖掘出什么结果就是什么结果,从而实现一些高级别数据分析需求,达到预测的目的。
为了分析和判断创新创业大数据间的关系,分析方法较多,常用的有相关分析、描述统计、假设检验、方差分析、回归分析、聚类分析、决策树等。比如相关分析,在大数据处理系统中是非常有用的一种方法,能研究出两个或多个创新创业事件或现象之间是否存在某种依存关系,以及该关系的相关程度;而方差分析则是从观测因素的方差入手,研究其他诸多创新创业促进因素中哪些对该因素有显著的影响;又如回归分析,种类较多,通过规定创新创业促进因素和促进结果变量来确定它们之间的因果关系及回归模型,并根据实测数据来求解、拟合,从而实现对创新创业促进结果的预测。
4.该评价体系下促进大学生创新创业的大数据服务。利用数据的分析、处理以及挖掘得到的有用信息,开展大学生创新创业大数据应用与服务,为政府决策部门、高校管理部门、企业孵化机构、企业管理组织提供管理决策参考,为创新创业大学生等提供信息服务和行动建议。
数据应用与服务围绕大学生创新创业促进工作中的过程管理、效果评估和实时监测等方面进行,其应用包括设计初创企业个性化评价指标、大学生创新创业促进效果的评估、促进成果的可视化呈现、创新创业团队管理质量的评估、创新创业过程中问题的发现、创新创业效益预测和风险警示等方面,大数据应用与服务既能检验或验证创新创业大数据的处理和分析结果,又能对创新创业大数据的分析与处理结果进行积极地引导和反馈。
利用创新创业大数据,发现创新促进效果与各种促进因素之间的关联性,从而帮助我们做决策,并在一定程度上实现预测,这也正是大数据技术在创新创业促进和创新管理领域开展实际应用的核心问题。
三、评价体系具备的特征
1.信息来源的及时性与全面性。广泛收集一切可用数据,是任何一个大数据应用系统的基本前提和要求。正如图2所示,系统在数据收集方面是传统评价体系不可同日而语的。现有大数据处理技术已经趋于成熟和完善,即使面对海量的异构数据,仍然能够解决数据量带来的处理问题。这就有效保证了开展评价工作时信息的及时性和全面性。
2.评价方法的针对性与个性化。通过大数据技术的“标签体系”,能给每一个创新创业团队绘制“创新画像”。众所周知,该标签体系中的标签不是一成不变的,它能随着数据量的积累,以及评价工作的逐步开展而不断修正、补充和完善。这就保证了每一个创新创业团队的创新画像是有针对性的,而每一次评估工作亦是有区别的。
3.评价过程的动态性与开放性。除历史消息作为模型基础之外,实时的大数据流会作为重要的输入项,这就能确保该评价体系对评价过程的监测是动态性的。另外,数据来源的可扩展性和创新标签的可调整型,与传统评价体系中设置固定评价指标的方式十分不同,这使得整个评价过程显示出开放性的特征。
4.评价结果的公正性与预见性。基于大数据的评价体系得到的评价结果既是局部性的,又是全局性的。它在评价每一个创新创业团队的促进措施与促进效果时,可以追踪溯源到各个细微的事件,又能将这些事件从全局性的高度加以比对和分析,从而使得评价结果更加具备客观公正性。与此同时,事件的关联分析往往能够对还没发生但将要发生的事件做出预测,这也是大数据技术的一个重要特征和特色。
本文提出了利用大数据思维和技术设计大学生创新创业促进效果评价体系,拓展了大数据技术的应用领域,深化了创新创业促进效果评价的研究内容。文中给出了新的评价体系的理论框架模型以及相应的技术分析,为后续的研究和实践指明了方向。
随着大数据技术的普及以及相关人才的跟进,相信该体系能够在大学生创新创业促进效果评价领域发挥出自身天然的优势,即实时、快速、低价、可预测,进一步激发大学生进行创新创业活动。
参考文献:
[1] 王庆,赵发珍.基于“用户画像”的图书馆资源推荐模式设计与分析[J].现代情报,2018,(3).
[2] 吴军.智能时代:大数据与智能革命重新定义未来[M].北京:中信出版社,2016.
[3] 林子雨.大数据技术原理与应用[M].北京:人民邮电出版社,2017.
[4] (英)维克托·迈尔·舍恩伯格,肯尼思·库克.大数据时代[M].盛杨燕,等译.杭州:浙江人民出版社,2013.
责任编辑 易继斌