APP下载

国内创新创业项目的分析与挖掘——基于36氪和虎嗅网的聚类分析

2020-02-25周一维

科技与创新 2020年2期
关键词:创业项目聚类数据挖掘

周一维

国内创新创业项目的分析与挖掘——基于36氪和虎嗅网的聚类分析

周一维

(同济大学 经济与管理学部,上海 201804)

国务院总理李克强在十二届全国人大四次会议上提出“大众创业、万众创新”。同样,“互联网+”和“大众创业”的概念也正引领着创业新时代。以36氪、虎嗅网等为代表的国内知名互联网创业生态服务平台为创业者们提供了更多的创业机会。因此,基于36氪和虎嗅网,试图对其上的创业项目进行数据挖掘与分析,以探究现有创业项目的特征以及成功融资项目和失败项目各自的特征,以帮助创业者更清晰地了解目前的创业环境和流行趋势,结合自身优势与投资人偏好,投身于合适的创业领域。

创业;创新;Clementine;虎嗅网

1 引言

截至2018-12,中国网民为8.29亿,互联网普及率达59.6%[1]。互联网和移动互联技术的快速发展,给创业活动提供了强大的技术支持,带动了相关产品服务、管理模式的革新,也形成了广阔的消费市场,创造了更多的机会。国务院总理李克强在十二届全国人大四次会议记者会上提出:“大众创业、万众创新”[2]。2018-09-18,国务院下发《关于推动创新创业高质量发展打造“双创”升级版的意见》[2]。而现在正在兴起的“互联网+”和“大众创业”的概念推波助澜,引领着一个创业新时代。国民创新创业能力已经成为拉动国民经济增长的重要元素,而国民自主创新创业能力逐渐受到各个国家的重视[3]。因此,本研究希望能对基于虎嗅网和36氪的所有创业项目进行采集以及宏观上的聚类分析,以求分析出目前两网站上创业项目的发展情况以及分布特征,有助于创业者更好地了解创业环境与趋势,做好创业准备,提高创业成功率。

2 文献回顾与研究

自18世纪法国经济学家CANTILLON第一次使用“entrepreneur”这个词以来,创业研究开始崭露头角[4]。现有的创业研究不仅从宏观层面上意识到创业、创新在经济活动中的重要地位和作用,也重视微观层面的创业者行为特征和创业本身特殊的运行机理,并随着时代背景的变迁和创业主体的变化涌现出许多新的研究主题。总的来说,现有研究主要关注以下几个方面:创业网络、创业资源、创业者、创业环境及创业机会[5]。从目前的文献来看,宏微观的创业研究还存在一些待完善的不足之处和有待弥补的空缺。从宏观层面分析,创业研究只关注创业总体的行为效果,偏向从理论上分析创业促进经济发展的本质以及创业与宏观环境之间的互动关系,论证创业企业拉动经济增长的力度,却没有深入细分创业企业类型,难以突出时代特征和识别创业类型的变化[3]。在微观方面,管理学的分析方法有助于关注创业微观个体,但很少比较不同类型创业企业之间的差异[4]。总的来说,目前的文献较注重于理论研究,即使是跨学科的研究,也是基于各学科现有理论的研究,并没有对创业的数据进行定量与定性分析。实际上,基于数据的研究更能客观地反映创业环境与现象,甚至发现一些不为人知的新规律。

3 创业项目分析与挖掘

3.1 研究方法

本论文主要采用定量与定性分析相结合的研究方法。首先利用八爪鱼采集器对虎嗅网和36氪网两个网站的创业项目进行采集,然后利用Excel对采集到的数据进行清理,最后利用Clementine建立模型对结构化的数据进行数据挖掘,挖掘其隐藏的更深层次的信息[6],以求根据聚类结果探究现有创业项目的特征以及成功融资项目和失败项目各自的特征。本次采集时间截至2019-11-19,共采集到1 487条数据,数据字段主要是关于产品、公司以及创始人的信息,具体的分析过程与结果如下所述。

3.2 聚类分析

导入数据后连接Data Audit节点对数据的完整性以及异常值进行分析,并利用CRT算法对缺失值(空值)进行填补。连接K-means和TwoStep两节点分别建立聚类模型,对最终的聚类结果进行分析,选择出最佳的聚类结果[8];连接Select节点将数据分为融资成功和融资失败两部分,使用K-means和TwoStep两种方式分别建模,并对最终的聚类结果进行分析,选择出最佳的聚类结果[9]。具体的建模流程如图1所示。

图1 建模数据流图

对聚类结果进行分析后发现K-means的聚类效果好于TwoStep,因此选择分析K-means的聚类结果[10]。所有创业项目类型如下:①各地新兴的孵化期微型企业项目;②各地早期成立有新产品的初创期小型企业项目;③各地早期成立的较大型成熟企业项目;④华南华东地区早期较成熟的各类企业项目。

其中,未融资的创业项目类型如下:①各地新兴的微型企业项目;②华南早期成立的较大型企业项目;③华东地区一两年前成立的中小型企业项目;④各地一两年前成立的小型企业项目。

相反,融资成功的创业项目类型如下:①华北新兴的小微型企业项目;②各地早期小型企业项目;③华东地区早期成立有新产品的各类型企业项目;④华南华东早期成立的较大型企业项目。

4 总结与展望

经过上述分析不难发现,地区与成立时间对融资成功与否影响较大,有趣的是两类创业项目里都有“华南华东早期成立的较大型企业项目”这一子类,说明机会是均等、公平的,因此,创业公司自身产品的实力也很关键。中型以及大型企业更有可能得到融资,且较大型有一定资历(成立时间)尤其是来自北京、杭州、南京的公司创业项目更易得到更高轮次的融资。创业是一个长时间持续的过程,从未融资到Pre-A再到最后的D轮,耗时几年之久,本文做的分析只是对一个时间点的初步分析,如果能对这些数据进行跟踪,分析这些项目的整个创业过程将会得到更加有意义、系统的分析结果。

[1]中国电信网.CNNIC:2019年第43次《中国互联网络发展状况统计报告》[EB/OL].[2018-02-28].http://www.cac.gov.cn/2019-02/28/c_1124175686.htm.

[2]中华人民共和国国务院.国务院关于推动创新创业高质量发展打造“双创”升级版的意见[EB/OL].[2018- 09-26].http://www.gov.cn/zhengce/content/2018-09/26/content_5325472.htm.

[3]张茉楠.国际创新创业发展战略新趋势及启示[J].宏观经济管理,2016(1):87-90.

[4]陈震红,董俊武.国外创业研究的历程、动态与新趋势[J].外国经济与管理,2004(2):7-11.

[5]WU A,LI S.New ventures,product innovation and business intermediaries:empirical analyses of 145 new Chinese ventures[J].Chinese Management Studies,2014,8(2):241-257.

[6]张帆.基于Clementine的广告客户数据挖掘模型设计[D].北京:北京邮电大学,2010.

[7]ARUN R,XINL T,PAUL B,et al.Assimilation patterns in the use of electronic procurement innovations:A cluster analysis[J].Information & Management,43(3):336-349.

[8]黄震.数据挖掘在电信客户流失预警中的应用[D].北京:北京邮电大学,2008.

[9]ZHANG Y,LI H.Innovation search of new ventures in a technology cluster:the role of ties with service intermediaries[J].Strategic Management Journal,2010,31(1):88-109.

[10]BOCQUET R,BRION S,MOTHE C et al. The role of cluster intermediaries for KIBS’resources and innovation[J]. Journal of Small Business Management,2016(54):256-277.

F124

A

10.15913/j.cnki.kjycx.2020.02.032

2095-6835(2020)02-0090-02

周一维(1995—),女,重庆人,硕士研究生,研究方向为信息系统用户使用行为、商业数据挖掘与分析。

〔编辑:张思楠〕

猜你喜欢

创业项目聚类数据挖掘
一种傅里叶域海量数据高速谱聚类方法
改进支持向量机在特征数据挖掘中的智能应用
基于知识图谱的k-modes文本聚类研究
山西18个农村创业项目获资金补助
“三晋新农人”登台竞秀创新创业项目获赞 第五届“三晋新农人”创业创新竞赛成功举办
一种改进K-means聚类的近邻传播最大最小距离算法
促进大学生创新创业项目可持续发展的路径研究
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
基于模糊聚类和支持向量回归的成绩预测