国家形象承载力视角下的中国精英民营企业家集群类型研究
——基于微信公众号10万+文本的智能数据挖掘和智能聚类分析
2019-12-26郑晨予
文/郑晨予 范 红
改革开放40年来,中国经济的蓬勃发展举世瞩目,其中中国企业由小到大、由弱到强的超常规发展功不可没。而民营经济的发展更是后来居上,时至今日,已超越国有经济总量而成为中国经济的半壁江山。在世界500强企业中,中国民营企业已经占据了相当的数量(从2010年的1家到2018年的28家)。随着中国精英民营企业登上国际经济舞台,中国精英民营企业家们也顺理成章地登上国际政治舞台,作为一个特定集群在相当程度上传播着国家形象,具有较大的国家形象承载力。可以说,这一国家形象承载力视角下的特定“集群现象”的出现,正是中国逐步走向国际中心舞台的一个重要折射面。
在纪念改革开放40周年前夕,习近平总书记强调:“在全面建成小康社会、进而全面建设社会主义现代化国家的新征程中,我国民营经济只能壮大、不能弱化,而且要走向更加广阔舞台。”要让民营经济创新源泉充分涌流,让民营经济创造活力充分迸发。中国精英民营企业家在国家形象塑造传播实践中的优势日益彰显,但在学术研究中却比较薄弱,如何充分发挥精英民营企业家的国家形象承载力,成为理论与实践相融合的一个亟待研究的新课题。基于此,笔者依据国家形象承载力维度的评价标准和2017年度微信公众号10万+文本的智能语义数据挖掘和非监督式机器学习聚类分析,重点对中国精英民营企业家集群的相关类型进行智能判别,诠释中国精英民营企业家集群与类型的国家形象承载力之间的关系,探讨从判别反馈到生成迭代的相关转换路径。
一、研究基础
根据《中国精英民营企业家的国家形象承载力实证研究——基于2017微信自媒体10W+文本的智能数据挖掘》中的相关观点,并结合《传播数论——格数传播模式与国家形象承载力建构》一书中的理论建构,确立了基于精英企业家国家形象承载力四大维度的相关关键词,以这四大维度和相关关键词作为衡量评价中国精英民营企业家国家形象承载力的评价标准和关键要素。即针对国家形象企业家承载力的领袖群伦、义责担当、自律竞争和员工共享四个维度,运用演绎法和归纳法,分别提炼概括出相对应的关键词。每个维度8个关键词,共计32个关键词。领袖群伦维度的8个关键词为:中国、合作、创新、全球化、魅力、话语权、思想、使命;义责担当维度的8个关键词为:社会、责任、公益、贡献、慈善、义务、扶贫、纳税;自律竞争维度的8个关键词为:质量、诚信、信用、道德、规范、自律、守法、法则;员工共享维度的8个关键词为:员工、价值、团队、共享、尊重、平等、关怀、以人为本。
在研究中,企业家国家形象承载力被操作化定义为人工智能数据挖掘建构的高维语义空间中,传播者语义呈现与受众认知点赞相融合的企业家微信综合影响力TF*PDF算法取值在国家形象承载力相应关键词上的投影之和。具体而言,首先是基于财富世界500强、胡润富豪榜、搜狗微信搜索引擎检索数,对中国民营企业家进行筛选,确定了排名前列的16名中国精英民营企业家,接着利用爬虫抓取技术,抓取微信公众号中发布的、与上述企业家相关的文本内容、阅读数、点赞数等数据,进而利用人工神经网络词嵌入技术,将上述文本内容作为语料输入进行非监督式机器学习,建立高维语义生成模型。再基于上述语义生成模型中的对应词向量,分别计算32个国家形象企业家承载力关键词在各个企业家上的余弦相似度投影权重。最后利用TF*PDF算法,以点赞数为加权数值、以上述投影权重为加权权重进行对应加权,获得排名前10的中国精英企业家的国家形象承载力总体和四大分支维度数值。这一前期研究旨在一方面揭示各个视角下名列前茅的企业家,另一方面呈现企业家个体在不同视角下的强弱短长,从而为中国精英民营企业家的国家形象承载力判别,和进一步运用实践、学术研究,提供定量的实证参考。笔者分析有效文章共计196篇(阅读数共计1960万次以上,点赞数共计491706个)。对前期研究的相关结果数据进行标准化后如下(见表1):国家形象企业家承载力总体前10位的中国精英民营企业家是马云、王石、任正非、马化腾、孙宏斌、王健林、许家印、丁磊、雷军、李彦宏。
表1 中国精英民营企业家国家形象承载力维度标准化数值
二、研究设计和研究方法
本研究是在前期研究基础上的又一个智能新判别,主要解决以下两大判别问题:基于国家形象企业家承载力的维度结构,中国精英民营企业家可聚类形成怎样的相应类型?聚类形成的中国精英民营企业家类型各自展现出怎样的国家形象承载力维度结构特征?
在研究设计上,针对上述进入国家形象企业家承载力总体前10名的中国精英民营企业家,即这一国家形象承载力精英集群,根据中国精英民营企业家国家形象承载力的四个维度及其相关32个关键词的评价标准和关键要素,运用非监督式机器学习的自动化聚类分析方法,对这10名中国精英民营企业家进行智能判别,以达成基于维度结构相似性的集群分类和集群类型。
在研究方法上,采用聚类(clustering)这一基于非监督式机器学习(unsupervised learning)的自动化类型划分方法。通过聚类,同一集合中的各个元素将被划分到不同的类型之中。而聚类的目标是形成一种最优的类型划分,以使得被划分到同一类型中的元素尽可能地相似,被划分到不同类型间的元素尽可能地相异。当然,任意两个元素之间相似度的衡量标准在聚类之前已被定义。
对中国精英民营企业家这一集合而言,基于聚类可以智能生成相应的类型划分,以使得被划分到同一类型中的中国精英民营企业家尽可能地相似,被划分到不同类型间的中国精英民营企业家尽可能地相异。而任意两个中国精英民营企业家之间的相似度是由他们的国家形象企业家承载力之间的相似度进行衡量的。这样中国精英民营企业家的国家形象企业家承载力类别(及每个类别分别包含的企业家)得以自动化地呈现出来。
在研究过程中,企业家的国家形象承载力维度结构之间的差距,被操作化定义为相应企业家在国家形象承载力四大分支维度上的取值所组成的四维向量在标准化(normalization)之后形成的曼哈顿距离(M a n h a t t a n distance)。进行四维向量的标准化(即向量的各个维度的值被相应转化到最小值为0,最大值为1的区间中)是因为维度结构之间的比较更多考虑的是各个维度之间数值的相对大小,而非每个维度数值本身的绝对大小。而使用曼哈顿距离来衡量标准化后的四维向量之间的距离是为了直接计算企业家之间在各个维度上的差距的总和。
当前,有诸多非监督式机器学习的算法可以实现聚类。经过预实验,本研究在其中选择了聚类效果最好的经典K-Means算法。K-Means算法已被广泛运用于数据挖掘研究和实践中。其需要研究者预先给定类别的个数,从而自动化地形成类别划分,以最小化处于同一类别之中的元素之间的差距。
三、研究结果
表2展现了K-Means非监督式机器学习算法基于国家形象企业家承载力的维度结构对中国精英民营企业家进行的聚类结果。在预实验中,本研究发现k = 5(即形成五个企业家类别)所取得的类别内元素差距总和(即各个类型中企业家国家形象承载力维度结构之间的差距之和)最小(sum of within cluster distances = 2.608534380896549)。表2中的数字为各个企业家类别在各个国家形象企业家承载力维度上的取值(标准化后)的中位数,即各个类型的形心(centroid)。在这里K-Means算法选用了中位数而非平均数是由于先前对维度结构差距的操作化定义时选用了曼哈顿距离。此时,K-Means算法变更为K-Medians算法。选用中位数而非平均数进行衡量亦与中国精英民营企业家在国家形象企业家承载力上的取值呈现出偏斜的分布(skewed distribution)的实际情况相符。
表2 中国精英民营企业家国家形象承载力维度结构聚类分析结果
基于上述对10名中国精英民营企业家国家形象承载力维度结构的自动化聚类分析,呈现了五个类型及其维度结构特征。我们可以发现,由于每个维度的国家形象承载力的数值比重不同,而呈现出不同的集群类型,以及分别呈现出不同的维度结构特征。为使类型的维度分析更加准确清晰,拟按照四维向量的标准化的数值比照系,维度评价再细分为四个等级:数值0.75以上为非常优秀,数值0.5~0.75为比较优秀;数值0.25~0.5为一般,数值0~0.25为较弱。
马云一组的维度结构特征是:领袖群伦维度表现非常优秀;自律竞争、员工共享以及义责担当三个维度表现较弱。
马化腾一组的维度结构特征是:自律竞争和员工共享二个维度表现比较优秀;义责担当维度表现一般;领袖群伦维度表现较弱。
任正非一组的维度结构特征是:领袖群伦和员工共享二个维度表现比较优秀;义责担当和自律竞争二个维度表现一般。
王石一组的维度结构特征是:义责担当和自律竞争二个维度表现比较优秀;员工共享以及领袖群伦二个维度表现一般。
孙宏斌一组的维度结构特征是:自律竞争维度表现非常优秀;义责担当和员工共享维度表现一般;领袖群伦维度表现较弱。
值得指出的是:第一,本研究四维图形表示的维度数值,是经过四维向量标准化了的,它侧重研究的是本类型的四个维度的结构关系特征,经过标准化之后的维度数值,在类别与类别之间(包括同类别的企业家与企业家之间)是不具有绝对可比性的。例如,以同一起跑线的绝对数值而论,马云类别的自律竞争和员工共享二个维度数值并不比其他类别低甚至有的还高出不少;但因为其领袖群伦维度异常优秀,经过标准化之后的其它维度数值,在本类别的四维图形维度结构中相比较就显得低了不少。这就出现了智能判别出的维度绝对数值与标准化了的维度相对数值的反差。
第二,就国家形象企业家承载力而言,精英企业家本身的形象塑造传播至关重要。从某种意义上说,精英企业家的形象是主客观的统一。除了强调形象的客观性一面之外,在主观上如何塑造传播形象的一面也不可忽视。即形象的“所有”“所为”和“所说”三大要素缺一不可。一般来说,凡进入中国精英民营企业家最卓越集群的,其形象的“所有”方面都比较好;但在基于国家形象承载力的“所为”和“所说”方面,表现往往就参差不齐了。有的精英民营企业家正因为在“所为”和“所说”方面有所欠缺,所以反映在国家形象承载力的某个维度数值上就表现较弱了。
第三,企业与企业家是互为表里、互为依存的,彼此之间,相辅相成。一般来说,企业形象好或者说企业承载力好,企业家形象也就好或者企业家承载力也就好。但两者之间毕竟是有所区别的,有的企业本身属于中国精英民营企业甚至影响力巨大,但这个企业的精英民营企业家个人在“所为”和“所说”方面表现不足,有的甚至在言行上过于低调,这就与国家形象承载力的基本要求不相符合,与领袖群伦也就相去甚远了。
四、结语
本研究基于微信公众号的数据挖掘和聚类分析,是一种可以周而复始的动态型的智能判别方法。按年度进行这一智能判别,也就可以按年度据此进行相关生成,即基于每一个精英民营企业家国家形象承载力四大维度扬长补短的塑造传播之生成,也是基于这一承载力的“所有、所为、所说”的塑造传播。从而可以实现从判别反馈到生成迭代,从生成迭代到判别反馈的循环往复,即不断实现基于这一循环迭代的每一个精英民营企业家的国家形象承载力的进化和优化。