基于链接分析的上市公司潜力企业网站网络影响力研究
2018-04-02杨斯楠
杨斯楠
摘要:网站是上市公司借助网络实现与投资者沟通的重要手段,同时也是投资者获取海量信息和直接与上市公司互动的有效途径。上市公司应注重公司网站的建设、应用与探索,提高企业的信息化水平,让公司将来在转型与发展的道路中赢在起跑线上。利用链接分析法对上市公司潜力企业网站的影响力进行较专门系统的研究,通过描述性分析、相关性分析、主成分分析等数学统计方法对企业网站的网络指标进行分析和评估,并通过kmeans算法将企业网站聚成3类。根据网站的影响力现状,对网站建设策略提出相应的建议。研究结果表明,我国上市公司潜力企业,对网站的网络影响力重视不足,整体网络影响力较弱,不利于互联网时代的企业发展。
关键词:链接分析;企业网站;络影响力;上市公司
1概述
随着互联网技术应用的不断发展与延伸,上市公司的互联网意识在不断提升,互联网已经成为上市公司思维转化、战略转移的重要工具。据统计,2016年在2807家A股上市公司中,95.05%的上市公司有自己独立的网站。移动互联网时代,上市公司网站建设的定位更为明确、个性独立,如今的网站定位基本可分为五大类:品牌形象、企业宣传、电子商务运用、行业门户、营销展示。因此,上市公司应注重公司网站的建设、应用与探索,提高企业的信息化水平,让公司将来在转型与发展的道路中赢在起跑线上。
链接分析是借助搜索引擎和网络数据库,以网络链接为研究对象,引入传统引文分析法的基本原理和方法,并借助统计分析软件等工具,揭示和分析网络链接的属性和特征的一种方法。基于网络站点间链接正向肯定关系,分析网站自身信息组织的科学性和合理性以及对网站影响力进行间接评价,即网站的外部链接数量越多、网络影响因子越大,该网站的信息越有价值,利用率越高,该网站产生的影响力愈大。评价网站影响力的方法主要分为主观定性评价和客观定量评价两种。主观定性评价涉及的主观因素较多,根据不同的研究对象进行设计,尚未有准确有效的评价体系。而客观定量评价,则以客观、科学的实际数据为主要评价依据,如链接分析法,在评价网站的影响力方面,具有较客观、定量的特点。因此,本文选用链接分析法,以上市公司潜力企业网站为主要的研究对象,对其企业网站的影响力进行较专门系统的研究,使用描述性分析、相关性分析、主成分分析等数学统计方法对企业网站的网络指标对其网站的影响力进行分析研究,并对网站建设策略提出相应的建议。
2研究设计
2.1研究样本
本文以2017年3月15日福布斯网站发布的"2017年中国上市公司潜力企业榜”中的100家企业作为研究对象,利用百度搜索引擎检索得到企业网站的URL。然后基于链接分析的方法,获取企业网站的网络指标,通过分析这些企业网站的网络影响力,使用描述性分析、相关性分析、主成分分析等数学统计方法进行分析描述,进而评估最具潜力的上市公司群体的网站影响力情况。
2.2网络指标选择
本文考虑网络链接数量、分布及应用等各方面,为了综合分析网站的网络影响力情况,最终选取了总页面数、总链接数、内链接数、外链接数、网络影响因子(WIF,WebImpactFactor)、内部网络影响因子(WIFs,self-WIF)、外部网络影响因子(WIFe,external-WIF)、Page Authority(PA)、MozRank、百度权重、出站链接数、站内链接数等共12个指标。其中,PA,是著名的SEO(Search Engine Optimization)工具提供商SEOmoz开发的用以预测特定页面在搜索引擎页面中的排名的分值,包括网站链接数、MozRank等链接指标,使用机器学习模型和算法进行计算,可以反映出网站综合的质量。MozRank也是SEOmoz开发的用以量化链接流行度的指标,MozRank的取值范围是0~10之间,可以反映特定网页在互联网中的重要性程度。
2.3数据获取
目前通常使用的链接分析工具大致可以分为商业搜索引擎、自主开发的链接分析工具以及商业的SEO分析工具等。一些常用的搜索引擎,如AhaVista(Yahoo!)、Bing等,因过高的带宽消耗以及其他技术上的局限被取消了链接搜索命令。而Google还保留对网站的网页数量的检索,通过使用Google支持的“site:”指令,可以获得特定域名下的被搜索引擎数据库索引的全部页面数量,但是不能区分内外链接。因此,本文选取Google搜索引擎作为获取网站总页面数指标的工具,使用链接分析工具Open Site Explorer获取每个企业URL的总链接数、内链接数、外鏈接数,使用站长之家的站长工具获取企业URL的百度权重、出站链接数和站内链接数,并计算各网站的网络影响因子、内部网络影响因子和外部网络影响因子。表1总结了本文中使用的网络指标及其对应的获取途径。
对样本中的100家企业的URL进行检索,并通过链接分析工具获取相应指标,其中高德红外、中国派对文化、金雷风电、中国铝罐四家企业URL在使用链接分析工具获取指标时存在部分数据缺失,因此将这四个企业数据剔除,最终得到96个企业的网站链接数据,部分数据如表2所示。
3结果分析
3.1数据描述性分析
样本中100家企业超过半数分布在广东、浙江和北京三地,医药行业占比超20%,其次是软件行业。广东省上榜企业最多,达23家,北京和浙江上榜企业数量排名第二,均达到15家。对96个企业网站的网络指标进行散点绘图,观察各指标值的分布情况,如图1所示。
计算样本中的描述统计量,包括各指标的极小值、极大值、均值、标准差和方差,如表3所示。
通过分析图1和表3的数据情况,可发现:
1)样本中的96家上市公司潜力企业网站的总页面数量主要集中于0-2000范围,平均值约为1,491.677,说明样本中大部分的企业网站的总页面数指标呈集中趋势,其中总页面数最高的是兄弟科技,达到29,900。
2)总链接数指标主要集中在0-3000范围,但是分散程度远高于总页面数,标准差达到12,515.911,总链接数最少的企业是中来股份,仅为1,最多的企业是联众,共有111,000链接量;内链接数指标中,有54%的企业网站内链接数为0,而外链接数指标中,只有1个企业网站的外链接数为0,从标准差来看,内链接数的离散程度也远高于外链接数。统计总链接数、外链接数和内链接数之间的数量关系,可发现外链接数占总链接数比例大于50%的企业网站数量达到72,占样本量的75%。说明样本企业网站大部分不重视网站内部层次构建,信息量不够完备。
3)Page Authority由于取值有限,所以极差较小,数据主要集中于30-50,而该指标的上限是100,说明这些企业的网站在SEOmoz的算法下的权威性都较低。得分最高的是联众,PA值达到68分。
4)MozRank指标主要集中于4-7分,该指标的上限是10分,说明大部分企业在SEOmoz的排名机制下处于中间水平。其中中生联合的MozRank最高为6.86。
5)百度权重指标仅为0、1、2的企业数量最多,共占样本企业的90.63%。样本企业中百度权重最高的企业是陌陌科技,指标为6。
6)出站链接指标,大部分企业网站指向外部其他网页的超链接数小于10,东土科技的企业网站中出站链接数最高,为58。反映大部分企业都不注重友情链接等互链建设。
7)站内链接于指标的离散情况相较出站链接指标要高,主要集中在0-50区间,少量企业网站的站内链接数高于100,蓝海华腾取得最大值为230。这说明相对一部分的企业网站是进行了信息组织和网站构建设计。
8)69.79%的企业网站的网络影响因子指标低于1,88.54%的内部网络影响因子指标低于1,85.41%的外部网络影响因子指标低于1。样本企业整体的网络影响力情况都一般。个别企业网站网络影响因子指标和外部网络影响因子指标很高,如东方网络。
3.2网络指标相关性分析
使用统计分析软件SPSS计算各个网络指标之间的Spearman相关系数,进而观察和分析网络指标之间是否具有相关关系。Spearman相关系数r的取值在-1到1之间,若r<0,则说明两者存在负相关关系,r>0则说明两者存在正相关关系,r的绝对值越接近1,则两个指标的相关性越高。各指标之间的Spearman相关系数,如表4所示。
从表4可发现,大部分的网络指标之间的相关性不高。除去自连的配对以外,共60对关系,其中13对指标存在负相关的关系,负相关程度最高的是外部网络影响因子和百度权重,表明相关性较弱。其余47对Spearman相关系数均大于0,呈现正相关关系。其中,外部网络影响因子和网络影响因子的关系最强,其后依次是内链接数和总链接数、内链接数和内部网络影响因子等。除此以外,相关程度一般的指标有外链接数和总链接数、PA和总链接数,相关系数均为0.5,网络指标PA和PageRank之间的相关系数为0.492,相关程度并不是特别高。然而,总链接数和网络影响因子WIF之间的相关性只有0.382,相比起来,网络影响因子与外链接数指标之间的相关性则更高,这说明样本的96个上市公司潜力企业网站的总链接数量主要由外链接数构成。
3.3因子主成分分析
为了更好地分析研究样本的各指标之间的关系,使用主成分分析的方法,通过正交变换将存在相关性的遍历转换为若干组不存在相关性的变量,达到降维的效果。通过统计分析软件SPSS进行主成分分析,基于相关性矩阵的结果,最大收敛性迭代25次,输出主成分分析结果以及对应的主成分载荷和因子得分。旋转在第3次后收敛,各成分特征值的碎石图如图2所示。
从图2可以看出成分的特征值贡献,两个主成分的方差值加起来已达到51.56%,后面的成分特征值贡献越来越小且差值不大。因此选择前两个成分作为样本的主成分。各主成分的载荷如表5所示。
通过主成分分析,可将原本的12个指标变量降维到2个主成分,并得到每个主成分对应的与原先变量的相关系数,相关系数的绝对值越大,主成分对该变量的代表性越高。主成分载荷图如图3所示。
从图3可以看出,在使用主成分解析各个变量时,在这个三维坐标空间中,站内链接指标和出站链接指标比较接近,内部网络影响因子和外部网络影响因子之间的相关性也很高。网络影响因子、外部网络影响因子、外链接数三个指标相关性较大,且与其他指标距离很远,自成一团。其他网络指标均较分散。
基于降维后的两个新变量,对样本数据使用kmeans算法进行聚类,设定聚类数k为5,聚类结果可视化如图4所示。其中横坐标代表主成分1,纵坐标代表主成分2,不同颜色代表聚类情况。
基于kmeans算法的聚类根据两个主成分将96个企业网站聚成3类,其中第1类(蓝色)有16个,第2类(绿色)有2个,第3类(红色)有1个。使用差异比指标对聚类效果进行评估,计算得三个聚类组内的距离平方和分别是25.96、8.60和0,组间距离的平方和占整体距离平方和的81.8%,说明组间分离度大,组内凝聚力强,差异比大,聚类效果较好。
对聚类的群组进行分析,第1类企业包括93个企业,这些企业网站整体水平类似;第2类企业包括东方网络和赢合科技,这两个企业的网站链接数和外链接数很高,平均总链接数为36561.5,平均外链接数为36297,但内链接数占总链接数的比值很低,平均低于0.01%;联众则单独划分为第3类,从图可看见,它与其他企业的距离相隔很远,差异较大,其总页面数、总链接数和内链接数都非常高,远远超出其他企业的平均水平。
4研究结论
从整体来看,上市公司潜力企业的网站建设情况一般。在研究样本中,同一网站在指标上的优劣情况存在较大差异,存在某个指标特别好,而其他指标一般的情况。而不同的网站之间在不同的指标上具有各自的优势。这些都表明网站的网络影响力未引起这些企业的管理者和网站建设者的重视,这可能是研究样本的企业大部分属于传统制造业或医学药学类,只有少数来自互联网行业,例如联众、陌陌科技等。可以发现,提供互联网产品或软件服务的潜力企业,网站的网络影响力情况要整体较好。此外,由于企业网站承担的功能及其定位不一样,这也会导致企业管理者或网站建设者在对待网站的影响力方面的态度差异。按照企业的网站规模与功能实现,可以将其划分为三大类:信息展示型企业网站、网上直销型企业网站和综合型电子商务网站。信息展示型的企业网站只是将网站作为一种信息载体,用于企业信息发布与形象展示,这类企业网站无论是总页面数还是链接数都较低,而站内链接数量则主要依赖于网站内部的信息组织优劣,在样本中大量的企业网站都属于这一类型;网上直销型企业网站,网站建设增加了在线接受订单和支付的功能模块;综合型电子商務网站除了以上的信息发布和展示、在线下单和支付功能以外,还集成了包括供应链管理在内的整个企业流程一体化的信息处理系统。一般来说,网上直销型企业网站的网络营销力大于综合型电子商务网站,信息展示型企业网站的网络影响力相对最弱。