APP下载

基于SNA-DBSCAN的高校基建合作网络结构及聚类特征分析

2021-07-07郭超群

土木工程与管理学报 2021年3期
关键词:局域网聚类案例

严 斌,郭超群,张 兵

(扬州大学 建筑科学与工程学院, 江苏 扬州 225127)

“十三五”规划以来,我国高等教育“井喷式”高速发展,进入普及化阶段是当前我国高等教育发展的新时代特征[1]。2020年我国高校在校生人数达3700万人,但高校建设空间总量增长态势长期滞后于办学规模增长[2],高教用地规模与建筑规模仍存在一定缺口。对此,教育部与地方政府投入大量资金,高校积极改善经费结构、拓宽筹措方式以适应经济新常态需求[3],掀起高校基建热潮。

高校基建工程具有项目类型多样、同期建设项目多、体量大及进度各异等特点[4]。此外,由于高校基建自身的非营利、社会影响力大等特殊性质及其不仅仅提供教育科研场所,还包括配套的文化生活区与体育休闲区的公共服务性质[5],高校基建工程战略意义重大,对社会经济及文化环境有深刻长远的影响。建设周期内,大型、复杂的高校基建工程涉及诸多利益相关者[6],是一个跨组织的行为集合[7],大部分高校专设基建管理处,梳理整合规划、基本建设、资产管理等职能。

庞大的资金投入及高难度、系统性的管理过程催生了关系复杂,且具有与一般工程承包商合作网络类似的拓扑结构特征[8]的高校基建合作网络。合作趋势既能够促进网络内行动者紧密协作,也容易形成扎根于利益同盟的“合作封闭圈”,使高校基建合作网络成为一把“双刃剑”,具有辩证的两面性。2016年7月,北京市委巡视组点名批评部分高校存在少数固定施工队长期垄断基建工程的情况,社会影响恶劣。为引导行业内良性竞争,保证高校基础设施建设的质量及进度,高校基建管理者要走出这个无形的“合作封闭圈”。

高校基建合作网络节点间关系复杂[9],网络结构特征显著,但目前少有学者运用社会网络理论与相关数学分析方法对其进行深入研究。鉴于此,本研究使用爬虫技术对32所高校的基建中标信息进行搜集,运用社会网络工具建立基建合作网络模型,并使用Python语言实现机器学习中较著名的密度聚类算法(Density—Based Spatial Clustering of Application with Noise,DBSCAN),对其网络结构及聚类特征进行深入分析。

1 文献回顾

随着高校基础设施建设热潮兴起,各参建单位与不同基建项目间逐渐形成复杂的合作关系,其构成的合作网络是一种无权无向网络[10]。近年来,国内外学者在社会网络建模、分析及演化研究等方面提供了大量可借鉴的研究成果[11,12],本研究分别从合作网络、工程承包商合作关系、高校基建合作网络及方法理论模型四方面进行文献梳理。合作渗透“产学研”的方方面面,国内学者在科研合作网络[13]的形成及仿真研究中取得了较多成果。顾伟男等[14]构建“一带一路”沿线国家科研合作矩阵,采用GIS(Geographic Information System)空间分析及社会网络分析方法,在科研合作网络的多元结构及形成机制研究中取得成果;岳增慧等[15]构建科研合作网络知识扩散个体行为模型,使用MATLAB工具仿真知识扩散过程,提出科研合作双向知识扩散模式。此外,合作网络对学术绩效、企业创新绩效影响显著。曹霞等[16]构建基于申请人及专利的双模合作网络,探讨网络中企业节点的关系势能对创新绩效的影响机制;张艺等[17]通过理论推演与实证分析,提出产学研合作网络规模及节点中心度对网络主体学术绩效的影响程度呈倒“U”分布。

工程承包商合作关系研究始于项目利益相关者管理[18],当下主要集中在技术创新合作、网络关系影响力等方面。李永奎、刘祥彪等[19]通过构建工程科技创新合作网络,提出国有企业和高等学校在重大工程创新中发挥着重要作用。李永奎、崇丹等[20]通过建立建筑企业社会网络模型研究地缘社会及资源关系对企业市场竞争力的影响程度。

在重大工程,特别是大型、复杂的基建项目合作网络方面,潘华等[21]从顶层和框架设计视角分别对大型复杂项目组织网络研究所涉及的相关概念、研究程序、网络模型构建进行了阐述。宋驰[22]在共生理论视角下,基于供应链合作关系构建包括公办高校及代建单位的共生生态系统,探讨如何提高高校基建代建项目管理效率。高校基建合作网络具有鲜明的“政府 - 市场”二元作用特征[5],受制度及环境制约的影响,体现出利益相关者及参与组织多元化、网络结构中心化趋势明显、合作关系复杂等突出特征。

研究方法层面,当下社会网络分析(Social Network Analysis,SNA)是公认的研究复杂、大型工程组织结构的重要理论与方法[23,24],是有效的网络模型构建、可视化工具。此外,杨博等[25]指出基于机器学习的复杂网络聚类方法对其拓扑结构分析及理解复杂网络行为不仅具有重要理论意义,且应用前景广泛,如杨芳勋[26]验证了DBSCAN算法解决电子邮件复杂网络中社团发现问题的有效性。基于密度的噪声空间聚类算法DBSCAN是一种能够在噪声空间数据中识别任意聚类形状,把高密度区域划分为簇类的机器学习算法[27],关于其参数自适应方法已有较多成果[28,29]可供参考,能够克服人为设置Eps和Min Pts参数而降低聚类精度的缺点。

综上,虽然目前有关高校基建合作网络的研究相对较少,但与其相关复杂网络模型构建与分析的理论与方法都趋于成熟。鉴于此,本文基于SNA理论方法,使用UCINET 6.0软件构建高校基建合作网络模型,基于案例分析其网状拓扑结构特征,并利用Python语言实现DBSCAN算法过程及参数自适应优化,在保证聚类精度的基础上对案例聚类以验证相应结论。本研究是对高校基建合作网络结构及聚类特征的具体量化分析,为高校基建管理实践提供新的思路。

2 合作网络模型构建与结构分析

2.1 数据来源与处理

高校基建工程投用后主要为师生群体提供科研学习、生活场所,其管理涉及可行性研究、勘察设计、施工及竣工资料整理等多个环节,各环节的质量、进度把控都能够影响到最终项目的成败。当下高校基建工程主要通过公开招标的方式确定承建单位,各高校基建管理部门负责项目全过程跟踪管理。本研究聚焦于高校基建合作网络结构及聚类特征分析,考虑各高校门户网站(一般为基建处或招投标管理办公室)所公布数据的完备性及时效性,选择32所高校(覆盖教育部直属、“985、211工程”及普本“一批次”且分布于不同省份)2018年以来的基建工程及最终的中标单位为网络节点建立合作网络。所选案例在城市分布、资金与建设规模、项目复杂程度等方面各不相同,其中包含14所教育部直属高校,4所高校2019年预算经费在75所教育部直属高校中排列前十;32所高校来自于21座不同城市,其中19所高校来自于一线城市,14所高校现有3个以上校区,15所高校基建工程中存在新建单项工程。

若不同中标公示文件中的基建工程属于同一单项工程(具备独立设计文件,且竣工投用后可独立发挥生产、使用等功能的建设工程),则将其合并为同一基建项目;对应多个不同中标单位,代表他们合作参与此项工程。与此同时,某些资质完备、业务能力强的承包商能够同时参与多个基建工程的建设,代表该承包商与这些基建工程的节点两两相连。在整个招投标过程中,以高校为甲方代表的基建项目与承包商间的合作是一种双向确认关系,且因建设产品的固定性特点,不考虑合作次数,构建的合作网络属于无权无向的双模网络。

2.2 合作网络模型构建

对各高校门户网站所公示的中标文件内容进行爬取后,将所得资料整理为代表不同高校的基建合作网络邻接矩阵,并导入社会网络分析工具UCINET 6.0软件中,生成合作网络模型,32所高校的合作网络如图1所示(图中红色节点代表中标单位,蓝色节点代表基建项目)。

图1 某高校基建合作网络

2.3 合作网络结构分析

网络中的两个节点既可能因为属性相似产生联系,也可能因为结构特征相似形成链接[30,31]。本研究旨在对高校基建合作网络结构及其聚类特征进行分析,但基建工程与中标单位间的双向确认合作关系建立在特殊的节点属性基础上,因此在通过数学工具揭示合作网络结构特征的同时,深入挖掘核心关键节点属性信息,能够为高校基建的日常管理工作带来启示。

高校基建合作网络由“高校基建项目”和“参建单位”两类节点集合构成,根据行动者集合的性质进行划分属于双模非连通网络。由图1可以发现,所有合作网络中都存在一个或两个核心集群(Core-Lan,CL),属于社会网络中的局域网络范畴,其他边缘节点(Edge-Node,EN)或多或少地分布在网络四周,整体上呈现出较为清晰的层级结构。如北京大学基建合作网络中核心局域网节点数为71,包含54个中标单位与17个基建项目,占节点总数的46.4%,其他82个边缘节点离散分布于四周。

不同规模的合作网络都存在向核心关键节点中心化的明显趋势,从节点属性角度来看,核心关键节点常为大型、复杂的单项基建工程或资质完备的咨询、建筑企业。不难发现,当核心关键节点为基建项目时,合作网络中的核心局域网边界通常为参建单位。

高校大型、复杂的基础设施乃至一个新校区的建设往往需要众多参建单位跨组织合作,同时资质高、规模大的企业能够与其他基建项目节点产生链接,形成以大型基建项目为中心的局域网络。当参建单位成为局域网中的核心节点时,则提示可能出现“合作封闭圈”问题,需要加以关注。

3 聚类特征分析

3.1 案例聚类指标选取

根据上文,高校基建合作网络包含一个或两个核心集群及不同数量的边缘节点,猜想“核心局域网个数”及“中心化程度”是两个合理分类维度,此部分通过DBSCAN算法将案例合作网络进行聚类加以验证。

边缘节点比例能够在一定程度上反映整体网的中心化程度,因此本研究选择核心局域网节点比例及边缘节点比例为案例聚类指标,指标信息汇总见表1。基建项目与中标单位的双向确认合作关系赋予两者同等地位,为更清晰地展示合作网络结构特征,统计节点数量比例时不再区分两类节点。

表1 案例聚类指标信息

3.2 算法原理3.2.1 DBSCAN算法过程

DBSCAN聚类算法,通过设定参数半径Eps及邻域内最少点数量Min Pts,在噪声空间中将密度足够高的区域划分为簇。本研究使用Python语言实现算法过程。

(1)算法需要确定一种距离度量,本研究使用欧氏距离测量样本点在三维空间中的距离ρ。

(1)

(2)算法需要输入参数半径Eps及邻域内最少点数量Min Pts两个参数,聚类过程如图2所示,核心点满足半径Eps邻域内的样本点不少于Min Pts。

图2 DBSCAN算法聚类过程示意

(3)根据经验,算法参数Eps的确定一般根据K- 距离(样本点到所有点间第K近的距离)升序变化曲线中发生急剧变化的位置确定,而该位置对应的K值即为参数Min Pts的值。若经验值聚类效果不理想,可以适当调整,通过迭代计算对比确定最适合的参数值。

(4)若样本点不属于任何簇,则被判定为噪声点,算法使用轮廓系数[32]评价聚类效果的好坏。

3.2.2 参数自适应过程

根据经验确定算法参数的传统办法存在人为干预、需要多次调整迭代的弊端。本研究使用Python语言,采用K- 距离及数学期望法生成K- 平均最近邻距离列表,依次求出每个平均最近距离对应的邻域内样本点数量并生成期望值列表。在此基础上引入密度阈值Density[32]:

(2)

通过绘制Density随K- 平均最近距离变化曲线(图3),观察其急剧变化位置确定参数Eps合理范围,保证聚类精度的同时能够减少传统经验方法的迭代次数。

3.3 结果分析

(1)参数确定

观察图3可知,当K- 平均最近邻距离在(0,0.2)区间范围内变化时,密度阈值在473.29(K=1)及77.62(K=5)两点间急剧下滑,后呈平缓变化趋势。因此判断:参数Eps的合理区间范围在K=2与K=5两点间,即(0.079,0.182);为保证算法聚类精度,参数Min Pts理论上应≥3,则参数Min Pts应在区间[3,5]范围取整,不同取值对应的三维聚类效果不同。缩小参数范围后,能够显著减少工作量。经过少量尝试确定参数Min Pts取值为3或4,且参数Eps取值为0.12或0.15时,能够获得较好的聚类效果,下文针对四种情况做具体分析。

图3 Density随K - 平均最近邻距离变化曲线

(2)三维聚类结果分析

不同参数取值条件下的聚类结果如图4~7所示。

图4 聚类结果(Eps=0.12,Min Pts=3,轮廓系数=0.543,Noise=21.88%)

图5 聚类结果(Eps=0.15,Min Pts=4,轮廓系数=0.543,Noise=21.88%)

观察图4,5发现,Eps=0.12,Min Pts=3及Eps=0.15,Min Pts=4条件下,聚类结果相同,案例在21.88%的噪声空间中聚为3类,单局域网案例以“中心化程度”为维度聚为2簇;具有2个核心局域网的案例聚为一簇,分类维度“中心化程度”未得到体现。此时虽然轮廓系数较高,但7个案例被作为噪声处理,整体聚类效果不理想。

图6 聚类结果(Eps=0.12,Min Pts=4,轮廓系数=0.510,Noise=25%)

观察图6,Eps=0.12,Min Pts=4条件下,单局域网案例聚为3簇,一个单局域网案例被聚类到双局域网案例簇中,双局域网案例的聚类未区分中心化程度不同的案例,且8个案例被作为噪声处理,聚类效果并不理想。

观察图7,Eps=0.15,Min Pts=3条件下,案例聚为4簇,分类维度“核心局域网个数”及“中心化程度”均得到体现,轮廓系数0.507虽不是最高,但不存在噪声样本,整体聚类效果好。

图7 聚类结果(Eps=0.15,Min Pts=3,轮廓系数=0.507,Noise=0.00%)

(3)聚类特征分析

图7中黄点及红点分别代表具有2个核心局域网、中心化程度不同的高校基建合作网络;绿点及蓝点则分别代表仅有1个核心局域网、中心化程度不同的高校基建合作网络;32个案例中共21所高校的基建合作网络呈现1个核心局域网且中心化程度低(案例离散节点比例均大于32.5%),占案例总数的65.63%。前文猜想:“核心局域网个数”及“中心化程度”是高校基建合作网络的两个合理分类维度得到验证,能够为后续合作网络节点信息深度挖掘及有监督学习提供支撑。

4 结论与讨论

本研究基于SNA理论方法构建32所高校的基建合作网络模型,对其拓扑结构进行分析。在此基础上,研究基于自适应参数的DBSCAN算法,分析案例聚类特征,得出以下结论:

(1)不同规模的合作网络都存在向核心关键节点中心化的明显趋势;

(2)从节点属性角度来看,核心关键节点常为大型、复杂的单项基建工程或资质完备的咨询、建筑企业;

(3)“核心局域网个数”及“中心化程度”是高校基建合作网络两个合理的分类维度。

研究成果为后续的高校基建合作网络节点信息深度挖掘及有监督学习提供有力支撑,据此对高校基建管理工作提出以下几点建议:

(1)参建单位成为局域网中的核心节点时,提示可能出现“合作封闭圈”问题。一般情况下,局域网络的数量与形态受大型、复杂基建项目的影响,它们需要不同专业的承包商合作完成,能够吸附边缘节点形成以自身为中心的核心局域网。值得关注的是活跃的中标单位能够将不同的基建项目关联在同一局域网络中,进而形成以基建项目为边界的核心局域网络。

(2)建立高校基建合作网络监控平台,通过基建数据实时处理与动态监测,同时在节点间加入负责人、合同、进度与预算控制等关键信息,提高合作协调程度,促使合作关系健康发展。

辩证地看,高校基建合作网络是一把“双刃剑”,“合作封闭圈”问题是管理者面临的严峻挑战。本研究从网络结构角度深入分析了高校基建合作网络的聚类特征,一定程度上能够丰富高校基建管理理论,促使基建管理工作更加规范、高效。而基于节点属性的不同合作网络结构形成内因分析及如何通过平台建设将基建负责人、合同管理、进度与预算控制等实际信息关联至合作网络节点间等问题,是后续值得深入研究的方向。

猜你喜欢

局域网聚类案例
案例4 奔跑吧,少年!
基于VPN的机房局域网远程控制系统
随机变量分布及统计案例拔高卷
基于DBSACN聚类算法的XML文档聚类
基于802.1Q协议的虚拟局域网技术研究与实现
发生在你我身边的那些治超案例
局域网性能的优化
基于改进的遗传算法的模糊聚类算法
一个模拟案例引发的多重思考
一种层次初始的聚类个数自适应的聚类方法研究