APP下载

一种基于小世界模型的EMBA潜在生源挖掘方法

2014-01-07王海泉杨文静

科技视界 2014年31期
关键词:派系爬虫生源

胡 鹤 王海泉 杨 颖 杨文静

(1.北京航空航天大学经济管理学院,中国 北京100191;2.北京航空航天大学软件学院,中国 北京100191;3.北京航空航天大学网络技术北京市重点实验室,中国 北京100191)

0 引言

随着EMBA教育逐渐为社会各界所熟识,EMBA培养院校的招生工作目前面临巨大压力。从市场竞争的格局来看:一方面,国内EMBA院校已经达到64所,加上境外大学的教学项目,在国内招生的EMBA项目已经近百所,而且还有继续扩大的趋势,未来的竞争会更加激烈。另一方面,随着MBA和其他硕士教育的迅速普及,未来EMBA的申请人数量将呈逐年下降的趋势。这使得市场竞争态势更加雪上加霜,商学院必须有所转变,不能取得某一细分市场优势地位的EMBA项目,或者没有建立自己品牌特色的项目将面临生存危机。

在各培养院校的招生过程中,尤其是EMBA项目的市场调研中,如何在庞大的数据、人际关系网络中找到关键节点,进而通过关键节点寻找到适合EMBA招生的生源群体,是目前EMBA招生环节中的关键问题。当今社会的人际关系网络错综复杂,变化万千,如何对人际关系进行系统性的描述和梳理,划分出相应的群体并研究他们的共同特征,是系统科学中十分关键的问题。复杂网络理论由于其具有小世界、集群等特性,十分适用于对社会网络即人际关系网络中的人群进行分类与描述,进而寻找出人际关系网络的关键节点和群体,为寻找出潜在招生对象提供依据。

1 相关工作

现代市场营销职能体系包括商品销售、市场调查研究、生产与供应、创造市场要求和协调平衡公共关系五大职能。对于高等教育市场来看,高等教育提供的产品就是教育,教育市场有市场的需求,同时也具备了价值交换的能力,所以教育活动完全可以与市场接轨参与市场竞争。人际关系网络是一个错综复杂、变化万千的复杂系统。近年来随着复杂网络研究的兴起,人们在这些理论的指导下能够更好的了解和解释现实世界的很多现象,比如反映社区特性的“物以类聚、人以群分”现象、反映小世界特性的“六度分隔”现象,以及反映复杂网络节点的不对等特性的“马太效应”等等。在很好的理解和解释了这些现象的基础上,研究者开始尝试利用这些理论去帮助人们利用这些现象,并开发了很多的实际的应用和系统。例如:城市交通网络、电子商务推荐系统、人际关系挖掘系统等。

近年来,学界关于复杂网络的研究方兴未艾。1998年Watts和Strogatz在Nature杂志上发表文章,引入了小世界(Small-World)网络模型,以描述从完全规则网络到完全随机网络的转变。小世界网络既具有与规则网络类似的聚类特性,又具有与随机网络类似的较小的平均路径长度。二是1999年Barabasi和Albert在Science上发表文章指出,许多实际的复杂网络的连接度分布具有幂律形式。由于幂律分布没有明显的特征长度,该类网络又被称为无标度(Scale-Free)网络。而后科学家们又研究了各种复杂网络的各种特性。

在人际关系网络获取方面,由于网络内不仅节点众多,而且关系的分类也多种多样。因此获取人际关系是一项非常复杂的工程,历史上几次比较大规模的实验也仅仅是采用书信或者政府档案的方式,覆盖面十分有限。随着网络的发展,互联网的内容日新月异,互联网成为了最大的非结构化数据库,使从网络中探索人际关系成为了可能。目前网络的关系获取方法主要有两种:关系搜索引擎和社区资源。关系搜索引擎的的基本原理是利用网络爬虫从网页中抽取出人名、地名、机构名以及中文短语,再根据算法计算出他们存在关系的可能性。现阶段国内的关系搜索引擎有微软人立方 (http://renlifang.msra.cn/)、雅虎人物搜索和搜搜华尔兹(http://tag.soso.com/)。但是由于网页的来源比较复杂,而且存在重名的问题,得到的结果往往不精确,难以真实的表现出真实的人际关系。第二种搜索方式则是利用网络中现有的社区资源,对其信息进行抓取,得到的信息虽然规模有限,但是可以确定所有节点信息,具有更强的结构化特性,更加符合真实人际关系的无标度和小世界特性。

2 基于复杂网络的招生生源社团分析方法

2.1 系统的设计目标与创新点

在整个人际关系网络中,存在一些子网,它们对于其内部的节点具有高类聚性,而对于子网外部节点的连接确相对稀疏的特性,我们称之为人群的社团结构。

通过实现社团划分系统,并对真实人际关系网络进行处理和分析,研究复杂网络社团划分技术在未来人际关系网络处理上的潜在应用以及较以前撒网式处理方式的优势。本系统希望能够对招生生源的人际关系网络进行分析,寻找出人际关系中的关键节点以及关键社团信息,以此为EMBA招生生源选取以及宣传广告的定向投放目标选择提供必要依据。

该方法是对传统市场调查分析、广告宣传领域的再思考,相比广泛撒网式的宣传与调查,该方法具有效率高、定位准确、耗费人力物力较少、资源可重复利用性强等优点,十分适合于解决EMBA面临的招生生源困难这一具体问题。

2.2 网络社区的选择

选取网络社区需要综合考虑多方面因素:

(1)关系要真实有效,即网络的好友关系能比较客观的反映出现实生活中的好友关系。

(2)关系网络要足够大,仅仅包括几千个节点的网络能够在非常短的时间内遍历完毕,不能够反映出来真实人际关系非常难以获取的特点,不具有研究价值。

(3)关系网络可以比较方便的获得,部分网络社区采用了加密设置,非注册用户不能够获得其他人的好友关系,虽然从技术上可以进行破解,但是存在较大的风险。

(4)社区允许爬虫进行抓取,对于需要的页面不存在robot.txt的限制。

(5)服务器比较强大,可以应对每秒钟几百次(包括爬虫的访问次数在内)的请求。

经过对国内较大的几家SNS(社会性网络服务)网站的测试分析,最终选取了聚友网(http://www.myspace.cn)作为实验的样本。聚友网是以SNS为基础的娱乐平台,是全球最大的在线交友平台之一MySpace的中国本地化网站,符合以上几点要求,且服务器可供校园网访问。聚友网(Myspace),是以SNS为基础的娱乐平台,是全球最大的在线交友平台Myspace的中国本地化网站,提供免费的微型博客、个人主页、个人空间、电子相册、博客空间、音乐盒视频上传空间等服务。我们所要采用的Myspace网络是从该网站的众多用户中,使用网络爬虫技术获得的其中的13569个用户,网络中包含了99185条关系,两个节点之间的一条边则意味着相应的两个用户之间互为好友关系。

2.3 招生生源社团分析系统

招生生源社团划分系统包括爬虫获取信息、关系分析、数据读入、数据显示、社团划分和数据显示六个个部分。网络爬虫系统将分析出的典型社会网络信息,经过关系分析处理,最终存储成为网络原始结构数据。用户可以使用社团划分系统读入已有的人际关系网络数据,并让系统对其进行社团划分。在系统运行算法完毕后,将会自动保存对该人际关系网络社团划分后的最终结果,用户可以通过窗口查看各个社团所包含的派系、节点等信息,被查看的社团还可以用图片的形式显示出来。

图1 社会网络信息获取流

图2 系统处理流程

其中各模块的功能如下:

爬虫模块:负责从典型社交网络中获取社交信息。

关系分析模块:负责将社交信息之间的关系进行处理并存储形成网络原始结构数据。

数据读入:读入系统需要分析的原始数据。

数据写出:将经过社团划分系统处理后的数据保存到文档中。

数据显示:在社团划分系统中显示社团划分的结果。

社团划分:核心算法,分为2个部分。第一步,寻找原始数据中所有的派系;第二步,通过派系重叠矩阵划分出k-派系社团。

系统各功能所队型的模块如下表所示:

表1 系统功能分配

3 实验与分析

3.1 招生生源社团分析系统

社团划分系统采用了复杂网络社团划分技术中的派系过滤算法为其主要核心。本章主要是使用社团划分系统分析Myspace这一真实的人际关系网络,将获得的社团结果和统计结果与实际情况相对比,测试核心算法在系统中是否正确的运行,并验证得出利用社团划分系统分析学生的人际关系网络,能够得到合理的社团结构,满足寻找潜在生源的目的,为EMBA招生起到提高宣传推广效率的作用。

聚友网(Myspace),是以SNS为基础的娱乐平台,是全球最大的在线交友平台Myspace的中国本地化网站,提供免费的微型博客、个人主页、个人空间、电子相册、博客空间、音乐盒视频上传空间等服务。我们所要采用的Myspace网络是从该网站的众多用户中,使用网络爬虫技术获得的其中的13569个用户,网络中包含了 99185条关系,两个节点之间的一条边则意味着相应的两个用户之间互为好友关系。下图展示了Myspace的好友关系图。

图3 Myspace网络用户关系展示

3.2 系统分析结果

通过社团划分系统对Myspace网络的分析,我们共获得各派系共12446个,派系社团559个。下图为使用社团划分系统分析Myspace网络后,获得的一个17-派系社团结构(k=17)和一个33-派系社团结构(k=33)。

图4 Myspace网络的一个17-派系社团(k=17)

图5 Myspace网络的一个33-派系社团(k=33)

3.3 结果分析

选取Myspace网络社团划分结果中的3-派系社团(k=3)、4派系社团(k=4)和5派系社团(k=5)作为我们的分析目标。

经统计分析,Myspace网络中3-派系社团(k=3)、4派系社团(k=4)和5派系社团(k=5)的社团大小分布图(Size Distribution)和重叠量分布图(Overlap Distribution)如下图所示。

图 6 Myspace 网络 3、4、5-派系社团(k=3、k=4、k=5)的统计特性

我们可以看到,无论社团大小分布图还是重叠量分布图都大致满足幂律分布,且随着k值的减小,曲线变得更为平滑。但是当k值比较大时,因为社团较少,所以曲线呈现锯齿状图样,这可能是因为在使用网络爬虫技术对Myspace网站进行数据收集时,由于该网站用户数量十分的庞大,网络爬虫并没有存储所有的用户信息,而只是选取了其中13569个用户来组成的Myspace网络。尽管Myspace网络基本满足应有的小世界及无标度特性,但从上图可以看出,其数据集仍然存在着缺陷。

3.4 小结

3.4.1 测试结果

首先,系统总体效率需要提高,无论是派系过滤算法还是系统其它功能,在分析Myspace网络中效率都显得比较低,这在之前分析较小规模的网络上并不是十分明显。然后,社团划分的统计结果在大体上还是满足幂律分布的,本文认为这是因为Myspace网络数据集存在的缺陷引起的,并不是因为社团划分系统算法运行的问题。考虑到Myspace网站庞大的用户数量、测试条件与个人能力的限制,总体测试的结果还是可以接受的。最后,尽管派系过滤算法本身的时间复杂度偏高、计算量大,但是在更新更快的社团划分算法开发出来之前,它是分析大型复杂网络社团结构最符合实际要求的算法。

3.4.2 应用验证

Mysapce网络规模较大,因此要想直接观察其社团结构是非常不方便的,所以我们采用社团结构的统计特性来进行验证。对社团划分系统分析Myspace网络所获得的社团结构进行统计分析,我们可以看出社团划分系统在大型人际关系网络分析中依然可以获得合理的结果。学校招生应用中,即使面对大规模的学生人际关系网络,也能够得到较为准确的结果,这在提高学校招生宣传的精准度上有良好促进作用。

4 结束语

本文通过对市场营销理论的研究,对如何将教育营销理论融入到EMBA招生这一具体问题进行了分析与探讨。本文通过将复杂网络理论引入教育营销中,分析人际关系网络中的复杂网络特性,尤其是其聚集聚团性,并根据该性质设计并实现了一套适用于EMBA招生生源获取的人际关系社团分析系统。对典型的社会网络(Myspace网络)实例的分析结果表明,该社团分析系统可以很好的对人际关系网络社团性质进行发现和获取,为学校招生应用中,即使面对大规模的学生人际关系网络,也能够得到较为准确的结果,这在提高学校招生宣传的精准度上有良好促进作用。

[1]张新民.中国EMBA教育透视[J].企业管理,2004(05).

[2]曾小军.民办高校引入营销理念与招生策略研究[J].教育导刊,2009(09).

[3]周广训.谈高校营销的特点[J].中国成人教育,2004(09).

[4]徐芳.教育营销和教育营销战略[J].广东职业技术师范学院学报,2001(1):7.

[5]林进奎.营销创新与教育营销[J].东岳论丛,2004(03).

[6]惠曦.高等教育营销策略初探[J].辽宁教育研究,2002(09).

猜你喜欢

派系爬虫生源
长洲怡生源记货单考论
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
农村生源不是“摇钱树”
利用爬虫技术的Geo-Gnutel la VANET流量采集
“派系撕裂校园”:暨南大学驱长风潮研究(1933—1934)
大数据环境下基于python的网络爬虫技术
派系政治与农民上访的逻辑
学院派系
民進黨派系新動向