博客中国虚拟社群的社会网络分析
2011-02-15高志伟李艳松
高志伟, 李艳松, 范 玉
(1.石家庄铁道大学 信息科学与技术学院,河北 石家庄 050043;2.中国教育部信息中心,北京 100816)
0 博客介绍
中国互联网协会副理事长高卢麟2009 年1 月说,截至2008 年11 月底,我国博客空间超过1 亿,博客作者规模超过5 000 万人,其中活跃博客作者( 平均每个月更新一次以上) 1 691.3 万人,博客读者已达1亿人以上。博客数和博客用户数均比去年有一定程度的增长,人均拥有博客数与去年相比也略有上升。现在,博客已经成为了互联网上最受欢迎、发展最快的应用之一。相应地,学界对于博客的研究也一直层出不穷,研究领域更是跨越了计算机网络技术、传播学、新闻学、社会学等各个学科。
1 博客社会网络研究现状
目前,国内的博客研究主要还是在传播学的基本框架下进行的。研究视野显得单一而狭窄,而国外的博客研究开始延展到社会学、经济学、人类学、人种学、符号学等多种研究视角。同时,国内的博客研究的话题较雷同,低层次重复研究的现象较为严重。在博客研究中,研究方法与手段是一个瓶颈,多数论文无研究方法可言,而少数运用了一定方法的研究项目,也不同程度存在着手段不够科学、完善的问题。研究方法和手段的缺失制约着博客研究向更广的领域和更深的层次拓展[1]。借鉴国外博客发展经验及其研究成果,通过引入社会网络分析技术,将研究重点集中到博客中国网站上,目的在于社会网络分析法在分析数据方面比较单一,具有个体的代表性。文中均采自2010 年3 月至10 月之间的数据,因为一个Blog页面上的链接不是随时更改的,所以可以认为该博客子图的结构在一段时间内是相对稳定的。
2 博客信息模型数据的提取
研究的关键是博客实际数据( 博客地址) 的提取,系统采用JAVA 语言来开发,使用ECLIPSE 作为开发环境,数据库使用SQL SERVER2000,系统的设计采用到JAVA 语言的多方面,例如多线程。通过分析博客网页特征,使用开源的全文检索引擎工具包LUCENE[2]索引网页数据信息,并使用纯JAVA 写的HTML 解析库HTML Parser 和正则表达式两种提取网页文本信息的方式,提取博客网页地址。
为实现对博客数据信息的提取,将整个处理过程分成几大模块:初始URL 选择、Web Spider 抓取、提取预处理、页面分析提取、数据存储。其系统模型如图1 所示。
图1 所示的抽象图给出了该系统的流程如下:首先从Web 中抓取页面,然后将抓取到的页面进行页面分析,再对页面链接进行相应的提取操作,最后再将提取结果信息存入数据库。信息提取时,首先利用HTML Parser 递归提取各层链接的信息,然后利用正则表达式对各链接对应页面进行信息提取。提取博客地址信息算法如下:
图1 系统提取模型
(1) 通过使用HTML Parser 中的nodeIterator 接口,可以得到页面中需要提取的Title、Image 和Link 等信息。同时,使用HTML Parser API 编写的Filter Bean 和String Bean 两个类,获取到URL 页面文档显示的所有文本信息,将URL 页面的所有文本内容存入文本文件中。
(2) 系统使用类DBConnect 建立到SQL SERVER2000 数据库的连接,同时使用execute Query( ) 方法和execute Update( ) 方法,分别执行产生单个结果集及根据参数不同执行插入、更新、删除等操作。
(3) 分析所有博客链接页面并将提取信息存入数据库。
其中,HTML Parser 提供了提取文本信息的API,可以用来方便的提取特定文本。而正则表达式[3]是功能强大的文本分析工具,正则表达式对象用来规范一个规范的表达式( 也就是表达式符不符合特定的要求,比如是不是Blog 网页地址格式) ,它可以通过自定义的正则模式去精确地提取文本信息。
3 Pajek 在博客网络可视化研究中的应用
博客网络的建立遵循相关规则,将博客地址作为节点,将每两位有链接的博客用一条线连接,构成了博客实际网络图。由于研究的博客的关系是独立的,因此所建立的是有向、有权重网络。
信息提取到所有的博客好友链接后,提取的数据需要转换成相应的格式才能导入软件进行分析,研究选用社会网络分析及可视化工具Pajek[4]对提取的社会网络的数据行分析。转换后的数据格式为Pajek软件所需格式,根据此格式将数据导入Pajek 软件,可视化博客网络。图2 显示了转化后的Pajek 所需数据格式。
4 研究结果及分析
将提取的博客网络进行导出,导出的结果如图3 所示,入度由节点的大小来标定。
该博客网络的节点数N =8 663,平均入度和平均出度值为5.12,累计入度和出度的分布如图4 所示。图的出度和入度均为幂律分布,提取的子图具有明显的无标度特性,其聚类系数为0.23( 远大于具有同样结点总数和平均度的ER 随机图的聚类系数) 。
通过使用社会网络分析[5]理论及可视化分析理论测量社会网络的各种指标,得出对一个社会网络( 即博客中国构成的社会网络) 的理性认识。使用Pajek 测量分析结论如表1 所示。
图2 转化后的Pajek 所需数据格式
图3 博客网络导出图
图4 博客网分布图
密度指的是一个社群图中各个点之间联络的紧密程度( 在本次研究当中,即各个独立的博客之间的联络紧密程度) ,网络密度用来衡量相关网络链接数,范围介于0 到1。密度值越大说明网络连接越紧密,此博客网络链接密度为0.008,这表明该网络链接联结不高。其“中心性”是社会网络分析的重点之一,本文测量的是网络局部中心性,测量得知博客网络的点度中心度为0.23。社会网络研究表明,博客( 节点)的社会成就与其在社会网络中的位置有紧密联系,博客的位置可使用点度中心度进行分析。同时,使用Pajek 测量博客网络的内中心势为0.016,外中心势为0.163,整体中心势为0.096。可见,相对于整个网络的中心点博客并不存在。
表1 社会网络分析结果
5 结论
通过编程提取博客网络真实数据信息,再利用可视化工具可视化博客网络链接情况,得到了博客间链接信息的一个大致特点。研究数据显示,局部特定的范围内,少数博客呈现出连接较充分的情况。但是,整体博客网络连接密度较低、网络向心趋势不明显,博客之间的交流仍然比较分散和单一。相信随着这方面的研究越来越深入,博客社会网络的研究会越来越得到重视。
[1]周海英.我国博客研究现状的实证分析[J].当代传播,2006,9(4) : 55-57.
[2]于天恩. 搜索引擎开发权威经典[M].北京:中国铁道出版社,2008.
[3]邱哲,符滔滔. 搜索引擎lucene 2.0 +Heritrix[M].北京:人民邮电出版社,2007.
[4]孟微,庞景安. PAJEK 在情报学合著网络可视化研究中的应用[J].情报理论与实践,2008,31(4) :573-575.
[5]Jia Lin,Alexander Halavais,Bin Zhang. The Blog network in America: Blogs as indicators of relationships among US cities[J].INSNA,2007,27(2) : 15-23.