对网络信息计量的几点研究
2009-07-31高青青
高青青
摘要:本文试图从一些特定的领域来阐述网络信息计量学的发展成果和可供发展的方向,主要包括了搜索引擎、网页分布以及网络信息的计量(即影响因子)等方面。笔者认为在目前的网络环境和技术条件下,对网络信息的计量显得困难重重,但随着研究的不断深入和研究工作者的不懈努力,网络信息计量学仍然可以取得长足发展并付之实践。笔者同时认为网络信息计量的前提是对网络结构的计量研究,其中,图论和拓扑结构是很重要的工具。
关键词:网络信息计量;搜索引擎;影响因子;图论分类号:G350
引言
自20世纪90年代中期以来,对互联网的性能方面的研究日益增多,并于初期将其命名为网络文本研究,它主要是把现在信息计量学运用于互联网信息的内容、链接构成以及搜索引擎等方面。1997年正式将这一研究领域称为网络信息计量学,英文名称为“webometrics”或“cybermetrics”[1] 。本文阐述了最近业内对网络信息搜索的研究,并对网页的链接和网络文献的影响因子进行了研究,而且笔者还简述了图论与拓扑学在网络结构研究中的重要作用,希望能从中找出一些具有价值的研究方向。
1网络搜索引擎的查准率与查全率的研究
搜索引擎是网上的导航工具,它是通过采集、标引众多网络站点来提供全局性网络资源控制与检索机制,并对全球网络中所有的信息资源进行集合、整理和分配,方便用户查找所需的信息。虽然搜索引擎越来越多,功能越来越完善,但查全率、查准率、可到达性等都不能尽如人意。这些可以通过网络信息计量的研究结果加以改善。
1997年12月,AltaVista、HotBot、NorthernLight、Excite、Lycos和 Infoseek六个商业网络搜索引擎全面运行,共索引了32亿个网页,但这同时也表明了任何一个网络搜索引擎的检全率都爱到极大的限制,单个搜索引擎最多只能检索网页总量的1/3[2]。之所以如此,原因很多,例如搜索引擎对本站服务器的深入访问必将受到该网站的结构的限制,不同的检索策略与不同的检索词也会关系到搜索引擎的检全率。目前学术界对搜索引擎的研究和报道主要集中于网络的各个站点和网页的链接两个方面,这很现实地把研究重点对准了搜索引擎的覆盖面,说明了搜索引擎的在时间上的序列性与连续性。例如英国文献学家Ingwersen以及Snyder 和 Rosenbaum等人就着重对AltaVista覆盖范围内的网页和站点的链接结构进行了研究,并提出了搜索引擎应该联合起来以促进信息的共享[3]。笔者亦认为这是可行的。搜索引擎的联合有利于对信息的量化,对信息的规范起来了保障作用。同时,搜索引擎在信息网站的选择上也应该有选择地覆盖,这样可以很好的避免信息量大但实用性小的现象,对搜索引擎的检准率是一个很大的帮助。
2网页分布的研究
计算机专家Cronin和McKim提到“网络正在改变着学术交流,任何新的学术理论和著作很快便能在网上共享,我们应该感谢计算机网络”[4]。然而,怎么促进网络信息的更好交流,则需要对各网络站点结构进行量化分析,得出网络结构及其迅速增长的模型,只有如此才能正确地比量出网络信息与网络高速公路的关联。这些正是网络信息计量研究者们需要做的工作。
网络的结构是各网络站点相互链接的反映,而网络链接又使网络文献呈现出各种聚类关系,促使各网站间存在着复杂的引用关系。网络信息计量学的一个重要研究内容便是网络中的Web网页之间的链接引用关系以及同被引与引文耦关系,最终用以揭示站点之间的相关性。互联网是一个由节点和链构成的信息资源网络,是一个非纯属结构的超文本系统,不仅适合表达多媒体信息资源,还善于构造和表示网络信息资源之间的多方面、多层次的复杂关系。
有关网络结构的研究,涉及到计算机、人工智能、拓扑学、社会学、图论等多种学科、领域的知识。一方面各个领域的研究者不得不吸收其它领域的研究方法,而另一方面又使不同领域的研究者都能找到研究切入点。最后导致的结果就是这方面的研究者和研究方法的构成最大化,也是最容易引起争议的研究领域,成为各个相关学科的“必争之地”。
3网页影响因子分析
1997年,Rousseau在他的文章“Stations:An Exploratory Study”中分析了网络站点的分布与内部链接情况。他与后来的Ingwersen一样使用了旧版本的AltaVista进行统计研究,他利用“信息计量学+文献计量学+科学计量学”搜索出了共343个相关网页,通过分析研究,他不仅发现了网络各搜索引擎具有相对独立性,更重要的是他的研究显示这些网页的分布都符合洛特卡定律[5]。
Ingwersen通过对某一国家网站的研究,试图从网络影响因子(Web Impact Factors,Web-IF)来说明网页链接之间的关系[6]。他的主要研究成果体现在三个方面:1)每一个搜索引擎都不可能全部搜集网站,但很多网站的信息都已经被链接进来,自链接不会影响到总体的影响因子。“.com”域名的网络站点的影响因子大约是0.5,但平均影响因子只有0.39;2)某一域名站点的影响因子比其域名网络的影响因子更可靠,而且可以从前者推导出后者;3)通过差异计算可以评价一个搜索引擎的好坏。
此后还有很多学者对网页影响因子进行了大量的研究,但都没能得出一个统一而又具体的标准和计量方法,这也正体现了网络信息计量的复杂性。
其实,就目前网络的规范程度,要对网页进行很实用的影响因子评价还不太具备可操作性。首先,网页的量太大,网络的飞速发展使得网页的数量急剧增长,个人主页、主题页(某一主题的专指网页)、各机构性主页、指南页、资源页等各种网页都在不断地增多,而且新的网页类型也在产生;然后,网页的内容也多样化,不仅哪方面的都有,而且形式也很多样,有视频的、音频的、文字的等等,而且这些内容的产生程序也各不相同。
4用图论来理解网络信息计量学
图论(Graph Theory)是数学的一个分支。它以图为研究对象。图论中的图是由若干给定的点及连接两点的线所构成的图形,这种图形通常用来描述某些事物之间的某种特定关系,用点代表事物,用连接两点的线表示相应两个事物间具有这种关系。图论多用于描述社会关系、生态链以及Internet网络等关系网络,在信息计量学中,图论也发挥了重要作用,例如在引文关系和概念分类系统等方面。理所当然,图论也能在网络信息计量中发挥重要角色,一般的,我们可以用点来表示网页或网络文献,用线来描绘链接关系。
利用图论可以很好地对网络结构进行分析。2000年,布罗德(Broder)等人首先利用图论得出了一个针对网络的结构模型[7]。并且他们利用该模型建立了一个包含2亿网页和15亿链接的数据库,通过研究分析,他们把这些网页分成了五个完全不同的类型:外链性网页,内链性网页,内外链综合性网页,零链接的网页与指示性网页。他们所建立的模型与数据库在网络结构的研究方面价值很大,为人们弄清网络复杂的链接关系提供了很好的基础。
图论的发展过程中,衍生出了一种专门用于计算机领域的学科即拓扑学。在网络领域里,拓扑结构得到完美的运用,我们完全也可以把它当成是网络信息计量的一种运用。目前网络信息的计量问题主要还是集中在网络文献(或网页)的分布研究上,从上文中可以看出,网页的影响因子的研究还很粗浅,笔者认为,在弄清网页的结构并对其结构有一定的理论基础之前,网络信息的计量问题很难取得实质性的进展。因此,利用图论的拓扑学的相关方法和理论来加强对网络的结构研究将会是奠基性工作,这也会是一大难点。
笔者之所以认为对网络结构的研究才是当前最重要的网络信息计量工作主要是因为当前学术界所持的网络信息计量研究的几个重点都寓于其中。网络媒体信息本身的计量研究的实质就是对网络结构的具体研究,各种媒体信息的具体分布,各数据库的组织结构等都和网络结构息息相关;网上文献信息的计量分析主要是考虑著者与文献的分布、文献的增长与老化规律以及引文分析,在这几个因素中,网络结构都起到了支配作用;网页影响因子与数据库中的知识发现的进行也很显然是网络结构基础上的研究工作。因此,加强对网络结构的研究将是网络信息计量的突破口。
5结语
显然,本文所阐述很多都是学术界一致的成果表达,但就笔者看来,当今的网络信息是属于“失控”局面,即不能有一种完善的办法对其进行计量统计。要用一种模式把网络上全部形式的信息都联系在一起不仅技术和理论上都还没达到这个水平,而且基础设施方面也很欠缺;但笔者相信,只要从根本着手,能够对网络结构进行量化统计表述,网络信息的计量问题也就迎刃而解了,为此,笔者认为图论与拓扑结构是很好的研究工具。
参考文献:
[1]邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005(1):1-12.
[2]LAWRENCE, C L GILES.Searching the World Wide Web[J]. Science, 280:98-100.
[3]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54 (2):236-243.
[4]Cronin, G. Mckim.Science and scholarship on the World Wide Web:A North American Perspective[J].Journal of Documentation,1996,(52):163-172
[5]R Rousseau.Sitations:An Exploratory Study[J].Cybermetrics,1997,(1):175-181.
[6]Ingwersen P. The Calculation of Web Impact Factors[J].Journal of Documentation, 1998, 54(2):236-243.
[7]BRODER. Graph structure in the Web[J]. WWW9 Conference.2000.http://www.almaden.ibm.com/cs/k53/www9.final;visited08.11.2000.